Gebrauchsfertige, Open Source Large Language Models auf Hugging Face
als Forschungsinfrastruktur für die standardisierte Inhaltsanalyse von Texten
Herzlich Willkommen!
Der vorliegende Beitrag untersucht das Potenzial gebrauchsfertiger LLMs auf Hugging Face als Forschungsinfrastruktur für die standardisierte Inhaltsanalyse von Texten. Dabei werden drei Modelltypen für die Textcodierung vorgestellt: (1) kategoriespezifische Encoder-Modelle, (2) aufgabenspezifische Encoder-Modelle und (3) universelle Decoder-Modelle. In der hier vorliegenden, detaillierten Anleitung wird die Anwendung der drei Modelltypen über die Hugging Face-Bibliothek für die Textcodierung erläutert. In einer empirischen Beispielstudie illustrieren wir den Einsatz und die Validierung der drei Modelltypen sowie den Vergleich mit herkömmlichen Methoden der standardisierten Inhaltsanalyse: der diktionärsbasierten Analyse und der Analyse mittels überwachter maschineller Lernalgorithmen. Die Ergebnisse zeigen, dass LLM-basierte Verfahren über Hugging Face vergleichsweise einfach zugänglich, anpassungsfähig, gut skalierbar und kostengünstig sind und eine hohe Leistungsfähigkeit aufweisen, die mit manuellen Inhaltsanalysen konkurrieren kann.
Wir dokumentieren Schritt für Schritt, wie Sie die Beispiele aus diesem Artikel selbst ausprobieren können. Mithilfe der zur Verfügung gestellten Notebooks können Sie die vorgestellten Analyseverfahren ganz einfach auf eigene Texte anwenden und auch andere, über Hugging Face zur Verfügung gestellte Modelle für die Inhaltsanalyse von Texten nutzen. Nach einer einmaligen Installation von Python und allen benötigten Paketen sind nur wenige Schritte der Vorbereitung notwendig. Danach können wir unsere Texte mit einem kategoriespezifischen Encoder-Modell, einem aufgabenspezifischen Encoder-Modell oder einem universellen Decoder-Modell codieren.