Beispielstudie

Sentiment-Analyse als Beispiel

Als Ergänzung zum schematischen Überblick (s. Anleitung und Abschn. 4 im Paper) demonstrieren wir nun den Einsatz LLM-basierter Verfahren via Hugging Face für die AIA anhand einer Beispielstudie. Als Anwendungsfall dient die Sentimentanalyse (d. h., die Codierung der Tonalität von Texten), eine zentrale Variante kommunikationswissenschaftlicher Inhaltsanalysen, besonders im automatisierten Bereich (vgl. Kessler et al., 2023, S. 18). Verglichen mit komplexeren Konstrukten wie Inzivilität (vgl. Stoll et al., 2025, S. 351–352) ist Tonalität leicht verständlich und eignet sich daher gut als Beispiel.

Die Beispielstudie soll drei Beiträge leisten: Erstens soll der praxisnahe und ausführlich kommentierte Code zur Beispielstudie Leser*innen eine weitere Grundlage für die eigene Anwendung der Verfahren bieten. Zweitens erfordert der Einsatz von Off-the-Shelf-Ressourcen für die AIA stets eine Validierung (vgl. Grimmer & Stewart, 2013, S. 271), das gilt auch für LLM-basierte Verfahren (vgl. Weber & Reichardt, 2023). Die Beispielstudie demonstriert eine solche Validierung durch den Vergleich der Codierung von LLM-basierten Verfahren mit einem Goldstandard, d. h., einem von Expert*innen manuell codierten Datensatz mit hoher Validität und Reliabilität. Drittens stehen Forscher*innen oft vor der Herausforderung, dass sich verschiedene AIA-Verfahren für die Codierung einer Kategorie anbieten. In diesem Fall empfiehlt es sich, die Leistungsfähigkeit LLM-basierter Verfahren für den untersuchten Kontext mit anderen AIA-Methoden zu vergleichen. Ein solcher Vergleich erfüllt meist nicht die Ansprüche an eine Methodenevaluationsstudie (vgl. für solche Studien bspw. Laurer et al. (2024); Törnberg (2025); Viehmann et al. (2023); Widmann & Wich (2023)), sondern dient dazu, das beste Verfahren für den jeweiligen Kontext zu identifizieren. Die Beispielstudie illustriert das Vorgehen.

Als Datengrundlage für die Beispielstudie diente das Untersuchungsmaterial einer Inhaltsanalyse von Spatzenegger (2020), das insgesamt 3.054 deutschsprachige Beiträge in drei verschiedenen Textsorten umfasst: Tageszeitungsartikel (n = 862), Facebook-Posts (n = 1.156) und Tweets (n = 1.036). Die Beiträge wurden in Deutschland, Österreich und der Schweiz zwischen dem 09.03.2019 und 31.05.2019 veröffentlicht. Die Online- als auch Offline-Zeitungsartikel stammen von jeweils einer Qualitäts- und Boulevardzeitung pro Land; die Social-Media-Beiträge von drei Politiker*innen pro Land. Spatzenegger (2020) hat in ihrer Studie das gesamte Material manuell codiert, unter anderem hinsichtlich der Tonalität der Beiträge. Die Weiterverwendung dieser Daten war forschungsökonomisch sinnvoll und ermöglichte es uns zudem, auf die manuelle Codierung von Spatzenegger (2020) zurückzugreifen (z. B. für das Training der maschinellen Lernverfahren).

Literatur

Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis, 21(3), 267–297. https://doi.org/10/f458q9
Kessler, S. H., Sommer, K., Humprecht, E., & Oehmer-Pedrazzi, F. (2023). Manuelle standardisierte Inhaltsanalyse. In F. Oehmer-Pedrazzi, S. H. Kessler, E. Humprecht, K. Sommer, & L. Castro (Hrsg.), Standardisierte Inhaltsanalyse in der Kommunikationswissenschaft – Standardized Content Analysis in Communication Research: Ein Handbuch - A Handbook (S. 9–21). Springer Fachmedien. https://doi.org/10.1007/978-3-658-36179-2_2
Laurer, M., Atteveldt, W. van, Casas, A., & Welbers, K. (2024). Less Annotating, More Classifying: Addressing the Data Scarcity Issue of Supervised Machine Learning with Deep Transfer Learning and BERT-NLI. Political Analysis, 32(1), 84–100. https://doi.org/10/gsgptm
Spatzenegger, A. (2020). Social Media als Quelle journalistischer Arbeit. Journalistik, 3(3), 197–215. https://doi.org/10/g8336z
Stoll, A., Yu, J., Andrich, A., & Domahidi, E. (2025). Classification Bias of LLMs in Detecting Incivility towards Female and Male Politicians in German Social Media Discourse. Communication Methods and Measures, 19(4), 350–368. https://doi.org/10.1080/19312458.2025.2551693
Törnberg, P. (2025). Large Language Models Outperform Expert Coders and Supervised Classifiers at Annotating Political Social Media Messages. Social Science Computer Review, 43(6), 1181–1195. https://doi.org/10.1177/08944393241286471
Viehmann, C., Beck, T., Maurer, M., Quiring, O., & Gurevych, I. (2023). Investigating Opinions on Public Policies in Digital Media: Setting up a Supervised Machine Learning Tool for Stance Classification. Communication Methods and Measures, 17(2), 150–184. https://doi.org/10/gsr7sv
Weber, M., & Reichardt, M. (2023, Dezember 30). Evaluation Is All You Need. Prompting Generative Large Language Models for Annotation Tasks in the Social Sciences. A Primer Using Open Models. https://doi.org/10.48550/arXiv.2401.00284
Widmann, T., & Wich, M. (2023). Creating and Comparing Dictionary, Word Embedding, and Transformer-Based Models to Measure Discrete Emotions in German Political Text. Political Analysis, 31(4), 626–641. https://doi.org/10/gr9dpq