Automatisierte Diskursanalyse in der Klimaforschung: Ein LLM-gestützter Ansatz für qualitative Textauswertung
Yannick Walter, Lukas Hüppauff
Universität Hamburg, Deutschland
Dieser Beitrag stellt eine neuartige Methodik zur Verknüpfung qualitativer Diskursanalyse mit Machine-Learning-Verfahren vor, entwickelt im Projekt Klimawende Ausblick an der Universität Hamburg gemeinsam mit dem House of Computing and Data Science(Koch et al. 2022; Aykut et al. 2024). Aufbauend auf einer Kritik an klassischen Topic-Modelling-Ansätzen, die häufig die methodologischen Prämissen qualitativer Forschung vernachlässigen und wenig interpretativ analysieren (vgl hierzu u. a. Qiao und Williams 2021; Rabitz et al. 2021; Uthirapathy und Sandanam 2023), kombiniert unsere Vorgehensweise induktive Frame-Analyse nach Robert M. Entmann mit automatisierten Annotationsprozessen mithilfe des Large Language Models Gemma von Google in einer eigens dafür entwickelten Software (Discourse Analysis Tool Suite, DATS).
Ziel ist die Analyse von 10.000 bis 20.000 Artikeln aus Wochen- und Tageszeitungen. Die Auswertung erfolgt in drei Schritten: Zunächst wird ein Teilkorpus manuell kodiert, um zentrale Frames zu identifizieren. Diese dienen als Trainingsdaten für das LLM, das anschließend ähnliche Frames in weiteren Texten erkennt. Die automatisch codierten Stellen werden anschließend überprüft und validiert. Dieser iterative Prozess – manuelle Kodierung, LLM-gestützte Annotation, Validierung – ermöglicht eine sukzessive Ausweitung der Analyse und erhöht die Reliabilität.
Im Vortrag werden neben der technischen Umsetzung des LLM-basierten Workflows auch die methodischen Vorteile gegenüber Topic-Modelling diskutiert – insbesondere die iterative Validierung, die explizite Einbettung in qualitative Forschungstraditionen und die transparente Kodierung, sodass alle Schritte nachvollziehbar bleiben. Abschließend gibt der Beitrag einen Ausblick darauf, wie qualitative Methoden und Machine Learning künftig noch enger verzahnt und weiterentwickelt werden können.
Co-Kodieren mit generativer KI: Einsatz von LLMs in der systematischen Literaturanalyse
Lea Greminger
Weizenbaum-Institut, Deutschland
Die breite Einführung generativer KI bringt nicht nur Umbrüche in der Arbeitswelt mit sich, sondern eröffnet auch neue methodische Möglichkeiten für die sozialwissenschaftliche Forschung. Erste Studien betonen das Potenzial generativer KI für die induktive Kategorienbildung, deduktives Kodieren und systematische Literaturanalyse (Chew et al., 2023; De Paoli, 2024; Ye et al., 2024). Dennoch fehlen bislang etablierte Standards für deren methodisch fundierte Anwendung. Viele methodologischen und epistemologischen Herausforderungen bleiben ungelöst – insbesondere hinsichtlich der Validität generierter Kategorien und der Transparenz maschinengestützter Auswertungsprozesse.
In einer interdisziplinären systematischen Literaturanalyse untersuchen wir den Einfluss generativer KI auf verschiedene Berufsfelder und Tätigkeiten. Aus einem Korpus von über 2.700 identifizierten Studien wurden 590 Artikel für eine vertiefte Analyse ausgewählt. Um die inhaltliche Vielfalt und die große Datenmenge zu bewältigen, integrieren wir ein Large Language Model (LLM) in die Datenannotation und qualitative thematische Analyse (Braun & Clarke, 2022). Das Sprachmodell wird dabei einerseits iterative in die Entwicklung eines Kodierschemas eingebunden – in engem Zusammenspiel mit drei Forschenden, die das LLM als dialogisches Werkzeug zur Strukturierung und thematischen Verdichtung nutzen. Andererseits erfolgt eine deduktive Kodierung basierend auf einem systematischen, anerkannten Klassifikationssystem (ISCO-80). Das LLM unterliegt kontinuierlicher Validierung und regelmäßigen Qualitätskontrollen. Unser Beitrag zeigt, dass Sprachmodelle gezielt in qualitative Analyse-Workflows eingebettet werden können, ohne dabei die Prinzipien qualitativer Forschung zu unterlaufen. Die entwickelte Methodik trägt zur Definition belastbarer Standards und langfristig zu einem kritisch reflektierten, methodologisch fundierten Einsatz von LLMs in der qualitativen Sozialforschung bei.
Grounded Theory und Topic Modelling. Methodologische und Forschungspraktische Verzahnungen auf Grundlage pragmatistischer Methodologie
Marius Meinhof
TU Dresden, Deutschland
Seit Laura Nelsons einflussreichem Aufsatz zur “Computational Grounded Theory” haben verschiedene Autor:innen im Bereich der Big Data Forschung eine Verknüpfung von Topic Modelling und Grounded Theory gefordert. Topic Modelling und Grounded Theory teilen die Grundannahme, dass Forschung ein iterativer Prozess ist, in dem Daten, Analyse und Theorieentwicklung eng miteinander verflochten sind. Beim Topic Modelling geschieht dies durch die iterative Anpassung des Modells, um sinnvolle und interpretierbare Topics zu erzeugen. In der Grounded Theory erfolgt dies durch den zyklischen Prozess aus Datenerhebung, Kodierung, Vergleich und theoretischer Sättigung.
In meinem Vortrag argumentiere ich, wie eine Verzahnung von Topic Modelling und Grounded Theory durch die pragmatistische Methodologie der Grounded Theory begründet werden kann. Ich stelle dar, warum bisherige Ansätze etwa von Laura Nelson dem Potenzial zur Verknüpfung von Topic Modelling und Grounded Theory nicht gerecht werden. Anschließend stelle ich dar, wie das iterativ-zyklische Verfahren der Grounded Theory und dessen erkenntnistheoretische Begründung durch Strauss im Anschluss an pragmatistische Erkenntnistheorie eine methodologisch fundierte und praktisch sinnvolle Grundlage für die Verzahnung beider Ansätze bieten kann. Ich verdeutliche dabei forschungspraktische Konsequenzen meiner Überlegungen anhand von meiner Forschungen zu Diskursen über Familienwerte in China.
Neue Zugänge für Forschung durch Machine Learning und NLP am Beispiel von EduTopics
Alexander Christ
DIPF Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland
Die Analysen großer Literaturkorpora mittels NLP, Machine Learning und Clustering-Verfahren ist nicht nur für Forschungssynthesen und Szientometrie (O’Mara-Eves et al., 2015; Michie et al., 2017; Srinivasa, 2019) besonders relevant, sondern ihre Ergebnisse können auch neue Zugänge für Forschende ermöglichen. Ergebnisse algorithmischer Analysen können so mit qualitativen Herangehensweisen theoretisch eingeordnet werden, wodurch – aus qualitativ-paradigmatischer Perspektive – ein Zugang zu Daten ermöglicht wurde der vorher nicht vorhanden war und – aus NLP-/Machine-Learning-Perspektive – die ggf. eher diffusen Ergebnisse auch einem fachkundigen Blick unterzogen wurden. So entsteht eine Wechselwirkung zwischen beiden Paradigmen, die beide Seiten informiert und das Ganze mehr als zu der Summe seiner Teile macht. Dies kann insbesondere dann ermöglicht werden, wenn die Ergebnisse nicht nur in klassischer Form publiziert werden, sondern ein niederschwelliger und interaktiver Zugang zu ihnen ermöglicht wird.
In diesem Vortrag wird ein Beispiel für die webbasierte, interaktive Bereitstellung von Ergebnissen von Machine-Learning und NLP-Analysen vorgestellt und diskutiert, die kostenlose Open-Access-WebApp EduTopics (Christ et al., 2024; url: https://dipf-lis.shinyapps.io/EduTopicsECER/): Sie bietet Nutzer:innen den Zugang zu Ergebnissen und Visualisierungen eines Topic Models und bibliographischer Daten (z.B. Autor:innen, Affiliationsland) der über n = 32.000 Beiträge zur European Conference on Educational Research seit 1998. Durch die interaktiv-manipulierbare Darstellung der Ergebnisse können Nutzer:innen unter anderem die k = 50 zentralen Topics des Korpus, Autor-Kooperations-Graphen oder Ergebnisse des Topic Modellings geclustert nach Affiliationsland, Jahr oder EERA-Netzwerk (EERA-Äquivalente zu DGS-Sektionen) explorieren und interpretieren.
Topic Modelling und interpretative Erzählanalyse
Michael Corsten1, Ulrich Heid2, Patrick Kahle3, Fritz Kliche2
1Universität Hildesheim, Institut für Sozialwissenschaften, Deutschland; 2Universität Hildesheim, Informationswissenschaft und Sprachtechnologie, Deutschland; 3Universität Bielefeld, Graduate School in History and Sociology, Deutschland
Auf Latent Dirichlet Allocation (LDA) beruhendes Topic Modeling (Blei et al. 2003) wird eingesetzt, um Themen und lexikalisches Material in Textsammlungen zu identifizieren und Wahrscheinlichkeitsverteilungen von Wörtern und Themen in einem Korpus zu beschreiben.
Grootendorst (2022) legt mit BERTopic einen Topic-Modeling-Ansatz vor, der auf der Verortung von Wörtern, Sätzen und Abschnitten von Texten im Embedding-Raum von Transformern aufsetzt. Dem Ansatz liegt zugrunde, dass sich Textstücke ähnlich sind, wenn sie im Embedding-Raum nahe beieinanderliegen; TF-IDF erlaubt es anschließend, Wörter zu finden, die für ein Thema prominent sind.
Im Rahmen von Arbeiten zur interpretativen Analyse von Lebenslauf-Erzählungen wurde untersucht, welche Topics aus einer Kollektion von Lebenslaufbeschreibungen extrahiert werden, wenn BERTopic in einem Bottom-up-Ansatz verwendet wird, und wie sich die Topics unterscheiden, wenn Seeded Topic Modeling verwendet wird, also bestimmte aus theoretischer Sicht oder aus der vorgängigen Topic-Analyse erwartete Wörter bestimmten Topics vorgegeben werden, um die Generierung der Topics zu steuern (vgl. Kahle und Kliche, 2022).
Dies eröffnete die methodische Möglichkeit eines dreifachen Vergleichs der Güte der Resultate einer humanen interpretativen Analyse, eines Bottom-up Topic Modeling und eines Seeded Topic Modeling. Im Projekt, das Textkorpora aus der soziologischen Biographieforschung (Beetz et al 2014), der Oral History (Niethammer et al. 1990, v. Plato 1994) und soziologischen Expert:innen-Interviews (Corsten/Kahle 2020) exploriert hat, konnten so auf qualitative (regelbasierte) und quantitative (stochastische) Weise Beurteilungen der Güte der human und maschinell vorgenommenen Klassifikationen/Interpretationen vorgenommen werden. Dabei lassen sich Fälle zeigen, in denen Ergebnisse der Topic-Modeling-Verfahren auch in regelbasierter Beurteilung interpretativ angemessene Zuordnungen lieferten bzw. auch statistisch zuverlässige Zuordnungen (z. B. gemäß Krippendorffs Alpha oder Cohens Kappa) durch humane Klassifikation aufwiesen.
Blei, D. M., Ng, A. Y. und Jordan, M. I. (2003): Latent dirichlet allocation: In: The Journal of Machine Learning Research, Volume 3, Pages 993-1022
Grootendorst, M. (2022): BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv:2203.05794. https://doi.org/10.48550/arXiv.2203.05794
|