Conference Agenda

Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).

 
 
Presentations including 'To Score or Not to Score? Machbarkeits- und Performanzfaktoren für automatisches Scoring von Textantworten'

H-07: Abitur und automatisches Scoring
Time: 02/Mar/2023: 3:30pm-5:15pm · Location: S05 T00 B59

Individual contribution

To Score or Not to Score? Machbarkeits- und Performanzfaktoren für automatisches Scoring von Textantworten

Torsten Zesch1, Andrea Horbach1, Fabian Zehner2,3

1FernUniversität Hagen; 2DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland; 3Zentrum für Internationale Bildungsvergleichsstudien (ZIB)

Das Bewerten (d.h., Scoren) von Textantworten in Tests kann inzwischen durch die Verwendung von Methoden zur Verarbeitung natürlicher Sprache und maschinellem Lernen automatisch erfolgen (Yan, Rupp & Foltz, 2020). Ob dies jedoch für ein gegebenes Anwendungsszenario machbar und mit ausreichender Genauigkeit möglich ist, hängt von einer Vielzahl von Faktoren ab. Dieser Beitrag systematisiert diese Faktoren in einem Rahmenmodell auf der Grundlage neuer empirischer Befunde und der Integration empirischer Literaturbefunde, um so Forschenden eine a-priori Abschätzung zu ermöglichen, ob die automatische Auswertung der Textantworten für eine bestimmte Studie oder Testanwendung sinnvoll, effizient und akkurat umsetzbar ist. Wir argumentieren, dass die Performanz (d.h., die Übereinstimmung mit der menschlichen Bewertung) primär von der linguistischen Varianz in den Textantworten abhängt, und erweitern dafür das von Horbach und Zesch (2019) vorgeschlagene Modell um eine zusätzliche Komponente.

Der Vortrag wird die aktuell vorhandenen Methodenparadigmen einführen, die drei Komponenten linguistischer Varianz spezifizieren und das vorgeschlagene Rahmenmodell bezüglich relevanter Einflussfaktoren, die höhere oder niedrigere Varianz bedingen, diskutieren.

Linguistische Varianz und Performanz

Alle Methodenparadigmen haben grundsätzlich gemeinsam, dass sie eher hohe Übereinstimmungswerte mit der menschlichen Bewertung erzielen, wenn die Antworten, die von einer Aufgabe evoziert werden, wenig Varianz aufweisen. Muss das Scoringmodell nämlich nur wenig Informationen über richtige Antworten enthalten, können diese leichter von Expert*innen gebildet oder vom maschinellen Lernen identifiziert werden. Das heißt, wenn eine Aufgabe etwa nur nach dem Namen einer Protagonistin fragt, ist die resultierende Varianz der Textantworten sehr gering, da grundsätzlich nur Personennamen aus dem Stimulus als relevante Antworten in Frage kommen. Horbach und Zesch (2019) sprechen von konzeptueller Varianz, um zu unterscheiden, wie viele semantisch distinkte Konzepte in den Antworten benannt werden. Gibt es im Stimulus etwa nur zwei Personennamen, fällt die Varianz geringer aus, als wenn Tolstois ‘Krieg und Frieden‘ gelesen wurde. Auch der Bewertungsskopus, also ob das Benennen verschiedener Konzepte zur Antwortrichtigkeit führen kann, trägt zur linguistischen Varianz innerhalb der richtigen Antworten bei. Neben richtigen Antworten determinieren außerdem noch die Vielfalt typischer assoziierter Misskonzepte die resultierende sprachliche Varianz in den Antworten.

Ein und dasselbe Konzept kann in natürlicher Sprache häufig auf verschiedenste Weisen ausgedrückt werden ("Philine" vs. "Die Protagonistin heißt Filine"), was von Horbach und Zesch (2019) als Realisierungsvarianz verstanden wird. Bei dieser Komponente kommen sprachliche

Phänomene wie Paraphrasierung oder implizite Sprache zum Tragen, aber auch abweichende Schreibweisen, Grammatik- und Rechtschreibfehler.

Neben der konzeptuellen und Realisierungsvarianz bringt außerdem noch nonkonformes Antwortverhalten Varianz in die Textdaten, etwa durch thematisch abweichende, Nonsense- oder beleidigende Antworten wie auch Täuschungsversuche.

Rahmenmodell für determinierende Faktoren

Während der Abstract die einzelnen Faktoren nur andeuten kann, wird im Vortrag das Zusammenspiel der Faktoren und obengenannten Facetten wie Methodenparadigma und Varianzkomponenten beleuchtet. Das Rahmenmodell unterscheidet Faktoren, die für das automatische System zugänglich sind – wie Antwortlänge, Anzahl der Kodierungskategorien, Trainingsdatenumfang und Testsprache – sowie solche, die für das System nicht sichtbar sind – wie Aufgabentyp, Antwortmodalität, menschliche Übereinstimmungsrate und Populationseffekte. Die Machbarkeit wird vor allem durch die individuelle oder institutionelle Wichtigkeit der Testwertinterpretation determiniert, aber auch rechtlicher und ethischer Rahmenbedingungen, der Anforderung nach individueller Rückmeldung, computationalen Anforderungen und nicht zuletzt finanziellen und ökologischen Kosten.

Conclusio

Der Beitrag systematisiert determinierende Faktoren der Machbarkeit und Genauigkeit automatischer Bewertung. Das vorgeschlagene Rahmenmodell bietet Forschenden die Möglichkeit, im Vorfeld der Studienplanung oder Testanwendung in etwa einzuschätzen, ob die Entwicklung einer automatischen Bewertung machbar und womöglich performant sein wird.

 
 
Contact and Legal Notice · Contact Address:
Privacy Statement · Conference: GEBF 2023
Conference Software: ConfTool Pro 2.8.99+TC
© 2001–2023 by Dr. H. Weinreich, Hamburg, Germany