Conference Agenda

Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).

 
 
Presentations including 'Mehr als nur Technologie- und Fairnessfrage: Ethische Prinzipien beim automatischen Bewerten von Textantworten aus Tests'

H-09: Cheating und automatisches Scoring
Time: 02/Mar/2023: 3:30pm-5:15pm · Location: S05 T00 B83

Individual contribution

Mehr als nur Technologie- und Fairnessfrage: Ethische Prinzipien beim automatischen Bewerten von Textantworten aus Tests

Fabian Zehner1,2, Torsten Zesch3, Andrea Horbach3

1DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, Deutschland; 2Zentrum für Internationale Bildungsvergleichsstudien (ZIB); 3FernUniversität Hagen

In Anlehnung an etablierte Testgütekriterien elaboriert dieser Beitrag ein Rahmenwerk zur ethischen Bewertung automatischer Auswertung von Textantworten.

Der Einsatz automatischer Bewertung von Textantworten in Tests durch Methoden der natürlichen Sprachverarbeitung (NLP) und des maschinellen Lernens hat sich über die letzten zwei Jahrzehnte sukzessive verbreitet (Yan, Rupp & Foltz, 2020). Obgleich dieser Fortschritt aufgrund diverser Vorteile gegenüber der menschlichen Beurteilung grundsätzlich wünschenswert ist, müssen sowohl Technologieentwicklung als auch -einsatz im Rahmen ethischer Prinzipien kritisch hinterfragt werden. Nationale (DIN 33430:2016-07, 2016) wie auch internationale (ISO 10667-1:2011-10, 2011) Teststandards setzen ohnehin einen klaren Rahmen, in denen sich Testanwendungen und deren Auswertung bewegen dürfen (AERA/APA/NCME, 2014), der Einsatz künstlicher Intelligenz wird auf Ebene der Europäischen Union reguliert (European Commission, 2020) und auch die American Psychological Association (APA) stellt zur Automatisierung von Assessments Folgendes klar: (i) “[Psychologists] select scoring and interpretation services (including automated services) on the basis of evidence of the validity” und (ii) “[they] retain responsibility for the appropriate application, interpretation, and use of assessment instruments, whether they score and interpret such tests themselves or use automated or other services” (APA, 2017, p. 14). Dementsprechend argumentieren wir in diesem Beitrag, dass es eines Regelwerks für den Einsatz automatischer Testauswertung bedarf, das über Fairness hinaus geht. Dafür strukturieren wir die Anwendung ethischer Prinzipien gemäß etablierten Testgütekriterien (AERA/APA/NCME, 2014, ergänzt durch Kubinger, 2019) im Lichte des Evidence-Centered Designs (Mislevy, Almond & Lukas, 2003) und ethischen Traditionen im Bereich der künstlichen Intelligenz sowie gesellschaftlichen Werten als leitenden Prinzipien.

Testgütekriterien, Werte und automatische Auswertung. Werte stellen leitende Prinzipien dar, über die sich eine Gemeinschaft mehr oder wenig einig ist. Die APA formuliert fünf Prinzipien (APA, 2017): Beneficence and Nonmaleficence, Fidelity and Responsibility, Integrity, Justice und Respect for People’s Rights and Dignity. Im NLP-Kontext stellt außerdem der Datenschutz einen genuinen Wert dar. Während ethische Bewertungen von Assessments stets von diesen Werten geleitet sein müssen, können sie ganz praktisch entlang der Taxonomie von Testgütekriterien strukturiert werden. Diese werden im Folgenden ausschnittsweise aufgezeigt, in der Präsentation aber tiefer elaboriert.

Allem voran muss durch das Zeigen von Fairness sichergestellt werden, dass automatische Bewertungen menschlichen Bias nicht verstärken (Bridgeman, Trapani & Attali, 2009), sondern vielmehr durch methodische Maßnahmen reduziert werden (Loukina, Madnani & Zechner, 2019). NLP hat darüber hinaus eigene Bias-Quellen, wie etwa die Anfälligkeit für die inakkurate Verarbeitung nicht-konventionellen Sprachgebrauchs (etwa bei weniger fähigen Populationen).

In Hinblick auf die Validität von Testwertinterpretationen bringt NLP üblicherweise den Vorteil mit sich, mit offenem Antwortformat die Konstruktabdeckung, bzw. Inhaltsvalidität, verbessern zu können. Andererseits könnte NLP relevante Antwortmerkmale ignorieren und so die Inhaltsvalidität gefährden. Entsprechend dem Evidence-Centered Design (Mislevy et al., 2003) muss außerdem für das Erstellen einer Diagnose vergleichbare Evidenz evoziert und beobachtet werden. Daraus ergibt sich, dass für valide Testwertinterpretationen automatische Testauswertung nicht auf beliebige Textprodukte von Personen angewendet werden kann. So wird etwa illegitimerweise regelmäßig behauptet, Intelligenz anhand von beliebigen Texten messen zu können (z. B. Abramov & Yampolskiy, 2019; McDaniel, 2006).

Durch konsistente Bewertungen kann automatische Auswertung die Objektivität einer Messung üblicherweise verbessern.

Reliabilität der Testwerte muss unverändert gezeigt werden, allerdings kann NLP die Messeffizienz erhöhen, indem sie computer-adaptives Testen bei offenem Antwortformat ermöglicht.

Weitere besonders zu berücksichtigende Gütekriterien stellen die Ökonomie, Nützlichkeit und Akzeptanz sowie Unverfälschbarkeit dar. Außerdem muss der Skopus der jeweiligen Anwendung berücksichtigt werden: Wie viele Personen sind von der Testung und ihren Konsequenzen betroffen? Wie einschneidend ist der Einfluss für die Betroffenen? Betreffen Konsequenzen der Testwertinterpretation Individuen oder Systeme?

Anwendungsbeispiel und Conclusio. In der Präsentation wird ein Anwendungsbeispiel einer ethischer Bewertung mithilfe des beschriebenen Rahmenwerks demonstriert. Der Beitrag zeigt die Relevanz der ethischen Betrachtung der Testwertverwendung bei automatischer Auswertung auf und bietet ein praktisches Rahmenwerk.

 
 
Contact and Legal Notice · Contact Address:
Privacy Statement · Conference: GEBF 2023
Conference Software: ConfTool Pro 2.8.99+TC
© 2001–2023 by Dr. H. Weinreich, Hamburg, Germany