Konferenzbeitrag
Ökonomie und Fairness von Constructed-Response-Items in E-Assessments
Lade...
Volltext URI
Dokumententyp
Text/Conference Paper
Zusatzinformation
Datum
2019
Autor:innen
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
TUDpress
Zusammenfassung
Das Testen kognitiver Fähigkeiten ist ein Standardproblem in der Leistungsdiagnostik. Typische Anwendungsfelder sind Lernstandsüberprüfungen, Zulassungs- und Auswahlverfahren an Schulen und Hochschulen, aber auch Eignungs- und Einstellungsverfahren im betrieblichen Kontext. Sollen nicht nur einige wenige Personen, sondern größere Kohorten getestet werden, kommen aus testökonomischen Gründen vermehrt computerbasierte Tests (E-Assessments) und Aufgaben mit geschlossenem Antwortformat (Selected-Response, SR) zum Einsatz. Auf diese Weise lassen sich Tests automatisch auswerten, was gegenüber papierbasierten Tests den Testaufwand erheblich reduziert und eine zeitnahe Rückmeldung der Ergebnisse an die getesteten Personen erlaubt (Michel, Goertz, Radomski, Fritsch, & Baschour, 2015). Neben der guten Testökonomie besitzen SR-Tests auch aus psychometrischer Sicht Vorteile. So lassen sie sich nicht nur objektiver auswerten, sondern auch zeitsparender beantworten, wodurch eine größere Zahl an Aufgaben bei gleicher Testdauer gestellt werden kann Lindner, Strobel, & Köller, 2015). Dennoch werden SR-Tests insbesondere an Hochschulen häufig als besonders rigide Prüfungsform wahrgenommen (Kubinger, 2014). Eine wiederkehrend zu beobachtende Strategie scheint deshalb – wohl auch um die Akzeptanz dieser Prüfungsform zu erhöhen – die Ergänzung von E-Assessments um Freitextaufgaben (Constructed-Response, CR) zu sein. Hochschulprüfungen entscheiden über den Zugang zu erstrebenswerten Gütern einer Gesellschaft (Huinink & Schröder, 2014) und ziehen berufliche Auswahlentscheidungen nach sich (Rekrutierungsfunktion; Tsarouha, 2019). Vor dem Hintergrund der grundgesetzlich geregelten Berufswahlfreiheit (Artikel 12, GG) ergibt sich die berechtigte Forderung nach einer hohen diagnostischen Güte der eingesetzten Tests. Gleichzeitig erfordern die institutionellen Rahmenbedingungen an Hochschulen ökonomische Testmethoden. Aktuell fehlt es an Arbeiten, die den Verlust an Testökonomie durch Hinzunahme von CR-Items quantifizieren und den möglichen Gewinn an diagnostischer Güte zueinander ins Verhältnis setzen. Zudem weisen Schulleistungsstudien (Lafontaine & Monseur, 2009; Lissitz, Hou, & Slater, 2012; Reardon, Kalogrides, Fahle, Podolsky, & Zárate, 2018) und Untersuchungen aus dem Hochschulkontext (Arthur & Everaert, 2012) auf geschlechterdifferenzielle Effekte verschiedener Itemformate hin, die zu einem Problem für die Testfairness werden können. Beide Forschungsfragen adressiert der vorliegende Beitrag anhand einer empirischen Analyse von Daten einer E-Klausur, die die Abschlussprüfung eines erziehungswissenschaftlichen Moduls im universitären Lehramtsstudium bildet. [...aus der Einleitung]