Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut.

Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut / ZfA 2009

Ablauf dieser Präsentation
Bewerterübereinstimmung in schulischen Tests und daraus resultierende Probleme Klassische Lösungsmöglichkeiten dieser Probleme Das FBV – Ein moderner Weg zu einem fairen Ergebnis

1. Bewerterübereinstimmung in schulischen Tests
Seit Mitte der 60er Jahre steht die Notengebung durch Lehrer auf dem Prüfstand. Erste Studien von R. Weiss (1965): Fragestellungen: Wie groß ist die Variabilität im Lehrerurteil bei identischen Arbeiten? Welche Faktoren beeinflussen die Beurteilung? Ergebnisse:

Bewerterübereinstimmung in schulischen Tests
Variabilität der Benotung ein und derselben schriftlichen Leistung durch 92 Lehrer Rechtschreibung Stil sehr gut 7% 24% gut 28% 41% befriedigend 39% 19% ausreichend 22% 14% mangelhaft 4% 2% Inhalt Gesamtnote 26% 10% 47% 45% 20% 35% 0%

Bewerterübereinstimmung in schulischen Tests
Ca. 40 Jahre später: Replikation der Weiss-Studie (Birkel & Birkel, 2002) – Benotung ein und derselben schriftlichen Leistung durch 88 Lehrer

2. Klassische Lösungsmöglichkeiten
Das Problem unterschiedlicher Bewertungen durch mehrere Bewerter ist lange bekannt. Entsprechend wurden verschiedene Lösungsmöglichkeiten entwickelt, um diesem Problem zu begegnen. a) Bewerterschulungen und Kalibrierungen b) Mittelwert aus mehreren Beurteilungen c) Drittbewertungsverfahren

a) Schulungen und Kalibrierungen
Viele Studien haben sich mit der Wirksamkeit von Schulungen oder Kalibrierungen auf die Beurteilungsleistung beschäftigt. Fast alle kommen zum Ergebnis, dass: das Ziel identischer Beurteilungen durch mehrere Bewerter nicht erreicht werden kann die Bewerterübereinstimmung nicht substanziell verbessert wird wohl aber die Konsistenz der Bewerter durch solche Schulungen deutlich erhöht werden kann

b) Mittelwert mehrerer Beurteilungen
Jede Leistung wird von mehreren Bewertern beurteilt. Das Ergebnis entspricht dem Mittelwert dieser Bewertungen.

c) Drittbewertungsverfahren
Jede Leistung wird von 2 Bewertern beurteilt. Weichen die Bewerter nur leicht voneinander ab, wird auch hier der Mittelwert gebildet. Weichen die Ergebnisse stark voneinander ab, wird ein dritter Bewerter hinzugezogen. Das Ergebnis des dritten Bewerters entscheidet über die Beurteilung. Probleme: Sind die beiden ersten Bewerter eher milde, bekommt der Schüler ein gutes Ergebnis. Sind die beiden ersten Bewerter eher streng, bekommt er ein schlechteres Ergebnis. Sind die beiden Bewerter unterschiedlich, entscheidet allein die Milde/Strenge des dritten Bewerters über das Ergebnis.

3. Das facettenanalytische Bewertungsverfahren (FBV)
Was ist das? Ein mathematisches Verfahren zur Ermittlung eines fairen Ergebnisses bei fehleranfälligen Leistungsbeurteilungen Das Verfahren berücksichtigt mehrere Variablen, die das Ergebnis beeinflussen  Facetten der Beurteilungssituation, z. B. Fähigkeit des Schülers Strenge/Milde des Bewerters Schwierigkeit der Kriterien Es besteht aus mehreren Schritten, in denen die Facetten genauer untersucht werden. Am Ende steht für jeden Schüler ein Ergebnis, das ein idealer (durchschnittlich strenger) Bewerter auf 8 idealen (gleich schwierigen) Kriterien abgegeben hätte.

Ein erster Versuch und ein Problem
Ausgangspunkt: 90 Arbeiten Bewerter Bewerter Bewerter 3 ↓ ↓ ↓ 30 Arbeiten Arbeiten Arbeiten Durchschnittliche Punktzahl pro Schüler Frage: ► Ist Bewerter 1 milder als Bewerter 2 und 3 ? ► Ist Bewerter 3 strenger als Bewerter 1 und 2 ?

Antwort Das kann man nicht sagen, denn:
Gruppe 3 ist vielleicht einfach schlechter als die Gruppen 1 und 2 bzw. ist die Gruppe 1 vielleicht einfach besser als die Gruppen 2 und 3.

Es werden Vergleichsbeurteilungen eingeführt.
Lösung: Es werden Vergleichsbeurteilungen eingeführt. Aus dem Testlauf werden 7 Leistungen von Schülern ausgewählt, die exemplarisch das ganze Leistungsspektrum abdecken. Diese 7 Leistungen bekommt jeder Bewerter zur Beurteilung vorgelegt. Sie bilden den Vergleichsmaßstab für die Anordnung der Bewerter auf einer gemeinsamen Skala von mild nach streng.

Ebenfalls basierend auf den 7 Vergleichsarbeiten wird auch die Schwierigkeit der einzelnen Kriterien berechnet. Beispiel: Rang Kriterium Mittel-wert 1 Eigene Erfahrung 2.1 2 Eigene Meinung 2.0 3 Orthografische Korrektheit 1.9 4 Gesamteindruck 1.6 5 Wiedergabe 1.5 6 Strukturen 1.4 7 Wortschatz 1.3 8 Grammatische Korrektheit 1.2 Da alle Kriterien genau gleich gewichtet sein sollen, wird später eine Anpassung vorgenommen. (Beispiel folgt später)

Noch ein Problem: Die hier zu vergebenden Punkte entsprechen einer Nominalsakala und sind daher für Berechnungen von Mittelwerten nicht geeignet. Daher werden die Werte in die Logit-Skala transformiert. Dies stellt eine kompliziertere Rechnung dar, die im Detail hier nicht erläutert werden kann. Gemäß dieser Logit-Skala können jetzt alle Facetten in einem gemeinsamen Raum angeordnet werden (Facettenraum).

Theoretisches Beispiel einer Stufenprüfung A2/B1
|Logit| Schüler |Bewerter |Kriterium |Skala| | | | 8 + *** (3) | | | . | | | | | | | | | 5 + * | | | *. | | | | | 4 + * | | | ***. | | | --- | | 3 + **** | | | ***. | | | | | 2 + ***** | | | ******. | * | Gram. Korr. | | | 1 + ********. + *** + Wortschatz + | | | *********. | ** | Struk. Wied.| | * 0 * *********. * ******. * Gesamteindr.* --- * | | ********. | ****. | Orth. Korr. | | | -1 + *********. + *. + eig. Mein. + | | | ******. | . | eig. Erf. | 1 | | -2 + ****** | | | *****. | | | | | -3 + *** | | | **. | | | --- | | -4 + * | | | | | | -7 + * (0) | |Measr| * = 18 | * = 2 |-Criterion |Scale| Theoretisches Beispiel einer Stufenprüfung A2/B1 Ein * steht für: 18 Schüler 2 Bewerter Je höher der Logit desto: - besser der Schüler - strenger der Bewerter - schwieriger das Kriterium „Skala“ steht hier für die 4-stufige Kriterienskala (0-3 Punkte)

Die Berechnung Jede einzelne Beurteilung jedes Bewerters für jeden Schüler in jedem der Kriterien wird jetzt verrechnet: Endergebnis des Schülers = Rohwert + Bewerterstrenge + Kriterienschwierigkeit Das so ermittelte Endergebnis wird dann wieder in die ursprüngliche 4-stufige Punkte-Skala (0, 1, 2, 3) zurück transformiert und ergibt die faire Bewertung des Schülers.

Wir haben unsere 4-stufige (0-3) Skala, auf der die Bewerter jedes der Kriterien beurteilen.
Punkte 3 2 1

Schüler, Bewerter und Kriterien werden auf dieser Skala angeordnet.
Punkte Schüler Bewerter Kriterium 3 2 1

Die Kriterienskala wird in die Logit-Skala umgerechnet, um weitere Berechnungen vornehmen zu können.
Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Beispiel: Ein Schüler hat z. B
Beispiel: Ein Schüler hat z. B. im Kriterium „Wortschatz“ eine Bewertung von 1 Punkt erhalten. Dies entspricht einem Logit von ca Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Dieser Schüler wurde von einem strengen Bewerter beurteilt, der einen Logit von 2.0 hat.

3 2 1 Der Bewerterlogit wird zum Schülerlogit hinzuaddiert. Logit

Das Kriterium, in dem der Schüler bewertet wurde, ist ebenfalls ein eher schwieriges Kriterium mit einem Logit von 1.0. Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

3 2 1 Der Kriteriumslogit wird zum Schülerlogit hinzuaddiert. Logit

Der Kriteriumslogit wird zum Schülerlogit und Bewerterlogit hinzuaddiert.

In der Summe entsteht der neue korrigierte Schülerlogit mit einem Wert von 1.5, der umgerechnet in die 4-stufige Kriterienskala einem fairen Punktwert von 2 entspricht. Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Die Berechnung Diese Berechnungen werden für jedes Kriterium getrennt berechnet. Pro Schüler gibt es also 8 solcher Berechnungen. Genauso wird verfahren, wenn die Bewerter eher milde oder die Kriterien eher leicht sind. Nur wird dann der Schülerlogit nach unten statt nach oben verschoben, um eine faire Bewertung zu erhalten. Am Schluss werden alle 8 neuen Ergebnisse zusammengerechnet und man erhält das Endergebnis für SK.

Rückmeldung an die Bewerter
Wie beschrieben ordnet das TestDaF-Institut die Bewerter auf einer Strenge/Milde-Skala an; von A („extrem mild“) bis I („extrem streng“). Außerdem wird auch die Konsistenz der entsprechenden Bewertung gemessen. Da Extremwerte und starke Inkonsistenzen die Ergebnisse des FBV verzerren können, gibt es nach jeder Auswertung eine Rückmeldung an die Bewerter. Folie 30

Literaturhinweis Leicht verständliche Darstellung der Grundzüge des FBV mit Bezug zum DSD: Eckes, T., Weiss-Motz, F. & Whelan-Mostofizadeh, S. (2009): Ermittlung fairer Ergebnisse im Prüfungsteil Schriftliche Kommunikation des Deutschen Sprachdiploms. In: Deutsche Lehrer im Ausland, Februarheft. Folie 31

Vielen Dank für Ihre Aufmerksamkeit
Jan Plümecke und Dr. Boris Menrath

Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut.

Ähnliche Präsentationen

Präsentation zum Thema: "Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut.

Ähnliche Präsentationen

Präsentation zum Thema: "Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback