Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

© TestDaF-Institut / ZfA 2009 Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava,

Ähnliche Präsentationen


Präsentation zum Thema: "© TestDaF-Institut / ZfA 2009 Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava,"—  Präsentation transkript:

1 © TestDaF-Institut / ZfA 2009 Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009

2 Folie 2 Ablauf dieser Präsentation 1.Bewerterübereinstimmung in schulischen Tests und daraus resultierende Probleme 2.Klassische Lösungsmöglichkeiten dieser Probleme 3.Das FBV – Ein moderner Weg zu einem fairen Ergebnis

3 1. Bewerterübereinstimmung in schulischen Tests Seit Mitte der 60er Jahre steht die Notengebung durch Lehrer auf dem Prüfstand. Erste Studien von R. Weiss (1965): Fragestellungen: Wie groß ist die Variabilität im Lehrerurteil bei identischen Arbeiten? Welche Faktoren beeinflussen die Beurteilung? Ergebnisse: Folie 3

4 Bewerterübereinstimmung in schulischen Tests Variabilität der Benotung ein und derselben schriftlichen Leistung durch 92 Lehrer Folie 4 RechtschreibungStil sehr gut7%sehr gut24% gut28%gut41% befriedigend39%befriedigend19% ausreichend22%ausreichend14% mangelhaft4%mangelhaft2% InhaltGesamtnote sehr gut26%sehr gut10% gut47%gut45% befriedigend20%befriedigend35% ausreichend7%ausreichend10% mangelhaft0%mangelhaft0%

5 Bewerterübereinstimmung in schulischen Tests Ca. 40 Jahre später: Replikation der Weiss-Studie (Birkel & Birkel, 2002) – Benotung ein und derselben schriftlichen Leistung durch 88 Lehrer Folie 5

6 2. Klassische Lösungsmöglichkeiten Das Problem unterschiedlicher Bewertungen durch mehrere Bewerter ist lange bekannt. Entsprechend wurden verschiedene Lösungsmöglichkeiten entwickelt, um diesem Problem zu begegnen. a) Bewerterschulungen und Kalibrierungen b) Mittelwert aus mehreren Beurteilungen c) Drittbewertungsverfahren Folie 6

7 a) Schulungen und Kalibrierungen Viele Studien haben sich mit der Wirksamkeit von Schulungen oder Kalibrierungen auf die Beurteilungsleistung beschäftigt. Fast alle kommen zum Ergebnis, dass: das Ziel identischer Beurteilungen durch mehrere Bewerter nicht erreicht werden kann die Bewerterübereinstimmung nicht substanziell verbessert wird wohl aber die Konsistenz der Bewerter durch solche Schulungen deutlich erhöht werden kann Folie 7

8 b) Mittelwert mehrerer Beurteilungen Jede Leistung wird von mehreren Bewertern beurteilt. Das Ergebnis entspricht dem Mittelwert dieser Bewertungen. Folie 8

9 c) Drittbewertungsverfahren Jede Leistung wird von 2 Bewertern beurteilt. Weichen die Bewerter nur leicht voneinander ab, wird auch hier der Mittelwert gebildet. Weichen die Ergebnisse stark voneinander ab, wird ein dritter Bewerter hinzugezogen. Das Ergebnis des dritten Bewerters entscheidet über die Beurteilung. Probleme: Sind die beiden ersten Bewerter eher milde, bekommt der Schüler ein gutes Ergebnis. Sind die beiden ersten Bewerter eher streng, bekommt er ein schlechteres Ergebnis. Sind die beiden Bewerter unterschiedlich, entscheidet allein die Milde/Strenge des dritten Bewerters über das Ergebnis. Folie 9

10 3. Das facettenanalytische Bewertungsverfahren (FBV) Was ist das? Ein mathematisches Verfahren zur Ermittlung eines fairen Ergebnisses bei fehleranfälligen Leistungsbeurteilungen Das Verfahren berücksichtigt mehrere Variablen, die das Ergebnis beeinflussen Facetten der Beurteilungssituation, z. B. Fähigkeit des Schülers Strenge/Milde des Bewerters Schwierigkeit der Kriterien Es besteht aus mehreren Schritten, in denen die Facetten genauer untersucht werden. Am Ende steht für jeden Schüler ein Ergebnis, das ein idealer (durchschnittlich strenger) Bewerter auf 8 idealen (gleich schwierigen) Kriterien abgegeben hätte. Folie 10

11 Ein erster Versuch und ein Problem Bewerter 1 Bewerter 2 Bewerter 3 30 Arbeiten 30 Arbeiten 30 Arbeiten Durchschnittliche Punktzahl pro Schüler Frage: Ist Bewerter 1 milder als Bewerter 2 und 3 ? Ist Bewerter 3 strenger als Bewerter 1 und 2 ? Ausgangspunkt: 90 Arbeiten

12 Antwort Das kann man nicht sagen, denn: Gruppe 3 ist vielleicht einfach schlechter als die Gruppen 1 und 2 bzw. ist die Gruppe 1 vielleicht einfach besser als die Gruppen 2 und 3.

13 Lösung: Es werden Vergleichsbeurteilungen eingeführt. Aus dem Testlauf werden 7 Leistungen von Schülern ausgewählt, die exemplarisch das ganze Leistungsspektrum abdecken. Diese 7 Leistungen bekommt jeder Bewerter zur Beurteilung vorgelegt. Sie bilden den Vergleichsmaßstab für die Anordnung der Bewerter auf einer gemeinsamen Skala von mild nach streng. Folie 13

14 Folie 14 RangKriterium Mittel- wert 1 Eigene Erfahrung2.1 2 Eigene Meinung2.0 3 Orthografische Korrektheit1.9 4 Gesamteindruck1.6 5 Wiedergabe1.5 6 Strukturen1.4 7 Wortschatz1.3 8 Grammatische Korrektheit1.2 Ebenfalls basierend auf den 7 Vergleichsarbeiten wird auch die Schwierigkeit der einzelnen Kriterien berechnet. Beispiel: Da alle Kriterien genau gleich gewichtet sein sollen, wird später eine Anpassung vorgenommen. (Beispiel folgt später)

15 Noch ein Problem: Die hier zu vergebenden Punkte entsprechen einer Nominalsakala und sind daher für Berechnungen von Mittelwerten nicht geeignet. Daher werden die Werte in die Logit-Skala transformiert. Dies stellt eine kompliziertere Rechnung dar, die im Detail hier nicht erläutert werden kann. Gemäß dieser Logit-Skala können jetzt alle Facetten in einem gemeinsamen Raum angeordnet werden (Facettenraum). Folie 15

16 Folie |Logit| Schüler |Bewerter |Kriterium |Skala| | | | 8 + *** (3) | | |. | | | | | | | |. | | | | | | | |. | | | | | 5 + * | | | *. | | | | | 4 + * | | | ***. | | | --- | | 3 + **** | | | ***. | | | | | 2 + ***** | | | ******. | * | Gram. Korr. | | | 1 + ********. + *** + Wortschatz + | | | *********. | ** | Struk. Wied.| | * 0 * *********. * ******. * Gesamteindr.* --- * | | ********. | ****. | Orth. Korr. | | | -1 + *********. + *. + eig. Mein. + | | | ******. |. | eig. Erf. | 1 | | -2 + ****** | | | *****. | | | | | -3 + *** | | | **. | | | --- | | -4 + * | | | *. | | | | | | | |. | | | | | | | |. | | | | | -7 + * (0) | | | |Measr| * = 18 | * = 2 |-Criterion |Scale| Theoretisches Beispiel einer Stufenprüfung A2/B1 Ein * steht für: 18 Schüler 2 Bewerter Je höher der Logit desto: - besser der Schüler - strenger der Bewerter - schwieriger das Kriterium Skala steht hier für die 4- stufige Kriterienskala (0-3 Punkte)

17 Die Berechnung Jede einzelne Beurteilung jedes Bewerters für jeden Schüler in jedem der Kriterien wird jetzt verrechnet: Endergebnis des Schülers = Rohwert + Bewerterstrenge + Kriterienschwierigkeit Das so ermittelte Endergebnis wird dann wieder in die ursprüngliche 4-stufige Punkte-Skala (0, 1, 2, 3) zurück transformiert und ergibt die faire Bewertung des Schülers. Folie 17

18 Punkte Wir haben unsere 4-stufige (0-3) Skala, auf der die Bewerter jedes der Kriterien beurteilen

19 SchülerBewerterKriteriumPunkte Schüler, Bewerter und Kriterien werden auf dieser Skala angeordnet

20 Logit SchülerBewerter KriteriumPunkte Die Kriterienskala wird in die Logit-Skala umgerechnet, um weitere Berechnungen vornehmen zu können.

21 Logit Schüler BewerterKriteriumPunkte Beispiel: Ein Schüler hat z. B. im Kriterium Wortschatz eine Bewertung von 1 Punkt erhalten. Dies entspricht einem Logit von ca

22 Logit Schüler BewerterKriterium Punkte Dieser Schüler wurde von einem strengen Bewerter beurteilt, der einen Logit von 2.0 hat

23 Logit Schüler BewerterKriterium Punkte Der Bewerterlogit wird zum Schülerlogit hinzuaddiert

24 Logit Schüler BewerterKriterium Punkte Der Bewerterlogit wird zum Schülerlogit hinzuaddiert

25 Logit Schüler BewerterKriterium Punkte Das Kriterium, in dem der Schüler bewertet wurde, ist ebenfalls ein eher schwieriges Kriterium mit einem Logit von

26 Logit Schüler BewerterKriterium Punkte Der Kriteriumslogit wird zum Schülerlogit hinzuaddiert

27 Logit Schüler BewerterKriterium Punkte Der Kriteriumslogit wird zum Schülerlogit und Bewerterlogit hinzuaddiert

28 Logit Schüler BewerterKriterium Punkte In der Summe entsteht der neue korrigierte Schülerlogit mit einem Wert von 1.5, der umgerechnet in die 4-stufige Kriterienskala einem fairen Punktwert von 2 entspricht

29 Die Berechnung Diese Berechnungen werden für jedes Kriterium getrennt berechnet. Pro Schüler gibt es also 8 solcher Berechnungen. Genauso wird verfahren, wenn die Bewerter eher milde oder die Kriterien eher leicht sind. Nur wird dann der Schülerlogit nach unten statt nach oben verschoben, um eine faire Bewertung zu erhalten. Am Schluss werden alle 8 neuen Ergebnisse zusammengerechnet und man erhält das Endergebnis für SK. Folie 29

30 Rückmeldung an die Bewerter Wie beschrieben ordnet das TestDaF-Institut die Bewerter auf einer Strenge/Milde-Skala an; von A (extrem mild) bis I (extrem streng). Außerdem wird auch die Konsistenz der entsprechenden Bewertung gemessen. Da Extremwerte und starke Inkonsistenzen die Ergebnisse des FBV verzerren können, gibt es nach jeder Auswertung eine Rückmeldung an die Bewerter. Folie 30

31 Literaturhinweis Leicht verständliche Darstellung der Grundzüge des FBV mit Bezug zum DSD: Eckes, T., Weiss-Motz, F. & Whelan-Mostofizadeh, S. (2009): Ermittlung fairer Ergebnisse im Prüfungsteil Schriftliche Kommunikation des Deutschen Sprachdiploms. In: Deutsche Lehrer im Ausland, Februarheft. Folie 31

32 Vielen Dank für Ihre Aufmerksamkeit Jan Plümecke und Dr. Boris Menrath


Herunterladen ppt "© TestDaF-Institut / ZfA 2009 Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava,"

Ähnliche Präsentationen


Google-Anzeigen