Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut.

Slides:



Advertisements
Ähnliche Präsentationen
Spektrale Analysen in EMU-R: eine Einführung
Advertisements

Steigung m berechnen Man kann die Steigung auch berechnen,
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Verfahren zur Skalierung der Nutzbarkeit von Freizeit Oder: wie messe ich, dass Mittwoch nicht Samstag ist?
Dr. Roland Keilhoff HIS GmbH
Theorie psychometrischer Tests, III
Fragetechnik statt Sagetechnik
Rechnen auf der Linie mit dem „Abakus“ © Th. Frenz, Passau 2003.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm!
Diese Fragen sollten Sie beantworten können
Universität Stuttgart Institut für Kernenergetik und Energiesysteme MuSofT LE Capability Maturity Model Tailoring Tailoring bedeutet ungefähr: Maßschneidern.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
Genetische Algorithmen
Computerkurs: Quantitative Auswertung biochemischer Experimente Guten Morgen.
Die Türme von Hanoi Die Lösungsfindung nach dem Prinzip der Rekursion wird noch einmal textuell und grafisch erläutert
Profiloberstufe am Abendgymnasium St. Georg
(Ron Rivest, Adi Shamit, Leonard Adleman , 1977)
So animieren Sie Kreisdiagramme mit der Eingangs-Animation „Rad“
Konfirmandenzeit auf dem Prüfstand Berlin, [ausgewählte Folien]
Leistungsanforderungen Abitur für das Fach Sport
Welche Möglichkeiten gibt es im Fach Gesellschaftslehre?
Die Abiturzulassung Stufe
Heute: Scherenzange zeichnen
Gesundes Führen lohnt sich !
Tutorium
Tutorium
Probleme der Modellspezifikation
Hinweise zur sachgerechten Bewertung von Schülerleistungen Bewertung von Schülerleistungen unter Berücksichtigung von Schlüsselqualifikationen in der Praxis.
Daten auswerten Boxplots
Amt für Volksschule und Kindergarten Übertrittsverfahren Primarstufe - Sekundarstufe I Ausgestaltung der 6. Klasse Departement für Bildung und Kultur Von.
Neue variable Lernkontrollen mit Diagnose und Förderplanung
Nachtragsfall 1: Leistungsänderung
Das Multifacetten-Korrekturverfahren beim DSD. Fehleranfälligkeit bei Leistungsbeurteilungen.
Fächerübergreifendes Portfolio
Durchschnittsberechnung –
Hans-Jürgen Brummer Leiter DSiE
Folie 1 Landratsamt Ebersberg Von der Selbstbewertung zu Verbesserungsmaßnahmen Forum Erfolgreiche Gestaltung von Modernisierungsprozessen VI am
DSD I Erfahrungsbericht 2011/12.
Gestaltung von Folien mit Powerpoint
Polynome und schnelle Fourier-Transformation
Kennwerte und Boxplots
Hallo Ich möchte einen Text einer Folie nicht einfach nur einfliegen lassen, sondern genau diesen Text, der schon an einer bestimmten Stelle steht, vergrößern.
Wahrscheinlichkeitsrechnung
Bereit ???? Nimm dir 10 Minuten Zeit. Ich versuche es dir zu erklären.
Resultate Umfrage Partizipation Arbeitsgruppe DeLL Befragt wurden im Dezember 2010 alle 3., 4. und 5. Klassen Es wurde differenziert nach Ebenen: Schule,
Lernprogramm : „Quadratische Funktionen“
Von der Primarstufe in die Sekundarstufe I Ausgestaltung der 6. Klasse
Kinderferien / Kinderferien für Kinder im Vorschulalter
FEES Fragebogen zur Erfassung emotionaler und sozialer Schulerfahrungen von Grundschulkindern Beratungs- und Förderzentrum der Dezentralen Förderschule.
© Heiko Frese & Tiina Peedor, Tartu Raatuse Gümnaasium
Wenn es losgehen soll, drücke bitte die Taste F5!
Funktionen sind Rechenvorschriften, die bestimmen, welche Operationen mit einem oder mehreren Werten (Funktionsargumenten, Parametern) ausgeführt werden.
Die NGVO ab Abitur 2010 NEU (1) Neu ab Abitur 2010: betrifft Fächer Keine Unterscheidung zwischen Kernkompetenz-, Profil- oder Neigungsfach mehr: neu:
Langzeitaufgaben. Merkmale Die Aufgabenstellung enthält bewusst Begriffe aus der Alltagssprache in ihrer eher diffusen Bedeutung (optimal, sinnvoll, effektiv),
Lernprogramm : „Quadratische Funktionen“ von W. Liebisch
Das Traveling Salesman Problem (TSP)
Management, Führung & Kommunikation
Einführung der Stufenprüfung
Steigerwaldschule Ebrach
Zum Einfluss subjektiver und objektiver Merkmale auf die Wiedererkennung von Werbeplakaten Antje Bauer & Stefanie Frehse Institut für Allgemeine Psychologie.
Plakatwerbung: Wie wichtig sind Farben wirklich?
Beobachter – Lehrgang Burkhard Müller SRBO HV Sachsen1 Herzlich willkommen ! Viel Erfolg !
Schriftliche Kommunikation
Faktorenanalyse Tamara Katschnig.
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Vorstellen und Herleiten der Horner Schemas
ResA am Arbeitsplatz Das Vorgehen ist angelehnt an „5 S“ und bietet Ihnen die Möglichkeit das Konzept der 5 Disziplinen ressourcenschonenden Arbeitens.
Stereoskopische Ansichten von der Welt oder „Himmlische Körper in 3D“
Seite Fallstricke: Stereotype und schulische Leistungen Aus- und Fortbildungsmodule zur Sprachvariation im urbanen.
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
 Präsentation transkript:

Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur fairen Beurteilung von schriftlichen Leistungen Bratislava, April 2009 © TestDaF-Institut / ZfA 2009

Ablauf dieser Präsentation Bewerterübereinstimmung in schulischen Tests und daraus resultierende Probleme Klassische Lösungsmöglichkeiten dieser Probleme Das FBV – Ein moderner Weg zu einem fairen Ergebnis

1. Bewerterübereinstimmung in schulischen Tests Seit Mitte der 60er Jahre steht die Notengebung durch Lehrer auf dem Prüfstand. Erste Studien von R. Weiss (1965): Fragestellungen: Wie groß ist die Variabilität im Lehrerurteil bei identischen Arbeiten? Welche Faktoren beeinflussen die Beurteilung? Ergebnisse:

Bewerterübereinstimmung in schulischen Tests Variabilität der Benotung ein und derselben schriftlichen Leistung durch 92 Lehrer Rechtschreibung Stil sehr gut 7% 24% gut 28% 41% befriedigend 39% 19% ausreichend 22% 14% mangelhaft 4% 2% Inhalt Gesamtnote 26% 10% 47% 45% 20% 35% 0%

Bewerterübereinstimmung in schulischen Tests Ca. 40 Jahre später: Replikation der Weiss-Studie (Birkel & Birkel, 2002) – Benotung ein und derselben schriftlichen Leistung durch 88 Lehrer

2. Klassische Lösungsmöglichkeiten Das Problem unterschiedlicher Bewertungen durch mehrere Bewerter ist lange bekannt. Entsprechend wurden verschiedene Lösungsmöglichkeiten entwickelt, um diesem Problem zu begegnen. a) Bewerterschulungen und Kalibrierungen b) Mittelwert aus mehreren Beurteilungen c) Drittbewertungsverfahren

a) Schulungen und Kalibrierungen Viele Studien haben sich mit der Wirksamkeit von Schulungen oder Kalibrierungen auf die Beurteilungsleistung beschäftigt. Fast alle kommen zum Ergebnis, dass: das Ziel identischer Beurteilungen durch mehrere Bewerter nicht erreicht werden kann die Bewerterübereinstimmung nicht substanziell verbessert wird wohl aber die Konsistenz der Bewerter durch solche Schulungen deutlich erhöht werden kann

b) Mittelwert mehrerer Beurteilungen Jede Leistung wird von mehreren Bewertern beurteilt. Das Ergebnis entspricht dem Mittelwert dieser Bewertungen.

c) Drittbewertungsverfahren Jede Leistung wird von 2 Bewertern beurteilt. Weichen die Bewerter nur leicht voneinander ab, wird auch hier der Mittelwert gebildet. Weichen die Ergebnisse stark voneinander ab, wird ein dritter Bewerter hinzugezogen. Das Ergebnis des dritten Bewerters entscheidet über die Beurteilung. Probleme: Sind die beiden ersten Bewerter eher milde, bekommt der Schüler ein gutes Ergebnis. Sind die beiden ersten Bewerter eher streng, bekommt er ein schlechteres Ergebnis. Sind die beiden Bewerter unterschiedlich, entscheidet allein die Milde/Strenge des dritten Bewerters über das Ergebnis.

3. Das facettenanalytische Bewertungsverfahren (FBV) Was ist das? Ein mathematisches Verfahren zur Ermittlung eines fairen Ergebnisses bei fehleranfälligen Leistungsbeurteilungen Das Verfahren berücksichtigt mehrere Variablen, die das Ergebnis beeinflussen  Facetten der Beurteilungssituation, z. B. Fähigkeit des Schülers Strenge/Milde des Bewerters Schwierigkeit der Kriterien Es besteht aus mehreren Schritten, in denen die Facetten genauer untersucht werden. Am Ende steht für jeden Schüler ein Ergebnis, das ein idealer (durchschnittlich strenger) Bewerter auf 8 idealen (gleich schwierigen) Kriterien abgegeben hätte.

Ein erster Versuch und ein Problem Ausgangspunkt: 90 Arbeiten Bewerter 1 Bewerter 2 Bewerter 3 ↓ ↓ ↓ 30 Arbeiten 30 Arbeiten 30 Arbeiten 19 17 12 Durchschnittliche Punktzahl pro Schüler Frage: ► Ist Bewerter 1 milder als Bewerter 2 und 3 ? ► Ist Bewerter 3 strenger als Bewerter 1 und 2 ?

Antwort Das kann man nicht sagen, denn: Gruppe 3 ist vielleicht einfach schlechter als die Gruppen 1 und 2 bzw. ist die Gruppe 1 vielleicht einfach besser als die Gruppen 2 und 3.

Es werden Vergleichsbeurteilungen eingeführt. Lösung: Es werden Vergleichsbeurteilungen eingeführt. Aus dem Testlauf werden 7 Leistungen von Schülern ausgewählt, die exemplarisch das ganze Leistungsspektrum abdecken. Diese 7 Leistungen bekommt jeder Bewerter zur Beurteilung vorgelegt. Sie bilden den Vergleichsmaßstab für die Anordnung der Bewerter auf einer gemeinsamen Skala von mild nach streng.

Ebenfalls basierend auf den 7 Vergleichsarbeiten wird auch die Schwierigkeit der einzelnen Kriterien berechnet. Beispiel: Rang Kriterium Mittel-wert 1 Eigene Erfahrung 2.1 2 Eigene Meinung 2.0 3 Orthografische Korrektheit 1.9 4 Gesamteindruck 1.6 5 Wiedergabe 1.5 6 Strukturen 1.4 7 Wortschatz 1.3 8 Grammatische Korrektheit 1.2 Da alle Kriterien genau gleich gewichtet sein sollen, wird später eine Anpassung vorgenommen. (Beispiel folgt später)

Noch ein Problem: Die hier zu vergebenden Punkte entsprechen einer Nominalsakala und sind daher für Berechnungen von Mittelwerten nicht geeignet. Daher werden die Werte in die Logit-Skala transformiert. Dies stellt eine kompliziertere Rechnung dar, die im Detail hier nicht erläutert werden kann. Gemäß dieser Logit-Skala können jetzt alle Facetten in einem gemeinsamen Raum angeordnet werden (Facettenraum).

Theoretisches Beispiel einer Stufenprüfung A2/B1 +------------------------------------------------+ |Logit| Schüler |Bewerter |Kriterium |Skala| |-----+------------+---------+-------------+-----| | 8 + ***. + + + (3) | | | . | | | | | 7 + . + + + | | 6 + . + + + | | 5 + *. + + + | | | *. | | | | | 4 + *. + + + | | | ***. | | | --- | | 3 + ****. + + + | | | ***. | | | | | 2 + *****. + . + + 2 | | | ******. | * | Gram. Korr. | | | 1 + ********. + *** + Wortschatz + | | | *********. | ** | Struk. Wied.| | * 0 * *********. * ******. * Gesamteindr.* --- * | | ********. | ****. | Orth. Korr. | | | -1 + *********. + *. + eig. Mein. + | | | ******. | . | eig. Erf. | 1 | | -2 + ******. + . + + | | | *****. | | | | | -3 + ***. + + + | | | **. | | | --- | | -4 + *. + + + | | -5 + . + + + | | -6 + . + + + | | -7 + *. + + + (0) | |Measr| * = 18 | * = 2 |-Criterion |Scale| Theoretisches Beispiel einer Stufenprüfung A2/B1 Ein * steht für: 18 Schüler 2 Bewerter Je höher der Logit desto: - besser der Schüler - strenger der Bewerter - schwieriger das Kriterium „Skala“ steht hier für die 4-stufige Kriterienskala (0-3 Punkte)

Die Berechnung Jede einzelne Beurteilung jedes Bewerters für jeden Schüler in jedem der Kriterien wird jetzt verrechnet: Endergebnis des Schülers = Rohwert + Bewerterstrenge + Kriterienschwierigkeit Das so ermittelte Endergebnis wird dann wieder in die ursprüngliche 4-stufige Punkte-Skala (0, 1, 2, 3) zurück transformiert und ergibt die faire Bewertung des Schülers.

Wir haben unsere 4-stufige (0-3) Skala, auf der die Bewerter jedes der Kriterien beurteilen. Punkte 3 2 1

Schüler, Bewerter und Kriterien werden auf dieser Skala angeordnet. Punkte Schüler Bewerter Kriterium 3 2 1

Die Kriterienskala wird in die Logit-Skala umgerechnet, um weitere Berechnungen vornehmen zu können. Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Beispiel: Ein Schüler hat z. B Beispiel: Ein Schüler hat z. B. im Kriterium „Wortschatz“ eine Bewertung von 1 Punkt erhalten. Dies entspricht einem Logit von ca. -1.5 . Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Dieser Schüler wurde von einem strengen Bewerter beurteilt, der einen Logit von 2.0 hat. Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

3 2 1 Der Bewerterlogit wird zum Schülerlogit hinzuaddiert. Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

3 2 1 Der Bewerterlogit wird zum Schülerlogit hinzuaddiert. Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Das Kriterium, in dem der Schüler bewertet wurde, ist ebenfalls ein eher schwieriges Kriterium mit einem Logit von 1.0. Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

3 2 1 Der Kriteriumslogit wird zum Schülerlogit hinzuaddiert. Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Der Kriteriumslogit wird zum Schülerlogit und Bewerterlogit hinzuaddiert. Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

In der Summe entsteht der neue korrigierte Schülerlogit mit einem Wert von 1.5, der umgerechnet in die 4-stufige Kriterienskala einem fairen Punktwert von 2 entspricht. Logit Punkte Schüler Bewerter Kriterium 8 7 6 5 4 3 2 1 -1 -2 -3 -4 -5 -6 -7 3 2 1

Die Berechnung Diese Berechnungen werden für jedes Kriterium getrennt berechnet. Pro Schüler gibt es also 8 solcher Berechnungen. Genauso wird verfahren, wenn die Bewerter eher milde oder die Kriterien eher leicht sind. Nur wird dann der Schülerlogit nach unten statt nach oben verschoben, um eine faire Bewertung zu erhalten. Am Schluss werden alle 8 neuen Ergebnisse zusammengerechnet und man erhält das Endergebnis für SK.

Rückmeldung an die Bewerter Wie beschrieben ordnet das TestDaF-Institut die Bewerter auf einer Strenge/Milde-Skala an; von A („extrem mild“) bis I („extrem streng“). Außerdem wird auch die Konsistenz der entsprechenden Bewertung gemessen. Da Extremwerte und starke Inkonsistenzen die Ergebnisse des FBV verzerren können, gibt es nach jeder Auswertung eine Rückmeldung an die Bewerter. Folie 30

Literaturhinweis Leicht verständliche Darstellung der Grundzüge des FBV mit Bezug zum DSD: Eckes, T., Weiss-Motz, F. & Whelan-Mostofizadeh, S. (2009): Ermittlung fairer Ergebnisse im Prüfungsteil Schriftliche Kommunikation des Deutschen Sprachdiploms. In: Deutsche Lehrer im Ausland, Februarheft. Folie 31

Vielen Dank für Ihre Aufmerksamkeit Jan Plümecke und Dr. Boris Menrath