Testfairness Seminar:Themen der pädagogisch- psychologischen Diagnostik Dozent:Dr. Martin Brunner Referent:Stefan Nebelung Datum:29. Mai 2006.

Slides:



Advertisements
Ähnliche Präsentationen
D. ZAMANTILI NAYIR – 8. SEMESTER
Advertisements

Chancen zur Stärkung de Schulsports an meiner Schule Allgemeine Überlegungen zur Qualitätsentwicklung des Schulsports helfen nur, wenn sie in der speziellen.
Modellierungsmethoden in der Verhaltenstherapie
Martina Littich, Florian Hottner, Dariusz Kuzara Three Strategies for Elaborating the Cultivation Hypothesis Potter(1988)
Tutorium
Bildungsstandards Pilotphase II Wimmer Bildungsstandards Wozu brauchen wir Bildungsstandards? Was ist Aufgabe der Pilotphase II?
Theorien, Methoden, Modelle und Praxis
Benotungspraxis: Next Practice in der Leistungsbeurteilung
Bemerkungen zur Situation des Kindes (Familiensituation, Unterbringung, besondere Ma ß nahmen, Therapien, etc.) Lebt bei ihren Eltern in sehr einfachen.
Hören und Sprechen II Klasse:09. HÜ 1 Frau Steilmann erzählt über ihre Arbeit und Ihren Ausbildungsweg  Welche Aussagen sind richtig, welche.
Methoden der Sozialwissenschaften
Messen und Testen.
“A Need-Based Model of Reconciliation: Satisfying the Differential Emotional Needs of Victim and Perpetrator as a Key to Promoting Reconciliation” Shnabel,
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Hausaufgabe 1 Was ist Sozialpsychologie und wie unterscheidet sie sich von anderen, verwandten Disziplinen? Einführung
Ich schaff´s! Kinder motivieren und stärken Realschule am Karlsberg Crailsheim Ein Vortrag von Holger Waidelich – Diplomsozialpädagoge (BA)
Die gymnasiale Oberstufe APO-GOSt Fassung B fünfjährige Sek I Abitur nach zwölf Jahren.
Sprachen lernen - Spaß oder Stress? Автор: Соловьянова Татьяна Анатольевна, учитель немецкого языка МБОУ «СОШ №6» г. Новомосковска, Тульская область.
Studium: Sonderpädagogik/Lehramt Erfahrungen als Hörgeschädigte Valerie van Deun.
Seite Fallstricke: Stereotype und schulische Leistungen Aus- und Fortbildungsmodule zur Sprachvariation im urbanen.
Das Übersetzen. Modell des Übersetzens nach Katharina Reiß.
„Die Terminierungs-Profis“. S.L.G. Terminierung schult wie man immer und immer wieder Termine in seinem Kundenstamm nicht nur vereinbart, sondern besser,
Zucht der Honigbiene Anmerkungen: -Imkerliche Produktion nimmt nichts, sondern gibt - dem Imker, der Landwirtschaft, der Umwelt,
Themen der pädagogisch psychologischen Diagnostik (Sommersemester 2006) Martin Brunner Selbstkonzept Martin Brunner Max-Planck-Institut für Bildungsforschung.
Das Kind und seine Kompetenzen im Mittelpunkt - Rückblick der Entwicklungs- und Bildungsangebote 14.12– Die Geschichte des Adventsstündchen erweitert.
Themen der pädagogisch psychologischen Diagnostik (Sommersemester 2006) Martin Brunner Lehr-Evaluation Martin Brunner Max-Planck-Institut für.
Amt für Volksschule Englisch in der Primarschule Elternabend Braunau, 30. April 2009.
Der Subjektorientierte Bildungsansatz der Jugendarbeit Neue Anregungen für Globales Lernen in der Freizeit.
Themen der pädagogisch psychologischen Diagnostik (Sommersemester 2006) Martin Brunner Testfairness Martin Brunner Max-Planck-Institut für Bildungsforschung.
Von Bildungsstandards zu Leistungstests Urs Moser Kompetenzzentrum für Bildungsevaluation und Leistungsmessung an der Universität Zürich.
Offene und geschlossene Aufgaben Seminar zum semesterbegleitenden fachdidaktischen Praktikum Oliver Hey,
Heiner Barz Bildung und Migration Sommersemester 2016 Krefelder Modell
Herzlich willkommen! Kaufmännische Abteilung BBS Westerburg.
Lehrer- Unterrichtsräume statt Klassenzimmer Raumkonzeption.
Worum es im Modul „Kinder – Klasse – Klima“ geht.
Erfahrungen mit Schülerselbsteinschätzungen im Mathematikunterricht der Sekundarstufe I Forum individuelle Förderung in Schulen am Oberstufenkolleg Bielefeld.
Latein braucht doch niemand mehr... Oh doch!!!. Latein schreibt man, wie man es spricht: die Zeit zu größerer Sicherheit in deutscher Rechtschreibung.
CHANCE – Unternehmenssimulator für unternehmerisches Denken und Handeln The best way of learning about entrepreneurship is through direct experience and.
MUSIK? – MUSIK! „Ohne Musik wäre das Leben ein Irrtum“ (Friedrich Nietzsche) „Musik ist angenehm zu hören, doch ewig braucht sie nicht zu währen“ (Wilhelm.
Klasse Klassenzufriedenheit Strukturmerkmale (Schultyp, Anteil Knaben, Anteil plagender Kinder) Eltern Einstellungen (Erwartungen,Attribution) Verhalten.
Ablauf Informationen zum Schulsystem in Schweden
Evaluation von Coachingprozessen Herr Prof. Dr. Geißler Evaluation von Coachingprozessen Phase 6 Teil 4 KB
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Schüleraussagen Handlungss Kompetenz Definition Merkmale Lernaufgabe Beobachtungs- auftrag Einstieg Frage an Schüler: „Was sind die wichtigsten Eigenschaften,
Michael Seeger LV BsAs: vom Input zum Outcome SP Inhalte und Kompetenzen der Paradigmenwechsel in der Bildungswelt seit 2000 © 2007 Michael.
Schule in Deutschland.
IB Prüfungen für Deutsch B High Level
Vom Stereotyp zur Diskriminierung
Problemlagen erkennen und verändern durch Unterrichtsevaluation
Orals Prep Meine Schule.
HEURISTIKEN.
Transformationskurve und Opportunitätskosten
Ökologische Ökonomik FS 2017 Simon & Ueltschi
Transformationskurve und Opportunitätskosten
Bewertung schrift-licher Leistungen I
Judit Langer-Buchwald
Einführung in die Stadtsoziologie
Gemeinsames Lernen von Kindern mit und ohne Beeinträchtigung
Evaluation zum bilingualen Zweig am Gymnasium Aspel 2017/18
Motivation ist wichtiger als Intelligenz
VI.2.6 Lern- und Bewertungssituationen werden im Unterricht voneinander getrennt VI.2.7 Die Lehrerinnen und Lehrer sorgen für Transparenz der Leistungserwartungen.
Allgemeine Informationen Rechtliche Rahmenbedingungen
Teil II: Informationen zum Gymnasium
WIR SCHÜLER GESTALTEN UNSERE SCHULE MIT!
Fremdsprachen am Gymnasium Mellendorf
Inklusion – Eine Schule für alle?
Latein am Korbinian-Aigner-Gymnasium
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(dplyr)
Datum Leistungskonzept
 Präsentation transkript:

Testfairness Seminar:Themen der pädagogisch- psychologischen Diagnostik Dozent:Dr. Martin Brunner Referent:Stefan Nebelung Datum:29. Mai 2006

Gliederung Einleitung Was ist Testfairness? Einfluss des sprachlichen Aufgabenursprungs - PISA Einfluss von „Ansporn“ auf Motivation und Leistung - PISA Literatur

Wir haben 10 Leute gefragt … Was verstehen Sie eigentlich unter Testfairness?

Was ist „fair“? (1) treating each person, side, etc. equally and according to the rules or law (2) reasonable and just or appropriate in the circumstances (3) average; quite good aus: Oxford Advanced Learner‘s Dictionary (1995). Oxford Universtity Press: Oxford.

Testfairness Testfairness kann als ein Gütekriterium betrachtet werden - es ist allerdings eher auf den Entscheidungs- und Handlungsaspekt der Diagnostik bezogen als die anderen Testgütekriterien thematisiert wird Testfairness etwa seit Ende der 60-iger, Anfang der 70-iger Jahre Begriffe: Testfairness, Testbias, Itembias, Selektionsbias

Ethische Grundpositionen nach Hunter & Schmidt (1976) 1. ‚unqualified indivdualism‘ 2. ‚qualified indiviualism‘ 3. ‚fair-share‘ ja nach Position fällt die Ansicht über Fairness und Diskriminierung aus

‚unqualified indivdualism‘ Bei dieser Position werden „[…] Gruppenunterschiede im Kriterium, die durch die Fähigkeitstests nicht erklärt und vorhergesagt werden können, nicht ignoriert.“ bei Leugnung der Unterschiede: Diskriminierung der im Kriterium besseren

‚qualified individualism‘ Bei dieser Position werden „[…] Gruppenunterschiede (zum Beispiel zwischen Status- und ethnischen Gruppen) ignoriert.“ bei Beachtung der Unterschiede: Diskriminierung der im Kriterium schlechteren Gruppe

‚fair share‘ Diese Position sieht dann eine Diskriminierung, „[…] wenn bei Selektionen die verschiedenen gesellschaftlich relevanten Gruppen nicht mit angemessenen Quoten (‚fair share‘) vertreten sind.“

Fairnesskonzepte 1. Identitätskonzept 1. Entwicklung gruppenspezifischer Tests 2. Entwicklung gruppenspezifischer Normen 3. Konstruktion kulturfreier Tests 2. Regressionskonzept nach Cleary (1968)

Gruppenspezifische Tests Beispiel: Intelligenztests seit Beginn der Forschung findet man Korrelationen zw. sozioökonomischen Status bzw. ethnischer Herkunft und der Testleistung  Schlussfolgerung: Tests sind „kulturell geladen“ kulturspezifische Inhalte, deren Lösung von Fähigkeiten und Fertigkeiten abhängen, die in unterschiedlichen Kulturen unterschiedliche Ausmaße haben

Gruppenspezifische Tests ein Test ist für die unfair, die nur geringeren oder keinen Anteil an der Kultur haben, für welche der Test bestimmt ist „[…] Von einem fairen Test wurde dagegen erwartet, daß er jedem die Chance einräume, sich in jener Art intelligent zu verhalten, die seiner individuellen Sozialisationsgeschichte entspreche.“

Gruppenspezifische Tests letzte logische Konsequenz: so viele verschiedene Test wie verschiedene Kulturen Black Intelligence Test of Cultural Homogenity (BITCH) von Williams (1975) - Afroamerikanische Kinder gleiche verbale Intelligenz wie Kaukasische (Weiße, in einem Standardtest), da dieser Test ihrer Sozialisation angemessen ist

Gruppenspezifische Normen „Jeder Test, der in unserer heterogenen Gesellschaft Individuen vorgelegt wird, diskriminiert zulasten der Personen, deren kultureller Hintergrund sich von dem der Majorität unterscheidet.“ (Goslin, 1968) also „kulturspezifische Standardisierung“, sprich verschiedene Vergleichnormen für verschiedene Subgruppen

Gruppenspezifische Normen im Extrem: kein Individuum ist mit einem anderen vergleichbar, weil minimale Unterschiede im Sozialisationshintergrund gibt. Krapp (1977) unterschied (für pädagogischen Hintergrund) zw. ‚laufbahnorientierte Diagnostik‘ und ‚lernwegorientierte Diagnostik‘

Kulturfreie Tests Versuch „Tests zu konstruieren, die nur solche Erfahrungen für die Lösung der Testaufgaben voraussetzen, die verschiedenen Kulturen gemeinsam sind“ (Anastasi, 1964) besonders Verzicht auf direkte Prüfung verbalen Fähigkeiten (z.B. Tests des räumlichen Vorstellungsvermögens)

Kulturfreie Tests auch hier kann es sein, dass der Test ‚kulturell geladen‘ ist, wenn die Hintergrund der Personen differiert aber je kulturfreier (oder kulturell kontrollierter), also auch fairer, ein Test ist, desto inhaltsleerer und weniger valide ist er

Kulturfreie Tests schon das Ausklammern von (mittelschichtorientierten) sprachlichen Kompetenz, verzerrt die Widerspieglung intellektueller Fähigkeiten (Guthke, 1972) „Die Verschleierung faktischer Ungleichheiten kann nicht fair sein, da Defizite nur behoben werden können, wenn sie aufgedeckt werden.“ (Simons & Möbus, 1982)

Regressionsmodell nach Cleary nach Cleary (1962) „ist ein Selektionsverfahren dann fair, wenn bei seiner Anwendung für keine der miteinander verglichenen Gruppen eine systematische Über- oder Unterschätzung der Kriteriumswerte entsteht.“ (Amelang & Zielinski, 2002)

Regressionsmodell nach Cleary

weitere Fairnesskonzepte Modell konstanter Verhältnisse (Thorndike, 1971) „Conditional Probability Model“ (Cole, 1973) „Equal Probability Model“ (Linn, 1973) ‚„Bonusmodell“‘ von Darlington (1971)

Fairness bei PISA 2 Artikel zur PISA-Studie: zum Einfluss der Sprache aus welcher ein Item ursprünglich stammt (Muttersprache vs. fremde Sprache) zum Einfluss von anspornenden Mitteln auf Testergebnis und Leistungsinvestition in den Test

Einfluss des sprachlichen Ursprungs um in einer lagre-scale-Studie wie PISA oder TIMSS Vergleiche mit validen Rückschlüssen zwischen verschiedenen Ländern durchzuführen, muss gewährleistest sein, dass die Aufgaben in allen Ländern eine gleiche Schwierigkeit haben und das gleiche Messen

Einfluss des sprachlichen Ursprungs bei Leseaufgaben gibt es besonders 2 Schwierigkeiten: (1) unabsichtliche Veränderung der Itemschwierigkeit durch Übersetzung/Übertragung (differenzielle Itemfunktion (IDF)) (2) Schwierigkeitsunterschiede durch „kulturelle Färbung“ der Aufgaben

Differenzielle Itemfunktion (IDF) tritt auf bei (1) Übertragung auf eine andere Kultur (2) Übersetzung in andere Sprache Studien:  Gierl & Kahlic (2001) - Kanada (Englisch/Französisch) - sehr hoch  Allalouf (2003) - Vergleich von Israelischen und Russischen Testitems  Angoff & Cook (1988) - Übertragung des SAT vom Englischen ins Spanische

Differenzielle Itemfunktion (IDF) Einfluss auf die Schwierigkeit haben u.a.  Satz- und Textlänge  grammatikalische und linguistische Merkmale Seltsames Beispiel: Englisch:I am awake. Deutsch:Ich bin wach. Irisch:Tá mé i mo dhúiseacht.

„Kulturelle Färbung“ der Items kulturelle Färbung macht sich als Vorteil bei Personen aus dem kulturellen Hintergrund bemerkbar, aus welchem auch die Aufgaben stammen. mögliche Faktoren: textrelevantes Vorwissen, textrelevantes Alltagswissen sowie Wissen über typische Kommunikationsabsichten, Textgenres und Darstellungsformen

Aufgabenanteil nach Ursprungssprache

Differenzielle Itemfunktionen I

Differenzielle Itemfunktionen II

Punktmittelwerte

Zusammenfassung I die Ursprungssprache scheint einen Einfluss auf die Varianz der Punktwerte zu haben, aber keine dieser Vor- oder Nachteile ist im Rahmen der PISA-Scores statistisch signifikant die Einflüsse scheinen sich tendenziell heraus zu mitteln, bei den Ländern, die Items eingebracht haben bei den Ländern ohne eigene Items lässt sich natürlich keine faktische Aussage treffen

Einfluss von Ansporn große Bedenken, dass Tests und Leistungserfassungen, welche keine direkten Folgen für Schüler, Lehrer oder Schulen haben die Leistung der Schüler unterschätzen diese Unterschätzung erhöht sich noch doch die Gewöhnung der Schüler an derartige Untersuchungen

Bisherige Forschung Motivationssteigerung mittels Rückmeldung, Evaluation und Belohnung  extrinsische Motivation, wird von Belohnung oder Strafe beeinflusst  intrinsische Motivation, wird durch extrinsische Faktoren stark beeinflusst

Bisherige Forschung Steigerung der Motivation durch  situationsgebundenes Interesse (persönliche Bedeutsamkeit, mittlere Schwierigkeit, best. Level an Neuheit und Komplexität)  Priming der Aufgabe oder Ego-Orientierung (meistern der Aufgabe und Lernziele erreichen bzw. Wettbewerbsziel erreichen („gewinnen“))  Erhöhen des „Einsatzes“ (Einsatz enspr. Wichtigkeit; widersprüchliche Befunde; Steigerung nur wenn Kontrollgruppe Test als Standard-Arbeit des Unterrichts oder ohne Konsequenzen macht)

der „Einsatz“ bei PISA für Schüler sehr geringer Einsatz, weil keine Konsequenzen (keine Noten, Feedback oder Möglichkeit ein Schüler als Ursprung des Antworten zu finden) für Politiker und Forscher sehr hoher Einsatz, auch teilweise für Lehrer und Schulen (denn Schulen bekommen ein generelles Feedback über die Leistung, allerdings nur für interne Zwecke)

Experimentalgruppen (1) Standard der PISA-Untersuchung (2) Feedback (individuelle Rückmeldung der Ergebnisse nach dem Test) (3) Notenvergabe (Behandlung des Tests als normale Arbeit; Notenmotivation und Wettbewerbsmotivation) (4) Leistungsabhängige Belohnung (10 DM wenn über dem Schnitt richtiger Lösungen)

Stichprobe 467 Schüler der 9. Klasse von 3 Gymnasien und 5 Hauptschulen aus dem Raum Hannover 2 Schulen (1 je) und somit 160 Schüler mussten ausgeschlossen werden Hauptschüler etwas älter (15,61 vs. 15,00) Gymnasiasten etwas bessere Noten (3,39 vs. 3,51) - bes. Jungen am Gymnasium (3,06)

Testumfang Kurzform des PISA Mathematiktests (20 Items) Motivationsfrageborgen (36 Items)  Persönliche Wichtigkeit guter Leistung (1)  Nutzen der Testteilnahme (1)  Ego-Orientierung (6)  Aufgabenorientierung (10)  Aufwand (geplant/investiert) (3)  „Anstrengungs-Thermometer“ (1)  Emotionaler Zustand (4)  Erregungsniveau (4)  Irrelevante Kognitionen (7)

Treatment Recognition Check 3 Wege um herauszufinden, ob die Schüler den Zweck des Test erkannt haben und in welcher Gruppe sie waren:  Offene Frage zum Test  Identifizieren der erhaltenen Anleitung  Informelles Gespräch zwischen Ende des Test und Einweihung in den Zweck Gesamtrate: 79 % haben das Treatment richtig erkannt in der Folge: teilweise getrennte Analysen für Schüler die richtig vs. Schüler die falsch lagen

Treatment Recognition Check

Motivationsfragebogen I

Motivationsfragebogen II

Geplante und tatsächliche Investitionen

„Anstrengungs-Thermometer“

Einfluss der Experimentalgruppe auf die Leistung

Zusammenfassung II Es scheint, nach den vorliegenden Ergebnissen, keinen Einfluss von ‚zusätzlicher‘ Motivation auf den Testwert bei den untersuchten PISA-Aufgaben zu geben folglich scheint es also auch zu keiner systematischen Unter- oder Überschätzung der Leistungen bei Studien wie PISA oder TIMSS zu geben

Literatur Simons, H. & Möbus, C. (1982). Testfairness. In K. J. Klauer (Hrsg.). Handbuch der pädagogischen Diagnostik, 1 (S ). Düsseldorf: Schwann. Bauermert, J. & Demmrich, A. (2001). Test motivation in the assessment of student skills: The effects of incentives on motivation and performance. European Journal of Psychology of Education, 16, Artelt, C. & Baumert, J. (2004). Zur Vergleichbarkeit von Schülerleistungen bei Leseaufgaben unterschiedlichen sprachlichen Ursprungs. Zeitschrift für Pädagogische Psychologie, 18, Amelang, M. & Zielinski, W. (2002). Psychologische Diagnostik und Intervention. 3. Auflage Berlin: Springer.