Das dichotome Rasch-Modell

Slides:



Advertisements
Ähnliche Präsentationen
Was ist Testtheorie?.
Advertisements

Bewegungswissenschaft
Rating-Skalen: Definition
Theorie psychometrischer Tests, III
Thema der Stunde I. Einführung in die Varianzanalyse:
Einführung in das Thema Testgütekriterien
EmPra Der Einfluss und die Verarbeitung von emotionalen Reizen
Einfaktorielle Varianzanalyse
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Messung in Einheiten der Standardabweichung
Klassische Testtheorie
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Patrick Rössler Methoden der Datenerhebung und -auswertung Vorlesung BA Kommunikationswissenschaft (G21) 1.
Patrick Rössler Methoden der Datenerhebung und -auswertung Vorlesung BA Kommunikationswissenschaft (G21) 1.
Quantitative Methoden I
WAS WILL WISSENSCHAFT? - Sagen: Was WIE ist
Reliabilitätsanalysen
Grundlagen der klassischen Testtheorie
Strukturgleichungsmodelle
Forschungsmethoden der Psychologie 2
Forschungsmethoden der Psychologie 2
Forschungsmethoden der Psychologie 2
Forschungsprozess Car
Klassifikation faktorieller Persönlichkeitsdimensionen
Über den Einsatz normierter diagnostischer Verfahren in der Arbeitstherapie Von der Anwendung bestehender psychometrischer Tests zur Normierung der eigenen.
VL Diagnostische Kompetenz (Bewegungslehre 2) 3
Diagnostische Statistik
VL Diagnostische Kompetenz (Bewegungslehre 2) 3. Korrelation und Gütekriterien.
Tutorium
Unser schönstes Tutorium Materialien unter:
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Wahrscheinlichkeitsrechnung
Probleme der Modellspezifikation
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Objektivität, Reliabilität, Validität
Ausgleichungsrechnung I
Ausgleichungsrechnung II
© Forschungsgruppe Metrik – Damm Deringer & Zinn GbR Streifzug durch die Testtheorie Winfried Zinn.
Die Struktur von Untersuchungen
Theoriereferat Indexes, Scales and Typologies The Logic of Sampling
Wahrscheinlichkeitsrechnung
Theorie psychometrischer Tests, IV
Theorie psychometischer Tests, V Nichtklassische Modelle
Theorie psychometrischer Tests, II
Item-Response-Theorie – oder probabilistische Testtheorie
Statistik – Regression - Korrelation
Veranstaltung 4.
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Gegenstand der Psychologie
Testtheorie (Vorlesung 7: ) Rekapitulation: Modellierungsansatz
Wiederholung/Zusammenfassung
Einführung / Formalitäten
Methoden der Sozialwissenschaften
Reliabilität.
K. Desch - Statistik und Datenanalyse SS05
Theorie psychometrischer Tests, I U. Mortensen Mainz, 2009.
Geostatistik Kriging Sarah Böckmann.
Übung zur Vorlesung Theorien Psychometrischer Tests I
Einstellungsforschung mittels Umfragen: Reliabilität der in der Umfrageforschung üblicherweise eingesetzten Instrumente Siegfried Schumann.
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Testtheorie (Vorlesung 12: ) Wiederholung: Reliabilität
Probleme empirischer Forschung
Statistik I Statistik I Statistische Grundbegriffe
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Testtheorie (Vorlesung 14: ) Testtheorie allgemein:  Ziele und Inhalte der Testtheorie:  Beurteilung der Eigenschaften von Tests  Speziell: Güte.
Reliabilität.
 Präsentation transkript:

Das dichotome Rasch-Modell Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum 2008, Prof. Gabriel

Testtheorien: Klassische vs. Probabilistischer Testtheorie Psychologischer Test: Wissenschaftliches Routineverfahren zur Untersuchung einer oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. Spezielles, psychologisches Experiment mit dem Ziel, vergleichende Aussagen über Personen abzuleiten.

Testtheorien Testtheorie: Theorie darüber, wie das zu erfassende psychische Merkmal der Person ihr Verhalten im Test beeinflusst.

Testtheorien Testmodelle: Spezielle formale Modelle, die durch die Art der empirischen Daten, auf die sie sich anwenden lassen, definiert werden.

1) Klassische Testtheorie (KTT)‏ Die Annahmen der klassischen Testtheorie beziehen sich auf vorliegende, fehlerbehaftete Messwerte von Personen ( Allg. Messfehlertheorie). Sie bestehen aus bestimmten Aussagen über den Messfehler dieser Messwerte. Die Existenz von Messwerten wird somit vorausgesetzt. Für die klassische Testtheorie lassen sich die Grundannahmen in fünf Axiome ausdrücken. Auf der Basis dieser Axiome sind drei Testgütekriterien definierbar, die die Qualität eines Tests angeben: Objektivität, Reliabilität und Validität

Axiome der KTT 1. Das Testergebnis setzt sich additiv aus dem „wahren Wert“ (True Score: T) und dem Messfehler (Error Score: E) zusammen: X = T + E 2. Bei wiederholten Testanwendungen kommt es zu einem Fehlerausgleich, d.h. der Mittelwert () des Messfehlers ist Null: (E) = 0 Der Mittelwert mehrerer unabhängiger Messungen an demselben Untersuchungsobjekt ist folglich messfehlerfrei und repräsentiert den wahren Wert: (X) = (T) + (E) = T + 0 = T.

Axiome der KTT 3. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad des getesteten Merkmals, d.h. wahrer Wert und Fehlerwert sind unkorreliert. 4. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad anderer Persönlichkeitsmerkmale (T’). 5. Der Messfehler verschiedener Testanwendungen sind voneinander unabhängig.

2) Probabilistische Testtheorie Item-response-theory (IRT)‏ Die untersuchten Merkmale werden als latente Dimensionen betrachtet und die einzelnen Testitems als Indikatoren dieser latenten Dimensionen. Das heißt, manifeste Variablen sind Indikatoren einer (postulierten) latenten Dimension ξ (=Ausprägung od. Fähigkeit der Person).

Probabilistische Testtheorie Probabilistische Modelle gehen nicht vom Rohwert (Testwert X) aus, sondern setzten beim einzelnen Item an. Jede beobachtete Antwort (=Reaktion) einer Vpn ist von drei Komponenten abhängig: Eigenschaften der Person (z.B. Fähigkeit)‏ Eigenschaften des Items (z.B. Schwierigkeit)‏ Zufall (unkontrollierbare Einflüsse)‏

Probabilistische Testtheorie Beeinflusst die latente Variable nun die manifeste, so werden die Testitems miteinander korrelieren. Wenn eine latente Dimension existiert, dann könnte man diese latente Dimension (statistisch) konstant halten u. die Zusammenhänge zw. den manifesten Variablen müssten verschwinden.

3) Zusammenfassende Bewertung KTT: Messergebnis = (messfehlerbehaftete) Merkmalsausprägung; IRT: Testergebnisse = Indikatoren latenter Merkmale oder Verhaltensdispositionen; Tests, die auf einem probabilistischen Testmodell basieren, unterscheiden sich von „klassisch“ konstruierten Tests in der Regel dadurch, dass die Annahmen, die dem Test zugrunde liegen, auch geprüft werden.

Zusammenfassende Bewertung Die Entwicklung eines probabilistischen Tests ist aufwendiger. Die Überprüfung der klassischen Testgütekriterien Reliabilität und Validität ist bei probabilistischen Tests schwierig. 95% aller Testentwicklungen wurden „klassisch“ konstruiert

Wofür Rasch? Das Rasch-Modell stellt ein Prüfverfahren für psychologische Tests dar. Items, die nicht die gewünschte Fähigkeits- dimension messen können selektiert werden. Rohscores eines Tests werde aussagekräftig und können für Weiterberechnungen und Vergleiche herangezogen werden. Personenvergleiche werden möglich.

Grundbegriffe im Rasch Modell Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

Spezifische Objektivität G. Raschs Forderungen nach: 1) Testunabhängigen Fähigkeitsmaßen 2) Stichprobenunabhängige Itemschwierigkeitsmaßen

Grundbegriffe im Rasch Modell Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

Stichprobenunabhängigkeit Das Ergebnis darf nicht vom Messinstrument abhängen. Ist dies der Fall, so ist der Test als culture fair zu bezeichnen.

Grundbegriffe im Rasch Modell Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

Eindimensionalität Egal in welcher Population getestet wird, messen die Items immer dieselbe Fähigkeit. => Rasch-homogen Beispiel: Ein Test über räumliche Vorstellungskraft könnte auch mit logischem Schlussfolgern gelöst werden. => Nicht Rasch-homogen

Grundbegriffe im Rasch Modell Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

Erschöpfende Statistik als Grundlage Person: 1 2 3 4 5 Itemrandsumme: 4 3 2 1 Item: 1 Item: 2 Item: 3 Item: 4 Personen- Randsumme: 4 2 1 2 3

Erschöpfende Statistik als Grundlage Vergleich zweier Personen in einem Mathematiktest: Item1: 47 + 23 = ? Item2: 2763 x 2748 = ? Wer ist begabter? 1 score Item 2 Item 1 P2 P1

Erschöpfende Statistik => Ist der Test nicht Rasch-homogen ist es nicht zulässig den Rohscore zu verwenden.

Grundbegriffe im Rasch Modell Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

Parameterschätzung a) Personenparameter b) Itemparameter - Schätzung per Maximum Likelihood 3 verschiedene Funktionen: - UML … uncontional ML - CML … conditional ML - MML … marginal ML - Berechnung nur mittels PC möglich

a) Personenparameter - Gibt die Wahrscheinlichkeit an, mit der Person v die Items i in einem Test lösen kann Relevant zur Berechnung: - Die Anzahl der Items, die von den Personen gelöst wurden - NICHT welche Items!

b) Itemparameter - Gibt die Wahrscheinlichkeit an, mit der das Item i von den Personen v die den Test machen gelöst wird Relevant zur Berechnung: - Anzahl der Personen, die dieses Item lösen - NICHT welche Personen!

Grundbegriffe im Rasch Modell Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

Logistische Funktion bei Rasch

Logistische Funktion bei Rasch Die Wahrscheinlichkeit, dass Person v Item i richtig löst hängt davon ab, wie schwer das Item i ist und wie fähig die Person v ist. Definition von Rasch: Personenparameter = Itemparameter => Lösungswahrscheinlichkeit 50%

Grundbegriffe im Rasch Modell Spezifische Objektivität Stichprobenunabhängigkeit Eindimensionalität Erschöpfende Statistik Parameterschätzung IC-Kurve

IC-Kurven:

IC-Kurven:

Anwendung des Rasch Modells: - Feststellung von Item-Bias - Computerisiertes Adaptives Testen (CAT)‏ - Psychometrische Qualitätskontrollen

Itembias Raschmodell dient zum Herausfiltern unfairer Items durch den Vergleich der IC-Kurven. Relevant in Bildung oder Wirtschaft bei z.B. Aufnahme-, Eignungs- oder Intelligenztests

CAT- Computerisiertes Adaptives Testen Testpersonen bekommen nur Items die auf ihr Fähigkeitsniveau abgestimmt sind

CAT- Computerisiertes Adaptives Testen Voraussetzung: Großer Itempool, der rasch-homogen ist und sich über das gesamte Kontinuum streut Vorteile: - schnelle und genauere Messung - keine unnötigen Items - auch präzise Messung in Extrembereichen - erhöhte Testsicherheit und Testfairness Nachteile: - Erhöhter Testkonstruktionsaufwand

Psychometrische Qualitätskontrolle Vergleich und Überprüfung von bewährten Tests möglich. Beispiel: Messen 3DW und WMT dasselbe Konstrukt? Klassisches Konzept: Korrelation von 0.4 – 0.5 Modernes Konzept: Rasch-Modell -> unterschiedliche Fähigkeitsdimensionen (Raumvorstellung und Reasoning)‏

Forschungspraktikum: Test: Wortschatztest Stichprobe: Männliche und weibliche Schüler einer Oberstufe Hypothesen: H0: Testitems nicht Rasch-homogen H1: Testitems sind Rasch-homogen

Danke für die Aufmerksamkeit