Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Das dichotome Rasch-Modell Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum.

Ähnliche Präsentationen


Präsentation zum Thema: "Das dichotome Rasch-Modell Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum."—  Präsentation transkript:

1 Das dichotome Rasch-Modell Sabrina Rinder ( ), Mira Seitzer ( ), Dominik Herrmannsdörfer ( ), Martin Schallert ( ) Forschungspraktikum 2008, Prof. Gabriel

2 Testtheorien: Klassische vs. Probabilistischer Testtheorie Psychologischer Test: -Wissenschaftliches Routineverfahren zur Untersuchung einer oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. -Spezielles, psychologisches Experiment mit dem Ziel, vergleichende Aussagen über Personen abzuleiten.

3 Testtheorien Testtheorie: - Theorie darüber, wie das zu erfassende psychische Merkmal der Person ihr Verhalten im Test beeinflusst.

4 Testtheorien Testmodelle: - Spezielle formale Modelle, die durch die Art der empirischen Daten, auf die sie sich anwenden lassen, definiert werden.

5 1) Klassische Testtheorie (KTT)‏ - Die Annahmen der klassischen Testtheorie beziehen sich auf vorliegende, fehlerbehaftete Messwerte von Personen (  Allg. Messfehlertheorie). - Sie bestehen aus bestimmten Aussagen über den Messfehler dieser Messwerte. - Die Existenz von Messwerten wird somit vorausgesetzt. - Für die klassische Testtheorie lassen sich die Grundannahmen in fünf Axiome ausdrücken. - Auf der Basis dieser Axiome sind drei Testgütekriterien definierbar, die die Qualität eines Tests angeben: Objektivität, Reliabilität und Validität

6 Axiome der KTT 1. Das Testergebnis setzt sich additiv aus dem „wahren Wert“ (True Score: T) und dem Messfehler (Error Score: E) zusammen: X = T + E 2. Bei wiederholten Testanwendungen kommt es zu einem Fehlerausgleich, d.h. der Mittelwert (  ) des Messfehlers ist Null:  (E) = 0 Der Mittelwert mehrerer unabhängiger Messungen an demselben Untersuchungsobjekt ist folglich messfehlerfrei und repräsentiert den wahren Wert:  (X) =  (T) +  (E) = T + 0 = T.

7 Axiome der KTT 3. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad des getesteten Merkmals, d.h. wahrer Wert und Fehlerwert sind unkorreliert. 4. Die Höhe des Messfehlers ist unabhängig vom Ausprägungsgrad anderer Persönlichkeitsmerkmale (T’). 5. Der Messfehler verschiedener Testanwendungen sind voneinander unabhängig.

8 2) Probabilistische Testtheorie - Item-response-theory (IRT)‏ Die untersuchten Merkmale werden als latente Dimensionen betrachtet und die einzelnen Testitems als Indikatoren dieser latenten Dimensionen. Das heißt, manifeste Variablen sind Indikatoren einer (postulierten) latenten Dimension ξ (=Ausprägung od. Fähigkeit der Person).

9 Probabilistische Testtheorie - Probabilistische Modelle gehen nicht vom Rohwert (Testwert X) aus, sondern setzten beim einzelnen Item an. Jede beobachtete Antwort (=Reaktion) einer Vpn ist von drei Komponenten abhängig: - Eigenschaften der Person (z.B. Fähigkeit)‏ - Eigenschaften des Items (z.B. Schwierigkeit)‏ - Zufall (unkontrollierbare Einflüsse)‏

10 Probabilistische Testtheorie - Beeinflusst die latente Variable nun die manifeste, so werden die Testitems miteinander korrelieren. - Wenn eine latente Dimension existiert, dann könnte man diese latente Dimension (statistisch) konstant halten u. die Zusammenhänge zw. den manifesten Variablen müssten verschwinden.

11 3) Zusammenfassende Bewertung - KTT: Messergebnis = (messfehlerbehaftete) Merkmalsausprägung; - IRT: Testergebnisse = Indikatoren latenter Merkmale oder Verhaltensdispositionen; - Tests, die auf einem probabilistischen Testmodell basieren, unterscheiden sich von „klassisch“ konstruierten Tests in der Regel dadurch, dass die Annahmen, die dem Test zugrunde liegen, auch geprüft werden.

12 Zusammenfassende Bewertung - Die Entwicklung eines probabilistischen Tests ist aufwendiger. - Die Überprüfung der klassischen Testgütekriterien Reliabilität und Validität ist bei probabilistischen Tests schwierig. - 95% aller Testentwicklungen wurden „klassisch“ konstruiert

13 Wofür Rasch? -Das Rasch-Modell stellt ein Prüfverfahren für psychologische Tests dar. -Items, die nicht die gewünschte Fähigkeits- dimension messen können selektiert werden. -Rohscores eines Tests werde aussagekräftig und können für Weiterberechnungen und Vergleiche herangezogen werden. -Personenvergleiche werden möglich.

14 Grundbegriffe im Rasch Modell Spezifische Objektivität StichprobenunabhängigkeitEindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

15 Spezifische Objektivität G. Raschs Forderungen nach: 1) Testunabhängigen Fähigkeitsmaßen 2) Stichprobenunabhängige Itemschwierigkeitsmaßen

16 Grundbegriffe im Rasch Modell Spezifische Objektivität StichprobenunabhängigkeitEindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

17 Stichprobenunabhängigkeit Das Ergebnis darf nicht vom Messinstrument abhängen. Ist dies der Fall, so ist der Test als culture fair zu bezeichnen.

18 Grundbegriffe im Rasch Modell Spezifische Objektivität StichprobenunabhängigkeitEindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

19 Eindimensionalität Egal in welcher Population getestet wird, messen die Items immer dieselbe Fähigkeit. => Rasch-homogen Beispiel: Ein Test über räumliche Vorstellungskraft könnte auch mit logischem Schlussfolgern gelöst werden. => Nicht Rasch-homogen

20 Grundbegriffe im Rasch Modell Spezifische Objektivität StichprobenunabhängigkeitEindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

21 Erschöpfende Statistik als Grundlage Person: Item: 1 Item: 2 Item: 3 Item: 4 Personen- Randsumme: Itemrandsumme:

22 Erschöpfende Statistik als Grundlage Vergleich zweier Personen in einem Mathematiktest: Item1: = ? Item2: 2763 x 2748 = ? Wer ist begabter? 1 1 score 1 0 Item Item 1 P2P1

23 Erschöpfende Statistik => => Ist der Test nicht Rasch-homogen ist es nicht zulässig den Rohscore zu verwenden.

24 Grundbegriffe im Rasch Modell Spezifische Objektivität StichprobenunabhängigkeitEindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

25 Parameterschätzung a) Personenparameter b) Itemparameter - Schätzung per Maximum Likelihood 3 verschiedene Funktionen: - UML … uncontional ML - CML … conditional ML - MML … marginal ML - Berechnung nur mittels PC möglich

26 a) Personenparameter - Gibt die Wahrscheinlichkeit an, mit der Person v die Items i in einem Test lösen kann die Items i in einem Test lösen kann Relevant zur Berechnung: - Die Anzahl der Items, die von den Personen gelöst wurden gelöst wurden - NICHT welche Items!

27 b) Itemparameter - Gibt die Wahrscheinlichkeit an, mit der das Item i von den Personen v die den Test Item i von den Personen v die den Test machen gelöst wird machen gelöst wird Relevant zur Berechnung: - Anzahl der Personen, die dieses Item lösen - NICHT welche Personen!

28 Grundbegriffe im Rasch Modell Spezifische Objektivität StichprobenunabhängigkeitEindimensionalität Erschöpfende Statistik Parameterschätzung Logistische Funktion bei Rasch IC-Kurve

29

30 Die Wahrscheinlichkeit, dass Person v Item i richtig löst hängt davon ab, wie schwer das Item i ist und wie fähig die Person v ist. Definition von Rasch: Personenparameter = Itemparameter => Lösungswahrscheinlichkeit 50% => Lösungswahrscheinlichkeit 50%

31 Grundbegriffe im Rasch Modell Spezifische Objektivität StichprobenunabhängigkeitEindimensionalität Erschöpfende Statistik ParameterschätzungIC-Kurve

32 IC-Kurven:

33 IC-Kurven:

34 Anwendung des Rasch Modells: - Feststellung von Item-Bias - Computerisiertes Adaptives Testen (CAT)‏ - Psychometrische Qualitätskontrollen

35 Itembias Raschmodell dient zum Herausfiltern unfairer Items durch den Vergleich der IC-Kurven. Relevant in Bildung oder Wirtschaft bei z.B. Aufnahme-, Eignungs- oder Intelligenztests

36

37

38 CAT- Computerisiertes Adaptives Testen Testpersonen bekommen nur Items die auf ihr Fähigkeitsniveau abgestimmt sind

39 CAT- Computerisiertes Adaptives Testen Voraussetzung: Großer Itempool, der rasch-homogen ist und sich über das gesamte Kontinuum streut Vorteile: - schnelle und genauere Messung - keine unnötigen Items - auch präzise Messung in Extrembereichen - erhöhte Testsicherheit und Testfairness Nachteile: - Erhöhter Testkonstruktionsaufwand

40 Psychometrische Qualitätskontrolle Vergleich und Überprüfung von bewährten Tests möglich. Beispiel: Messen 3DW und WMT dasselbe Konstrukt? Klassisches Konzept: Korrelation von 0.4 – 0.5 Modernes Konzept: Rasch-Modell -> unterschiedliche Fähigkeitsdimensionen (Raumvorstellung und Reasoning)‏

41 Forschungspraktikum: Test: Wortschatztest Stichprobe: Männliche und weibliche Schüler einer Oberstufe Hypothesen: H0: Testitems nicht Rasch-homogen H1: Testitems sind Rasch-homogen H1: Testitems sind Rasch-homogen

42 Danke für die Aufmerksamkeit


Herunterladen ppt "Das dichotome Rasch-Modell Sabrina Rinder (0602848), Mira Seitzer (0606616), Dominik Herrmannsdörfer (0606619), Martin Schallert (0305866) Forschungspraktikum."

Ähnliche Präsentationen


Google-Anzeigen