Theorie psychometischer Tests, V Nichtklassische Modelle

Slides:



Advertisements
Ähnliche Präsentationen
Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Advertisements

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
Schnelle Matrizenoperationen von Christian Büttner
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
13. Transformationen mit Matrizen
Ein Modellansatz zur Beschreibung von Vagheiten
Theorie psychometrischer Tests, III
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstatistik II
Forschungsstatistik I
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Kapitel 1 Das Schubfachprinzip
K. Desch - Statistik und Datenanalyse SS05
Nachholung der Vorlesung vom Freitag
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur nächste Woche - statt Vorlesungen -
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
II. Wahrscheinlichkeitstheorie
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Test auf Normalverteilung
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Allgemeine Literatur Fricke & Treinies (1985): Einführung in die Metaanalyse Schwarzer (1989): Meta-Analysis Programs Gutes Manual! Beelmann & Bliesener.
Folie 1 § 30 Erste Anwendungen (30.2) Rangberechnung: Zur Rangberechnung wird man häufig die elementaren Umformungen verwenden. (30.1) Cramersche Regel:
§9 Der affine Raum – Teil 2: Geraden
§9 Der affine Raum – Teil 2: Geraden
Tutorium
Tutorium
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Binomialverteilung: Beispiel
Wahrscheinlichkeitsrechnung
Ausgleichungsrechnung II
Globale Interpolations- und Prädiktionsverfahren
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
§3 Allgemeine lineare Gleichungssysteme
Statistik: Mehr zur Regression.
Kapitel 10 Multikollinearität
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Lineare Restriktionen
Kapitel 19 Kointegration
Kapitel 3 Lineare Regression: Schätzverfahren
Kapitel 16 Ökonometrische Modelle
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
Strategie der Modellbildung
Multivariate Statistische Verfahren
Theorie psychometrischer Tests, IV
Theorie psychometrischer Tests, II
Multivariate Statistische Verfahren
Item-Response-Theorie – oder probabilistische Testtheorie
Theorie, Anwendungen, Verallgemeinerungen
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Das dichotome Rasch-Modell
Reliabilität.
K. Desch - Statistik und Datenanalyse SS05
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Testtheorie (Vorlesung 12: ) Wiederholung: Reliabilität
Geoinformationssysteme
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
 Präsentation transkript:

Theorie psychometischer Tests, V Nichtklassische Modelle U. Mortensen Mainz, Juni 2009

Das allgemeine logistische Modell (A. Birnbaum)

Das allgemeine logistische Modell (A. Birnbaum)

Das spezielle Rasch-Modell (G. Rasch) Rasch-Homogenität: zwei Items Ig und Ih heißen Rasch-homogen, wenn beide ein und dasselbe Merkmal messen. Rasch-Homogenität gilt, wenn die Bedingung

Das spezielle Rasch-Modell (G. Rasch) Alternative Parametrisierung: Die Reparametrisierung verweist auf eine Beziehung des Rasch-Modells zu anderen Modellen: - Division durch sigma führt auf Dies ist das Bradley-Terry-Luce-Modell für den Paarvergleich (Beziehung zur Messtheorie Suppes & Zinnes, 1963)

Das spezielle Rasch-Modell (G. Rasch) Beim Rasch-Modell sind die Itemfunktionen für Items mit verschiedenen Schwierigkeiten parallel.

Das spezielle Rasch-Modell (G. Rasch) Wettquotienten und Logits: (Wettquotient) (Logit)

Das spezielle Rasch-Modell (G. Rasch) Spezifische Objektivität: Der Vergleich der Logits zweier Personen beim gleichen Item liefert die Differenz der Personenparameter, der analoge Vergleich zweier Items bei der gleichen Person liefert die Differenz der Itemparameter.

Das spezielle Rasch-Modell (G. Rasch) Die Schätzung der Parameter: Maximum-Likelihood-Methode Likelihood der Messungen Maximum-Likelihood-Schätzungen von Parametern sind asymptotisch normalverteilt (aber nicht notwendig bias-frei!).

Das spezielle Rasch-Modell (G. Rasch) Der Test des Modells Aufgabe: es muß geprüft werden, ob die Daten mit der Annahme (i) Der logistischen Verteilung, (ii) des 1-pl-Modells kompatibel sind. Problem: es gibt viele Funktionen, die der logistischen Funktion so ähnlich sind, dass man mit Hilfe der üblichen statistischen Tests (z.B. Chi-Quadrat-Test für die Güte der Anpassung) nicht entscheiden Kann, ob die beobachtete Funktion mit der postulierten Funktion über- einstimmt oder nicht. Das Rasch-Modell sagt parallele Itemfunktionen für verschiedene Items voraus. – also kann man Itemfunktionen auf Parallelität testen. Es treten aber ähnliche Probleme wie beim Vergleich von Funktionen auf.

Das spezielle Rasch-Modell (G. Rasch) Der Test des Modells Gefordert: Homogenität der Items. Im Prinzip: Faktorenanalyse. Problem: 0-1-Daten liefern oft nicht erwartungstreue Schätzungen für die Korrelationen, es können „Schwierigkeitsfaktoren“ resultieren. Spezifische Objektivität: dieses Merkmal sagt gleiche Schwierigkeitsparameter für verschiedene Populationen voraus. Also kann man die Schwierigkeitsparameter von verschiedenen Items miteinander vergleichen (Hypothese: Gleichheit für verschiedene Teilpopulationen).

Das spezielle Rasch-Modell (G. Rasch) Der Test des Modells Der Quotient hängt nicht von den Personen ab! Quotienten müssen für verschiedene Populationen gleich sein, wenn das Modell gilt.

Das spezielle Rasch-Modell (G. Rasch) Der Test des Modells (Sub-)Population I (Sub-)Population II Diese Quotienten können für alle Paare von Items (g, g‘) gebildet werden. Die linke und die rechte Seite können als Koordinaten eines Punktes, der das Paar (g, g‘) repräsentiert. Alle Punkte müssen auf der 45-Grad Geraden mit additiver Konstante = 0 liegen, wenn das Modell gilt.

Das spezielle Rasch-Modell (G. Rasch) Der Test des Modells Wie gut, d.h. genau sind die Schätzungen der Personenparameter? Die Schätzungen sind – als Maximum-Likelihood-Schätzungen – asymptotisch normalverteilt. Also kann man ein Konfidenzintervall erklären:

Das Rasch-Modell: mehrdimensionale Verallgemeinerungen 1. Abgestufte Antwortskalen Beispiel: Einstellung zur Umwelt. Item: Ich fahre mit dem Fahrrad zur Arbeit. Antwortalternativen: - gelten für alle Items! Tue ich bereits Kann ich mir gut vorstellen Würde ich tun, wenn geeignete Bedingungen existieren Das wäre keine geeignete Maßnahme für den Umweltschutz

Das Rasch-Modell: mehrdimensionale Verallgemeinerungen Für jede befragte Person werden die Häufigkeiten bestimmt, die sich für die einzelnen Alternativen ergeben: Gegeben seien n Items – wie viele mögliche solcher „Antwortvektoren“ kann es geben? (Kombinatorik!) (Mögliche Verteilungen von n Kugeln auf k Fächer)

Das Rasch-Modell: mehrkategoriale Verallgemeinerung (Rasch,1961) Mit welcher Wahrscheinlichkeit wählt eine Person a die k-te von K möglichen Alternativen? Annahme: die Wahrscheinlichkeit hängt von der Differenz zwischen ihrem Parameter und der Kategorie ab.

Das Rasch-Modell: mehrdimensionale Verallgemeinerung Faktorenanalyse: Logistische Regression!

Das Rasch-Modell: mehrdimensionale Verallgemeinerung Logistische Regression:

Das Rasch-Modell: mehrdimensionale Verallgemeinerung Interpretation: die Komponenten der Fähigkeit gehen stets in festen Anteilen deterministisch in das Lösungsverhalten ein, es gibt keine probabilistischen Aspekte des Zusammenwirkens! Dies trifft natürlich auf das faktorenanalytische Modell ebenfalls zu. Frage: ist das eine plausible Annahme?

Das Rasch-Modell: mehrdimensionale Verallgemeinerung Carlson & Muraki (1995)

Das Rasch-Modell: das linear-logistische Modell Das linear-logistische Modell (Suppes, Jerman, Brian 1968, Fischer 1973 etc Ansatz: das Lösen von Aufgaben bedeutet das Lösen einer Reihe von Teilaufgaben, die jede ihre eigene Schwierigkeit haben. Zum ersten Mal von Suppes et al (1968) vorgeschlagen

Das Rasch-Modell: das linear-logistische Modell Der Ansatz entspricht dem der logistischen Regression, wobei die Schwierigkeiten unbekannte Parameter sind, die Gewichte werden aufgrund einer Aufgabenanalyse vorgegeben. Scheiblechner (1972) fügte einen Fähigkeitsparameter hinzu, es entstand damit ein Rasch-Modell mit einem Schwierigkeitspara- Meter, der durch eine gewogene Summe von Teilschwierigkeiten definiert ist:

Das Rasch-Modell: das linear-logistische Modell Anwendungen: Scheiblechner 1972: Lösen logischer Probleme Fischer 1973: Lösen von Differentiationsaufgaben Hornke & Habon 1986: Lösen, aber auch Konstruktion von Raven-Matrizen-Tests, etc Frage: ist das Modell ein geeignetes Modell, um Teilprozesse beim Lösen von Aufgaben oder Problemen zu charakterisieren?

Das Rasch-Modell: das linear-logistische Modell Der auf Suppes et al 1968 zurückgehende Ansatz bedeutet, dass implizit Annahmen über die Existenz von Abhängigkeiten beim Lösen der Teilaufgaben gemacht werden, ohne dass diese in irgendeiner Weise spezifiziert werden. Beispiele aus Hornke & Habon 1986

Das Rasch-Modell: das linear-logistische Modell Man betrachte insgesamt drei Aufgaben: Aufgabe 1 erfordert Lösen der Teilaufgaben A1 und A2 Aufgabe 2 erfordert nur das Lösen von A1 Aufgabe 3 erfordert nur das Lösen von A2 Es gelte jedes Mal das linear-logistische Modell. Zusätzliche Annahme: die beiden Teilaufgaben werden stochastisch unabhängig voneinander gelöst. Ist diese Annahme mit dem linear-logistischen Modell kompatibel?

Das Rasch-Modell: das linear-logistische Modell Vorhersage bei Unabhängigkeit Linear-logistisches Modell Frage: existiert eine 2-dimensionale Verteilung derart, dass sowohl die Randverteilungen als auch die gemeinsame Verteilung durch logistische Funktionen repräsentiert werden und die gemeinsame Verteilung gerade das linear-logistische Modell darstellt? Die Frage ist einerseits nicht beantwortet, richtet sich andererseits auf die interne Konsistenz des Modells! Warnung und Gebot: Du sollst nicht drauflos modellieren!!!

Mehrdimensionalität: Korrespondenzanalyse Probleme mit der Faktorenanalyse: Korrelationen problematisch bei dichotomen Items Nahezu beliebige Häufigkeitsverteilungen bei Ratings Korrespondenzanalyse: „Faktorenanalyse‘‘ bei Häufigkeitstabellen. Idee: Zerlegung des Chi-Quadrats der Tabelle in unabhängige Komponenten, die zu latenten Dimensionen korrespondieren. Korrespondenzanalyse: Skaliere die Koordinaten der Zeilen- und Spaltenkategorien derart, dass die Abhängigkeiten zwischen Zeilen- und Spaltenkategorien dargestellt werden.

Tocher (1908), R. A. Fisher (1940)

Mehrdimensionalität: Korrespondenzanalyse Westphal (1931): Daten aus allen Psychiatrischen Landeskrankenhäusern

Mehrdimensionalität: Korrespondenzanalyse

Mehrdimensionalität: Korrespondenzanalyse

Mehrdimensionalität: Korrespondenzanalyse

Selbstmorde in Deutschland 1974 - 1977

Selbstmorde in Deutschland 1974 - 1977

Korrespondenzanalyse - Theorie (Singularwertzerlegung)

Korrespondenzanalyse - Theorie Residuen Zeilenkategorien Spaltenkategorien Re-skaliert derart, dass euklidische Distanzen zwischen den repräsentierenden Punkten Chi-Quadrat-Differenzen entsprechen

Multiple Korrespondenzanalyse Items Matrix X = Probanden

Multiple Korrespondenzanalyse Die Burt-Matrix

Multiple Korrespondenzanalyse

Diskussion: KKT versus IRT KKT: Zentrales Problem ist die Populationsabhängigkeit der Schwierigkeitsindices für die Items. IRT: Großer Vorteil ist die Populationsunabhängigkeit von Person- und Itemabhängigkeit – Spezifische Objektivität der Testresultate. Rasch: ein Modell sollte nicht nur gut auf die Daten passen, es sollte der Vergleich von Personen unabhängig von den Items (aus einer Klasse von Items) sein. Jedes Testmodell sollte die Bedingung der spezifischen Objektivität erfüllen; dieses Merkmal sei ein notwendiges, wenn auch kein hinreichendes Merkmal für ein gutes Testmodell.

Diskussion: KKT versus IRT Zweites wünschenswertes Merkmal: die Schätzungen für die Personparameter sollten Suffiziente Statistiken sein. Suffiziente Statistiken: eine Schätzung („Statistik“) für einen Parameter ist suffizient oder erschöpfend, wenn sie alle Information über den Parameter, die in den Daten ist, enthält.

Diskussion: KKT versus IRT Suffizientes Statistiken Spezielle Stichprobe Statistik Parameter Unabhängigkeit vom Parameter, - Information über theta bereits in T enthalten!

Diskussion: KKT versus IRT Beispiel für Suffiziente Statistik: Binomialverteilung p ist unbekannter Parameter,

Diskussion: KKT versus IRT Beispiel für Suffiziente Statistik: Binomialverteilung Unabhängig von p! Relative Häufigkeit ist suffiziente Statistik für den Parameter p.

Diskussion: KKT versus IRT Es läßt sich zeigen, dass die Schätzungen der Parameter für die logistische Funktion suffiziente Statistiken sind! Es ist von G. Rasch und dann von G. Fischer (Wien) postuliert worden, dass (i) spezifische Objektivität und (ii) Parameterschätzungen als suffiziente Statistiken notwendige Voraussetzungen für ein Testmodell sein müssen. Dann bleibt nur das Rasch-Modell als das einzig sinnvolle Modell. Ramsay (1975): alle fundamentalen Gesetze der Physik haben eine multiplikative Form – Unterstellung: alle fundamentalen Gesetze haben diese Form.

Diskussion: KKT versus IRT Auch das Rasch-Modell kann in diese Form gebracht werden: Reparametrisierung! Multiplikative Gesetze, spezifische Objektivität, und Physik:

Diskussion: KKT versus IRT Multiplikative Gesetze, spezifische Objektivität, und Physik: Masse (m) und Beschleunigung (b) können unabhängig voneinander bestimmt werden. Für konstante Kraft gilt für zwei Körper mit unterschiedlicher Masse:

Diskussion: KKT versus IRT Frage: aus welchem ontologischen Prinzip folgt, dass fundamentale Gesetze eine multiplikative Form haben müssen? Es gilt (Einstein 1905) die Beziehung Ist Einsteins Beziehung kein „fundamentales“ Gesetz mehr?

Diskussion: KKT versus IRT Micko (1969) „A psychological scale for reaction time measurement“: Rasch-Modellierung von Reaktionszeiten: a(i) Person-Funktion, b(t) > 0 eine beliebige Funktion der Zeit, wird durch spezifische Aufgabe näher bestimmt. Vorberg & Schwarz (1990): Eine Reihe zentraler Modelle über Reaktionszeiten wird bei diesem Ansatz von vornherein ausgeschlossen, es bleiben nur unplausible, mit den Daten nicht kompatible Modelle übrig!

Diskussion: KKT versus IRT Zusammenfassung: Für die Forderung nach spezifischer Objektivität und suffizienten Statistiken existiert kein ontologisches Argument, - Rasch-Modell ist nicht notwendig allein seligmachend! Modelliert man psychische Prozesse, so sind die Parameter der Modelle nicht notwendig spezifisch objektiv und die Schätzungen nicht notwendig suffizient! Hat man eine Menge von Items, die dem Rasch-Modell genügen: sehr schön – Glück gehabt! Zumal der große Nachteil der KKT die Populationsabhängigkeit der Schwierigkeitsparameter!

Danke für Ihre Aufmerksamkeit!