Kapitel 3: Klassische Testtheorie

Slides:



Advertisements
Ähnliche Präsentationen
Übung zur Vorlesung Theorien Psychometrischer Tests I
Advertisements

Was ist Testtheorie?.
Theorie psychometrischer Tests, III
Forschungsstrategien Johannes Gutenberg Universität Mainz
Strukturgleichungsmodelle
Einführung in das Thema Testgütekriterien
Klassische Testtheorie
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
A-Priori Kontraste Prüfung des Mittelwerteunterschieds von Faktorstufen bzw. Kombinationen von Faktorstufen: z.B.: oder.
Übung zur Vorlesung Theorien Psychometrischer Tests I
Reliabilitätsanalysen
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Strukturgleichungsmodelle
Konfidenzintervalle Intervallschätzung
VL Diagnostische Kompetenz (Bewegungslehre 2) 3
VL Diagnostische Kompetenz (Bewegungslehre 2) 3. Korrelation und Gütekriterien.
Tutorium
Tutorium
Tutorium
Unser letztes Tutorium
Unser letztes Tutorium Output – das Modell gut11 gut12 gut21 gut22 gut31 gut32 state1 state2 state3 XI MF
Unser schönstes Tutorium Materialien unter:
Eigenschaften der OLS-Schätzer
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Objektivität, Reliabilität, Validität
Ausgleichungsrechnung I
Kapitel 10 Multikollinearität
Theorie psychometrischer Tests, IV
Theorie psychometrischer Tests, II
Statistik – Regression - Korrelation
Testtheorie (Vorlesung 6: ) Zusammenfassung: Matrizen
Testtheorie (Vorlesung 7: ) Rekapitulation: Modellierungsansatz
Wiederholung/Zusammenfassung
Wiederholung/Zusammenfassung
Testtheorie (Vorlesung 4: ) Wiederholung/Zusammenfassung
Einführung / Formalitäten
Testtheorie (Vorlesung 5: ) Wiederholung/Zusammenfassung  Reduktion von Gleichungen:
setzt Linearität des Zusammenhangs voraus
Varianzanalyse und Eta²
Das dichotome Rasch-Modell
Reliabilität.
Übung zur Vorlesung Theorien Psychometrischer Tests I Ulf Kröhne Norman Rose Session 8.
Testtheorie (Vorlesung 11: ) Wiederholung: Reliabilität
Testtheorie (Vorlesung 10: ) Wiederholung: Reliabilität
Übung zur Vorlesung Theorien Psychometrischer Tests I
Übung zur Vorlesung Theorien Psychometrischer Tests I
Einstellungsforschung mittels Umfragen: Reliabilität der in der Umfrageforschung üblicherweise eingesetzten Instrumente Siegfried Schumann.
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Testtheorie (Vorlesung 12: ) Wiederholung: Reliabilität
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Testtheorie (Vorlesung 14: ) Testtheorie allgemein:  Ziele und Inhalte der Testtheorie:  Beurteilung der Eigenschaften von Tests  Speziell: Güte.
Kapitel 2: Testtheorie / Testmodelle  Multivariate (p-variate) Normalverteil- ung :  Mittelwertstruktur: p Mittelwerte  Kovarianzstruktur: p·(p+1)/2.
Einführung / Formalitäten  Voraussetzungen (Tutoriat):  AMOS zur Berechnung von Modellen.  Kovarianzrechnung.  Einfache Matrizenrechnung.  Optimale.
Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.
Ausgleich nach der Methode der kleinsten Quadrate
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Die einfache/multiple lineare Regression
Reliabilität.
Kapitel 2: Testtheorie / Testmodelle
12 Das lineare Regressionsmodell
Forschungsstrategien Johannes Gutenberg Universität Mainz
Kapitel 2: Testtheorie / Testmodelle
Konfidenzintervalle und Tests auf Normalverteilung
ANOVA für unabhängige Daten.
Fortgeschrittene statistische Methoden SS2020
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Kapitel 3: Klassische Testtheorie Charakterisierung der klassischen Testtheorie: Die Zerlegung des beobachteten Mess-werts Ypi einer Person p für Test i in «Truescore» und Fehler: Mit: bzw. Die Axiome der klassischen Testtheorie zur Vereinfachung der Kovarianzstruktur.

Kapitel 3: Klassische Testtheorie Charakterisierung der klassischen Testtheorie: Die Axiome der klassischen Testtheorie vereinfachen die . Zentral: Axiome sind über Population von Subjekten definiert.

Kapitel 3: Klassische Testtheorie Axiome der klassischen Testtheorie (KTT): Die Axiome der KTT dienen zur Vereinfachung der Kovarianzstruktur: Sie besagen, dass die Kovarianzen zwischen Fehler und Truescores sowie zwischen den Fehlern untereinander gleich 0 sind.

Kapitel 3: Klassische Testtheorie Beispiel 3-1: Axiome der KTT: Gegeben: 3 Tests, mit beobachtete Werte repräsen- tiert durch Zufallsvariablen (ZVn): . 3 ZVn für Truescores: . 3 ZVn für Fehler: . Kovarianzstruktur der Truescores und Fehler wird repräsentiert durch eine 6  6 - Kova-rianzmatrix.

Kapitel 3: Klassische Testtheorie Beispiel 3-1: 6  6 - Kovarianzmatrix der Truescores und Fehler:

Kapitel 3: Klassische Testtheorie Beispiel 3-1: Vereinfachung der Kovari-anzstruktur aufgrund der Axiome:

Kapitel 3: Klassische Testtheorie Beispiel 3-1: Implizierte Kovarianzmatrix der Beobachtungen (einfache Anwendung der Kovarianzrechnung):

Kapitel 3: Klassische Testtheorie Axiome der KTT: Bemerkungen Axiome der KTT implizieren keine prüfbaren Vorhersagen. Daher müssen weitere An-nahmen gemacht werden ( Klassische Testmodelle). Modell ist nicht identifiziert, da mehr freie Parameter (9) als Datenpunkte (6), allerdings sind die Varianzen der Truescores exakt identifiziert: Sie werden durch die beobachteten Kovarianzen geschätzt.

Kapitel 3: Klassische Testtheorie Axiome der KTT: Bemerkungen Die KTT macht nur Aussagen über die Mittel-wert- und Kovarianzstruktur; Sie macht keine Verteilungsannahmen.  Statistischer Tests ohne Zusatzannahmen über die Verteilung von Truescores und Fehler nicht möglich.

Kapitel 3: Klassische Testtheorie Ziele der KTT: Entwicklung von Schätzern für die Reli-abilität der Messungen bzw. der Reliabilität von Summen der Messungen. Dies ist ohne Zusatzannahmen nicht mög-lich. Reliabilitätsschätzer nur bezüglich spezifischer Testmodelle sinnvoll.

Kapitel 3: Klassische Testtheorie Kritik der KTT: Kritik an der Truescore-Konzeption. Kritik am Wahrscheinlichkeitskonzept; konkret: Truescore als Erwartungswert einer within-subjects Verteilung

Kapitel 3: Klassische Testtheorie Kritik der KTT: Truescore-Konzeption Truescore als Erwartungswert bei wiederholter Testung: «Suppose we ask an individual, Mr. Brown, repeatedly whether he is in favor of the United Nations; suppose further that after each question we “wash his brains” and ask him the same question again. Because Mr. Brown is not certain as to how he feels about the United Nations, he will sometimes give a favorable and sometimes an unfavorable answer. Having gone through this procedure many times, we then compute the proportion of times Mr. Brown was in favor of the United Nations…» (Lord & Novick, 1968, Seite 29).

Kapitel 3: Klassische Testtheorie Kritik der KTT: Unterschied zwischen Truescore- und latenter Variablen (LV) Konzeption: Truescore als Erwartungswert bei wiederholter Testung. LV Konzeption nimmt an, dass Testper-son Wert auf latenten Konstrukt besitzt. Truescore ist rein testbezogen, Latentes Konstrukt nicht.

Kapitel 3: Klassische Testtheorie Kritik der KTT: Probleme der True-score-Konzeption: Inflation von Truescores: Zu jedem Test und Testbedingung gibt des Truescore. Auch «sinnlose» Tests haben Truescore. Wie ergibt sich Beziehung zwischen Truescore und zu messender mentaler Kapazität?

Kapitel 3: Klassische Testtheorie Kritik der KTT: «Between»- und «within»-subjects Vereilung. Konzeption des Truescores setzt eine within-subjects Verteilung voraus: Variationen innerhalb der Testperson. Alle (anderen) relevanten Konzepte (z.B. die Axiome der klassischen Testtheorie) basieren auf «between»-subjects Ver-teilungen: Variation in der Population der Testpersonen.

Kapitel 3: Klassische Testtheorie Kritik der KTT: Between-subjects Vereilung. Konzeption des Truescores setzt eine within-subjects Verteilung voraus: Variationen innerhalb der Testperson. Alle (anderen) relevanten Konzepte (z.B. die Axiome der klassischen Testtheorie basieren auf «between»-subjects Ver-teilungen: Variation in der Population der Testpersonen.

Kapitel 3: Klassische Testtheorie Bsp. 3-2: Ziehen von Testwerten aus Between-subjects Verteilung. Annahme: Truescore und Fehler seien multivariat normalverteilt: 

Kapitel 3: Klassische Testtheorie Bsp. 3-2: Sampling von Testwerten aus der Between-subjects Verteilung: Ziehe Truescore aus der Normalverteil-ung mit Mittelwertsvektor: und Kovarianzmatrix:

Kapitel 3: Klassische Testtheorie Bsp. 3-2: Sampling von Testwerten aus der Between-subjects Verteilung: Ziehe jeweils einen Fehlerterm aus den 3 Normalverteilungen: , und . Addiere Truescore und Fehler zur Bildung der beobachteten Testwerte für die Testperson:

Kapitel 3: Klassische Testtheorie Bsp. 3-2: Sampling von Testwerten aus der Between-subjects Verteilung: Alternative Vorgehensweise: Ziehe Vektor der Messwerte aus einer 3-variaten Normalverteilung mit Mittelwertsvektor und Kovarianzmatrix:

Kapitel 3: Klassische Testtheorie Kritik der KTT: Within- und between-subjects Verteilung. Alle relevanten Grössen in der KTT mit Ausnahme des Truescores basieren auf between-subjects Verteilungen. Da es potentiell unendliche viele Test-personen gibt, gibt es auch unendlich viele within-subjects Verteilungen. Dies ergibt eine extrem komplexe Wahrscheinlichkeitsstruktur

Kapitel 3: Klassische Testtheorie Kritik der KTT: Within- und between-subjects Verteilung. Dies ergibt eine extrem komplexe Wahr-scheinlichkeitsstruktur, die einzig zur Definition eines zweifelhaften Truescores benötigt wird. LV-Konzeption hat dieses Problem nicht, da keine within-subjects-Verteilung benötigt wird.

Kapitel 3: Klassische Testtheorie Lineare Strukturgleichungsmodelle: Messmodelle als Kausalmodelle. Kritik am Konzept der Kausalität: »I am not found of the exclusive reliance on “causal” model of explanation of the sort that Borsboom and his colleagues suggest. Their causal notions give us a restricted view of measurement because of the well-known objections to the causal model of explanation – briefly, that we do not have a fully adequate analysis of causation, there are non-causal explanations, and that it is too weak of permissive, that it undermines our explanatory practices.« (Zumbo, 2007; S. 53).

Kapitel 3: Klassische Testtheorie Lineare Strukturgleichungsmodelle: Messmodelle als Kausalmodelle. Kritik nicht gerechtfertigt Verwendung linearer Kausalmodelle: Die kausalen Einflüsse werden als linear be-trachtet und das Modell besteht daher aus einer Menge linearer Gleichungen.

Kapitel 3: Klassische Testtheorie Lineare Strukturgleichungsmodelle: Lineare Strukturgleichungen:

Kapitel 3: Klassische Testtheorie Lineare Strukturgleichungsmodelle: Modellgleichungen:

Kapitel 3: Klassische Testtheorie Lineare Strukturgleichungsmodelle: Modellgleichungen zur Modellierung der Kovarianzstruktur ergeben sich aufgrund der linearen Strukturgleichung und der Kovarianzstruktur der exogenen Variablen (mittels Kovarianzrechnung):

Kapitel 3: Klassische Testtheorie Repräsentation des allgemeinen Testmodells mittels Strukturgleichungen:

Kapitel 3: Klassische Testtheorie Spezifische Testmodelle: Problem: Allgemeines klassisches Test- modell ist weder schätz- noch prüfbar. Ansatz: Spezifikation spezieller Bezieh- ungen zwischen den Truescores (+Vereinfachung der Fehlerstruktur). Ziel: Testbare Modelle und Herleitung von Schätzer für Reliabilität.

Kapitel 3: Klassische Testtheorie 3 Klassische Testmodelle: Kongenerisches Modell. (Essentiell) -äquivalentes Modell. (Strikt) paralleles Modell. Jedes nachfolgende Modell ergibt sich aus dem vorangegangenen durch Festlegung zusätzlicher Beschränkungen.

Kapitel 3: Klassische Testtheorie Kongenerisches Modell: Definiert folgende lineare Beziehung zwischen den Truescores von m Tests: wobei gilt:  ist Truescore des ersten Tests. Kovarianzstruktur der Truescores:

Kapitel 3: Klassische Testtheorie Kongenerisches Modell: Implizierte Kovarianzstruktur: Ergibt perfekte Korrelation zwischen den Truescores: Korr(i,j) = 1. Schätz- & Prüfbarkeit: Ab 3 Tests schätzbar, ab 4 Tests prüfbar.

Kapitel 3: Klassische Testtheorie Kongenerisches Modell: Repräsentation mittels Strukturgleichungsmodellen: Tests sind verschie-dene Messungen des gleichen Konstrukts. Konstrukt beeinflusst Messungen unter-schiedlich. Fehlervarianzen verschieden.

Kapitel 3: Klassische Testtheorie Kongenerisches Modell: Repräsentation mittels Strukturgleichungsmodellen: Implizierte Kovarianzmatrix:

Kapitel 3: Klassische Testtheorie (Essentiell) -äquivalentes Modell: Definiert folgende lineare Beziehung zwischen den Truescores von m Tests: Falls i = 0, liegt -äquivalentes Modell vor.

Kapitel 3: Klassische Testtheorie (Essentiell) -äquivalentes Modell: Implizierte Kovarianzstruktur: Alle Kovarianzen zwischen Tests identisch. Schätz- und Prüfbarkeit: Ab 2 Tests schätzbar, ab 3 Tests prüfbar.

Kapitel 3: Klassische Testtheorie (Essentiell) -äquivalentes Modell: Repräsenta-tion mittels Strukturgleichungsmodellen: Tests sind verschie-dene Messungen des gleichen Konstrukts. Konstrukt beeinflusst Messungen gleich. Fehlervarianzen unterschiedlich.

Kapitel 3: Klassische Testtheorie Paralleles Modell: Modell -äquivalenter Tests mit der Beschränkung, dass alle Fehlervarianzen identisch sind: Falls alle Mittelwerte ebenfalls identisch sind, so liegt strikt paralleles Modell vor. Modell sagt gleiche Kovarianzen und Varianzen der Tests vorher.

Kapitel 3: Klassische Testtheorie Paralleles Modell: Implizierte Kovarianzstruktur: Parallele Tests sind völlig gleichwertig (austauschbar). Schätz- & Prüfbarkeit: Ab 2 Test schätz- und prüfbar.

Kapitel 3: Klassische Testtheorie Paralleles Modell: Repräsentation mittels Strukturgleichungsmodellen: Tests sind verschie-dene Messungen des gleichen Konstrukts. Konstrukt beeinflusst Messungen gleich. Fehlervarianzen gleich.

Kapitel 3: Klassische Testtheorie Bsp. 3-6: Illustration der Testmodelle: Gegeben: Ergebnisse für 4 Tests: X1 und X2 ohne Zeitdruck und Y1 und Y2 mit Zeitdruck. Zielsetzung: Prüfung von 4 Hypothesen mittels linearer Strukturgleichunsmo-delle

Kapitel 3: Klassische Testtheorie Bsp. 3-6: Illustration der Testmodelle: 4 Hypothesen: H1: X1 und X2, sowie Y1 und Y2 sind jeweils parallel. Die beiden Paare sind jedoch nicht kongenerisch. H2: X1 und X2, sowie Y1 und Y2 sind jeweils parallel und beide Paare sind kongenerisch. H3: X1 und X2, sowie Y1 und Y2 sind jeweils kongene-risch. Die beiden Paare sind jedoch nicht kongenerisch. H4: X1, X2, Y1, Y2 sind kongenerisch aber nicht not-wendigerweise parallel.

Kapitel 3: Klassische Testtheorie Bsp. 3-6: Illustration der Testmodelle: Die 4 Hypothesen beziehen sich auf 2 Aspekte der Tests: Aspekt 1: Messen Tests mit Zeitbe­schränkung das gleiche Konstrukt wie die ohne: H2 und H3 behaupten dies, H1 und H4 bestreiten es. Aspekt 2: Handelt es sich bei den beiden Subtests X1, X2 bzw. Y1, Y2 jeweils um Parallelformen: H1 und H2 nehmen es an, H3 und H4 bestreiten es.   Subtests parallel Gleiches Konstrukt (kongenerisch) Ja Nein H2 H3 H1 H4

Kapitel 3: Klassische Testtheorie Bsp. 3-6: Illustration der Testmodelle: Modellierungstrategie

Kapitel 4: Reliabilität Truescore - Varianz: Die Truescore-Varianz ist die durch die Varianz des zu messende Konstrukt indu-zierte Varianz in der Messung (bzw. Test). Reliabilität eines Tests: Die Anteil an der Gesamtvarianz, der durch Variationen des Konstrukts bedingt ist: An-teil der Truescore-Varianz an der Gesamt-varianz.

Kapitel 4: Reliabilität Bsp. 4-1: Reliabilität : Gegeben: Werte eines Intelligenztest für 2 Testpersonen: Y1 = 102, Y2 = 105. Problemstellung: Lässt sich aufgrund der erzielten Testwerte auf einen Unter- schied in der Intelligenz schliessen? Varianz der Testwerte = , d.h. die Varianz ist eine Funktion der Differenz: Je grösser die Differenz, desto grösser die Varianz.

Kapitel 4: Reliabilität Bsp. 4-1: Reliabilität : Überlegung: Falls die Testwerte ohne Fehler ge- messen werden, so geht die beobachtete Varianz, bzw. die Differenz der Testwerte rein auf unter- schiedliche Werte im Konstrukt zurück (Reliabilität = 1) und die Schlussfolgerung unterschiedlicher Intelligenz ist gerechtfertigt. Falls die Unterschiede einzig auf Messfehler beru- hen (Reliabilität = 0), so ist die Schlussfolgerung nicht gerechtfertigt.

Kapitel 4: Reliabilität Bsp. 4-1: Reliabilität : Résumé: Insgesamt ist der Schluss von Unter- schieden in den Messungen auf Unterschiede im gemessenen Konstrukt umso eher gerecht- fertigt, je geringer der Einfluss des Fehlers (bzw. von ungemessenen Einflussfaktoren) auf die Messung ist, oder – in anderen Worten – je höher die Reliabilität der Messung ist.

Kapitel 4: Reliabilität Bedeutung der Reliabilität: Je reliabler eine Messung, desto geringer ist der unkontrollierte Anteil in der Mes- sung, somit: Reliabilität repräsentiert Präzision der Messung. Je höher die Reliabilität, desto besser die Replizierbarkeit. Reliabilität ist ein Mass für die Stärke des Effekts der zu messenden Konstrukte.

Kapitel 4: Reliabilität Bsp. 4-2: Reliabilität: Gegeben: Lineares Messmodell: Zerlegung der Varianz von Y in Truescore- und Fehlervarianz:

Kapitel 4: Reliabilität Bsp. 4-2: Reliabilität: Gegeben: Lineares Messmodell: Hieraus ergibt sich bei Division durch die Varianz von Y:

Kapitel 4: Reliabilität Prinzip der Zerlegung von in Truescore- und Fehlervarianz: lässt sich eindeutig in Truescore- und Fehlervari-anz zerlegen, falls Fehler und latente Konstrukte unkorreliert sind. Gegeben: Lineare Strukturgleichung: wobei gilt: Es gilt:

Kapitel 4: Reliabilität Illustration:

Kapitel 4: Reliabilität Zusätze: Die Reliabilität entspricht der quadrierten Korrelation von Messung und Konstrukt: Es gilt: Die Wurzel aus der Fehlervarianz nennt sich Standardmessfehler.

Kapitel 4: Reliabilität Methoden zur Messung: Ideal: Verwendung einer KFA (konfirma- tiven Faktorenanalyse). Traditionelle Ansätze zur Messung: Test-Retest Methode. Parallelformen / Alternativformen. Testhälften. Die Reliabilität ist in allen 3 traditionellen Ansätzen durch die Korrelation zwischen den Testhälften gegeben.

Kapitel 4: Reliabilität Probleme der traditionellen Ansätze: Prinzip der modellabhängigen Bestimmung der Reliabilität eines Tests: Die Messung der Reliabilität eines Tests ist modellabhängig, d.h. die Gültigkeit eines ermittelten Reliabilitätskoeffizienten hängt davon ab, ob das zugrundeliegende Modell korrekt ist. Es gilt: Im Falle paralleler Test ist der Korrelationskoeffizient korrekt (Übung 2-10).

Kapitel 4: Reliabilität Ursachen für Abweichungen von Parallelität: Folge: Korrelationskoeffizient ist verzerrtes Mass.

Kapitel 4: Reliabilität Reliabilität von Summen: Spearman-Brown-Koeffizient für parallele Maβe:  = Reliabilität eines einzelnen Tests (identisch für alle Tests, da diese parallel).

Kapitel 4: Reliabilität Reliabilität von Summen: Koeffizient  (Cronbachs ):

Kapitel 4: Reliabilität Berechnung von Koeffizient : Kovarianzmatrix:

Kapitel 4: Reliabilität Identität der Berechnungsformeln für Koeffizient :

Kapitel 4: Reliabilität Beweis der Gültigkeit der Formel von Koeffizient  für 3 -äquivalente Tests: Es gilt:

Kapitel 4: Reliabilität Guttmans 2: bzw.

Kapitel 4: Reliabilität Zentrale Ergebnisse: Im Falle -äquivalenter Maße gilt (Übung 4-8): Im Falle unkorrelierter Fehlern unterschätzen beide Maße die wahre Reliabilität. 2 unterschätzt die wahre Reliabilität weniger stark als . SPSS berechnet beide Maße (bei Vorliegen der Rohdaten).

Kapitel 4: Reliabilität  kann Reliabilität unter- und über-schätzen: Unterschätzung bei: Kongenerische Tests (die nicht -äquivalent sind). Tests die auf unterschiedliche Konstrukte laden, mit unkorrelierten Fehlern. Überschätzung bei korrelierten Fehlern.

Kapitel 4: Reliabilität Bsp.4-7: Überschätzung der Reliabilität durch :

Kapitel 4: Reliabilität Koeffizient  misst nicht Homogenität (d.h. Eindimensionalität der Tests) Bsp.4-8: Idee von Green et al. (1977).

Kapitel 4: Reliabilität Bsp.4-8: Green et al. (1977)

Kapitel 4: Reliabilität Koeffizient  misst nicht Homogenität (d.h. Eindimensionalität der Tests) Zur Messung von Eindimensionalität verwende man das kongenerische Modell. Falls diese die Daten fittet, so sind die Tests eindimensional.

Kapitel 4: Reliabilität Berechnung der Reliabilitäten von Sum-men kongenerischer Maße mit Hilfe von AMOS: Via AMOS. Via Matrizen (Excel).

Kapitel 4: Reliabilität Bsp.4-4:

Kapitel 4: Reliabilität Prinzip: Falls das Modell die Daten gut erklärt, so wählt man für alle Berechnung nicht die Matrix Y der beobachteten Werte, sondern die vom Modell implizierte Kovarianzmatrix: Auch die Berechnung mittels Amos basiert auf der modellimplizierten Matrix.

Kapitel 4: Reliabilität Methode 4-2 (Seite 105f): Modell:

Kapitel 4: Reliabilität Methode 4-2 (Seite 105f): Gegeben: latente Konstrukte, Tests, geschätzte Kovarianz- matrix der Tests.

Kapitel 4: Reliabilität Methode 4-2 (Seite 105f): Geschätzte Kovarianzmatrix der latenten Konstrukte und Ladungsmatrix:

Kapitel 4: Reliabilität Methode 4-2: Berechnung mittels Matrizen Truescore-Kovarianzmatrix: Die durch die latenten Konstrukte induzierte Varianzen und Kovarianzen in den Beobachtungen:  = m  n - Matrix mit Ladungen für jedes latente Konstrukt als Spalten.  = Kovarianzmatrix der n  n latenten Konstrukte.

Kapitel 4: Reliabilität Methode 4-2: Berechnung mittels Matrizen: Geschätzte Kovarianzmatrix der Fehler:

Kapitel 4: Reliabilität Methode 4-2: Berechnung mittels Matrizen Es gilt: bzw.

Kapitel 4: Reliabilität Methode 4-2: Berechnung mittels Matrizen Die Anwendung der Beziehung: erleichtert die Berechnung der Truescore-Kovarianzmatrix, falls die geschätze Ko-varianzmatrix der Fehler einfach ist, da dies die Berechnung von überflüssig macht.

Kapitel 4: Reliabilität Prinzip: Varianz einer gewichteten Summe: Gegeben: Kovarianzmatrix und Gewichtsvektor: Es gilt:

Kapitel 4: Reliabilität Prinzip: Die Varianz einer Summe von Vari-ablen entspricht immer der Summe aller Ein-träge der Kovarianzmatrix dieser Variablen. Hierbei handelt es sich um einen Spezialfall von: wobei der Gewichtsvektor w nur 1 enthält.

Kapitel 4: Reliabilität Methode 4-2: Berechnung mittels Matrizen: Geschätzte Truescore-Varianz: Geschätzte Varianz von : Reliabilität der gewichteten Summe:

Kapitel 4: Reliabilität Methode 4-2 (Seite 105f):Alternative Berechnung: Geschätzte Truescore-Varianz der gewichteten Summe : Geschätzte Reliabilität der gewichteten Summe:

Kapitel 4: Reliabilität Methode 4-2: Zusammenfassung der Matri-zenmethode zur Berechnung der Reliabilität einer gewichteten Summe:

Kapitel 4: Reliabilität Bsp. 4-5: Allgemeines Testmodell

Kapitel 4: Reliabilität Bsp. 4-5: Allgemeines Testmodell: Kovarianzmatrix der latenten Konstrukte Ladungsmatrix und Gewichtsvektor:

Kapitel 4: Reliabilität Bsp. 4-5: Allgemeines Testmodell: Truescore-Varianz (Methode 1)

Kapitel 4: Reliabilität Bsp. 4-5: Allgemeines Testmodell: Truescore-Varianz (Methode 2)

Kapitel 4: Reliabilität Bsp. 4-5: Allgemeines Testmodell:

Kapitel 4: Reliabilität Bsp. 4-5: Allgemeines Testmodell: Geschätzte Reliabilität:

Kapitel 4: Reliabilität Bsp. 4-5: Allgemeines Testmodell mit unterschiedlicher Gewichtung: Alternativer Gewichtsvektor: Geschätzte Reliabilität:

Kapitel 4: Reliabilität Montonie-Forderungen an die Reliabilität: Hinzufügen eines Tests sollte die Reliabili-tät der Summe der Tests erhöhen. Ersetzung eines Tests durch reliableren sollte die Reliabilität der Summe der Tests erhöhen. Verringerung der Korrelation zwischen den Konstrukten sollte Reliabilität der Summe der Tests verringern.

Kapitel 4: Reliabilität Montonieforderungen an die Reliabilität: Die Montonieforderungen können bei Verwendung einfacher Summen verletzt sein. Beispiele: Siehe Skript Bsp. 4-9, 4-10 und 4-11 demonstrieren die Verletzungen.

Kapitel 4: Reliabilität Bsp. 4-9: Hinzufügen von Items verringert die Reliabilität: Zentral: Hinzugefügte Items haben hohe Varianz und sind wenig reliabel

Kapitel 4: Reliabilität Bsp. 4-10: Ersetzung eines Items durch ein reliableres verringert Gesamtreliabilität: Zentral: Verringerte Varianz des reliableren Items.

Kapitel 4: Reliabilität Bsp. 4-11: Verringerung der Kovarianz zwi-schen Konstrukten verringert Reliabilität: Zentral: Erhöhte Varianz des reliableren Items.

Kapitel 5: Validität Klassische Definition von Kelley (1927): Test ist valide, falls er das misst, was er zu messen vorgibt. Problem: Was bedeutet dies genau? Inflation von Validitätskonzeptionen: Über 100 Arten von Validitäten.

2 »sinnvolle« und 2 »unsinnige« Arten von Validitäten: Kapitel 5: Validität 2 »sinnvolle« und 2 »unsinnige« Arten von Validitäten: Konstruktvalidität (Cronbach & Meehl, 1959): Wird heute als die einzig sinnvolle Form von Validität betrachtet. Inhaltsvalidität: Kann als eine Facette der Konstruktvalidität betrachtet werden. Kriteriums- & prädiktive Validität: Keine sinnvollen testtheoretischen Konstrukte.

Kapitel 5: Validität Konstruktvalidität: Das Messmodell, auf welchem die Schluss-folgerungen aufgrund der Testergebnisse beruhen, ist (approximativ) korrekt. Speziell: Konstrukte und Relation zw. Konstrukten, Relation zw. Konstrukt und Messung und Relation zw. Messungen korrekt spezifiziert.

Kapitel 5: Validität Konstruktvalidität: Bedeutung eines korrekten Messmodells für korrekte Schlussfolgerungen: Falls Messmodell die Situation korrekt repräsentiert, sollten die Schlussfolgerungen aufgrund der Testresultate korrekt sein. Im Speziellen sollten keine systematischen Verzerrungen auftre-ten, welche z.B. bestimmte Personen systematisch benachteili-gen oder bevorzugen. Begründung: Verzerrungen der Test sind im Modell repräsentiert und können daher berücksichtigt und –möglicherweise – korrigiert werden.

Kapitel 5: Validität Inhaltsvalidität: Erfassung des Konstrukts in seiner Breite durch die Indikatoren: Werden durch Indi-katoren alle Facetten des Konstrukts ab-gedeckt? Kann als Aspekt der Korrektheit eines Mo-dells betrachtet werden, d.h. ob Modell in-haltlich adäquat ist (vgl. Diskussion über in-haltliche Prüfung von Modellen in Kapitel 2).

[Inkrementelle] Prädiktive Validität: Kapitel 5: Validität [Inkrementelle] Prädiktive Validität: Varianzaufklärung durch eine UV im Regressionskontext. Inkrementell: Zusätzliche Varianzaufklär-ung durch Einbeziehung einer UV, zusätzlich zu bereits vorhanden UVn. Hat keinen direkten Bezug zu Messung und Testung.

Kriteriumsvalidität: Kapitel 5: Validität Kriteriumsvalidität: Korrelation der Messung mit einen aner-kannten Kriterium, d.h. mit einem Indikator, der als Mass für das Konstrukt etabliert ist. Den Korrelationskoeffizienten (zwischen Kriterium und Messung) nennt man auch Validitätskoeffizienten. In manchen Texten wird Validität mit dem Validitätskoeffizienten gleichgesetzt.

Problem des Validitätskoeffizienten: Kapitel 5: Validität Problem des Validitätskoeffizienten: Eine hohe Korrelation zwischen Test Y und Kriterium K ist nicht notwendig darauf zurückzuführen, dass beide das gleiche Ziel- konstrukt  betreffen.

Kapitel 5: Validität Das Grundproblem: Validität kann – ähnlich wie die Reliabilität – nur modellabhängig gemessen werden. Dies bedeutet, dass ein gültiges Modell vor-liegen muss, welches die relevanten Re-lationen (approximativ) korrekt abbildet, damit man die Validität schätzen kann. Eine Korrelation zwischen 2 Beobachtungen reicht nicht, da unklar, wie diese zustande kam.

Konzept: Validität eines Tests: Kapitel 5: Validität Konzept: Validität eines Tests: Ein Test ist valide, falls die systemati-schen Variationen der Testwerten durch Variationen des zu messenden Zielkon-strukts verursacht werden. Die Validität eines Tests entspricht daher der Stärke der direkten kausalen Relation zwischen der latenten Variablen und dem Indikator.

Kapitel 5: Validität Bsp. 5-1: Validität eines Tests:

Kapitel 5: Validität Klassische Definition von Kelley (1927): Test ist valide, falls er das misst, was er zu messen vorgibt. Ein Test misst genau das, was er zu mes-sen vorgibt, wenn die systematischen Variationen der Testwerte ausschliesslich durch Unterschiede im zugrunde liegen-den Zielkonstrukt verursacht sind (und nicht durch Variation anderer Konstrukte).

Unterscheidung: Reliabilität vs. Validität Kapitel 5: Validität Unterscheidung: Reliabilität vs. Validität Reliabilität ist notwendige Bedingung für Validität: Falls ein Test nicht reliabel ist, dann gibt es auch keine systematische Variation der Testwerte, welche auf Unterschiede im zu messenden Konstrukt reduzierbar sind. Reliabilität ist keine hinreichende Bedingung für Validität: Test kann perfekt reliabel sein, ohne valide zu sein!

Unterscheidung: Reliabilität vs. Validität Kapitel 5: Validität Unterscheidung: Reliabilität vs. Validität Reliabilität ist notwendige Bedingung für Validität: Falls ein Test nicht reliabel ist, dann gibt es auch keine systematische Variation der Testwerte, welche auf Unterschiede im zu messenden Konstrukt reduzierbar sind. Reliabilität ist keine hinreichende Bedingung für Validität: Test kann perfekt reliabel sein, ohne valide zu sein!

Kapitel 5: Validität Messung mittels latenter Variablenmodelle Ladungskoeffizient ist ein direktes Mass für strukturelle Beziehung zwischen dem latenten Konstrukt und dem Test. Wichtig: Falls nicht verschiedene Grup-pen verglichen werden sollen, so ist es sinnvoll, den standardisierten La-dungskoeffizienten zu verwenden.

Kapitel 5: Validität Messung mittels latenter Variablenmodelle Falls Test nur von einem latenten Konstrukt beeinflusst wird, so gilt: Wichtig: Die dargestellte Beziehung zwischen Reliabilität und Validität gilt nur unter der gegebenen Bedingung.

Konzept: Eindeutige Reliabilität: Kapitel 5: Validität Konzept: Eindeutige Reliabilität: Jener Anteil der Truescore-Varianz / Reliabi- lität, der eindeutig auf das zu messende Zielkonstrukt  zurückzuführen ist. Es gilt: wobei gilt: eindeutige Reliabilität. Varianz in , die nicht durch andere latenten Konstrukte erklärt wird.

Kapitel 5: Validität Methode 5-1: Ermittlung der Varianz in , welche nicht durch Kovarianz mit anderen Konstrukten erklärt wird. Herauspartialisierung der durch die anderen Konstrukte erklärten Varianz aus Var(): Mit AMOS Mit Matrizen

Kapitel 5: Validität Struktur der Konstrukte: Ziel: Ermittlung der ein- deutig auf  zurück- zuführender Anteil der Truscore-Varianz in Y (=eindeutige Truescore- varianz).

Kapitel 5: Validität Methode 5-1: Herauspartialisierung der durch die anderen Konstrukte erklärten Vari-anz aus Var() mittels linearer Regression: hierbei gilt:  ist abhängige Variable. 1, 2,…, n-1 sind unabhängige Variablen.  symbolisiert das Residuum. Gesuchte Grösse: Var( )

Kapitel 5: Validität Methode 5-1: Herauspartialisierung der Varianzen der anderen Konstrukte aus dem Ziel- konstrukt mit AMOS: Beachte: Alle Variablen im Modell manifest (ausser ). Daten: Implizierte Varianzen. Gesucht:

Kapitel 5: Validität Methode 5-1: Herauspartialisierung der Vari-anzen der anderen Konstrukte aus dem Ziel- konstrukt mittels Matrizenrechnung: wobei gilt: ist die (unkorrigierte) Varianz von . ist der Vektor mit den Kovarianzen zwi-schen  und den anderen Konstrukten. ist die inverse Kovarianzmatrix zwischen den anderen Konstrukten.

Kapitel 5: Validität Bsp.: 5-2: Eindeutige Reliabilität: Gegeben: Modell

Kapitel 5: Validität Bsp.: 5-2: Eindeutige Reliabilität mittels AMOS: Gegeben: Strukturgleichungs-Modell, welches das Regressionsmodell zur Herauspartialisierung der Varianzen repräsentiert. Zielgrösse:

Kapitel 6: Trennschärfe / Minderungskorrektur Unter der Trennschärfe eines Items versteht man in der klassischen Testtheorie die Kor-relation des Items mit dem Gesamtergebnis eines Tests (Summe aller Testitems). Problem: Vermischung von Konzept und Messung Trennschärfe: Fähigkeit eines Tests, Personen mit hohem Wert auf dem latenten Konstrukt von solchen mit geringem Wert zu unterscheiden.

Kapitel 6: Trennschärfe / Minderungskorrektur Der Ladungskoeffizient  (standardisiert oder unstandardisiert) ist ein direktes Mass für die Trennschärfe:  (unstandardisiert) repräsentiert die erwartete Zunahme in der Messung Y (in Einheiten von Y), wenn sich der Konstruktwert um eine Einheit erhöht (Bei Konstanthaltung der Werte der anderen Konstrukte).  (standardisiert) repräsentiert die erwartete Zunahme in der Messung Y (in Standardeinheiten), wenn sich der Konstruktwert um eine Standardeinheit erhöht.

Kapitel 6: Trennschärfe / Minderungskorrektur Somit: Je höher die Ladung, desto stärker die Änderung der Messung mit der Änderung des Konstruktwertes. Die Ladung repräsentiert daher direkt die Sensi-tivität der Messung bezüglich Veränderungen im Konstrukt. Das oben genannte Mass (Korrelation zwischen Test und Summe der Tests) kann als Approxima-tion betrachtet werden, indem die Summe als Repräsentation des Konstrukts betrachtet wird.

Kapitel 6: Trennschärfe / Minderungskorrektur Alternative Bezeichnungen des Begriffs der »Minderungskorrektur«: Korrektur des Ausdünnungseffekts. Korrektur des Abschwächungseffekts. Korrektur des Attenuationseffekts.

Kapitel 6: Trennschärfe / Minderungskorrektur Grundidee: Aufgrund des Messfehlers repräsen-tiert die Korrelation zwischen 2 Messungen nicht die Korrelation zwischen den Konstrukten. Korrelation zwischen den Konstrukten wird unterschätzt (daher der Ausdruck Minderung). Folgerung: Stabilität von Konstrukten über die Zeit hinweg oder über verschiedene Situationen hinweg wird unterschätzt.

Kapitel 6: Trennschärfe / Minderungskorrektur Empirische Befunde: Die Stabilität von Persönlichkeitsmerkmalen wird unterschätzt, da die Korrelationen von Verhalten über Zeitpunkte hinweg die wahre Korrelation der zugrundliegenden Merkmale unterschätzt Einfluss von Traits auf das Verhalten wird unter-schätzt, da oft zu wenig Indikatoren für ein Kon-strukt verwendet werden, was die Reliabilität der Messung verringert.

Kapitel 6: Trennschärfe / Minderungskorrektur Bsp.6-1: Demonstration Minderungskorrektur

Kapitel 6: Trennschärfe / Minderungskorrektur Zentral: Das Problem existiert bei dem von uns gewählten Ansatz nicht, da die Konstrukte, deren Korrelation, sowie die Messfehler explizit in Mo-dell repräsentiert sind. Das Modell unterscheidet zwischen Korrelationen zwischen Messungen und Korrelationen zwischen Konstrukten. Das Problem existiert also nur für die »alte«, koeffizientenbasierte Testtheorie.

Kapitel 6: Trennschärfe / Minderungskorrektur Vorgehensweise: Berechne die Reliabilitäten der beiden Messungen Y1 und Y2 der beiden Konstrukte (z.B. durch Ermittlung von Koeffizient ): und . Dividiere die ermittelte Korrelation zwischen den Messungen durch die Wurzel aus dem Produkt der beiden Reliabilitäten:

Kapitel 6: Trennschärfe / Minderungskorrektur Bsp.6-2: Korrelation zwischen den Konstrukten paralleler Maße:

Kapitel 6: Trennschärfe / Minderungskorrektur Bsp. 6-3: Grenzen der Minderungskorrektur

Kapitel 7: Mittelwertstrukturen Analyse der Kovarianzstrukturen betrifft den strukturellen Aspekt, d.h. die Beziehung zwi-schen den Tests bzw. Testitems. Analyse der Mittelwertstrukturen betrifft den Leistungsaspekt, d.h. die Höhe der Testwerte. 2 Aspekte werden behandelt: Schätzung (Vorhersage) der Werte auf den latenten Konstrukten aufgrund der beobachte- ten Testwerte. Vergleiche verschiedener Populationen.

Kapitel 7: Mittelwertstrukturen Repräsentation von Mittelwertstrukturen in linearen Strukturgleichungsmodelle: Mittelwerte  und Interzepte .

Kapitel 7: Mittelwertstrukturen Modellierung der beobachten Mittelwerte unter Verwendung der Interzepte und der Mittelwerte der latenten Konstrukte: Annahme: Die ist keine Einschränkung wegen Interzepte.

Kapitel 7: Mittelwertstrukturen Beschränkungen und Freiheitsgrade: Amos führt automatische die folgenden Be-schränkungen ein: Mittelwerte der latenten Konstrukte und der Fehler wer-den auf 0.0 gesetzt. Die Regressionskonstanten sind frei schätzbar. Damit repräsentieren die geschätzten Interzepte die Mittelwerte der beobachteten Testwerte.

Kapitel 7: Mittelwertstrukturen Beschränkungen und Freiheitsgrade: Amos führt automatische die folgenden Be-schränkungen ein (zur Identifikation): Mittelwerte der latenten Konstrukte und der Fehler wer-den auf 0.0 gesetzt. Die Regressionskonstanten sind frei schätzbar. Damit repräsentieren die geschätzten Interzepte die Mittelwerte der beobachteten Testwerte: Die nun auch die m beobachteten Mittelwerte modelliert werden, gibt es freie Datenpunkte.

Kapitel 7: Mittelwertstrukturen Bsp.7-1: Essentiell -äquivalentes und -äqui-valentes Modell: , ergibt das -äquivalente Modell: gleiche Mittelwerte

Kapitel 7: Mittelwertstrukturen Problem der Schätzung der latenten Kon-struktwerte aufgrund der beobachteten Messungen: Problemstellung: Eine Testperson hat bestimmte Werte für die m Testitems (oder Tests) erzielt. Wie lassen sich aufgrund dieser beobachteten Werte die latenten Konstruktwert für die Person schätzten?

Kapitel 7: Mittelwertstrukturen Methode 7-1: Regressionsschätzer: Grundidee: Verwende Prädiktor der linearen Regression: , wobei gilt: ist der aufgrund von x vorhergesagte Wert ist der geschätzte Regressions- koeffizient (Steigung). ist die geschätzte Regressions- konstanten (y-Interzept). Alternative Darstellung:

Kapitel 7: Mittelwertstrukturen Methode 7-1: Regressionsschätzer: Multivariate Version von : , wobei gilt: Vektor der vorhergesagten Werte. Vektor der Mittelwerte der yi. (n  m)-Matrix der geschätzten multiplen Regressionskoeffizienten. Vektor der unabhängigen Variablen (UVn). Mittelwertsvektor der UVn.

Kapitel 7: Mittelwertstrukturen Methode 7-1: Regressionsschätzer: Verwende multivariaten Regressionsschätzer mit zu schätzenden latenten Konstruktwerten in der Rolle von und den beobachteten Messungen in der Rolle der : wobei gilt:

Kapitel 7: Mittelwertstrukturen Methode 7-1: Regressionsschätzer: wobei gilt: Es gilt: und

Kapitel 7: Mittelwertstrukturen Methode 7-1: Regressionsschätzer: Die Formel für den Regressionsschätzer ist daher: Dies repräsentiert ein Gleichungssystem:

Kapitel 7: Mittelwertstrukturen Bsp.7-2: Schätzung des latenten Konstrukt-wertes: Gegeben:

Kapitel 7: Mittelwertstrukturen Bsp.7-2: Schätzung des latenten Konstrukt-wertes: Gegeben:

Kapitel 7: Mittelwertstrukturen Bsp.7-2: Schätzung des latenten Konstrukt-wertes:

Kapitel 7: Mittelwertstrukturen Problem: Gleicher beobachteter Wert von 2 Personen aus unterschiedlichen Populationen kann zu verschiedenen Schätz-ungen führen (Regression zur Mitte).

Übungen: Übung 4-11: Reliabilität der Summe (nicht kongenerisch). Übung 4-12: Reliabilität einer gewichteten Summe im allgemeinen faktorenanalytische Modell. Übung 4-13: Reliabilität einer gewichteten Summe. Übung 5-1: Eindeutige Reliabilität. Übung 6-1: Beweis der Formel für die Minderungs- korrektur. Übung 6-2: Berechnung einer Minderungskorrektur.