Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Kapitel 3: Klassische Testtheorie

Ähnliche Präsentationen


Präsentation zum Thema: "Kapitel 3: Klassische Testtheorie"—  Präsentation transkript:

1 Kapitel 3: Klassische Testtheorie
Charakterisierung der klassischen Testtheorie: Die Zerlegung des beobachteten Mess-werts Ypi einer Person p für Test i in «Truescore» und Fehler: Mit: bzw. Die Axiome der klassischen Testtheorie zur Vereinfachung der Kovarianzstruktur.

2 Kapitel 3: Klassische Testtheorie
Charakterisierung der klassischen Testtheorie: Die Axiome der klassischen Testtheorie vereinfachen die . Zentral: Axiome sind über Population von Subjekten definiert.

3 Kapitel 3: Klassische Testtheorie
Axiome der klassischen Testtheorie (KTT): Die Axiome der KTT dienen zur Vereinfachung der Kovarianzstruktur: Sie besagen, dass die Kovarianzen zwischen Fehler und Truescores sowie zwischen den Fehlern untereinander gleich 0 sind.

4 Kapitel 3: Klassische Testtheorie
Beispiel 3-1: Axiome der KTT: Gegeben: 3 Tests, mit beobachtete Werte repräsen- tiert durch Zufallsvariablen (ZVn): 3 ZVn für Truescores: 3 ZVn für Fehler: Kovarianzstruktur der Truescores und Fehler wird repräsentiert durch eine 6  6 - Kova-rianzmatrix.

5 Kapitel 3: Klassische Testtheorie
Beispiel 3-1: 6  6 - Kovarianzmatrix der Truescores und Fehler:

6 Kapitel 3: Klassische Testtheorie
Beispiel 3-1: Vereinfachung der Kovari-anzstruktur aufgrund der Axiome:

7 Kapitel 3: Klassische Testtheorie
Beispiel 3-1: Implizierte Kovarianzmatrix der Beobachtungen (einfache Anwendung der Kovarianzrechnung):

8 Kapitel 3: Klassische Testtheorie
Axiome der KTT: Bemerkungen Axiome der KTT implizieren keine prüfbaren Vorhersagen. Daher müssen weitere An-nahmen gemacht werden ( Klassische Testmodelle). Modell ist nicht identifiziert, da mehr freie Parameter (9) als Datenpunkte (6), allerdings sind die Varianzen der Truescores exakt identifiziert: Sie werden durch die beobachteten Kovarianzen geschätzt.

9 Kapitel 3: Klassische Testtheorie
Axiome der KTT: Bemerkungen Die KTT macht nur Aussagen über die Mittel-wert- und Kovarianzstruktur; Sie macht keine Verteilungsannahmen.  Statistischer Tests ohne Zusatzannahmen über die Verteilung von Truescores und Fehler nicht möglich.

10 Kapitel 3: Klassische Testtheorie
Ziele der KTT: Entwicklung von Schätzern für die Reli-abilität der Messungen bzw. der Reliabilität von Summen der Messungen. Dies ist ohne Zusatzannahmen nicht mög-lich. Reliabilitätsschätzer nur bezüglich spezifischer Testmodelle sinnvoll.

11 Kapitel 3: Klassische Testtheorie
Kritik der KTT: Kritik an der Truescore-Konzeption. Kritik am Wahrscheinlichkeitskonzept; konkret: Truescore als Erwartungswert einer within-subjects Verteilung

12 Kapitel 3: Klassische Testtheorie
Kritik der KTT: Truescore-Konzeption Truescore als Erwartungswert bei wiederholter Testung: «Suppose we ask an individual, Mr. Brown, repeatedly whether he is in favor of the United Nations; suppose further that after each question we “wash his brains” and ask him the same question again. Because Mr. Brown is not certain as to how he feels about the United Nations, he will sometimes give a favorable and sometimes an unfavorable answer. Having gone through this procedure many times, we then compute the proportion of times Mr. Brown was in favor of the United Nations…» (Lord & Novick, 1968, Seite 29).

13 Kapitel 3: Klassische Testtheorie
Kritik der KTT: Unterschied zwischen Truescore- und latenter Variablen (LV) Konzeption: Truescore als Erwartungswert bei wiederholter Testung. LV Konzeption nimmt an, dass Testper-son Wert auf latenten Konstrukt besitzt. Truescore ist rein testbezogen, Latentes Konstrukt nicht.

14 Kapitel 3: Klassische Testtheorie
Kritik der KTT: Probleme der True-score-Konzeption: Inflation von Truescores: Zu jedem Test und Testbedingung gibt des Truescore. Auch «sinnlose» Tests haben Truescore. Wie ergibt sich Beziehung zwischen Truescore und zu messender mentaler Kapazität?

15 Kapitel 3: Klassische Testtheorie
Kritik der KTT: «Between»- und «within»-subjects Vereilung. Konzeption des Truescores setzt eine within-subjects Verteilung voraus: Variationen innerhalb der Testperson. Alle (anderen) relevanten Konzepte (z.B. die Axiome der klassischen Testtheorie) basieren auf «between»-subjects Ver-teilungen: Variation in der Population der Testpersonen.

16 Kapitel 3: Klassische Testtheorie
Kritik der KTT: Between-subjects Vereilung. Konzeption des Truescores setzt eine within-subjects Verteilung voraus: Variationen innerhalb der Testperson. Alle (anderen) relevanten Konzepte (z.B. die Axiome der klassischen Testtheorie basieren auf «between»-subjects Ver-teilungen: Variation in der Population der Testpersonen.

17 Kapitel 3: Klassische Testtheorie
Bsp. 3-2: Ziehen von Testwerten aus Between-subjects Verteilung. Annahme: Truescore und Fehler seien multivariat normalverteilt:

18 Kapitel 3: Klassische Testtheorie
Bsp. 3-2: Sampling von Testwerten aus der Between-subjects Verteilung: Ziehe Truescore aus der Normalverteil-ung mit Mittelwertsvektor: und Kovarianzmatrix:

19 Kapitel 3: Klassische Testtheorie
Bsp. 3-2: Sampling von Testwerten aus der Between-subjects Verteilung: Ziehe jeweils einen Fehlerterm aus den 3 Normalverteilungen: , und Addiere Truescore und Fehler zur Bildung der beobachteten Testwerte für die Testperson:

20 Kapitel 3: Klassische Testtheorie
Bsp. 3-2: Sampling von Testwerten aus der Between-subjects Verteilung: Alternative Vorgehensweise: Ziehe Vektor der Messwerte aus einer 3-variaten Normalverteilung mit Mittelwertsvektor und Kovarianzmatrix:

21 Kapitel 3: Klassische Testtheorie
Kritik der KTT: Within- und between-subjects Verteilung. Alle relevanten Grössen in der KTT mit Ausnahme des Truescores basieren auf between-subjects Verteilungen. Da es potentiell unendliche viele Test-personen gibt, gibt es auch unendlich viele within-subjects Verteilungen. Dies ergibt eine extrem komplexe Wahrscheinlichkeitsstruktur

22 Kapitel 3: Klassische Testtheorie
Kritik der KTT: Within- und between-subjects Verteilung. Dies ergibt eine extrem komplexe Wahr-scheinlichkeitsstruktur, die einzig zur Definition eines zweifelhaften Truescores benötigt wird. LV-Konzeption hat dieses Problem nicht, da keine within-subjects-Verteilung benötigt wird.

23 Kapitel 3: Klassische Testtheorie
Lineare Strukturgleichungsmodelle: Messmodelle als Kausalmodelle. Kritik am Konzept der Kausalität: »I am not found of the exclusive reliance on “causal” model of explanation of the sort that Borsboom and his colleagues suggest. Their causal notions give us a restricted view of measurement because of the well-known objections to the causal model of explanation – briefly, that we do not have a fully adequate analysis of causation, there are non-causal explanations, and that it is too weak of permissive, that it undermines our explanatory practices.« (Zumbo, 2007; S. 53).

24 Kapitel 3: Klassische Testtheorie
Lineare Strukturgleichungsmodelle: Messmodelle als Kausalmodelle. Kritik nicht gerechtfertigt Verwendung linearer Kausalmodelle: Die kausalen Einflüsse werden als linear be-trachtet und das Modell besteht daher aus einer Menge linearer Gleichungen.

25 Kapitel 3: Klassische Testtheorie
Lineare Strukturgleichungsmodelle: Lineare Strukturgleichungen:

26 Kapitel 3: Klassische Testtheorie
Lineare Strukturgleichungsmodelle: Modellgleichungen:

27 Kapitel 3: Klassische Testtheorie
Lineare Strukturgleichungsmodelle: Modellgleichungen zur Modellierung der Kovarianzstruktur ergeben sich aufgrund der linearen Strukturgleichung und der Kovarianzstruktur der exogenen Variablen (mittels Kovarianzrechnung):

28 Kapitel 3: Klassische Testtheorie
Repräsentation des allgemeinen Testmodells mittels Strukturgleichungen:

29 Kapitel 3: Klassische Testtheorie
Spezifische Testmodelle: Problem: Allgemeines klassisches Test- modell ist weder schätz- noch prüfbar. Ansatz: Spezifikation spezieller Bezieh- ungen zwischen den Truescores (+Vereinfachung der Fehlerstruktur). Ziel: Testbare Modelle und Herleitung von Schätzer für Reliabilität.

30 Kapitel 3: Klassische Testtheorie
3 Klassische Testmodelle: Kongenerisches Modell. (Essentiell) -äquivalentes Modell. (Strikt) paralleles Modell. Jedes nachfolgende Modell ergibt sich aus dem vorangegangenen durch Festlegung zusätzlicher Beschränkungen.

31 Kapitel 3: Klassische Testtheorie
Kongenerisches Modell: Definiert folgende lineare Beziehung zwischen den Truescores von m Tests: wobei gilt:  ist Truescore des ersten Tests. Kovarianzstruktur der Truescores:

32 Kapitel 3: Klassische Testtheorie
Kongenerisches Modell: Implizierte Kovarianzstruktur: Ergibt perfekte Korrelation zwischen den Truescores: Korr(i,j) = 1. Schätz- & Prüfbarkeit: Ab 3 Tests schätzbar, ab 4 Tests prüfbar.

33 Kapitel 3: Klassische Testtheorie
Kongenerisches Modell: Repräsentation mittels Strukturgleichungsmodellen: Tests sind verschie-dene Messungen des gleichen Konstrukts. Konstrukt beeinflusst Messungen unter-schiedlich. Fehlervarianzen verschieden.

34 Kapitel 3: Klassische Testtheorie
Kongenerisches Modell: Repräsentation mittels Strukturgleichungsmodellen: Implizierte Kovarianzmatrix:

35 Kapitel 3: Klassische Testtheorie
(Essentiell) -äquivalentes Modell: Definiert folgende lineare Beziehung zwischen den Truescores von m Tests: Falls i = 0, liegt -äquivalentes Modell vor.

36 Kapitel 3: Klassische Testtheorie
(Essentiell) -äquivalentes Modell: Implizierte Kovarianzstruktur: Alle Kovarianzen zwischen Tests identisch. Schätz- und Prüfbarkeit: Ab 2 Tests schätzbar, ab 3 Tests prüfbar.

37 Kapitel 3: Klassische Testtheorie
(Essentiell) -äquivalentes Modell: Repräsenta-tion mittels Strukturgleichungsmodellen: Tests sind verschie-dene Messungen des gleichen Konstrukts. Konstrukt beeinflusst Messungen gleich. Fehlervarianzen unterschiedlich.

38 Kapitel 3: Klassische Testtheorie
Paralleles Modell: Modell -äquivalenter Tests mit der Beschränkung, dass alle Fehlervarianzen identisch sind: Falls alle Mittelwerte ebenfalls identisch sind, so liegt strikt paralleles Modell vor. Modell sagt gleiche Kovarianzen und Varianzen der Tests vorher.

39 Kapitel 3: Klassische Testtheorie
Paralleles Modell: Implizierte Kovarianzstruktur: Parallele Tests sind völlig gleichwertig (austauschbar). Schätz- & Prüfbarkeit: Ab 2 Test schätz- und prüfbar.

40 Kapitel 3: Klassische Testtheorie
Paralleles Modell: Repräsentation mittels Strukturgleichungsmodellen: Tests sind verschie-dene Messungen des gleichen Konstrukts. Konstrukt beeinflusst Messungen gleich. Fehlervarianzen gleich.

41 Kapitel 3: Klassische Testtheorie
Bsp. 3-6: Illustration der Testmodelle: Gegeben: Ergebnisse für 4 Tests: X1 und X2 ohne Zeitdruck und Y1 und Y2 mit Zeitdruck. Zielsetzung: Prüfung von 4 Hypothesen mittels linearer Strukturgleichunsmo-delle

42 Kapitel 3: Klassische Testtheorie
Bsp. 3-6: Illustration der Testmodelle: 4 Hypothesen: H1: X1 und X2, sowie Y1 und Y2 sind jeweils parallel. Die beiden Paare sind jedoch nicht kongenerisch. H2: X1 und X2, sowie Y1 und Y2 sind jeweils parallel und beide Paare sind kongenerisch. H3: X1 und X2, sowie Y1 und Y2 sind jeweils kongene-risch. Die beiden Paare sind jedoch nicht kongenerisch. H4: X1, X2, Y1, Y2 sind kongenerisch aber nicht not-wendigerweise parallel.

43 Kapitel 3: Klassische Testtheorie
Bsp. 3-6: Illustration der Testmodelle: Die 4 Hypothesen beziehen sich auf 2 Aspekte der Tests: Aspekt 1: Messen Tests mit Zeitbe­schränkung das gleiche Konstrukt wie die ohne: H2 und H3 behaupten dies, H1 und H4 bestreiten es. Aspekt 2: Handelt es sich bei den beiden Subtests X1, X2 bzw. Y1, Y2 jeweils um Parallelformen: H1 und H2 nehmen es an, H3 und H4 bestreiten es. Subtests parallel Gleiches Konstrukt (kongenerisch) Ja Nein H2 H3 H1 H4

44 Kapitel 3: Klassische Testtheorie
Bsp. 3-6: Illustration der Testmodelle: Modellierungstrategie

45 Kapitel 4: Reliabilität
Truescore - Varianz: Die Truescore-Varianz ist die durch die Varianz des zu messende Konstrukt indu-zierte Varianz in der Messung (bzw. Test). Reliabilität eines Tests: Die Anteil an der Gesamtvarianz, der durch Variationen des Konstrukts bedingt ist: An-teil der Truescore-Varianz an der Gesamt-varianz.

46 Kapitel 4: Reliabilität
Bsp. 4-1: Reliabilität : Gegeben: Werte eines Intelligenztest für 2 Testpersonen: Y1 = 102, Y2 = 105. Problemstellung: Lässt sich aufgrund der erzielten Testwerte auf einen Unter- schied in der Intelligenz schliessen? Varianz der Testwerte = , d.h. die Varianz ist eine Funktion der Differenz: Je grösser die Differenz, desto grösser die Varianz.

47 Kapitel 4: Reliabilität
Bsp. 4-1: Reliabilität : Überlegung: Falls die Testwerte ohne Fehler ge- messen werden, so geht die beobachtete Varianz, bzw. die Differenz der Testwerte rein auf unter- schiedliche Werte im Konstrukt zurück (Reliabilität = 1) und die Schlussfolgerung unterschiedlicher Intelligenz ist gerechtfertigt. Falls die Unterschiede einzig auf Messfehler beru- hen (Reliabilität = 0), so ist die Schlussfolgerung nicht gerechtfertigt.

48 Kapitel 4: Reliabilität
Bsp. 4-1: Reliabilität : Résumé: Insgesamt ist der Schluss von Unter- schieden in den Messungen auf Unterschiede im gemessenen Konstrukt umso eher gerecht- fertigt, je geringer der Einfluss des Fehlers (bzw. von ungemessenen Einflussfaktoren) auf die Messung ist, oder – in anderen Worten – je höher die Reliabilität der Messung ist.

49 Kapitel 4: Reliabilität
Bedeutung der Reliabilität: Je reliabler eine Messung, desto geringer ist der unkontrollierte Anteil in der Mes- sung, somit: Reliabilität repräsentiert Präzision der Messung. Je höher die Reliabilität, desto besser die Replizierbarkeit. Reliabilität ist ein Mass für die Stärke des Effekts der zu messenden Konstrukte.

50 Kapitel 4: Reliabilität
Bsp. 4-2: Reliabilität: Gegeben: Lineares Messmodell: Zerlegung der Varianz von Y in Truescore- und Fehlervarianz:

51 Kapitel 4: Reliabilität
Bsp. 4-2: Reliabilität: Gegeben: Lineares Messmodell: Hieraus ergibt sich bei Division durch die Varianz von Y:

52 Kapitel 4: Reliabilität
Prinzip der Zerlegung von in Truescore- und Fehlervarianz: lässt sich eindeutig in Truescore- und Fehlervari-anz zerlegen, falls Fehler und latente Konstrukte unkorreliert sind. Gegeben: Lineare Strukturgleichung: wobei gilt: Es gilt:

53 Kapitel 4: Reliabilität
Illustration:

54 Kapitel 4: Reliabilität
Zusätze: Die Reliabilität entspricht der quadrierten Korrelation von Messung und Konstrukt: Es gilt: Die Wurzel aus der Fehlervarianz nennt sich Standardmessfehler.

55 Kapitel 4: Reliabilität
Methoden zur Messung: Ideal: Verwendung einer KFA (konfirma- tiven Faktorenanalyse). Traditionelle Ansätze zur Messung: Test-Retest Methode. Parallelformen / Alternativformen. Testhälften. Die Reliabilität ist in allen 3 traditionellen Ansätzen durch die Korrelation zwischen den Testhälften gegeben.

56 Kapitel 4: Reliabilität
Probleme der traditionellen Ansätze: Prinzip der modellabhängigen Bestimmung der Reliabilität eines Tests: Die Messung der Reliabilität eines Tests ist modellabhängig, d.h. die Gültigkeit eines ermittelten Reliabilitätskoeffizienten hängt davon ab, ob das zugrundeliegende Modell korrekt ist. Es gilt: Im Falle paralleler Test ist der Korrelationskoeffizient korrekt (Übung 2-10).

57 Kapitel 4: Reliabilität
Ursachen für Abweichungen von Parallelität: Folge: Korrelationskoeffizient ist verzerrtes Mass.

58 Kapitel 4: Reliabilität
Reliabilität von Summen: Spearman-Brown-Koeffizient für parallele Maβe:  = Reliabilität eines einzelnen Tests (identisch für alle Tests, da diese parallel).

59 Kapitel 4: Reliabilität
Reliabilität von Summen: Koeffizient  (Cronbachs ):

60 Kapitel 4: Reliabilität
Berechnung von Koeffizient : Kovarianzmatrix:

61 Kapitel 4: Reliabilität
Identität der Berechnungsformeln für Koeffizient :

62 Kapitel 4: Reliabilität
Beweis der Gültigkeit der Formel von Koeffizient  für 3 -äquivalente Tests: Es gilt:

63 Kapitel 4: Reliabilität
Guttmans 2: bzw.

64 Kapitel 4: Reliabilität
Zentrale Ergebnisse: Im Falle -äquivalenter Maße gilt (Übung 4-8): Im Falle unkorrelierter Fehlern unterschätzen beide Maße die wahre Reliabilität. 2 unterschätzt die wahre Reliabilität weniger stark als . SPSS berechnet beide Maße (bei Vorliegen der Rohdaten).

65 Kapitel 4: Reliabilität
 kann Reliabilität unter- und über-schätzen: Unterschätzung bei: Kongenerische Tests (die nicht -äquivalent sind). Tests die auf unterschiedliche Konstrukte laden, mit unkorrelierten Fehlern. Überschätzung bei korrelierten Fehlern.

66 Kapitel 4: Reliabilität
Bsp.4-7: Überschätzung der Reliabilität durch :

67 Kapitel 4: Reliabilität
Koeffizient  misst nicht Homogenität (d.h. Eindimensionalität der Tests) Bsp.4-8: Idee von Green et al. (1977).

68 Kapitel 4: Reliabilität
Bsp.4-8: Green et al. (1977)

69 Kapitel 4: Reliabilität
Koeffizient  misst nicht Homogenität (d.h. Eindimensionalität der Tests) Zur Messung von Eindimensionalität verwende man das kongenerische Modell. Falls diese die Daten fittet, so sind die Tests eindimensional.

70 Kapitel 4: Reliabilität
Berechnung der Reliabilitäten von Sum-men kongenerischer Maße mit Hilfe von AMOS: Via AMOS. Via Matrizen (Excel).

71 Kapitel 4: Reliabilität
Bsp.4-4:

72 Kapitel 4: Reliabilität
Prinzip: Falls das Modell die Daten gut erklärt, so wählt man für alle Berechnung nicht die Matrix Y der beobachteten Werte, sondern die vom Modell implizierte Kovarianzmatrix: Auch die Berechnung mittels Amos basiert auf der modellimplizierten Matrix.

73 Kapitel 4: Reliabilität
Methode 4-2 (Seite 105f): Modell:

74 Kapitel 4: Reliabilität
Methode 4-2 (Seite 105f): Gegeben: latente Konstrukte, Tests, geschätzte Kovarianz matrix der Tests.

75 Kapitel 4: Reliabilität
Methode 4-2 (Seite 105f): Geschätzte Kovarianzmatrix der latenten Konstrukte und Ladungsmatrix:

76 Kapitel 4: Reliabilität
Methode 4-2: Berechnung mittels Matrizen Truescore-Kovarianzmatrix: Die durch die latenten Konstrukte induzierte Varianzen und Kovarianzen in den Beobachtungen:  = m  n - Matrix mit Ladungen für jedes latente Konstrukt als Spalten.  = Kovarianzmatrix der n  n latenten Konstrukte.

77 Kapitel 4: Reliabilität
Methode 4-2: Berechnung mittels Matrizen: Geschätzte Kovarianzmatrix der Fehler:

78 Kapitel 4: Reliabilität
Methode 4-2: Berechnung mittels Matrizen Es gilt: bzw.

79 Kapitel 4: Reliabilität
Methode 4-2: Berechnung mittels Matrizen Die Anwendung der Beziehung: erleichtert die Berechnung der Truescore-Kovarianzmatrix, falls die geschätze Ko-varianzmatrix der Fehler einfach ist, da dies die Berechnung von überflüssig macht.

80 Kapitel 4: Reliabilität
Prinzip: Varianz einer gewichteten Summe: Gegeben: Kovarianzmatrix und Gewichtsvektor: Es gilt:

81 Kapitel 4: Reliabilität
Prinzip: Die Varianz einer Summe von Vari-ablen entspricht immer der Summe aller Ein-träge der Kovarianzmatrix dieser Variablen. Hierbei handelt es sich um einen Spezialfall von: wobei der Gewichtsvektor w nur 1 enthält.

82 Kapitel 4: Reliabilität
Methode 4-2: Berechnung mittels Matrizen: Geschätzte Truescore-Varianz: Geschätzte Varianz von : Reliabilität der gewichteten Summe:

83 Kapitel 4: Reliabilität
Methode 4-2 (Seite 105f):Alternative Berechnung: Geschätzte Truescore-Varianz der gewichteten Summe : Geschätzte Reliabilität der gewichteten Summe:

84 Kapitel 4: Reliabilität
Methode 4-2: Zusammenfassung der Matri-zenmethode zur Berechnung der Reliabilität einer gewichteten Summe:

85 Kapitel 4: Reliabilität
Bsp. 4-5: Allgemeines Testmodell

86 Kapitel 4: Reliabilität
Bsp. 4-5: Allgemeines Testmodell: Kovarianzmatrix der latenten Konstrukte Ladungsmatrix und Gewichtsvektor:

87 Kapitel 4: Reliabilität
Bsp. 4-5: Allgemeines Testmodell: Truescore-Varianz (Methode 1)

88 Kapitel 4: Reliabilität
Bsp. 4-5: Allgemeines Testmodell: Truescore-Varianz (Methode 2)

89 Kapitel 4: Reliabilität
Bsp. 4-5: Allgemeines Testmodell:

90 Kapitel 4: Reliabilität
Bsp. 4-5: Allgemeines Testmodell: Geschätzte Reliabilität:

91 Kapitel 4: Reliabilität
Bsp. 4-5: Allgemeines Testmodell mit unterschiedlicher Gewichtung: Alternativer Gewichtsvektor: Geschätzte Reliabilität:

92 Kapitel 4: Reliabilität
Montonie-Forderungen an die Reliabilität: Hinzufügen eines Tests sollte die Reliabili-tät der Summe der Tests erhöhen. Ersetzung eines Tests durch reliableren sollte die Reliabilität der Summe der Tests erhöhen. Verringerung der Korrelation zwischen den Konstrukten sollte Reliabilität der Summe der Tests verringern.

93 Kapitel 4: Reliabilität
Montonieforderungen an die Reliabilität: Die Montonieforderungen können bei Verwendung einfacher Summen verletzt sein. Beispiele: Siehe Skript Bsp. 4-9, 4-10 und 4-11 demonstrieren die Verletzungen.

94 Kapitel 4: Reliabilität
Bsp. 4-9: Hinzufügen von Items verringert die Reliabilität: Zentral: Hinzugefügte Items haben hohe Varianz und sind wenig reliabel

95 Kapitel 4: Reliabilität
Bsp. 4-10: Ersetzung eines Items durch ein reliableres verringert Gesamtreliabilität: Zentral: Verringerte Varianz des reliableren Items.

96 Kapitel 4: Reliabilität
Bsp. 4-11: Verringerung der Kovarianz zwi-schen Konstrukten verringert Reliabilität: Zentral: Erhöhte Varianz des reliableren Items.

97 Kapitel 5: Validität Klassische Definition von Kelley (1927): Test ist valide, falls er das misst, was er zu messen vorgibt. Problem: Was bedeutet dies genau? Inflation von Validitätskonzeptionen: Über 100 Arten von Validitäten.

98 2 »sinnvolle« und 2 »unsinnige« Arten von Validitäten:
Kapitel 5: Validität 2 »sinnvolle« und 2 »unsinnige« Arten von Validitäten: Konstruktvalidität (Cronbach & Meehl, 1959): Wird heute als die einzig sinnvolle Form von Validität betrachtet. Inhaltsvalidität: Kann als eine Facette der Konstruktvalidität betrachtet werden. Kriteriums- & prädiktive Validität: Keine sinnvollen testtheoretischen Konstrukte.

99 Kapitel 5: Validität Konstruktvalidität:
Das Messmodell, auf welchem die Schluss-folgerungen aufgrund der Testergebnisse beruhen, ist (approximativ) korrekt. Speziell: Konstrukte und Relation zw. Konstrukten, Relation zw. Konstrukt und Messung und Relation zw. Messungen korrekt spezifiziert.

100 Kapitel 5: Validität Konstruktvalidität:
Bedeutung eines korrekten Messmodells für korrekte Schlussfolgerungen: Falls Messmodell die Situation korrekt repräsentiert, sollten die Schlussfolgerungen aufgrund der Testresultate korrekt sein. Im Speziellen sollten keine systematischen Verzerrungen auftre-ten, welche z.B. bestimmte Personen systematisch benachteili-gen oder bevorzugen. Begründung: Verzerrungen der Test sind im Modell repräsentiert und können daher berücksichtigt und –möglicherweise – korrigiert werden.

101 Kapitel 5: Validität Inhaltsvalidität:
Erfassung des Konstrukts in seiner Breite durch die Indikatoren: Werden durch Indi-katoren alle Facetten des Konstrukts ab-gedeckt? Kann als Aspekt der Korrektheit eines Mo-dells betrachtet werden, d.h. ob Modell in-haltlich adäquat ist (vgl. Diskussion über in-haltliche Prüfung von Modellen in Kapitel 2).

102 [Inkrementelle] Prädiktive Validität:
Kapitel 5: Validität [Inkrementelle] Prädiktive Validität: Varianzaufklärung durch eine UV im Regressionskontext. Inkrementell: Zusätzliche Varianzaufklär-ung durch Einbeziehung einer UV, zusätzlich zu bereits vorhanden UVn. Hat keinen direkten Bezug zu Messung und Testung.

103 Kriteriumsvalidität:
Kapitel 5: Validität Kriteriumsvalidität: Korrelation der Messung mit einen aner-kannten Kriterium, d.h. mit einem Indikator, der als Mass für das Konstrukt etabliert ist. Den Korrelationskoeffizienten (zwischen Kriterium und Messung) nennt man auch Validitätskoeffizienten. In manchen Texten wird Validität mit dem Validitätskoeffizienten gleichgesetzt.

104 Problem des Validitätskoeffizienten:
Kapitel 5: Validität Problem des Validitätskoeffizienten: Eine hohe Korrelation zwischen Test Y und Kriterium K ist nicht notwendig darauf zurückzuführen, dass beide das gleiche Ziel- konstrukt  betreffen.

105 Kapitel 5: Validität Das Grundproblem:
Validität kann – ähnlich wie die Reliabilität – nur modellabhängig gemessen werden. Dies bedeutet, dass ein gültiges Modell vor-liegen muss, welches die relevanten Re-lationen (approximativ) korrekt abbildet, damit man die Validität schätzen kann. Eine Korrelation zwischen 2 Beobachtungen reicht nicht, da unklar, wie diese zustande kam.

106 Konzept: Validität eines Tests:
Kapitel 5: Validität Konzept: Validität eines Tests: Ein Test ist valide, falls die systemati-schen Variationen der Testwerten durch Variationen des zu messenden Zielkon-strukts verursacht werden. Die Validität eines Tests entspricht daher der Stärke der direkten kausalen Relation zwischen der latenten Variablen und dem Indikator.

107 Kapitel 5: Validität Bsp. 5-1: Validität eines Tests:

108 Kapitel 5: Validität Klassische Definition von Kelley (1927): Test ist valide, falls er das misst, was er zu messen vorgibt. Ein Test misst genau das, was er zu mes-sen vorgibt, wenn die systematischen Variationen der Testwerte ausschliesslich durch Unterschiede im zugrunde liegen-den Zielkonstrukt verursacht sind (und nicht durch Variation anderer Konstrukte).

109 Unterscheidung: Reliabilität vs. Validität
Kapitel 5: Validität Unterscheidung: Reliabilität vs. Validität Reliabilität ist notwendige Bedingung für Validität: Falls ein Test nicht reliabel ist, dann gibt es auch keine systematische Variation der Testwerte, welche auf Unterschiede im zu messenden Konstrukt reduzierbar sind. Reliabilität ist keine hinreichende Bedingung für Validität: Test kann perfekt reliabel sein, ohne valide zu sein!

110 Unterscheidung: Reliabilität vs. Validität
Kapitel 5: Validität Unterscheidung: Reliabilität vs. Validität Reliabilität ist notwendige Bedingung für Validität: Falls ein Test nicht reliabel ist, dann gibt es auch keine systematische Variation der Testwerte, welche auf Unterschiede im zu messenden Konstrukt reduzierbar sind. Reliabilität ist keine hinreichende Bedingung für Validität: Test kann perfekt reliabel sein, ohne valide zu sein!

111 Kapitel 5: Validität Messung mittels latenter Variablenmodelle Ladungskoeffizient ist ein direktes Mass für strukturelle Beziehung zwischen dem latenten Konstrukt und dem Test. Wichtig: Falls nicht verschiedene Grup-pen verglichen werden sollen, so ist es sinnvoll, den standardisierten La-dungskoeffizienten zu verwenden.

112 Kapitel 5: Validität Messung mittels latenter Variablenmodelle Falls Test nur von einem latenten Konstrukt beeinflusst wird, so gilt: Wichtig: Die dargestellte Beziehung zwischen Reliabilität und Validität gilt nur unter der gegebenen Bedingung.

113 Konzept: Eindeutige Reliabilität:
Kapitel 5: Validität Konzept: Eindeutige Reliabilität: Jener Anteil der Truescore-Varianz / Reliabi- lität, der eindeutig auf das zu messende Zielkonstrukt  zurückzuführen ist. Es gilt: wobei gilt: eindeutige Reliabilität. Varianz in , die nicht durch andere latenten Konstrukte erklärt wird.

114 Kapitel 5: Validität Methode 5-1: Ermittlung der Varianz in , welche nicht durch Kovarianz mit anderen Konstrukten erklärt wird. Herauspartialisierung der durch die anderen Konstrukte erklärten Varianz aus Var(): Mit AMOS Mit Matrizen

115 Kapitel 5: Validität Struktur der Konstrukte:
Ziel: Ermittlung der ein- deutig auf  zurück- zuführender Anteil der Truscore-Varianz in Y (=eindeutige Truescore- varianz).

116 Kapitel 5: Validität Methode 5-1: Herauspartialisierung der durch die anderen Konstrukte erklärten Vari-anz aus Var() mittels linearer Regression: hierbei gilt:  ist abhängige Variable. 1, 2,…, n-1 sind unabhängige Variablen.  symbolisiert das Residuum. Gesuchte Grösse: Var( )

117 Kapitel 5: Validität Methode 5-1: Herauspartialisierung der Varianzen der anderen Konstrukte aus dem Ziel- konstrukt mit AMOS: Beachte: Alle Variablen im Modell manifest (ausser ). Daten: Implizierte Varianzen. Gesucht:

118 Kapitel 5: Validität Methode 5-1: Herauspartialisierung der Vari-anzen der anderen Konstrukte aus dem Ziel- konstrukt mittels Matrizenrechnung: wobei gilt: ist die (unkorrigierte) Varianz von . ist der Vektor mit den Kovarianzen zwi-schen  und den anderen Konstrukten. ist die inverse Kovarianzmatrix zwischen den anderen Konstrukten.

119 Kapitel 5: Validität Bsp.: 5-2: Eindeutige Reliabilität:
Gegeben: Modell

120 Kapitel 5: Validität Bsp.: 5-2: Eindeutige Reliabilität mittels AMOS:
Gegeben: Strukturgleichungs-Modell, welches das Regressionsmodell zur Herauspartialisierung der Varianzen repräsentiert. Zielgrösse:

121 Kapitel 6: Trennschärfe / Minderungskorrektur
Unter der Trennschärfe eines Items versteht man in der klassischen Testtheorie die Kor-relation des Items mit dem Gesamtergebnis eines Tests (Summe aller Testitems). Problem: Vermischung von Konzept und Messung Trennschärfe: Fähigkeit eines Tests, Personen mit hohem Wert auf dem latenten Konstrukt von solchen mit geringem Wert zu unterscheiden.

122 Kapitel 6: Trennschärfe / Minderungskorrektur
Der Ladungskoeffizient  (standardisiert oder unstandardisiert) ist ein direktes Mass für die Trennschärfe:  (unstandardisiert) repräsentiert die erwartete Zunahme in der Messung Y (in Einheiten von Y), wenn sich der Konstruktwert um eine Einheit erhöht (Bei Konstanthaltung der Werte der anderen Konstrukte).  (standardisiert) repräsentiert die erwartete Zunahme in der Messung Y (in Standardeinheiten), wenn sich der Konstruktwert um eine Standardeinheit erhöht.

123 Kapitel 6: Trennschärfe / Minderungskorrektur
Somit: Je höher die Ladung, desto stärker die Änderung der Messung mit der Änderung des Konstruktwertes. Die Ladung repräsentiert daher direkt die Sensi-tivität der Messung bezüglich Veränderungen im Konstrukt. Das oben genannte Mass (Korrelation zwischen Test und Summe der Tests) kann als Approxima-tion betrachtet werden, indem die Summe als Repräsentation des Konstrukts betrachtet wird.

124 Kapitel 6: Trennschärfe / Minderungskorrektur
Alternative Bezeichnungen des Begriffs der »Minderungskorrektur«: Korrektur des Ausdünnungseffekts. Korrektur des Abschwächungseffekts. Korrektur des Attenuationseffekts.

125 Kapitel 6: Trennschärfe / Minderungskorrektur
Grundidee: Aufgrund des Messfehlers repräsen-tiert die Korrelation zwischen 2 Messungen nicht die Korrelation zwischen den Konstrukten. Korrelation zwischen den Konstrukten wird unterschätzt (daher der Ausdruck Minderung). Folgerung: Stabilität von Konstrukten über die Zeit hinweg oder über verschiedene Situationen hinweg wird unterschätzt.

126 Kapitel 6: Trennschärfe / Minderungskorrektur
Empirische Befunde: Die Stabilität von Persönlichkeitsmerkmalen wird unterschätzt, da die Korrelationen von Verhalten über Zeitpunkte hinweg die wahre Korrelation der zugrundliegenden Merkmale unterschätzt Einfluss von Traits auf das Verhalten wird unter-schätzt, da oft zu wenig Indikatoren für ein Kon-strukt verwendet werden, was die Reliabilität der Messung verringert.

127 Kapitel 6: Trennschärfe / Minderungskorrektur
Bsp.6-1: Demonstration Minderungskorrektur

128 Kapitel 6: Trennschärfe / Minderungskorrektur
Zentral: Das Problem existiert bei dem von uns gewählten Ansatz nicht, da die Konstrukte, deren Korrelation, sowie die Messfehler explizit in Mo-dell repräsentiert sind. Das Modell unterscheidet zwischen Korrelationen zwischen Messungen und Korrelationen zwischen Konstrukten. Das Problem existiert also nur für die »alte«, koeffizientenbasierte Testtheorie.

129 Kapitel 6: Trennschärfe / Minderungskorrektur
Vorgehensweise: Berechne die Reliabilitäten der beiden Messungen Y1 und Y2 der beiden Konstrukte (z.B. durch Ermittlung von Koeffizient ): und Dividiere die ermittelte Korrelation zwischen den Messungen durch die Wurzel aus dem Produkt der beiden Reliabilitäten:

130 Kapitel 6: Trennschärfe / Minderungskorrektur
Bsp.6-2: Korrelation zwischen den Konstrukten paralleler Maße:

131 Kapitel 6: Trennschärfe / Minderungskorrektur
Bsp. 6-3: Grenzen der Minderungskorrektur

132 Kapitel 7: Mittelwertstrukturen
Analyse der Kovarianzstrukturen betrifft den strukturellen Aspekt, d.h. die Beziehung zwi-schen den Tests bzw. Testitems. Analyse der Mittelwertstrukturen betrifft den Leistungsaspekt, d.h. die Höhe der Testwerte. 2 Aspekte werden behandelt: Schätzung (Vorhersage) der Werte auf den latenten Konstrukten aufgrund der beobachte- ten Testwerte. Vergleiche verschiedener Populationen.

133 Kapitel 7: Mittelwertstrukturen
Repräsentation von Mittelwertstrukturen in linearen Strukturgleichungsmodelle: Mittelwerte  und Interzepte .

134 Kapitel 7: Mittelwertstrukturen
Modellierung der beobachten Mittelwerte unter Verwendung der Interzepte und der Mittelwerte der latenten Konstrukte: Annahme: Die ist keine Einschränkung wegen Interzepte.

135 Kapitel 7: Mittelwertstrukturen
Beschränkungen und Freiheitsgrade: Amos führt automatische die folgenden Be-schränkungen ein: Mittelwerte der latenten Konstrukte und der Fehler wer-den auf 0.0 gesetzt. Die Regressionskonstanten sind frei schätzbar. Damit repräsentieren die geschätzten Interzepte die Mittelwerte der beobachteten Testwerte.

136 Kapitel 7: Mittelwertstrukturen
Beschränkungen und Freiheitsgrade: Amos führt automatische die folgenden Be-schränkungen ein (zur Identifikation): Mittelwerte der latenten Konstrukte und der Fehler wer-den auf 0.0 gesetzt. Die Regressionskonstanten sind frei schätzbar. Damit repräsentieren die geschätzten Interzepte die Mittelwerte der beobachteten Testwerte: Die nun auch die m beobachteten Mittelwerte modelliert werden, gibt es freie Datenpunkte.

137 Kapitel 7: Mittelwertstrukturen
Bsp.7-1: Essentiell -äquivalentes und -äqui-valentes Modell: , ergibt das -äquivalente Modell: gleiche Mittelwerte

138 Kapitel 7: Mittelwertstrukturen
Problem der Schätzung der latenten Kon-struktwerte aufgrund der beobachteten Messungen: Problemstellung: Eine Testperson hat bestimmte Werte für die m Testitems (oder Tests) erzielt. Wie lassen sich aufgrund dieser beobachteten Werte die latenten Konstruktwert für die Person schätzten?

139 Kapitel 7: Mittelwertstrukturen
Methode 7-1: Regressionsschätzer: Grundidee: Verwende Prädiktor der linearen Regression: , wobei gilt: ist der aufgrund von x vorhergesagte Wert ist der geschätzte Regressions koeffizient (Steigung). ist die geschätzte Regressions konstanten (y-Interzept). Alternative Darstellung:

140 Kapitel 7: Mittelwertstrukturen
Methode 7-1: Regressionsschätzer: Multivariate Version von : , wobei gilt: Vektor der vorhergesagten Werte. Vektor der Mittelwerte der yi. (n  m)-Matrix der geschätzten multiplen Regressionskoeffizienten. Vektor der unabhängigen Variablen (UVn). Mittelwertsvektor der UVn.

141 Kapitel 7: Mittelwertstrukturen
Methode 7-1: Regressionsschätzer: Verwende multivariaten Regressionsschätzer mit zu schätzenden latenten Konstruktwerten in der Rolle von und den beobachteten Messungen in der Rolle der : wobei gilt:

142 Kapitel 7: Mittelwertstrukturen
Methode 7-1: Regressionsschätzer: wobei gilt: Es gilt: und

143 Kapitel 7: Mittelwertstrukturen
Methode 7-1: Regressionsschätzer: Die Formel für den Regressionsschätzer ist daher: Dies repräsentiert ein Gleichungssystem:

144 Kapitel 7: Mittelwertstrukturen
Bsp.7-2: Schätzung des latenten Konstrukt-wertes: Gegeben:

145 Kapitel 7: Mittelwertstrukturen
Bsp.7-2: Schätzung des latenten Konstrukt-wertes: Gegeben:

146 Kapitel 7: Mittelwertstrukturen
Bsp.7-2: Schätzung des latenten Konstrukt-wertes:

147 Kapitel 7: Mittelwertstrukturen
Problem: Gleicher beobachteter Wert von 2 Personen aus unterschiedlichen Populationen kann zu verschiedenen Schätz-ungen führen (Regression zur Mitte).

148 Übungen: Übung 4-11: Reliabilität der Summe (nicht kongenerisch).
Übung 4-12: Reliabilität einer gewichteten Summe im allgemeinen faktorenanalytische Modell. Übung 4-13: Reliabilität einer gewichteten Summe. Übung 5-1: Eindeutige Reliabilität. Übung 6-1: Beweis der Formel für die Minderungs- korrektur. Übung 6-2: Berechnung einer Minderungskorrektur.


Herunterladen ppt "Kapitel 3: Klassische Testtheorie"

Ähnliche Präsentationen


Google-Anzeigen