Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

J. M. Müller Universität Tübingen

Ähnliche Präsentationen


Präsentation zum Thema: "J. M. Müller Universität Tübingen"—  Präsentation transkript:

1 J. M. Müller Universität Tübingen
Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

2 Gliederung Theorie: Variabilität in psychologischen Eigenschaften
Daten: Test-Meta-Analyse-Projekt Methode: Aspekte der Schätzung von Raschvarianzen Anwendung: Anwendungsgebiete DPPD, 2003 Halle J. M. Müller

3 Personen Variabilität in psychologischen Eigenschaften
Die psychometrisch basierte Persönlichkeitspsychologie ging bislang davon aus, dass Personen in verschiedenen Dimensionen vergleichbare Variabilität aufweisen. Dichte Psychologische Dimension II Psychologische Dimension I Die klassische Testtheorie kann Variabilitätsunterschiede in verschiedenen Dimensionen nicht darstellen. Innerhalb des Raschmodels lässt sich hingegen ein Ansatz ableiten. DPPD, 2003 Halle J. M. Müller

4 Das Schach-Beispiel (aus Müller, 2002)
Schachspieler 1:2 C 1:2 DPPD, 2003 Halle J. M. Müller

5 Das Schach-Beispiel 1: 2 1:2 A B C DPPD, 2003 Halle J. M. Müller

6 Transfer zum Rasch Model (Fienberg & Larntz, 1976, Brogden, 1977; Andrich, 1978; Engelhard, 1984; Mellenbergh & Vijn, 1981; Jansen, 1984 ) Spieler B wird zur Aufgabe b für Spieler A. Die Differenz zwischen zwei Personen wird nun definiert über die Differenz der Wahrscheinlichkeit eine Aufgabe b zu lösen. Person B p(B,b)=.50 p(A,b)=.66 Aufgabe b Person A DPPD, 2003 Halle J. M. Müller

7 Interpretation einer Rasch Skalen Einheit
Differenz der Lösungs-wahrscheinlichkeiten DPPD, 2003 Halle J. M. Müller

8 True Rasch Variances als Maß für die Variabilität
Item b mit σ = 0 Konstante Differenz der Lsg-Wahrscheinlichk. Item a mit σ = 1 Item c mit σ = 2 DPPD, 2003 Halle J. M. Müller

9 True Rasch Variances als Maß für die Variabilität
DPPD, 2003 Halle J. M. Müller

10 2. DATEN: Das TEST-META-ANALYSE-PROJEKT
Anzahl psychologischer Dimensionen > 92 Anzahl abgeschlossener IRT-Analysen > 880 Anzahl der Personumfänge 150 < n < 3700 Item-Response-Software BilogMG, Parscale, Winmira, Bigsteps SAS-Macros zum Auslesen der Programm-Codes und des Outputs für BilogMG, PARSCALE; Winmira und bigsteps DPPD, 2003 Halle J. M. Müller

11 Mein Dank an… Die Testauthoren und Verlage für die Daten:
Paul Barrett EPQ-R English Willibald Ruch EPQ-R German Piotr Brzozowski EPQ-R Polish Anton Aluja EPQ-R Spanish Peter Borkenau NEO-FFI Jochen Fahrenberg FPI-R Peter Becker TIPI Stephan Bulheller EPP SWETS, SCHUHFRIED, HOGREFE …und weitere…. und Studenten für die Analysen: Tina Fechter Magnus Pagendarm Mildred Girndt Susana Ruiz Daniel Kostatinov Foundation ‚Strukturfond der Universität Tübingen‘ Kap. 1415 DPPD, 2003 Halle J. M. Müller

12 3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen
SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

13 Interaktionen zwischen den Einflussgrößen
SOFTWARE ROBUSTHEIT MESSFEHLER TRV SCHÄTZALGORITHMEN IRT-MODEL LINK-FUNKTIONEN MODEL-FIT BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

14 3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen
SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

15 Liste von IRT-Software:
Einfluss der IRT-Software auf die Schätzung der Personenparametervarianz Liste von IRT-Software: A Fortran Program (Fischer & Scheiblechner, 1970); LOGISTIC (Wood, Wingersky & Lord, 1976); BMD (Dixon & Brown, 1977); ECTA (Goodman & Fay, 1974); BICAL (Wright & Mead, 1977); DICOT (Masters, 1984); MULTIRA (Carstensen & Rost, 1998); ICL (Hanson, 2002); XCALIBRE (Luecht, Gierl & Ackermann, 1996) LATENT GOLD (Vermunt & Maqidson, 2000); SAS-Macro (Christensen & Bjorner, 2003) WINSTEPS (Linacre & Wright, 1999); BIGSTEPS (Linacre & Wright, 2003); WINMIRA (Davier, 1998); BILOG-MG (Zimowski, Muraki, Mislevy & Bock, 2003); PARSCALE (Muraki & Bock, 2003); QUEST (Adams & Khoo, 2003); ConQuest (Wu, Adams & Wilson, 1997) TESTFACT (Wood, 2003) MULTILOG (Thissen, 2003) DPPD, 2003 Halle J. M. Müller

16 Einfluss der IRT-Software-Optionen auf die Schätzung der Personenparametervarianz am Beispiel der Parscale- und BilogMG-Optionen PARSCALE >CALIB GRADED/PARTIAL, LOGISTIC/NORMAL, SCALE=n, NQPT=n, DIST =n, CYCLES =(list), CRIT = (list), DIAGNOSIS =n, QRANGE =(list), ITEMFIT = n, FREE=(list), RIDGE=(list), NEWTON = n, POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR, TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL, NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER; >SCORE NQPT = n, DIST = n, QRANGE = (list), SMEAN = n, SSD = n, NAME = n, PFQ = n, SCORING = STANDARD / CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE, SAMPLE, RESCALE, NOADJ, FIT, NRATER; Auszug aus Parscale 4.0 Help BILOGMG >CALIB NQPT=a, CYCLES=b, NEWTON=c, PRINT=d, CRIT=e, IDIST=f, PLOT=g, DIAGNOSIS=h, REFERENCE=i, SELECT=(list), RIDGE=(list), ACCEL=n, NSD=o, COMMON, EMPIRICAL, NORMAL, FIXED, TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR, NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST, GROUP-PLOT, RASCH, NFULL, CHI=(list); Auszug aus BILOGMG 3.0 Help DPPD, 2003 Halle J. M. Müller

17 Einfluss der verwendeten Software: Simulationsstudie TRS 0. 25 bis 4
Einfluss der verwendeten Software: Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20 geschätze TRS_est Bigsteps ca. 1 RaschUnit Winmira BilogMG Parscale DPPD, 2003 Halle J. M. Müller Wahre TRS

18 3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen
SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

19 Einfluss des Messfehlers auf die Rasch Varianz (Lord, 1983)
Wir fassen eine Schätzung auf als Die empirische Varianz ist dann (1) (2) Wir kennen das Verhältnis... Wir korrigieren die ORV zur TRV (3) (4) ORV = Observed Rasch Variance TRV = True Rasch Variance ERV = Error Rasch Variance DPPD, 2003 Halle J. M. Müller

20 Die Wahl des Reliabilitätsschätzer ist nicht unerheblich Zusammenhang zweier Reliabilitätsschätzungen Spearman Korrelation r = 0.75 s. (N=466) Cronbachs Alpha Reliabilitäten der IRT-Software DPPD, 2003 Halle J. M. Müller

21 Explizite Unterscheidung der Theoretische Reliabilität vs
Explizite Unterscheidung der Theoretische Reliabilität vs. Empirische Reliabilität in Bigsteps (ebenfalls in BilogMG) (Thissen & Wainer, 1982; Embretson, 1999; Linacre, 2003) SUMMARY OF MEASURED VPNS | RAW MODEL | | SCORE COUNT MEASURE ERROR | | | | MEAN | | S.D | | MAX | | MIN | | REAL RMSE .30 ADJ.SD .46 VPN RELIABILITY .70 | |MODEL RMSE .29 ADJ.SD .46 VPN RELIABILITY .71 | Bigsteps Output ORS TRS DPPD, 2003 Halle J. M. Müller

22 Zufällig Itemreduktion
Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500) (Anmerkung: r reli, cronbach = 0.976) OPP RawS Rasch Varianzen Personen Zufällig Itemreduktion ORV TRV Erwartet Reliabilität Anzahl an Items DPPD, 2003 Halle J. M. Müller

23 Während die Reliabilität die ORV beeinflusst, beeinflusst dagegen die TRV die Reliabilität Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20 TRV Reliabilität Winmira DPPD, 2003 Halle J. M. Müller

24 Konsequenz: Variationsreiche Eigenschaften sind ,unter sonst gleichen Bedingungen‘ reliabler am Beispiel der EPQ-R(S) Skalen; (Itemanzahl zwischen 15 und 25) Cronbach Reliabilität, N=40, rspear=.71, sign. Software Reliabilität N=40, rspear=. 44, sign. TRV DPPD, 2003 Halle J. M. Müller

25 Ohne Eingrenzung auf Skalen mit ca
Ohne Eingrenzung auf Skalen mit ca. 20 Items am Beispiel aller EPQ-R(S) Skalen: Deutsch, Spanisch, Englisch, Polnisch Cronbach Reliabilität, N=87, r=.60, sign. Software Reliabilität N=87, r=.32, sign. TRV DPPD, 2003 Halle J. M. Müller

26 Erklärung: Relativer Anteil des Model-vorhergesagten Standardfehlers SE an der wahren Raschvarianz TRV TRV 2 TRV 1 SE1,2 DPPD, 2003 Halle J. M. Müller

27 3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen
SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

28 Erklärung: Variierender Trennschärfen auf das TRV
Lösungs-wahrscheinlichkeit β = 1 Konstante Differenz β = 0.5 q q q B A C DPPD, 2003 Halle J. M. Müller

29 3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen
SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

30 Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen?
Mögliche Modelverletzungen: Falsche Modellwahl (z.B. 1PL statt 2PL) Differential-Item-Functioning (Items sind für Subgruppen verschieden schwer) Antworttendenzen in Subgruppen (testbar über Mixed-Rasch-Modelle; Rost & Carstensen) Verletzung der Annahme lokal stochastischer Unabhängigkeit (Prüfung über T-Rasch, Ponocny; Residualanalysen, H. Müller, 2003, MethEval, Wien) Inhomogene Personen (Person-Fit) Inhomogene Items (Item-Fit) DPPD, 2003 Halle J. M. Müller

31 Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen
Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Am Beispiel vier verschiedensprachiger EPQ-R(S) Skalen Extraversion Neurotizismus Psychotizismus Lügen Deutsch Spanisch Polnisch Englisch DPPD, 2003 Halle J. M. Müller

32 Einfluss von Model-Verletzungen am Q-Index am Beispiel der EPQ-R
Extraversion Neurotizismus Psychotizismus Lügen Items Deutsch 9 12 23 10 10 25 8 5 32 6 5 22 102 Spanisch 3 3 12 3 2 12 1 0 12 3 2 12 48 Polnisch 1 13 23 6 8 14 5 6 32 6 13 21 90 Englisch 8 11 23 5 6 24 3 0 32 4 3 21 100 negativ positiv Q-Index DPPD, 2003 Halle J. M. Müller

33 TRV Software Korrektur TRV Cronbach-Korrektur Software Reliabilität
Einfluss von Model-Verletzungen Itemselektion nach Q-Index am Beispiel des EPQ-R Deutsch Extraversion ORV TRV Software Korrektur Mittelwert TRV Cronbach-Korrektur Cronbachs Alpha Software Reliabilität Itemanzahl DPPD, 2003 Halle J. M. Müller

34 Voraussetzungen zur Interpretation von TRV am Beispiel des EPQ-R Deutsch Itemuntergrenze von 10
Neurotizismus Extraversion Lügen Psychotizismus DPPD, 2003 Halle J. M. Müller

35 Voraussetzungen zur Interpretation von TRV Itemuntergrenze von 10
Ex Ne Ps Ex Ne Ps Deutsch Englisch Ex Ne Ps Ex Ne Ps Spanisch Polnisch DPPD, 2003 Halle J. M. Müller

36 3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen
SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

37 Einfluss der Schätzalgorithmen
Schätzalgorithmen: MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB, h-estimators, biweight and jackknifed estimators/robustification Direct Estimation (Mislevy 1984; Cohen & Jiang, 2002; v. Davier, 2003) in ConQuest Simulationsstudien: Samejima, 1993; Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989; Rigdon & Tsatakawa, 1983) DPPD, 2003 Halle J. M. Müller

38 Einfluss der Schätzalgorithmen MLE vs. WML
Mean Std Dev N Pr > |t| DPPD, 2003 Halle J. M. Müller

39 3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen
SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

40 BODEN-UND-DECKEN Effekte auf die STANDARDABWEICHUNG
DPPD, 2003 Halle J. M. Müller

41 BODEN-UND-DECKEN Effekte auf die SCHIEFE
DPPD, 2003 Halle J. M. Müller

42 BODEN-UND-DECKEN Effekte auf die KURTOSIS
DPPD, 2003 Halle J. M. Müller

43 Die Notwendigkeit eines Standards...
Der Messfehler = 0 (TRV). Die Link-Funktion ist der Logit. Mindestens 10 Items. Der Schätzalgorithmus über direct Estimation. Die theoretische Verteilung ist normalverteilt? DPPD, 2003 Halle J. M. Müller

44 4. Nutzen für die psychologische Diagnostik
Testkonstruktion Testbeschreibung Testanwendung Neue Forschungsfelder DPPD, 2003 Halle J. M. Müller

45 Nutzen für die psychologische Diagnostik Testkonstruktion
Hohe Variabilität als Voraussetzung reliabler Messung Inhaltsvalidität Konstruktvalidität DPPD, 2003 Halle J. M. Müller

46 Inhaltsvalidität… … als Konzept einer repräsentativen Itemstichprobe aus dem Universum eines theoretisch unendlichen Itempools (Fitzpatrick, 1983; Klauer, 1984). Hypothese: Wir erwarten entsprechen vergleichbare TRV bei verschiedenen Operationalisierung eines Konstruktes DPPD, 2003 Halle J. M. Müller

47 Variationsunterschiede am Beispiel des EPQ-R Deutsch (mit Winmira; vergleichbar mit Bigsteps)
Ex Ne Ps Fehlerquellen: Konstrukt, Methode and Itemauswahl (Vijver & Hambleton, 1996) DPPD, 2003 Halle J. M. Müller

48 Vergleich von Variationsunterschieden zur Überprüfung der Inhaltsvalidität am Beispiel des EPQ-R(S)
Deutsch Ex Ne Ps Spanisch Ex Ne Ps Englisch Ex Ne Ps Polnisch Ex Ne Ps ? DPPD, 2003 Halle J. M. Müller

49 EPQ-R(S) Inhaltsvalidität über Vergleiche der TRV ohne inhomogene Items (Q-Index) (mit Winmira)
Deutsch Spanisch Polnisch Englisch Ex Ne Ps DPPD, 2003 Halle J. M. Müller

50 Konstruktvalidität Überprüfung theoretischer Zusammenhänge zwischen Konstrukten
Problemstellung: Werden zwei Tests auf theoretische Zusammenhänge überprüft, so werden hohe korrelative Zusammenhänge erwartet. Es besteht jedoch die Gefahr, dass Item-Überschneidungen (Westmeyer) stattdessen die Inhaltsvalidität prüfen. Da beide Instrumente Verschiedenes messen (sollen), kann dies über unterschiedliche Rasch Varianzen belegt werden (als notwendige, aber nicht hinreichende Voraussetzung von Unterschiedlichkeit). DPPD, 2003 Halle J. M. Müller

51 Testbeschreibung Illustration von Variationsunterschiede am Beispiel des SPM (N=1500) und RIS (N=147) Anzahl an Items TRV RIS SPM SPM Reliabilität RIS Reliabilität DPPD, 2003 Halle J. M. Müller

52 Testanwendung Verändertes diagnostisches Schlussfolgern
SPM RIS Dichte Testwert SPM DSPM Rasch Einheiten Testwert RIS DRIS DPPD, 2003 Halle J. M. Müller

53 Testanwendung Diagnostik von Interventionseffekten: Ein neues Effektmaß in Ergänzung zu Cohen‘s Maße der Effektstärke Effektmaß d von Cohen Standardisierung notwendig Keine Standardisierung notwendig Effektmaß dR Rasch Einheiten Dichte SPM Zeitpunkt 2 dRV Zeitpunkt 1 RIS dRA DPPD, 2003 Halle J. M. Müller

54 PP-Verteilung von 5 jährigen Kinder
Neue Forschungsfelder Veränderung der Variabilität über die Lebensspanne Dichte PP-Verteilung von 5 jährigen Kinder 8 Jahre 7 Jahre 6 Jahre Wachstum True Rasch Scores Testwert eines Kindes DPPD, 2003 Halle J. M. Müller

55 Neue Forschungsfelder Persönlichkeitstests als Vektorraum Welche Tests umfassen mehr Variabilität?
D I D II D III II, III I, II I, III DPPD, 2003 Halle J. M. Müller

56 Zusammenfassung Interpretation der wahren Raschskalierten Personenparametervarianzen Methodische Aspekte der Schätzung Nutzen in der Diagnostik Ausblick DPPD, 2003 Halle J. M. Müller

57 Thank you for your attention.
More Information you can find under: Send me your data! DPPD, 2003 Halle J. M. Müller

58 A link to a previews presentation on the European Congress of Personality in Jena, 2002
DPPD, 2003 Halle J. M. Müller

59 Bekannte Ansätze zur Überprüfung der Inhaltsvalidität:
Psychometrische Ansätze ... by correlations ... by structural equivalence ... by simple descriptives like Variances in rasch-units DPPD, 2003 Halle J. M. Müller

60 Differences between the approaches
Testing of relationsships is a strategy that leads to weak statistical testing (H1-hypothesis) Testing of equivalence (deviation ) strong statistical testing (H0-hypothesis) DPPD, 2003 Halle J. M. Müller

61 Influences of BOTTOM-AND-CEILING effects on the TRV
Bottom-effect Look for Skewness! Bottom-and-ceiling effect Look for Kurtosis! You find a skewness of magnitude 1 You see that this is caused by an cutting-point at 0.5 A cutting-point at 0.5 leads to an decreased variability of 70% DPPD, 2003 Halle J. M. Müller


Herunterladen ppt "J. M. Müller Universität Tübingen"

Ähnliche Präsentationen


Google-Anzeigen