Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen.

Ähnliche Präsentationen


Präsentation zum Thema: "Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen."—  Präsentation transkript:

1 Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

2 DPPD, 2003 Halle J. M. Müller 2 Gliederung 1. Theorie: Variabilität in psychologischen Eigenschaften 2. Daten: Test-Meta-Analyse-Projekt 3. Methode: Aspekte der Schätzung von Raschvarianzen 4. Anwendung: Anwendungsgebiete

3 DPPD, 2003 Halle J. M. Müller 3 1.Personen Variabilität in psychologischen Eigenschaften Die psychometrisch basierte Persönlichkeitspsychologie ging bislang davon aus, dass Personen in verschiedenen Dimensionen vergleichbare Variabilität aufweisen. Dichte Psychologische Dimension I Psychologische Dimension II Die klassische Testtheorie kann Variabilitätsunterschiede in verschiedenen Dimensionen nicht darstellen. Innerhalb des Raschmodels lässt sich hingegen ein Ansatz ableiten.

4 DPPD, 2003 Halle J. M. Müller 4 AB Schachspieler 1:2 Das Schach-Beispiel (aus Müller, 2002) C 1:2

5 DPPD, 2003 Halle J. M. Müller 5 Das Schach-Beispiel 1: 2 A B C

6 DPPD, 2003 Halle J. M. Müller 6 Transfer zum Rasch Model (Fienberg & Larntz, 1976, Brogden, 1977; Andrich, 1978; Engelhard, 1984; Mellenbergh & Vijn, 1981; Jansen, 1984 ) Spieler B wird zur Aufgabe b für Spieler A. Die Differenz zwischen zwei Personen wird nun definiert über die Differenz der Wahrscheinlichkeit eine Aufgabe b zu lösen. Person B p (B,b) =.50p (A,b) =.66 Aufgabe bPerson A

7 DPPD, 2003 Halle J. M. Müller 7 Interpretation einer Rasch Skalen Einheit Differenz der Lösungs- wahrscheinlichkeiten

8 DPPD, 2003 Halle J. M. Müller 8 True Rasch Variances als Maß für die Variabilität Konstante Differenz der Lsg-Wahrscheinlichk. Item b mit σ = 0Item a mit σ = 1Item c mit σ = 2

9 DPPD, 2003 Halle J. M. Müller 9 True Rasch Variances als Maß für die Variabilität

10 DPPD, 2003 Halle J. M. Müller DATEN: Das TEST-META-ANALYSE-PROJEKT Anzahl psychologischer Dimensionen> 92 Anzahl abgeschlossener IRT-Analysen> 880 Anzahl der Personumfänge150 < n < 3700 Item-Response-Software BilogMG, Parscale, Winmira, Bigsteps SAS-Macros zum Auslesen der Programm-Codes und des Outputs für BilogMG, PARSCALE; Winmira und bigsteps

11 DPPD, 2003 Halle J. M. Müller 11 Mein Dank an… Die Testauthoren und Verlage für die Daten: Paul Barrett EPQ-R English Willibald Ruch EPQ-R German Piotr Brzozowski EPQ-R Polish Anton Aluja EPQ-R Spanish Peter Borkenau NEO-FFI Jochen Fahrenberg FPI-R Peter Becker TIPI Stephan Bulheller EPP SWETS, SCHUHFRIED, HOGREFE …und weitere…. und Studenten für die Analysen: Tina Fechter Magnus Pagendarm Mildred Girndt Susana Ruiz Daniel Kostatinov Foundation Strukturfond der Universität Tübingen Kap. 1415

12 DPPD, 2003 Halle J. M. Müller METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1.SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) 2.MESSFEHLER 3.IRT-MODEL (1PL, 2PL, Partial Credit, Graded,...) 4.MODEL-FIT/ROBUSTHEIT 5.SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) 6.LINK-FUNKTIONEN (Logit, Normal-Ogive) 7.BODEN-UND-DECKEN-EFFEKTE

13 DPPD, 2003 Halle J. M. Müller 13 Interaktionen zwischen den Einflussgrößen MESSFEHLER IRT-MODEL MODEL-FIT ROBUSTHEIT SCHÄTZALGORITHMEN LINK-FUNKTIONEN SOFTWARE BODEN-UND-DECKEN-EFFEKTE TRV

14 DPPD, 2003 Halle J. M. Müller METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1.SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) 2.MESSFEHLER 3.IRT-MODEL (1PL, 2PL, Partial Credit, Graded,...) 4.MODEL-FIT/ROBUSTHEIT 5.SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) 6.LINK-FUNKTIONEN (Logit, Normal-Ogive) 7.BODEN-UND-DECKEN-EFFEKTE

15 DPPD, 2003 Halle J. M. Müller A Fortran Program (Fischer & Scheiblechner, 1970); 2. LOGISTIC (Wood, Wingersky & Lord, 1976); 3. BMD (Dixon & Brown, 1977); 4. ECTA (Goodman & Fay, 1974); 5. BICAL (Wright & Mead, 1977); 6. DICOT (Masters, 1984); 7. MULTIRA (Carstensen & Rost, 1998); 8. ICL (Hanson, 2002); 9. XCALIBRE (Luecht, Gierl & Ackermann, 1996) 10. LATENT GOLD (Vermunt & Maqidson, 2000); 11. SAS-Macro (Christensen & Bjorner, 2003) Einfluss der IRT-Software auf die Schätzung der Personenparametervarianz 12. WINSTEPS (Linacre & Wright, 1999); 13. BIGSTEPS (Linacre & Wright, 2003); 14. WINMIRA (Davier, 1998); 15. BILOG-MG (Zimowski, Muraki, Mislevy & Bock, 2003); 16. PARSCALE (Muraki & Bock, 2003); 17. QUEST (Adams & Khoo, 2003); 18. ConQuest (Wu, Adams & Wilson, 1997) 19. TESTFACT (Wood, 2003) 20. MULTILOG (Thissen, 2003) Liste von IRT-Software:

16 DPPD, 2003 Halle J. M. Müller 16 Einfluss der IRT-Software-Optionen auf die Schätzung der Personenparametervarianz am Beispiel der Parscale- und BilogMG-Optionen PARSCALE >CALIBGRADED/PARTIAL, LOGISTIC/NORMAL, SCALE=n, NQPT=n, DIST =n, CYCLES =(list), CRIT = (list), DIAGNOSIS =n, QRANGE =(list), ITEMFIT = n, FREE=(list), RIDGE=(list), NEWTON = n, POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR, TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL, NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER; >SCORE NQPT = n, DIST = n, QRANGE = (list), SMEAN = n, SSD = n, NAME = n, PFQ = n, SCORING = STANDARD / CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE, SAMPLE, RESCALE, NOADJ, FIT, NRATER; Auszug aus Parscale 4.0 Help BILOGMG >CALIB NQPT=a, CYCLES=b, NEWTON=c, PRINT=d, CRIT=e, IDIST=f, PLOT=g, DIAGNOSIS=h, REFERENCE=i, SELECT=(list), RIDGE=(list), ACCEL=n, NSD=o, COMMON, EMPIRICAL, NORMAL, FIXED, TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR, NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST, GROUP-PLOT, RASCH, NFULL, CHI=(list); Auszug aus BILOGMG 3.0 Help

17 DPPD, 2003 Halle J. M. Müller 17 Bigsteps BilogMG Parscale Winmira geschätze TRS_est Wahre TRS Einfluss der verwendeten Software: Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20 ca. 1 RaschUnit

18 DPPD, 2003 Halle J. M. Müller METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1.SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) 2.MESSFEHLER 3.IRT-MODEL (1PL, 2PL, Partial Credit, Graded,...) 4.MODEL-FIT/ROBUSTHEIT 5.SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) 6.LINK-FUNKTIONEN (Logit, Normal-Ogive) 7.BODEN-UND-DECKEN-EFFEKTE

19 DPPD, 2003 Halle J. M. Müller 19 Einfluss des Messfehlers auf die Rasch Varianz (Lord, 1983) Die empirische Varianz ist dann (2) Wir korrigieren die ORV zur TRV (4) Wir kennen das Verhältnis... (3) Wir fassen eine Schätzung auf als (1) ORV = Observed Rasch Variance TRV = True Rasch Variance ERV = Error Rasch Variance

20 DPPD, 2003 Halle J. M. Müller 20 Die Wahl des Reliabilitätsschätzer ist nicht unerheblich Zusammenhang zweier Reliabilitätsschätzungen Spearman Korrelation r = 0.75 s. (N=466) Cronbachs Alpha Reliabilitäten der IRT- Software

21 DPPD, 2003 Halle J. M. Müller 21 Explizite Unterscheidung der Theoretische Reliabilität vs. Empirische Reliabilität in Bigsteps (ebenfalls in BilogMG) (Thissen & Wainer, 1982; Embretson, 1999; Linacre, 2003) SUMMARY OF 1500 MEASURED VPNS | RAW MODEL | | SCORE COUNT MEASURE ERROR | | | | MEAN | | S.D | | MAX | | MIN | | | | REAL RMSE.30 ADJ.SD.46 VPN RELIABILITY.70 | |MODEL RMSE.29 ADJ.SD.46 VPN RELIABILITY.71 | Bigsteps Output ORS TRS

22 DPPD, 2003 Halle J. M. Müller 22 Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500) (Anmerkung: r reli, cronbach = 0.976) TRV Rasch Varianzen Personen ORV Anzahl an Items Zufällig Itemreduktion Erwartet Reliabilität RawS OPP

23 DPPD, 2003 Halle J. M. Müller 23 Während die Reliabilität die ORV beeinflusst, beeinflusst dagegen die TRV die Reliabilität Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items= TRV Reliabilität Winmira

24 DPPD, 2003 Halle J. M. Müller 24 Konsequenz: Variationsreiche Eigenschaften sind,unter sonst gleichen Bedingungen reliabler am Beispiel der EPQ-R(S) Skalen; (Itemanzahl zwischen 15 und 25) TRV Cronbach Reliabilität, N=40, r spear =.71, sign.Software Reliabilität N=40, r spear =. 44, sign.

25 DPPD, 2003 Halle J. M. Müller 25 Ohne Eingrenzung auf Skalen mit ca. 20 Items am Beispiel aller EPQ-R(S) Skalen: Deutsch, Spanisch, Englisch, Polnisch Software Reliabilität N=87, r=.32, sign. Cronbach Reliabilität, N=87, r=.60, sign TRV

26 DPPD, 2003 Halle J. M. Müller 26 Erklärung: Relativer Anteil des Model-vorhergesagten Standardfehlers SE an der wahren Raschvarianz TRV SE1,2 TRV 1 TRV 2

27 DPPD, 2003 Halle J. M. Müller METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1.SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) 2.MESSFEHLER 3.IRT-MODEL (1PL, 2PL, Partial Credit, Graded,...) 4.MODEL-FIT/ROBUSTHEIT 5.SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) 6.LINK-FUNKTIONEN (Logit, Normal-Ogive) 7.BODEN-UND-DECKEN-EFFEKTE

28 DPPD, 2003 Halle J. M. Müller 28 Erklärung: Variierender Trennschärfen auf das TRV Lösungs- wahrscheinlichkeit β = 1 B A Konstante Differenz C β = 0.5

29 DPPD, 2003 Halle J. M. Müller METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1.SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) 2.MESSFEHLER 3.IRT-MODEL (1PL, 2PL, Partial Credit, Graded,...) 4.MODEL-FIT/ROBUSTHEIT 5.SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) 6.LINK-FUNKTIONEN (Logit, Normal-Ogive) 7.BODEN-UND-DECKEN-EFFEKTE

30 DPPD, 2003 Halle J. M. Müller 30 Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Mögliche Modelverletzungen: 1.Falsche Modellwahl (z.B. 1PL statt 2PL) 2.Differential-Item-Functioning (Items sind für Subgruppen verschieden schwer) 3.Antworttendenzen in Subgruppen (testbar über Mixed- Rasch-Modelle; Rost & Carstensen) 4.Verletzung der Annahme lokal stochastischer Unabhängigkeit (Prüfung über T-Rasch, Ponocny; Residualanalysen, H. Müller, 2003, MethEval, Wien) 5.Inhomogene Personen (Person-Fit) 6.Inhomogene Items (Item-Fit)

31 DPPD, 2003 Halle J. M. Müller 31 Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Am Beispiel vier verschiedensprachiger EPQ-R(S) Skalen NeurotizismusPsychotizismusLügen Extraversion Deutsch Spanisch Polnisch Englisch

32 DPPD, 2003 Halle J. M. Müller 32 Einfluss von Model-Verletzungen am Q-Index am Beispiel der EPQ-R NeurotizismusPsychotizismusLügen Extraversion Deutsch Spanisch Polnisch Englisch Items Q-Index negativ positiv

33 DPPD, 2003 Halle J. M. Müller 33 Einfluss von Model-Verletzungen Itemselektion nach Q-Index am Beispiel des EPQ-R Deutsch Extraversion Cronbachs Alpha Software Reliabilität ORV TRV Software Korrektur Mittelwert TRV Cronbach-Korrektur Itemanzahl

34 DPPD, 2003 Halle J. M. Müller 34 Voraussetzungen zur Interpretation von TRV am Beispiel des EPQ-R Deutsch Itemuntergrenze von 10 Neurotizismus Psychotizismus Lügen Extraversion

35 DPPD, 2003 Halle J. M. Müller 35 Voraussetzungen zur Interpretation von TRV Itemuntergrenze von 10 Spanisch Deutsch Englisch Polnisch Ex Ne Ps Lü Ex Ne Ps Lü Ex Ne Ps Lü Ex Ne Ps Lü

36 DPPD, 2003 Halle J. M. Müller METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1.SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) 2.MESSFEHLER 3.IRT-MODEL (1PL, 2PL, Partial Credit, Graded,...) 4.MODEL-FIT/ROBUSTHEIT 5.SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) 6.LINK-FUNKTIONEN (Logit, Normal-Ogive) 7.BODEN-UND-DECKEN-EFFEKTE

37 DPPD, 2003 Halle J. M. Müller 37 Schätzalgorithmen : MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB, h- estimators, biweight and jackknifed estimators/robustification Direct Estimation (Mislevy 1984; Cohen & Jiang, 2002; v. Davier, 2003) in ConQuest Simulationsstudien: Samejima, 1993; Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989; Rigdon & Tsatakawa, 1983) Einfluss der Schätzalgorithmen

38 DPPD, 2003 Halle J. M. Müller 38 Einfluss der Schätzalgorithmen MLE vs. WML Mean Std Dev N Pr > |t|

39 DPPD, 2003 Halle J. M. Müller METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen 1.SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) 2.MESSFEHLER 3.IRT-MODEL (1PL, 2PL, Partial Credit, Graded,...) 4.MODEL-FIT/ROBUSTHEIT 5.SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) 6.LINK-FUNKTIONEN (Logit, Normal-Ogive) 7.BODEN-UND-DECKEN-EFFEKTE

40 DPPD, 2003 Halle J. M. Müller 40 BODEN-UND-DECKEN Effekte auf die STANDARDABWEICHUNG

41 DPPD, 2003 Halle J. M. Müller 41 BODEN-UND-DECKEN Effekte auf die SCHIEFE

42 DPPD, 2003 Halle J. M. Müller 42 BODEN-UND-DECKEN Effekte auf die KURTOSIS

43 DPPD, 2003 Halle J. M. Müller 43 Die Notwendigkeit eines Standards Der Messfehler = 0 (TRV). 2. Die Link-Funktion ist der Logit. 3. Mindestens 10 Items. 4. Der Schätzalgorithmus über direct Estimation. 5. Die theoretische Verteilung ist normalverteilt?

44 DPPD, 2003 Halle J. M. Müller Nutzen für die psychologische Diagnostik 1. Testkonstruktion 2. Testbeschreibung 3. Testanwendung 4. Neue Forschungsfelder

45 DPPD, 2003 Halle J. M. Müller 45 Nutzen für die psychologische Diagnostik Testkonstruktion a) Hohe Variabilität als Voraussetzung reliabler Messung b) Inhaltsvalidität c) Konstruktvalidität

46 DPPD, 2003 Halle J. M. Müller 46 Inhaltsvalidität… … als Konzept einer repräsentativen Itemstichprobe aus dem Universum eines theoretisch unendlichen Itempools (Fitzpatrick, 1983; Klauer, 1984). Hypothese: Wir erwarten entsprechen vergleichbare TRV bei verschiedenen Operationalisierung eines Konstruktes

47 DPPD, 2003 Halle J. M. Müller 47 Variationsunterschiede am Beispiel des EPQ-R Deutsch (mit Winmira; vergleichbar mit Bigsteps) Deutsch ExNe PsLü Fehlerquellen: Konstrukt, Methode and Itemauswahl (Vijver & Hambleton, 1996)

48 DPPD, 2003 Halle J. M. Müller 48 Vergleich von Variationsunterschieden zur Überprüfung der Inhaltsvalidität am Beispiel des EPQ-R(S) Deutsch ExNe PsLü Spanisch ExNe PsLü Polnisch ExNe PsLü Englisch ExNe PsLü ?

49 DPPD, 2003 Halle J. M. Müller 49 EPQ-R(S) Inhaltsvalidität über Vergleiche der TRV ohne inhomogene Items (Q-Index) (mit Winmira) DeutschSpanisch Polnisch Englisch ExNe PsLü ExNe PsLü ExNe PsLü ExNe PsLü

50 DPPD, 2003 Halle J. M. Müller 50 Konstruktvalidität Überprüfung theoretischer Zusammenhänge zwischen Konstrukten Problemstellung: Werden zwei Tests auf theoretische Zusammenhänge überprüft, so werden hohe korrelative Zusammenhänge erwartet. Es besteht jedoch die Gefahr, dass Item-Überschneidungen (Westmeyer) stattdessen die Inhaltsvalidität prüfen. Da beide Instrumente Verschiedenes messen (sollen), kann dies über unterschiedliche Rasch Varianzen belegt werden (als notwendige, aber nicht hinreichende Voraussetzung von Unterschiedlichkeit).

51 DPPD, 2003 Halle J. M. Müller 51 Testbeschreibung Illustration von Variationsunterschiede am Beispiel des SPM (N=1500) und RIS (N=147) Anzahl an Items TRV SPM Reliabilität RIS SPM RIS Reliabilität

52 DPPD, 2003 Halle J. M. Müller 52 Testanwendung Verändertes diagnostisches Schlussfolgern Rasch Einheiten Dichte SPM D SPM Testwert SPM RIS D RIS Testwert RIS

53 DPPD, 2003 Halle J. M. Müller 53 Testanwendung Diagnostik von Interventionseffekten: Ein neues Effektmaß in Ergänzung zu Cohens Maße der Effektstärke Effektmaß d von Cohen Effektmaß dR Standardisierung notwendig Keine Standardisierung notwendig Rasch Einheiten Dichte SPM Zeitpunkt 2 dR V SPM Zeitpunkt 1 Rasch Einheiten Dichte RIS Zeitpunkt 1 dR A RIS Zeitpunkt 2

54 DPPD, 2003 Halle J. M. Müller 54 Neue Forschungsfelder Veränderung der Variabilität über die Lebensspanne Dichte Testwert eines Kindes True Rasch Scores PP-Verteilung von 5 jährigen Kinder 6 Jahre7 Jahre8 Jahre Wachstum

55 DPPD, 2003 Halle J. M. Müller 55 Neue Forschungsfelder Persönlichkeitstests als Vektorraum Welche Tests umfassen mehr Variabilität? D I D II D III II, III I, II I, III

56 DPPD, 2003 Halle J. M. Müller 56 Zusammenfassung 1. Interpretation der wahren Raschskalierten Personenparametervarianzen 2. Methodische Aspekte der Schätzung 3. Nutzen in der Diagnostik 4. Ausblick

57 DPPD, 2003 Halle J. M. Müller 57 Thank you for your attention. More Information you can find under: Send me your data!

58 DPPD, 2003 Halle J. M. Müller 58 A link to a previews presentation on the European Congress of Personality in Jena, 2002

59 DPPD, 2003 Halle J. M. Müller 59 Bekannte Ansätze zur Überprüfung der Inhaltsvalidität: Psychometrische Ansätze by correlations by structural equivalence by simple descriptives like Variances in rasch-units

60 DPPD, 2003 Halle J. M. Müller 60 Differences between the approaches Testing of relationsships is a strategy that leads to weak statistical testing (H1-hypothesis) Testing of equivalence (deviation ) is a strategy that leads to strong statistical testing (H0-hypothesis)

61 DPPD, 2003 Halle J. M. Müller 61 Influences of BOTTOM-AND-CEILING effects on the TRV Bottom-effect Look for Skewness! Bottom-and-ceiling effect Look for Kurtosis! You find a skewness of magnitude 1 You see that this is caused by an cutting-point at 0.5 A cutting-point at 0.5 leads to an decreased variability of 70%


Herunterladen ppt "Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen."

Ähnliche Präsentationen


Google-Anzeigen