J. M. Müller Universität Tübingen

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Was ist Testtheorie?.
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Forschungsstatistik II
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Bewegte Bezugssysteme
Differentielles Paar UIN rds gm UIN
1Ausgewählte Themen des analogen Schaltungsentwurfs Zusammenfassung Einführung Teilchendetektore – Sensorstrukturen, Verstärker, Rauschen, Geschwindigkeit.
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
2 Distanzbasierte Sprachkommunikation für Peer-to-Peer-Spiele.
20:00.
Die Geschichte von Rudi
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
In der Schule.
Leistungsbeschreibung Brückenplanung RVS RVS
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
STATISIK LV Nr.: 0028 SS Mai 2005.
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Symmetrische Blockchiffren DES – der Data Encryption Standard
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Bevölkerungsentwicklung und –struktur der Stadt Bozen
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Theorie psychometrischer Tests, II
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Einführung in die Astronomie und Astrophysik I Kapitel III: Das Planetensystem 1 Kapitel III: Das Planetensystem.
Kamin- und Kachelöfen in Oberösterreich
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
1 Mathematical Programming Nichtlineare Programmierung.
Imperfekt Wie sagt man das mit Imperfekt
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Folie Einzelauswertung der Gemeindedaten
Numbers Greetings and Good-byes All about Me Verbs and Pronouns
J-Team: Gymnasium Ulricianum Aurich und MTV Aurich Ein Projekt im Rahmen von UlricianumBewegt.de Euro haben wir schon…  8000 mal habt ihr bereits.
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

J. M. Müller Universität Tübingen Nutzen für die psychologische Diagnostik aus der Interpretation geschätzter raschskalierter Personenparametervarianzen J. M. Müller Universität Tübingen

Gliederung Theorie: Variabilität in psychologischen Eigenschaften Daten: Test-Meta-Analyse-Projekt Methode: Aspekte der Schätzung von Raschvarianzen Anwendung: Anwendungsgebiete DPPD, 2003 Halle J. M. Müller

Personen Variabilität in psychologischen Eigenschaften Die psychometrisch basierte Persönlichkeitspsychologie ging bislang davon aus, dass Personen in verschiedenen Dimensionen vergleichbare Variabilität aufweisen. Dichte Psychologische Dimension II Psychologische Dimension I Die klassische Testtheorie kann Variabilitätsunterschiede in verschiedenen Dimensionen nicht darstellen. Innerhalb des Raschmodels lässt sich hingegen ein Ansatz ableiten. DPPD, 2003 Halle J. M. Müller

Das Schach-Beispiel (aus Müller, 2002) Schachspieler 1:2 C 1:2 DPPD, 2003 Halle J. M. Müller

Das Schach-Beispiel 1: 2 1:2 A B C DPPD, 2003 Halle J. M. Müller

Transfer zum Rasch Model (Fienberg & Larntz, 1976, Brogden, 1977; Andrich, 1978; Engelhard, 1984; Mellenbergh & Vijn, 1981; Jansen, 1984 ) Spieler B wird zur Aufgabe b für Spieler A. Die Differenz zwischen zwei Personen wird nun definiert über die Differenz der Wahrscheinlichkeit eine Aufgabe b zu lösen. Person B p(B,b)=.50 p(A,b)=.66 Aufgabe b Person A DPPD, 2003 Halle J. M. Müller

Interpretation einer Rasch Skalen Einheit Differenz der Lösungs-wahrscheinlichkeiten DPPD, 2003 Halle J. M. Müller

True Rasch Variances als Maß für die Variabilität Item b mit σ = 0 Konstante Differenz der Lsg-Wahrscheinlichk. Item a mit σ = 1 Item c mit σ = 2 DPPD, 2003 Halle J. M. Müller

True Rasch Variances als Maß für die Variabilität DPPD, 2003 Halle J. M. Müller

2. DATEN: Das TEST-META-ANALYSE-PROJEKT Anzahl psychologischer Dimensionen > 92 Anzahl abgeschlossener IRT-Analysen > 880 Anzahl der Personumfänge 150 < n < 3700 Item-Response-Software BilogMG, Parscale, Winmira, Bigsteps SAS-Macros zum Auslesen der Programm-Codes und des Outputs für BilogMG, PARSCALE; Winmira und bigsteps DPPD, 2003 Halle J. M. Müller

Mein Dank an… Die Testauthoren und Verlage für die Daten: Paul Barrett EPQ-R English Willibald Ruch EPQ-R German Piotr Brzozowski EPQ-R Polish Anton Aluja EPQ-R Spanish Peter Borkenau NEO-FFI Jochen Fahrenberg FPI-R Peter Becker TIPI Stephan Bulheller EPP SWETS, SCHUHFRIED, HOGREFE …und weitere…. und Studenten für die Analysen: Tina Fechter Magnus Pagendarm Mildred Girndt Susana Ruiz Daniel Kostatinov Foundation ‚Strukturfond der Universität Tübingen‘ Kap. 1415 DPPD, 2003 Halle J. M. Müller

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

Interaktionen zwischen den Einflussgrößen SOFTWARE ROBUSTHEIT MESSFEHLER TRV SCHÄTZALGORITHMEN IRT-MODEL LINK-FUNKTIONEN MODEL-FIT BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

Liste von IRT-Software: Einfluss der IRT-Software auf die Schätzung der Personenparametervarianz Liste von IRT-Software: A Fortran Program (Fischer & Scheiblechner, 1970); LOGISTIC (Wood, Wingersky & Lord, 1976); BMD (Dixon & Brown, 1977); ECTA (Goodman & Fay, 1974); BICAL (Wright & Mead, 1977); DICOT (Masters, 1984); MULTIRA (Carstensen & Rost, 1998); ICL (Hanson, 2002); XCALIBRE (Luecht, Gierl & Ackermann, 1996) LATENT GOLD (Vermunt & Maqidson, 2000); SAS-Macro (Christensen & Bjorner, 2003) WINSTEPS (Linacre & Wright, 1999); BIGSTEPS (Linacre & Wright, 2003); WINMIRA (Davier, 1998); BILOG-MG (Zimowski, Muraki, Mislevy & Bock, 2003); PARSCALE (Muraki & Bock, 2003); QUEST (Adams & Khoo, 2003); ConQuest (Wu, Adams & Wilson, 1997) TESTFACT (Wood, 2003) MULTILOG (Thissen, 2003) DPPD, 2003 Halle J. M. Müller

Einfluss der IRT-Software-Optionen auf die Schätzung der Personenparametervarianz am Beispiel der Parscale- und BilogMG-Optionen PARSCALE >CALIB GRADED/PARTIAL, LOGISTIC/NORMAL, SCALE=n, NQPT=n, DIST =n, CYCLES =(list), CRIT = (list), DIAGNOSIS =n, QRANGE =(list), ITEMFIT = n, FREE=(list), RIDGE=(list), NEWTON = n, POSTERIOR, FLOAT, QPREAD, ESTORDER, SPRIOR, TPRIOR, GPRIOR, PRIORREAD, ACCEL/NOACCEL, NOCALIB, SKIPC, CSLOPE, THRESHOLD, NRATER; >SCORE NQPT = n, DIST = n, QRANGE = (list), SMEAN = n, SSD = n, NAME = n, PFQ = n, SCORING = STANDARD / CALIBRATION, EAP/MLE/WML, PRINT, QPREAD, NOSCORE, SAMPLE, RESCALE, NOADJ, FIT, NRATER; Auszug aus Parscale 4.0 Help BILOGMG >CALIB NQPT=a, CYCLES=b, NEWTON=c, PRINT=d, CRIT=e, IDIST=f, PLOT=g, DIAGNOSIS=h, REFERENCE=i, SELECT=(list), RIDGE=(list), ACCEL=n, NSD=o, COMMON, EMPIRICAL, NORMAL, FIXED, TPRIOR, SPRIOR, GPRIOR, NOTPRIOR, NOSPRIOR, NOGPRIOR, READPRIOR, NOFLOAT, FLOAT, NOADJUST, GROUP-PLOT, RASCH, NFULL, CHI=(list); Auszug aus BILOGMG 3.0 Help DPPD, 2003 Halle J. M. Müller

Einfluss der verwendeten Software: Simulationsstudie TRS 0. 25 bis 4 Einfluss der verwendeten Software: Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20 geschätze TRS_est Bigsteps ca. 1 RaschUnit Winmira BilogMG Parscale DPPD, 2003 Halle J. M. Müller Wahre TRS

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

Einfluss des Messfehlers auf die Rasch Varianz (Lord, 1983) Wir fassen eine Schätzung auf als Die empirische Varianz ist dann (1) (2) Wir kennen das Verhältnis... Wir korrigieren die ORV zur TRV (3) (4) ORV = Observed Rasch Variance TRV = True Rasch Variance ERV = Error Rasch Variance DPPD, 2003 Halle J. M. Müller

Die Wahl des Reliabilitätsschätzer ist nicht unerheblich Zusammenhang zweier Reliabilitätsschätzungen Spearman Korrelation r = 0.75 s. (N=466) Cronbachs Alpha Reliabilitäten der IRT-Software 0.0 0.25 .5 0.75 1.0 0.0 0.25 .5 0.75 1.0 DPPD, 2003 Halle J. M. Müller

Explizite Unterscheidung der Theoretische Reliabilität vs Explizite Unterscheidung der Theoretische Reliabilität vs. Empirische Reliabilität in Bigsteps (ebenfalls in BilogMG) (Thissen & Wainer, 1982; Embretson, 1999; Linacre, 2003) SUMMARY OF 1500 MEASURED VPNS +------------------------------------------------+ | RAW MODEL | | SCORE COUNT MEASURE ERROR | |------------------------------------------------| | MEAN 34.4 58.8 .42 .29 | | S.D. 6.9 3.7 .55 .02 | | MAX. 53.0 61.0 2.15 .62 | | MIN. 4.0 13.0 -1.74 .28 | | REAL RMSE .30 ADJ.SD .46 VPN RELIABILITY .70 | |MODEL RMSE .29 ADJ.SD .46 VPN RELIABILITY .71 | Bigsteps Output ORS TRS DPPD, 2003 Halle J. M. Müller

Zufällig Itemreduktion Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500) (Anmerkung: r reli, cronbach = 0.976) OPP RawS Rasch Varianzen Personen Zufällig Itemreduktion ORV TRV 0.5 1.0 1.5 2.0 Erwartet Reliabilität 10 20 30 40 50 60 Anzahl an Items DPPD, 2003 Halle J. M. Müller

Während die Reliabilität die ORV beeinflusst, beeinflusst dagegen die TRV die Reliabilität Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20 0 1 4 9 16 TRV 0.25 0.5 0.75 1.0 Reliabilität Winmira DPPD, 2003 Halle J. M. Müller

Konsequenz: Variationsreiche Eigenschaften sind ,unter sonst gleichen Bedingungen‘ reliabler am Beispiel der EPQ-R(S) Skalen; (Itemanzahl zwischen 15 und 25) Cronbach Reliabilität, N=40, rspear=.71, sign. Software Reliabilität N=40, rspear=. 44, sign. 0 0.25 .5 0.75 1.0 0 0.25 .5 0.75 1.0 0 1 2 0 1 2 TRV DPPD, 2003 Halle J. M. Müller

Ohne Eingrenzung auf Skalen mit ca Ohne Eingrenzung auf Skalen mit ca. 20 Items am Beispiel aller EPQ-R(S) Skalen: Deutsch, Spanisch, Englisch, Polnisch Cronbach Reliabilität, N=87, r=.60, sign. Software Reliabilität N=87, r=.32, sign. 0 0.25 .5 0.75 1.0 0 0.25 .5 0.75 1.0 0 1 2 3 0 1 2 3 TRV DPPD, 2003 Halle J. M. Müller

Erklärung: Relativer Anteil des Model-vorhergesagten Standardfehlers SE an der wahren Raschvarianz TRV TRV 2 TRV 1 SE1,2 DPPD, 2003 Halle J. M. Müller

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen SOFTWARE (Winmira, Parscale, BilogMG, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

Erklärung: Variierender Trennschärfen auf das TRV Lösungs-wahrscheinlichkeit β = 1 Konstante Differenz β = 0.5 q q q B A C DPPD, 2003 Halle J. M. Müller

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Mögliche Modelverletzungen: Falsche Modellwahl (z.B. 1PL statt 2PL) Differential-Item-Functioning (Items sind für Subgruppen verschieden schwer) Antworttendenzen in Subgruppen (testbar über Mixed-Rasch-Modelle; Rost & Carstensen) Verletzung der Annahme lokal stochastischer Unabhängigkeit (Prüfung über T-Rasch, Ponocny; Residualanalysen, H. Müller, 2003, MethEval, Wien) Inhomogene Personen (Person-Fit) Inhomogene Items (Item-Fit) DPPD, 2003 Halle J. M. Müller

Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen Wie robust sind TRV-Schätzungen gegenüber Modellverletzungen? Am Beispiel vier verschiedensprachiger EPQ-R(S) Skalen Extraversion Neurotizismus Psychotizismus Lügen Deutsch Spanisch Polnisch Englisch DPPD, 2003 Halle J. M. Müller

Einfluss von Model-Verletzungen am Q-Index am Beispiel der EPQ-R Extraversion Neurotizismus Psychotizismus Lügen Items Deutsch 9 12 23 10 10 25 8 5 32 6 5 22 102 Spanisch 3 3 12 3 2 12 1 0 12 3 2 12 48 Polnisch 1 13 23 6 8 14 5 6 32 6 13 21 90 Englisch 8 11 23 5 6 24 3 0 32 4 3 21 100 negativ positiv Q-Index DPPD, 2003 Halle J. M. Müller

TRV Software Korrektur TRV Cronbach-Korrektur Software Reliabilität Einfluss von Model-Verletzungen Itemselektion nach Q-Index am Beispiel des EPQ-R Deutsch Extraversion ORV TRV Software Korrektur Mittelwert TRV Cronbach-Korrektur Cronbachs Alpha Software Reliabilität Itemanzahl DPPD, 2003 Halle J. M. Müller

Voraussetzungen zur Interpretation von TRV am Beispiel des EPQ-R Deutsch Itemuntergrenze von 10 Neurotizismus Extraversion Lügen Psychotizismus DPPD, 2003 Halle J. M. Müller

Voraussetzungen zur Interpretation von TRV Itemuntergrenze von 10 Ex Ne Ps Lü Ex Ne Ps Lü Deutsch Englisch Ex Ne Ps Lü Ex Ne Ps Lü Spanisch Polnisch DPPD, 2003 Halle J. M. Müller

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

Einfluss der Schätzalgorithmen Schätzalgorithmen: MLE, WLE, BME, EAP, MAP, EM, MLF, CMLF, OSB, h-estimators, biweight and jackknifed estimators/robustification Direct Estimation (Mislevy 1984; Cohen & Jiang, 2002; v. Davier, 2003) in ConQuest Simulationsstudien: Samejima, 1993; Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989; Rigdon & Tsatakawa, 1983) DPPD, 2003 Halle J. M. Müller

Einfluss der Schätzalgorithmen MLE vs. WML Mean Std Dev N Pr > |t| 0.01 0.32 131 0.696 DPPD, 2003 Halle J. M. Müller

3. METHODE: Aspekte der Schätzung raschskalierter Personenparametervarianzen SOFTWARE (Winmira, Parscale, Bilog, Bigsteps) MESSFEHLER IRT-MODEL (1PL, 2PL, Partial Credit, Graded, ...) MODEL-FIT/ROBUSTHEIT SCHÄTZALGORITHMEN (WLE, MLE, EAP, etc.) LINK-FUNKTIONEN (Logit, Normal-Ogive) BODEN-UND-DECKEN-EFFEKTE DPPD, 2003 Halle J. M. Müller

BODEN-UND-DECKEN Effekte auf die STANDARDABWEICHUNG DPPD, 2003 Halle J. M. Müller

BODEN-UND-DECKEN Effekte auf die SCHIEFE DPPD, 2003 Halle J. M. Müller

BODEN-UND-DECKEN Effekte auf die KURTOSIS DPPD, 2003 Halle J. M. Müller

Die Notwendigkeit eines Standards... Der Messfehler = 0 (TRV). Die Link-Funktion ist der Logit. Mindestens 10 Items. Der Schätzalgorithmus über direct Estimation. Die theoretische Verteilung ist normalverteilt? DPPD, 2003 Halle J. M. Müller

4. Nutzen für die psychologische Diagnostik Testkonstruktion Testbeschreibung Testanwendung Neue Forschungsfelder DPPD, 2003 Halle J. M. Müller

Nutzen für die psychologische Diagnostik Testkonstruktion Hohe Variabilität als Voraussetzung reliabler Messung Inhaltsvalidität Konstruktvalidität DPPD, 2003 Halle J. M. Müller

Inhaltsvalidität… … als Konzept einer repräsentativen Itemstichprobe aus dem Universum eines theoretisch unendlichen Itempools (Fitzpatrick, 1983; Klauer, 1984). Hypothese: Wir erwarten entsprechen vergleichbare TRV bei verschiedenen Operationalisierung eines Konstruktes DPPD, 2003 Halle J. M. Müller

Variationsunterschiede am Beispiel des EPQ-R Deutsch (mit Winmira; vergleichbar mit Bigsteps) 0 1.0 2.0 Ex Lü Ne Ps Fehlerquellen: Konstrukt, Methode and Itemauswahl (Vijver & Hambleton, 1996) DPPD, 2003 Halle J. M. Müller

Vergleich von Variationsunterschieden zur Überprüfung der Inhaltsvalidität am Beispiel des EPQ-R(S) Deutsch Ex Ne Ps Lü 0 1.0 2.0 Spanisch 0 1.0 2.0 Ex Ne Ps Lü Englisch 0 1.0 2.0 Ex Ne Ps Lü Polnisch 0 1.0 2.0 Ex Ne Ps Lü ? DPPD, 2003 Halle J. M. Müller

EPQ-R(S) Inhaltsvalidität über Vergleiche der TRV ohne inhomogene Items (Q-Index) (mit Winmira) Deutsch Spanisch Polnisch Englisch Ex Ne Ps Lü 0 1 2 3 DPPD, 2003 Halle J. M. Müller

Konstruktvalidität Überprüfung theoretischer Zusammenhänge zwischen Konstrukten Problemstellung: Werden zwei Tests auf theoretische Zusammenhänge überprüft, so werden hohe korrelative Zusammenhänge erwartet. Es besteht jedoch die Gefahr, dass Item-Überschneidungen (Westmeyer) stattdessen die Inhaltsvalidität prüfen. Da beide Instrumente Verschiedenes messen (sollen), kann dies über unterschiedliche Rasch Varianzen belegt werden (als notwendige, aber nicht hinreichende Voraussetzung von Unterschiedlichkeit). DPPD, 2003 Halle J. M. Müller

Testbeschreibung Illustration von Variationsunterschiede am Beispiel des SPM (N=1500) und RIS (N=147) 0 10 20 30 40 50 60 Anzahl an Items 0 1 2 3 TRV RIS SPM SPM Reliabilität RIS Reliabilität DPPD, 2003 Halle J. M. Müller

Testanwendung Verändertes diagnostisches Schlussfolgern SPM RIS Dichte Testwert SPM DSPM Rasch Einheiten Testwert RIS DRIS DPPD, 2003 Halle J. M. Müller

Testanwendung Diagnostik von Interventionseffekten: Ein neues Effektmaß in Ergänzung zu Cohen‘s Maße der Effektstärke Effektmaß d von Cohen Standardisierung notwendig Keine Standardisierung notwendig Effektmaß dR Rasch Einheiten Dichte SPM Zeitpunkt 2 dRV Zeitpunkt 1 RIS dRA DPPD, 2003 Halle J. M. Müller

PP-Verteilung von 5 jährigen Kinder Neue Forschungsfelder Veränderung der Variabilität über die Lebensspanne Dichte PP-Verteilung von 5 jährigen Kinder 8 Jahre 7 Jahre 6 Jahre Wachstum True Rasch Scores Testwert eines Kindes DPPD, 2003 Halle J. M. Müller

Neue Forschungsfelder Persönlichkeitstests als Vektorraum Welche Tests umfassen mehr Variabilität? D I D II D III II, III I, II I, III DPPD, 2003 Halle J. M. Müller

Zusammenfassung Interpretation der wahren Raschskalierten Personenparametervarianzen Methodische Aspekte der Schätzung Nutzen in der Diagnostik Ausblick DPPD, 2003 Halle J. M. Müller

Thank you for your attention. More Information you can find under: www.psychological-tests.de Send me your data! DPPD, 2003 Halle J. M. Müller

A link to a previews presentation on the European Congress of Personality in Jena, 2002 DPPD, 2003 Halle J. M. Müller

Bekannte Ansätze zur Überprüfung der Inhaltsvalidität: Psychometrische Ansätze ... by correlations ... by structural equivalence ... by simple descriptives like Variances in rasch-units DPPD, 2003 Halle J. M. Müller

Differences between the approaches Testing of relationsships is a strategy that leads to weak statistical testing (H1-hypothesis) Testing of equivalence (deviation ) strong statistical testing (H0-hypothesis) DPPD, 2003 Halle J. M. Müller

Influences of BOTTOM-AND-CEILING effects on the TRV Bottom-effect Look for Skewness! Bottom-and-ceiling effect Look for Kurtosis! You find a skewness of magnitude 1 You see that this is caused by an cutting-point at 0.5 A cutting-point at 0.5 leads to an decreased variability of 70% DPPD, 2003 Halle J. M. Müller