Einführung in das Thema Testgütekriterien

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Leistungsmotivationstest L-M-T
Was ist Testtheorie?.
Einführung in die Psychologische Diagnostik Prof. Dr
Präsentation bei der PAL
Tests zur Messung von Arbeitszufriedenheit
Bewegungswissenschaft
Rating-Skalen: Definition
Evaluation – Grundlagen im Rahmen des Moduls zur Qualifizierung der SLK in Niedersachsen.
Theorie psychometrischer Tests, III
Forschungsstrategien Johannes Gutenberg Universität Mainz
Thema der Stunde I. Einführung in die Varianzanalyse:
Lautbildungstest für Vorschulkinder
Lautunterscheidungstest für Vorschulkinder (4-7 Jahre) LUT
Analyse und Gestaltung
Philosophische Fakultät 3: Empirische Humanwissenschaften Fachrichtung Erziehungswissenschaft Statistik I Anja Fey, M.A.
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Klassische Testtheorie
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Patrick Rössler Methoden der Datenerhebung und -auswertung Vorlesung BA Kommunikationswissenschaft (G21) 1.
Mehrfachregressionen
Hypothesen testen: Grundidee
Forschungsmethoden und Diagnostik
Pädagogische Beobachtung und diagnostische Gesprächsführung
Reliabilitätsanalysen
Grundlagen der klassischen Testtheorie
Latente Variablen – Kennwerte zur Beurteilung von Modellen
Test auf Normalverteilung
Sportwissenschaftliche Forschungsmethoden Altenberger / Lames SS 2003 Motorische Tests, Gütekriterien.
VL Diagnostische Kompetenz (Bewegungslehre 2) 3
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Diagnostische Statistik
VL Diagnostische Kompetenz (Bewegungslehre 2) 3. Korrelation und Gütekriterien.
Unser letztes Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Objektivität, Reliabilität, Validität
© Forschungsgruppe Metrik – Damm Deringer & Zinn GbR Streifzug durch die Testtheorie Winfried Zinn.
Theorien, Methoden, Modelle und Praxis
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Die Struktur von Untersuchungen
Phasen einer empirischen Untersuchung
Theoriereferat Indexes, Scales and Typologies The Logic of Sampling
Kapitel 10 Multikollinearität
Intelligenz-Struktur-Test 2000-R
Wahrscheinlichkeitsrechnung
Theorie psychometrischer Tests, IV
„Postmaterielle Werte“
Theorie psychometrischer Tests, II
Testgütekriterien Tamara Katschnig.
Methodische Grundlagen zu standardisierten Erhebungsinstrumenten
Veranstaltung 4.
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Gegenstand der Psychologie
Einführung / Formalitäten
Messen und Testen.
setzt Linearität des Zusammenhangs voraus
2.5.2 Multivariate Monte Carlo-Simulation
Die Generelle Interessen Skala (GIS)
Das dichotome Rasch-Modell
Reliabilität.
Vorbereitung der Auswertung: Codieren
Einstellungsforschung mittels Umfragen: Reliabilität der in der Umfrageforschung üblicherweise eingesetzten Instrumente Siegfried Schumann.
Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung
Testtheorie (Vorlesung 12: ) Wiederholung: Reliabilität
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Testtheorie (Vorlesung 14: ) Testtheorie allgemein:  Ziele und Inhalte der Testtheorie:  Beurteilung der Eigenschaften von Tests  Speziell: Güte.
Reliabilität.
 Präsentation transkript:

Einführung in das Thema Testgütekriterien Wutke WS 2008 - 2009

Hauptgütekriterien Die klassischen 3 Gütekriterien zur Beurteilung der Güte eines Tests sind Objektivität Reliabilität Validität

Nebengütekriterien Weitere Kriterien zur Beurteilung der Güte eines Tests sind: Umfang der Normierungen Testfairness Vergleichbarkeit mit anderen Tests (Ökonomische) Nützlichkeit des Tests Spezifische Nützlichkeit

Objektivität Ist ein Maß dafür, inwieweit die Ergebnisse einer Testung unabhängig von der Person des Testleiters und des Auswerters sind Objektivität gliedert sich in die 3 Aspekte Durchführungsobjektivität Auswerteobjektivität Interpretationsobjektivität

Durchführungsobjektivität Ist ein Maß dafür, inwieweit die Ergebnisse eines Tests von den Durchführungsbedingungen abhängig sind Durchführungsobjektivität kann erhöht werden durch maximale Standardisierung der Testsituation (Material, Situation, Testanweisung usw.) Durchführungsobjektivität kann erhöht werden durch minimale soziale Interaktionen zwischen Testperson und Testleiter

Auswerteobjektivität Ist ein Maß dafür, inwieweit ein Testergebnis von der Auswertung samt Auswertefehler des Auswerters abhängt Auswerteobjektivität kann erhöht werden durch gebundene Antworten, z.B. Kreuze auf Skalen Auswerteobjektivität kann erhöht werden durch Scanner-Auswertung der Testbögen Auswertobjektivität kann erhöht werden durch Computer-gestützte Auswertung

Interpretationsobjektivität Ist ein Maß dafür, inwieweit die Ergebnisse eines Tests von den interpretativen Schlüssen abhängt, die ein Testleiter vornimmt Interpretationsobjektivität wird erhöht, wenn aus den Punktwerten auf die individuelle Position auf einer Merkmalsdimension geschlossen wird Interpretationsobjektivität wird erhöht, wenn mittels Regressionsvorhersage auf Kriterien geschlossen wird Interpretationsobjektivität wird erniedrigt, wenn Intuition und Erfahrung des Testleiters einen Schluss begründen

Reliabilität Reliabilität ist ein Maß für die Genauigkeit, mit eine Test ein zu messendes Merkmal erfasst Reliabilität ist definiert als Quotient aus der Varianz der wahren Werte durch Varianz der beobachteten Werte Reliabilitätskoeffizienten liegen zwischen 0 und +1 (und entsprechen statistisch nicht einer Korrelation, sondern einem Determinationskoeffizienten!)

Realiabilitätsschätzungen Reliabilitäten werden nicht gemessen, sondern geschätzt! Reliabilitäten können auf mehrere Weise geschätzt werden: durch Testwiederholung (Retest-Reliabilität) durch Paralleltests durch Testhalbierung (Split-half-Methode) durch Konsistenzanalyse (z.B. Cronbach‘s α)

Testwiederholungsmethode Wenn man 1 Test zu 2 Zeitpunkten (Retest) vorgibt, kann man aus der Korrelation der Testwerte die Reliabilität schätzen – wenn die wahren Werte konstant sind! Bei der Festlegung des Zeitabstandes zwischen erster und zweiter Testung sollten Erinnerungs- und Übungseffekte vermieden werden Bei Persönlichkeitsfragebogen gibt die Retest-Reliabilität einen Hinweis auf die Stabilität des untersuchten Merkmals (Traits)

Paralleltestmethode In der klassischen Testtheorie der Königsweg zur Schätzung der Reliabilität: man konstruiert zwei parallele Tests, baut also aus einem Itempool zwei äquivalente Formen A und B (z.B. Mittelwert und Varianz gleich, Korrelation der Werte nahe 1, Korrelationen mit anderen Tests gleich) In der Praxis ist die Konstruktion paralleler Tests sehr aufwändig und wird nur noch selten gemacht Es lassen sich auch nicht in allen Bereichen äquivalente Testformen entwickeln (z.B. bei Kreativitätstests)

Testhalbierungsmethode Wenn man 1 Test durchführen lässt und ihn nachträglich in 2 äquivalente Hälften teilt, kann man diese Hälften korrelieren und mittels der Spearman-Brown-Formeln die Reliabilität des ganzen Tests schätzen (hochrechnen) Es gibt verschiedene Methoden zur Halbierung eines Tests: Odd-even-Methode – Trennung in gradzahlige und ungradzahlige Items Trennung in erste und zweite Testhälfte Aufteilung nach Zufall Bildung von Item-Paarlingen mit annähernd gleicher Trennschärfe und Schwierigkeit, Verteilung nach Zufall

Konsistenzanalysen Man kann einen Test in so viele Teile zerlegen wie er Items hat und die Korrelationen zwischen den Items ermitteln. Mit unterschiedlichen statistischen Methoden kann man diese Korrelationen „hochrechnen“ auf die Länge der ganzen Skala: mit den Kuder-Richardson-Formeln mit Cronbachs α mit varianzanalytischen Methoden Alle diese Verfahren schätzen die Reliabilität über die interne Konsistenz des Tests Weil Testhalbierungsmethode und Konsistenzanalyse auf einer einzigen Testvorgabe basieren, geht nur wenig Fehlervarianz ein: die Reliabilitätsschätzungen sind in der Regel höher als mit anderen Methoden Was will man mehr: mit weniger Aufwand bessere Ergebnisse!

Validität Die Validität oder Gültigkeit gibt an, inwieweit ein Test das intendierte Persönlichkeitsmerkmal tatsächlich erfasst Nach klassischer Testtheorie kann ein Test, der nicht reliabel ist, auch nicht valide sein Allerdings kann es sein, dass ein reliabler Test nicht valide ist – ein solcher Test erfasst etwas genau, nur nicht das, was man erfassen möchte Schätzungen der Reliabilität und Bestimmung der Validität sind 2 unabhängige Prozeduren!

Bestimmung der Validität Bezüglich der Validität können verschiedene Aspekte (Validitätsarten) erfasst werden: Inhaltliche Validität (face validity) Kriteriumsvalidität (mit prädiktiver und konkurrenter Validität) Konstruktvalidität

Inhaltliche Validität Wenn die Items des Tests eine repräsentative Stichprobe aus dem zu erfassenden Merkmalsbereich sind, kann die Validität mittels eines Repräsentationsschlusses ermittelt werden (Beispiel: Geographie-Fragen zur Erfassung des Merkmals Geographiewissen) Inhaltliche Validität lässt sich quantitativ abschätzen, wenn man Experten urteilen lässt, inwieweit die Items das Merkmal erfassen. Die Beurteilerübereinstimmung lässt sich numerisch berechnen

Kriteriumsvalidität Wenn ein (messbares) (Außen-)Kriterium vorliegt, kann man die Validität schätzen als Korrelation zwischen Testwerten und Kriteriumswerten (Beispiel: Schulnoten als Kriterium für Intelligenztests) Diese Korrelation kann zwischen -1 und +1 liegen Die Höhe der Korrelation hängt ab von der Reliabilität des Tests der Reliabilität des Kriteriums den inhaltlichen Gemeinsamkeiten von Test und Kriterium

Kriteriumsvalidität konkurrente Validität: Testwerte und Kriteriumswerte werden zum gleichen Zeitpunkt erhoben prädiktive Validität: zuerst werden die Testwerte erhoben, unter Umständen viel später die Kriteriumswerte Von besonderem Interesse ist die prädiktive Validität z.B. bei Schuleingangstests: wie gut sagen sie den späteren Schulerfolg voraus? bei Abiturnoten: wie gut sagen sie den späteren Studienerfolg voraus? bei Persönlichkeitsmerkmalen: wie gut sagen sie den Berufserfolg voraus?

Konstruktvalidität Validierung als kontinuierlicher Prozess Zeigen die Messungen des Messinstrumentes den theoretisch erwarteten Zusammenhang mit Messungen anderer Messinstrumente? Bezüglich des zu validierenden Konstrukts werden möglichst viele Hypothesen bezüglich Personen mit unterschiedlichen Testscores generiert und mit möglichst verschiedenen Methoden untersucht z.B. multitrait-multimethod analysis die verschiedenen Methoden zur Erfassung eines Konstrukt sollten hoch korrelieren (konvergente Validität) die mit einer Methode erfassten verschiedenen Konstrukte sollten niedrig korrelieren (diskriminante Validität)

Normierung Normierungen geben ein Bezugssystem, um individuelle Testwerte mit einer Bezugsgruppe vergleichen zu können Für welche Referenzgruppen (Alter, Geschlecht, Bildung, Berufe usw.) liegen Normen vor? Wie groß und wie repräsentativ sind die Normierungsstichproben? Wie aktuell sind die Normen? Welche Art der Normierung liegt vor? (Alters-)Äquivalentnormen Abweichungsnormen (meist bezogen auf eine Normalverteilung) Prozentrangnormen

Beispiele für Normmaßstäbe Skala M s Üblicher Bereich z-Werte 1 -3 bis +3 IQ-Werte 100 15 70 bis 130 Z-Werte 10 T-Werte 50 30-70 Centile 5 2 1 bis 9 Stanine [1 bis 9] Sten 5,5 [1 bis 10]

Testfairness Werden Personengruppen z.B. nach Alter, Geschlecht, Regionen, kultureller und sozioökonomischer Zugehörigkeit gleich (fair) behandelt, haben sie die gleichen Chancen auf ein entsprechendes Testergebnis? Quotenmodell: in der Stichprobe der ausgewählten Bewerber sind die Proportionen der Gruppen gleich wie in der Bewerberpopulation Regressionsmodell: die Regressionsgeraden vom Test auf das Kriterium sind in allen Gruppen gleich Modell konstanter Verhältnisse: der Quotient aus Zahl der durch die Testung ausgewählten Bewerber und der Zahl der im Kriterium Erfolgreichen (base rate) ist gleich

Testökonomie Was kostet die Anschaffung des Tests? (bei Computertests braucht man teure Basistools) Was kostet die Testdurchführung? Was kosten Auswertung und Interpretation? Steht der Aufwand an Zeit und Geld im richtigen Verhältnis zum möglichen Nutzen des Verfahrens? Werden die Informationen des Tests für die aktuelle diagnostische Entscheidung wirklich benötigt?

Vergleichbarkeit mit anderen Tests Spezifische Nützlichkeit Vergleichbarkeit: liegen Korrelationen mit Tests vor, die gleiche oder ähnliche Konstrukte erfassen? Spezifische Nützlichkeit: ist das Verfahren auch geeignet für die Beantwortung von speziellen Fragestellung, z.B. einer Auswahl für einen speziellen Beruf?