Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Benutzbarkeit von Testkennwerte

Ähnliche Präsentationen


Präsentation zum Thema: "Benutzbarkeit von Testkennwerte"—  Präsentation transkript:

1 Benutzbarkeit von Testkennwerte
Jörg M. Müller – Universität Tübingen

2 Gliederung Motivation: Praxis der Testauswahl
Konzepte und Maße der Messgenauigkeit Skalierung von Maßen der Messgenauigkeit 16 Kriterien der Benutzbarkeit Ausblick

3 1. Motivation: Praxis der Testauswahl
Testbeschreibung über Kennwerte ist notwendig! Kennwerte werden selten berücksichtigt. Welche Gründe liegen hinter der Testauswahl: Werden alle wichtigen Testeigenschaften anhand von Kennwerten repräsentiert? Welche Gründe spielen neben den psychometrischen Eigenschaften eine Rolle? Werden die Informationen angemessen kommuniziert?

4 2. Konzeptuelle Varianten zur Messgenauigkeit
Reliabilität Informations-funktion Messfehler M e s s g e n a u i g k e i t Überein-stimmung Informations-theorie Kovarianz-struktur

5 2. Zusammenhangsmaße als Indikator der Messgenauigkeit
Inhalt M e s s g e n a u i g k e i t Varianzquotient Reliabilität d c A2 b a A1 B2 B1 Übereinstimmungs-quotient Kategoriale Begriffe Konzept Index/TT KTT Schätzer Korrelation t1,t2 Formel Randbedingung Metrische Begriffe

6 3. Skalierung von Kennwerten
Fragestellung: Sind die Ausprägungen verschiedener Maße der Messgenauigkeit vergleichbar? ? Yules Y, Phi, Kappa Pearson-Korrelation Keine Transformation für Intervallskalierung? Fisher-Z Transformation für Intervallskalierung

7 3. Simulationsstudie anhand von SAS-Markos
Bivariat Normalverteilt-Gleiche Randsummen d c A2 b a A1 B2 B1 Dichotomisiert Bivariat Rechtsteil-Ungleiche Randsummen Zusammenhangsmaß Y/ Kappa/ Phi Korrelation Q SMC Y/Kappa/Phi Zusammenhangsmaß Q Korrelation Phi SMC Kappa

8 3. Skalierung von Kennwerten
Sind die Ausprägungen verschiedener Maße der Messgenauigkeit vergleichbar? Pearson-Korrelation Yules Y, Phi, Kappa Fisher-Z Transformation für Intervallskalierung ? Keine Transformation für Intervallskalierung? ‚In essence, this is a scaling problem‘ (Conger & Ward, 1984, S.307).

9 3. Unterschiede zwischen Kennwerten
Numerische Ausprägung, Skalierung, Wertebereich ‚Operational-Meaning‘ (Goodmann & Kruskal, 1954) Interpretationskonzept ‚Proportional-reduction-in-error‘ (Costner, 1965) mit unterschiedlichen Fehlerkonzepten (Übereinstimmung vs. Distanzen). Abhängigkeit von Randbedingungen (Messwertverteilung) Etc.

10 4. Kriterien der Benutzbarkeit
Grundlagen Eindeutigkeit Hohe Anwendungsbreite Relevante Abhängigkeit Unabhängigkeit von irrelevanten Einflüssen Kriterien der Parameterschätzung Positive und ganze Zahlen Linearität zur Unit-in-Change Intervallskalenniveau Signifikante Einheiten Relevanz Unmittelbarer Bezug Angabe der notwendigen Höhe Maßeinheit Erlernbarkeit Vertrautheit Eindeutige operationale Aussage (Fehlerspezifisch) Skalierung Interpretierbarkeit

11 5. Ausblick I: Alternative Skalierung: Differenziertheit Konzept: Anzahl unterscheidbarer Messergebnisse Gesamter Messwertrange R Messwertverteilung x1 x2 Kritische Differenz k Formel R = Range der Testscores k = kritische Differenz Differenziertheit zunächst als schlichte Transformation des Reliabilitätskoeffizienten, der nun einige positiven Eigenschaften aufweist. Man muss sich allerdings aus der Gattung der Koeffizienten auf eine einigen, auf die interne Konsistenz. (Jäger hatte noch die Stabilität 1974 vorgeschlagen) Die Idee hatten schon Lienert 1957, Lehr & Kinzel 1974, Wright & Masters 1986 und Müller, 1998. Als Konzept der ‚Anzahl unterscheidbarer Testergebnisse‘ ist der Ansatz unabhängig von der Metrik. Auch innerhalb der IRT definierbar.

12 5. Ausblick II: Weiterführende Fragen
1. Konzeptuell Messgenauigkeit und Messsicherheit? Anzahl Messergebnisse und die Unterscheidungssicherheit 2. Theoretisch Usability von Kennwerten und die Mentale Repräsentation von Zahlen bzw. kognitiver Modelle der Zahleninterpretation 3. Empirisch Welcher Bedarf nach Kennwerten besteht in der Praxis? Gestaltungrichtlinien 1. Maßeinheit: nicht transformierbar. 2. Später ein Beispiel 3. Schwer zu quantifizieren: Vorwissen nötig? 4. Klar definitiert 5. Ungewöhnlich: keine angabe des Standardfehler (Normierunggröße). Rechts die Rahmenbedingungen zweierTesttheorie. MAXIMALFORDERUNGEN! Auch meine Vorschläge werden ihnen nicht immer in allen Punkten gerecht.

13 Vielen Dank für Ihre Aufmerksamkeit
Diskussion Vielen Dank für Ihre Aufmerksamkeit Gestaltungrichtlinien 1. Maßeinheit: nicht transformierbar. 2. Später ein Beispiel 3. Schwer zu quantifizieren: Vorwissen nötig? 4. Klar definitiert 5. Ungewöhnlich: keine angabe des Standardfehler (Normierunggröße). Rechts die Rahmenbedingungen zweierTesttheorie. MAXIMALFORDERUNGEN! Auch meine Vorschläge werden ihnen nicht immer in allen Punkten gerecht.

14 1. Eindeutigkeit/Vergleichbarkeit
Erläuterung: ‚Eindeutigkeit‘ verweist auf die Notwendigkeit einer algorithmischen Definition. Beispiel: Phi-Koeffizient Ursache: Randbedingungen Null-Felder, Kontinuitätskorrektur, zeitlicher Abstand der Messwiederholung, etc.

15 2. Hohe Anwendungsbreite
Erläuterung: ‚Hohe Anwendungsbreite‘ verweist auf die Voraussetzungen (Skalenniveau, Verteilung, etc.) eines Kennwertes. Dies kann dazu führen, dass ein Kennwert nicht für alle auf dem Markt befindlichen Tests ermittelt werden kann. Hierdurch wird wiederum die Vergleichbarkeit von Tests eingeschränkt.

16 3. Relevante Abhängigkeit
Erläuterung: ‚Relevante Abhängigkeit‘ verweist auf Testaspekte, die in einem sinnvollen Zusammenhang mit dem intendierten Testaspekt stehen. Beispiel: Zusammenhang der Messgenauigkeit mit der Testlänge.

17 4. Unabhängigkeit von irrelevanten Einflüssen
Erläuterung: ‚Irrelevante Einflüsse‘ verweist auf Faktoren, die nicht in einem sinnvollen Zusammenhang zum intendierten Testaspekt stehen. Beispiel: Die Beeinflussung der Reliabilität durch die wahre Varianz.

18 5. Kriterien der Parameterschätzung
Erläuterung: ‚Kriterien der Parameterschätzung‘ beziehen sich auf die von Fisher aufgestellten Kriterien der Konsistenz, Suffizienz, Effizienz und Erwartungstreue.

19 6. Positive und ganze Zahlen
Erläuterung: ‚Positive und ganze Zahlen‘ beziehen sich auf den Wertebereich des Kennwertes. Es wird dabei unterstellt, dass Dezimalbrüche leichter als ganze Zahlen fehlinterpretiert werden. In gleichem Sinne sind positiv Werte negativen vorzuziehen. Vor dieser Maßgabe ist der Wertebereich der Korrelation nicht optimal gestaltet (vgl. hierzu die Differenziertheit).

20 7. Linearität zur Unit-in-Change
Erläuterung: ‚Linearität zur Unit-in-Change‘ Im Falle der Messgenauigkeit betrifft dies die Beziehung der Reliabilität zum Messfehler. Im Falle der Übereinstimmung betrifft dies die Beziehung von Yules Y zur Veränderung der Zellhäufigkeit a bzw. d. Korrelation/Reliabilität Yules Y Standardmessfehler Freq (Zelle a)

21 8. Intervallskalenniveau
Erläuterung: ‚Intervallskalenniveau‘ verweist darauf, dass Differenzen zwischen Koeffizienten über den gesamten Wertebereich vergleichbar sind. Beispiel: Die Korrelation muss Fisher-Z transformiert werden.

22 9. Signifikante Einheiten
Erläuterung: ‚Signifikante Einheit‘ verweist darauf, dass Unterschiede zwischen zwei Tests nicht aufgrund von Zufallsschwankungen erklärt werden können. Schlussfolgerung: Aus dieser Überlegung lässt sich umgekehrt eine Mindestumfang einer Normierungsstichprobe fordern. Hierdurch würde sichergestellt, dass Kennwerte ab eines praktisch bedeutsamen Unterschiedes auch statistisch signifikant verschieden sind.

23 10. Relevanz Erläuterung: ‚Relevanz‘ verweist darauf, dass mit der Zunahme an Testaspekten eine Auswahl zwischen den Testkennwerten getroffen werden muss. Nicht alle Testaspekte sind gleich relevant bzw. bedeutsam aus der Sicht der Praxis.

24 11. Unmittelbarer Bezug Erläuterung: ‚Unmittelbare Bezug‘ verweist darauf, dass ein Indikator eines Messaspekte nicht mittelbar bzgl. des Inhaltes verknüpft ist. Beispiel: Die Reliabilität steht nur mittelbar in Beziehung zum Messfehler.

25 12. Angabe der notwendigen Höhe
Erläuterung: ‚Angabe der notwendigen Höhe‘ verweist darauf, dass ein Praktiker die zur Beantwortung einer diagnostischen Fragestellung notwendigen Testeigenschaft benennen kann. Beispiel: ein Testanwender sollte im Falle eines Screenings eine geringen Messgenauigkeit (D=2) einfordern. Hintergrund: In der Regel kann kein Aspekt maximiert werden (z.B. Messgenauigkeit), ohne einen anderen relevanten Aspekt (z.B. Aufwand der Testung) negativ zu beeinflussen. Entsprechend wiederspricht dieser Aspekt einem ‚je höher-desto besser‘.

26 13. Maßeinheit Erläuterung: ‚Maßeinheit‘ verweist darauf, dass die Höhe eines Kennwertes nur dann interpretiert werden kann, wenn die Maßeinheit bekannt ist. Beispiel: kein sinnvolle Maßeinheit Varianz der Messwerte im Falle der Reliabilität (vgl. hierzu die Differenziertheit mit ihrer ‚kritischen Differenz‘ als sinnvolle Maßeinheit).

27 14. Erlernbarkeit Erläuterung: ‚Erlernbarkeit‘ verweist auf Voraussetzung beim Testanwender, damit dieser den Kennwert angemessen interpretieren kann. Beispiel: Bezüglich der Messgenauigkeit scheinen Kennwerte aus der KTT denen der IRT aus Sicht des Anwenders überlegen zu sein.

28 15. Vertrautheit Erläuterung: ‚Vertrautheit‘ verweist auf die Abwägung der Vorteile neuer Maße gegenüber der Bekanntheit etablierter Maße. Hintergrund: Der Aufwand zur Ergänzung (vgl. Relevanz) bzw. Ersetzung bekannter Maße muss in einem vertretbaren Verhältnis stehen.

29 16. Eindeutige operationale Aussage
16. Eindeutige operationale Aussage (Fehlerspezifisch) - Entscheidungsfehler Erläuterung: Der Aspekte der ‚eindeutigen operationale Aussage‘ (operational meaning; Goodmann & Kruskal, 1954) verweist im Kontext der Messgenauigkeit darauf, dass in der Diagnostik unterschiedliche Arten von Fehlern bedeutsam sein können (vgl. Nayman-Pearson-Kriterium). Sensitivität (die Sicherheit der Diagnose einer vorhandenen Störung bzw. im metrischen Kontext der Überschätzung einer Fähigkeit) und die Spezifität (die Sicherheit der ‚Gesund-Diagnose‘ bei tatsächlich fehlender Störung bzw. im metrische Kontext der Unterschätzung einer Fähigkeit).

30 2. Kennwert: Personenunterscheidungsvermögen (PUV)
Vollständiger Paarvergleich Formel Ein Beispiel, um mit der Hand nachzuzählen um den Einfluss eines neuen Faktors: die Messwertverteilung darzustellen. für die die sich an der Kritische Differenz stören: Sie kann auch bei nicht NV verteilten Messwerten in IRT Modellen korrekt berechnet werden. Eine Gleichverteilung zeigt eine 80 % Unterscheidungs-wahrscheinlichkeit Eine Normalverteilung zeigt eine 60 % Unterscheidungs- wahrscheinlichkeit

31 PUV: Praktisches Beispiel
Subskala ‚Resignation‘ des Stressverarbeitungsfragebogens für Kinder und Jugendliche (SVF-KJ; Hampel, Petermann & Dickow, 1999; N=1123) Subskala ‚Unsicherheit‘ der Symptomcheckliste SCL-90-R (Derogatis, 1977; Franke, 1995; N=875) In diesem Fall sind die Messwerte (wie bei sehr vielen Tests!!!) nicht normalverteilt - und dennoch anhand der KTT konstruiert. In der Fortsetzung der Logik wird die kritische Differenz berechnet. Der PUV berücksichtigt spezifische Faktoren wie gefordert. Er kommt zu etwas anderen Aussagen als der Reliabilitätskoeffizient. r = 0.81 r = 0.81 PUV = 41.6 % PUV = 30,6 %


Herunterladen ppt "Benutzbarkeit von Testkennwerte"

Ähnliche Präsentationen


Google-Anzeigen