Benutzbarkeit von Testkennwerten

Benutzbarkeit von Testkennwerten
Jörg M. Müller Universität Tübingen ( „Our belief is that each scientific area that has use for measures of association should, after appropriate argument and trial, settle down on those measures most useful for its needs.“ (Goodmann & Kruskal, 1954) KENNWERTE ALS AUSWAHLKRITERIUM FÜR DIE TESTAUSWAHL Testkennwerte stellen - entsprechend den Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang, 1998) - eine wichtige Informationsgrundlage bei der Testauswahl dar. In der Praxis werden Kennwerte allerdings eher selten als Kriterium für die Testauswahl herangezogen (Schorr, 1995; Steck, 1997; ebenso im anglo-amerikanischen Sprachraum, vgl. Piotrowski & Keller, 1992). Selbst die eigens für die Testauswahl erstellte Testdatenbank PSYTKOM (Eberwein, 1998) bietet keine Möglichkeit der Suche nach der Ausprägung von Testkennwerten. Dies ist aus der Perspektive einer Qualitätssicherung ein unbefriedigender Zustand, weshalb im folgenden Hypothesen aufgestellt und als Aspekte der Benutzbarkeit dargestellt werden, welche die zurückhaltende Verwendung des umfangreichen ‚Angebots‘ mit erklären können. PROBLEME DES TESTANWENDERS Ein Testanwender ist i.d.R. an der Messgenauigkeit eines Tests interessiert. In Testmanualen wird dieser Aspekt u. a. über die folgenden Assoziationsmaße dargestellt: a) die Produktmomentkorrelation r (Bravis, 1846; Pearson, 1907), b) Yules Phi-Koeffizient (1912), Y und Q (Yule und Kendal, 1950), Cohens Kappa (1960) und Sokal & Michener (1958) Übereinstimmungskoeffizient SMC (simple matching coefficient; Y, Q, Kappa und SMC vgl. Bortz, Lienert & Boehnke, 1990). Die Wahl eines bestimmten Koeffizienten richtet sich entsprechend der jeweiligen Voraussetzungen (Skalenniveau, Messwertverteilung), wobei eine gewisse Freiheit der Auswahl verbleibt. Vor dem Hintergrund, dass der Testanwender u.a. die Höhe eines Assoziationskoeffizienten interpretieren muss, da Messgenauigkeit im direkten Zusammenhang zum Messaufwand steht (dem Hauptablehnungsgrund für Tests, Steck, 1997), werden folgende Fragen an die Vergleichbarkeit der Koeffizienten gestellt: i) zur numerischen Ausprägung, ii) zur Skalierung und iii) zur Interpretation. SIMULATIONSSTUDIE Um die Vergleichbarkeit darzustellen, wurden anhand von SAS-Makros 20 Stufen an unterschiedlichen Zusammenhängen auf einer Stichprobengröße von N=10000 simuliert – jeweils als Normalverteilung (bzw. gleichen Randsummen; Bedingung NV; vgl. Abb. 1a-e) und als rechtsteile Verteilung (bzw. mit ungleichen Randsummen; Bedingung UG; vgl. Abb. 2a-e). Die metrischen Daten wurden anschließend dichotomisiert (Tab. 1a-e; Tab. 2a-e). Abbildung 1a-e: Bivariate Verteilung zweier normalverteilter Verteilungen Tabelle 1a-e: 2 x 2 Tabelle mit gleichen Randsummen (NV) Abbildung 2a-e: Bivariate Verteilung zweier rechtssteiler Verteilungen (UG) Tabelle 2a-e: 2 x 2 Tabelle mit ungleichen Randsummen (UG) Ad i, ii) NUMERISCHE VERGLEICHBARKEIT - SKALIERUNG ‚In essence, this is a scaling problem‘ (Conger & Ward, 1984, S.307). Auf dieser Basis wurden die oben aufgeführten Koeffizienten berechnet und gegeneinander in Abb. 3a-d (NV) und Abb. 4a-d (UG) abgetragen. Abbildung 3a-d: Zusammenhang von Assoziationskoeffizienten (NV) Abbildung 4a-d: Zusammenhang von Assoziationskoeffizienten (UG; Auswahl) Aus den Abbildungen 3a-d und 4a-d ist ersichtlich, dass insbesondere unter der Bedingung UG trotz identischer Wertebereiche keine durchgehende numerische Äquivalenz vorliegt. Die Skalierungsproblematik zeigt sich u.a. auch darin, dass eine lineare Veränderung der Zellfrequenzen (‚Unit-in-Change‘) z. T. keine lineare Veränderung des Koeffizienten (Abb. 5a-c) zur Folge hat. Abbildung 5a-c Die Skalierungsproblematik setzt sich auf der Ebene des Skalenniveaus der Koeffizienten fort. Der Korrelationskoeffizient muss beispielsweise für ein Intervallskalenniveau Fisher-Z transformiert werden, während dies für den Phi-Koeffizient nicht gilt. Ad iii) INTERPRETATION Einwände gegen die Vergleichbarkeit der inhaltlichen Aussage für eine Reihe von Koeffizienten sind bekannt (‚operational meaning‘; Goodmann und Kruskal, 1954, S.733; Kubinger, 1990). Als (Gegen-)Argument für eine gleichsinnige Interpretation wird i.d.R. auf das Interpretationskonzept des ‚proportional-reduction-in-error‘(Costner, 1965) verwiesen. Allerdings liegen jeweils sehr unterschiedliche Auffassungen über den Begriff ‚Fehler‘ vor: einerseits Übereinstimmungsfehler und andererseits Distanzen. Dieser Unterschied wird evtl. durch die Quotientenbildung (Odds-ratio bzw. Varianzquotient; Chambers, 1982) verdeckt, da ein (anscheinend) ‚dimensionsloser‘ Koeffizient resultiert. Selbst innerhalb einer Variante müssten in der Praxis weitere relevante Fehlerarten unterschieden werden (Sensitivität bzw. Spezifität). Diese spezifischen Messfehleraspekte bzw. Fehlerdefinitionen stellen jedoch bislang keine gängigen Testauswahlkriterien dar. KRITERIEN DER BENUTZBARKEIT VON TESTKENNWERTEN Die aufgeführten Schwierigkeiten bei der Verwendung von Assoziationsmaßen veranschaulichen nur eine Auswahl an Aspekten, die unter dem Begriff der Benutzbarkeit (vgl. Benutzerfreundlichkeit, Zysno, 1997; Usability, Mayhew, 1999) eines Testkennwertes zusammengefasst werden. Kasten 1 enthält weitere z.T. allgemeine Anforderungen an Kennwerte für die Testauswahl. Kasten 1: Benutzbarkeitskriterien (modifiziert nach Müller, 2001) Für den Testanwender ist u. a. von Bedeutung, welche Definition einem Kennwerte zugrunde liegt (vgl. Kasten1; Pkt. 1). Für den Phi-Koeffizienten betrifft dies z.B. das Vorzeichen (Yule, 1912 oder Berechnung über Chi2). Aus der Sicht des Testanwender sind auch praktische Aspekte der Verfügbarkeit von Belang um eine Kennwerte als Auswahlkriterium heranziehen zu können. DISKUSSION Am Beispiel der Messgenauigkeit und deren Darstellung über Assoziationskoeffizienten wurden Aspekte der Benutzbarkeit vorgestellt. Ihre Bedeutung besteht lediglich für den Kontext der Testauswahl, da z. B. für die Hypothesenprüfung weniger die Höhe eines Koeffizienten als vielmehr das Signifikanzniveau interessiert. Um die angesprochenen Skalierungsproblematik zu überwinden, wurden leichter interpretierbare Kennwerte vorgeschlagen (Konzept der ‚Anzahl unterscheidbarer Messergebnisse‘ sowie das Konzept der ‚Wahrscheinlichkeit unterscheidbarer Messergebnisse‘, Müller, 2000, 2001). Auch diese Maße können nur einen Teil der Anforderungen einlösen. Um eine sprachliche Unterscheidungsmöglichkeit der oben angesprochenen Fehlerterme zu ermöglichen sollte evtl. dem Begriff der ‚Messgenauigkeit‘ ein vergleichbares Konzept im Sinne einer ‚Messsicherheit‘ zu Seite gestellt werden. Diese könnten wiederum zusammen auf ein übergeordnetes Konzept der Informationsmenge (Müller, 1997, 2000) führen. Literatur Bortz, J., Lienert, G. & Boehnke, K. (1990): Verteilungsfreie Methoden der Biostatistik. Berlin: Springer. Chambers, R. G. (1982): Correlation coefficients from 2 x 2 tables and from biserial data. British Journal of Mathematical and Statistical Psychology, 35, Conger, A. J. & Ward, D. G. (1984): Agreement among 2 x 2 Agreement indices. Educational and Psychological Measurment, 44, Costner, H. L. (1965): Criteria for measurement if association. American Sociological review, 30, Eberwein, M. (1998): PSYTKOM – Möglichkeiten der Suche nach Testverfahren via Datenbank. Zeitschrift für Differentielle und Diagnostische Psychologie, 19, Goodmann, L. A. & Kruskal, W. H. (1954): Measures of association for cross classifications. Journal of the American statistical association, 49, Häcker, W., Leutner, D. & Amelang, M. (1998): Standards für pädagogisches und psychologisches Tests. Diagnostica, Supplementum 1998/1. Kubinger, K.D. (1990): Übersicht und Interpretation der verschiedenen Assoziationsmaße. Psychologische Beiträge, 32, Mahew, D. J. (1999): The usability engineering lifecycle. San Francisco: Morgan Kaufmann Publishers. Müller, J.M. (1997): Erörterungen zur Informativität und dessen Implikationen für die Konstruktion von psychologischen Meßinstrumenten. 4. Arbeitstagung der Differentielle Psychologie, Persönlichkeitspsychologie und Psychologische Diagnostik in Bamberg. Müller, J. M. (2000). Neue Leistungs- und Effizienzkennwerte für psychologische Testverfahren: Breite, Differenziertheit, Personenunterscheidungsvermögen, Effizienz und Ausschöpfungsquotient. Poster auf dem 42. Kongress der DGPS in Jena vom 24. bis 28. September, 2000. Müller, J. M. (2001): Kennwerte psychologischer Testverfahren. Dissertation, Bremen. Piotrowski, C. & Keller, J. W. (1992): Psychological testing in applied settings: A literature review from Journal of Training & Practice in Professional Psychology, 6, Schorr, A. (1995): Stand und Perspektiven diagnostischer Verfahren in der Praxis. Ergebnisse einer repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-20. Steck, P. (1997): Aus der Arbeit des Testkuratoriums. Psychologische Testverfahren in der Praxis. Diagnostica, 43, Zysno, P.V. (1997): Die Modifikation des Phi-Koeffizienten zur Aufhebung seiner Randverteilungsabhängigkeit. Methods of Psychological Research Online, 2, No1., ; Korrelation/Reliabilität Y Q Standardmessfehler f(Zelle a) f(Zelle a) 1. Eindeutigkeit 2. Kriterien der Parameterschätzung (Erwartungstreue, Effizienz, Suffizienz, Konsistenz) 3. Eindeutige operationale Aussage (Fehlerspezifisch) 4. Lineare Beziehung zur Unit-in-Change 5. Intervallskalenniveau 6. ‚Sprechende‘ Maßeinheit 7. Hohe Anwendungsbreite 8. Breite Verfügbarkeit (technische Berechnung in Softwareprogrammen) 10. Unmittelbarer Bezug zum Messinhalt 11. Vertrautheit 12. Erlernbarkeit ‚ ‚ ‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total Percent ‚ ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total Percent ‚ ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ ƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total Y/ Kappa/ Phi Percent ‚ ‚ ‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total Percent ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ 1 ‚ ‚ ‚ ‚ ‚ ‚ Total 0 ‚ ‚ ‚ ‚ ‚ ‚ ƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ ‚ ‚ ‚ ‚ ‚ ƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total Y/ Kappa/ Phi Y/ Kappa/ Phi Y/Kappa/Phi SMC Korrelation Korrelation Y/ Kappa/ Phi Q Q Phi Phi SMC Korrelation SMC Kappa Kappa

Benutzbarkeit von Testkennwerten

Ähnliche Präsentationen

Präsentation zum Thema: "Benutzbarkeit von Testkennwerten"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Benutzbarkeit von Testkennwerten

Ähnliche Präsentationen

Präsentation zum Thema: "Benutzbarkeit von Testkennwerten"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback