Benutzbarkeit von Testkennwerten

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Normalverteilte Zufallsvariablen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
EF: Standards + H2O red = H2O.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Univariate Statistik M. Kresken.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Zerlegung von Quadraten und ????
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
Zusatzfolien zu B-Bäumen
AGOF facts & figures: Branchenpotenziale im Internet Q4 2013: Entertainment Basis: internet facts / mobile facts 2013-II.
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Benutzbarkeit von Testkennwerte
Dokumentation der Umfrage
Kinder- und Jugenddorf Klinge Qualitätsentwicklung Januar 2005 Auswertung der Fragebögen für die Fachkräfte in den Jugendämtern.
Wir üben die Malsätzchen
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Syntaxanalyse Bottom-Up und LR(0)
Addieren und Subtrahieren von Dezimalzahlen
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Symmetrische Blockchiffren DES – der Data Encryption Standard
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
AGOF facts & figures: Branchenpotenziale im Internet Q1 2014: Mode & Schuhe Basis: internet facts / mobile facts 2013-III.
Parkplatz-Orga Diese Version ist vom finale Version!
Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.
Kamin- und Kachelöfen in Oberösterreich
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Euro Bundeswertpapiere
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Neuropsychologische Diagnostik beim NPH: Ab wann kann nach einer Entlastungspunktion von diagnoserelevanter Verbesserung der Leistung gesprochen werden?
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Bürgermeister Absolute Stimmen Gesamt. Bürgermeister Prozentuale Aufteilung Gesamt.
Überleitung zum TV-H Hochschule
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Qualitative Interviews Sabina Misoch ISBN: © 2015 Walter de Gruyter GmbH, Berlin/Mu ̈ nchen/Boston Abbildungsübersicht / List of Figures.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

Benutzbarkeit von Testkennwerten Jörg M. Müller Universität Tübingen (http://www:joergmmueller.de/default.htm) „Our belief is that each scientific area that has use for measures of association should, after appropriate argument and trial, settle down on those measures most useful for its needs.“ (Goodmann & Kruskal, 1954) KENNWERTE ALS AUSWAHLKRITERIUM FÜR DIE TESTAUSWAHL Testkennwerte stellen - entsprechend den Standards für pädagogisches und psychologisches Testen (Häcker, Leutner & Amelang, 1998) - eine wichtige Informationsgrundlage bei der Testauswahl dar. In der Praxis werden Kennwerte allerdings eher selten als Kriterium für die Testauswahl herangezogen (Schorr, 1995; Steck, 1997; ebenso im anglo-amerikanischen Sprachraum, vgl. Piotrowski & Keller, 1992). Selbst die eigens für die Testauswahl erstellte Testdatenbank PSYTKOM (Eberwein, 1998) bietet keine Möglichkeit der Suche nach der Ausprägung von Testkennwerten. Dies ist aus der Perspektive einer Qualitätssicherung ein unbefriedigender Zustand, weshalb im folgenden Hypothesen aufgestellt und als Aspekte der Benutzbarkeit dargestellt werden, welche die zurückhaltende Verwendung des umfangreichen ‚Angebots‘ mit erklären können. PROBLEME DES TESTANWENDERS Ein Testanwender ist i.d.R. an der Messgenauigkeit eines Tests interessiert. In Testmanualen wird dieser Aspekt u. a. über die folgenden Assoziationsmaße dargestellt: a) die Produktmomentkorrelation r (Bravis, 1846; Pearson, 1907), b) Yules Phi-Koeffizient (1912), Y und Q (Yule und Kendal, 1950), Cohens Kappa (1960) und Sokal & Michener (1958) Übereinstimmungskoeffizient SMC (simple matching coefficient; Y, Q, Kappa und SMC vgl. Bortz, Lienert & Boehnke, 1990). Die Wahl eines bestimmten Koeffizienten richtet sich entsprechend der jeweiligen Voraussetzungen (Skalenniveau, Messwertverteilung), wobei eine gewisse Freiheit der Auswahl verbleibt. Vor dem Hintergrund, dass der Testanwender u.a. die Höhe eines Assoziationskoeffizienten interpretieren muss, da Messgenauigkeit im direkten Zusammenhang zum Messaufwand steht (dem Hauptablehnungsgrund für Tests, Steck, 1997), werden folgende Fragen an die Vergleichbarkeit der Koeffizienten gestellt: i) zur numerischen Ausprägung, ii) zur Skalierung und iii) zur Interpretation. SIMULATIONSSTUDIE Um die Vergleichbarkeit darzustellen, wurden anhand von SAS-Makros 20 Stufen an unterschiedlichen Zusammenhängen auf einer Stichprobengröße von N=10000 simuliert – jeweils als Normalverteilung (bzw. gleichen Randsummen; Bedingung NV; vgl. Abb. 1a-e) und als rechtsteile Verteilung (bzw. mit ungleichen Randsummen; Bedingung UG; vgl. Abb. 2a-e). Die metrischen Daten wurden anschließend dichotomisiert (Tab. 1a-e; Tab. 2a-e). Abbildung 1a-e: Bivariate Verteilung zweier normalverteilter Verteilungen Tabelle 1a-e: 2 x 2 Tabelle mit gleichen Randsummen (NV) Abbildung 2a-e: Bivariate Verteilung zweier rechtssteiler Verteilungen (UG) Tabelle 2a-e: 2 x 2 Tabelle mit ungleichen Randsummen (UG) Ad i, ii) NUMERISCHE VERGLEICHBARKEIT - SKALIERUNG ‚In essence, this is a scaling problem‘ (Conger & Ward, 1984, S.307). Auf dieser Basis wurden die oben aufgeführten Koeffizienten berechnet und gegeneinander in Abb. 3a-d (NV) und Abb. 4a-d (UG) abgetragen. Abbildung 3a-d: Zusammenhang von Assoziationskoeffizienten (NV) Abbildung 4a-d: Zusammenhang von Assoziationskoeffizienten (UG; Auswahl) Aus den Abbildungen 3a-d und 4a-d ist ersichtlich, dass insbesondere unter der Bedingung UG trotz identischer Wertebereiche keine durchgehende numerische Äquivalenz vorliegt. Die Skalierungsproblematik zeigt sich u.a. auch darin, dass eine lineare Veränderung der Zellfrequenzen (‚Unit-in-Change‘) z. T. keine lineare Veränderung des Koeffizienten (Abb. 5a-c) zur Folge hat. Abbildung 5a-c Die Skalierungsproblematik setzt sich auf der Ebene des Skalenniveaus der Koeffizienten fort. Der Korrelationskoeffizient muss beispielsweise für ein Intervallskalenniveau Fisher-Z transformiert werden, während dies für den Phi-Koeffizient nicht gilt. Ad iii) INTERPRETATION Einwände gegen die Vergleichbarkeit der inhaltlichen Aussage für eine Reihe von Koeffizienten sind bekannt (‚operational meaning‘; Goodmann und Kruskal, 1954, S.733; Kubinger, 1990). Als (Gegen-)Argument für eine gleichsinnige Interpretation wird i.d.R. auf das Interpretationskonzept des ‚proportional-reduction-in-error‘(Costner, 1965) verwiesen. Allerdings liegen jeweils sehr unterschiedliche Auffassungen über den Begriff ‚Fehler‘ vor: einerseits Übereinstimmungsfehler und andererseits Distanzen. Dieser Unterschied wird evtl. durch die Quotientenbildung (Odds-ratio bzw. Varianzquotient; Chambers, 1982) verdeckt, da ein (anscheinend) ‚dimensionsloser‘ Koeffizient resultiert. Selbst innerhalb einer Variante müssten in der Praxis weitere relevante Fehlerarten unterschieden werden (Sensitivität bzw. Spezifität). Diese spezifischen Messfehleraspekte bzw. Fehlerdefinitionen stellen jedoch bislang keine gängigen Testauswahlkriterien dar. KRITERIEN DER BENUTZBARKEIT VON TESTKENNWERTEN Die aufgeführten Schwierigkeiten bei der Verwendung von Assoziationsmaßen veranschaulichen nur eine Auswahl an Aspekten, die unter dem Begriff der Benutzbarkeit (vgl. Benutzerfreundlichkeit, Zysno, 1997; Usability, Mayhew, 1999) eines Testkennwertes zusammengefasst werden. Kasten 1 enthält weitere z.T. allgemeine Anforderungen an Kennwerte für die Testauswahl. Kasten 1: Benutzbarkeitskriterien (modifiziert nach Müller, 2001) Für den Testanwender ist u. a. von Bedeutung, welche Definition einem Kennwerte zugrunde liegt (vgl. Kasten1; Pkt. 1). Für den Phi-Koeffizienten betrifft dies z.B. das Vorzeichen (Yule, 1912 oder Berechnung über Chi2). Aus der Sicht des Testanwender sind auch praktische Aspekte der Verfügbarkeit von Belang um eine Kennwerte als Auswahlkriterium heranziehen zu können. DISKUSSION Am Beispiel der Messgenauigkeit und deren Darstellung über Assoziationskoeffizienten wurden Aspekte der Benutzbarkeit vorgestellt. Ihre Bedeutung besteht lediglich für den Kontext der Testauswahl, da z. B. für die Hypothesenprüfung weniger die Höhe eines Koeffizienten als vielmehr das Signifikanzniveau interessiert. Um die angesprochenen Skalierungsproblematik zu überwinden, wurden leichter interpretierbare Kennwerte vorgeschlagen (Konzept der ‚Anzahl unterscheidbarer Messergebnisse‘ sowie das Konzept der ‚Wahrscheinlichkeit unterscheidbarer Messergebnisse‘, Müller, 2000, 2001). Auch diese Maße können nur einen Teil der Anforderungen einlösen. Um eine sprachliche Unterscheidungsmöglichkeit der oben angesprochenen Fehlerterme zu ermöglichen sollte evtl. dem Begriff der ‚Messgenauigkeit‘ ein vergleichbares Konzept im Sinne einer ‚Messsicherheit‘ zu Seite gestellt werden. Diese könnten wiederum zusammen auf ein übergeordnetes Konzept der Informationsmenge (Müller, 1997, 2000) führen. Literatur Bortz, J., Lienert, G. & Boehnke, K. (1990): Verteilungsfreie Methoden der Biostatistik. Berlin: Springer. Chambers, R. G. (1982): Correlation coefficients from 2 x 2 tables and from biserial data. British Journal of Mathematical and Statistical Psychology, 35, 216-227. Conger, A. J. & Ward, D. G. (1984): Agreement among 2 x 2 Agreement indices. Educational and Psychological Measurment, 44, 301-314. Costner, H. L. (1965): Criteria for measurement if association. American Sociological review, 30, 341-353. Eberwein, M. (1998): PSYTKOM – Möglichkeiten der Suche nach Testverfahren via Datenbank. Zeitschrift für Differentielle und Diagnostische Psychologie, 19, 258-267. Goodmann, L. A. & Kruskal, W. H. (1954): Measures of association for cross classifications. Journal of the American statistical association, 49, 732-764. Häcker, W., Leutner, D. & Amelang, M. (1998): Standards für pädagogisches und psychologisches Tests. Diagnostica, Supplementum 1998/1. Kubinger, K.D. (1990): Übersicht und Interpretation der verschiedenen Assoziationsmaße. Psychologische Beiträge, 32, 290-346. Mahew, D. J. (1999): The usability engineering lifecycle. San Francisco: Morgan Kaufmann Publishers. Müller, J.M. (1997): Erörterungen zur Informativität und dessen Implikationen für die Konstruktion von psychologischen Meßinstrumenten. 4. Arbeitstagung der Differentielle Psychologie, Persönlichkeitspsychologie und Psychologische Diagnostik in Bamberg. Müller, J. M. (2000). Neue Leistungs- und Effizienzkennwerte für psychologische Testverfahren: Breite, Differenziertheit, Personenunterscheidungsvermögen, Effizienz und Ausschöpfungsquotient. Poster auf dem 42. Kongress der DGPS in Jena vom 24. bis 28. September, 2000. Müller, J. M. (2001): Kennwerte psychologischer Testverfahren. Dissertation, Bremen. Piotrowski, C. & Keller, J. W. (1992): Psychological testing in applied settings: A literature review from 1982-1992. Journal of Training & Practice in Professional Psychology, 6, 74-82. Schorr, A. (1995): Stand und Perspektiven diagnostischer Verfahren in der Praxis. Ergebnisse einer repräsentativen Befragung westdeutscher Psychologen. Diagnostica, 41, 3-20. Steck, P. (1997): Aus der Arbeit des Testkuratoriums. Psychologische Testverfahren in der Praxis. Diagnostica, 43, 267-284. Zysno, P.V. (1997): Die Modifikation des Phi-Koeffizienten zur Aufhebung seiner Randverteilungsabhängigkeit. Methods of Psychological Research Online, 2, No1., 23.8.2001; http://www.pabst-publishers.de/mpr/. Korrelation/Reliabilität Y Q Standardmessfehler f(Zelle a) f(Zelle a) 1. Eindeutigkeit 2. Kriterien der Parameterschätzung (Erwartungstreue, Effizienz, Suffizienz, Konsistenz) 3. Eindeutige operationale Aussage (Fehlerspezifisch) 4. Lineare Beziehung zur Unit-in-Change 5. Intervallskalenniveau 6. ‚Sprechende‘ Maßeinheit 7. Hohe Anwendungsbreite 8. Breite Verfügbarkeit (technische Berechnung in Softwareprogrammen) 10. Unmittelbarer Bezug zum Messinhalt 11. Vertrautheit 12. Erlernbarkeit ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 ‚ 17 ‚ 4935 ‚ 4952 ‚ 0.17 ‚ 49.35 ‚ 49.52 1 ‚ 5024 ‚ 24 ‚ 5048 ‚ 50.24 ‚ 0.24 ‚ 50.48 Total 5041 4959 10000 50.41 49.59 100.00 Percent ‚ 0‚ 1‚ Total 0 ‚ 1212 ‚ 3806 ‚ 5018 ‚ 12.12 ‚ 38.06 ‚ 50.18 1 ‚ 3841 ‚ 1141 ‚ 4982 ‚ 38.41 ‚ 11.41 ‚ 49.82 Total 5053 4947 10000 50.53 49.47 100.00 Percent ‚ 0‚ 1‚ Total 0 ‚ 2496 ‚ 2497 ‚ 4993 ‚ 24.96 ‚ 24.97 ‚ 49.93 ƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 2493 ‚ 2514 ‚ 5007 ‚ 24.93 ‚ 25.14 ‚ 50.07 Total 4989 5011 10000 49.89 50.11 100.00 0 ‚ 3824 ‚ 1162 ‚ 4986 ‚ 38.24 ‚ 11.62 ‚ 49.86 1 ‚ 1123 ‚ 3891 ‚ 5014 ‚ 11.23 ‚ 38.91 ‚ 50.14 Total 4947 5053 10000 49.47 50.53 100.00 0 ‚ 5003 ‚ 17 ‚ 5020 ‚ 50.03 ‚ 0.17 ‚ 50.20 1 ‚ 18 ‚ 4962 ‚ 4980 ‚ 0.18 ‚ 49.62 ‚ 49.80 Total 5021 4979 10000 50.21 49.79 100.00 Y/ Kappa/ Phi Percent ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 0 ‚ 24 ‚ 1972 ‚ 1996 ‚ 0.24 ‚ 19.72 ‚ 19.96 1 ‚ 7975 ‚ 29 ‚ 8004 ‚ 79.75 ‚ 0.29 ‚ 80.04 Total 7999 2001 10000 79.99 20.01 100.00 0 ‚ 460 ‚ 1676 ‚ 2136 ‚ 4.60 ‚ 16.76 ‚ 21.36 1 ‚ 7399 ‚ 465 ‚ 7864 ‚ 73.99 ‚ 4.65 ‚ 78.64 Total 7859 2141 10000 78.59 21.41 100.00 0 ‚ 2556 ‚ 2330 ‚ 4886 ‚ 25.56 ‚ 23.30 ‚ 48.86 1 ‚ 2626 ‚ 2488 ‚ 5114 ‚ 26.26 ‚ 24.88 ‚ 51.14 Total 5182 4818 10000 51.82 48.18 100.00 Percent 0‚ 1‚ Total 0 ‚ 1683 ‚ 497 ‚ 2180 ‚ 16.83 ‚ 4.97 ‚ 21.80 1 ‚ 448 ‚ 7372 ‚ 7820 ‚ 4.48 ‚ 73.72 ‚ 78.20 Total 2131 7869 10000 21.31 78.69 100.00 0 ‚ 2018 ‚ 4 ‚ 2022 ‚ 20.18 ‚ 0.04 ‚ 20.22 ƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 3 ‚ 7975 ‚ 7978 ‚ 0.03 ‚ 79.75 ‚ 79.78 ƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 2021 7979 10000 20.21 79.79 100.00 Y/ Kappa/ Phi Y/ Kappa/ Phi Y/Kappa/Phi SMC Korrelation Korrelation Y/ Kappa/ Phi Q Q Phi Phi SMC Korrelation SMC Kappa Kappa