Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multivariate Statistische Verfahren

Ähnliche Präsentationen


Präsentation zum Thema: "Multivariate Statistische Verfahren"—  Präsentation transkript:

1 Multivariate Statistische Verfahren
Korrespondenzanalyse Universität Mainz Institut für Psychologie WS 2010/2011 Uwe Mortensen

2 Einführung I Es werden Kontingenztabellen betrachtet: die Abhängigkeiten zwischen Zeilen- und Spaltenkategorien werden zunächst durch einen Chi-Quadrat-Wert repräsentiert. Ist er signifikant,geht man davon aus, dass Abhängigkeiten existieren, andernfalls behält man die Nullhypothese (es existieren keine Abhängigkeiten) bei. Westphal (1931) in „Der Nervenarzt“:

3 Einführung II Ernst Kretschmer (1888 – 1964): „Körperbau und Charakter“ (1921) Leptosom (dünn, hager) – schizothym – schizoid – schiziphren Pyknisch (rund und mollig) – zyklothym – zykloid – manisch-depressiv Athletisch (kräfig, muskulär) – barykinetisch – epileptoid - epileptisch Widerspricht Westphals Tabelle der Kretschmerschen Theorie? Ein signifikanter Chi-Quadrat-Wert gibt auf diese Frage keine Antwort; Die Häufigkeiten scheinen nicht auf Kretschmers Theorie zu weisen, und ein signifikanter Chi-Quadrat-Wert sagt nur, dass wahrscheinlich Abhängigkeiten zwischen Körperbau und „Charakter“ bestehen.

4 Einführung III Intuitive Betrachtung: sollte Kretschmers Theorie mit den Daten kompatibel sein, so müssen Skalen für den Körperbau existieren, auf denen sich die Körperbautypen nach Maßgabe ihrer „Ähnlichkeit“ anordnen lassen, und analog dazu Skalen, nach denen sich die Erkrankungen nach Maßgabe ihrer Ähnlichkeiten anordnen lassen. Weiter muß zwischen den beiden Skalenklassen eine Beziehung bestehen derart, dass die die Beziehungen zwischen Körperbau und Erkrankung abgebildet werden. Die Beziehung zwischen den Kategorien Körperbau und Art der Erkrankung wird nicht perfekt sein: Die Existenz von Mischtypen wirkt wie „Rauschen“

5 Einführung IV Aber kann eine Beziehung der Form f(Erkrankung) = g(Körperbau) + zuf. Fehler überhaupt angenommen werden, wenn man Häufigkeiten erklären will? (f und g numerische Werte = Skalenwerte)

6 Also: Beziehungen zwischen Häufigkeiten in einer Kontingenztabelle durch latente Variablen derart, dass Das Chi-Quadrat der Tabelle durch latente Variablen erklärt wird!

7 Distanzen zwischen Zeilen- bzw. Spaltenkategorien
Häufigkeitsverteilungen für die Körperbautypen Profile für die Körperbautypen: Häufigkeiten, geteilt durch Randsummen Die absolute Häufigkeit, mit der ein Körperbautyp vorkommt, wirkt verzerrend auf die Wahrnehmung der Unterschiedlichkeit der Verteilungen Elemente der Profile entsprechen bedingten Wahrscheinlichkeiten. Relativierung in Bezug auf Randsummen wirkt entzerrend auf Darstellung der Unterschiede.

8 Definition von Profilen
Zeilen‘‘masse‘‘ Spalten“masse“

9 Distanzen zwischen Zeilenkategorien
Vorteil dieser Definition der Kategoriendistanz: unmittelbar einsichtig. Nachteil der Definition: läßt sich nicht gut mit dem Chi-Quadrat in Verbindung bringen, keine Verteilungsäquivalenz (wird gleich erklärt)

10 Chi-Quadrat-Distanzen (zwischen Zeilenkategorien)
Die Chi-Quadrat-Distanzen definieren eine „Chi-Quadrat-Metrik“

11 Verteilungsäquivalenz
Fasst man Zeilenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Distanzen zwischen den Spaltenkategorien nicht. Fasst man Spaltenkategorien mit identischen Häufigkeitsverteilungen zusammen, so ändern sich die Chi-Quadrat-Verteilungen zwischen den Zeilenkategorien nicht. Der Ausdruck „Chi-Quadrat-Distanz“ ist ein wenig irreführend, weil keine direkte Beziehung zum Chi-Quadrat besteht; die folgenden Betrachtungen zeigen aber eine indirekte Beziehung auf.

12 Ansatz I

13 Ansatz II

14 Ansatz III Ja!

15 Ansatz III

16 Zusammenfassung: Das Chi-Quadrat kann in voneinander unabhängige, additive Komponenten zerlegt werden Die Komponenten werden so bestimmt, dass sie voneinander unabhängigen Urteilsdimensionen etc entsprechen. Dazu werden die Residuen einer Singularwertzerlegung unterzogen: (i) Komponenten für die Zeilenkategorien, (ii) Komponenten für die Spaltenkategorien. Die beiden Klassen von Komponenten beziehen sich auf die gleichen latenten Variablen! Die SVD-Koordinaten für die Kategorien werden so skaliert, dass die euklidischen Distanzen zwischen den Punkten (Zeilenpunkte einerseits, Spaltenpunkte andererseits) den Chi-Quadrat-Distanzen zwischen den Kategorien entsprechen. Die Distanzen zwischen Zeilen- und Spaltenpunkten sind nicht erklärt; die Ähnlichkeit wird über das Skalarprodukt ausgedrückt.

17 Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc
Testtheorie und (0, 1)-Items (Aufgaben: gelöst- nicht gelöst, Meinungsitem: zugestimmt – nicht zugestimmt, etc Problem: Anwendung der Faktorenanalyse bzw PCA auf (0, 1)-Daten führt oft zu Pseudorepäsentationen der unterliegenden latenten Variablen: Der Produkt-Moment-Korrelationskoeffizient wird zum Phi-Koeffizienten mit der Implikation, dass unterschiedliche Schwierigkeiten semantische Faktoren vortäuschen. Die Faktorenanalyse von (0, 1)-Daten ist äußerst problematisch. Die multiple Korrespondenztheorie liefert einen Ausweg:

18 Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc
Items Personen Antwortkategorien

19 Multiple Korrespondenzanalyse: Anwendung der KA auf Fragebögen, Tests, etc
Aus der Indikatormatrix oder –tabelle entsteht eine Kontingenztabelle, die aus Teilkontingenztabellen aufgebaut ist: jedes Item mit jedem, jede Angtwortkategorie mit jeder. Das Resultat ist eine Burt-Matrix (nach Sir Cyril Burt, 1950)

20 Items Beispiel (Burt, 1950) Items Antwortkategorien Haar Augen Kopf
Statur

21 Korrespondenz der Klassifikationen auf OCT-Basis (RMG) und auf histologischer Basis.
(OCT = Optical Coherence Tomography) schwerere Form leichtere Entzündung (kein Krebs) 0 = keine Erkrankung, CIN 21 Krebs, leichte Form, CIN 22 Krebs, etwas schwerere Form, CIN 23 Krebs, schwerere Form, CIN 10 kein Krebs, Entzündung

22 Identifikation von Emotionen im Gesichtsausdruck Anger Disgust No
happiness Happiness Fear Surprise

23 Beispiel I

24 Beispiel II Marascuilo & McMcSweeny (1977): 500 Männer verschiedenen Glaubens wurden nach ihrer Meinung zur Abtreibung befragt:

25 Beispiel III Genetische Untersuchungen: Haar- und Augenfarbe schottischer Kinder (Tocher 1908, Maung 1941)

26 Beispiel V Ansichten zur Behandlung von Strafgefangenen in den USA

27 Beispiel VI Trends in Studienfächern (USA)

28 Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

29 Beispiel VI Trends in Studienfächern – Doktorgrade (USA)

30 Beispiel VII Selbstmorde in Deutschland 1974 - 1977

31 Beispiel VII Selbstmorde in Deutschland 1974 - 1977

32 Beispiel VII Selbstmorde in Deutschland 1974 - 1977
Altergruppe und Methode – nach Geschlechtern getrennt

33 Beispiel VII Selbstmorde in Deutschland 1974 - 1977

34 Danke für Ihre Aufmerksamkeit!


Herunterladen ppt "Multivariate Statistische Verfahren"

Ähnliche Präsentationen


Google-Anzeigen