Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen.

Ähnliche Präsentationen


Präsentation zum Thema: "Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen."—  Präsentation transkript:

1 Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen

2 Multivariate Verfahren2 Wozu multivariate Statistik, und was ist das überhaupt?

3 Multivariate Verfahren3 Georg Wilhelm Friedrich Hegel Das Wahre ist das Ganze. Das Ganze aber ist nur das durch seine Entwicklung sich vollendende Wesen. Es ist von dem Absoluten zu sagen, dass es wesentlich Resultat, dass es erst am Ende das ist, was es in Wahrheit ist; und hierin eben besteht seine Natur, Wirkliches, Subjekt oder Sichselbstwerden zu sein. (Aus der Vorrede zur Phänomenologie des Geistes) 27. August 1770 – 14.November 1831

4 Multivariate Verfahren4 Variablen objektivesubjektive physikalische Umgebung Sozio-ökonomische Bedingung Physiologische Größen etc Psychischer Zustand Fähigkeit Ansichten, Meinungen etc

5 Multivariate Verfahren5 Verfahren explorieren schließenKlassifizieren/diskriminieren Strukturen

6 Multivariate Verfahren6 Multiple Regression Faktorenanalyse/ Hauptachsentransformation Diskrimination-Klassifikation Kanonische Korrelation Korrespondenzanalyse (Kontingenztabellen)

7 Multivariate Verfahren7 2. Faktorenanalyse Ziel: Die Beziehungen (Kovarianzen zwischen einer größeren Anzahl gemessener Variablen durch die Wirkung einer kleineren Anzahl latenter, voneinander unabhängiger Variablen zu erklären. 3. Diskriminanzanalyse Ziel: Suche nach einer Gewichtung beobachtbarer Merkmale (Symptome) zum Zweck optimaler Kategorisierung. 4. Kanonische Korrelation Ziel: Die Kanonische Korrelation ist eine Verallgemeinerung der multiplen Regression; es sollen die latenten Strukturen zweier verschiedener Variablensätze (oder des gleichen Variablensatzes in einer Vorher-Nachher-Messung) miteinander verglichen werden. Überblick 5. Korrespondenzanalyse Ziel: Die Identifikation latenter Strukturen, die die Zusammenhänge in einer Kontingenztabelle erklären (Faktorenanalyse von Häufigkeiten) 1. Multiple Regression: Gegeben ist eine Menge von etwa p Prädiktorvariablen, anhand derer eine abhängige Variable y vorhergesagt werden soll

8 Multivariate Verfahren8 Multiple Regression

9 Multivariate Verfahren9 Multiple Regression

10 Multivariate Verfahren10 Multiple Regression

11 Multivariate Verfahren11 Multiple Regression

12 Multivariate Verfahren12 Vorbereitende Betrachtungen zur Motivation Ein simples Beispiel: Körpergewicht als Funktion der Körperlänge: Das übliche Regressionsmodell: K-Gewicht = a K-Länge + b + e e = Fehler (unabhängig von der K-Länge) Aber das Gewicht hängt sicher noch von weiteren Faktoren ab: - Stoffwechsel (genetisch, epigenetisch. etc) - Bewegung - Essgewohnheiten (kulturelle, psychische Einflüsse Alle diese Effekte (plus reine Messfehler, etwa beim Ablesen der Waage) definieren den Fehler. Gibt es eine Möglichkeit, die physische Erscheinung eines Menschen durch eine minimale Menge voneinander unabhängiger Eigenschaften auszudrücken?

13 Multivariate Verfahren13 Vorbereitende Betrachtungen zur Motivation Übergang von korrelierenden Koordinaten (Körperlänge, Körpergewicht) zu nicht korrelierenden Koordinaten (Körpergrösse, Stoffwechsel) Formal: Koordinatentransformation bzw. Rotation des ursprünglichen Koordinatensystems!

14 Multivariate Verfahren14 Vektoren und Matrizen I Vektoren:

15 Multivariate Verfahren15 Vektoren und Matrizen I

16 Multivariate Verfahren16 Vektoren und Matrizen I MatrixVektor

17 Multivariate Verfahren17 Vektoren und Matrizen I Vektoren:

18 Multivariate Verfahren18 Vektoren und Matrizen I Vektoren:

19 Multivariate Verfahren19 Vektoren und Matrizen I Standardisierung:

20 Multivariate Verfahren20 Skalarprodukt und der Winkel zwischen den Vektoren Vektoren und Matrizen I

21 Multivariate Verfahren21 Bestimmung der Parameter IIIa Wechseln zu Vektoren und Matrizen !

22 Multivariate Verfahren22 Faktorenanalyse – Hauptachsentransformation (PCA) als Approximation (multiple Regression) (Faktorenmodell)

23 Multivariate Verfahren23

24 Multivariate Verfahren24 Beispiel: Evaluation einer Vorlesung

25 Multivariate Verfahren25 Zusammenfassung der Daten in einer Matrix Zeilen: Personen Fragen: Spalten Korrelationen:

26 Multivariate Verfahren26 Faktorenanalyse: Hauptkomponenten

27 Multivariate Verfahren27 (WS 2003/2004) Faktorenanalyse: Hauptkomponenten Start- bzw. StandardlösungRotation (Interpretation)

28 Multivariate Verfahren28 WS 2004/2005

29 Multivariate Verfahren29 Das Faktorenmodell: Weiteres zum Faktorenmodell: die PCA-Approximation i – Person j – Test, gemessene Variable

30 Multivariate Verfahren30 Approximation: die Hauptachsentransformation (Principal Component Analysis – PCA) Plausibilitätsbetrachtungen I: zwei Variable – Körperlänge (X 1 ) und Körpergewicht (X 2 )

31 Multivariate Verfahren31

32 Multivariate Verfahren32 Plausibilitätsbetrachtungen II: 1.Abweichungen des Gewichts von der Vorhersage ist zufällig: Menge der Nahrungsaufnahme am Vortag Zeitpunkt der Messung (vor oder nach dem Frühstück) Sport am Vortag oder kein Sport etc etc etc 2. Aber es gibt auch systematische Aspekte: Stoffwechselintensität Sozioökonomischer Status, formale Bildung: Fritten versus haute cuisine etc etc unabhängig von der Körperlänge variieren

33 Multivariate Verfahren33 Plausibilitätsbetrachtungen III: Es war: Der Fehler wird durch die zufällige Variation der latenten Variablen L2 erklärt. (Hinweis: mehr als zwei latente Variable können hier nicht betrachtet werden, obwohl mehr als zwei solche Variable wirksam sein können. )

34 Multivariate Verfahren34 Bestimmung der Parameter I Vorhersage der gemessenen Variablen anhand der (hypothetischen) latenten Variablen. Aber die latenten Variablen müssen ja anhand der gemessenen Variablen berechnet werden! Daher: Die Antwort findet man leicht, wenn man den Marizenkalkül heranzieht!

35 Multivariate Verfahren35 Bestimmung der Parameter II

36 Multivariate Verfahren36 Bestimmung der Parameter III

37 Multivariate Verfahren37 Bestimmung der Parameter IV Damit ist das Problem, die latenten Variablen zu bestimmen, im Prinzip gelöst.

38 Multivariate Verfahren38 Zusammenfassung der Überlegungen: unbekannt

39 Multivariate Verfahren39

40 Multivariate Verfahren40 Interpretation der SVD Merke: es gibt keinen Fehlerterm!!! Ausprägung der i-ten Person auf den latenten Dimensionen. Ausprägung des j-ten Tests auf den latenten Dimensionen.

41 Multivariate Verfahren41 Bestimmung der Parameter IV Man berechnet also die Eigenvektoren und Eigenwerte von XX und bestimmt damit die latenten Vektoren L. Die Transformationen von X nach L und umgekehrt von L nach X werden durch zueinander inverse Matrizen bewirkt. Fragen: (1)Welche Eigenschaften hat die Lösung (Eindeutigkeit etc), und (2)Wie ist diese Lösung zu interpretieren?

42 Multivariate Verfahren42 Diskussion der Lösung: Rotation und Reduktion Das Modell: Daten in X werden durch latente Variablen L erklärt. Berechnung der latenten Variablen aus den Daten.

43 Multivariate Verfahren43 Konfiguration der Personen im Raum der unkorrelierten latenten Variablen. Man beachte: maximale Ausdehnung der Konfiguration längs der ersten Achse L1, zweitgrößte Ausdehnung bezüglich L2! Diskussion der Lösung: Rotation und Reduktion Konfiguration der Personen im (Zahlen) Raum der korrelierten gemessenen Variablen. I - Rotation Rotation

44 Multivariate Verfahren44 Diskussion der Lösung: Rotation und Reduktion II - Reduktion Ist die Variation der Punkte bezüglich der L2-Achse klein, kann man annehmen, dass diese Variation nur Fehler repräsentiert. Dann muß nur eine latente Variable, L1, ange- nommen werden. Dies ist die Reduktion. Anmerkung: L1 ist nicht notwendig identisch mit der Regressionsgraden!

45 Multivariate Verfahren45 Diskussion der Lösung: formale Bedeutung der Eigenvektoren I Ellipsen.

46 Multivariate Verfahren46 Diskussion der Lösung: formale Bedeutung der Eigenvektoren II Rotation von Ellipsen Nicht achsenparallel:achsenparallel: Gesucht: Transformationsmatrix T derart, dass x = Ty Aber die Vektoren y definieren eine achsenparallele Ellipse, also muß TMT = N eine Diagonalmatrix sein! Dann folgt aber, dass T die Matrix der Eigenvektoren von M ist, und N enthält die zugehörigen Eigenwerte! Welche Orientierung haben die Eigenvektoren?

47 Multivariate Verfahren47 Diskussion der Lösung: formale Bedeutung der Eigenvektoren III Orientierung der Eigenvektoren von M: Die Eigenvektoren der symmetrischen Matrix M haben die gleiche Orientierung wie die Hauptachsen der durch M definierten Ellipse! Daher die Rede von der Hauptachsentransformation. T

48 Multivariate Verfahren48 Transformationsmatrix im Fall einer Ellipse (2-dimensionaler Fall) Kennt man den Winkel, kann man T explizit angeben. Andererseits ist der Winkel im Allgemeinen nicht bekannt.

49 Multivariate Verfahren49 Diskussion der Lösung: formale Bedeutung der Eigenvektoren VI C = XX bzw. R = ZZ sind symmetrische Matrizen und definieren deshalb stets ein Ellipsoid! Die Orientierung der Eigenvektoren von C bzw. R entsprechen den Orientierungen der durch C bzw. R definierten Ellipsoide. Die Matrix der Eigenvektoren von C bzw. R definiert die Transformation (Rotation) des achsenparallelen in ein nicht achsenparalleles Ellipsoid.

50 Multivariate Verfahren50 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen I Vorbetrachtung: Die Singularwertzerlegung (SVD) von X.

51 Multivariate Verfahren51 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen II Die SVD: Die SVD ist ein Satz der linearen Algebra mit zentraler Bedeutung für die multivariate Statistik. Jede Matrix X kann in dieser Weise zerlegt werden. Die Spaltenvektoren von Q sind die Eigenvektoren von XX, d.h. sie sind orthogonal und auf die Länge 1 normiert. Die Spaltenvektoren von Q charakterisieren die Personen, die von P charakterisieren die gemessenen Variablen (wie gleich gezeigt wird). Implikationen für die Analyse psychologischer Daten?

52 Multivariate Verfahren52 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIa Die Datenmatrix: Rohwerte, Abweichungen vom Mittelwert (Kovarianzen), oder z-Werte (Korrelationen)

53 Multivariate Verfahren53 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIb

54 Multivariate Verfahren54 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IIc

55 Multivariate Verfahren55 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IId

56 Multivariate Verfahren56 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen III

57 Multivariate Verfahren57 Die Ladungen dienen als Koordinaten der Variablen im Raum der latenten Variablen, - die latenten Variablen werden über Cluster von Variablen interpretiert. Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IV Beispiel: Evaluation

58 Multivariate Verfahren58 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VI Ladungen, Korrelationen, und die Schätzung der Anzahl latenter Variablen Gibt es n Variablen, werden immer n Eigenvektoren und damit n latente Variablen berechnet. Die wahre Anzahl latenter Variablen wird im Allgemeinen Aber kleiner sein: s < n, und die n – s mit den kleineren Eigenwerten repräsen- tieren nur Fehler oder Rauschen. Man hat dann die folgende Abschätzung Für die Korrelationen:

59 Multivariate Verfahren59 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VII Zur Bedeutung der Eigenwerte:

60 Multivariate Verfahren60 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen VIII Zur Bedeutung der Eigenwerte: Ein Eigenwert repräsentiert die Varianz der Projektionen der Personen bzw der Variablen auf die entsprechende Dimension.

61 Multivariate Verfahren61 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX Eigenwerte und Anzahl der latenten Dimensionen:

62 Multivariate Verfahren62 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen IX Scree-Test: Personen im Raum der lat. Variablen

63 Multivariate Verfahren63 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X Latente Variablen – eindeutig bis auf Rotation

64 Multivariate Verfahren64 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X Kriteriumsrotationen Anschaulichkeit als Anker für die Interpretation. Kompetenz und Stoffmenge als Anker für die Interpretation.

65 Multivariate Verfahren65 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(a) Kreisförmige Punktekonfiguration und Anzahl der Dimensionen

66 Multivariate Verfahren66 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X(aa) Wahre Beziehung zwischen den Punkten (Skalen) und dem Kreis, auf dem die Punkte liegen müssten, wäre die Lösung tatsächlich nur 2-dimensional. Die Punkte liegen alle innerhalb des Kreises, -- Ausdruck der Tatsache, dass die Skalen durch weitere latente Dimensionen definiert werden.

67 Multivariate Verfahren67 WS 2001/2002 Diskussion der Lösung: inhaltliche Bedeutung der latenten Variablen X Kriterium Varimax

68 Multivariate Verfahren68 Zusammenfassung (1): Es werden n (= viele) Variablen an den gleichen Personen bzw. Objekten gemessen; die Variablen korrelieren paarweise. Es wird angenommen, dass sie Korrelationen auf der Wirkung von r <= n latenten Variablen beruhen; das Ziel der Analyse ist, Art und Anzahl dieser Variablen zu bestimmen. Es wird angenommen, dass die latenten Variablen voneinander unabhängig sind, - andernfalls müsste man latente Variablen für die latenten Variablen fordern. Es wird angenommen, dass beobachtete und latente Variablen durch lineare Gleichungen aufeinander bezogen sind.

69 Multivariate Verfahren69 Zusammenfassung (2): Die latenten Variablen sind unbekannt, also müssen sie aus den beobachteten Daten geschätzt (= ausgerechnet) werden. Vorhersage der gemessenen Variablen anhand der (hypothetischen) latenten Variablen.

70 Multivariate Verfahren70 Zusammenfassung (3): Übergang zur Matrixnotation: Implikation der Annahme, dass die latenten Variablen unkorreliert sein sollen.

71 Multivariate Verfahren71 Zusammenfassung (4): Die Lösung ergibt sich aus allgemeinen Resultaten der Vektor- und Matrixrechnung! (Singularwertzerlegung!)

72 Multivariate Verfahren72 Zusammenfassung (5): Cattell: R-Analyse – Analyse der Variablen, Q-Analyse (Analyse der Personen, d.h. Typen) Korrelationen zwischen Tests/Variablen Keine Korrelationen zwischen Personen! Test/Variablen-Dimensionen sind die gleichen wir die Personenfaktoren

73 Multivariate Verfahren73 Zusammenfassung (6): Bestimmung der Anzahl der zu berücksichtigenden latenten Dimensionen: Nach Maßgabe der Eigenwerte.

74 Multivariate Verfahren74 Beispiele: Erinnerung an Albert Wellek [1904 (Wien) – 1972 (Mainz)] Das Polaritätsprinzip meint ''die Entfaltung einer Wesenheit nach zwei entgegengesetzten, doch aber sich gegenseitig bedingenden und ergänzenden Richtungen hin' (nach Schischkoff, 1957). Dieses Prinzip soll insbesondere für Goethe und die Denker der Romantik (z.B. Schelling) eine Art fundamentales Axiom für Erklärung des Weltgeschehens gewesen sein. Studium der Musik, Literaturwissenschaft, Philologie, 1938 Habilitation in Psychologie (Typologie der Musikbegabung im Deutschen Volk, ab 1946 Ordinarius für Psychologie in Mainz (bis 1969).

75 Multivariate Verfahren75 A. Wellek (Fortsetz.) Hauptwerk: Die Polarität im Aufbau des Charakters. Der Begriff der Polarität sei … in der positivistischen Ära der empirischen Naturforschung als unwissenschaftlich verpönt…, aber das Prinzip der Polarität auch das tragende Prinzip der typologischen, und damit zunächst auch der charakterologischen, Methode'… Zur Polarität der Geschlechter: das weibliche Prinzip steht auf der Seite der Natur und der Vitalität, aber nicht auf der des Geistes, womit es ''Affinität zur Intensität, zur Extraversion, zur Eshaftigkeit … '' habe. Das ''Bewahrende ergibt ''sich ja schon aus der empfangenen Rolle des Weibes bei der Zeugung, dann in der Bergung oder Beherbergung und Nährung der Frucht …''.

76 Multivariate Verfahren76 Zur Stützung der polaren Schichtentheorie zitiert Wellek Cervantes: ''Die Verwandte der weiblichen Rede ist Konfusion'', A. Wellek (Fortsetz.) und dann Nietzsche: ''Bei vielen Frauen ist der Intellekt nur plötzlich und stoßweise da'', was Wellek zu der Deutung veranlaßt, dass das weibliche Denken demnach ein ''Einfalldenken'' sei (Wellek, 1966, p. 288).

77 Multivariate Verfahren77 Stereotype und ihre Erforschung: Das Polaritätsprofil Begriffe wie Mann, Intelligenz, Vater,Mutter etc werden vorgegeben und auf einer Liste von Eigenschaften beurteilt (gerated). Anschließend wird eine Q- Analyse gerechnet: es ergeben sich zwei latente Dimensionen: D1: Frau, D2: Mann Demnach sind die Geschlechter nicht durch Polarität, sondern als unabhängige Dimensionen charakterisiert.

78 Multivariate Verfahren78 Stereotype und ihre Erforschung: Das Polaritätsprofil Dimensionen versus Polarität


Herunterladen ppt "Multivariate Statistische Verfahren Universität Mainz Institut für Psychologie WS 2011/2012 Uwe Mortensen."

Ähnliche Präsentationen


Google-Anzeigen