Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung.

Ähnliche Präsentationen


Präsentation zum Thema: "Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung."—  Präsentation transkript:

1 Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier

2 Methoden der Psychologie Klassifikation Ziele Einordnen von Fällen (Versuchspersonen, Beobachtungen) in Gruppen aufgrund ihrer Werte in mehreren Meßvariablen. Deskriptive Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf dem Set der beobachteten Meßvariablen Multivariate Klassifikation Maßgeblich für die Zuordnung zu eine Gruppe ist a) die Wahrscheinlichkeit des Auftretens des Falles in der Ziel- gruppe (falls ermittelbar) oder b) die Distanz des Falles vom charakteristischen Wert der Gruppe (Prototyp, Zentroid) Analytische Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf trans- formierten Meßvariablen mit dem Ziel, die Separation von Gruppen zu maximieren (Diskriminanzanalytische Methoden) Weitere Kriterien sind Kosten von Fehlklassifikationen und die a- priori Wahrscheinlichkeit von Gruppen (Allg. Likelihood-Ratio und Bayes-Klassifikation) Methoden

3 Methoden der Psychologie Kreis Iso-Distanz-Konturen in 2D Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt Iso-Distanz Konturen in 2D Klassifikation x y c Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen- sionalen Raum (p = 2). Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

4 Methoden der Psychologie Ellipse: Skalierung Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt x y Standardskala: u v Iso-Distanz Konturen in 2D Klassifikation

5 Methoden der Psychologie Ellipse Translation Translation zum Punkt (x 0,y 0 ) ändert an dieser Eigenschaft nichts: u v Iso-Distanz Konturen in 2D Klassifikation Standard- Transformation Standardskala:

6 Methoden der Psychologie Standard- Ellipse Neigung Korrelation Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Mit der Transformation Iso-Distanz Konturen in 2D Klassifikation erfüllen alle Ellipsenpunkte: Koordinaten Korrelierte Achsen u v [Tafel: cos ]

7 Methoden der Psychologie Standard- Ellipse: Zeichen- Routine Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. Es gelten die Transformationen: Iso-Distanz Konturen in 2D Klassifikation Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels ) umgeschrieben werden kartesisch polar kartesisch polar kartesisch polar

8 Methoden der Psychologie Standard- Ellipse: Zeichen- Routine Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Iso-Distanz Konturen in 2D Klassifikation ist eindeutig bis auf das Vorzeichen Setze damit 1. Variiere von – bis (= ein Kreisumlauf). 2. Für jeden Winkel berechne q = tan -1 ( ). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x,y: Verfahren [Excel-Sheet]

9 Methoden der Psychologie 1 D-Normal Verteilung Die Funktion Multivariate Normalverteilung Klassifikation hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen- Anteile für z - Standardvariablen definierbar. (Standard-NV) [Kurzübung]

10 Methoden der Psychologie p-variater Fall Man bemerke daß Mahalanobisdistanz Klassifikation Man habe nun nicht eine, sondern p Variablen: (jeder Messpunkt ist ein p- dimensionaler Vektor und der Zentroid ist ein p- dimensionaler Vektor) ist. mit Zentroid Dann definiert mit die Inverse der Varianz- Kovarianz Matrix. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz. [Excel-Beispiel 2D] Mahalanobis- Distanz

11 Methoden der Psychologie p D-Normal Verteilung Die Funktion Multivariate Normalverteilung Klassifikation hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen, die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1- in der multivariaten Normalverteilung.

12 Methoden der Psychologie 2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: [Tafelbetrachtung] Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie)

13 Methoden der Psychologie 2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6 [Excel-Übung] Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) x1x1 x2x2 Density-Plot Contour-Plot x1x1 x2x2 P=0.25 P=0.5 P=0.75 P=0.95

14 Methoden der Psychologie NV-2D- Ellipse: Zeichen- Routine Iso-Distanz Konturen in 2D Klassifikation Und es gilt: a) läuft von – bis (= ein Kreisumlauf) 3. Berechne dann Verfahren [Excel-Sheet] (NV-Ellipse) Setze und temporär b) c)

15 Methoden der Psychologie p D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die Ellipsen der Form Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung sind zentriert inund haben Hauptachsen mit Eigenwertbedingung Länge = Beispiel 2D

16 Methoden der Psychologie MDC Minimum Distance Classifier Klassifikation Mit der Mahalanobisdistanz für eine Beobachtung Gruppiere in Gruppe c i, wenn gilt der Gruppe c j definiere die Regel: zum Zentroid Die Performance des MDC läßt sich mit großen Stichproben für die k – Gruppen mit einer Konfusions-Matrix bewerten: MDC-Regel Case is group allocated to group Häufigkeit zur Einordnung von Fall (Zeile) in Gruppe (Spalte)

17 Methoden der Psychologie Confusion- matrix Minimum Distance Classifier Klassifikation Mit den Zeilensummen Korrekte Klassifizierungen sind die Häufigkeiten auf der Diagonalen: Hits (erwartete Zellhäufigkeit, const. in der Zeile ) mit p i der A-priori Wahrscheinlichkeit der Gruppe c i. Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) und N der Summe aller Häufigkeiten gilt p i kann ggf. über p i = h i /N geschätzt werden, wenn keine Information über A-priori Wahrscheinlichkeiten vorliegt.

18 Methoden der Psychologie Erwartete Confusion- matrix Minimum Distance Classifier Klassifikation die erwartete Hit-Häufigkeit. Dann ist Hits Mit ist h o normalverteilt über die Approximation der Binomialverteilung Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) wenn Dann testet der z- Test gilt. die Hitrate des MDC gegen den Zufall.

19 Methoden der Psychologie A-priori Wahr- scheinlichkeit der Gruppen Bayesian Classifier Klassifikation nach ihrer Man habe Information über die A-priori Wahrscheinlichkeiten der Gruppen c j : A-posteriori WK Dann liefert eine Klassifikation der Beobachtung A-posteriori Wahrscheinlichkeit Max-Aposteriori WKn Classifier Um die A-posteriori WKn zu berechnen, muss für die Likelihood- Funktionen die Annahme der multivariaten Normalverteilung gelten. eine korrektere Zuordnung als nur nach der kürzesten Distanz zum Gruppenzentroid. Gruppiere in Gruppe c i, wenn gilt Regel: Normalverteil- ungsannahme

20 Methoden der Psychologie Likelihoods Bayesian Classifier Klassifikation Mit der multivariaten Normalverteilung haben die Likelihoods die Form A-posteriori WK mit Klassifikations- Raum der quadrierten Mahalanobisdistanz zum Gruppenzentroid Normalverteil- ungsannahme c1c1 c2c2 c3c3 c4c4 Der Klassifikationsraum ist durch alle Gruppen vollständig partitioniert. Es gilt: Und wegen der Disjunktheit:

21 Methoden der Psychologie Likelihoods Bayesian Classifier Klassifikation Da Satz der totalen WK Und damit Normalverteil- ungsannahme der Satz von Bayes für die A-posteriori WK der Gruppe c i, gegeben die multivariate Beobachtung (Def. der bedingten Wahrscheinlichkeit), folgt Satz von Bayes Die approximative Gültigkeit der multivariaten NV kann durch Q-Q-Plot Methoden überprüft werden.

22 Methoden der Psychologie Cost Matrix Minimum Cost Classifier Klassifikation Satz der totalen WK Für die Eingruppierung in eine Zeile (Gruppe) wird festgelegt, welche Gewinne (negative Werte, Diagonale) mit richtigen Klassifikationen und welche Verluste (positive Werte, übrige Zahlen) mit falschen Klassifikationen einhergehen. Satz von Bayes Min Cost Classifications erweitern lediglich die Bayes Klassifikation um die Erwartungswerte der Eingruppierung. Gruppiere in Gruppe c i, wenn gilt Regel:


Herunterladen ppt "Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz Multivariate Distanz – Multivariate Normalverteilung."

Ähnliche Präsentationen


Google-Anzeigen