Multivariate Analysemethoden Johannes Gutenberg Universität Mainz Vorlesung Multivariate Distanz – Multivariate Normalverteilung Günter Meinhardt Johannes Gutenberg Universität Mainz
Iso-Distanz-Konturen in 2D Kreis Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt c y x Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen- sionalen Raum (p = 2). Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.
Ellipse: Skalierung Iso-Distanz Konturen in 2D x Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt y x v Standardskala: u
Ellipse Translation Standard- Transformation Iso-Distanz Konturen in 2D Ellipse Translation Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts: v Standardskala: Standard- Transformation u
Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Iso-Distanz Konturen in 2D Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Mit der Transformation v u erfüllen alle Ellipsenpunkte: [Tafel: cos a]
Es gelten die Transformationen: Iso-Distanz Konturen in 2D Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. Standard-Ellipse: Zeichen-Routine kartesisch polar Es gelten die Transformationen: kartesisch polar kartesisch polar Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels a) umgeschrieben werden
Standard-Ellipse: Zeichen-Routine Verfahren Iso-Distanz Konturen in 2D Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Standard-Ellipse: Zeichen-Routine Setze damit Verfahren 1. Variiere a von –p bis p (= ein Kreisumlauf). 2. Für jeden Winkel a berechne q = tan-1(a). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x,y: [Excel-Sheet]
1 D-Normal Verteilung 68.26% 95.5% Multivariate Normalverteilung f(z) Die Funktion hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen- Anteile für z - Standardvariablen definierbar. (Standard-NV) 68.26% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) 95.5% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) [Kurzübung]
p-variater Fall Mahalanobis- Distanz Mahalanobisdistanz Man bemerke daß ist. Man habe nun nicht eine, sondern p Variablen: (jeder Messpunkt ist ein p- dimensionaler Vektor und der Zentroid ist ein p- dimensionaler Vektor) mit Zentroid Dann definiert mit die Inverse der Varianz- Kovarianz Matrix S. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz. Mahalanobis- Distanz [Excel-Beispiel 2D]
p D-Normal Verteilung Multivariate Normalverteilung Die Funktion hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit a einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen D, die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1- a in der multivariaten Normalverteilung.
2 D-Normal Verteilung Multivariate Normalverteilung Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie) [Tafelbetrachtung]
2 D-Normal Verteilung x2 x2 x1 x1 Multivariate Normalverteilung Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6 2 D-Normal Verteilung Density-Plot x1 x2 Contour-Plot x2 P=0.95 P=0.75 P=0.5 P=0.25 x1 Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) [Excel-Übung]
NV-2D-Ellipse: Zeichen-Routine Verfahren Iso-Distanz Konturen in 2D a) (NV-Ellipse) Setze und temporär 3. Berechne dann Und es gilt: a) a läuft von –p bis p (= ein Kreisumlauf) Verfahren b) c) [Excel-Sheet]
p D-Normal Verteilung Beispiel 2D Multivariate Normalverteilung Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2D Länge = Länge =