Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Ähnliche Präsentationen


Präsentation zum Thema: "Multivariate Analysemethoden Johannes Gutenberg Universität Mainz"—  Präsentation transkript:

1 Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Vorlesung Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier Günter Meinhardt Johannes Gutenberg Universität Mainz

2 Multivariate Klassifikation
Ziele Einordnen von Fällen (Versuchspersonen, Beobachtungen) in Gruppen aufgrund ihrer Werte in mehreren Meßvariablen. Maßgeblich für die Zuordnung zu eine Gruppe ist a) die Wahrscheinlichkeit des Auftretens des Falles in der Ziel gruppe (falls ermittelbar) oder b) die Distanz des Falles vom charakteristischen Wert der Gruppe (Prototyp, Zentroid) Methoden Deskriptive Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf dem Set der beobachteten Meßvariablen Analytische Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf trans formierten Meßvariablen mit dem Ziel, die Separation von Gruppen zu maximieren (Diskriminanzanalytische Methoden) Weitere Kriterien sind Kosten von Fehlklassifikationen und die a priori Wahrscheinlichkeit von Gruppen (Allg. Likelihood-Ratio und Bayes-Klassifikation)

3 Iso-Distanz-Konturen in 2D
Iso-Distanz Konturen in 2D Klassifikation Iso-Distanz-Konturen in 2D Kreis Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt c y x Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen sionalen Raum (p = 2). Er entspricht im Variablenraum einer Iso-Distanz-Kontur für unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

4 Ellipse: Skalierung Iso-Distanz Konturen in 2D Klassifikation x
Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt y x v Standardskala: u

5 Ellipse Translation Standard- Transformation
Iso-Distanz Konturen in 2D Klassifikation Ellipse Translation Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts: v Standardskala: Standard- Transformation u

6 Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen
Iso-Distanz Konturen in 2D Klassifikation Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Mit der Transformation v u erfüllen alle Ellipsenpunkte: [Tafel: cos a]

7 Es gelten die Transformationen:
Iso-Distanz Konturen in 2D Klassifikation Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. Standard-Ellipse: Zeichen-Routine kartesisch polar Es gelten die Transformationen: kartesisch polar kartesisch polar Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels a) umgeschrieben werden

8 ist eindeutig bis auf das Vorzeichen
Iso-Distanz Konturen in 2D Klassifikation Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Standard-Ellipse: Zeichen-Routine Setze damit ist eindeutig bis auf das Vorzeichen Verfahren 1. Variiere a von –p bis p (= ein Kreisumlauf). 2. Für jeden Winkel a berechne q = tan-1(a). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x,y: [Excel-Sheet]

9 1 D-Normal Verteilung 68.26% 95.5%
Multivariate Normalverteilung Klassifikation 1 D-Normal Verteilung Die Funktion hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen- Anteile für z - Standardvariablen definierbar. (Standard-NV) 68.26% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) 95.5% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) [Kurzübung]

10 p-variater Fall Mahalanobis- Distanz Mahalanobisdistanz Klassifikation
Man bemerke daß ist. Man habe nun nicht eine, sondern p Variablen: (jeder Messpunkt ist ein p- dimensionaler Vektor und der Zentroid ist ein p- dimensionaler Vektor) mit Zentroid Dann definiert mit die Inverse der Varianz- Kovarianz Matrix S. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz. Mahalanobis- Distanz [Excel-Beispiel 2D]

11 p D-Normal Verteilung Multivariate Normalverteilung Klassifikation
Die Funktion hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit a einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen D, die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1- a in der multivariaten Normalverteilung.

12 2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation
Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie) [Tafelbetrachtung]

13 2 D-Normal Verteilung x2 x2 x1 x1
Multivariate Normalverteilung Klassifikation Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6 2 D-Normal Verteilung Density-Plot x1 x2 Contour-Plot x2 P=0.95 P=0.75 P=0.5 P=0.25 x1 Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) [Excel-Übung]

14 NV-2D-Ellipse: Zeichen-Routine Verfahren
Iso-Distanz Konturen in 2D Klassifikation NV-2D-Ellipse: Zeichen-Routine (NV-Ellipse) Setze und temporär 3. Berechne dann Und es gilt: a) a läuft von –p bis p (= ein Kreisumlauf) Verfahren b) c) [Excel-Sheet]

15 p D-Normal Verteilung Beispiel 2D
Multivariate Normalverteilung Klassifikation p D-Normal Verteilung Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2D Länge = Länge =

16 Einordnung von Fall (Zeile) in Gruppe (Spalte)
Minimum Distance Classifier Klassifikation MDC Mit der Mahalanobisdistanz für eine Beobachtung zum Zentroid der Gruppe cj definiere die Regel: Gruppiere in Gruppe ci, wenn gilt MDC-Regel Die Performance des MDC läßt sich mit großen Stichproben für die k – Gruppen mit einer Konfusions-Matrix bewerten: Häufigkeit zur Einordnung von Fall (Zeile) in Gruppe (Spalte) allocated to group Case is group

17 (anteilige Gleichverteilung)
Minimum Distance Classifier Klassifikation Confusion-matrix Korrekte Klassifizierungen sind die Häufigkeiten auf der Diagonalen: Hits Mit den Zeilensummen und N der Summe aller Häufigkeiten gilt Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) (erwartete Zellhäufigkeit, const. in der Zeile ) mit pi der A-priori Wahrscheinlichkeit der Gruppe ci. pi kann ggf. über pi = hi/N geschätzt werden, wenn keine Information über A-priori Wahrscheinlichkeiten vorliegt.

18 (anteilige Gleichverteilung)
Minimum Distance Classifier Klassifikation Erwartete Confusion-matrix Dann ist die erwartete Hit-Häufigkeit. Mit Hits ist ho normalverteilt über die Approximation der Binomialverteilung Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) wenn gilt. Dann testet der z- Test die Hitrate des MDC gegen den Zufall.

19 Normalverteil-ungsannahme
Bayesian Classifier Klassifikation A-priori Wahr- scheinlichkeit der Gruppen Man habe Information über die A-priori Wahrscheinlichkeiten der Gruppen cj: Dann liefert eine Klassifikation der Beobachtung nach ihrer A-posteriori WK A-posteriori Wahrscheinlichkeit eine korrektere Zuordnung als nur nach der kürzesten Distanz zum Gruppenzentroid. Regel: Max-Aposteriori WKn Classifier Gruppiere in Gruppe ci, wenn gilt Normalverteil-ungsannahme Um die A-posteriori WKn zu berechnen, muss für die Likelihood- Funktionen die Annahme der multivariaten Normalverteilung gelten.

20 Normalverteil-ungsannahme
Bayesian Classifier Klassifikation Likelihoods Mit der multivariaten Normalverteilung haben die Likelihoods die Form A-posteriori WK mit der quadrierten Mahalanobisdistanz zum Gruppenzentroid Klassifikations- Raum c1 c2 c3 c4 Der Klassifikationsraum ist durch alle Gruppen vollständig partitioniert. Es gilt: Und wegen der Disjunktheit: Normalverteil-ungsannahme

21 Normalverteil-ungsannahme
Bayesian Classifier Klassifikation Likelihoods Da (Def. der bedingten Wahrscheinlichkeit), folgt Satz der totalen WK Und damit Satz von Bayes der Satz von Bayes für die A-posteriori WK der Gruppe ci, gegeben die multivariate Beobachtung Normalverteil-ungsannahme Die approximative Gültigkeit der multivariaten NV kann durch Q-Q-Plot Methoden überprüft werden.

22 Cost Matrix Satz der totalen WK Satz von Bayes
Minimum Cost Classifier Klassifikation Cost Matrix Satz der totalen WK Für die Eingruppierung in eine Zeile (Gruppe) wird festgelegt, welche Gewinne (negative Werte, Diagonale) mit richtigen Klassifikationen und welche Verluste (positive Werte, übrige Zahlen) mit falschen Klassifikationen einhergehen. Satz von Bayes Regel: Gruppiere in Gruppe ci, wenn gilt Min Cost Classifications erweitern lediglich die Bayes Klassifikation um die Erwartungswerte der Eingruppierung.


Herunterladen ppt "Multivariate Analysemethoden Johannes Gutenberg Universität Mainz"

Ähnliche Präsentationen


Google-Anzeigen