Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Slides:



Advertisements
Ähnliche Präsentationen
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Advertisements

3. 3D-Betrachtungstransformationen
Grundlagen der Geometrie
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Multivariate Analysemethoden und Multivariates Testen Günter Meinhardt Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Evaluation & Forschungsmethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
A-Priori Kontraste Prüfung des Mittelwerteunterschieds von Faktorstufen bzw. Kombinationen von Faktorstufen: z.B.: oder.
K. Desch - Statistik und Datenanalyse SS05
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
§9 Der affine Raum – Teil 2: Geraden
§11 Skalarprodukt. Euklidische Räume
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
§24 Affine Koordinatensysteme
Chi Quadrat Test Tamara Katschnig.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
§3 Allgemeine lineare Gleichungssysteme
Multivariate Statistische Verfahren
Multivariate Statistische Verfahren
Multivariate Statistische Verfahren
Statistische Methoden in der Wirtschafts- und Sozialgeographie
setzt Linearität des Zusammenhangs voraus
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Forschungsstrategien Johannes Gutenberg Universität Mainz
Geoinformationssysteme
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
/ SES.125 Parameterschätzung
Wahrscheinlichkeitstheorie
Ausgleich nach der Methode der kleinsten Quadrate
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Varianzfortpflanzung
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Einführung in die Diskriminanzanalyse
Analysen univariater Stichproben
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Kapitel 2: Klassifikation
Multivariate Statistische Verfahren
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Kapitel 2: Testtheorie / Testmodelle
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstrategien Johannes Gutenberg Universität Mainz
3-dim Koordinatensystem
Zufallsgrößen und Zufallsprozesse
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz Vorlesung Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier Günter Meinhardt Johannes Gutenberg Universität Mainz

Multivariate Klassifikation Ziele Einordnen von Fällen (Versuchspersonen, Beobachtungen) in Gruppen aufgrund ihrer Werte in mehreren Meßvariablen. Maßgeblich für die Zuordnung zu eine Gruppe ist a) die Wahrscheinlichkeit des Auftretens des Falles in der Ziel- gruppe (falls ermittelbar) oder b) die Distanz des Falles vom charakteristischen Wert der Gruppe (Prototyp, Zentroid) Methoden Deskriptive Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf dem Set der beobachteten Meßvariablen Analytische Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf trans- formierten Meßvariablen mit dem Ziel, die Separation von Gruppen zu maximieren (Diskriminanzanalytische Methoden) Weitere Kriterien sind Kosten von Fehlklassifikationen und die a- priori Wahrscheinlichkeit von Gruppen (Allg. Likelihood-Ratio und Bayes-Klassifikation)

Iso-Distanz-Konturen in 2D Iso-Distanz Konturen in 2D Klassifikation Iso-Distanz-Konturen in 2D Kreis Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt c y x Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen- sionalen Raum (p = 2). Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

Ellipse: Skalierung Iso-Distanz Konturen in 2D Klassifikation x Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt y x v Standardskala: u

Ellipse Translation Standard- Transformation Iso-Distanz Konturen in 2D Klassifikation Ellipse Translation Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts: v Standardskala: Standard- Transformation u

Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Iso-Distanz Konturen in 2D Klassifikation Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Mit der Transformation v u erfüllen alle Ellipsenpunkte: [Tafel: cos a]

Es gelten die Transformationen: Iso-Distanz Konturen in 2D Klassifikation Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. Standard-Ellipse: Zeichen-Routine kartesisch polar Es gelten die Transformationen: kartesisch polar kartesisch polar Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels a) umgeschrieben werden

Standard-Ellipse: Zeichen-Routine Verfahren Iso-Distanz Konturen in 2D Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Standard-Ellipse: Zeichen-Routine Setze damit Verfahren 1. Variiere a von –p bis p (= ein Kreisumlauf). 2. Für jeden Winkel a berechne q = tan-1(a). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x,y: [Excel-Sheet]

1 D-Normal Verteilung 68.26% 95.5% Multivariate Normalverteilung Klassifikation 1 D-Normal Verteilung Die Funktion hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen- Anteile für z - Standardvariablen definierbar. (Standard-NV) 68.26% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) 95.5% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) [Kurzübung]

p-variater Fall Mahalanobis- Distanz Mahalanobisdistanz Klassifikation Man bemerke daß ist. Man habe nun nicht eine, sondern m Variablen: (jeder Messpunkt ist ein m-dimensionaler Vektor und der Zentroid ist ein m-dimensionaler Vektor) mit Zentroid Dann definiert mit die Inverse der Varianz- Kovarianz Matrix S. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz. Mahalanobis- Distanz [Excel-Beispiel 2D]

p D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die Funktion hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines m-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit a einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen D, die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1- a in der multivariaten Normalverteilung.

2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die multivariate Normalverteilung mit m = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie) [Tafelbetrachtung]

2 D-Normal Verteilung x2 x2 x1 x1 Multivariate Normalverteilung Klassifikation Bivariate Normalverteilung mit m = 2 Variablen und Korrelation r = 0.6 2 D-Normal Verteilung Density-Plot x1 x2 Contour-Plot x2 P=0.95 P=0.75 P=0.5 P=0.25 x1 Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) [Excel-Übung]

NV-2D-Ellipse: Zeichen-Routine Verfahren Iso-Distanz Konturen in 2D a) (NV-Ellipse) Setze und temporär 3. Berechne dann Und es gilt: a) a läuft von –p bis p (= ein Kreisumlauf) Verfahren b) c) [Excel-Sheet]

m-dim-Normal Verteilung Multivariate Normalverteilung Klassifikation m-dim-Normal Verteilung Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des m-variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2D Länge = Länge =

Einordnung von Fall (Zeile) in Gruppe (Spalte) Minimum Distance Classifier Klassifikation MDC Mit der Mahalanobisdistanz für eine Beobachtung zum Zentroid der Gruppe cj definiere die Regel: Gruppiere in Gruppe ci, wenn gilt MDC-Regel Die Performance des MDC läßt sich mit großen Stichproben für die k – Gruppen mit einer Konfusions-Matrix bewerten: Häufigkeit zur Einordnung von Fall (Zeile) in Gruppe (Spalte) allocated to group Case is group

(anteilige Gleichverteilung) Minimum Distance Classifier Klassifikation Confusion-matrix Korrekte Klassifizierungen sind die Häufigkeiten auf der Diagonalen: Hits Mit den Zeilensummen und N der Summe aller Häufigkeiten gilt Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) (erwartete Zellhäufigkeit) mit pj der A-priori Wahrscheinlichkeit der Gruppe cj pj kann ggf. aus den empirischen Gruppenstärken über pj = hi/N geschätzt werden, wenn keine Information über die A-priori Wahrscheinlichkeiten vorliegt.

(anteilige Gleichverteilung) Minimum Distance Classifier Klassifikation Erwartete Confusion-matrix Dann ist die erwartete Hit-Häufigkeit. Mit Hits ist ho normalverteilt über die Approximation der Binomialverteilung Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) wenn gilt. Dann testet der z- Test die Hitrate des MDC gegen den Zufall.

Normalverteil-ungsannahme Bayesian Classifier Klassifikation A-priori Wahr- scheinlichkeit der Gruppen Man habe Information über die A-priori Wahrscheinlichkeiten der Gruppen cj: Dann liefert eine Klassifikation der Beobachtung nach ihrer A-posteriori WK A-posteriori Wahrscheinlichkeit eine korrektere Zuordnung als nur nach der kürzesten Distanz zum Gruppenzentroid. Regel: Max-Aposteriori WKn Classifier Gruppiere in Gruppe ci, wenn gilt Normalverteil-ungsannahme Um die A-posteriori WKn zu berechnen, muss für die Likelihood- Funktionen die Annahme der multivariaten Normalverteilung gelten.

Normalverteil-ungsannahme Bayesian Classifier Klassifikation Likelihoods Mit der multivariaten Normalverteilung haben die Likelihoods die Form A-posteriori WK mit der quadrierten Mahalanobisdistanz zum Gruppenzentroid Klassifikations- Raum c1 c2 c3 c4 Der Klassifikationsraum ist durch alle Gruppen vollständig partitioniert. Es gilt: Und wegen der Disjunktheit: Normalverteil-ungsannahme

Normalverteil-ungsannahme Bayesian Classifier Klassifikation Likelihoods Da (Def. der bedingten Wahrscheinlichkeit), folgt Satz der totalen WK Und damit Satz von Bayes der Satz von Bayes für die A-posteriori WK der Gruppe ci, gegeben die multivariate Beobachtung Normalverteil-ungsannahme Die approximative Gültigkkeit der multivariaten NV kann durch Q-Q-Plot Methoden überprüft werden.