Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Slides:



Advertisements
Ähnliche Präsentationen
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
3. 3D-Betrachtungstransformationen
• • • • • 3.2 Die projektive Erweiterung des E³
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Grundlagen der Geometrie
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Law of comparative judgement
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
A-Priori Kontraste Prüfung des Mittelwerteunterschieds von Faktorstufen bzw. Kombinationen von Faktorstufen: z.B.: oder.
Der Binomialtest Man habe einen wahren Anteil P.
K. Desch - Statistik und Datenanalyse SS05
Konfidenzintervalle Intervallschätzung
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2003
§9 Der affine Raum – Teil 2: Geraden
§9 Der affine Raum – Teil 2: Geraden
§11 Skalarprodukt. Euklidische Räume
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Eigenschaften der OLS-Schätzer
Variationsformalismus für das freie Teilchen
§24 Affine Koordinatensysteme
Ausgleichungsrechnung I
Effiziente Algorithmen
Chi Quadrat Test Tamara Katschnig.
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
§3 Allgemeine lineare Gleichungssysteme
Mittelwert und Standardabweichung
1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.
Multivariate Statistische Verfahren
Statistische Methoden in der Wirtschafts- und Sozialgeographie
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
setzt Linearität des Zusammenhangs voraus
2.5.2 Multivariate Monte Carlo-Simulation
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Die Binomialverteilung
Forschungsstrategien Johannes Gutenberg Universität Mainz
Geoinformationssysteme
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Varianzfortpflanzung
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz Vorlesung Multivariate Distanz – Multivariate Normalverteilung Minimum Distance Classifier – Bayes Classifier Günter Meinhardt Johannes Gutenberg Universität Mainz

Multivariate Klassifikation Ziele Einordnen von Fällen (Versuchspersonen, Beobachtungen) in Gruppen aufgrund ihrer Werte in mehreren Meßvariablen. Maßgeblich für die Zuordnung zu eine Gruppe ist a) die Wahrscheinlichkeit des Auftretens des Falles in der Ziel- gruppe (falls ermittelbar) oder b) die Distanz des Falles vom charakteristischen Wert der Gruppe (Prototyp, Zentroid) Methoden Deskriptive Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf dem Set der beobachteten Meßvariablen Analytische Methoden: * Bestimmung von Distanzen und Wahrscheinlichkeiten auf trans- formierten Meßvariablen mit dem Ziel, die Separation von Gruppen zu maximieren (Diskriminanzanalytische Methoden) Weitere Kriterien sind Kosten von Fehlklassifikationen und die a- priori Wahrscheinlichkeit von Gruppen (Allg. Likelihood-Ratio und Bayes-Klassifikation)

Iso-Distanz-Konturen in 2D Iso-Distanz Konturen in 2D Klassifikation Iso-Distanz-Konturen in 2D Kreis Kreis mit Radius c: Alle Punkte auf dem Kreisbogen haben euklidischen Abstand c zum Kreismittelpunkt c y x Der Kreis ist die Grundform der Iso-Distanz Kontur im zweidimen- sionalen Raum (p = 2). Er entspricht im Variablenraum einer Iso-Distanz-Kontur für 2 unkorrelierte (orthogonale) Variablen mit derselben Skalierung.

Ellipse: Skalierung Iso-Distanz Konturen in 2D Klassifikation x Ellipse mit Ellipsenradius c: Alle Punkte auf dem Ellipsenbogen haben, auf Standardskala normiert, denselben Abstand c zum Mittelpunkt y x v Standardskala: u

Ellipse Translation Standard- Transformation Iso-Distanz Konturen in 2D Klassifikation Ellipse Translation Translation zum Punkt (x0,y0) ändert an dieser Eigenschaft nichts: v Standardskala: Standard- Transformation u

Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Iso-Distanz Konturen in 2D Klassifikation Die Invarianz der Distanz im neuen Koordinatensystem mit geneigten Achsen (Korrelation der Variablen) ist über eine Rotation der Koordinaten (anticlock) erklärt: Standard-Ellipse Neigung Korrelation r Koordinaten Korrelierte Achsen Mit der Transformation v u erfüllen alle Ellipsenpunkte: [Tafel: cos a]

Es gelten die Transformationen: Iso-Distanz Konturen in 2D Klassifikation Ellipsen sind in kartesischen Koordinaten unpraktisch zu zeichnen. Man geht über zur Darstellung in Polarkoordinaten. Standard-Ellipse: Zeichen-Routine kartesisch polar Es gelten die Transformationen: kartesisch polar kartesisch polar Zum Zeichnen muß die Ellipsengleichung als Gleichung in Polarkoordinaten (Vektorlänge in Abhängigkeit des Winkels a) umgeschrieben werden

ist eindeutig bis auf das Vorzeichen Iso-Distanz Konturen in 2D Klassifikation Von der Darstellung in Polarkoordinaten kann einfach in kartesische Koordinaten zurückgerechnet werden (Setzen der Ellipsenpunkte) Standard-Ellipse: Zeichen-Routine Setze damit ist eindeutig bis auf das Vorzeichen Verfahren 1. Variiere a von –p bis p (= ein Kreisumlauf). 2. Für jeden Winkel a berechne q = tan-1(a). 3. Berechne dann 4. Berechne damit r. 5. Berechne dann x,y: [Excel-Sheet]

1 D-Normal Verteilung 68.26% 95.5% Multivariate Normalverteilung Klassifikation 1 D-Normal Verteilung Die Funktion hat Fläche Die auf die Fläche 1 normierte Funktion heißt Normalverteilung (Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Flächen- Anteile für z - Standardvariablen definierbar. (Standard-NV) 68.26% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) 95.5% -3 -2 -1 1 2 3 0.1 0.2 0.3 0.4 z f(z) [Kurzübung]

p-variater Fall Mahalanobis- Distanz Mahalanobisdistanz Klassifikation Man bemerke daß ist. Man habe nun nicht eine, sondern p Variablen: (jeder Messpunkt ist ein p- dimensionaler Vektor und der Zentroid ist ein p- dimensionaler Vektor) mit Zentroid Dann definiert mit die Inverse der Varianz- Kovarianz Matrix S. die verallgemeinerte quadrierte Distanz im multivariaten Raum. Sie heißt quadrierte Mahalanobis-Distanz. Mahalanobis- Distanz [Excel-Beispiel 2D]

p D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die Funktion hat Volumen Die auf Volumen 1 normierte Funktion heißt multivariate Normalverteilung (multivariate Gauss-Verteilung). Mit ihr sind Wahrscheinlichkeiten als Anteile des Gesamtvolumens eines p-dimensionalen Ellipsoids definiert. Die in ihrem Argument auftretende Mahalanobis-Distanz erfüllt die Bedingung: mit a einem zu setzenden alpha-Fehler Niveau. Alle Mahalanobisdistanzen D, die diese Bedingung erfüllen, erzeugen Konturen gleicher Wahrscheinlichkeit (iso-probability contours) mit P = 1- a in der multivariaten Normalverteilung.

2 D-Normal Verteilung Multivariate Normalverteilung Klassifikation Die multivariate Normalverteilung mit p = 2 Variablen (bivariate Normalverteilung) hat die Form Die im Argument auftretende Mahalanobis-Distanz definiert eine Ellipse im zweidimensionalen Raum für jede Konstante c: Diese ist eine Iso-Probability-Contour im obigen Sinne (s. multivariate NV, vorherige Folie) [Tafelbetrachtung]

2 D-Normal Verteilung x2 x2 x1 x1 Multivariate Normalverteilung Klassifikation Bivariate Normalverteilung mit p = 2 Variablen und Korrelation r = 0.6 2 D-Normal Verteilung Density-Plot x1 x2 Contour-Plot x2 P=0.95 P=0.75 P=0.5 P=0.25 x1 Ellipsen gleicher Wahrscheinlichkeit und zugehöriges Distanzmaß (quadrierte Mahalanobis-Distanz) [Excel-Übung]

NV-2D-Ellipse: Zeichen-Routine Verfahren Iso-Distanz Konturen in 2D Klassifikation NV-2D-Ellipse: Zeichen-Routine (NV-Ellipse) Setze und temporär 3. Berechne dann Und es gilt: a) a läuft von –p bis p (= ein Kreisumlauf) Verfahren b) c) [Excel-Sheet]

p D-Normal Verteilung Beispiel 2D Multivariate Normalverteilung Klassifikation p D-Normal Verteilung Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2D Länge = Länge =

Einordnung von Fall (Zeile) in Gruppe (Spalte) Minimum Distance Classifier Klassifikation MDC Mit der Mahalanobisdistanz für eine Beobachtung zum Zentroid der Gruppe cj definiere die Regel: Gruppiere in Gruppe ci, wenn gilt MDC-Regel Die Performance des MDC läßt sich mit großen Stichproben für die k – Gruppen mit einer Konfusions-Matrix bewerten: Häufigkeit zur Einordnung von Fall (Zeile) in Gruppe (Spalte) allocated to group Case is group

(anteilige Gleichverteilung) Minimum Distance Classifier Klassifikation Confusion-matrix Korrekte Klassifizierungen sind die Häufigkeiten auf der Diagonalen: Hits Mit den Zeilensummen und N der Summe aller Häufigkeiten gilt Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) (erwartete Zellhäufigkeit, const. in der Zeile ) mit pi der A-priori Wahrscheinlichkeit der Gruppe ci. pi kann ggf. über pi = hi/N geschätzt werden, wenn keine Information über A-priori Wahrscheinlichkeiten vorliegt.

(anteilige Gleichverteilung) Minimum Distance Classifier Klassifikation Erwartete Confusion-matrix Dann ist die erwartete Hit-Häufigkeit. Mit Hits ist ho normalverteilt über die Approximation der Binomialverteilung Erwartete Häufigkeiten bei Zufall (anteilige Gleichverteilung) wenn gilt. Dann testet der z- Test die Hitrate des MDC gegen den Zufall.

Normalverteil-ungsannahme Bayesian Classifier Klassifikation A-priori Wahr- scheinlichkeit der Gruppen Man habe Information über die A-priori Wahrscheinlichkeiten der Gruppen cj: Dann liefert eine Klassifikation der Beobachtung nach ihrer A-posteriori WK A-posteriori Wahrscheinlichkeit eine korrektere Zuordnung als nur nach der kürzesten Distanz zum Gruppenzentroid. Regel: Max-Aposteriori WKn Classifier Gruppiere in Gruppe ci, wenn gilt Normalverteil-ungsannahme Um die A-posteriori WKn zu berechnen, muss für die Likelihood- Funktionen die Annahme der multivariaten Normalverteilung gelten.

Normalverteil-ungsannahme Bayesian Classifier Klassifikation Likelihoods Mit der multivariaten Normalverteilung haben die Likelihoods die Form A-posteriori WK mit der quadrierten Mahalanobisdistanz zum Gruppenzentroid Klassifikations- Raum c1 c2 c3 c4 Der Klassifikationsraum ist durch alle Gruppen vollständig partitioniert. Es gilt: Und wegen der Disjunktheit: Normalverteil-ungsannahme

Normalverteil-ungsannahme Bayesian Classifier Klassifikation Likelihoods Da (Def. der bedingten Wahrscheinlichkeit), folgt Satz der totalen WK Und damit Satz von Bayes der Satz von Bayes für die A-posteriori WK der Gruppe ci, gegeben die multivariate Beobachtung Normalverteil-ungsannahme Die approximative Gültigkeit der multivariaten NV kann durch Q-Q-Plot Methoden überprüft werden.

Cost Matrix Satz der totalen WK Satz von Bayes Minimum Cost Classifier Klassifikation Cost Matrix Satz der totalen WK Für die Eingruppierung in eine Zeile (Gruppe) wird festgelegt, welche Gewinne (negative Werte, Diagonale) mit richtigen Klassifikationen und welche Verluste (positive Werte, übrige Zahlen) mit falschen Klassifikationen einhergehen. Satz von Bayes Regel: Gruppiere in Gruppe ci, wenn gilt Min Cost Classifications erweitern lediglich die Bayes Klassifikation um die Erwartungswerte der Eingruppierung.