Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Slides:



Advertisements
Ähnliche Präsentationen
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Advertisements

T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Berechnung von Hochwasserwahrscheinlichkeiten mit dem
Der F - Test Man prüft, ob sich 2 Varianzen unterscheiden, mit dem F-Quotienten: Geprüft werden stets die Schätzungen der Populationsvarianzen aufgrund.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Multivariate Analysemethoden und Multivariates Testen Günter Meinhardt Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Thema der Stunde I. Einführung in die Varianzanalyse:
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Evaluation & Forschungsmethoden Günter Meinhardt Johannes Gutenberg Universität Mainz q-q-Plot Methode zur Prüfung der Multivariaten.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2005/2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
A-Priori Kontraste Prüfung des Mittelwerteunterschieds von Faktorstufen bzw. Kombinationen von Faktorstufen: z.B.: oder.
Der Binomialtest Man habe einen wahren Anteil P.
Hypothesen testen: Grundidee
Statistische Methoden II
Konfidenzintervalle Intervallschätzung
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden II SS 2003
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Univariate Statistik M. Kresken.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Wiederholung und Beispiele
Binomialverteilung: Beispiel
Eigenschaften der OLS-Schätzer
Chi Quadrat Test Tamara Katschnig.
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
Strategie der Modellbildung
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
setzt Linearität des Zusammenhangs voraus
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Die Binomialverteilung
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Forschungsstrategien Johannes Gutenberg Universität Mainz
Geoinformationssysteme
Statistik im Labor BFB-tech Workshop Eugen Lounkine.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Analysen univariater Stichproben
Forschungsstrategien Johannes Gutenberg Universität Mainz
Konfidenzintervalle und Tests auf Normalverteilung
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz Vorlesung 30.01.2007 Günter Meinhardt Johannes Gutenberg Universität Mainz Wissenschaft ist 5% Inspiration und 95% Transpiration. (T.W. Adorno)

Minimum Distance Classifier Schema Klassifikation Minimum Distance Classifier MDC Distanzanalyse Entscheidend für die Klassifikation ist allein die Nähe zum Gruppenzentroiden. Alle Gruppen werden als gleich wahrscheinlich angesehen. Anwendung Bei rein kriterienorientierter Einordnung (Prüfung, welcher prototypische Symptomverbund auf die Beobachtung am ehesten zutrifft.) Voraussetzung Zuverlässige Schätzung der gruppenspezifischen Varianz- Kovarianz- Matrizen und der Gruppenzentroide. Nachteile Zuverlässige Schätzung der Gruppenparameter ist nicht ohne weitere Annahmen möglich. Ausreißerkontrolle erfordert die Annahme einer Wahrscheinlichkeitsverteilung. Für die Klassifikation von Stichproben Mittelwerten sehr gut geeignet.

Bayesian Classifier Bayesian Classifier Schema Klassifikation Wahrscheinlichkeitsanalyse Entscheidend für die Klassifikation ist die Likelihood (bestimmt durch die Nähe zum Gruppenzentroiden) und die Grundquote (A- priori Wahrscheinlichkeit der Gruppe.) Anwendung Zuordnung zu Patientengruppen, allg. Selektionsentscheidungen, bei denen Fehler durch progressive Zuordnungen (alpha-Fehler) in kleinere Gruppen schwerwiegend sind (Diagnose). Voraussetzung Zuverlässige Schätzung der gruppenspezifischen Varianz- Kovarianz- Matrizen und der Gruppenzentroide. Multivariate Normalverteilung für die Likelihoodfunktionen. Zuverlässige Schätzung der A-priori Wahrscheinlichkeiten der Gruppen. Nachteile Umfassende Voraussetzungen, die sorgfältig zu prüfen sind. Abweichungen von der Normalverteilung wirken sich schwerwiegend aus (Likelihoodfunktionen).

Verteilungsanpassung/Prüfung Prüfung der NV-Annahme Klassifikation Verteilungsanpassung/Prüfung Rolle der Verteilungs-annahme Bayes Klassifikation ist oft höchst wünschenswert, da sie die A-priori Wahrscheinlichkeit der Gruppen berücksichtigt Sie liefert nur dann zuverlässige Klassifikationen, wenn in den Populationen die Likelihoodfunktionen normal sind (Gültigkeit der multivariaten Normalverteilung pro Gruppe) Ausreißeranalyse: Vor der Schätzung der Parameter (m,S) für die multivariate NV- wird eine Analyse der Rohdaten auf Ausreißer vorgenommen. Prüfung der Verteilungs-annahme Effiziente Tests: Die NV- Annahme ist mit effektiven Methoden und trennscharfen Test zu prüfen, um ihre Gültigkeit sicherzustellen Korrekturen und Datentransformationen: Ist die NV- Annahme auf den originalen Skalen verletzt, können Skalentransformationen für die einzelnen Variablen des Variablen- verbundes gefunden werden, mit denen die multivariate Normalver- auf den transformierten Skalen gilt.

c2 - Test auf Güte der Passung Univariate Tests (1D) Klassifikation Die allgemeine Form des Chi – Quadrat für Häufigkeiten ist: Güte der Passung Dieses Schema wird flexibel auf die jeweilige Fragestellung angewendet. Die Frage ist, nach welchem Kriterium sich die erwarteten Häufigkeiten ergeben. Das einfache c2 hat k-1 Freiheitsgrade, die zugehörige Wahrscheinlichkeitsverteilung ist die c2 Verteilung. Für den Test der Anpassung an die Normalverteilung werden die erwarteten Häufigkeiten aus den Wahrscheinlichkeiten der Quantil- Intervalle der Normalverteilung berechnet.

Univariate Normalverteilung Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung Die erwarteten relativen Häufigkeiten berechnet man aus der Differenz der Werte der Verteilungsfunktion für die exakten Intervallgrenzen. Die erwarteten Häufigkeiten ergeben sich durch Multiplikation mit der Anzahl der Beobachtungen N. Test mit progressivem alpha-Niveau, da man an der Absicherung für die Beibehaltung der H0 interessiert ist (a = mind. 10%).

Univariate Normalverteilung Univariate Tests (1D) Klassifikation c2 - Test auf Univariate Normalverteilung Güte der Passung Beobachtet: oi erwartet als Normalverteilung: ei h(x) h(x) 4000 4000 3000 3000 2000 2000 1000 1000 x x 100 300 500 700 900 1100 1300 100 300 500 700 900 1100 1300 h(x) 4000 3000 Vergleich: 2000 1000 x 100 300 500 700 900 1100 1300

Tests der NV- Annahme Nachteile von c2 - Tests Alternative: Prüfung der NV-Annahme Klassifikation Tests der NV- Annahme Nachteile von c2 Tests sind nicht sehr trennscharf und brauchen ein hohes N Sie hängen von der Anzahl der Intervalle (Freiheitsgrade) ab Sie können nur für die univariaten Verteilungen der einzelnen Meßvariablen durchgeführt werden (- Ausreisser durch spezielle Wertekombinationen in der multivariaten Verteilung können nicht aufgedeckt werden) c2 - Tests Alternative: Q-Q Plot Methoden und Korrelations-Tests Effektive Methoden: Methoden, die die Quantile der erwarteten und tatsächlichen Distanzen vom Zentroid verwenden, können univariat und multivariat verwendet werden Effiziente Tests: Die Testung der Gleichheit von erwarteten und tatsächlichen Quantilen beruht auf einer trennscharfen Testung des Korrelationskoeffizienten (uni-und multivariat).

Identifikation von Ausreißern Test der NV-Annahme (univariat) Klassifikation Identifikation von Ausreißern Data Clearing Ausreißer sind heikel zu bestimmen, bei kleinen Stichproben N < 30 gibt es keine zuverlässigen Methoden Bei N > 30 legt man die Quantile der Normalverteilung zugrunde und eliminiert die Werte, die jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein. Ausreißer:

Test über Quantilskorrelation Test der NV-Annahme (univariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Methode Nach Ausreißerbereinigung werden den Meßwerten empirische Quantile qo (in z) zugeordnet über die sortierte Reihe der Meßwerte. Mit aus den Daten geschätzten Parametern (m,s) werden für die Prozentränge erwartete Quantile qe (in z) bestimmt. Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen. Man bestimmt Anteil der aufgeklärten Varianz und Korrelation. Für den Korrelationskoeffizienten existieren kritische Werte, die bei Unterschreitung zur Ablehnung der NV-Annahme führen (s. Tabelle).

Kritische Q-Q- Korrelationen Test der NV-Annahme (univariat) Klassifikation Kritische Q-Q- Korrelationen Q-Q Plot Methode Korrelations-Test Ist rqq < rcrit(a), wird die Annahme der NV auf dem gewählten a Level verworfen. a sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht.

Datenbeispiel Q-Q Plot Methode Korrelations-Test Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode mit 2 Ausreißern N = 30 Korrelations-Test NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich

Datenbeispiel Q-Q Plot Methode Korrelations-Test Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode ohne Ausreißer N = 28 Korrelations-Test NV Test und Varianzaufklärung zeigt perfekte der empirischen Quantile an die NV an.

Nichtlineare Abweichung Test der NV-Annahme (univariat) Klassifikation Datenbeispiel Q-Q Plot Methode Nichtlineare Abweichung N = 29 Korrelations-Test NV Annahme ist heikel und sollte abgelehnt werden Ausreißerentfernung würde Passung verbessern, aber die Art der Abweichung deutet auf eine systematische Transformation der Quantile

Quantils-Transformation zur NV Test der NV-Annahme (univariat) Klassifikation Quantils-Transformation zur NV Unsystematische Ausreißer sollten entfernt werden. Bei systematischen Quantilsabweichungen können die Rohdaten einer Potenztransformation unterzogen werden, um eine gute Approximation an die NV zu erreichen. Parameterschätzung für (m,s) der NV sind über die transformierten Daten auszuführen. Box-Cox-Power- Transformation maximiert nach k Die Power-Transformation g(x) liefert mit dem Wert k aus der Maximierung von l(k) die beste Annäherung an die NV

Datenbeispiel nichtlineare Abweichung Maximierungsfunktion l(k) Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q - Plot Maximierungsfunktion l(k) N = 29 k0 Optimale Potenz- Transformation Potenztransformation der Originalskala: Erneuter Q-Q Test

Datenbeispiel nichtlineare Abweichung Test der NV-Annahme (univariat) Klassifikation Datenbeispiel nichtlineare Abweichung Q-Q Plot Methode Q-Q – Plot original Q-Q – Plot nach Potenztransformation h2 = .877 r = .937 h2 = .986 r = .993 berechnen z- transformieren Q-Q plotten Optimale Potenz- Transformation Potenztransformation bringt fast perfekte Passung der NV

Identifikation von Ausreißern Test der NV-Annahme (multivariat) Klassifikation Identifikation von Ausreißern Data Clearing p-dimensions Auch im multivariaten Fall sind Ausreißer in kleinen Stichproben nicht zuverlässig bestimmbar, Bei N > 30 legt man die Quantile der multivariaten Normalverteilung zugrunde (c2) und eliminiert die Beobachtungen, dessen quadrierte Mahalanobis-Distanzen jenseits der äußeren Quantile liegen. Dies sollten nicht mehr als 7%-8% sein. Ausreißer: [Excel-Beispiel q-q-Plot]

Test über Quantilskorrelation Test der NV-Annahme (multivariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Methode multivariat Nach Ausreißerbereinigung werden den Meßvektoren empirische Quantile qo zugeordnet über die Reihe der Meßwerte sortiert nach Mahalanobisdistanz. Mit aus den Daten geschätzten Parametern (m,S) werden für die linearen Prozentränge erwartete Quantile qe aus der c2 - Verteilung bestimmt. Man trägt qo (y-Achse) und qe (x-Achse) gegeneinander ab. Perfekte Passung liegt vor, wenn die Daten auf der Winkelhalbierenden liegen. Man bestimmt Anteil der aufgeklärten Varianz und Korrelation. Für den Test des Korrelationskoeffizienten verfährt man exakt wie im univariaten Fall.

Datenbeispiel (p = 4 Variablen) Test der NV-Annahme (multivariat) Klassifikation Datenbeispiel (p = 4 Variablen) Q-Q Plot Methode mit 3 Ausreißern N = 30 p = 4 Korrelations-Test NV Test knapp im Annahmebereich, aber 2 Ausreißer verschlechtern die Passung beträchtlich, auch in den unteren Quantilen Die beiden größten Ausreißer erfüllen das Kriterium, aber der 3. höchste Wert ist ebenfalls suspekt (hoher Intervallabstand)

Datenbeispiel (p = 4 Variablen) Test der NV-Annahme (multivariat) Klassifikation Datenbeispiel (p = 4 Variablen) Q-Q Plot Methode ohne 3 Ausreißer N = 27 p = 4 Korrelations-Test NV Test zeigt nach Entfernung der höchsten 3 Werte (nicht nur 2) nun eine gute Passung der multivariaten NV

Allgemeines zur Verteilungskorrektur Skalentransformationen Test der NV-Annahme (multivariat) Klassifikation Allgemeines zur Verteilungskorrektur Ausreisser-Kontrolle Ausreißerbereinigung sollte immer multivariat erfolgen, da ein Ausreisser in einer einzelnen Variable noch nicht einen Ausreißer im Variablenverbund definiert. Das Entfernen extremer Beobachtungen ändert die Korrelationsmatrix, daher können iterative Bereinigungen nötig werden. Skalentransformationen Transformationen Skalentransformationen können nur univariat erfolgen. (Keine Methode definiert eine Transformationen für den Variablenverbund) Es ist ratsam eine univariate Untersuchung systematischer Verteilungsabweichungen nach der multivariaten Ausreißerkontrolle durchzuführen, und die einzelnen Variablen mit geeigneten Potenz- transformationen zu korrigieren. Sind die Randverteilungen (univariate) alle normal, so wird auch die multivariate Verteilung normalverteilt sein.

Ausreißer als Distanz vom Zentroid x2 x1 Ausreisser in 2D Klassifikation Ausreißer als Distanz vom Zentroid x1 x2 univariat multivariat Zentroid Ausreisser in 2D: einer univariat und einer multivariat

Ausreißer als Distanz vom Zentroid Ausreisser in 2D Klassifikation Ausreisser in 4D: einer univariat und zwei multivariat Ausreißer als Distanz vom Zentroid univariat multivariat multivariat

Base Rate wird übersehen Bayes - Rule Klassifikation Beispiel John ist gut gekleidet, 39 Jahre, verheiratet, 2 Kinder. Er ist in der Lokalpolitik aktiv und mag Sport und Autos. Er ist streitsam und diskutiert gerne, geht gern mit Freunden aus. Ist er a) Büroangestellter b) Anwalt ? Base Rate wird übersehen

Test über Quantilskorrelation Test der NV-Annahme (univariat) Klassifikation Test über Quantilskorrelation Q-Q Plot Method Beispiel für sehr gute Übereinstimmung von beobachteten und gemäß NV erwarteten Quantilen