Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Multivariate Analysemethoden und Multivariates Testen Günter Meinhardt Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Thema der Stunde I. Einführung in die Varianzanalyse:
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Methoden der Psychologie Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Einfaktorielle Varianzanalyse
Gliederung Vertrauensintervalle Arten von Hypothesen
Gliederung Der Begriff der Stichprobe, Stichprobenfehler
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Forschungsstatistik I
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
A-Priori Kontraste Prüfung des Mittelwerteunterschieds von Faktorstufen bzw. Kombinationen von Faktorstufen: z.B.: oder.
Der Binomialtest Man habe einen wahren Anteil P.
Hypothesen testen: Grundidee
Prüfung statistischer Hypothesen
Effektgrößen, Kontraste & Post-hoc-Tests
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Die Student- oder t-Verteilung
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Wiederholung: Einfache Regressionsgleichung
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Formulierung und Überprüfung von Hypothesen
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Konfidenzintervall und Testen für den Mittelwert und Anteile
Mehr zum Testen von Hypothesen
1 Stichprobenverfahren zur Qualitätssicherung Hilfestellung der Statistik in der Wirtschaftsprüfung.
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Die Binomialverteilung
Prüft ebenfalls die Annahme der Varianzhomogenität (exakter)
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Forschungsstrategien Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
 Präsentation transkript:

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz und Multivariates Testen Vorlesung 21.04.2008 Günter Meinhardt Johannes Gutenberg Universität Mainz

Verfahrensdarstellung in Überblick Grundprinzip Multivariate Analysemethoden & Multivariates Testen Vorlesung Verfahrensdarstellung in Überblick Grundprinzip wichtigsten mathematischen Beziehungen Anwendungsbeispielen Malte Persike / Franziska Schmidt (Do 18-20, R3-428) Vertiefung mit Anwendungsbeispielen Aufgabenbearbeitung mit Excel - Project File Übung + Tut Film einblenden. Dann nach Ortho-Test: Fahle-Folie einblenden (Stimulus-Spezifität) und sagen, dass auch die Beurteilung der Länge oder der Luminanz der Linien nicht möglich ist, wenn man nicht darauf geachtet hat (Task-Spezifität) Prüfung Kenntnisse aus WS2007/08 & SS2008 Freischussklausur: 18.07.2008 Abschlussklausur: 2.- 3. Oktoberwoche 2008

Prinzipien des inferenzstatistischen Schliessens Konfidenzintervalle Multivariate Analysemethoden & Multivariates Testen Einführung Prinzipien des inferenzstatistischen Schliessens Konfidenzintervalle multivariate Mittelwertsvergleiche multivariate Varianzanalyse (MANOVA) Verfahren Diskriminanzanalyse ANOVA/MANOVA, Hotelling‘s T2 statistische Entscheidungslehre Versuchspläne Typische Designs aus Allgemeine Experimentelle Psy. Klinische Psy. AOW Film einblenden. Dann nach Ortho-Test: Fahle-Folie einblenden (Stimulus-Spezifität) und sagen, dass auch die Beurteilung der Länge oder der Luminanz der Linien nicht möglich ist, wenn man nicht darauf geachtet hat (Task-Spezifität) Ziele Wissen über statistische Verfahren Wissen über Untersuchungsstrategien Umsetzung mit Software

Literatur Multivariate Analysemethoden & Multivariates Testen a) b) c) Johnson/Wichern b) Backhaus Literatur c) Bortz d) Winer

x M J Problem Gruppierungsvariable Messgröße (metrisch) Beispiel Univariate Mittelwertevergleiche - Problemstellung Problem Gruppierungsvariable Messgröße (metrisch) Beispiel x Geschlecht Anzahl der gefundenen Zielelemente in einem Konzentrationsleistungstest M J Film einblenden. Dann nach Ortho-Test: Fahle-Folie einblenden (Stimulus-Spezifität) und sagen, dass auch die Beurteilung der Länge oder der Luminanz der Linien nicht möglich ist, wenn man nicht darauf geachtet hat (Task-Spezifität) Frage Unterscheidet sich die Leistung von Mädchen und Jungen im statistischen Mittelwert ?

Geschlecht M J 23.7 17.2 23.7 – 17.2 = 6.5 Stichprobe Univariate Mittelwertevergleiche - Problemstellung Stichprobe Wir untersuchen 40 Mädchen und 45 Jungen Beispieldaten Geschlecht M J 23.7 17.2 23.7 – 17.2 = 6.5 Film einblenden. Dann nach Ortho-Test: Fahle-Folie einblenden (Stimulus-Spezifität) und sagen, dass auch die Beurteilung der Länge oder der Luminanz der Linien nicht möglich ist, wenn man nicht darauf geachtet hat (Task-Spezifität) Frage Gibt es wirkliche Leistungsunterschiede zwischen Jungen und Mädchen, oder ist der gefundene Unterschied „rein zufällig“ ?

Strategie Annahme Urteil Univariate Mittelwertevergleiche - Prüfstrategie Strategie Ermittle die Wahrscheinlichkeit für den beobachteten Mittelwertsunterschied unter der Annahme, dass beide Gruppen in der Population denselben Mittelwert besitzen Annahme Die Populationsmittelwerte von Jungen und Mädchen sind gleich Null-Hypothese Alternativ-Hypothese Film einblenden. Dann nach Ortho-Test: Fahle-Folie einblenden (Stimulus-Spezifität) und sagen, dass auch die Beurteilung der Länge oder der Luminanz der Linien nicht möglich ist, wenn man nicht darauf geachtet hat (Task-Spezifität) Urteil Ist der beobachtete Mittelwertsunterschied unter der H0 sehr unwahrscheinlich (höchstens 5%), so lehnen wir die H0 ab, und sehen die H1 als die bessere Alternative an.

Sampling Theoretische Verteilung – Sampling Distribution Population der Jungen Stichprobe des Umfangs NJ Mittelwertsdifferenz Tue dies k - mal: Population der Mädchen Stichprobe des Umfangs NM Verteilung der Differenzen von Mittelwerten

Central Limit Theorem Inferenzstat. Schluss Theoretische Verteilung – Sampling Distribution Central Limit Theorem Die Verteilung von Differenzen von Mittelwerten nähert sich mit wachsendem Umfang der Sample-Stichproben einer Normalverteilung. Für N > 30 ist die Approximation gut. Es gilt: 0.10 (wird geschätzt) Wahrscheinlichkeitsdichte 0.05 0.00 -2s -s s 2s In der theoretischen Verteilung der Differenzen von Mittel-werten wird die Wahrscheinlichkeitsbestimmung vorge-nommen. Sie liegt dem inferenzstatistischen Schluss zugrunde. Inferenzstat. Schluss

Sampling Distribution – Bestimmung des Standardfehlers Unabhängigkeit Ist die Messvariable eine in beiden Populationen unabhängige ZV: Jungen und Mädchen kommen aus derselben Population Gleichheit der Populations-varianz Standardfehler

Sampling Distribution – Schätzung des Standardfehlers Schätzung aus Stichproben Für die Populationsvarianz verwendet man eine Schätzung aus den Daten beider Stichproben: “Pooling” wobei und die Stichprobenvarianzen sind Dann gilt Schätzformel (Beste Schätzung des Standardfehlers aus Stichprobendaten)

Standard-Normalverteilung Normalverteilung – z –Standardnormalverteilung f (x) f (z) 0.10 0.10 Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte 0.05 0.05 x z 0.00 x _ 0.00 z _ 20 30 40 50 60 70 80 -3 -2 -1 1 2 3 Normalverteilung Standard-Normalverteilung Die z- Transformation übersetzt die Rohdatenskala in die Standardskala ( z = 0, sz = 1) _

[ ] [ ] Sampling Distribution – Prüfgrösse z- Skala der Differenzen von Mittelwerten Unter der H0 gilt Dann gilt: Prüfgrösse ist standardnormalverteilt [ ] Transformation [ ]

Testen zum Signifikanzniveau : Ist |z| > z1-a/2? Entscheidung über Prüfgrösse mit Standardnormalverteilung Prüfgrösse Signifikanzniveau 0.2 0.1 t -4 -2 Annahmebereich Ablehnungsbereich 2 4 Testen zum Signifikanzniveau : Ist |z| > z1-a/2?

Ermittle kritischen z - Wert z1-a/2 für ein a- Fehlerniveau Entscheidung über Signifikanz des Mittelwerteunterschieds 1. Prüfgrösse Berechne Ermittle kritischen z - Wert z1-a/2 für ein a- Fehlerniveau 2. Kritischer z - Wert 3. Entscheide A. Gilt |z| > z1-a/2 Ablehnung von H0 (die Mittelwerte der J. und M. sind signifikant verschieden) B. Gilt |z| < z1-a/2 Beibehalten von H0 _ (die Mittelwerte der J. und M. unterscheiden sich zufällig)

z1-a/2 = z0.975 = 1.96 23.7 17.2 173 106 Differenz der Mittelwerte Numerisches Beispiel 23.7 17.2 173 106 Differenz der Mittelwerte 23.7 – 17.2 = 6.5 Standardfehler Prüfgrösse und Kritischer Wert z1-a/2 = z0.975 = 1.96 Entscheidung d.h. |z| > z1-a/2 2.52 > 1.96 H0 ablehnen Die Mittelwerte entstammen nicht derselben Population (unterscheiden sich signifikant)

Die Populationsvarianzen die beiden Stichproben zu Voraussetzungen der Prüfung Varianz-homogenität Die Populationsvarianzen die beiden Stichproben zu Grunde liegen, müssen gleich (homogen) sein. (Prüfung mit geignetem Verfahren) Unabhängigkeit b. Die Messeinheiten innerhalb jeder Stichprobe müssen unabhängig sein. c. Die Messeinheiten beider Stichproben dürfen nicht teilweise paarweise zuzuordnen sein. Verletzungen Der Test ist relativ robust gegen Verletzungen der Varianzhomogenität. Verletzungen der Unabhängigkeit (b.) führen zur Ungültigkeit der Prüfgrösse, der Unab- hängigkeit (c.) je nach Höhe der Korrelationen zu progressiven (kleine Korr.) oder zu konservativen Entscheidungen (hohe Korr.).

Herzinfarktpatienten Mittelwertsprüfung bei mehreren Variablen Beispiel Lebenszufriedenheit Arbeit Privatsphäre X1: Gehalt X4: Ehe X2: Entscheidungsfreiheit X5: Freunde/Beziehungen X3: Qualität der Kommunikation X6: Sexualität 10 Variablen Person Aktivität X7: Lebensansprüche X9: Hobbies X8: Sinnhaftigkeit X10: Sport/Fitness 2 Gruppen Gesunde Herzinfarktpatienten

Frage Teststrategie Probleme Ausweg Multivariate Mittelwertsvergleiche - Einzeltestungen Frage Unterscheiden sich Gesunde und Patienten im Variablen-komplex Lebenszufriedenheit? Teststrategie Wir testen auf jeder der 10 Skalen den Gruppenunterschied mit einem t- Test. Wenn irgend einer der Tests signifikant wird, sehen wir die Gruppen als verschieden an. Probleme Multiples Testen: Dieselbe Hypothese wird 10 mal geprüft. Unterstellte Unabhängigkeit: Man behandelt die einzelnen Skalen als unabhängig voneinander. Fehlendes Konstrukt: Lebenszufriendenheit wird nicht als Variablenkomplex mit Binnenstruktur behandelt. Mangelnde Teststärke: Man nutzt nicht die Korrelations- struktur der Variablen für einen leistungsfähigen Test. Ausweg Verwendung eines multivariaten Tests, der die Information aller 10 Variablen und ihrer Korrelationsstruktur in eine statistische Prüfgrösse einfliessen lässt.

a - Fehler Kumulierung Overall a Bonferroni Approximation Einzeltestungen - Bonferronikorrektur a - Fehler Kumulierung Bei simultanen Einzeltestungen „kumuliert“ sich das a – Risiko: Overall a Setzt man das overall -Niveau fest und löst nach auf, folgt Bonferroni Approximation Um alle m Tests auf einem konventionellen Alpha Niveau abzusichern, muss dieses durch die Anzahl der Tests geteilt werden. Bei 10 Tests muss man für ein overall Alpha = 5% ein Test-Alpha von 0.5% verwenden.

Hotelling‘s T2 MANOVA Diskriminanz- Analyse Multivariate Mittelwertsvergleiche - Verfahren Variablen-komplex Multivariates Testkonstrukt Multivariate Distanz (Mahalanobisdistanz) Optimale Linearkombination (Linear Discriminant Function) Multivariate Quadratsummen (SSCP-Matrizen-Zerlegung) Verfahren Hotelling‘s T2 MANOVA Diskriminanz- Analyse Alle Verfahren entscheiden über den Gruppenunterschied im gesamten Variablenkomplex mit einem statistischen Test

Grundprinzip (2 Gruppen) Kriterium der Optimierung Multivariates Testen - Diskriminanzanalyse Grundprinzip (2 Gruppen) Für die m Variablen finde eine Linearkombination zu einer neuen Variable so dass diese die Gruppen c1 und c2 optimal trennt. Kriterium der Optimierung Das Optimierungskriterium für die Wahl der bj lautet Die der bj sind so zu wählen, dass auf der neuen Variable y die Streuung zwischen den Gruppen zu der Streuung innerhalb der Gruppen ein maximales Verhältnis hat.

2D-Beispiel 2 Gruppen 2 Variablen Anforderung 2D Beispiel Diskriminanzanalyse 2D-Beispiel Man möchte trennen 2 Gruppen Stechmücken c1 Blindmücken c2 anhand von 2 Variablen Fühlerlänge x1 Flügellänge x2 Anforderung Maximale Gruppentrennung (Mittelwerte) Minimale Klassifikationsfehler (Fall-Klassifikation)

Regression Stechmücke Regression Blindmücke 2D Beispiel Diskriminanzanalyse Variablenraum Regression Stechmücke Blindmücke Stechmücke 1.40 1.20 Regression Blindmücke 1.00 x2 0.80 (Flügelänge) 0.60 0.40 0.20 0.00 0.00 0.10 0.20 0.30 x1 0.40 0.50 0.60 0.70 (Fühlerlänge) Ausgangslage Klassifiziere anhand von Fühlerlänge (X1) und Flügellänge (X2) möglichst eindeutig in Stechmücke (c1) und Blindmücke (c2). In beiden Gruppen existiert eine Korrelation der Variablen Fühlerlänge (X1) und Flügellänge (X2).

Variablenraum Problem 2D Beispiel Diskriminanzanalyse x2 x1 Blindmücke Stechmücke Bestes Kriterium auf x2 Bestes Kriterium auf x1 x1 Problem Klassifiziere anhand von Fühlerlänge (X1) und Flügellänge (X2) möglichst eindeutig in Stechmücke (c1) und Blindmücke (c2). Das geht mit einem Kriteriumswert auf jeder einzelnen Variable X1 und X2 offenbar nicht.

Variablenraum Lösung 2D Beispiel Diskriminanzanalyse x2 x1 Blindmücke Stechmücke 1.40 Kriteriumsfunktion 1.20 1.00 x2 0.80 (Flügelänge) 0.60 0.40 0.20 0.00 0.00 0.10 0.20 0.30 x1 0.40 0.50 0.60 0.70 (Fühlerlänge) Lösung Eine lineare Kriteriumsfunktion teilt den Variablenraum in 2 Gebiete: Oberhalb Stechmücke (c1), unterhalb Blindmücke (c2). Somit folgt die Klassifikationsfunktion

a a Einfache Lösung x2 Zentrierung & Rotation ! x1 2D Beispiel Diskriminanzanalyse Einfache Lösung Zuerst die Daten im Nullpunkt zentrieren und dann um den optimalen Winkel a drehen ! x2 Zentrierung & Rotation ! a x1 a Die Varianz zwischen den Gruppen wird auf der Achse x‘1 maximiert, und x‘2 steht senkrecht x‘1. Eine Parallele zu x‘2 liefert das optimale Trennkriterium.

z-Standard 2D Beispiel Diskriminanzanalyse standardisiert z2 z1 3.00 2.00 1.00 z2 0.00 -1.00 -2.00 -3.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 z1

z-Standard Diskriminanz- funktion 2D Beispiel Diskriminanzanalyse Koordinaten rotiert um a = 46° (clockwise) 3.00 2.00 1.00 z‘2 0.00 -1.00 -2.00 -3.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 z‘1 Diskriminanz- funktion Die neue x- Achse z1‘ ist die Diskriminanzfunktion y. Auf ihr läßt sich ein Kriterium zur optimalen Trennung beider Gruppen finden. Da eine Drehoperation auf die Diskriminanzfunktion geführt hat, ist sie darstellbar als eine Linearkombination der alten Koordinaten:

y: Linear- kombination Koeffizienten von y 2D Beispiel Diskriminanzanalyse y: Linear- kombination y (Diskriminanzfunktion) Kriterium y0 blind stech Da gilt mit und Koeffizienten von y Das Auffinden der Koeffizienten b1 und b2 ist also identisch mit dem Problem, den optimalen Drehwinkel a zu bestimmen. Hierfür braucht man ein Kriterium der gewünschten maximalen Trennung, und die Lösung des dahinter stehenden Maximierungsproblems. [Excel-Beispiel]

z2 Rotation zur y - Funktion z1 Klassifikation 2D Beispiel Diskriminanzanalyse z2 Rotation zur y - Funktion y (Diskriminanzfunktion) Kriterium y0 blind stech z1 y (Diskriminanzfunktion) Klassifikation Case-Classification durch einfachen Vergleich mit dem Kriterium y0. Prüfung des Gruppenunterschieds mit einem einfachen t - Test auf y.