Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Ähnliche Präsentationen


Präsentation zum Thema: "Multivariate Analysemethoden Johannes Gutenberg Universität Mainz"—  Präsentation transkript:

1 Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
und Multivariates Testen Vorlesung & & Günter Meinhardt Johannes Gutenberg Universität Mainz Weisst du, wieviel Sternlein stehen An dem blauen Himmelszelt? Weisst du, wieviel Wolken gehen Weithin über alle Welt? (W. Hey, zit. nach N. Wiener, Cybernetics, Control and Communication in the Animal and the Machine)

2 Verfahrensdarstellung in Überblick Grundprinzip
Multivariate Analysemethoden & Multivariates Testen Vorlesung Verfahrensdarstellung in Überblick Grundprinzip wichtigsten mathematischen Beziehungen Anwendungsbeispielen Vertiefung mit Anwendungsbeispielen Arbeiten an 3 Project Files Übung Film einblenden. Dann nach Ortho-Test: Fahle-Folie einblenden (Stimulus-Spezifität) und sagen, dass auch die Beurteilung der Länge oder der Luminanz der Linien nicht möglich ist, wenn man nicht darauf geachtet hat (Task-Spezifität) Prüfung Kenntnisse aus WS2006/07 & SS2007 Freischussklausur: Abschlussklausur:

3 Prinzipien des inferenzstatistischen Schliessens Konfidenzintervalle
Multivariate Analysemethoden & Multivariates Testen Einführung Prinzipien des inferenzstatistischen Schliessens Konfidenzintervalle multivariate Mittelwertsvergleiche multivariate Varianzanalyse (MANOVA) Verfahren Logistische Regression Korrespondenzanalyse Conjoint Measurement Versuchspläne Typische Designs aus Allgemeine Experimentelle Psy. (Project File 1) Klinische Psy. (Project File 2) AOW (Project File 3) Film einblenden. Dann nach Ortho-Test: Fahle-Folie einblenden (Stimulus-Spezifität) und sagen, dass auch die Beurteilung der Länge oder der Luminanz der Linien nicht möglich ist, wenn man nicht darauf geachtet hat (Task-Spezifität) Ziele Wissen über statistische Verfahren Wissen über Untersuchungsstrategien Umsetzung mit Software

4 Literatur Multivariate Analysemethoden & Multivariates Testen a) b) c)
Johnson/Wichern b) Backhaus Literatur c) Bortz d) Winer

5 Sampling - Modellvorstellung
Prinzipien des statistischen Schliessens Sampling - Modellvorstellung Population Kennwerte Sampling Stichprobe Theoretische Statistik Welche Verteilung von Kennwerten wird sich ergeben, Wenn man den Sampling Vorgang unendlich oft wiederholt? Herleitung der Kennwerte-Verteilung (Sampling – Distribution) und Beschreibung ihrer Parameter. Methoden zur Schätzung der Parameter aus Stichprobendaten sowohl für univariate, als auch für multivariate Kennwerteverteilungen

6 Sampling - Modellvorstellung Sampling Distribution (1D)
Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Sampling Distribution (1D) Population Bilde Mittelwert Stichprobe des Umfangs n 1. - mal: 2. - mal: k. - mal: k- maliges Samplen von Stichproben derselben Größe n und Berechnen der Stichprobenmittelwerte führt auf eine Verteilung von Stichprobenmittelwerten (Sampling – Distribution)

7 Sampling - Modellvorstellung Mittelwerte
Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Mittelwerte Population Verteilung von Stichprobenmitteln k - Stichproben des Umfangs n „Sampling Distribution“ Erwartungswert Erwartungswert Erwartungstreue Die Sampling Distribution hat denselben Erwartungswert wie die Population, aus der die Stichproben gezogen wurden. Schätzstatistiken, die denselben Erwartungswert haben wie die Population, heissen erwartungstreu. Stichprobenmittelwerte sind erwartungstreue Schätzungen des Populationsparameters m

8 Sampling - Modellvorstellung Varianz
Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Varianz Population Verteilung von Stichprobenvarianzen k - Stichproben des Umfangs n Varianz Erwartungstreue: Die Stichprobenvarianz unterschätzt die Populationsvarianz tendenziell: Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz s2

9 Sampling - Modellvorstellung
Univariate - Verteilung der Stichprobenmittelwerte Sampling - Modellvorstellung Bias-Faktor Der Bias bei der Schätzung der Pop.Varianz aus der Stichprobenvarianz ist die Varianz der Stichprobenmittelwerte. Erwartungstreue: Die Stichprobenvarianz berechnet aus korrigiertem Umfang n-1 ist eine erwartungstreue Schätzung der Populationsvarianz

10 Central Limit Theorem 1. 2. Theoretische Sampling Distribution
Univariate - Verteilung der Stichprobenmittelwerte Central Limit Theorem Die Verteilung von Sampling-Mittelwerten nähern sich mit wachsendem Umfang der Sample-Stichproben einer Normalverteilung an. Für n > 30 ist die Approximation schon gut. m+s 0.00 0.05 0.10 Wahrscheinlichkeitsdichte m m+2s m-s m-2s Es gilt: 1. 2. Theoretische Sampling Distribution Die theoretische Sampling Distribution ist die Grundlage des statistischen Schliessens. Aussagen über den Zusammenhang von Stichprobenmittelwerten und Populationen werden mithilfe dieser Verteilung gewonnen (Inferenzstatistischer Schluss).

11 Anwendung 1. Konfidenz- Intervalle 2. WK- Aussagen z- Verteilung
Univariate - Verteilung der Stichprobenmittelwerte Anwendung 1. Konfidenz- Intervalle 2. WK- Aussagen Man habe einen Mittelwert aus einer Stichprobe der Größe n vorliegen. In welchem Bereich um den Mittelwert kann man den Populationsparameter m mit der Wahrscheinlichkeit 1-a erwarten? Der Populationsparameter m sei bekannt. In welchem Bereich um ihn liegen Mittelwerte mit der Wahrscheinlichkeit 1-a? z- Verteilung Mit Y der Verteilungsfunktion der Standardnormalverteilung. Für n < 50 sollte die t- Verteilung mit df = n – 1 verwendet werden.

12 t - und F-Test t2 – F- Äquivalenz Test- Äquivalenz: Bemerke:
Univariate - Verteilung der Stichprobenmittelwerte Hypothesen t - und F-Test H0: m = m0 H1: m ¹ m0 mit Es gilt t2 – F- Äquivalenz Äquivalenz von t- und F- Test Test- Äquivalenz: Eine zweiseitige Wahrscheinlichkeitsbestimmung auf der t – Verteilung ist der (grundsätzlich einseitigen) Wahrscheinlichkeitsbestimmung auf der F - Verteilung äquivalent. Bemerke:

13 Multivariates t Hotelling’s T 2 Definition Verteilung T 2
Multivariate - Verteilung der Stichprobenmittelwerte Vektoren Multivariates t ein p ´ 1 Mittelwertevektor ein p ´ 1 Mittelwertevektor Hotelling’s T 2 mit die Sample Varianz-Covarianz Matrix mit Korrektur n -1 der Daten-Zentroid angenommener Zentroid Definition Verteilung T 2 ist verteilt wie wenn die Stichprobe einer multivariat normalverteilten Grundgesamtheit entnommen ist. [JW-Beispiel-5.1]

14 Konfidenz-Ellipsoide
Multivariate - Verteilung der Stichprobenmittelwerte Sei ein Sample aus einer Population so gilt Verteilung T 2 für jedes angenommene egal, wie das wahre und sind. F- Test Man lehnt die H0: m = m0 daher auf Signifikanzniveau a ab, wenn Konfidenz-Ellipsoide Gleichzeitig definiert die Distanzbedingung in einem p-variat normalverteilten Ellipsoid Konfidenzregionen, die man für jedes angenommene m um für ein a spannen kann. [Beispiele]

15 Multivariate Central Limit Theorem Regel
Multivariate - Verteilung der Stichprobenmittelwerte Sei Multivariate Central Limit Theorem eine Stichprobe aus einer Population mit Erwartungsvektor und Varianz-Covarianz Matrix Dann gilt ist approximativ und ist approximativ verteilt wenn n – p groß ist. Regel Für n < 50 ist die Voraussetzung der multivariaten Normalverteilung in der Stichprobe jedem Falle zu prüfen, und die T2 Statistik heranzuziehen. Bei grösseren Stichproben kann direkt die c2 Statistik angewendet werden. In jedem Fall sollte eine Ausreißerbehandlung durchgeführt werden.

16 [ ] m univariat multivariat (p=2) Konfidenz-region im Ellipsoid
Simultane univariate Konfidenzregionen um Mittelwert univariat m [ ] multivariat (p=2) Länge = Länge = Konfidenz-region im Ellipsoid (1-a) Konfidenzregion für m in der bivariat normalverteilten Sampling- Distribution, die um gespannt ist. [Beispiele]

17 Univariates CI Simultane Konfidenz Intervalle
Simultane univariate Konfidenzintervalle Univariates CI Ein (1-a) Konfidenzintervall für eine Variablenkomponente wird im Kontext aller p univariaten Konfidenzaussagen betrachtet. Das univariate Konfidenzintervall (CI) das jj-te Element von führt im Kontext aller p- möglichen Vergleiche zu einem inflationierten a- Fehler und damit zu falschen, progressiven Entscheidungen. Simultane Konfidenz Intervalle Konfidenzintervalle pro Variablenkomponente, die alle möglichen Vergleiche auf einem (overall) a-Niveau absichern, lauten Simultane CIs definieren die Bounding-Box der CI-Ellipse.

18 Simultane CIs Overall a Bonferroni Approximation CI
Simultane univariate Konfidenzintervalle Simultane CIs Die simultanen CIs sind konservativ, und können durch eine Approximation für unabhängige Variablenachsen ersetzt werden. Im simultanen Kontext kann die a- Fehler Inflation durch Wahl eines neuen a Niveaus für jeden Einzeltest für ein gewünschtes overall kompensiert werden. Es gilt für ein vorgegebenes overall Overall a Bonferroni Approximation Konfidenzintervalle pro Variablenkomponente werden durch Wahl eines neuen a-Niveaus alle auf einem (overall) -Niveau abgesichert. CI

19 Vergleich der CIs CI-Aussagen
Univariate - Multivariate – Konfidenzregionen Vergleich der CIs 0.70 alpha-CE 0.65 DataCentroid Simultanes CI Bonferroni ProbeCentroid 1D (falsch) x2 0.60 0.55 0.50 0.50 0.55 0.60 0.65 0.70 x1 2D Konfidenzregionen und 1D Konfidenzintervalle ermöglichen verschiedene Entscheidungen, je nachdem, ob Paarungen von Mittelwerten (Centroiden) oder einzelne Mittelwerte interessieren. Zu beachten ist, dass im multivariaten Kontext Aussagen für eine Achse strenggenommen nie ohne Berücksichtigung des Wertes auf den anderen Variablenachsen gemacht werden können (Bounding- Box und Bonferroni-Box hat immer mehr Fläche als die CI-Ellipse) CI-Aussagen

20 Sample Meßeinheiten Sampling- Distribution Test-Statistik
Univariate und multivariate Mittelwertevergleiche Sample univariat multivariat Meßeinheiten unabhängig abhängig unabhängig abhängig Sampling- Distribution Differenzen von Mittelwerten gepoolte Varianzen Mittelwerte von Differenzen Differenzvektor von Centroiden Gepoolte Var-Covar Mat. Centroide von Differenz- vektoren Test-Statistik t t T2 T2 Multivariate Mittelwertsvergleiche sind die direkte Entsprechung zu univariaten Vergleichen. Es gelten dieselben Prinzipien, lediglich angewendet auf Centroid-Vektor und Varianz-Covarianz Matrix.

21 t- Test für unabhängige Stichproben
Univariate Mittelwertevergleiche t- Test für unabhängige Stichproben Hypothese (ungerichtet) H0: Der Erwartungswert der Differenzen von Mittelwerten ist Null Sampling Distribution Es gilt: 1. 0.10 2. wird geschätzt aus beiden Stichproben Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. 3. ist t- verteilt. Wahrscheinlichkeitsdichte 0.05 0.00 [t-Test ausführlich?]

22 t- Test für unabhängige Stichproben
Univariate Mittelwertevergleiche t- Test für unabhängige Stichproben Statistik Entscheidung: Prüfgrösse t- verteilt mit n0 + n1 – 2 Freiheitsgraden a) Krit. t-Wert Ablehnung von H0, sonst Beibehaltung b) Überschreit ungs-WK oder Ablehnung von H0, sonst Beibehaltung Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. Voraussetzung Für n0 + n1 < 50 normalverteilte Stichprobendaten Homogene Stichprobenvarianzen Unabhängige Messeinheiten innerhalb und zwischen den Samples.

23 t- Test für abhängige Stichproben
Univariate Mittelwertevergleiche t- Test für abhängige Stichproben Hypothese (ungerichtet) H0: Der Erwartungswert der Mittelwerte von Differenzen ist Null Sampling Distribution Es gilt: 1. 0.10 2. wird geschätzt aus Differenzenstichprobe Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. 3. ist t- verteilt. Wahrscheinlichkeitsdichte 0.05 0.00

24 t- Test für abhängige Stichproben
Univariate Mittelwertevergleiche t- Test für abhängige Stichproben Statistik Entscheidung: Prüfgrösse t- verteilt mit n – 2 Freiheitsgraden (n = Anzahl Paare) a) Krit. t-Wert Ablehnung von H0, sonst Beibehaltung b) Überschreit ungs-WK oder Ablehnung von H0, sonst Beibehaltung Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. Voraussetzung Für n < 30 normalverteilte Stichprobendaten Homogene Stichprobenvarianzen müssen nicht vorliegen Korrelation der Meßreihen erhöht die Teststärke.

25 Hotelling‘s T2 - Test für abhängige Stichproben
Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für abhängige Stichproben Hypothese (ungerichtet) H0: Der Erwartungswert des Differenzencentroids ist Null Daten Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. p- dimensionaler Differenzvektor jeder i- ten Person (Differenzen der 2 Zeitpunkte auf den p- Variablen)

26 Hotelling‘s T2 - Test für abhängige Stichproben
Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für abhängige Stichproben Kenngrößen T2 - Statistik Entscheidung Lehne die H0 auf Signifikanzlevel a ab, wenn gilt Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. Mit F (1-a) dem (1-a) Quantil der F- Verteilung mit p Zähler- freiheitsgraden und n-p Nennerfreiheitsgraden.

27 Hotelling‘s T2 - Test für abhängige Stichproben
Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für abhängige Stichproben Konfidenz- regionen definiert eine (1-a) Konfidenzregion im Ellipsoid um für d. Wenn n-p groß ist, gilt und die Stichproben müssen nicht multivariat normalverteilt sein. Komponenten Konfidenz-intervalle Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. definiert univariate (1-a) Konfidenzintervalle um jeden Variablen- Differenzenmittelwert. Analog sind Bonferroni-Intervalle definiert.

28 Hotelling‘s T2 - Test für unabhängige Stichproben
Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Hypothese (ungerichtet) H0: Die Differenz der Erwartungs-Centroiden ist Null Daten Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. p- dimensionaler Messvektor jeder i- ten Person aus jeder Gruppe

29 Hotelling‘s T2 - Test für unabhängige Stichproben
Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Kenngrößen Mittelwertevektoren und Varianz-Covarianz Matrizen für jede Gruppe. Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. Gepoolte Var-Covar-Matrix

30 Hotelling‘s T2 - Test für unabhängige Stichproben
Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Kenngrößen T2 - Statistik Entscheidung Lehne die H0 auf Signifikanzlevel a ab, wenn gilt Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. Mit F (1-a) dem (1-a) Quantil der F- Verteilung mit p Zähler- freiheitsgraden und n0+n1-p-1 Nennerfreiheitsgraden.

31 Hotelling‘s T2 - Test für unabhängige Stichproben
Multivariate Mittelwertevergleiche Hotelling‘s T2 - Test für unabhängige Stichproben Konfidenz- regionen definiert eine (1-a) Konfidenzregion im Ellipsoid um für Distanzen d. Mit Komponenten Konfidenz-intervalle definiert Beide etwa schwellenhalbierung, gitterlerner etwas lt (schwelle fällt auf 75%), bar lerner weniger(auf nur 90%). Bevor man das weiter inferenzstatistisch untersucht und Interpretiert sollte man sich ein 2. Maß ansehen…. univariate (1-a) Konfidenzintervalle um jede Gruppendifferenz von Variablenmittelwerten. Sjj,pooled ist das jj-te Element der gepoolten Varianz-Covarianz Matrix. Bonferroni-Intervalle sind analog definiert.

32 p D-Normal Verteilung Beispiel 2D Multivariate Normalverteilung
Die Ellipsen der Form sind zentriert in und haben Hauptachsen mit Eigenwertbedingung Eine Eigenwertzerlegung der Varianz-Kovarianz Matrix liefert somit die Hauptachsen des p- variaten Ellipsoids der multivariaten Normalverteilung Beispiel 2D Länge = Länge =


Herunterladen ppt "Multivariate Analysemethoden Johannes Gutenberg Universität Mainz"

Ähnliche Präsentationen


Google-Anzeigen