Fortgeschrittene Statistische Methoden Cordula Hunt

Slides:

Advertisements

Ähnliche Präsentationen

Faktorenanalyse.

Advertisements

T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.

Forschungsstrategien Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Thema der Stunde I. Einführung in die Varianzanalyse:

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.

Forschungsstatistik II

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.

Seminar Lehrevaluation

A-Priori Kontraste Prüfung des Mittelwerteunterschieds von Faktorstufen bzw. Kombinationen von Faktorstufen: z.B.: oder.

Hypothesen testen: Grundidee

Latente Variablen – Kennwerte zur Beurteilung von Modellen

Effektgrößen, Kontraste & Post-hoc-Tests

Strukturgleichungsmodelle

Unser letztes Tutorium

Unser letztes Tutorium Output – das Modell gut11 gut12 gut21 gut22 gut31 gut32 state1 state2 state3 XI MF

Unser schönstes Tutorium Materialien unter:

setzt Linearität des Zusammenhangs voraus

Varianzanalyse und Eta²

Faktorenanalyse Tamara Katschnig.

Testtheorie (Vorlesung 13: ) Wiederholung: Richtigstellung

Begriffe Ableitungen Rechnen mit Excel

Signifikanzprüfung Peter Wilhelm Herbstsemester 2015.

Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.

Kapitel 2: Testtheorie / Testmodelle  Multivariate (p-variate) Normalverteil- ung :  Mittelwertstruktur: p Mittelwerte  Kovarianzstruktur: p·(p+1)/2.

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

7.2 Theoretische Kennwerte

Varianzfortpflanzung

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Analysen univariater Stichproben

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Abiturprüfung Mathematik 2017 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analysis A 1 Lösungen der Aufgaben A 1.1 und A 1.2

Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Pflichtteil Lösungen

Kovarianz, Korrelation, (lineare) Regression

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Mehrfachregression

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Kapitel 2: Testtheorie / Testmodelle

Berechnung des Fixverktors bei stochastischen Matrizen

12 Das lineare Regressionsmodell

Berechnung der Gesamtqualifikation gemäß APO-GOSt B

Forschungsstrategien Johannes Gutenberg Universität Mainz

Abstandsbestimmungen

Erwartungswerte berechnen

Wahlteil 2009 – Geometrie II 1

Pflichtteil 2016 Aufgabe 6: Gegeben ist die Gerade

Das Vektorprodukt Wir definieren erneut eine Multiplikation zwischen zwei Vektoren, das Vektorprodukt, nicht zu verwechseln mit dem Skalarprodukt. Schreibe.

Wahlteil 2016 – Aufgabe B 1 Aufgabe B 1.1 In einem Koordinatensystem beschreiben die Punkte

Kapitel 2: Testtheorie / Testmodelle

Spiegelungen Punkt an Gerade Punkt an Ebene Gerade an Ebene

Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analytische Geometrie / Stochastik Aufgabe B 2.1 und B Lösungen.

Konfidenzintervalle und Tests auf Normalverteilung

Ökonometrie und Statistik Mehrfachregression

ANOVA für unabhängige Daten.

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Johann D. Müller, Merlin Dwenger , Mats Böttrich

Fortgeschrittene statistische Methoden SS2020

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Präsentation transkript:

Fortgeschrittene Statistische Methoden Cordula Hunt 30.01.2019 Klausurvorbereitung Fortgeschrittene Statistische Methoden Cordula Hunt 30.01.2019

Antworten zb für mehrere Gruppen gibt es nicht – ausschließlich ein Kriterium bei zwei Gruppen Wilk‘s Lambda inhaltlich: Anteil der Fehlervarianz Wilk‘s Lambda = 0,3 -> 30% Fehlervarianz im Modell R2 = 1-0,3 = 0,7 -> 70% aufgeklärte Varianz im Modell Falls es nicht explizit gefordert ist, brauchen in der Klausur keine Voraussetzungen geprüft werden. .

Antworten Wenn mehrere Variablen aus einem Modell weggelassen werden immer STEPWISE vorgehen Eine Variable nach der anderen weglassen und nur anhand des neuen reduzierten Modells entscheiden, ob noch eine weggelassen werden kann So wie in der Übung: Feststellung: Ind ist nicht signifikant und leistet keinen großen Beitrag Ind weglassen Modell mit 3 Variablen rechnen Feststellung: Sp ist nicht signifikant und leistet keinen großen Beitrag Sp weglassen Modell mit 2 Variablen rechnen Feststellung: die beiden übrigen Variablen VC und WF sind beide signifikant. Entscheidung: Modell mit den 2 Variablen VC und WF

Antworten R2Change bei Variablen: R2Change = R2overall 4Var – R2Var1 = 0,1% Wenn R2Change für Var1 = 0,1% dann verschlechtert sich die gesamte aufgeklärte Varianz bei einem reduzierten Modell um genau diesen Betrag: R2overall 4Var – R2overall 3Var = 0,1%

Voraussetzungen DFA Multivariate Normalverteilung: QQ-Plot Formel: D2 = z * R-1 * zT D2 ist c2 verteilt -> Quantile der multivariaten Normalverteilung: c2 Plot: c2 gegen D2 Korrelation rqq berechnen Korrelationstest: rqq < rkrit(a) -> Verwerfen, dass auf a-Niveau multivar. NV gilt a progressiv wählen (10%) Ausreißer: D2 > c2p (pmax)

Voraussetzungen DFA homogene Varianz-Kovarianz-Matrizen: Box-M Test MANOVA in Statistica: Höherer Modelle -> Allgemeine Lineare Modelle -> ANOVA mit Messwiederholung -> Variablen und Gruppierungsvariable auswählen als Kategorialer Faktor -> Bei abhängigen Variablen nichts weiter spezifizieren (dann wird MANOVA gerechnet) Ergebnisdialog -> weitere Ergebnisse -> Annahmen -> Box M Test (Kovarianzmatrix)

Entscheidungstheorie und Nutzenfunktion Ziel: Gruppentrennung bei zwei Gruppen Tabellen: Häufigkeit = Anzahl von Personen pro Gruppe Nutzen = Welchen Nutzen hat jede Zelle?

Entscheidungstheorie und Nutzenfunktion Festlegung eines Kriteriums – braucht einen Zweck Anteil der Korrekten zu maximieren Bayes-Regel -> Nutzen maximieren …. Relative Häufigkeiten berechnen sich als Zelle / Summe -> Hits / SUM(H1) FA / SUM(H0) Miss / SUM(H1) CR / SUM(H0) Beta = p0/p1 V11 V10 V01 V00

Entscheidungstheorie und Nutzenfunktion Wie übertragen wir b auf unsere Daten? Welchen Wert nehmen wir als „Bruchstelle“, so dass wir die Werte darunter der einen Gruppe und die Werte darüber der anderen Gruppe zuordnen können? Kriterium -> Standardisierung: d‘ = (mu1-mu0) / sigma Es wird so standardisiert, dass die Mittelwerte um 0 symmetrisch verteilt sind. Das optimale beta-Kriterium ist dann immer z_beta = ln(beta)/d‘ (das + d‘/2 entfällt also und kommt nur rein, wenn man so standardisieren würde, dass mu_0 = 0 wäre.

Entscheidungstheorie und Nutzenfunktion Wie verändert sich die proportion correct, wenn wir unser zb verändert? b = 1,528 zb = 0,950

Entscheidungstheorie und Nutzenfunktion Wie verändert sich die der Nutzen (expected value), wenn wir unser zb verändert? b = 1,843 zb = 1,104

Berechnung des Drehwinkels Phi = GRAD(ARCCOS(b1)) Drehmatrix: cos -sin sin cos Gedrehte Achsen: Daraus folgt:

Berechnung des Drehwinkels Wir habe maximale eine DF da die Anzahl der DFs das Minimum der Anzahl der Variablen (2) und der Anzahl der Gruppen minus 1 (2-1=1) Also gilt für diese DF: y = cos(a)z1 – sin(a)z2 Umgekehrt folgt wenn wir y = b1z1 + b2z2 ausgerechnet haben für Phi dass gilt: Phi = a = arccos(b1) = -arcsin(b2) also Phi = GRAD(ARCCOS(b1)) Cos(alpha) = b1 Alpha = arccos(b1)

Interpretation Datenoutput QQ-Plot Normalverteilte Daten

Interpretation Datenoutput QQ-Plot exponential verteilter Daten

Interpretation Datenoutput Hotteling‘s T^2 -> paarweise Mittelwertsvergleiche T^2_emp mit T^2_krit vergleichen -> Interpretation der Signifikanz (P-Wert -> Signifikanzinterpretation)

Interpretation Datenoutput Statistica 1 2 Zusammenhang von Variablen mit Roots bei einer DFA „Ladungen“ Wie setzen sich die Roots inhaltlich zusammen? 1: Inhaltliche Zusammensetzung Root 1-> Root1 wird inhalt. Hauptsächlich bestimmt durch Var3 und gar nicht durch die anderen Vars 2: Inhaltl. Zusammens. Root 2 -> Root2 wird inhaltl. Stark bestimmt durch Var2 und auch beeinflusst von Var4. Nicht von Var1 und Var2. -> R1 klassifiziert haupts. Nach Var1, während R2 nach Var2 und etwas nach Var4 klassifiziert.

Interpretation Datenoutput Statistica 2 1 Standardisierte Koeffizienten der Roots -> damit können wir Gleichungen der Roots aufstellen 1: Eigenwerte Roots 2: Gleichungskoeffizienten Root2 (stand.) -> Gleichung: Y2 = b21z1 + b22z2 + b23z3 + b24z4 -> hier z-stand. Werte verwenden; Standardisierung an COV_pool wenn man die Rohdaten z-standardisiert, und hierzu für s die gepoolte Standardabweichung nimmt, dann fallen die unstandardisierte DFA Lösung und die standardisierte DFA Lösung zusammen, wenn man die z-Daten analysiert

Interpretation Datenoutput Statistica 1 2 2 0.80194 3 Info über Variablen bei DFA 1: In einer Gesamtlösung OHNE Var1 sind 0,1219 = 12,19% Fehlervarianz enthalten 2: In der Gesamtlsg OHNE Var2 sind 19,80% Fehlervarianz enthalten und 80,20% aufgekl. Varianz 3: Die Variable Var4 ist mit p<0,0001 signifikant.

Interpretation Datenoutput Statistica Scatterplot -> wie verorten sich die Individualwerte in der Ebene, die von den beiden Roots aufgespannt wird? Beide Roots scheinen zur Trennleistung beizutragen, dabei unterscheiden sich die x-Werte (R1) mehr als die y-Werte (R2) zwischen den Gruppen.

Interpretation Datenoutput Statistica 2 1 Unstandardisierte Koeffizienten für kanon. Variablen 1: EW der beiden Roots 2: damit kann man die Gleichung für Root1 aufstellen: Y1= b10 + b11x1 + b12x2 + b13x3 + b14x4 Hier werden die Rohdaten unstandard. Verwendet wenn man die Rohdaten z-standardisiert, und hierzu für s die gepoolte Standardabweichung nimmt, dann fallen die unstandardisierte DFA Lösung und die standardisierte DFA Lösung zusammen, wenn man die z-Daten analysiert

Interpretation Datenoutput Statistica 1 4 5 2 3 6 Signifikanzprüfung der Roots bei DFA 1: EW Root1 2: EW Root2 3: kanonisches R der Root 2 -> quadriert erhält man das R^2 der Root2; Root1 R^2 = 72,42%, Root2 R^2 = 56,68% 4: Wilk‘s Lambda der Gesamtlösung 5: p-Wert der Gesamtlösung -> die Gesamtlösung ist bei p<0,01 signifikant. 6: p-Wert der Root2 -> Ein Modell ohne Root2 ist signifikant schlechter als die Gesamtlösung mit p<0,01.

Interpretation Datenoutput Statistica Screeplot bei der Hauptkomponentenanalyse – Plot der Eigenwerte der HKs - Zwei der EWs liegen über 1 – ein klarer Knick ist nicht zu erkennen.

Interpretation Datenoutput Statistica 1 2 3 4 2 1 Faktorladungen bei einer Hauptkomponentenanalyse: 1: Faktor 1 alleine erklärt „nur“ 32,34% der Gesamtvarianz. 2: Eigenwert der ersten Hauptkomponente Eigenwerte sukzessiv fallend

Interpretation Datenoutput Statistica Faktorenanalyse: Korrelationsmatrix R der Variablen bei (vor) der Faktorenanalyse: - Die Variablen korrelieren alle nicht oder nur sehr sehr gering miteinander. Die „höchste“ Korrelation von 0.29 findet sich zwischen Var2 und Var4.

Interpretation Datenoutput Statistica 2 1 Eigenwerte der Faktoren bei einer Hauptkomponentenanalyse 1: EW der dritten HK 2: aufgeklärte Varianz der zweiten HK -> die HK2 erklärt 28,68% der Gesamtvarianz.

Multiple-Choice Übung 1 1 1 1 1 1 1 19 1 Die Anwendung einer DFA setzt voraus, dass die Kovarianzmatrizen homogen sind. 20 1 Die Anwendung einer DFA setzt multivariate Normalverteilung voraus. 21 Die Anwendung einer DFA hat keine besonderen Voraussetzungen.

Multiple-Choice Lösung 19 1 Die Anwendung einer DFA setzt voraus, dass die Kovarianzmatrizen homogen sind. 20 1 Die Anwendung einer DFA setzt multivariate Normalverteilung voraus. 21 Die Anwendung einer DFA hat keine besonderen Voraussetzungen.