Fortgeschrittene Statistische Methoden Cordula Hunt

Fortgeschrittene Statistische Methoden Cordula Hunt 30.01.2019
Klausurvorbereitung Fortgeschrittene Statistische Methoden Cordula Hunt

Antworten zb für mehrere Gruppen gibt es nicht – ausschließlich ein Kriterium bei zwei Gruppen Wilk‘s Lambda inhaltlich: Anteil der Fehlervarianz Wilk‘s Lambda = 0,3 -> 30% Fehlervarianz im Modell R2 = 1-0,3 = 0,7 -> 70% aufgeklärte Varianz im Modell Falls es nicht explizit gefordert ist, brauchen in der Klausur keine Voraussetzungen geprüft werden. .

Antworten Wenn mehrere Variablen aus einem Modell weggelassen werden immer STEPWISE vorgehen Eine Variable nach der anderen weglassen und nur anhand des neuen reduzierten Modells entscheiden, ob noch eine weggelassen werden kann So wie in der Übung: Feststellung: Ind ist nicht signifikant und leistet keinen großen Beitrag Ind weglassen Modell mit 3 Variablen rechnen Feststellung: Sp ist nicht signifikant und leistet keinen großen Beitrag Sp weglassen Modell mit 2 Variablen rechnen Feststellung: die beiden übrigen Variablen VC und WF sind beide signifikant. Entscheidung: Modell mit den 2 Variablen VC und WF

Antworten R2Change bei Variablen:
R2Change = R2overall 4Var – R2Var1 = 0,1% Wenn R2Change für Var1 = 0,1% dann verschlechtert sich die gesamte aufgeklärte Varianz bei einem reduzierten Modell um genau diesen Betrag: R2overall 4Var – R2overall 3Var = 0,1%

Voraussetzungen DFA Multivariate Normalverteilung: QQ-Plot
Formel: D2 = z * R-1 * zT D2 ist c2 verteilt -> Quantile der multivariaten Normalverteilung: c2 Plot: c2 gegen D2 Korrelation rqq berechnen Korrelationstest: rqq < rkrit(a) -> Verwerfen, dass auf a-Niveau multivar. NV gilt a progressiv wählen (10%) Ausreißer: D2 > c2p (pmax)

Voraussetzungen DFA homogene Varianz-Kovarianz-Matrizen: Box-M Test
MANOVA in Statistica: Höherer Modelle -> Allgemeine Lineare Modelle -> ANOVA mit Messwiederholung -> Variablen und Gruppierungsvariable auswählen als Kategorialer Faktor -> Bei abhängigen Variablen nichts weiter spezifizieren (dann wird MANOVA gerechnet) Ergebnisdialog -> weitere Ergebnisse -> Annahmen -> Box M Test (Kovarianzmatrix)

Entscheidungstheorie und Nutzenfunktion
Ziel: Gruppentrennung bei zwei Gruppen Tabellen: Häufigkeit = Anzahl von Personen pro Gruppe Nutzen = Welchen Nutzen hat jede Zelle?

Festlegung eines Kriteriums – braucht einen Zweck Anteil der Korrekten zu maximieren Bayes-Regel -> Nutzen maximieren …. Relative Häufigkeiten berechnen sich als Zelle / Summe -> Hits / SUM(H1) FA / SUM(H0) Miss / SUM(H1) CR / SUM(H0) Beta = p0/p1 V V10 V V00

Wie übertragen wir b auf unsere Daten? Welchen Wert nehmen wir als „Bruchstelle“, so dass wir die Werte darunter der einen Gruppe und die Werte darüber der anderen Gruppe zuordnen können? Kriterium -> Standardisierung: d‘ = (mu1-mu0) / sigma Es wird so standardisiert, dass die Mittelwerte um 0 symmetrisch verteilt sind. Das optimale beta-Kriterium ist dann immer z_beta = ln(beta)/d‘ (das + d‘/2 entfällt also und kommt nur rein, wenn man so standardisieren würde, dass mu_0 = 0 wäre.

Wie verändert sich die proportion correct, wenn wir unser zb verändert? b = 1,528 zb = 0,950

Wie verändert sich die der Nutzen (expected value), wenn wir unser zb verändert? b = 1,843 zb = 1,104

Berechnung des Drehwinkels
Phi = GRAD(ARCCOS(b1)) Drehmatrix: cos -sin sin cos Gedrehte Achsen: Daraus folgt:

Berechnung des Drehwinkels
Wir habe maximale eine DF da die Anzahl der DFs das Minimum der Anzahl der Variablen (2) und der Anzahl der Gruppen minus 1 (2-1=1) Also gilt für diese DF: y = cos(a)z1 – sin(a)z2 Umgekehrt folgt wenn wir y = b1z1 + b2z2 ausgerechnet haben für Phi dass gilt: Phi = a = arccos(b1) = -arcsin(b2) also Phi = GRAD(ARCCOS(b1)) Cos(alpha) = b1 Alpha = arccos(b1)

Interpretation Datenoutput
QQ-Plot Normalverteilte Daten

QQ-Plot exponential verteilter Daten

Hotteling‘s T^2 -> paarweise Mittelwertsvergleiche T^2_emp mit T^2_krit vergleichen -> Interpretation der Signifikanz (P-Wert -> Signifikanzinterpretation)

Interpretation Datenoutput Statistica
1 2 Zusammenhang von Variablen mit Roots bei einer DFA „Ladungen“ Wie setzen sich die Roots inhaltlich zusammen? 1: Inhaltliche Zusammensetzung Root 1-> Root1 wird inhalt. Hauptsächlich bestimmt durch Var3 und gar nicht durch die anderen Vars 2: Inhaltl. Zusammens. Root 2 -> Root2 wird inhaltl. Stark bestimmt durch Var2 und auch beeinflusst von Var4. Nicht von Var1 und Var2. -> R1 klassifiziert haupts. Nach Var1, während R2 nach Var2 und etwas nach Var4 klassifiziert.

2 1 Standardisierte Koeffizienten der Roots -> damit können wir Gleichungen der Roots aufstellen 1: Eigenwerte Roots 2: Gleichungskoeffizienten Root2 (stand.) -> Gleichung: Y2 = b21z1 + b22z2 + b23z3 + b24z4 -> hier z-stand. Werte verwenden; Standardisierung an COV_pool wenn man die Rohdaten z-standardisiert, und hierzu für s die gepoolte Standardabweichung nimmt, dann fallen die unstandardisierte DFA Lösung und die standardisierte DFA Lösung zusammen, wenn man die z-Daten analysiert

1 2 2 3 Info über Variablen bei DFA 1: In einer Gesamtlösung OHNE Var1 sind 0,1219 = 12,19% Fehlervarianz enthalten 2: In der Gesamtlsg OHNE Var2 sind 19,80% Fehlervarianz enthalten und 80,20% aufgekl. Varianz 3: Die Variable Var4 ist mit p<0,0001 signifikant.

Scatterplot -> wie verorten sich die Individualwerte in der Ebene, die von den beiden Roots aufgespannt wird? Beide Roots scheinen zur Trennleistung beizutragen, dabei unterscheiden sich die x-Werte (R1) mehr als die y-Werte (R2) zwischen den Gruppen.

2 1 Unstandardisierte Koeffizienten für kanon. Variablen 1: EW der beiden Roots 2: damit kann man die Gleichung für Root1 aufstellen: Y1= b10 + b11x1 + b12x2 + b13x3 + b14x4 Hier werden die Rohdaten unstandard. Verwendet wenn man die Rohdaten z-standardisiert, und hierzu für s die gepoolte Standardabweichung nimmt, dann fallen die unstandardisierte DFA Lösung und die standardisierte DFA Lösung zusammen, wenn man die z-Daten analysiert

1 4 5 2 3 6 Signifikanzprüfung der Roots bei DFA 1: EW Root1 2: EW Root2 3: kanonisches R der Root 2 -> quadriert erhält man das R^2 der Root2; Root1 R^2 = 72,42%, Root2 R^2 = 56,68% 4: Wilk‘s Lambda der Gesamtlösung 5: p-Wert der Gesamtlösung -> die Gesamtlösung ist bei p<0,01 signifikant. 6: p-Wert der Root2 -> Ein Modell ohne Root2 ist signifikant schlechter als die Gesamtlösung mit p<0,01.

Screeplot bei der Hauptkomponentenanalyse – Plot der Eigenwerte der HKs - Zwei der EWs liegen über 1 – ein klarer Knick ist nicht zu erkennen.

1 2 3 4 2 1 Faktorladungen bei einer Hauptkomponentenanalyse: 1: Faktor 1 alleine erklärt „nur“ 32,34% der Gesamtvarianz. 2: Eigenwert der ersten Hauptkomponente Eigenwerte sukzessiv fallend

Faktorenanalyse: Korrelationsmatrix R der Variablen bei (vor) der Faktorenanalyse: - Die Variablen korrelieren alle nicht oder nur sehr sehr gering miteinander. Die „höchste“ Korrelation von 0.29 findet sich zwischen Var2 und Var4.

2 1 Eigenwerte der Faktoren bei einer Hauptkomponentenanalyse 1: EW der dritten HK 2: aufgeklärte Varianz der zweiten HK -> die HK2 erklärt 28,68% der Gesamtvarianz.

Multiple-Choice Übung
1 1 1 1 1 1 1 19 1 Die Anwendung einer DFA setzt voraus, dass die Kovarianzmatrizen homogen sind. 20 1 Die Anwendung einer DFA setzt multivariate Normalverteilung voraus. 21 Die Anwendung einer DFA hat keine besonderen Voraussetzungen.

Multiple-Choice Lösung
19 1 Die Anwendung einer DFA setzt voraus, dass die Kovarianzmatrizen homogen sind. 20 1 Die Anwendung einer DFA setzt multivariate Normalverteilung voraus. 21 Die Anwendung einer DFA hat keine besonderen Voraussetzungen.

Fortgeschrittene Statistische Methoden Cordula Hunt

Ähnliche Präsentationen

Präsentation zum Thema: "Fortgeschrittene Statistische Methoden Cordula Hunt"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Fortgeschrittene Statistische Methoden Cordula Hunt

Ähnliche Präsentationen

Präsentation zum Thema: "Fortgeschrittene Statistische Methoden Cordula Hunt"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback