Ökonometrie und Statistik Varianzanalyse Beispiele

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Gliederung 1. Einführung
Korrektur Tutoratsaufgaben V
Thema der Stunde I. Einführung in die Varianzanalyse:
EmPra Der Einfluss und die Verarbeitung von emotionalen Reizen
Einfaktorielle Varianzanalyse
Gliederung Vertrauensintervalle Arten von Hypothesen
Die Varianzanalyse Jonathan Harrington.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Mehrfachregressionen
Ein frohes und erfolgreiches Jahr
Hypothesen testen: Grundidee
Effektgrößen, Kontraste & Post-hoc-Tests
Aufgabe Der Zusammenhang zwischen einem traumatischen Erlebnis und der Entstehung einer PTBS wird von mehreren Variablen …………….: Copingstrategien, Kontrollüberzeigung,
Was steht in einer ANOVA - Tabelle?
Fragen Was wird mit der Alphafehler-Kumulierung bzw. –inflation bezeichnet? Wie hoch ist die Wahrscheinlichkeit bei einer Untersuchung mit 4 Gruppen einen.
Excel Kurs Teil VII Textfunktionen ( TEXT, LÄNGE, LINKS, RECHTS, TEIL, FINDEN ) Einladen von Textdateien Text in Spalten F. Bäumer.
Nachholung der Vorlesung vom Freitag
Ab nächster Woche wird die Übungsgruppe Gruppe 2: Henrike Berg Di SR 222 wegen Personalmangel eingestellt.
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Test auf Normalverteilung
Tutorium
Tutorium
Tutorium
Tutorium Aufgabe 1 a) E(eIX)= 0 E(eIX)= E(Y-E(YIX)IX) = E(YIX)- E (E(YIX)IX) = E(YIX)- E(YIX) = 0 Im Mittel macht man mit seiner Schätzung keinen.
Unser zehntes Tutorium Materialien unter:
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung: ANOVA I
Vorlesung: ANOVA II.
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Daten auswerten Boxplots
Varianzanalyse IV: Messwiederholung
EXCEL PROFESSIONAL KURS
Vergleich der 3 Arten des t-Tests Testergebnisse berichten
Chi Quadrat Test Tamara Katschnig.
7 Bessere Übersicht mit NamenInhaltsverzeichnis 7 Bessere Übersicht mit Namen 7.1Grundlagen 7.2Namen vergeben 7.3Namen in Formeln einsetzen 7.4Nützliches.
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Seminar: Datenerhebung
Varianzanalyse Teststatistik: F – Test -> vergleich zweier Varianzen -> Grundlage der Varianzanalyse Welche „Varianzen“ werden miteinander verglichen?
Die einfache/multiple lineare Regression
Varianzanalyse und Eta²
Preisfindung Rabattgruppen
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Exkurs: Chi-quadrat und Modellgüte 1. ist ein Distanzmaß, welches die Distanz zwischen Modellvorhersage und Daten misst.  Je kleiner desto besser ist.
Übersetzung: / Tradotto da:
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(ez)
Analysen univariater Stichproben
Die einfache/multiple lineare Regression
Signifikanz – was ist das überhaupt?
Ökonometrie und Statistik Logistische Regression
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Mehrfachregression
Kapitel 2: Testtheorie / Testmodelle
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Varianzanalyse Beispiele
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
Ökonometrie und Statistik Prüfungsthemen
Kapitel 2: Testtheorie / Testmodelle
Die Varianzanalyse Jonathan Harrington library(ggplot2) library(dplyr)
Ökonometrie und Statistik Wiederholung
Ökonometrie und Statistik Mehrfachregression
ANOVA für unabhängige Daten.
Ökonometrie und Statistik Logistische Regression
Johann D. Müller, Merlin Dwenger , Mats Böttrich
Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.
 Präsentation transkript:

Ökonometrie und Statistik Varianzanalyse Beispiele Bertram Wassermann

Übersicht I Einfaktorielle Varianzanalyse II Einfaktorielle Varianzanalyse in EXCEL III Beispiel: Hot Dogs (2x einfach) IV Zweifaktorielle Varianzanalyse V Beispiel: Varianzanalyse mit SPSS VI Beispiel: Benzinverbrauch (mehrfach) VII Beispiel: Geschmackstest (mehrfach) VIII Beispiel: Geschirr polieren (Kovariate, mehrstufiger Faktor, log Transformation)

Einfaktorielle Varianzanalyse: Motivation Wie kann man folgende Problemstellungen lösen? Produkttests: Unterscheidet sich die Waschkraft zwischen verschiedenen Waschmitteln? Unterscheiden sich diverse Kaffeemarken im Geschmack? Verkehr: Gibt es einen Zusammenhang zwischen Autotype und Unfallrate (= Anzahl der Unfälle pro 100.000 gefahrenen Kilometern)? Welches der Verkehrsmittel Privatauto, Straßen- bzw. U-Bahn und Fahrrad ist im Stadtverkehr schneller? Landwirtschaft: Welche von drei Düngersorten steigert den Ertrag am stärksten? Medizin: Welche Behandlungsmethode bietet die besten Heilungschancen bei einem bestimmten Krankheitsbild?

Einfaktorielle Varianzanalyse: Motivation Was haben diese Fragestellungen gemein? Für verschiedene Gruppen wird etwas gemessen: für mehrere Waschmittelmarken die Waschkraft für Kaffeemarken der Geschmack Unfallraten pro Autotyp Durchschnittlicher Ertrag pro Düngersorte Wie kann man die Fragestellungen beantworten? Man bestimmt für jede Gruppe den Mittelwert aller Messungen in dieser Gruppe und vergleicht die Mittelwerte miteinander. „Sieger“ ist jene Gruppe, die je nach Fragestellung im Durchschnitt am größten, am besten, am wenigsten oder am meisten irgendetwas ist. Wie kann eine statistische Formulierung dieser Problemstellung aussehen? Die Messungen bilden die Zielvariable. Diese muss metrisch skaliert sein, damit man Mittelwerte bilden kann. Es gibt eine unabhängige Variable, die beschreibt, zu welcher Gruppe eine Messung gehört. Dies ist daher eine nominal skalierte, kategoriale Variable. Pro Kategorie wird der Mittelwert der Zielvariable gebildet und diese miteinander verglichen.

Einfaktorielle Varianzanalyse: ein Beispiel (Buch 9-2) Problembeschreibung Eine Lebensmittelfirma vertreibt Konserven mit Wurstsalat. Um eine angemessene Haltbarkeit zu gewährleisten, muss dem Produkt ein Konservierungsmittel beigefügt werden. Drei verschiedene Substanzen kommen dafür in Betracht. Die Firma möchte nun wissen, ob die Haltbarkeit vom verwendeten Konservierungsmittel abhängt. Dazu wurden die 3 Substanzen in der empfohlenen Menge in jeweils vier Konserven beigegeben. Nach einer Woche Lagerung bei +8 Grad Celsius ermittelte man die Keimzahl aus Proben von den insgesamt 12 Konserven. Statistische Formulierung Zielvariable: Anzahl der Keime in einer Konserve unabhängige Variable: Art des Konservierungsmittels Daten und Auswertung Gesamt Keimzahl in Substanz A B C 56 68 72 70 63 82 48 58 80 60 62 85 Mittelwert 67 59 Mittelwert - Gesamt -9 -4 13

Einfaktorielle Varianzanalyse: Modellgleichung Varianzanalyse ist eine Form der Regressionsrechnung, wobei die Zielvariable metrisch ist und die erklärende Variable (auch Faktor genannt) kategorial mit m Gruppen (auch Level oder Stufen genannt). Modell: Für die j‘te Messung in der i‘ten Gruppe – Xij – wird geschätzt µ … Für alle Gruppen gemeinsam der Gesamt(mittel)wert µ. ai … Für jede Gruppe wird die Abweichung ai vom Gesamtwert µ geschätzt und zwar so, dass gilt ∑ ai = 0, um Eindeutigkeit für die Werte von ai zu erlangen. (Im R wird so geschätzt, dass immer α1 = 0 gesetzt wird). εij … Fehlerterme mit der bekannten Annahme und Unabhängigkeit. ni … Die i‘te Stufe (Gruppe) besteht aus ni Beobachtungen. Im einfachsten Falle sind alle Stufen gleich groß: ni = nj für alle i und j.

Einfaktorielle Varianzanalyse: ein Beispiel (Buch 9-2) Umsetzung im Beispiel Ge-samt Keimzahl in Substanz Schätzung pro Gruppe Residuen A B C 56 68 72 58,5 62,75 79,75 -2,5 5,25 -7,75 70 63 82 11,5 0,25 2,25 48 58 80 -10,5 -4,75 60 62 85 1,5 -0,75 Mittel-wert 67 n1=n2=n3=4 ai -8,5 -4,25 12,75 Von den 3 Konservierungsmitteln wirkt A am besten und C am schlechtesten. B ist fast so gut wie A. Diese Aussage beruht aber auf einer Stichprobe. Wird diese Aussage auch noch für alle Konserven in der Produktion gelten? Oder ist Konservierungsmittel A nur ein Zufallssieger?

Einfaktorielle Varianzanalyse: Varianzzerlegung Summe der Abweichungsquadrate zwischen den Gruppen: Summe der Abweichungsquadrate innerhalb der Gruppe: Gesamte Quadratsumme: Varianzzerlegungseigenschaft: SQT = SQA + SQR

Einfaktorielle Varianzanalyse: ein Beispiel (Buch 9-2) Umsetzung im Beispiel Ge-samt Keimzahl in Substanz Schätzung ohne Gruppen Schätzung pro Gruppe Residuen A B C 56 68 72 67 58,5 62,75 79,75 -2,5 5,25 -7,75 70 63 82 11,5 0,25 2,25 48 58 80 -10,5 -4,75 60 62 85 1,5 -0,75 Mittel-wert n1=n2=n3=4 ai -8,5 -4,25 12,75 SQA = 4 * [(67- 58,5)²+(67- 62,75 )²+(67- 79,75 )²]= = 4 * [ (-8,5)² + (-4,25)² + 12,75²] = 1011,5 SQR = (56 - 58,5)²+ (68 - 62,75)²+ (72 - 79,75)²+ (70 - 58,5)²+ (63 - 62,75)²+ (82 - 79,75)²+ (48 - 58,5)²+ (58 - 62,75)²+ (80 - 79,75)²+ (60 - 58,5)²+ (62 - 62,75)²+ (85 - 79,75)² = 394,5 SQT = 1011,5 + 394,5 = 1406,0

Einfaktorielle Varianzanalyse: Zu testende Hypothese Test ob wenigstens eine Gruppe sich von den anderen Gruppen unterscheidet: H0: a1 = a2 = …= ar = 0, H1: ai ≠ 0 für mindestens eine Gruppe Teststatistik: folgt einer F-Verteilung (Siehe Buch S. 322) mit Freiheitsgrade r-1 und n-r Wobei r … Anzahl der Gruppen n … Umfang der gesamten Stichprobe (n = n1+n2+ … +nr) (vgl. den F-Test für Mehrfachregression und die dort auftretenden Freiheitsgrade. Wesentlicher Unterschied in der Interpretation: Dort hatten wir verschiedene Variablen, hier haben wir verschiedene Stufen innerhalb der selben Variable!)

Einfaktorielle Varianzanalyse: ANOVA Tabelle Das Schema der ANOVA Tabelle   SQ df MQ F Quantile der F-Vert. A SQA df_A MQA Aus Tabelle Q(F)(1-a,df_A,df_R) R SQR df_R MQR T SQT df_T / = + + = / / = = = df_A = Anzahl der Gruppen – 1 df_T = Umfang der Stichprobe – 1 Umsetzung im Beispiel   SQ df MQ F Quantile der F-Vert. A 1011,5 2 505,8 11,5 4,26 R 394,5 9 43,8 T 1406 11

Übersicht I Einfaktorielle Varianzanalyse II Einfaktorielle Varianzanalyse in EXCEL III Beispiel: Hot Dogs (2x einfach) IV Zweifaktorielle Varianzanalyse V Beispiel: Varianzanalyse mit SPSS VI Beispiel: Benzinverbrauch (mehrfach) VII Beispiel: Geschmackstest (mehrfach) VIII Beispiel: Geschirr polieren (Kovariate, mehrstufiger Faktor, log Transformation)

Einfaktorielle Varianzanalyse in EXCEL 2003 Unter dem Menüpunkt Extras den Punkt Analyse-Funktionen auswählen. Es erscheint eine Liste von möglichen Funktionen. Einfaktorielle Varianzanalyse auswählen. Eingabebereich markieren. Die Daten zu jedem Level müssen in einer eigenen Spalte enthalten sind. In der ersten Zeile jeder dieser Spalten sollte die Bezeichnung des Level enthalten. Dann die Option Beschriftung in erster Zeile aktivieren. Sollte unter Extras kein Menüpunkt Analyse-Funktionen zu finden sein, dann überprüfen Sie, ob unter Extras Add-Ins… ein Add-In Analyse-Funktionen zu finden ist. Wenn ja, aktivieren Sie es. Wenn nein, dann müssen Sie es installieren und dann aktivieren.

Einfaktorielle Varianzanalyse in EXCEL 2007 Zunächst muss man die Daten in Spalten arrangieren, so dass pro Gruppe eine eigene Spalte verwendet wird, wie folgt: In der ersten Zeile jeder dieser Spalten sollte die Bezeichnung des Level (der Gruppe) enthalten. Dann unter dem Registerkarte Daten den Punkt Datenanalyse auswählen. Es erscheint eine Liste von möglichen Analyse-Funktionen. Ganz am Anfang der Liste Anova: Einfaktorielle Varianzanalyse auswählen. Eingabebereich markieren. Dann die Option Beschriftung in erster Zeile aktivieren. (Siehe Grafik folgende Seite)

Einfaktorielle Varianzanalyse in EXCEL 2007 Mit OK bestätigen. Ergebnis interpretieren. Sollte unter Daten kein Menüpunkt Analyse-Funktionen zu finden sein, dann überprüfen Sie, ob Analyse-Funktionen als Add-In überhaupt installiert ist. Klicken Sie auf die Schaltfläche „Office“ (Links oben, bunte Windos Scheibe), dann auf EXCEL-Optionen (rechts unten), dann aus der Liste links Add-Inns. Aktivieren Sie Analyse – Funktionen.

Übersicht I Einfaktorielle Varianzanalyse II Einfaktorielle Varianzanalyse in EXCEL III Beispiel: Hot Dogs (2x einfach) IV Zweifaktorielle Varianzanalyse V Beispiel: Varianzanalyse mit SPSS VI Beispiel: Benzinverbrauch (mehrfach) VII Beispiel: Geschmackstest (mehrfach) VIII Beispiel: Geschirr polieren (Kovariate, mehrstufiger Faktor, log Transformation)

Beispiel: Hot Dogs Beschreibung: Die vorliegenden Daten basieren auf Labor-Analyse von Hot Dogs der bekanntesten Marken. Die Speisen wurden auf ihren Kalorienwert (Variable CALORIES) und Natrium (SODIUM) hin überprüft. Bei der Analyse wurde unterschieden, aus welcher Art Fleisch der Hot Dog hauptsächlich gemacht war. Diese Information ist in der Variable Type enthalten. wobei Beef … der Hot Dog ist aus Rindfleisch Poultry … der Hot Dog ist aus Putenfleisch Meat … der Hot Dog ist aus einer Mischung von Schweine- und Rindfleisch und bis zu 15% Putenfleisch bedeuten

Beispiel: Hot Dogs Univariate Auswertungen

Beispiel: Hot Dogs Bivariate Auswertungen

Beispiel: Hot Dogs Bivariate Auswertungen

Beispiel: Hot Dogs Varianzmodell 1: Modell Calories R² ist nicht wirklich überragend. Sowohl die Konstante ist signifikant von 0 verschieden, also auch der Einfluss des Faktors TYPE ist signifikant. Auch die Parameterschätzer von Beef und Meat sind signifikant von 0 verschieden, was in diesem Fall bedeutet, der Kaloriengehalt von Beef und Meat Hot Dogs ist gegenüber Poultry Hot Dogs signifikant höher. Dass sich der Kaloriengehalt zwischen Beef und Meat Hot Dogs nicht signifikant unterscheidet, ersieht man erst aus der Post Hoc Analyse. Die Residuen schauen alles andere als schön aus, was aber bei einem so kleinem R² auch nicht überraschen sollte.

Beispiel: Hot Dogs Varianzmodell 2: Modell Natrium (Sodium) R² ist praktisch gleich 0, was Grund genug wäre, den Analyseansatz zu verbessern oder jede weitere Analyse dieser Daten einzustellen. Nur die Konstante ist signifikant von 0 verschieden. Das sagt uns, „In allen hot dogs ist Salz enthalten.“ Natürlich fallen alle anderen Tests auch nicht signifikant aus. Den niedrigen p-Wert von Beef sollte man in Anbetracht des R² und F-Test nicht überbewerten. Eine Beurteilung der Residuen erübrigt sich.