Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Tyyne Laine Geändert vor über 5 Jahren
1
Ökonometrie und Statistik Interaktion mittels Varianzanalyse Beispiele
Bertram Wassermann
2
Zweifaktorielle Varianzanalyse: Motivation
Wie kann man folgende Problemstellungen lösen? Produkttests: Unterscheidet sich die Waschkraft verschiedener Waschmittel bei unterschiedlichen Schmutzarten? Verkehr: Gibt es einen Zusammenhang zwischen Autotype und Unfallrate (= Anzahl der Unfälle pro gefahrenen Kilometern)? Spielt das Geschlecht des Fahrers / der Fahrerin dabei eine Rolle? Vier Automarken werden im Stadt- bzw. Überlandverkehr auf ihren Benzinverbrauch getestet. Welche Marke ist wo die Sparsamste? Landwirtschaft: Welche von drei Düngersorten steigert den Ertrag am stärksten? Man beachte dabei die Sorte Erde, in der angepflanzt wird. Medizin: Welche Behandlungsmethode, ambulant oder stationär angewandt, bietet die besten Heilungschancen bei einem bestimmten Krankheitsbild?
3
Zweifaktorielle Varianzanalyse: Modellgleichung
Modell mit zwei Faktoren: µ … Für alle Gruppen gemeinsam der Gesamt(mittel)wert µ. αi, bj … Für jede Stufe (Gruppe) des ersten Faktors wird der Mittelwert um αi verschoben und für jede Stufe des zweiten Faktors um bj. gij … Für die Kombination von Stufe i des ersten Faktors und Stufe j des zweiten Faktors wird der Mittelwert um gij verschoben. Um Eindeutigkeit für die zu schätzenden Parameter zu erlangen wird αk = 0, bp = 0, gkj = 0 und gip = 0 εijt … Fehlerterme mit der üblichen Annahme und Unabhängigkeit. nij … Es gibt nij Beobachtungen, die bzgl. des ersten Faktors in Stufe (Gruppe) i und bzgl. des 2. Faktors in Stufe j liegen. Im einfachsten Falle sind alle Stufen gleich groß: nij = n für alle i und j.
4
Zweifaktorielle Varianzanalyse: Fragestellungen
Bei einer zweifaktoriellen Varianzanalyse gilt es folgende Fragestellungen abklären: 1) Ist die Zielvariable von der Kombination der beiden Haupteffekte abhängig, und zwar … rein additiv, die Haupteffekte haben unabhängig von einander eine Einfluss auf die Zielvariable … interaktiv, der Einfluss auf die Zielvariable beruht auf einer Wechselwirkung der Haupteffekt 2) Hat nur einer der beiden Hauptfaktoren (Haupteffekte) einen Einfluss auf die Zielvariable? Welcher Faktor ist das? In diesem Fall reduziert sich die Fragestellung auf eine einfaktorielle Varianzanalyse. 3) Selbst wenn beide Faktoren keinen Einfluss auf die Zielvariable zeigen, ist die Frage zu klären, hat der Erwartungswert der Zielvariable eine bestimmte Größe (größer Null, kleiner Null, verschieden von Null)?
5
Modellkritik: Profilplot
Das Studium von Profilplots liefert im Falle der mehrfaktoriellen Varianzanalyse Hinweise für die Modellauswahl. Bei den folgenden Grafiken gehen wir von der Fragestellung wie im Buch Beispiel 9-7 aus: Untersucht wird die Wirksamkeit dreier Waschmittel A, B und C (Faktor 1 hat 3 Stufen, k=3 ) anhand zweier Fleckentypen – Gras und Schokolade (Faktor 2 hat 2 Stufen, p=2). Profilplot Daraus ergeben sich 6 (=3*2) Faktor-kombinationen. Für jede Kombination bestimmt man den Mittelwert der Zielvariable (im Beispiel ist das „Sauberkeit“) Die 6 Mittelwerte werden mit Hilfe einer Liniengrafik wie rechts dargestellt. Auf der x-Achse wird Faktor 1 aufgetragen. Für jeden Level von Faktor 2 wird eine eigen Kurve gezeichnet. Vorsicht! Streng genommen ist die Liniengrafik falsch. Die Linien von Waschmittel A zu Waschmittel B suggerieren, die Variable Waschmittel ist stetig, sie hat unendlich viele Werte. Sie ist aber kategorial mit genau 3 Ausprägungen. Dennoch verwendet man wegen der besseren Anschaulichkeit Linien.
6
Modellkritik: Profilplot, Einfluss beider Faktoren
Beide Faktor haben Einfluss Addition der Haupteffekte Der Mittelwert der abhängigen Variable nimmt für die Levels beider Faktoren verschiedene Werte an. Die Profile laufen ungefähr „parallel“: die Form der Profile von Faktor 1 ist für beide Levels von Faktor 2 gleich, nur eines ist höher als das andere. Wechselwirkung der Haupteffekt Die Profile von Faktor 1 unterscheiden sich ja nach Level von Faktor 2. Sie verlaufen nicht parallel.
7
Modellkritik: Profilplot, Einfluss beider Faktoren
Beide Faktor haben Einfluss Addition der Haupteffekte Im Waschmittelbeispiel bedeutet das: Eine der drei Marken wäscht besser als die anderen. Alle 3 Marken tun sich mit der einen Schmutzart leichter als mit der anderen. Marke B ist bei beiden Schmutzarten den anderen Marken vorzuziehen. Wechselwirkung der Haupteffekt Aber das hängt von der Schmutzart ab. Marke B ist am besten einsetzbar bei der blauen Schmutzart. Bei der Roten sollte man besser Marke C verwenden.
8
Modellkritik: Profilplot, Einfluss nur eines Faktors
Nur ein Faktor hat Einfluss Der Mittelwert der abhängigen Variable nimmt für die Levels des ersten Faktors verschiedene Werte an. Bezüglich des zweiten Faktors scheinen sie sich nicht zu unterscheiden. Zumindest ist der Einfluss von Faktor 1 stärker als der von Faktor 2 . Der Mittelwert der abhängigen Variable nimmt für die Levels des zweiten Faktors verschiedene Werte an. Bezüglich des ersten Faktors scheinen sie sich nicht zu unterscheiden. Zumindest ist der Einfluss von Faktor 2 stärker als der von Faktor 1.
9
Modellkritik: Profilplot, Einfluss nur eines Faktors
Nur ein Faktor hat Einfluss Im Waschmittelbeispiel bedeutet das: Eine der drei Marken wäscht besser als die anderen. Alle 3 Marken wirken bei beiden Schmutzart gleich. Marke B ist bei beiden Schmutzarten den anderen Marken vorzuziehen. Die drei Marken unterscheiden sich in ihrer Waschkraft nicht (oder kaum). Alle 3 Marken tun sich mit der roten Schmutzart leichter als mit der blauen. Die Wahl der Marke hat keinerlei Einfluss auf das Waschresultat. Allerdings können alle 3 Marken Schmutzart Rot besser lösen.
10
Modellkritik: Profilplot, Einfluss keines Faktors
Kein Faktor hat Einfluss Der Mittelwert der abhängigen Variable ist 0. Der Wert ist für die Level der beiden Faktoren gleich. Die abhängige Variable scheint von den Faktoren unabhängig zu sein. Der Mittelwert der abhängigen Variable ist verschieden von 0.
11
Modellkritik: Profilplot, Einfluss keines Faktors
Kein Faktor hat Einfluss Im Waschmittelbeispiel bedeutet das: Keine der drei Marken wäscht besser als die anderen. Alle 3 Marken wirken bei beiden Schmutzart gleich, nämlich überhaupt nicht. Man muss bei den drei Substanzen grundsätzlich die Funktion als Waschmittel bezweifeln. Alle 3 Marken wirken bei beiden Schmutzart gleich. Wenn es auch keine Unterschiede gibt, so helfen die Waschmittel doch die Wäsche sauberer zu machen.
12
Modellkritik: Profilplot, Beispiele
Die Erfolgschancen von Drüsenkrebsbehandlung mittels zweier Therapien.
13
Modellkritik: Profilplot, Beispiele
Wie entwickelt sich der Anteil von Lungenkrebstoten in Abhängigkeit vom Alter und Geschlecht? Untersucht in Ohio, USA
14
Modellkritik: Profilplot, Beispiele
Das Gewicht verschiedener Fischarten getrennt nach Geschlecht (falls vorhanden)
15
Modellkritik: Profilplot, Beispiele
Wie hängt der Margarineverkauf von der Platzierung und Verpackung des Produkts ab?
16
Modellkritik: Profilplot, Beispiele
Wie hängt der Margarineverkauf von der Platzierung und Verpackung des Produkts ab?
17
Zweifaktorielle Varianzanalyse: Varianzzerlegung
Um nun die Signifikanz des Einflusses eines der Faktoren oder gar ihrer Kombinationen auf die Zielvariable überprüfen zu können, verwendet man wieder eine Varianzzerlegung mit entsprechenden F-Tests. Im Gegensatz zur einfaktoriellen Varianzanalyse gibt es jetzt nicht 2 sondern 4 Summanden in der Varianzzerlegung.
18
Zweifaktorielle Varianzanalyse: Varianzzerlegung
Summe der Abweichungsquadrate zwischen den Gruppen (Es gibt nun 3 davon): Summe der Abweichungsquadrate innerhalb der Gruppe: Gesamte Quadratsumme: Varianzzerlegungseigenschaft: SQT = SQA + SQB+SQ(AB)+SQR
19
Zweifaktorielle Varianzanalyse: Zu testende Hypothese
Test ob wenigstens eine Stufe sich von den anderen Stufen unterscheidet und das für beide Haupteffekte und die Interaktion getrennt: H0,A: a1 = a2 = …= ak = 0 F-Verteilung mit k-1und kp(n-1) Freiheitsgraden H0,B: β1 = β2 = …= βk = 0 F-Verteilung mit p-1 und kp(n-1) Freiheitsgraden H0,AB: gij = 0 für alle Paare i,j F-Verteilung mit (k-1)(p-1) und kp(n-1) Freiheitsgraden
20
Modellkritik: Checkliste
Zur Modellkritik und Modellauswahl betrachten Sie: Wert von R²: Grundsätzlich gilt, groß ist gut. Wert der F-Statistik: Die Teststatistik des F-Tests sollte so groß sein, dass die Null-Hypothese verworfen werden kann. Auch hier gilt, groß ist gut. Allerdings, wenn man Variablen ins Modell aufnimmt, wird R² zumindest tendenziell größer, die Teststatistik des F-Test möglicherweise kleiner. Es gilt die richtige Balance zu finde. Wert der Koeffizienten: Wie groß ist der Einfluss der Variablen auf die Prognose und somit auf das Modell? (z.B. Vergleiche Prognose mittels erstem und dritten Quartil einer Variable) T-Test: Ist der Koeffizient signifikant von 0 verschieden Residuen (Linearität): Kein Restmuster, und wenn Restmuster -> Untersuchung, Erklärung, Begründung, … Residuen (Hochrechnung): Normalverteilt, unabhängig, Varianz konstant (z.B. kein Trichter) Ausreißer: Vorsicht, es gibt zwei Arten, solche, die nicht ins Muster passen, und solche, die so gut ins Muster passen, dass sie eigentlich hauptsächlich für das gute R² verantwortlich sind. (Einfluss einzelner Datenpunkte auf die Koeffizientenschätzer!) Sachliche Plausibilität: Und immer gilt, das beste Modell ist absolut wertlos, wenn es Werte prognostiziert, die bestehendem, sachlichem Wissen widersprechen.
21
Beispiel: Benzinverbrauch
Beschreibung: Der Benzinverbrauch von vier Automarken soll unter zwei Bedingungen (Stadt- und Überlandverkehr) verglichen werden die folgende Tabelle gibt den Benzinverbrauch in Liter pro 100 km von jeweils vier Autos pro Marke wieder: Beispiel aus Brannath und Futschik S261 #9-18 A Stadt 7,40 A Stadt 8,20 A Land 5,50 A Land 6,20 B Stadt 8,40 B Stadt 9,60 B Land 7,50 B Land 7,30 C Stadt 9,50 C Stadt 9,10 C Land 7,80 C Land 8,00 D Stadt 15,30 D Stadt 15,50 D Land 15,70 D Land 15,20
22
Beispiel: Benzinverbrauch
Univariate Auswertungen
23
Beispiel: Benzinverbrauch
Bivariate Auswertungen
24
Beispiel: Benzinverbrauch
Multivariate Auswertungen
25
Beispiel: Benzinverbrauch
Grafische Varianzanalyse: Beobachten Sie, wie die Varianz der Daten durch Einbeziehen der Faktoren abnimmt.
26
Beispiel: Benzinverbrauch
Varianzmodell: Gesättigtes Modell R² ist sehr groß. Haupteffekte aber auch Interaktion haben einen signifikanten Einfluss im Modell. Die Parameterschätzer zeigen, was die Grafik bereits vermuten lässt: Der Verbrauch von Marke D ist signifikant höher als bei den anderen Marken. Bei Marke D lässt sich aber kein Unterschied im Verbrauch zwischen Stadt und Überland nachweisen – im Gegensatz zu den anderen Marken. Die Residuenplots sind in Ordnung. Man sieht aber auch einen Ausreißer (Marke D). Marke D hat einen deutlich höheren Verbrauch als die anderen 3 Marken.
27
Beispiel: Benzinverbrauch
Varianzmodell: Interaktionsmodell R² bleibt unverändert. Teststatistik und p-Wert des F-Tests ändern sich stark. Die Interaktion wird gerade dadurch sichtbar, dass der Koeffizient von [Marke= D] * [Region= Land] sehr klein ist und einen sehr großen p-Wert hat. Die Residuenplots sind in Ordnung. Man sieht aber auch einen Ausreißer (Marke D). Marke D hat einen deutlich höheren Verbrauch als die anderen 3 Marken.
28
Beispiel: Benzinverbrauch
Varianzmodell: Ohne Marke D R² ist hoch. Die Interaktion ist nicht mehr signifikant. Die beiden Haupteffekt reichen zur Erklärung des Benzinverbrauches. Der signifikante Parameterschätzer von Region= Land besagt, dass unabhängig von der Marke A, B oder C bei Fahrten Überland weniger Benzin verbraucht wird als in der Stadt und zwar um durchschnittliche 1,4 Liter. Marke A ist sparsamer im Verbrauch als die beiden anderen. Bei Marke B und C lässt sich laut Post – Hoc Analyse kein Unterschied nachweisen.
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.