Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ökonometrie und Statistik Mehrfachregression

Ähnliche Präsentationen


Präsentation zum Thema: "Ökonometrie und Statistik Mehrfachregression"—  Präsentation transkript:

1 Ökonometrie und Statistik Mehrfachregression
Bertram Wassermann

2 Übersicht I Motivation und grafische Darstellung II
Ablauf multivariate Regressionsanalyse III Fallbeispiel 4: Trivariate Voranalyse IV Die Kennzahlen der multivariaten Regression V Fallbeispiel 4: Fortsetzung trivariate Voranalyse VI Beispiel: Der Trick mit der dichotomen Variable VII Fallbeispiel 4: Fortsetzung

3 Trivariate Regression: Geometrische Motivation
. Objekte als Punktwolke in einem mehrdimensionalen Raum . Lineares Modell als Beschreibung der Punktwolke … im zweidimensionalen Fall durch eine Gerade:

4 Trivariate Regression: Geometrische Motivation
. Objekte als Punktwolke in einem mehrdimensionalen Raum . Lineares Modell als Beschreibung der Punktwolke … im dreidimensionalen Fall durch eine Ebene:

5 Trivariate Regression: dreidimensionale Darstellung
. Nur dann wirklich sinnvoll, wenn ein interaktives Darstellungs- Tool genutzt wird. . Projektion von 3 Dimensionen auf 2 Dimensionen verzerrt immer.

6 Trivariate Regression: dreidimensionale Darstellung
. Nur dann wirklich sinnvoll, wenn ein interaktives Darstellungs- Tool genutzt wird. . Projektion von 3 Dimensionen auf 2 Dimensionen verzerrt immer.

7 Trivariate Regression: dreidimensionale Darstellung
. Nur dann wirklich sinnvoll, wenn ein interaktives Darstellungs- Tool genutzt wird. . Projektion von 3 Dimensionen auf 2 Dimensionen verzerrt immer.

8 Trivariate Regression: dreidimensionale Darstellung
. Nur dann wirklich sinnvoll, wenn ein interaktives Darstellungs- Tool genutzt wird. . Projektion von 3 Dimensionen auf 2 Dimensionen verzerrt immer.

9 Trivariate Regression: dreidimensionale Darstellung
. Nur dann wirklich sinnvoll, wenn ein interaktives Darstellungs- Tool genutzt wird. . Projektion von 3 Dimensionen auf 2 Dimensionen verzerrt immer.

10 Übersicht I Motivation und grafische Darstellung II
Ablauf multivariate Regressionsanalyse III Fallbeispiel 4: Trivariate Voranalyse IV Die Kennzahlen der multivariaten Regression V Fallbeispiel 4: Fortsetzung trivariate Voranalyse VI Beispiel: Der Trick mit der dichotomen Variable VII Fallbeispiel 4: Fortsetzung

11 Ablauf: Multivariate Regressionsanalyse
. Der Ablauf einer Multivariaten Regressionsanalyse ist natürlich nicht gänzlich verschieden vom Ablauf der Bivariaten Regressionsanalyse. . Es bedarf einiger Anpassungen. . Und sie ist natürlich umfangreicher.

12 Ablauf: Bi- und Multivariate Regressionsanalyse
. Fragestellung a) Beschreiben und verstehen b) Abklären . Grundgesamtheit a) Beschreibung b) Größe . Datenerfassung a) Erheben, messen b) Erfassen . Stichprobe a)Stichprobenverfahren b) Beschreibung c) Größe . Univariate Analyse der Variablen a) Kennzahlen Mittelwert, Standardabweichung, Schiefe Minimum, 1.Quantil, Median, 3.Quantil, Maximum Modus, eventuell 2., 3. etc. größte Werte b) Grafische Darstellung c) Datenkontrolle, Qualitätskontrolle d) Ziel: machen Sie sich ein Bild von den Objekten, die Sie vor sich haben.

13 Ablauf: Multivariate Regressionsanalyse
. Bivariate Regressionsanalyse (grafisch und rechnerisch) mit der Zielvariable (Regressand) und den einzelnen erklärenden Variablen (Regressoren) Ziel: einen ersten Eindruck der Zusammenhänge und eventuell bestehender Probleme zu bekommen. Zweidimensionale Grafik ist einfacher zu lesen und zu verstehen. (Vgl. darstellende Geometrie: Grund-, Seiten- und Aufriss) . Bivariate Regressionsanalyse (grafisch und rechnerisch) mit den erklärenden Variablen untereinander. Ziel: Feststellen, ob es zwischen den Regressoren Zusammenhänge gibt. Korrelation unter den Regressoren ist schlecht! Führt zu Problemen bei der Modellbildung.

14 Ablauf: Multivariate Regressionsanalyse
. Durchführung der multiplen Regression und Modellkritik anhand der Kennzahlen der multiplen Regression, die da sind multiples Bestimmheitsmaß bzw. multipler Korrelations-koeffizient F – Statistik Koeffizienten Tabelle mit Hypothesentest: Welche Koeffizienten sind signifikant von 0 verschieden? Welche Koeffizienten sind relevant? Residuen: Kein Muster und unabhängig. Normalverteilung für Hochrechnung notwendig . Modellinterpretation Übersetzen der Modellgleichung in eine sachliche / fachliche Sprache Plausibilitätsprüfung, welche Werte haben die Koeffizienten und passen diese zu dem, was ich mir erwartet habe.

15 Ablauf: Bi- und Multivariate Regressionsanalyse
. eventuell Ausreißer Behandlung: a) entfernen b) neue Modellierung c) Vergleich mit dem alten Modell . eventuell Datenmanipulation, um Modell zu verbessern Definition Grundgesamtheit schärfen Stichprobengröße erhöhen Neue Variablen zur Beschreibung der Objekte Nicht Lineare Regression . Ergebnisbeschreibung Eine Zusammenfassung aller getätigten Schritte

16 Übersicht I Motivation und grafische Darstellung II
Ablauf multivariate Regressionsanalyse III Fallbeispiel 4: Trivariate Voranalyse IV Die Kennzahlen der multivariaten Regression V Fallbeispiel 4: Fortsetzung trivariate Voranalyse VI Beispiel: Der Trick mit der dichotomen Variable VII Fallbeispiel 4: Fortsetzung

17 Fallbeispiel 4: Trivariate Voranalyse
Zahlreiche deutsche Städte erstellen sogenannte Mietspiegel, um Mietern, Vermietern, Mietberatungsstellen und Sachverständigen eine objektive Entscheidungshilfe in Mietfragen zur Verfügung zu stellen. Die Mietspiegel werden dabei insbesondere zur Ermittlung der ortsüblichen Vergleichsmiete (Nettomiete in Abhängigkeit von Wohnungsgröße, -ausstattung, -alter, etc.) herangezogen. Bei der Erstellung von Mietspiegeln wird aus der Gesamtheit aller in Frage kommenden Wohnungen eine repräsentative Zufallsstichprobe gezogen (im Fall der Stadt München durch Infratest), und die interessierenden Daten werden von Interviewern anhand von Fragebögen ermittelt. Der vorliegende Datensatz stellt einen Ausschnitt aus dem Mietspiegel München des Jahres 2003 dar und enthält die Daten von 1000 Wohnungen.

18 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Univariate Voranalysen Folien 1-3 Nettomiete (Regresand), Wohnfläche und Anzahl Zimmer (Regressoren) sollen untersucht werden Nm: ø ~ € 575, Median ~ € rechtschief, Fast 2 gipflig oder sehr breites Plateau (!) Ausreißer Wfl: ø ~ 70 m², Median = 69 m² - etwas rechtschief, Rooms: Wohnung mit mehr als 4 Räumen eher Ausnahmen. Einzimmerwohnungen mit 10% recht häufig.

19 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 4 Korrelationsmatrix mit Heatmap Paarweise Korrelationen zwischen den 3 Variablen wird ausgewiesen und in der Heatmap farblich dargestellt. Rot <-> starker positiver Zusammenhang Blau <-> starker negativer Zusammenhang Weiß <-> kaum Zusammenhang Alle 3 Variablen sind positiv korreliert. Die beiden Regressoren sind am stärksten korreliert! Kein gutes Zeichen. Regressoren sollten eher unkorreliert sein.

20 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 5 Nettomiete und Wohnfläche Zusammenhang ist stark, aber es bleibt doch einiges offen, da große Restvarianz. Nettomiete kommt auf € 7 pro Quadratmeter. Aufschlag oder Basispreis (Betriebskosten?) in der Höhe von € 77 Residuen enthalten auffälliges Trichter Muster: Die Streuung der Residuen wächst mit zunehmender Wohnfläche. Das stört Hochrechnung von Prognosen. Konfidenzintervalle sind für kleine Wohnungen zur groß und für große zu klein.

21 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 6 Nettomiete und Anzahl Räume Zusammenhang ist schwach. Nettomiete kommt auf € 132 pro Raum. Aufschlag oder Basispreis (Betriebskosten?) in der Höhe von € 233 Auch hier enthalten Residuen auffälliges Trichter Muster: Die Streuung der Residuen wächst mit der Anzahl der Räume. Streuung ist sehr hoch. Deutlich schlechteres Modell als das mit Wohnfläche.

22 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 7 Wohnfläche und Anzahl Räume, die Abhängigkeit zwischen den Regressoren Sehr starker Zusammenhang. Durchschnittliche Raumgröße 21m². Konstante schwer zu interpretieren, der Wert 0 liegt auch nicht im zulässigen Wertebereich. Frage an die Daten: Werden Vorräume in der Anzahl der Räume mitgezählt? Zusammenhang absolut plausibel: Je mehr Zimmer einen Wohnung hat, desto größer ist sie. Die beiden Variablen erklären etwas sehr Ähnliches: die Größe einer Wohnung. Wichtige Frage: Welchen Einfluss werden sie gemeinsam in der Regression entwickeln? Achtung Ausreißer!

23 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Analyse Folie 8 und 9 Nettomiete mit Wohnfläche und Anzahl Räume Wie sind die Tabellen auf Folie 9 zu lesen?

24 Übersicht I Motivation und grafische Darstellung II
Ablauf multivariate Regressionsanalyse III Fallbeispiel 4: Trivariate Voranalyse IV Die Kennzahlen der multivariaten Regression V Fallbeispiel 4: Fortsetzung trivariate Voranalyse VI Beispiel: Der Trick mit der dichotomen Variable VII Fallbeispiel 4: Fortsetzung

25 Lineare Regression: Modellgleichung
Bivariat: Multivariat: Zugehöriges Modell: Annahme bei Hochrechnung einer Stichprobe auf ihre Grundgesamtheit: Störterme sind unabhängig und Matrixschreibweise: y = X b X …Design-Matrix

26 Lineare Regression: Bestimmtheitsmaß, R²
R 2 =1− i=1 n e i i=1 n ( y i − y ) 2 Berechnung mittels Residuen: Und grundsätzlich gilt: R 2 = Durch Regression erklärte Varianz von Y 𝐺𝑒𝑠𝑎𝑚𝑡𝑣𝑎𝑟𝑖𝑎𝑛𝑧 𝑣𝑜𝑛 𝑌 R² entspricht daher dem Prozentsatz der erklärten Varianz an der Gesamtvarianz. R²korr=1−(1−R²)⋅(n−1)/(n−p−1) Zum Verständnis benötigt man die Varianzzerlegungseigenschaft.

27 Lineare Regression: Varianzzerlegungseigenschaft
Gesamt-quadratsumme: Erklärte Quadratsumme: Nicht erklärte Quadratsumme: Varianzzerlegungseigenschaft: SQT = SQE + SQR Für das multiple Bestimmtheitsmaß gilt:

28 Lineare Regression: ANOVA Tabelle
ANOVA Tabelle <-> ANalysis Of VAriance Tabelle Df Sum Sq MSq= Sq / Df F= MQE / MQR Regression (erklärte Varianz) k SQE MQE f Residuen (nicht erklärte Varianz) n-k-1 SQR MQR Gesamt (Gesamtvarianz) n-1 SQT

29 Lineare Regression: Der F - Test
Test, ob wenigstens ein Regressor einen Einfluss auf die abhängige Variable hat: H0: b1 = b2 = …= bk = 0, H1: bi ≠ 0 für mindestens einen Regressor Teststatistik: folgt einer F-Verteilung (Siehe Buch S. 207) k und n-k-1 sind die so genannten Freiheitsgrade

30 Lineare Regression: Der F - Test
. Wert der Teststatistik für F -Test . Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des F - Tests verworfen. Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. Df Sum Sq MSq= Sq / Df F= MQE / MQR Regression (erklärte Varianz) k SQE MQE f Residuen (nicht erklärte Varianz) n-k-1 SQR MQR Gesamt (Gesamtvarianz) n-1 SQT

31 Lineare Regression: Koeffizienten
Beachten Sie: Testen und Signifikanz machen nur dann sind, wenn die Daten einer Zufallsstichprobe entstammen, und die Residuen bestimmte Kriterien erfüllen. . Zeilenbeschriftung: Liste der im Modell enthaltenen Variablen . Estimate: Der Koeffizient des linearen Modells zur Variable, die sich in der selben Zeile befindet. . Std.Error: Der zum Koeffizienten gehörige Standardfehler (sbi) . t value: Teststatistik für den Test, dass der betroffene Parameterwert von 0 verschieden ist t = bi / sbi . Pr(>|t|) (auch p-Wert): Ist dieser Wert kleiner oder gleich dem vorab gewählten a, dann wird die Nullhypothese des T - Tests (H0: Der Wert des Koeffizienten in der Grundgesamtheit ist gleich 0.) verworfen.

32 Einschub: Zweck von Residuen Plots
Zweck der Residuen Plots ist die Beurteilung zweier Fragekomplexe: Deskriptiv . Gibt es keinen Zusammenhang? . Wen doch, wie ist das Muster? . Wie stark ist das Restmuster? . Gibt es Ausreißer, solche die gar nicht ins Muster passen, oder solche die das Muster erst besonders erscheinen lassen? Prognose . Ist die Stichprobe zufällig, hatte also jedes Element der Grund-gesamtheit die selbe Chance in die Stichprobe zu gelangen? . Sind die Residuen normalverteilt? . Sind die Residuen unabhängig? . Haben sie die selbe Varianz? Gibt es kein Restmuster in den Residuen?

33 SPSS: Residuen Plots: Histogramm
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Kontrollkästchen von Histogramm Normalverteilungsdiagramm aktivieren. . Weiter . OK Zur Überprüfung der Normalverteilungsbedingung wird ein Histogramm der Residuen gegen eine entsprechende Normalverteilung gezeichnet. Sollten gut zusammenpassen.

34 SPSS: Residuen Plots: P-P-Diagramm
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Kontrollkästchen von Histogramm Normalverteilungsdiagramm aktivieren. . Weiter . OK Perfekt normalverteilte Residuen (rote Punkte) stimmen in dieser Grafik mit der Gerade (grüne Linie) exakt überein.

35 SPSS: Residuen Plots: Residuen vs. Regressand
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Wähle links oben *ZRESID . Weise zu dem Feld Y: . Wähle links oben DEPENDNT . Weise zu dem Feld X: . Weiter (rechts oben) . OK ZRESID sind standardisierte Residuen, d.h. Residuen dividiert durch ihre Standardabweichung. Streudiagramm von abhängiger Variable und standardisierten Residuen. (Im Beispiel sieht man deutlich, kleine Werte der Zielvariable werden überschätzt, große unterschätzt.)

36 SPSS: Residuen Plots: Residuen vs. Prognose
Menü: . Analysieren > Regression > Linear… . … . Diagramme… . Wähle links oben *ZRESID . Weise zu dem Feld Y: . Wähle links oben *ZPRED . Weise zu dem Feld X: . Weiter (rechts oben) . OK ZPRED sind standardisierte prognostizierte Werte, d.h. die Differenz von Prognosen und ihrem Erwartungswert dividiert durch die Standardabweichung der Prognosen. Streudiagramm von standardisierten geschätzten Werten und standardisierten Residuen. (Im Beispiel sieht man, die Varianz der Residuen nimmt mit der Größe der geschätzten Werte zu.)

37 Lineare Regression: Modellkritik
Zur Modellkritik und Modellauswahl betrachten Sie: Wert von R²: Grundsätzlich gilt, groß ist gut. Wert der F-Statistik: Die Teststatistik des F-Tests sollte so groß sein, dass die Null-Hypothese verworfen werden kann. Auch hier gilt, groß ist gut. Allerdings, wenn man Variablen ins Modell aufnimmt, wird R² zumindest tendenziell größer, die Teststatistik des F-Test möglicherweise kleiner. Es gilt die richtige Balance zu finde. Wert der Koeffizienten: Wie groß ist der Einfluss der Variablen auf die Prognose und somit auf das Modell? (z.B. Vergleiche Prognose mittels erstem und dritten Quartil einer Variable) T-Test: Ist der Koeffizient signifikant von 0 verschieden Residuen (Deskriptiv): Kein Restmuster, und wenn Restmuster -> Untersuchung, Erklärung, Begründung, … Residuen (Prognose): Normalverteilt, unabhängig, Varianz konstant (z.B. kein Trichter) Ausreißer: Vorsicht, es gibt zwei Arten, solche, die nicht ins Muster passen, und solche, die so gut ins Muster passen, dass sie eigentlich hauptsächlich für das gute R² verantwortlich sind. (Einfluss einzelner Datenpunkte auf die Koeffizientenschätzer!) Sachliche Plausibilität: Und immer gilt, das beste Modell ist absolut wertlos, wenn es Werte prognostiziert, die bestehendem, sachlichem Wissen widersprechen.

38 Übersicht I Motivation und grafische Darstellung II
Ablauf multivariate Regressionsanalyse III Fallbeispiel 4: Trivariate Voranalyse IV Die Kennzahlen der multivariaten Regression V Fallbeispiel 4: Fortsetzung trivariate Voranalyse VI Beispiel: Der Trick mit der dichotomen Variable VII Fallbeispiel 4: Fortsetzung

39 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Analyse Folie 8 und 9 Nettomiete mit Wohnfläche und Anzahl Räume R² ist im Vergleich zum bivariaten Modell mit Wohnfläche leicht gestiegen, im Vergleich zum Modell mit Anzahl Räume deutlich F – Test ist positiv: Mindestens eine der beiden erklärenden Variablen ist signifikant von 0 verschieden. Beide Koeffizienten sind signifikant von 0 verschieden. Residuen zeigen deutliche Restmuster Je größer der Regressor desto breiter schwanken die Residuen (insbesondere bei Wohnfläche) Ausreißer sind einige wenige vorhanden.

40 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Analyse Folie 8 und 9 Nettomiete mit Wohnfläche und Anzahl Räume Interpretation: Quadratmeterpreis wird mit € 8,68 geschätzt Im Vergleich: im bivariaten Modell war der Wert € 7,03 Anzahl Räume: € -48,8 Der Einfluss ist plötzlich ein ganz anderer. Bivariat -> Nettomiete steigt mit Anzahl der Räume Trivariat -> Nettomiete sinkt mit Anzahl der Räume Warum?

41 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Dreidimensionale Grafik Folie 10 Wenn man die Anzahl der Räume nicht als metrische Variable versteht, sondern als kategorielle Variable, also mit ihr Gruppen bildet, kann man die Punktwolke einfärben und so eine dritte Dimension sichtbar machen: Gruppierte Scatterplot oder gruppierte Punktwolke Für jede Teilwolke wird eine eigene Regressionsgerade bestimmt und eingezeichnet. Man sieht, die meisten haben ungefähr die selbe Steigung (Durchschnittlicher Quadratmeterpreis ist in etwa gleich) Nur bei Sechszimmerwohnungen ist der Zuwachs der Nettomiete pro Quadratmeter praktisch 0. Die Wohnfläche erklärt bereits den Zuwachs der Nettomiete mit jedem Quadratmeter ausreichend. Mit der Anzahl der Räume wird nun versucht den fehlenden Anstieg für sehr große Wohnungen zu kompensieren.

42 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Dreidimensionale Grafik Folie 11 Der Trick mit der dichotomen Variable Man definiert eine sogenannte Indikatorvariable 𝑟𝑜𝑜𝑚𝑠.6= 0, 𝑤𝑒𝑛𝑛 𝐴𝑛𝑧𝑎ℎ𝑙 𝑅ä𝑢𝑚𝑒< 6 1, 𝑤𝑒𝑛𝑛 𝐴𝑛𝑧𝑎ℎ𝑙 𝑅ä𝑢𝑚𝑒=6 Weiters definiert man 𝑤𝑓𝑙.1.5=𝑤𝑓𝑙 ∗(1 − 𝑟𝑜𝑜𝑚𝑠.6) also eine Variable, die die Wohnfläche für Wohnungen mit höchstens 5 Zimmern angibt. Für Sechszimmerwohnungen ist der Wert 0. Die Indikatorvariable kann man wie eine metrische Variable in der Regression behandeln.

43 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Dreidimensionale Grafik Folie 12 Der Trick mit der dichotomen Variable Vergleiche das Modell mit Indikatorvariable mit dem ursprünglichen, wo Anzahl Räume als metrische variable verwendet wurde. R² sinkt um 0.2% Punkte F-Statistik sinkt leicht. Residuen verbessern sich. Koeffizient für m² wird wieder niedriger.

44 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Dreidimensionale Grafik Folie 13 Der Trick mit der dichotomen Variable Vergleiche das Modell mit Indikatorvariable mit einem, wo auch die Wohnfläche für 6 Zimmer Wohnungen einfließt R² steigt ein wenig F-Statistik sinkt sehr stark. Residuen verbessern sich. Koeffizient für wfl.6 ist nicht signifikant von 0 verschieden und auch nicht sehr relevant (46 Euro Cent)

45 Fallbeispiel 4: Trivariate Voranalyse
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Dreidimensionale Grafik Folie 12 Der Trick mit der dichotomen Variable Ein Modell mit Quadratischem Term für die Wohnfläche Sinkt der Quadratmeterpreis mit der Größe der Wohnung, so könnte eine Parabel das bessere Modell für den Zusammenhang zwischen Miete und Wohnfläche sein. R² ist kleiner als im Modell mit Anzahl Räumen F-Statistik sinkt leicht. Residuen sind nicht wesentlich verbessert. Koeffizient für Quadratischen Term ist nicht signifikant von 0 verschieden.

46 Übersicht I Motivation und grafische Darstellung II
Ablauf multivariate Regressionsanalyse III Fallbeispiel 4: Trivariate Voranalyse IV Die Kennzahlen der multivariaten Regression V Fallbeispiel 4: Fortsetzung trivariate Voranalyse VI Beispiel: Der Trick mit der dichotomen Variable VII Fallbeispiel 4: Fortsetzung

47 Beispiel: Telefonie Minuten
Einen Anbieter von Festnetztelefonie interessiert, was das Telefonie Volumen (= Minuten pro Monat ) seiner Kunden treibt, also welche Kunden mehr und welche Kunden weniger telefonieren. Wichtig dabei, es sollen nur Variablen verwendet werden, die für den Anbieter leicht zu messen sind (z.B. Anzahl Mitarbeiter, Anzahl Standorte) und keine schwer erfassbaren oder unzugänglichen (wie z.B. Anzahl der laufenden Projekte). Es wurde bei 64 Unternehmen erfasst, wie viele (Festnetz) Telefonie Minuten sie im letzten Monate hatten, wie viele Mitarbeiter beschäftigt waren und wie viele Standorte das Unternehmen hat. Da es sich um eher kleine Unternehmen handelt und nur ganz wenige mehr als 2 Standorte haben, wurde eine Indikatorvariable gebildet, die mit dem Wert 1 angibt, ob das Unternehmen mehrere (also mehr als einen Standort) hat oder nur einen (mit dem Wert 0). Indikatorvariable: Hat Objekt O Eigenschaft x? Ja … entspricht Wert 1 Nein … entspricht Wert 0

48 Beispiel: Telefonie Minuten
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Univariate Voranalysen Folien 1-3 Telefonieminuten (Regressand), Anzahl Mitarbeiter und Anzahl Standorte (Regressoren) sollen untersucht werden Minuten: ø ~ € 750, Median ~ € rechtschief, Sehr starke Streueung (!) Ausreißer Anzahl Mitarbeiter: ø ~ 3 bis 4, Median = 3 rechtschief, Anzahl Standorte: 14% mit mehreren Standorten

49 Beispiel: Telefonie Minuten
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 4 Korrelationsmatrix mit Heatmap Paarweise Korrelationen zwischen den 3 Variablen wird ausgewiesen und in der Heatmap farblich dargestellt. Rot <-> starker positiver Zusammenhang Blau <-> starker negativer Zusammenhang Weiß <-> kaum Zusammenhang Alle 3 Variablen sind positiv korreliert. Die beiden Regressoren sind am stärksten korreliert! Kein gutes Zeichen. Regressoren sollten eher unkorreliert sein. Inhaltlich aber nachvollziehbar: Mehrere Standorte lässt auf größere Firma und daher möglicher Weise mehr Mitarbeiter schließen.

50 Beispiel: Telefonie Minuten
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 5 Telefonie Minuten und Anzahl Mitarbeiter Zusammenhang ist stark mit großer Restvarianz (59%) F-Statistik ist signifikant von 0 verschieden. Koeffizient von Anzahl MA ist signifikant von 0 verschieden. Interpretation: Pro MA werden durchschnittlich 177 Minuten geschätzt. Auf den Chef entfallen dann wohl die84 Minuten;) Konstante ist schwer zu interpretieren. Residuen zeigen ein Trichterähnliches Muster: Die Streuung der Residuen wächst mit zunehmender Anzahl MA Das stört Hochrechnung von Prognosen. Konfidenzintervalle sind für kleine Wohnungen zur groß und für große zu klein.

51 Beispiel: Telefonie Minuten
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 6 Telefonie Minuten und Anzahl Standorte Zusammenhang ist sehr schwach (3% erklärte Varianz). F-Statistik nicht signifikant von 0 verschieden Koeffizient nicht signifikant von 0 verschieden. Interpretation Durchschnittliche Minuten ein Standort: 700 Minuten. Mehrere Standorte: 1070 Minuten Vergleiche mit Gesamtdurchschnitt: 750 min ~ 0,14 * ,86 * 700. Bei den Residuen ist die Streuung für mehrere Standorte größer Schlechtes Modell. Nicht brauchbar.

52 Beispiel: Telefonie Minuten
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen Folie 7 Anzahl MA und Anzahl Standorte Starker Zusammenhang. Erklärte Varianz 27%. F-Statistik ist signifikant von 0 verschieden. Koeffizient ist signifikant von 0 verschieden. Interpretation: Etwa durchschnittlich 3 MA bei Firmen mit einem Standort Durchschnittlich 7 MA bei Firmen mit mehreren Standorten. Vergleiche mit Gesamtdurchschnitt MA: 3,7 Zusammenhang absolut plausibel Die beiden Variablen erklären etwas sehr Ähnliches: die Größe einer Firma. Wichtige Frage: Welchen Einfluss werden sie gemeinsam in der Regression entwickeln?

53 Beispiel: Telefonie Minuten
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Analyse Folie 8 und 9 Telefonie Minuten mit Anzahl Mitarbeiter und Anzahl Standorte Erklärte Varianz (R²) = 44,8% ist um 3,4% Prozentpunkte höher als bestes univariate Modell bisher. F-Statistik ist signifikant von 0 verschieden aber kleiner als im Vergleichsmodell (43,8) Koeffizienten sind beide (!) signifikant von 0 verschieden. Interpretation Pro MA 209 min und bei mehreren Standorten wird das Gesamtvolumen um 443 Minuten reduziert, also eigentlich pro MA weniger telefoniert. Residuen: Etwas verbessert. Dennoch Trichter.

54 Beispiel: Telefonie Minuten
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Analyse Folie 10 Telefonie Minuten mit Anzahl Mitarbeiter und Anzahl Standorte Interpretation Pro MA 209 min und bei mehreren Standorten wird das Gesamtvolumen um 443 Minuten reduziert, also eigentlich pro MA weniger telefoniert. Grafische Darstellung in 3 Dimensionen (gruppierter Scatterplot): Geraden in Abhängigkeit der Anzahl der MA nahezu parallel. Gerade für mehrere Standorte startet auf niedrigerem Niveau als bei nur einem Standort. Dafür hat sie viel weiter rechts (~ größere Anzahl MA) noch Support. Wie läßt sich das erklären?

55 Übersicht I Motivation und grafische Darstellung II
Ablauf multivariate Regressionsanalyse III Fallbeispiel 4: Trivariate Voranalyse IV Die Kennzahlen der multivariaten Regression V Fallbeispiel 4: Fortsetzung trivariate Voranalyse VI Beispiel: Der Trick mit der dichotomen Variable VII Fallbeispiel 4: Fortsetzung


Herunterladen ppt "Ökonometrie und Statistik Mehrfachregression"

Ähnliche Präsentationen


Google-Anzeigen