Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann.

Ähnliche Präsentationen


Präsentation zum Thema: "Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann."—  Präsentation transkript:

1 Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen
Dr. Bertram Wassermann

2 Fallbeispiel 4: Controlling und Reporting, Aufgabe
Sie arbeiten in einem Immobilienbüro in einer großen Stadt. Sie möchten besser verstehen, was am Markt die Mieten von Wohnungen beeinflusst. In welchen Faktoren spiegeln sich die Mieten? So etwas nennt man einen Mietspiegel. Sie engagieren dazu einen Konsulenten für Operations Research, der Ihnen bei der Lösung der Aufgabe helfen soll. Zunächst tritt er mit folgenden Fragen an Sie heran, da Sie das nötige Fachwissen haben werden. Von welchen Faktoren ist der Mietpreis abhängig? Haben Sie die Daten bereits bzw. woher kommen die Daten dazu? Wie wirken die Faktoren, Mietpreis erhöhend oder vermindernd? Wie stark ist der Einfluss des Faktors? Ist das Datum hart oder weich, quantitativ oder qualitativ? Ist der Faktor steuerbar / beeinflussbar? Sind die Faktoren voneinander unabhängig oder gibt es Zusammenhänge? Wenn Abhängigkeiten bestehen, welche? Welches Skalenniveau haben diese Faktoren?

3 Fallbeispiel 4: Controlling und Reporting, Aufgabe
Sie führen mit dem Konsulenten einen Workshop durch und beantworten diese Fragen: Einfluss auf Mietpreis Quelle Wirkung Fakt Steuerbar Maßniveau Lage, Bezirk Ausstattung (Einbauküche, Bad etc.) Neu / Altbau Größe der Wohnung, Fläche Bevölkerungsdichte Mietpreis Wohn. Externe Statistik Zentral++ Je mehr desto + Mieter abhäng +++ Ja Jein Nein Nominal Dichotom für jede Ausstatt Dichotom Metrisch

4 Fallbeispiel 4: Controlling und Reporting, Aufgabe
Sie führen mit dem Konsulenten einen Workshop durch und beantworten diese Fragen: Lage / Bezirk 1. Bezirk besser 10 Bez. Schlechter stark Größe der Wohnung, sehr stark Baujahr Je jünger desto teurer Letzte Sanierung / Sanierungsbedarf? Balkon / Garten / Freifläche Umgebungsausstattung / Pool Verkehrsanbindung Parkplatz /Garage vorhanden Möbliert (teurer wenn ja) Stockwerk (Erdgeschoß eher billiger) Lift ja /nein Art der Heizung Höhe der Nebenkosten

5 Fallbeispiel 4: Controlling und Reporting, Aufgabe
Zahlreiche deutsche Städte erstellen sogenannte Mietspiegel, um Mietern, Vermietern, Mietberatungsstellen und Sachverständigen eine objektive Entscheidungshilfe in Mietfragen zur Verfügung zu stellen. Die Mietspiegel werden dabei insbesondere zur Ermittlung der ortsüblichen Vergleichsmiete (Nettomiete in Abhängigkeit von Wohnungsgröße, -ausstattung, -alter, etc.) herangezogen. Bei der Erstellung von Mietspiegeln wird aus der Gesamtheit aller in Frage kommenden Wohnungen eine repräsentative Zufallsstichprobe gezogen (im Fall der Stadt München durch Infratest), und die interessierenden Daten werden von Interviewern anhand von Fragebögen ermittelt. Der vorliegende Datensatz stellt einen Ausschnitt aus dem Mietspiegel München des Jahres 2003 dar und enthält die Daten von 1000 Wohnungen.

6 Fallbeispiel 4: Controlling und Reporting, Aufgabe
Im vorliegenden Datensatz wurden folgende Variablen erhoben. Wie wirken die Faktoren, Mietpreis erhöhend oder vermindernd? Sind die Faktoren voneinander unabhängig oder gibt es Zusammenhänge? Wenn Abhängigkeiten bestehen, welche? Wie stark ist der Einfluss des Faktors? Bestimmen Sie die Skalenniveaus. Ankürzung Beschreibung Wirkung Abhängigkeit Stärke Skalenniveau nm Nettomiete in EUR Metrisch wfl Wohnfläche in m² +  rooms Sehr s metrisch  rooms Anzahl der Zimmer in der Wohnung  wfl Stark bj Baujahr der Wohnung  +  zh0, ww0 Schwach wohngut Gute Wohnlage? (J=1,N=0)  -wohnbest Sehr stark Nominal, dichotom wohnbest Beste Wohnlage? (J=1,N=0)  - wohngut ww0 Warmwasserversorgung vorhanden? (J=0,N=1)  -  zh0, bj zh0 Zentralheizung vorhanden? (J=0,N=1)  ww0, bj badkach0 Gekacheltes Badezimmer? (J=0,N=1) badextra Besondere Zusatzausstattung im Bad? (J=1,N=0) kueche Gehobene Küche? (J=1,N=0)

7 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Univariate Voranalysen Nm: ø ~ € 575, Rechtschief, ! Ausreißer Wfl: ø ~ 70 m², Rechtschief, ! Ausreißer BJ: Sehr ungleich verteilt, Min = 1918 mit 200 von 1000 Wohnungen -> nicht nachvollziehbar. Vermutlich sind alle Wohnungen vor 1918 mit BJ 1918 erfasst worden. Konsequenz: Nicht Intervallskaliert -> Kategorien bilden. BJ.kat: 3 Kategorien 1: Bis : 1939 – : nach 1980 Rooms: Wohnung mit mehr als 4 räumen eher Ausnahmen. Einzimmerwohnungen mit 10% recht häufig. Dichotome Varialben: Sehr häufig: Gute Wohnlage und Badezimmer nicht gekachel Alle anderen unter 10%

8 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen mit Zielvariable Nettomiete Korrelationsmatrix mit Heatmap Welche Variablen sind mit der Zielvariable wie korreliert? Welche erklärenden Variablen sind miteinander korreliert? Es gilt zu klären warum, was ist der Zusammenhang? Scatterplots, Regressionsgerade und Residuenplot für „echte“ metrische Variablen Wohnfläche hat den stärksten Zusammenhang mit NM: €7 / m², R² ~ 50%, Residuen zeigen auffallendes Trichtermuster (Heteroskedastizität). Nicht gut für Hochrechnung. Ausreißer ! Sehr große Wohnungen mit Miete unter € 500 Anzahl Zimmer auch stark, aber deutlich geringer € 132 / Zimmer, R² ~28% Ausreißer! Einzimmerwohnung mit € Loft?

9 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen mit Zielvariable Nettomiete Baujahr zeigt bei einer linearer Regression kaum Zusammenhang, R² < 1% Aber, Voranalyse legte nahe aus Baujahr eine kategorielle Variable zu machen Varianzanalyse mit bj.kat zeigt einen stärkeren Zusammenhang: R² ~ 8% Allerdings, Zusammenhang ist nicht linear: Wohnungen vor 1939 und nach 1980 haben im Durchschnitt höhere Mieten als Wohnungen zwischen 1939 und (60er Jahre Bauten) Die dichotomen Variablen zeigen die erwarteten Zusammenhänge. Badezimmerausstattung und gehobene Küche haben die größten Werte für R², ~ 7% und 5%.

10 Einschub: Varianzanalyse
Ist eine lineare Regression mit metrischer Zielvariable und kategorialer erklärender Variable (möglichst wenig Kategorien) Für jede Kategorie wird ein eigener Koeffizient geschätzt (daher möglichst wenig Kategorien) Geeignete grafische Darstellung im bivariaten Fall: gruppierter Boxplot Obwohl lineare Regression bietet die Möglichkeit nicht-lineare Zusammenhänge zu modellieren Siehe auch Folien: Einfache Varianzanalyse

11 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen mit Zielvariable Nettomiete Dichotome Variablen zeigen durchaus Einfluss, was man an den Varianzanalysen sieht. Die Erklärungskraft ist aber nicht groß. Max 7,3% Besondere Badezimmerausstattung 4,5% Gehobene Küche 4% Zentralheizung nicht vorhanden Alle anderen < 3% Die Variablen habe auch nicht besonders viele Ausprägungen, differenzieren also nicht so stark.

12 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen erklärende Variablen untereinander Wie zu erwarten gibt es eine starke Korrelation zwischen Wohnfläche und Anzahl Räume. ! Ausreißer: Einzimmerwohnung mit fast 150m² -> also ein Loft. Baujahr und Wohnfläche: Die Wohnungen sind früher durchschnittlich eher etwas größer gebaut worden … … und hatten mehr Räume. 50% der neueren Wohnungen haben maximal 2 Zimmer. Ist das ein Trend zu Single – Wohnungen? Interessanter Überblick: Wie viele Wohnungen haben bei den Indikator-variablen den Wert „Ja“, also 1? Ein sehr gutes Drittel hat überhaupt keinen „Ja“ Wert. Der Modus ist 1, d.h. Genau einen „Ja“ Wert haben die meisten Wohnungen. Es gibt ein paar wenige Wohnungen, die 4 „Ja“ Werte haben.

13 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen erklärende Variablen untereinander Bivariate Voranalysen bei 2 kategoriellen und nominal skalierten Variablen: Unabhängigkeitstest Grafisch: Gruppiertes Säulendiagramm (es gibt auch die Balkenversion) Auf der x-Achse wird eine Variable aufgetragen Mit der zweiten Variable werden Gruppen gebildet, die man farblich oder durch Füllmuster unterscheiden kann. Es gibt die verteilte und die gestapelte Version Verteiltes Säulendiagramm ist gut für den Vergleich absoluter Anzahl, da alle Säulen bei der 0 Linie Anfangen. Gestapeltes Säulendiagramm ist gut zum Vergleich von relativen Randverteilungen (Zeilen- oder Spaltenprozent), weil die Summe aller Gruppensäulen den selben wert hat, nämlich 100%. Anwendung in diesem Beispiel: Test auf Unabhängigkeit der beiden Variablen. Ist die Verteilung der Badezimmerausstattung für die Wohnlagen in etwas gleich, oder gibt es Unterschiede? Vergleiche mit Säule Gesamt: Ergebnis?

14 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen erklärende Variablen untereinander Bivariate Voranalysen bei 2 kategoriellen und nominal skalierten Variablen: Unabhängigkeitstest Vergleiche mit Säule Gesamt: Laut Grafik haben Wohnungen in bester Wohnlage meistens irgendwelche Extras im Badezimmer. Bei Wohngut und Normal sind die Unterschiede nicht sehr deutlich. Chi² Test darunter zeigt aber, dass es keinen signifikanten Zusammenhang gibt, p-Wert ist größer als 0,1 Man beachte die Kategorie Wohnbest im Diagramm für absolute Anzahl: Es gibt, wie wir bereits wissen, nur sehr wenige Wohnungen in bester Wohnlage. Haben daher wenig Gewicht. Aber wie funktioniert dieser Chi² Test?

15 Einschub: Chi² Test Siehe Folien Chi² Test

16 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen erklärende Variablen untereinander Bivariate Voranalysen bei 2 kategoriellen und nominal skalierten Variablen: Unabhängigkeitstest Anzahl Räume und Bad Ausstattung sind abhängig. Wohnungen mit vielen Räumen sind im Bad tendenziell besser ausgestattet. Anzahl Räume und Wärme Ausstattung sind abhängig. Wohnungen mit 5 Zimmern habe generell beides. Kein Warmwasser gibt es nur in 6 Zimmerwohnungen. Anzahl Räume und Wohnlage zeigen keinen Zusammenhang. Hier weichen die relativen Verteilungen der Wohnlage für 5 und 6 Zimmerwohnungen deutlich vom Gesamtbild ab, aber ihre Anzahl ist sehr gering. Kein Gewicht. Dennoch wieder ein Argument 5 und 6 Zimmerwohnungen extra zu behandeln.

17 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen erklärende Variablen untereinander Bivariate Voranalysen bei 2 kategoriellen und nominal skalierten Variablen: Unabhängigkeitstest Wohnlage und Bad Ausstattung zeigen keinen Zusammenhang. Wärme Ausstattung und Wohnlage zeigen keinen Zusammenhang. Baujahr und Wohnlage zeigen Zusammenhang, es gibt eine Abhängigkeit. Normale Wohnlagen sind sehr stark zwischen 1939 und 1980. Beste Wohnlagen gibt es vor 1939 auffällig wenige. Wärme Ausstattung und Bad Ausstattung. Baujahr und Bad Ausstattung: dass es keine Extras gibt, ist nach 1980 selten der Fall. Baujahr und Wärme Ausstattung: Wärmeausstattung fehlt vor allem bei Altbauten. Bei Neubauten immer vorhanden.

18 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Bivariate Voranalysen erklärende Variablen untereinander Bivariate Voranalysen bei 2 kategoriellen und nominal skalierten Variablen: Unabhängigkeitstest Zur gehobenen Küchenausstattung findet man Abhängigkeiten … beim Baujahr: Neubauwohnungen sind deutlicher öfter mit einer solchen ausgestattet. Bad Ausstattung und Lage sind knapp nicht signifikant. Hingegen liefern die Tests für Wärme Ausstattung und Anzahl Räume nichts Auffälliges.

19 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Trivariate Voranalysen: Zielvariablen und zwei Erklärende Die bivariaten Voranalysen haben gezeigt, den stärksten Einfluss auf die Nettomiete hat die Wohnfläche. Wir setzen nun die Voranalysen fort, indem wir zu diesen beiden Variablen noch eine dritte hinzunehmen. Siehe Bericht Auswertung_4_Multivariat_mit_Zielvariable.pdf Mit der Anzahl der Räume haben wir das bereits gemacht, mit einem überraschenden Ergebnis: Wohnungen mit 6 Zimmern spielen eine eigene Rolle: Die Größe der Wohnung hat auf den Preis keinen nachweisbaren Einfluss. Wie modelliert man so etwas? Konstruktion eigener Variablen: Indikatorvariable 6 Zimmerwohnung Datensatz teilen und jeweils ein eigenes Modell schätzen. Aufnahme einer Interaktion ins Modell

20 Einschub: Interaktion metrisch x kategoriell
Typische grafische Darstellung im Falle von zwei metrischen und eine dichotomen bzw. kategoriellen Variable: Gruppierter Scatterplot Grafisch bekommt jede Teilwolke für sich eine eigene Gerade angepasst. Was heißt Interaktion und wie erkennt man sie in einem gruppierten Scatterplot? Grafisch kann man 3 Fälle unterscheiden Die Geraden der Gruppen sind (mehr oder weniger) identisch Die Geraden sind (mehr oder weniger) parallel. Die Geraden haben (auffällig) unterschiedliche Steigungen. Die Bedeutung: Die kategorielle Variable hat keinen Einfluss in diesem Modell. Die Achsenabschnitte der Gruppen sind verschieden, nicht aber die Steigung der Geraden. D.h. der Zuwachs pro Einheit der erklärenden metrischen Variable ist für alle Gruppen gleich. Der Einfluss der beiden erklärenden Variablen ist rein additiv: ihre Effekte lassen sich einfach addieren. Die Zuwächse pro Einheit der erklärenden metrischen Variable sind verschieden: Das nennt man Interaktion, die beiden erklärenden Variablen interagieren bzgl. Ihres Einflusses auf die Zielvariable.

21 Einschub: Interaktion metrisch x kategoriell
Grafisch kann man 3 Fälle unterscheiden Die Geraden der Gruppen sind (mehr oder weniger) identisch Die Geraden sind (mehr oder weniger) parallel. Die Geraden haben (auffällig) unterschiedliche Steigungen. Beispiel 1, Wohnfläche und besondere Küchenausstattung (Folie 5) Optisch haben die beiden Geraden deutlich unterschiedliche Steigungen. Die Steigung der Geraden interpretieren wir als Nettomiete pro Quadratmeter, also als Quadratmeterpreis. Interpretation: Wohnungen mit besonderer Küchenausstattung haben durchschnittlich einen höheren Quadratmeterpreis als solche ohne. Beispiel 2, Wohnfläche und extra Badezimmerausstattung (Folie 7) Die beiden Geraden sehen eher parallel aus. Sind aber voneinander verschieden. Interpretation: Für diese extra Badezimmerausstattung wird ein Aufschlag auf den Mietpreis verrechnet. Den Preis pro Quadratmeter beeinflusst das nicht. Ist das Plausibel? Oder, warum ist das so?

22 Einschub: Interaktion metrisch x kategoriell
Was geschieht rechnerisch? Nehmen wir als Beispiel einer kategoriellen Variable eine Indikatorvariable D. Sie ist also dichotom. Rechnerisch lassen sich zwei Fälle unterscheiden: 𝑌=𝑏+ 𝑋+ 𝐷 = 𝑌=𝑏+ 𝑎 𝑋 𝑤𝑒𝑛𝑛 𝐷=0 𝑌= 𝑏+𝑐 + 𝑎 𝑋 𝑤𝑒𝑛𝑛 𝐷=1 (parallele Geraden) 𝑌=𝑏+ 𝑋+ 𝐷∗𝑋= 𝑌=𝑏+ 𝑎 𝑋 𝑤𝑒𝑛𝑛 𝐷=0 𝑌= 𝑏+𝑐 + 𝑎+𝑑 ∗𝑋 𝑤𝑒𝑛𝑛 𝐷=1 (Interaktion) Ist der Koeffizient d signifikant von 0 verschieden, dann liegt eine Interaktion vor. Ist nur c signifikant von 0 verschieden, dann gibt es zwar keine Interaktion, aber die dichotome Variable hat Einfluss. Ist auch c nicht signifikant von 0 verschieden, dann ist für D kein Einfluss nachweisbar.

23 Einschub: Interaktion metrisch x kategoriell
Zufälliger Weise sind die beiden kategoriellen Variablen in den beiden Beispielen dichotom. Man vergleiche die Modellgleichungen. Beispiel 1, Wohnfläche und gehobene Küchenausstattung (Folie 5 und 6) Folie 5: additives Modell, R² 51,4% F Test signifikant, F Wert 530, alle Koeffizienten signifikant Folie 6: interaktives Modell, R² 51,7% (nicht sehr stark gestiegen) F Test signifikant, F Wert 355 (stark gesunken (!)), der Koeffizient von wfl:kueche ist signifikant. Was bedeutet wfl:kueche? Der Koeff. von Wfl:kueche ist die Differenz der Steigungen der Geraden für Wohnungen mit und ohne gehobene Küchenausstattung Der Koffizient wfl ist der m² Preis für Wohnungen ohne gehobene Ausstattung Der Wert wfl + wfl:kueche ist der Schätzer des m² Preis für Wohnungen mit gehobener Ausstattung Der Koeffizient wfl:kueche ist signifikant von 0 verschieden. Das bedeutet: laut Modell haben die beiden Wohnungsgruppen unterschiedliche Quadratmeterpreise. Das ist eine Interaktion.

24 Einschub: Interaktion metrisch x kategoriell
Beispiel 2, Wohnfläche und besondere Badeausstattung (Folie 7 und 8) Folie 7: additives Modell, R² 49,7% F Test signifikant, F Wert 492, alle Koeffizienten signifikant Folie 8: interaktives Modell, R² 49,7% (nicht gestiegen !!!) F Test signifikant, F Wert 327 (stark gesunken (!)), der Koeffizient von wfl:badextra ist nicht signifikant. Was bedeutet wfl:badextra? Der Koeff. von Wfl:badextra ist die Differenz der Steigungen der Geraden für Wohnungen mit und ohne besondere Badausstattung Der Koffizient wfl ist der m² Preis für Wohnungen ohne besondere Ausstattung Der Wert wfl + wfl:badextra ist der Schätzer des m² Preis für Wohnungen mit gehobener Ausstattung Der Koeffizient wfl:badextra ist nicht signifikant von 0 verschieden. Das bedeutet: laut Modell haben die beiden Wohnungsgruppen unterschiedliche Quadratmeterpreise. Eine Interaktion ist nicht belegbar. Das Modell ist rein additiv.

25 Einschub: Interaktion metrisch x kategoriell
Weitere Beispiele lesen Sie selber nach. Anzahl Räume wirkt Interaktiv mit Wohnfläche auf Nettomiete Gehobene Küche Extra im Bad Additiv Gekacheltes Bad Gute Wohnlage Beste Wohnlage Warmwasser fehlt Zentralheizung fehlt

26 Einschub: Interaktion kategoriell x kategoriell
Einschub vor dem Einschub: Wir betrachten jetzt Modelle ohne die Variable Wohnfläche (wfl). Wir wissen aber, das ist eine sehr einflussreiche Variable und daher wichtig (ca. R² ~ 50%) Daher bilden wir eine neue Zielvariable nmpq = nm / wfl Nettomiete pro Quadratmeter oder eben den Quadratmeterpreis.

27 Einschub: Interaktion kategoriell x kategoriell
Eigentlich passende Grafik: Gruppierter Boxplot Zeigt die zentrale Lage (Median) und Streuung. Welche Gruppen überlappen sich nicht / kaum / eher / sehr? Vergleichen Sie damit verschieden Varianten des gruppierten Mittelwertplots Die Punkte der Gruppen liegen pro Kategorie schön übereinander. Zentrale Lage besser vergleichbar. Die Fehlerbalken verdeutlichen die Streuung (ähnlich wie im Boxplot) Die Polygone erleichtern den Vergleich, wie sich der Mittelwert einer Gruppe über die x-Achsen Kategorien verändert. Fast so wie beim Vergleich der Steigungsgeraden. Darstellung ist falsch! X-Achse ist zwar ordinal, aber nicht metrisch. Linie suggeriert, da gibt es Werte zwischen den Kategorien. Linie suggeriert eine stetige Änderung zwischen den Kategorien. Alles Blödsinn. Aber Lesbarkeit und Interpretierbarkeit ist besser.

28 Einschub: Interaktion kategoriell x kategoriell
Aber Lesbarkeit und Interpretierbarkeit ist besser: Denn auch hier gilt, es gibt grafisch drei Möglichkeiten: Die Polygone der Gruppen sind (mehr oder weniger) identisch Die Polygone sind (mehr oder weniger) parallel. Die Polygone haben (auffällig) unterschiedliche Steigungen. Die Bedeutung: Die kategorielle Gruppenvariable hat keinen Einfluss in diesem Modell. Die Gruppen haben einen Einfluss. Dieser wird – wie auch immer der Einfluss der kategoriellen Variable auf der x-Achse ist – einfach dazu addiert. Der Einfluss der beiden erklärenden Variablen ist rein additiv: ihre Effekte lassen sich einfach addieren. Die Kombinationen der beiden kategoriellen Variablen bilden ja wieder neue Gruppen. Diese Gruppen unterscheiden sich in ihrem Einfluss auf die Zielvariable, d.h. die Gruppenmittelwerte sind signifikant verschieden. Der Einfluss lässt sich nur durch bestimmte Kombinationen von Kategorien der beiden Variablen erklären. Man spricht von einer Interaktion: die beiden erklärenden Variablen interagieren bzgl. Ihres Einflusses auf die Zielvariable.

29 Einschub: Interaktion kategoriell x kategoriell
Beispiel: Baujahr und Anzahl Räume (3 oder 6 Räume, 0 steht für 1, 2, 4 oder 5) Folie 3 Interpretation der Polygonplots: Die Polygone sind nicht ident und nicht parallel. Alles deutet auf eine Interaktion hin, d.h. der Quadratmeterpreis hängt ab von Kombinationen von Baujahr und Anzahl Räume. Vor allem das blaue Polygon (6 Zimmerwohnung) weicht deutlich von den anderen ab. 6 Zimmerwohnungen im Altbau haben auffällig niedrigen m² Preis. Neubauwohnungen (nach 1980) unterscheiden sich fast nicht im m² Preis in Abhängigkeit der Raumanzahl Polygon grün und orange (3 Zimmer, alle anderen) sind eher parallel, aber nicht deckungsgleich. 3 Zimmerwohnungen haben immer einen niedrigeren m² Preis als die 1, 2, 4 und 5 Zimmerwohnungen. Die Differenz variiert, aber nicht um viel. Neubauwohnungen sind grundsätzlich am teuersten.

30 Einschub: Interaktion kategoriell x kategoriell
Beispiel: Baujahr und Anzahl Räume (3 oder 6 Räume, 0 steht für 1, 2, 4 oder 5) Folie 4 und 5 Vergleich R² und F-Statistik Additives Modell erste Tabelle Interaktives Modell zweite Tabelle R² wächst um 0,7 Prozentpunkte F-Statistik ist in beiden Fällen signifikant F-Statistik wird aber fast halbiert.

31 Einschub: Interaktion kategoriell x kategoriell
Beispiel: Baujahr und Anzahl Räume (3 oder 6 Räume, 0 steht für 1, 2, 4 oder 5) Folie 4 Additives Modell Koeffizienten Alle Koeffizienten sind signifikant von 0 verschieden. Altbau mit 1,2,4 oder 5 Zim. 7,8 €/m² Für 3 Zimmer 0,7 €/m² günstiger Für 6 Zimmer 1,7 €/m² günstiger Interpretation: Dass Neubauwohnungen durch- schnittlich teurer sind, klingt plausibel. Aber warum gerade 3 Zimmerwohnungen etwas und 6 Zimmerwohnungen deutlich teurer sind, ist nicht offensichtlich.

32 Einschub: Interaktion kategoriell x kategoriell
Beispiel: Baujahr und Anzahl Räume (3 oder 6 Räume, 0 steht für 1, 2, 4 oder 5) Folie 4 Interaktives Modell Lesebeispiel: 6 Zimmer Neubauwohnung Intercept ,7 + Neubau ,1 + 6 Zimmer -3,1 + Interaktion 3,0 = 9,7

33 Einschub: Interaktion kategoriell x kategoriell
Beispiel: Baujahr und Anzahl Räume (3 oder 6 Räume, 0 steht für 1, 2, 4 oder 5) Folie 4 Interaktives Modell, additiver Teil Koeffizienten 4 von 5 sind sig. von 0 verschieden. Die Werte haben sich wenig verändert Außer für 6 Zimmerw.: Fast verdoppelt Für 3 Zimmerw.: Halbiert und nicht sig. Von 0 verschieden Interpretation: Für Interpretation denken wir den nicht signifikanten Koeff. = 0 Bei der Berechnung ist das verboten. Jünger Wohnungen sind teurer. Nur 6 Zimmerw. Sind günstiger als alle anderen.

34 Einschub: Interaktion kategoriell x kategoriell
Beispiel: Baujahr und Anzahl Räume (3 oder 6 Räume, 0 steht für 1, 2, 4 oder 5) Folie 4 Interaktives Modell, interaktiver Teil Koeffizienten Zwei Koeffizienten sind von 0 sig. verschieden. Bei Koeffizienten ist man mit dem Fehler grundsätzlich toleranter. Alpha 0,05 oder 0,1 Interpretation 3 Zimmerwohnungen unterscheiden sich von den anderen im Mittelbau, sonst nicht. 6 Zimmerwohnungen haben eine erhöhte Nettomiete/m² für Neubauwohnungen. Man beachte: der Wert des Koeffizienten ist praktisch gleich groß wie im Haupteffekt, also wie der Koeffizient im additiven Modell. Das entspricht unserer Wahrnehmung in der Grafik: Alle Neubauwohnungen haben in etwa den selben Preis pro m².

35 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 1 dichotome Variable siehe Bericht Auswertung_4_Trivariat_Interaktion_metrisch_kat.pdf Sind die Geraden ident, parallel oder mit unterschiedlicher Steigung? Seite 7 und 8: 𝑛𝑚 ~ 𝑤𝑓𝑙+𝑏𝑎𝑑𝑒𝑥𝑡𝑟𝑎 oder 𝑛𝑚 ~ 𝑤𝑓𝑙+𝑤𝑓𝑙∗ 𝑏𝑎𝑑𝑒𝑥𝑡𝑟𝑎 ? Grafisch sind sie verschieden aber parallel. Also keine Interaktion. Rechnerisch Koeff. von badextra sign. von 0 verschieden (Seite 4) Koeff. von wfl:badextra nicht sign. von 0 verschieden (Seite 5) Spricht für Modell 1, keine Interaktion aber verschiedene Geraden Interpretation: Extra Badezimmerausstattung verursacht eine Aufschlag von durchschnittlich € 86. Der Preis / m² bleibt gleich. Verschiedene aber parallele Geraden bedeuten inhaltlich in dem Beispiel, dass die dichotome Variable einen Auf- oder Abschlag auf den gesamten Mietpreis verursacht.

36 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 1 dichotome Variable siehe Bericht Auswertung_4_Trivariat_Interaktion_metrisch_kat.pdf Sind die Geraden ident, parallel oder mit unterschiedlicher Steigung? Seite 5 und 6: 𝑛𝑚 ~ 𝑤𝑓𝑙+𝑘𝑢𝑒𝑐ℎ𝑒 oder 𝑛𝑚 ~ 𝑤𝑓𝑙+𝑤𝑓𝑙∗𝑘𝑢𝑒𝑐ℎ𝑒 ? Grafisch haben die beiden Geraden unterschiedliche Steigung. Das spricht für eine Interaktion Rechnerisch Koeff. von wfl:kueche auf Seite 7 ist sign. von 0 verschieden. R² ist im 2. Modell ein wenig höher. Spricht für Modell 2, Interkation Interpretation: Die besondere Küchenausstattung wirkt sich auf den Preis pro m² aus. Er ist höher. Die Nettomiete nimmt mit der Wohnfläche stärker zu. Nicht parallele Geraden bedeuten inhaltlich in dem Beispiel, dass die dichotome Variable einen Einfluss auf den m² Preis hat.

37 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 1 kategorielle Variable siehe Bericht Auswertung_4_Trivariat_Interaktion_metrisch_kat.pdf Nettomiete, Wohnfläche und Anzahl Räume (Seite 1 bis 4) Vorsicht ist geboten. Wohnfläche und Anzahl Räume sind stark korreliert. Grafisch: sehr auffallend, Steigung für 6 Zimmerwohnungen praktisch 0 Alle anderen Geraden eher parallel, kaum versetzt, eher identisch Rechnerisch: R² des Interaktionsmodell (Seite 3) ist größer als der des einfachen Modells (Seite 2). F-Statistik sinkt, ist aber signifikant von 0 verschieden. Koeffizienten sind aber nur für 3 und 6 Zimmerwohnungen signifikant. 3 Zimmer: Die Miete wächst stärker mit der Größe der Wohnung. Der m² Preis ist um fast € 3 höher. Warum? 6 Zimmer: Die Miete hängt nicht von der Größe der Wohnung ab. Allerdings gibt es nur 6 Zimmerwohnungen ab 100m². Und es gibt auch nur 10 solche Wohnungen. (10 von 1000 ist 1%)

38 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 1 dichotome Variable siehe Bericht Auswertung_4_Trivariat_Interaktion_metrisch_kat.pdf Nettomiete, Wohnfläche und Bad nicht gekachelt (Seite 9 und 10) Grafisch: Schwer zu sagen. Sie erscheinen nicht parallel, da sie sich bei großen Wohnungen kreuzen. Allerdings: große, ungekachelte Wohnungen sind eher selten. Rechnerisch: R² wächst minimal, spricht nicht für Interaktion. F-Statistik sinkt, ist aber signifikant von 0 verschieden. Steigungskoeffizienten für die Interaktion ist nicht signifikant von 0 verschieden -> keine Interaktion. Im einfachen Modell negativer Koeffizient für fehlende Kacheln Interpretation: Ca. € 70 Abschlag, falls im Badezimmer die Kacheln fehlen.

39 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 1 kategorielle Variable siehe Bericht Auswertung_4_Trivariat_Interaktion_metrisch_kat.pdf Nettomiete, Wohnfläche und Lage (Seite 11 bis 13) Grafisch: drei Geraden, deutlich zu sehen, beste Wohnlage ist nicht parallel zu den beiden anderen -> wir erwarten Interaktion. Schwer zu sagen ist, ob eine gute Wohnlage einen anderen Einfluss auf die Miete hat als normale Lage. Jedenfalls ist der Einfluss nicht sehr relevant. Rechnerisch: R² des Interaktionsmodell (Seite 9) ist größer als der des einfachen Modells (Seite 8), spricht für Interaktion. F-Statistik sinkt, ist aber signifikant von 0 verschieden. Steigung für beste Lage ist signifikant von 0 verschieden -> Interaktion. Steigung für gute Lage ist nicht signifikant. Ergebnis entspricht der grafischen Interpretation. Interpretation: Für beste Wohnlage wird ein höherer m² Preis verlangt.

40 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 1 kategorielle Variable siehe Bericht Auswertung_4_Trivariat_Interaktion_metrisch_kat.pdf Nettomiete, Wohnfläche und Baujahr (Seite 14 bis 16) Grafisch: drei Geraden, deutlich zu sehen, Mietpreise für Neubauten sind nicht parallel zu den beiden anderen -> wir erwarten Interaktion. Aber auch die Gerade für 60er Jahre Bauten scheint nicht parallel zu den Altbauten zu. Erstaunlich, im Gegensatz zu den Voranalysen scheinen größere 60er Jahre Bauten höhere Mieten als entsprechende Altbauten zu erzielen. Rechnerisch: R² des Interaktionsmodell ist größer als der des einfachen Modells, spricht für Interaktion. F-Statistik sinkt, ist aber signifikant von 0 verschieden. Alle Koeffizienten des Interaktionsmodells sind signifikant von 0 verschieden -> Interaktion. Interpretation: Preise für Altbauwohnungen beginnen auf einem höheren Niveau (für kleinere Wohnungen) steigen aber nicht so stark mit der Größe.

41 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 1 dichotome Variable siehe Bericht Auswertung_4_Trivariat_Interaktion_metrisch_kat.pdf Nettomiete, Wohnfläche und kein Warmwasser oder keine Zentralheizung (Seite 16 bis 19) Grafisch: Beide Variablen liefern nicht parallele Geraden und sprechen somit für eine Interaktion, also einen niedrigeren m² Preis, falls das eine oder andere nicht vorhanden ist. Rechnerisch: Beide Interaktionsmodelle sind signifikant und bestätigen somit die grafische Interpretation. R² ist für fehlendes Warmwasser etwas höher als bei fehlender Zentralheizung Interpretation: Fehlendes Warmwasser senkt den m² Preis um ca. € 3, fehlende Zentralheizung um € 2. Was wenn sowohl Warmwasser als auch Heizung fehlen? Sinkt der m² Preis dann um €5?

42 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 2 dichotome Variable Siehe Bericht Auswertung_5_Trivariat_Interaktion_kat_kat.pdf Nettomiete, Wohnfläche und kein Warmwasser und keine Zentralheizung (Seite 20 bis 23) Grafisch: Vier Geraden, die nicht parallel verlaufen. Dabei unterscheiden sich 2 kaum: Wenn kein Warmwasser vorhanden ist, scheint das fehlen der Zentralheizung keinen besonderen Effekt mehr zu haben. Nur wenn wohl Warmwasser da ist aber die Heizung fehlt, hat diese einen Effekt. Rechnerisch: Es ergeben sich 4 Modelle, Ohne jegliche Interaktion, rein linear (Seite 19) Eine Interaktion der einen Variable und keine mit der anderen (2 Modelle) (Seite 20 und 21) Beide haben eine Interaktion mit der Wohnfläche. (Seite 22)

43 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 2 dichotome Variable Siehe Bericht Auswertung_5_Trivariat_Interaktion_kat_kat.pdf Nettomiete, Wohnfläche und kein Warmwasser und keine Zentralheizung (Seite 20 bis 23) R² und F Test: R² mit beiden Variablen ist im Vergleich mit den Modellen mit nur einer Variable um mehr als einen Prozentpunkt höher. Am höchsten ist er für das Modell mit beiden Interaktionen (Seite 22) Allerdings nur um 0,01 im Vergleich zum Modell auf Seite 21, wo die Interaktion von Wohnfläche und Zentralheizung fehlt. Dafür ist der Wert der F – Statistik deutlich höher. R² und F-Statistik für das Modell auf Seite 20 sind hingegen im Vergleich niedriger. Das Modell ohne jede Interaktion (Seite 19) hat zwar die höchste F-Statistik aber einen um 0,007 kleineren R². Favoritenmodell -> 𝑛𝑚 ~ 𝑤𝑓𝑙+𝑧ℎ0+ 𝑤𝑓𝑙∗𝑤𝑤0, eine Interaktion

44 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, 2 metrische und 2 dichotome Variable Siehe Bericht Auswertung_5_Trivariat_Interaktion_kat_kat.pdf Nettomiete, Wohnfläche und kein Warmwasser und keine Zentralheizung (Seite 20 bis 23) Favoritenmodell -> 𝑛𝑚 ~ 𝑤𝑓𝑙+𝑧ℎ0+ 𝑤𝑓𝑙∗𝑤𝑤0, eine Interaktion Koeffizienten: In diesem Modell sind die Koeffizienten für die Steigung von wfl*ww0 (Steigung für WFL wenn Warmwasser nicht vorhanden), zh0 (Abschlag, wenn Zentralheizung fehlt) und wfl signifikant von 0 verschieden. Gegen das Modell 𝑛𝑚 ~ 𝑤𝑓𝑙+𝑤𝑓𝑙∗𝑧ℎ0+ 𝑤𝑓𝑙∗𝑤𝑤0 mit beiden Interaktionen spricht auch, dass der Koeffizient von 𝑤𝑓𝑙∗𝑧ℎ0 nicht signifikant von 0 verschieden ist.

45 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Multivariate Voranalysen, Interaktionen Übersicht Im Einfluss auf die Nettomiete zeigt die Wohnfläche Interaktionen zu… Anzahl Räume (3 oder 6 Räume gegenüber allen anderen) Besonderer Küchenausstattung Beste Wohnlage Baujahr kein Warmwasser vorhanden. Diese Faktoren führen zu einer Veränderung des Quadratmeterpreises Im Einfluss auf die Nettomiete führen die folgenden Faktoren … Extra Badezimmerausstattung Badezimmer nicht gekachelt Gute Wohnlage keine Zentralheizung vorhanden zu einem Auf- oder Abschlag bei der gesamten Nettomiete. Der Quadratmeterpreis ändert sich nicht.

46 Fallbeispiel 4: Controlling und Reporting, Report
Der Konsulent analysiert die Daten, erstellt einen Report und bespricht diesen mit Ihnen durch. Gesamtmodell Basierend auf diesen Voranalysen lässt sich nun ein erstes Gesamtmodell formulieren: 𝑛𝑚 ~ 𝑤𝑓𝑙 ∗ 1+𝑅𝑎𝑢𝑚.𝑘𝑎𝑡+𝑘𝑢𝑒𝑐ℎ𝑒+𝑤𝑜ℎ𝑛𝑏𝑒𝑠𝑡+𝑏𝑗.𝑘𝑎𝑡+𝑤𝑤0 + 𝑏𝑎𝑑𝑒𝑥𝑡𝑟𝑎+𝑏𝑎𝑑𝑐𝑘𝑎𝑐ℎ0+𝑤𝑜ℎ𝑛𝑔𝑢𝑡+𝑧ℎ0 Siehe Bericht Gesamtmodell.pdf. R² konnte auf 64,3% Erklärkraft gesteigert werden. Alle wesentlichen Koeffizienten sind zumindest auf einem Niveau von 0,1 signifikant von 0 verschieden. Der Residuenplot zeigt immer noch das auffallende Trichtermuster. Conclusio: Ein erstes, brauchbares Modell, dass aber noch Verbesserung benötigt.

47 Fallbeispiel 4: Controlling und Reporting, Report
Mögliche Schritte zur Verbesserungen Variabilität der Residuen dämpfen -> Logarithmierung der ZV Ausreißer suchen und behandeln Zusätzliche Informationen aufnehmen: Segmentierung der Wohnungen, z.B. Single Wohnung Familienwohnung Seniorenwohnung Luxuswohnung Damit Berücksichtigung des Einflusses der Nachfrage auf den Mietpreis Was des einen beste Wohnlage, ist des anderen zu vermeiden Gegend. Manche wollen inmitten von vielen Menschen, Geschäften und Lokalen wohnen, wo sich richtig was abspielt. Andere liebe die Ruhe und Grünlage.


Herunterladen ppt "Ökonometrie und Statistik Datamining und Big Data anhand von Fallbeispielen Dr. Bertram Wassermann."

Ähnliche Präsentationen


Google-Anzeigen