Prof. Dr. Ulrich van Suntum Empirische Methoden der Regionalökonomik

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Studienkolleg Münster
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Telefonnummer.
= = = = 47 = 47 = 48 = =
Forschungsstatistik II
Forschungsstatistik II
Heute Prüfung der Produkt-Moment Korrelation
Forschungsstatistik I
Der Produkt-Moment- Korrelationskoeffizient Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Der Zusammenhang metrischer Merkmale
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Mehrfachregressionen
Ein frohes und erfolgreiches Jahr
10 Die Phillipskurve Ca 6% ALQ Ursprüngliche Phillipskurve:
Internet facts 2006-I Graphiken zu dem Berichtsband AGOF e.V. September 2006.
Internet facts 2006-III Graphiken zum Berichtsband AGOF e.V. März 2007.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
10.Gravitationstheoretischer Ansatz
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Hypothesen testen: Grundidee
Prof. Dr. Bernhard Wasmayr
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Tutorium
Vorlesung: ANOVA I
Dummy-Variablen Gleicher Lohn bei gleicher Qualifikation: Frauen verdienen im Durchschnitt zwar weniger als Männer, aber ist die Ursache dafür in der Diskriminierung.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Probleme der Modellspezifikation
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
20:00.
WIRTSCHAFTSLAGE NOCH SCHWIERIG
Eine Einführung in die CD-ROM
Chi Quadrat Test Tamara Katschnig.
Logistische Regression
Dokumentation der Umfrage
Bewohnerumfrage 2009 durchgeführt vom
Wir üben die Malsätzchen
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
Statistik: Mehr zur Regression.
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Kapitel 2 Das klassische Regressionsmodell
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen
Kapitel 19 Kointegration
Kapitel 11 Heteroskedastizität
Annahmen des lineare Regressionsmodells
Kapitel 4 Annahmen des linearen Regressionsmodells
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Spielereien mit Mathe von Prof. Dr. Rießinger.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Bevölkerungsentwicklung und –struktur der Stadt Bozen
Bevölkerungsentwicklung und –struktur der Stadt Bozen
Analyseprodukte numerischer Modelle
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Folie Einzelauswertung der Gemeindedaten
Die einfache/multiple lineare Regression
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

Prof. Dr. Ulrich van Suntum Empirische Methoden der Regionalökonomik SS 2010 2. Einfache Regressionsanalyse

2. Einfache Regressionsanalyse (Vgl. K. Backhaus u. a 2. Einfache Regressionsanalyse (Vgl. K. Backhaus u.a., Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, Berlin, 10. Aufl. 2003, S. 45 ff.; sowie Stock/ Watson, Introduction to Econometrics, Boston u.a., 1st ed. 2003, S. 89 ff)) Ziel: Empirische Bestimmung einfacher funktionaler Zusammenhänge Linearer Ansatz: Kleinste-Quadrate-Verfahren => Minimierung von Schätzfehlern y(x) α x © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Die Residuen ui geben Differenz zwischen Schätzwerten ŷi und empirisch y(x) x Die Residuen ui geben Differenz zwischen Schätzwerten ŷi und empirisch beobachteten Werten y an Minimiert wird die Summe der quadrierten Residuen ui (Kleinste-Quadrate- Schätzung bzw. ordinary least square = OLS-Ansatz) Die yi bzw ui müssen voneinander unabhängig sein (d.h. keine Autokorrelation => Durbin-Watson-Test) die ui müssen normalverteilt sein es muss ein linearer Zusammenhang vorliegen © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Bestimmtheitsmaß R2 (in Einfachregressionen): Quadrat des Pearson´schen Korrelationskoeffizienten R gibt an, inwieweit die Varianz von y durch die Varianz von x erklärbar liegt zwischen 0 und 1 (=100%) Definition: Kritik an R2: sagt nichts über Signifikanz (Zusammenhang kann zufällig sein) ist problematisch bei zeitabhängigen Variablen (Trends) steigt tendenziell mit Anzahl der Stichprobenwerte © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Tests der Zuverlässigkeit I: F-Test (Fisher-Test): prüft, ob R2 zufällig ist Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit Definition: n = Zahl der Probanden J = Zahl der Regressoren (hier nur x => J = 1) n-J-1 = „Zahl der Freiheitsgrade“ kritischer F-Wert ergibt sich aus verlangtem Signifikanzniveau Femp. > Fkrit. => Ablehnung der Nullhypothese => R2 signifikant © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Tests der Zuverlässigkeit II: t-Test: prüft, ob Regressoren signifikant sind Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit Definition: b = Koeffizient von Regressor j (hier Koeffizient von x) sj = Standardabweichung von Regressor j kritischer t-Wert ergibt sich aus verlangtem Signifikanzniveau temp > tkrit => Ablehnung der Nullhypothese => bj (hier: x) signifikant Faustregel: t-Wert > 3 => Regressor ist hinreichend signifikant exakter: p-Wert = (1-Signifikanzniveau des betreffenden Koeffizienten) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel: Überprüfung der sogen. „Rank Size Rule“: „Wenn x der Rang einer Stadt innerhalb einer Region nach der Größe ist, dann entspricht ihre Einwohnerzahl y (etwa) dem X-ten Teil der Einwohnerzahl der größten Stadt ymax.“ Im Idealfall: Rang (x) Stadt Einwohner (y) 1 Metropolis 60.000 2 Gerngroß 30.000 3 Provinzia 20.000 4 Biederhausen 15.000 5 Unterkirch 12.000 6 Kuhdorf 10.000 (ymax) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Strenge Form der Rank-Size-Rule (F. Auerbach 1913): d.h. für jede Stadt eines Landes gilt Bevölkerung (y) · Rang (x) = Bevölkerung der größten Stadt (ymax) Empirische Evidenz damals für USA, Deutschland, Österreich, z.B.: Stadt Mio. Einwohner Wien 1,7 Budapest 0,85 Prag 0,57 Lemberg 0,425 (Quelle: Matznetter, http://geoskript.heim.at/Downloads/Stadtgeographie.pdf) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Allgemeinere Form der Rank-Size-Rule (Lotka 1925): Vergleich mit strenger Rank-Size-Rule: Bei b > 1 nimmt die EW-Zahl stärker ab Bei b < 1 nimmt die EW-Zahl schwächer ab Bei b = 0 sind alle Städte gleich groß Bei b => oo sind alle EW des Landes in einer Stadt Für die USA wird b mit 0,93 angegeben © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Logarithmierte Darstellung des Idealfalls: Linearer Schätzansatz erfordert Logarithmierung Logarithmierte Darstellung des Idealfalls: x y ln(x) ln(y) 1 60.000 0.000 11.00 2 30.000 0.693 10.31 3 20.000 1.099 9.90 4 15.000 1.386 9.62 5 12.000 1.609 9.39 6 10.000 1.792 9.21 Ergebnis: ln(ymax) = 11 b = -1 R² = 1 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Anmerkung: log-log-Modell: Dies ist ein so genanntes: => Eine 1% Veränderung in x, ist verbunden mit einer b% Veränderung in y, so dass b die Elastizität von y zu x ist Es gibt aber noch zwei Alternativen: log-lin-Modell: => eine Veränderung in x um 1 Einheit (∆x = 1), ist verbunden mit einer 100b% Veränderung in y lin-log-Modell: => eine 1% Veränderung in x, ist verbunden mit einer Veränderung in y von 0,01b (vgl. Stock/Watson (2003), S. 215) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Empirische Prüfung für den Regierungsbezirk Düsseldorf Stadt Rang (x) EW in 1.000 (y) Essen 1 627,3 Düsseldorf 2 578,1 Dusiburg 3 539,1 Wuppertal 4 388,1 Mönchengladbach 5 265,1 Krefeld 6 248,4 Oberhausen 7 226,0 Mülheim 8 177,0 Solingen 9 167,1 Remscheid 10 124,1 Ergebnis: b = -0,72, R2 = 0,88 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Empirische Prüfung für den Kreis Neuss Stadt Rang (x) EW in 1.000 (y) Neuss 1 149,0 Grevenbroich 2 62,9 Dormagen 3 59,6 Meerbusch 4 53,3 Kaarst 5 40,9 Korschenbroich 6 30,7 Juechen 7 21,9 Rommerskirchen 8 11,9 Ergebnis: b = -1,01; R2 = 0,87 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

RB Düsseldorf (b=0,72; R² = 0,88), Kreis Neuss (b= 1,01; R² = 0,87) Rank Size Rule in NRW? Essen Düsseldorf Duisburg Wuppertal Mönchengladbach Krefeld Oberhausen Mülheim Neuss Solingen Grevenbroich Dormagen Meerbusch Remscheid Kaarst Korschenbroich Juechen Rommerskirchen RB Düsseldorf (b=0,72; R² = 0,88), Kreis Neuss (b= 1,01; R² = 0,87) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Ergebnis der empirischen Prüfung Im Regierungsbezirk Düsseldorf (b = -0,72) sind Stadtgrößen homogener als im Kreis Neuss (b = -1,01) Im Kreis Neuss ist die Rank Size Rule insgesamt annähernd erfüllt, aber Zusammenhang nicht perfekt (b nahe –1, mit einer geringeren erklärten Streuung => R2 = 0,87 ) Kritik: Verwaltungsgrenzen willkürlich, Fallzahlen gering, gleich große Städte stören Zusammenhang © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

2. Anwendungsversuch: Kreis Coesfeld © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Idee: Bildung von Gemeindegrößenklassen: Stadt Rang (x) Einwohner (y) Dülmen 1 47.479 Coesfeld 2 36.729 Lüdinghausen 3 24.053 Nottuln/Senden 4 20.313 Ascheberg 5 15.153 Olfen/Havixbeck/Billerbeck 6 11.894 Nordkirchen/Rosendahl 7 10.632 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Test auf Gültigkeit der Rank-Size-Rule für die 7 Größenklassen: a) Regression mit Originalwerten: Ergebnis: a = 47.909 b = - 6040 => ymax = a + b = 41.869 R2 = 0,90 (Achtung: a steht hier nicht für Ymax, sondern für x = 0, d.h. Ymax = a + b·1) Stadt Einwohner (y) Schätzwert (ŷ) Dülmen 47.479 41.869 Coesfeld 36.729 35.829 Lüdinghausen 24.053 29.789 Nottuln/Senden 20.313 23.749 Ascheberg 15.153 17.709 Olfen/Havixbeck/Billerbeck 11.894 11.669 Nordkirchen/Rosendahl 10.632 5.629 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Rank Size Rule: lineare Schätzung Grafik/Bewertung: Rank Size Rule: lineare Schätzung Einwohner (y) Schätzwert (ŷ) Ergebnis schon nicht schlecht aber offensichtlich keine lineare Beziehung (Residuen systematisch verzerrt) vielleicht geht es mit Logarithmierung ja noch besser... © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

b) 2. Versuch: Regression mit logarithmierten Werten Ergebnis: ln(Ymax) = 10,92 b = - 0,80 R2 = 0,96 Stadt ln(x) ln(y) ln(ŷ) ŷ Dülmen 0.00 10.77 10.92 55.271 Coesfeld 0.69 10.51 10.37 31.745 Lüdinghausen 1.10 10.09 10.04 22.951 Nottuln/Senden 1.39 9.92 9.81 18.233 Ascheberg 1.61 9.63 15.252 Olfen/Havixbeck/Billerbeck 1.79 9.38 9.49 13.182 Nordkirchen/Rosendahl 1.95 9.27 9.36 11.652 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Rank Size Rule: logarithmierte Darstellung Grafik/Bewertung: Rank Size Rule: logarithmierte Darstellung Einwohner (lny) Schätzwert (lnŷ) Bestimmtheitsmaß höher als bei Schätzung mit Originalwerten Residuen sind gleichmäßiger verteilt © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

3. Versuch: Logarithmierung mit quadratischem Regressor Ergebnis: ln(Ymax) = 10,68 b = - 0,40 R2 = 0,98 Stadt ln(x)² ln(y) ln(ŷ) ŷ Dülmen 0.00 10.77 10.68 43.478 Coesfeld 0.48 10.51 10.49 35.876 Lüdinghausen 1.21 10.09 10.20 26.829 Nottuln/Senden 1.92 9.92 9.91 20.156 Ascheberg 2.59 9.63 9.64 15.427 Olfen/Havixbeck/Billerbeck 3.21 9.38 9.40 12.038 Nordkirchen/Rosendahl 3.79 9.27 9.17 9.560 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Logarithmierung Darstellung mit quadratischem Regressor Grafik/Bewertung: Logarithmierung Darstellung mit quadratischem Regressor Schätzwert (lnŷ) Einwohner (lny) Ergebnis nochmals verbessert man kann auch andere Exponenten als Quadrat versuchen der Phantasie sind keine Grenzen gesetzt, aber besser wäre eine Theorie... © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel aus der Demografie: zeitliche Trendschätzung Pro Jahr ca. 5.216 Ehen weniger als im Vorjahr aber: andere Faktoren mit einbeziehen (z.B. Bevölkerung im heiratsfähigen Alter, „wilde“ Ehen, Konfessionen, Wirtschaftslage) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel aus der Demografie II: Geburtenzahl G = 18.494.540 – 8874 t R2 = 0,57 Zusammenhang insgesamt schwächer als bei Ehen Seit den 80er Jahren aber ähnlich eng Andere Einflußfaktoren: Zahl der potentiellen Mütter, Konfession und wirtschaftliche Lage, politische Anreize, wirtschaftliche Lage © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Zusammenhang Eheschließungen und Geburten pro zusätzlicher Eheschließung knapp 2 Kinder mehr zu prüfen: gilt das auch für nicht-eheliche Gemeinschaften? evntl. reverse causality: Erst das Kind, dann die Ehe  © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel regionale Immobilienprognose I (InSiWo 2006, auf Basis von 97 ROR) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel regionale Immobilienprognose II (InSiWo 2006, auf Basis von 97 ROR) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel regionale Immobilienprognose III (InSiWo 2006, auf Basis von 97 ROR) Schlechte Korrelationen evtl. durch Eliminierung von Ausreißern verbessern © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel regionale Immobilienprognose IV (InSiWo 2006, auf Basis von 97 ROR) Prüfen, ob Bevölkerungszahl insgesamt genauso gut (oder sogar besser!) funktioniert © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Beispiel für zirkuläre Kausalität: Bevölkerungs- und Arbeitsmarktentwicklung Empirischer Zusammenhang Beschäftigungszuwachs und Wanderungssaldo (97 ROR, Durchschnittsdaten 1993-99) W = 0,0054 +0,29 * B R2 = 0,36 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Empirie ohne Theorie? Problem Scheinkorrelationen: cum hoc non est propter hoc Geburtenrate ist mit Zahl der Störche korreliert (beide sinken) Weltbevölkerung korreliert mit Alter der englischen Königin (beide steigen) Welttemperatur steigt mit abnehmender Zahl der Piraten (siehe Abb.) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse

Vorsicht vor Scheinkorrelationen! X Y Evtl. Z als Kontrollvariable in die Regression aufnehmen Z Beispiel A: Zahl der Kinder (Y) sinkt regional mit der Zahl der Störche (X) Mögliche Erklärung: Mit steigendem Urbanisierungsgrad (Z) sinkt sowohl Kinder- wie auch Storchenzahl Beispiel B: In CDU-regierten Kommunen (X) gibt es weniger Kriminalität (Y) Mögliche Erklärung: CDU regiert vor allem im ländlichen Raum (Z), dort ist die Kriminalität geringer (auch bei SPD-Regierung) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse