Prof. Dr. Ulrich van Suntum Empirische Methoden der Regionalökonomik SS 2010 2. Einfache Regressionsanalyse
2. Einfache Regressionsanalyse (Vgl. K. Backhaus u. a 2. Einfache Regressionsanalyse (Vgl. K. Backhaus u.a., Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, Berlin, 10. Aufl. 2003, S. 45 ff.; sowie Stock/ Watson, Introduction to Econometrics, Boston u.a., 1st ed. 2003, S. 89 ff)) Ziel: Empirische Bestimmung einfacher funktionaler Zusammenhänge Linearer Ansatz: Kleinste-Quadrate-Verfahren => Minimierung von Schätzfehlern y(x) α x © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Die Residuen ui geben Differenz zwischen Schätzwerten ŷi und empirisch y(x) x Die Residuen ui geben Differenz zwischen Schätzwerten ŷi und empirisch beobachteten Werten y an Minimiert wird die Summe der quadrierten Residuen ui (Kleinste-Quadrate- Schätzung bzw. ordinary least square = OLS-Ansatz) Die yi bzw ui müssen voneinander unabhängig sein (d.h. keine Autokorrelation => Durbin-Watson-Test) die ui müssen normalverteilt sein es muss ein linearer Zusammenhang vorliegen © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Bestimmtheitsmaß R2 (in Einfachregressionen): Quadrat des Pearson´schen Korrelationskoeffizienten R gibt an, inwieweit die Varianz von y durch die Varianz von x erklärbar liegt zwischen 0 und 1 (=100%) Definition: Kritik an R2: sagt nichts über Signifikanz (Zusammenhang kann zufällig sein) ist problematisch bei zeitabhängigen Variablen (Trends) steigt tendenziell mit Anzahl der Stichprobenwerte © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Tests der Zuverlässigkeit I: F-Test (Fisher-Test): prüft, ob R2 zufällig ist Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit Definition: n = Zahl der Probanden J = Zahl der Regressoren (hier nur x => J = 1) n-J-1 = „Zahl der Freiheitsgrade“ kritischer F-Wert ergibt sich aus verlangtem Signifikanzniveau Femp. > Fkrit. => Ablehnung der Nullhypothese => R2 signifikant © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Tests der Zuverlässigkeit II: t-Test: prüft, ob Regressoren signifikant sind Nullhypothese: es besteht kein linearer Zusammenhang y(x) in der Grundgesamtheit Definition: b = Koeffizient von Regressor j (hier Koeffizient von x) sj = Standardabweichung von Regressor j kritischer t-Wert ergibt sich aus verlangtem Signifikanzniveau temp > tkrit => Ablehnung der Nullhypothese => bj (hier: x) signifikant Faustregel: t-Wert > 3 => Regressor ist hinreichend signifikant exakter: p-Wert = (1-Signifikanzniveau des betreffenden Koeffizienten) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel: Überprüfung der sogen. „Rank Size Rule“: „Wenn x der Rang einer Stadt innerhalb einer Region nach der Größe ist, dann entspricht ihre Einwohnerzahl y (etwa) dem X-ten Teil der Einwohnerzahl der größten Stadt ymax.“ Im Idealfall: Rang (x) Stadt Einwohner (y) 1 Metropolis 60.000 2 Gerngroß 30.000 3 Provinzia 20.000 4 Biederhausen 15.000 5 Unterkirch 12.000 6 Kuhdorf 10.000 (ymax) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Strenge Form der Rank-Size-Rule (F. Auerbach 1913): d.h. für jede Stadt eines Landes gilt Bevölkerung (y) · Rang (x) = Bevölkerung der größten Stadt (ymax) Empirische Evidenz damals für USA, Deutschland, Österreich, z.B.: Stadt Mio. Einwohner Wien 1,7 Budapest 0,85 Prag 0,57 Lemberg 0,425 (Quelle: Matznetter, http://geoskript.heim.at/Downloads/Stadtgeographie.pdf) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Allgemeinere Form der Rank-Size-Rule (Lotka 1925): Vergleich mit strenger Rank-Size-Rule: Bei b > 1 nimmt die EW-Zahl stärker ab Bei b < 1 nimmt die EW-Zahl schwächer ab Bei b = 0 sind alle Städte gleich groß Bei b => oo sind alle EW des Landes in einer Stadt Für die USA wird b mit 0,93 angegeben © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Logarithmierte Darstellung des Idealfalls: Linearer Schätzansatz erfordert Logarithmierung Logarithmierte Darstellung des Idealfalls: x y ln(x) ln(y) 1 60.000 0.000 11.00 2 30.000 0.693 10.31 3 20.000 1.099 9.90 4 15.000 1.386 9.62 5 12.000 1.609 9.39 6 10.000 1.792 9.21 Ergebnis: ln(ymax) = 11 b = -1 R² = 1 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Anmerkung: log-log-Modell: Dies ist ein so genanntes: => Eine 1% Veränderung in x, ist verbunden mit einer b% Veränderung in y, so dass b die Elastizität von y zu x ist Es gibt aber noch zwei Alternativen: log-lin-Modell: => eine Veränderung in x um 1 Einheit (∆x = 1), ist verbunden mit einer 100b% Veränderung in y lin-log-Modell: => eine 1% Veränderung in x, ist verbunden mit einer Veränderung in y von 0,01b (vgl. Stock/Watson (2003), S. 215) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Empirische Prüfung für den Regierungsbezirk Düsseldorf Stadt Rang (x) EW in 1.000 (y) Essen 1 627,3 Düsseldorf 2 578,1 Dusiburg 3 539,1 Wuppertal 4 388,1 Mönchengladbach 5 265,1 Krefeld 6 248,4 Oberhausen 7 226,0 Mülheim 8 177,0 Solingen 9 167,1 Remscheid 10 124,1 Ergebnis: b = -0,72, R2 = 0,88 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Empirische Prüfung für den Kreis Neuss Stadt Rang (x) EW in 1.000 (y) Neuss 1 149,0 Grevenbroich 2 62,9 Dormagen 3 59,6 Meerbusch 4 53,3 Kaarst 5 40,9 Korschenbroich 6 30,7 Juechen 7 21,9 Rommerskirchen 8 11,9 Ergebnis: b = -1,01; R2 = 0,87 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
RB Düsseldorf (b=0,72; R² = 0,88), Kreis Neuss (b= 1,01; R² = 0,87) Rank Size Rule in NRW? Essen Düsseldorf Duisburg Wuppertal Mönchengladbach Krefeld Oberhausen Mülheim Neuss Solingen Grevenbroich Dormagen Meerbusch Remscheid Kaarst Korschenbroich Juechen Rommerskirchen RB Düsseldorf (b=0,72; R² = 0,88), Kreis Neuss (b= 1,01; R² = 0,87) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Ergebnis der empirischen Prüfung Im Regierungsbezirk Düsseldorf (b = -0,72) sind Stadtgrößen homogener als im Kreis Neuss (b = -1,01) Im Kreis Neuss ist die Rank Size Rule insgesamt annähernd erfüllt, aber Zusammenhang nicht perfekt (b nahe –1, mit einer geringeren erklärten Streuung => R2 = 0,87 ) Kritik: Verwaltungsgrenzen willkürlich, Fallzahlen gering, gleich große Städte stören Zusammenhang © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
2. Anwendungsversuch: Kreis Coesfeld © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Idee: Bildung von Gemeindegrößenklassen: Stadt Rang (x) Einwohner (y) Dülmen 1 47.479 Coesfeld 2 36.729 Lüdinghausen 3 24.053 Nottuln/Senden 4 20.313 Ascheberg 5 15.153 Olfen/Havixbeck/Billerbeck 6 11.894 Nordkirchen/Rosendahl 7 10.632 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Test auf Gültigkeit der Rank-Size-Rule für die 7 Größenklassen: a) Regression mit Originalwerten: Ergebnis: a = 47.909 b = - 6040 => ymax = a + b = 41.869 R2 = 0,90 (Achtung: a steht hier nicht für Ymax, sondern für x = 0, d.h. Ymax = a + b·1) Stadt Einwohner (y) Schätzwert (ŷ) Dülmen 47.479 41.869 Coesfeld 36.729 35.829 Lüdinghausen 24.053 29.789 Nottuln/Senden 20.313 23.749 Ascheberg 15.153 17.709 Olfen/Havixbeck/Billerbeck 11.894 11.669 Nordkirchen/Rosendahl 10.632 5.629 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Rank Size Rule: lineare Schätzung Grafik/Bewertung: Rank Size Rule: lineare Schätzung Einwohner (y) Schätzwert (ŷ) Ergebnis schon nicht schlecht aber offensichtlich keine lineare Beziehung (Residuen systematisch verzerrt) vielleicht geht es mit Logarithmierung ja noch besser... © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
b) 2. Versuch: Regression mit logarithmierten Werten Ergebnis: ln(Ymax) = 10,92 b = - 0,80 R2 = 0,96 Stadt ln(x) ln(y) ln(ŷ) ŷ Dülmen 0.00 10.77 10.92 55.271 Coesfeld 0.69 10.51 10.37 31.745 Lüdinghausen 1.10 10.09 10.04 22.951 Nottuln/Senden 1.39 9.92 9.81 18.233 Ascheberg 1.61 9.63 15.252 Olfen/Havixbeck/Billerbeck 1.79 9.38 9.49 13.182 Nordkirchen/Rosendahl 1.95 9.27 9.36 11.652 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Rank Size Rule: logarithmierte Darstellung Grafik/Bewertung: Rank Size Rule: logarithmierte Darstellung Einwohner (lny) Schätzwert (lnŷ) Bestimmtheitsmaß höher als bei Schätzung mit Originalwerten Residuen sind gleichmäßiger verteilt © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
3. Versuch: Logarithmierung mit quadratischem Regressor Ergebnis: ln(Ymax) = 10,68 b = - 0,40 R2 = 0,98 Stadt ln(x)² ln(y) ln(ŷ) ŷ Dülmen 0.00 10.77 10.68 43.478 Coesfeld 0.48 10.51 10.49 35.876 Lüdinghausen 1.21 10.09 10.20 26.829 Nottuln/Senden 1.92 9.92 9.91 20.156 Ascheberg 2.59 9.63 9.64 15.427 Olfen/Havixbeck/Billerbeck 3.21 9.38 9.40 12.038 Nordkirchen/Rosendahl 3.79 9.27 9.17 9.560 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Logarithmierung Darstellung mit quadratischem Regressor Grafik/Bewertung: Logarithmierung Darstellung mit quadratischem Regressor Schätzwert (lnŷ) Einwohner (lny) Ergebnis nochmals verbessert man kann auch andere Exponenten als Quadrat versuchen der Phantasie sind keine Grenzen gesetzt, aber besser wäre eine Theorie... © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel aus der Demografie: zeitliche Trendschätzung Pro Jahr ca. 5.216 Ehen weniger als im Vorjahr aber: andere Faktoren mit einbeziehen (z.B. Bevölkerung im heiratsfähigen Alter, „wilde“ Ehen, Konfessionen, Wirtschaftslage) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel aus der Demografie II: Geburtenzahl G = 18.494.540 – 8874 t R2 = 0,57 Zusammenhang insgesamt schwächer als bei Ehen Seit den 80er Jahren aber ähnlich eng Andere Einflußfaktoren: Zahl der potentiellen Mütter, Konfession und wirtschaftliche Lage, politische Anreize, wirtschaftliche Lage © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Zusammenhang Eheschließungen und Geburten pro zusätzlicher Eheschließung knapp 2 Kinder mehr zu prüfen: gilt das auch für nicht-eheliche Gemeinschaften? evntl. reverse causality: Erst das Kind, dann die Ehe © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel regionale Immobilienprognose I (InSiWo 2006, auf Basis von 97 ROR) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel regionale Immobilienprognose II (InSiWo 2006, auf Basis von 97 ROR) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel regionale Immobilienprognose III (InSiWo 2006, auf Basis von 97 ROR) Schlechte Korrelationen evtl. durch Eliminierung von Ausreißern verbessern © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel regionale Immobilienprognose IV (InSiWo 2006, auf Basis von 97 ROR) Prüfen, ob Bevölkerungszahl insgesamt genauso gut (oder sogar besser!) funktioniert © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Beispiel für zirkuläre Kausalität: Bevölkerungs- und Arbeitsmarktentwicklung Empirischer Zusammenhang Beschäftigungszuwachs und Wanderungssaldo (97 ROR, Durchschnittsdaten 1993-99) W = 0,0054 +0,29 * B R2 = 0,36 © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Empirie ohne Theorie? Problem Scheinkorrelationen: cum hoc non est propter hoc Geburtenrate ist mit Zahl der Störche korreliert (beide sinken) Weltbevölkerung korreliert mit Alter der englischen Königin (beide steigen) Welttemperatur steigt mit abnehmender Zahl der Piraten (siehe Abb.) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse
Vorsicht vor Scheinkorrelationen! X Y Evtl. Z als Kontrollvariable in die Regression aufnehmen Z Beispiel A: Zahl der Kinder (Y) sinkt regional mit der Zahl der Störche (X) Mögliche Erklärung: Mit steigendem Urbanisierungsgrad (Z) sinkt sowohl Kinder- wie auch Storchenzahl Beispiel B: In CDU-regierten Kommunen (X) gibt es weniger Kriminalität (Y) Mögliche Erklärung: CDU regiert vor allem im ländlichen Raum (Z), dort ist die Kriminalität geringer (auch bei SPD-Regierung) © U. van Suntum Empirische Methoden der Regionalökonomik: 2. Einfach Regressionsanalyse