Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Mehrebenen-Modelle: Methodische Ansätze und Schätzung

Ähnliche Präsentationen


Präsentation zum Thema: "Mehrebenen-Modelle: Methodische Ansätze und Schätzung"—  Präsentation transkript:

1 Mehrebenen-Modelle: Methodische Ansätze und Schätzung
Reinhard Hujer J.W.Goethe-Universität Frankfurt/M. Nürnberg, 30. Oktober 2008

2 Problemstellung (1) Mikrodatensätze haben eine hierarchische Struktur, z.B. 3 Ebenen: Beschäftigte: i = 1, …, N Betriebe: j = 1, …, J Sektoren m = 1, …, M Datenlage: Die abhängige Variable Y wird auf Ebene 1 gemessen Die unabhängigen Variablen werden auf allen Ebenen erhoben Gruppen auf den unterschiedlichen Ebenen können unterschiedliche Größe haben Auf jeder Ebene werden spezifische Modellgleichungen erstellt

3 Problemstellung (2) Probleme bei Nichtberücksichtigung der Mehrebenenstruktur: Beobachtungen innerhalb einer Gruppe sind im allgemeinen nicht unabhängig voneinander, d.h. sie können untereinander stärker korrelieren als Beobachtungen aus anderen Gruppen, z.B. Kontexteffekte, gemeinsame Sozialisation Statistische Standardmethoden sind nicht robust gegenüber der Verletzung der Unabhängigkeitsannahme

4 Modellvarianten der Mehrebenen-Ansätze
Zwei grundsätzliche, weitgehend unabhängige Modell-Entwicklungen: In der Soziologie, Psychologie, Pädagogik, Politikwissenschaft: Random-Coefficient-Modelle mit mehr als 2 Ebenen In der Ökonomie: Fixed Effects Panel-Modelle im Rahmen der ökonometrischen Analyse von Linked Employer-Employee-Datensätzen (z.B. LIAB)

5 Random Coefficient-Modelle (1)
Zwei-Ebenen-Modelle: Regressionsgleichung auf Ebene 1: mit i = Index für Ebene 1 (z.B. Beschäftigte) j = Index für Ebene 2 (z.B. Betrieb) eij = individuenspezifischer Fehlerterm β0j und β1j variieren über die Ebenen-2-Einheiten: u0j und u1j sind gruppenspezifische Zufallsvariablen. Deshalb: „Random Coefficient“-Modell Beispiel: Yij = Einkommen Xij = Qualifikationsniveau Zj = Betriebsgröße

6 Random Coefficient-Modelle (2)
Zwei-Ebenen-Modelle: Nach Umformen: mit = Cross-Level-Interaktion = Heteroskedastizität

7 Random Coefficient-Modelle (3)
Varianzen und Kovarianzen: Varianz in der abhängigen Variablen kann auf folgende Ursachen zurückgeführt werden: Level-1-Zufallseinflüsse Level-2-spezifische Zufallseffekte Systematische Effekte von Level-1-Prädiktoren Systematische Gruppeneffekte von Level-2-Prädiktoren Interaktionen zwischen Level-1- und Level-2-Prädiktoren

8 Schätzung eines allgemeinen linearen 2-Ebenen-Modells (1)
Modell-Ansatz: mit wobei i = 1, …, N Individuen j = 1, …, J Betriebe βj : (K*1)-Vektor der Parameter variiert über Betriebe Xij : (K*1)-Vektor von erklärende Variablen (Konstante und (K-1) individuelle Charakteristika) Annahme: βj variiert nicht nur zufällig über die Betriebe, sondern ist auf der Ebene 2 abhängig von einem (1*L)-Vektor zj (Betriebsmerkmale). Mit als (K*K·L)-Matrix ergibt sich:

9 Schätzung eines allgemeinen linearen 2-Ebenen-Modells (2)
mit γ als (K·L*1) Parameter-Vektor Für die Kovarianzen gilt: für alle k, k´ und l und mit k=1,…,K und l = 1,…,L.

10 Schätzung eines allgemeinen linearen 2-Ebenen-Modells (3)
Schätzmethoden (Raudenbush,Bryk (2002), S.408ff.): Da T und σ2 nicht bekannt sind, ist eine GLS-Schätzung nicht möglich Full Maximum Likelihood-Schätzung (FML) in Abhängigkeit von γ,σ2 und T. Jedoch: Varianzen und Kovarianzen sind abhängig von den Regressionsparametern Deshalb: Restricted Maximum Likelihood-Schätzung (RML): Berücksichtigt die Korrektur um die Anzahl der Freiheitsgrade bei der Schätzung von Unterschiede zwischen FML und RML bei Level-1-Schätzung gering, jedoch größer bei der Schätzung von T (auf Level 2), insbesondere wenn die Anzahl der Level-2-Einheiten klein ist (höhere Werte für die Varianzen von T)

11 Schätzung eines allgemeinen linearen 2-Ebenen-Modells (4)
Schätzmethoden in HLM: Full Maximum Likelihood Restricted Maximum Likelihood Schätzmethoden in MLwiN: Iterative Generalized Least Squares (IGLS) Markov Chain Monte Carlo (MCMC) Schätzmethoden in STATA: Maximum Likelihood (im Programm gllam)

12 Weitere Modellansätze (1)
Discrete Choice-Modelle: Logit-Modelle: Yij~Bin(1,Πij) oder gruppiert Bin(nij, Πij) mit z.B. Logit: Count-Data-Modelle: Yij ~Poisson(λij) oder gruppiertes Poisson (nij, λij) z.B. Multinomiale Modelle mit geordneten Kategorien (q): mit s=1,…, q-1, undγij(s): kumulative Wahrscheinlichkeit

13 Weitere Modellansätze (2)
Logit-Link (proportional odds) Mit α(s) thresholds Multinomiale Modelle mit ungeordneten Kategorien: Yij~(1,2,…, q) ungeordnete Kategorien Link-Funktion: mit s=1,…, q-1

14 Weitere Modellansätze (3)
Verweildauer-Modelle: Semi-parametrisches Cox-Modell Diskretes Hazardraten-Modell

15 Schätzmethoden für Discrete Choice und Verweildauer-Modelle
In HLM: Penalized Quasi-Maximum Liklihood (PQL) (siehe Raudenbush, Bryk (2002),S.454ff.; Leeuw, Meijer (2008), S.348ff.) High-Order Laplace (Siehe Raudenbush, Bryk (2002),S.460ff.; Leeuw, Meijer (2008), S.357ff.) In MLwiN: Penalized Quasi Maximum Likelihood (PQL) Marginal Quasi Maximum Likelihood (MQL) (Raudenbush, Bryk (2002), S.460ff.) Markov Chain Monte Carlo (MCMC) oder Gibbs Sampling (Raudenbush,Bryk (2002), S.427ff.; Leeuw, Meijer (2008),S.365ff.)

16 Linked Employer-Employee-Modelle (1)
In der ökonometrischen Forschung: Linked Employer-Employee-Modelle (LEEP) als 2-Ebenen-Ansatz mit i=1,2,…,N. Individuen und j=1,2,…,j Betrieben über die Zeit, t=1,…, T

17 Linked Employer-Employee-Modelle (2)
Das LEEP-Modell ist eine Verallgemeinerung des traditionellen Paneldaten-Modells: y = xβ+Dθ+Fψ+ε (1) wobei: y = (N·T×1)-Vektor x = (N·T×K)-Matrix mit K erklärenden Variablen D = (N·T×N)-Matrix von (0;1)-Indikatoren für N Beschäftigte F = (N·T×J)-Matrix von (0;1)-Indikatoren für J Betriebe, in denen N Personen in T Perioden arbeiten ε= Störvariable mit E(εit∣i,t,x) = 0 Var(εit∣i,t,x) < ∞ und orthogonal zu allen anderen Effekten.

18 Linked Employer-Employee-Modelle (3)
Personen- bzw. Firmeneffekt kann zerlegt werden in: θi = αi + uiη ψi = Φj+qjρ Mit αi: unbeobachtete individuelle Heterogenität ui: Vektor von zeitinvarianten individuellen Charakteristika Φj: unbeobachtete Firmenheterogenität qj: Vektor von zeitinvarianten Firmen-Charakteristika Da αi und Φj sind korreliert mit den beobachtbaren Variablen, deshalb: Random effects-Methoden führen zu inkonsistenten Schätzern und fixed effects-Ansätze sind notwendig.

19 Schätzung: Fixed Effects-Ansatz (1)
Die Normalgleichungen für eine Kleinst-Quadrate-Schätzung haben das Problem einer hohen Dimensionalität zu lösen. Statistische Approximationen haben Abowd, Kramarz und Margolis (1999) und Abowd, Finer und Kramarz (1999) vorgeschlagen. Abowd, Creecy und Kramarz (2002) haben einen Algorithmus entwickelt, der eine exakte Kleinstquadrate-Schätzung erlaubt. Die vollständige OLS-Schätzung für Gleichung(1) lautet:

20 Schätzung: Fixed Effects-Ansatz (2)
Identifikation der Individual- und Firmeneffekte durch Gruppenbildung: Anwendung der Graphentheorie zur Bildung von verbundenen Personen und Firmen (Kovarianzanalyse) Eine Gruppe von Personen und Firmen ist verbunden, wenn die Gruppe alle Beschäftigten enthält, die jemals für irgendeine Firma in der Gruppe gearbeitet haben, und alle Firmen enthält, bei denen irgendein Beschäftigter jemals gearbeitet hat (Mobilitätsnetwork) Unter statistischem Aspekt führen vorhandene Gruppen von Beschäftigten und Firmen zu einer block-diagonalen Struktur der Normalgleichungen und erlauben präzise Identifikationskriterien (Searle, et al. (1992)) In jeder Gruppe g ist der Gruppenmittelwert y und Ng-1+Jg-1 Personen- und Firmeneffekten identifiziert. Nach der Konstruktion von G Gruppen sind (N+J-G) Effekte zu schätzen.

21 Schätzung: Fixed Effects-Ansatz (3)
Firma Person Gruppe 1 2 3 4 5

22 Schätzung: Fixed Effects-Ansatz (4)
Normalgleichungen nach Gruppierung:

23 Schätzung: Fixed Effects-Ansatz (5)
Es wird ein „fixed effects“ – Ansatz mit Gradienten-Verfahren von Dongarra, et al.(1991) verwendet. Alternativer Ansatz: Spell-fixed effects (Andrews, Schank, Upward (2004)). Für jeden Beschäftigten innerhalb einer Firma („spell“) variiert weder θi noch ψj: λs = θi + ψj „spell“ – Heterogenität

24 Schätzung: Mixed Effects–Methoden (1)
Mixed effects-Modelle enthalten zufällige und fixe Effekte, sind im Sinne von Paneldatenmodellen reine random effects-Modelle. Es gilt: Das Gleichungssystem für das Mixed Modell (Searle, Casella and McCulloch (1992)) lautet:

25 Schätzung: Mixed Effects–Methoden (2)
Die Vektoren [θ‘ , ψ’] folgen multivariaten Normalverteilungen und sind mit ML zu schätzen. Correlated random effects-Modell (Chamberlain(1984), Mundlak(1978))

26 Schätzung: Mixed Effects–Methoden (3)
Einsetzen in Ausgangsgleichung (1) ergibt für jedes Individuum i in Periode t:

27 Methoden – Vergleich (1)
Random effects-Modelle werden gegenüber fixed effects-Modellen bei Hausman-Test üblicherweise abgelehnt, da Abhängigkeiten zwischen Regressoren und Störterm. Fixed effects-Schätzer lassen dagegen kein Berücksichtigung von Dummy-Variablen zu Daher: Kombination zwischen beiden Ansätzen (Hübler(2006)) durch Ersetzen des zufälligen individuellen Effekts durch den geschätzten fixed effect.

28 Methoden – Vergleich (2)
Beispiel: Zwei-Ebenen-Modell ohne reinen Individualeffekt Yij = X‘ijβ+ψj+εij mit ψ j allgemeiner Firmeneffekt Grundgedanke: Falls die Abhängigkeit zwischen den Regressoren und Störgrößen allein auf ψ j zurückzuführen ist, kann der bedingte Erwartungswert von ψ j explizit als deterministische Größe modelliert werden und als Within-Schätzer eines FEM ermittelt werden: mit β* als Koeffizientenvektor ohne Konstante.

29 Methoden – Vergleich (3)
Im zweiten Schritt wird die Ausgangsgleichung um ein Vielfaches der Schätzung von erweitert: Eine konsistente Schätzung erfolgt durch einen FE-Ansatz, wobei die Abweichungen gegen Null konvergieren sollten. Bei signifikanten Abweichungen liegt Fehlspezifikation vor. Die OLS-Schätzung führt zu neuen Schätzungen für den Firmeneffekt usw., bis der geschätzte Koeffizientenvektor gegen 1 tendiert.

30 Fazit Unabhängige methodische Entwicklungen in der Ökonomie einerseits, in der Soziologie, Politikwissenschaft, Pädagogik Fixed effects-Panelmodelle vs. Random coefficient-Modelle Fixed effects-Modelle berücksichtigen im Längsschnitt 2 Ebenen (Beschäftigte und Betrieb) Random coefficient-Modelle berücksichtigen mehr als 2 Ebenen, jedoch Korrelation zwischen erklärenden Variablen und Störterm


Herunterladen ppt "Mehrebenen-Modelle: Methodische Ansätze und Schätzung"

Ähnliche Präsentationen


Google-Anzeigen