1 STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005.

Slides:



Advertisements
Ähnliche Präsentationen
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Advertisements

Induktive Statistik: Regressionsanalyse
1 1. Splineglättung 1.1 Motivation 1.2 Notation 1.3 Splineglättung
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Mehrfachregressionen
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Tutorium
Tutorium
Tutorium
Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Probleme der Modellspezifikation
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Matrix-Algebra Grundlagen 1. Matrizen und Vektoren
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
Kapitel 15 Instrumentvariablen- Schätzung
STATISIK LV Nr.: 1375 SS April 2005.
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Juni 2005.
Statistik: Mehr zur Regression.
Kapitel 15 Instrumentvariablen- Schätzung
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
Kapitel 10 Multikollinearität
STATISIK LV Nr.: 1375 SS April 2005.
STATISIK LV Nr.: 1375 SS März 2005.
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Missspezifikation: Konsequenzen und Tests
Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen
Kapitel 19 Kointegration
Kapitel 3 Lineare Regression: Schätzverfahren
Kapitel 14 Trends und Unit-root-Tests
Ökonometrie I Variablenauswahl.
Bewertung von Regressionsbeziehungen
OLS-Schätzer und seine Eigenschaften
Kapitel 11 Heteroskedastizität
Einfache und multiple Regression
Prognose und Prognosequalität
Annahmen des lineare Regressionsmodells
Kapitel 4 Annahmen des linearen Regressionsmodells
Kapitel 8 Prognose und Prognosequalität
Kapitel 18 Dynamische Modelle: Schätzen der Parameter.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Regression und Kollokation
Managemententscheidungsunterstützungssysteme (Ausgewählte Methoden und Fallstudien) ( Die Thesen zur Vorlesung 3) Thema der Vorlesung Lösung der linearen.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
Der Erotik Kalender 2005.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Die einfache/multiple lineare Regression
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
1)Inwieweit können die Werte in Y auf der Basis zweier unabhängiger Variablen X1 und x2 „erklärt“ werden? 2)Kann auf der Basis der vorliegenden Stichprobenergebnisse.
 Präsentation transkript:

1 STATISIK LV Nr.: 0021 WS 2005/ November 2005

2 Regressionsanalyse Linear Mehrfachregression –Eine abhängige Variabel Y –Mehrere unabhängige Variabeln x 1,…,x k-1. Modell: Y i = β 0 + β 1 x 1 + β 2 x 2 + …+ β k-1 x k-1 + ε i für i=1,…,n –β 0 … Absolutglied, Interzept –β j … Steigungsparameter (j=1,…,k-1) –x j … unabhängige Variable (j = 1,…,k-1) –ε i … Störterm, zufälliger Fehler

3 Regressionsanalyse Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. –Abhängige Variable: Y = Größe, –Unabhängige Variablen: X 1 = Größe Mutter und X 2 = Größe Vater –Modell: y i = β 0 + β 1 x 1 + β 2 x 2 + ε i

4 Regressionsanalyse Matrixschreibweise: Y = Xβ + ε –Y … n 1 Vektor der abhängigen Variable –X … n k Matrix der unabhängigen Variable, X=[1:X j ] mit j=1,…,k-1 –β … k 1 Parametervektor, β=[β 0 :β j ]´ mit j=1,…,k-1 –ε … n 1 Vektor der zufälligen Störungen

5 Regressionsanalyse Annahmen: (1)E(ε) = 0 (2)Var(ε) = σ² (3)Cov(ε) = E(εε´) = σ²I (4)X nicht stochastisch (5)rang(X) = k (X sind nicht linear abhängig)

6 Regressionsanalyse Kleinste Quadrate Schätzung: Minimierung der Abweichungsquadratsumme (Y-Xb)(Y-Xb) = (y i -x i. b)² min

7 Regressionsanalyse Normalengleichungssystem: (X´X)b = X´y Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X) -1 X´y b … k 1 Vektor der Schätzer

8 Regressionsanalyse Konsequenzen aus den Normalgleichungen: Xe = 0 Ŷe = 0 e = MY mit M = I – X(XX) -1 X

9 Regressionsanalyse Statistische Eigenschaften: E(e) = 0 VC(e) = σ²M ( σ²I = VC(ε)) E(b) = β VC(b) = σ²(XX)

10 Regressionsanalyse Schätzung von σ²: E(s²) = σ² Schätzung der Varianz-Kovarianz Matrix von b: VC(b) est. = s²(XX) -1 (unverzerrt für VC(b))

11 Regressionsanalyse Gauss-Markov Theorem: –Y=Xβ+ε –Es gelten Ann. 1-4 und β k ist beliebig –b* sei ein linearer unverzerrter Schätzer für β VC(b) VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. –Var(b i ) Var(b i *) für alle i = 1,..., k –Man sagt: b ist BLUE –cb ist der BLUE für die Linearkombination cβ

12 Regressionsanalyse Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige k n Matrix ist. Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

13 Regressionsanalyse Tests der Regressionskoeffizienten: Einseitige Hypothesen: –H 0 : β i β* (z.B. 0) gegen H 1 : β i < β* –H 0 : β i β* (z.B. 0) gegen H 1 : β i > β* Zweiseitige Hypothese: –H 0 : β i = β* (z.B. 0) gegen H 1 : β i β*

14 Regressionsanalyse Teststatistik: –T = (b i - β*) / s bi Testverteilung: –T ~ t n-k Entscheidung: Lehne H 0 ab, wenn T im kritischen Bereich liegt.

15 Regressionsanalyse Konfidenzintervalle der Parameter: Wahrscheinlichkeitsintervall: –P(b i – t s bi β b i + t s bi ) = 1 – α für i = 1,...,k Konfidenzintervall: –[b i – t s bi ; b i + t s bi ] für i = 1,...,k mit t = t 1- α/2;n-k

16 Regressionsanalyse Beispiel Körpergröße: –Modell: Y = β 0 + β 1 X 1 + β 2 X 2 Parameterschätzer und p-Werte: –b 0 = 81,24; p-Wert = 0,015 –b 1 = 0,545; p-Wert = 0,005 –b 2 = 0,008; p-Wert = 0,87 –Körpergröße der Mutter hat einen positiven Einfluss auf die Körpergröße des Kindes

17 Regressionsanalyse Quadratsummen: –SST = (y i - y)² = ns y ² = YAY –SSE = (ŷ i - ŷ)² = ns ŷ ² = ŶA Ŷ –SSR = e i ² = ns² = eAe –wobei A = (I n – (1/n)ii) Quadratsummenzerlegung: –SST = SSE + SSR

18 Regressionsanalyse F-Test: –Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X 2,…,X k ein linearer Zusammenhang besteht. –H 0 : β 2 = β 3 = … = β k = 0 Mittlere quadratische Abweichungen: –MQE = SSE / (k-1) –MQR = SSR / (n-k)

19 Regressionsanalyse Teststatistik: –F = MQE / MQR –F ~ F (k-1),(n-k) Entscheidung: –F > F (k-1),(n-k) lehne H 0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

20 Regressionsanalyse Lineares multiples Bestimmtheitsmaß: –R² = SSE / SST = 1 – SSR / SST –Es gilt: 0 R² 1 Linearer multipler Korrelationskoeffizient: –r = + R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

21 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Regressoren X 2,...,X k : r² Y,X2,...,Xk = SSE(X 2,...,X k ) / SST –Zusätzliche erklärende Variable X k+1 : r² Y,X2,...,Xk,Xk+1 = SSE(X 2,...,X k,X k+1 ) / SST –Zusätzliche (durch X k+1 ) erklärte Abweichungsquadratsumme: SSE(X k+1 |X 2,...,X k ) = SSE(X 2,..., X k,X k+1 ) – SSE(X 2,...,X k ) = (r² Y,X2,...,Xk,Xk+1 – r² Y,X2,...,Xk,Xk+1 ) SST

22 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Quotient der zusätzlichen erklärten Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme: –r² Y(k+1),X2,...,Xk = SSE(X k+1 |X 2,...,X k ) / SSR(X 2,...,X k ) = (r² Y,X2,...,Xk+1 – r² Y,X2,...,Xk ) / (1 – r² Y,X2,...,Xk ) wobei SSR(X 2,...,X k ) = SST – SSE(X 2,...,X k )

23 Regressionsanalyse Partieller F-Test: –f = MQE(X k+1 |X 2,...,X k ) / MQR(X 2,...,X k,X k+1 ) –MQE(X k+1 |X 2,...,X k )=SSE(X k+1 |X 2,...,X k )/(k-2) –MQR(X 2,...,X k+1 )=SSR(X 2,...,X k+1 )/(n-k) –f ~ F (k-2),(n-k)

24 Regressionsanalyse Adjusted R²: berücksichtigt die Anzahl der Koeffizienten –adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R² –Es gilt: (1-k)/(n-k) adj. R² 1

25 Regressionsanalyse Variablenselektion: –Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden? Kriterium? –R² => Wähle Modell mit größten R² => immer Modell mit allen möglichen Variablen – Unsinn! –Adj. R² => Wähle Modell mit dem größten Wert des korrigierten Bestimmtheitsmaßes. –AIC, BIC => Wähle Modell mit kleinsten Wert von AIC (Akaikes Information Criterion) bzw. BIC (Bayesian Information Criterion)

26 Regressionsanalyse Vorwärtsauswahl –Einfachregressionen zw. Y und X i (i=2,…,k) –Sind alle Variablen nicht signifikant, Abbruch. –Sind einige Variablen signifikant, wählt jene mit dem höchsten F-Wert. –Variable mit höchstem partiellen F-Wert (und > als ein kritischer Wert) ins Modell aufnehmen –usw.

27 Regressionsanalyse Rückwärtsauswahl –Umkehrung des Verfahrens der Vorwärt- Selektion. –Modell mit allen erklärenden Variablen –Sind alle Variablen signifikant, Modell mit allen Variablen. –Sind Variable nicht signifikant, schließe jene mit dem kleinsten partiellen F-Wert aus. –usw.

28 Regressionsanalyse Schrittweise Auswahl –Prüfe ob ein linearer Zusammenhang vorliegt –Wähle jene Variable mit dem höchsten linearen Einfachkorrelationskoeffizienten. –Wähle jene Variable mit dem höchsten signifikanten partiellen F-Wert –Prüfe alle Variablen im Modell auf Signifikanz, bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen. –usw.

29 Regressionsanalyse Prognose: Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. –Schätzung des Erwartungswertes E(y f ) –Schätzung eines Einzelwertes y f an der Stelle x f.

30 Regressionsanalyse Geg. x f. (weitere Werte von X) Ges. zugehöriger Wert y f von Y und/oder mittleres Verhalten E(y f ) = x f. b Weitere Annahmen: –y f = x f. β + ε f –E(ε f ) = 0 –E(ε f ²) = σ² –E(ε f, ε i ) = 0 für alle i = 1,…,n –x f. nicht stochastisch

31 Regressionsanalyse Parameter bekannt: –Prognose der Einzelwerte: ŷ f = x f. β –Prognose des Erwartungswertes: E(ŷ f ) = x f. β Parameter unbekannt: –Prognose der Einzelwerte: ŷ f = x f. b ŷ f ist ein unverzerrter Prediktor für y f –Prognose des Erwartungswertes: E(ŷ f ) = x f. b E(ŷ f )ist ein unverzerrter Prediktor für E(y f )

32 Regressionsanalyse Prognose Erwartungswert E(ŷ f ) = x f. β Varianz des durchschnittlichen Prognosewertes s ŷf ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) ee)

33 Regressionsanalyse Prognose Einzelwert ŷ f = x f. β Prognosefehler: e f = y f – ŷ f Varianz des individuellen Prognosewertes s f ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) ee)

34 Regressionsanalyse 1-α Konfidenzintervall für E(ŷ f ): [ŷ f – t s ŷf ; ŷ f + t s ŷf ] t = t 1-α;n-k 1-α Prognoseintervall für ŷ f : [ŷ f – t s yf ; ŷ f + t s yf ] t = t 1-α;n-k

35 Regressionsanalyse Nichtlineare Regression: Nichtlineare Regressionsfunktion –Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

36 Regressionsanalyse Nichtlinearer Einfachregression als lineare Zweifachregression ansehen –z.B. y i = β 1 +β 2 x i + β 3 x i ² +ε i setze x=x 1 und x²=x 2, und interpretiere y i = b 1 +b 2 x 1i + b 3 x 2i im Sinne der linearen Zweifachregression Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse –z.B. Potenzfunktion: y i = β 1 ·x i β 2 ·ε i Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(y i )=log(β 1 )+β 2 log(x i )+log(ε i )