STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005
Regressionsanalyse Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.
Regressionsanalyse Abhängige Variable (Regressand): Y „zu erklärende Variable“ Unabhängige Variable/n (Regressor): X „erklärende Variable/n“ Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. Regression von Y auf X, Y=f(X).
Regressionsanalyse Art der Beziehung zw. den Variablen? Welche Form hat die Regressionsfunktion? Antworten darauf aus: Theorie Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?
Regressionsanalyse Punktwolke Regressionsfunktion
Regressionsanalyse Lineare Regression: Nichtlineare Regression: Regressionsfunktion ist linear Nichtlineare Regression: Regressionsfunktion ist nicht linear
Regressionsanalyse Einfachregression: Beziehung zwischen 2 Variablen Regressand: Y Regressor: X Mehrfachregression = multiple Regression: Beziehung zwischen 3 oder mehr Variablen Regressoren: X1, X2, …, Xk
Regressionsanalyse Lineare Einfachregression: Lineare Regressionsfunktion (Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X. Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.
Regressionsanalyse Wahre Funktion: yi‘ = α + βxi für i = 1, …, n α … Absolutglied β … Steigungsparameter Beobachtet wird: yi = yi‘ + εi für i = 1, …, n εi … Störterm, Realisationen einer Zufallsvariable Wahre Koeffizienten, Parameter der Grundgesamtheit
Regressionsanalyse Modell der linearen Einfachregression: yi = α + βxi + εi für i = 1, …, n α … Absolutglied β … Steigungsparameter εi … Störterm
Regressionsanalyse Annahmen: E(εi) = 0 für i=1,…,n Var(εi) = σ² für i=1,…,n (Homoskedastizität) Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler) xi nicht stochastisch xi xj für mindestens ein ij
Regressionsanalyse Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi‘ für i=1,…,n Var(Yi) = Var(εi) = σ² für i=1,…,n = 0
Regressionsanalyse Regressionsfunktion/-gerade: ŷi = a + bxi für i = 1, …, n a … Schätzer für Absolutglied b … Schätzer für Steigungsparameter ŷi … Schätzer für Ausprägung yi von Y
Regressionsanalyse Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)
Regressionsanalyse Regressionsgerade: unendlich viele mögliche Geraden durch eine Punktwolke Wähle jene, die die vorhandene Tendenz am besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.
Regressionsanalyse Methode der Kleinsten Quadrate Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme) Wähle die Schätzer a und b für α und β so, dass S² minimal wird.
Regressionsanalyse
Regressionsanalyse Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).
Regressionsanalyse Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems: Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0
Regressionsanalyse Kleinste Quadrate Schätzer für β: Kleinste Quadrate Regressionsfunktion:
Regressionsanalyse Eigenschaften der KQ Schätzer: Summe der Residuen ei ist Null. Summe xiei ist Null. Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).
Regressionsanalyse Quadratsummenzerlegung: Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. Zu erklärende Variation: yi –y Erklärte Variation: ŷi –y Nicht erklärte Variation: yi – ŷi (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n
Regressionsanalyse
Regressionsanalyse Maß der Variation: Quadratsumme der Abweichungen SST = (yi –y)² Sum of Squares Total SSE = (ŷi –y)² Sum of Squares Explained SSR = (yi – ŷi)² Sum of Squares Residual Es gilt: SST = SSE + SSR
Regressionsanalyse Einfaches Bestimmtheitsmaß: Maß für die durch die lineare Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen r² = SSE / SST = 1 – SSR / SST r² = Anteil der durch die Regressionsfunktion erklärten Variation an der zu erklärenden gesamten Variation.
Regressionsanalyse Es gilt: 0 ≤ r² ≤ 1 Extremfälle: r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h. ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi = yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung
Regressionsanalyse
Regressionsanalyse Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1] Extremfälle: r = 0, d.h. fehlende Erklärung, fehlende Korrelation r = 1, d.h. vollständige Erklärung, vollständige Korrelation r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.
Regressionsanalyse Eigenschaften der KQ Schätzer: Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable. Erwartungswerte der KQ Schätzer: E(b) = β E(a) = α D.h. a und b sind unverzerrte Schätzer
Regressionsanalyse Varianzen der KQ Schätzer: Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.
Regressionsanalyse Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.
Regressionsanalyse Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.
Regressionsanalyse Gauss-Markov-Theorem: Einfaches lineares Regressionsmodell, Es gelten Annahmen 1-5 Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) Best: Var(b*) Var(b) Linear: b* =ciyi Unbiased: E(b*) = β Analoge Aussage für Schätzer a* von α.
Regressionsanalyse Schätzung der Fehlervarianz σ² Wären εi beobachtbar, dann Schätzer für σ² = 1/n εi². Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.
Regressionsanalyse Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.
Regressionsanalyse Inferenz im linearen Regressionsmodell: Ann (1-5) Ann (6): εi ~ N(0,σ²) Testprobleme: Einseitig: z.B. H0: b = b* gegen H1: b > b* Zweiseitig: H0: b = b* gegen H1: b b* Teststatistik:
Regressionsanalyse Verteilung der Teststatistik: sb bekannt: T ~ N(0,1) sb geschätzt: T ~ tn-2 Kritische Werte bestimmen Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt. Gleiche Vorgehensweise bei Tests für Schätzer a.
Regressionsanalyse Konfidenzintervall Regressionskoeffizienten Interzept: Es gilt P(a – t sa α a + t sa) = 1 – α KI für α: [a – t sa; a + t sa] Steigungsparameter: Es gilt P(b – t sb β b + t sb) = 1 – α KI für β: [b – t sb; b + t sb] t = t1- α/2; n-2 (Werte der t-Verteilung)
Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: yi = α + βxi + εi Regressionsfunktion: ŷi = a + bxi Schätzung: min. Residual-Quadratsumme KQ-Schätzer a und b: BLUE Tests für a und b: t-Tests
Regressionsanalyse F-Test Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit Basiert auf der Quadratsummenzerlegung SST = SSE + SSR
Regressionsanalyse Mittlere erklärte Quadratsumme: MSE = SSE / 1 Mittlere nicht erklärte Quadratsumme: MSR = SSR / (n – 2) Teststatistik: F = MSE / MSR F ~ F1;n-2;1-α
Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) Modell: Y = α + Xβ + ε Parameterschätzer: a = -105,75, b = 0,98 Regressionsfunktion: Ŷ = -105,75 + 0,98X Interpretation der Koeffizienten: a = -105,75: Verschiebung b = 0,98: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! Bestimmtheitsmaß: 0,577 Korrelationskoeffizient: 0,759
Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) Koeffiziententests (t-Tests): H0: α = 0 ablehnen (p-Wert < 0,05) => α 0 H0: β = 0 ablehnen (p-Wert < 0,05) => β 0 F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen
Regressionsanalyse Prognose Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. Schätzung des Erwartungswertes E(yf) an der Stelle xf. Schätzung eines Einzelwertes yf an der Stelle xf.
Regressionsanalyse Geg. xf (weiterer Wert von X) Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf. Weitere Annahmen: yf = α + βxf + εf E(εf) = 0 E(εf²) = σ² Cov(εf, εi) = 0 xf nicht stochastisch
Regressionsanalyse Parameter α und β bekannt: Parameter unbekannt. Prognose der Einzelwerte: yf = α + βxf Prognose des Erwartungswertes: E(yf) = α + βxf Parameter unbekannt. Prognose der Einzelwerte: ŷf = a + bxf ŷf ist ein unverzerrter Prediktor für yf Prognose des Erwartungswertes: E(ŷf ) = a + bxf ŷf ist ein unverzerrter Prediktor für E(yf)
Regressionsanalyse Prognose Erwartungswert: E(ŷf ) = a + bxf Varianz des durchschnittlichen Prognosewertes sŷf²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
Regressionsanalyse Prognose Einzelwert: ŷf = a + bxf Prognosefehler: ef = yf – ŷf Varianz des individuellen Prognosefehlers sf²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)
Regressionsanalyse Zusätzlich Ann: Störvariable εf ~ N(0,σ²) 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α/2;n-2 1-α Prognoseintervall für ŷf: [ŷf – t sf ; ŷf + t sf]
Regressionsanalyse Residuenanalyse Ex-post Überprüfung der Modellannahmen. Ann 1: E(εi) = 0 Ann 2: Var(εi) = σ² Ann 3: Cov(εi,εj) = 0
Regressionsanalyse Grafische Residualanalyse Residuen der KQ Schätzer: ei = yi – ŷi Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) Streudiagramm: Residuen gegen Ŷ (Prognosewerte). Es gilt: ei = 0 und arithm. Mittel der ei = 0
Regressionsanalyse Residuen gegen X:
Regressionsanalyse Residuen gegen Ŷ:
Regressionsanalyse Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität
Regressionsanalyse Ann. linearen Regressionsfunktion verletzt.
Regressionsanalyse Streudiagramm: ei gegen ei-1 Autokorrelation der Residuen
Regressionsanalyse Normalverteilung der εi: QQ-Plot Empirische- und Theoretische Quantile