Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005.

Ähnliche Präsentationen


Präsentation zum Thema: "1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005."—  Präsentation transkript:

1 1 STATISIK LV Nr.: 0021 WS 2005/ November 2005

2 2 Regressionsanalyse Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

3 3 Regressionsanalyse Abhängige Variable (Regressand): Y –zu erklärende Variable Unabhängige Variable/n (Regressor): X –erklärende Variable/n Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. Regression von Y auf X, Y=f(X).

4 4 Regressionsanalyse Art der Beziehung zw. den Variablen? Welche Form hat die Regressionsfunktion? Antworten darauf aus: –Theorie –Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

5 5 Regressionsanalyse Punktwolke Regressionsfunktion

6 6 Regressionsanalyse Lineare Regression: –Regressionsfunktion ist linear Nichtlineare Regression: –Regressionsfunktion ist nicht linear

7 7 Regressionsanalyse Einfachregression: –Beziehung zwischen 2 Variablen –Regressand: Y –Regressor: X Mehrfachregression = multiple Regression: –Beziehung zwischen 3 oder mehr Variablen –Regressand: Y –Regressoren: X 1, X 2, …, X k

8 8 Regressionsanalyse Lineare Einfachregression: –Lineare Regressionsfunktion (Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X. –Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x 1, …, x n und y 1, …, y n.

9 9 Regressionsanalyse Wahre Funktion: y i = α + βx i für i = 1, …, n –α … Absolutglied –β … Steigungsparameter Beobachtet wird: y i = y i + ε i für i = 1, …, n –ε i … Störterm, Realisationen einer Zufallsvariable Wahre Koeffizienten, Parameter der Grundgesamtheit

10 10 Regressionsanalyse Modell der linearen Einfachregression: y i = α + βx i + ε i für i = 1, …, n –α … Absolutglied –β … Steigungsparameter –ε i … Störterm

11 11 Regressionsanalyse Annahmen: (1)E(ε i ) = 0 für i=1,…,n (2)Var(ε i ) = σ² für i=1,…,n (Homoskedastizität) (3)Cov(ε i,ε j ) = 0 für alle i j (unkorrelierte Fehler) (4)x i nicht stochastisch (5)x i x j für mindestens ein i j

12 12 Regressionsanalyse Aus den Annahmen folgt für die abhängige Zufallsvariable Y i : –E(Y i ) = E(α + βx i + ε i ) = α + βx i + E(ε i ) = y i für i=1,…,n –Var(Y i ) = Var(ε i ) = σ² für i=1,…,n = 0

13 13 Regressionsanalyse Regressionsfunktion/-gerade: ŷ i = a + bx i für i = 1, …, n –a … Schätzer für Absolutglied –b … Schätzer für Steigungsparameter –ŷ i … Schätzer für Ausprägung y i von Y

14 14 Regressionsanalyse Abweichung zwischen den beobachteten Werten y i und den geschätzten Werten ŷ i : Residuen e i = y i – ŷ i = y i – (a + bx i )

15 15 Regressionsanalyse Regressionsgerade: –unendlich viele mögliche Geraden durch eine Punktwolke –Wähle jene, die die vorhandene Tendenz am besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

16 16 Regressionsanalyse Methode der Kleinsten Quadrate Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme) Wähle die Schätzer a und b für α und β so, dass S² minimal wird.

17 17 Regressionsanalyse

18 18 Regressionsanalyse Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte y i von den durch die Regressionsgerade an den Stellen x i bestimmten Werten ŷ i ).

19 19 Regressionsanalyse Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems: Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

20 20 Regressionsanalyse Kleinste Quadrate Schätzer für β: Kleinste Quadrate Schätzer für α: Kleinste Quadrate Regressionsfunktion:

21 21 Regressionsanalyse Eigenschaften der KQ Schätzer: –Summe der Residuen e i ist Null. –Summe x i e i ist Null. –Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte –Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke ( x, y).

22 22 Regressionsanalyse Quadratsummenzerlegung: Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. –Zu erklärende Variation: y i – y –Erklärte Variation: ŷ i – y –Nicht erklärte Variation: y i – ŷ i –(y i – y) = (ŷ i – y) + (y i – ŷ i ) für i=1,…,n

23 23 Regressionsanalyse

24 24 Regressionsanalyse Maß der Variation: Quadratsumme der Abweichungen SST = (y i – y)² –Sum of Squares Total SSE = (ŷ i – y)² –Sum of Squares Explained SSR = (y i – ŷ i )² –Sum of Squares Residual Es gilt: SST = SSE + SSR

25 25 Regressionsanalyse Einfaches Bestimmtheitsmaß: –Maß für die durch die lineare Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen r² = SSE / SST = 1 – SSR / SST –r² = Anteil der durch die Regressionsfunktion erklärten Variation an der zu erklärenden gesamten Variation.

26 26 Regressionsanalyse Es gilt: 0 r² 1 Extremfälle: –r² = 0 SSE = 0 ŷ i = ŷ (= y) für alle i, d.h. ŷ i hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag –r² = 1 SSE = SST SSR = 0 e i = 0 für alle i ŷ i = y i für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

27 27 Regressionsanalyse

28 28 Regressionsanalyse Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1] Extremfälle: –r = 0, d.h. fehlende Erklärung, fehlende Korrelation –r = 1, d.h. vollständige Erklärung, vollständige Korrelation r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.

29 29 Regressionsanalyse Eigenschaften der KQ Schätzer: Da y i Zufallsvariable sind, sind auch a und b Zufallsvariable. Erwartungswerte der KQ Schätzer: –E(b) = β –E(a) = α –D.h. a und b sind unverzerrte Schätzer

30 30 Regressionsanalyse Varianzen der KQ Schätzer: Beides sind theoretische Größen, da σ² (=Var(ε i )) unbekannt ist.

31 31 Regressionsanalyse Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

32 32 Regressionsanalyse Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

33 33 Regressionsanalyse Gauss-Markov-Theorem: –Einfaches lineares Regressionsmodell, –Es gelten Annahmen 1-5 Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) –Best: Var(b*) Var(b) –Linear: b* = c i y i –Unbiased: E(b*) = β –Analoge Aussage für Schätzer a* von α.

34 34 Regressionsanalyse Schätzung der Fehlervarianz σ² –Wären ε i beobachtbar, dann Schätzer für σ² = 1/n ε i ². –Aber: ε i nicht beobachtbar, daher σ² durch s² schätzen.

35 35 Regressionsanalyse Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

36 36 Regressionsanalyse Inferenz im linearen Regressionsmodell: –Ann (1-5) –Ann (6): ε i ~ N(0,σ²) Testprobleme: –Einseitig: z.B. H 0 : b = b* gegen H 1 : b > b* –Zweiseitig: H 0 : b = b* gegen H 1 : b b* Teststatistik:

37 37 Regressionsanalyse Verteilung der Teststatistik: –s b bekannt: T ~ N(0,1) –s b geschätzt: T ~ t n-2 Kritische Werte bestimmen Entscheidung: Lehne H 0 ab, wenn Teststatistik im kritischen Bereich liegt. Gleiche Vorgehensweise bei Tests für Schätzer a.

38 38 Regressionsanalyse Konfidenzintervall Regressionskoeffizienten Interzept: –Es gilt P(a – t s a α a + t s a ) = 1 – α –KI für α: [a – t s a ; a + t s a ] Steigungsparameter: –Es gilt P(b – t s b β b + t s b ) = 1 – α –KI für β: [b – t s b ; b + t s b ] t = t 1- α/2; n-2 (Werte der t-Verteilung)

39 39 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α + βx i + ε i Regressionsfunktion: ŷ i = a + bx i Schätzung: min. Residual-Quadratsumme KQ-Schätzer a und b: BLUE Tests für a und b: t-Tests

40 40 Regressionsanalyse F-Test Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

41 41 Regressionsanalyse Mittlere erklärte Quadratsumme: –MSE = SSE / 1 Mittlere nicht erklärte Quadratsumme: –MSR = SSR / (n – 2) Teststatistik: –F = MSE / MSR –F ~ F 1;n-2;1-α

42 42 Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) –Modell: Y = α + Xβ + ε –Parameterschätzer: a = -105,75, b = 0,98 –Regressionsfunktion: Ŷ = -105,75 + 0,98X –Interpretation der Koeffizienten: a = -105,75: Verschiebung b = 0,98: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! –Bestimmtheitsmaß: 0,577 –Korrelationskoeffizient: 0,759

43 43 Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) –Koeffiziententests (t-Tests): –H 0 : α = 0 ablehnen (p-Wert α 0 –H 0 : β = 0 ablehnen (p-Wert β 0 –F-Test: H 0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

44 44 Regressionsanalyse Prognose Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. –Schätzung des Erwartungswertes E(y f ) an der Stelle x f. –Schätzung eines Einzelwertes y f an der Stelle x f.

45 45 Regressionsanalyse Geg. x f (weiterer Wert von X) Ges. zugehöriger Wert y f von Y und/oder mittleres Verhalten E(y f ) = a + bx f. Weitere Annahmen: –y f = α + βx f + ε f –E(ε f ) = 0 –E(ε f ²) = σ² –Cov(ε f, ε i ) = 0 –x f nicht stochastisch

46 46 Regressionsanalyse Parameter α und β bekannt: –Prognose der Einzelwerte: y f = α + βx f –Prognose des Erwartungswertes: E(y f ) = α + βx f Parameter unbekannt. –Prognose der Einzelwerte: ŷ f = a + bx f ŷ f ist ein unverzerrter Prediktor für y f –Prognose des Erwartungswertes: E(ŷ f ) = a + bx f ŷ f ist ein unverzerrter Prediktor für E(y f )

47 47 Regressionsanalyse Prognose Erwartungswert: E(ŷ f ) = a + bx f Varianz des durchschnittlichen Prognosewertes s ŷf ²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) e i ²)

48 48 Regressionsanalyse Prognose Einzelwert: ŷ f = a + bx f Prognosefehler: e f = y f – ŷ f Varianz des individuellen Prognosefehlers s f ²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) e i ²)

49 49 Regressionsanalyse Zusätzlich Ann: Störvariable ε f ~ N(0,σ²) 1-α Konfidenzintervall für E(ŷ f ): [ŷ f – t s ŷf ; ŷ f + t s ŷf ] t = t 1-α/2;n-2 1-α Prognoseintervall für ŷ f : [ŷ f – t s f ; ŷ f + t s f ] t = t 1-α/2;n-2

50 50 Regressionsanalyse Residuenanalyse Ex-post Überprüfung der Modellannahmen. Ann 1: E(ε i ) = 0 Ann 2: Var(ε i ) = σ² Ann 3: Cov(ε i,ε j ) = 0

51 51 Regressionsanalyse Grafische Residualanalyse Residuen der KQ Schätzer: e i = y i – ŷ i Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) Streudiagramm: Residuen gegen Ŷ (Prognosewerte). Es gilt: e i = 0 und arithm. Mittel der e i = 0

52 52 Regressionsanalyse Residuen gegen X:

53 53 Regressionsanalyse Residuen gegen Ŷ:

54 54 Regressionsanalyse Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

55 55 Regressionsanalyse Ann. linearen Regressionsfunktion verletzt.

56 56 Regressionsanalyse Streudiagramm: e i gegen e i-1 Autokorrelation der Residuen

57 57 Regressionsanalyse Normalverteilung der ε i : QQ-Plot –Empirische- und Theoretische Quantile


Herunterladen ppt "1 STATISIK LV Nr.: 0021 WS 2005/06 10. November 2005."

Ähnliche Präsentationen


Google-Anzeigen