Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

Ähnliche Präsentationen


Präsentation zum Thema: "1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006."—  Präsentation transkript:

1 1 STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006

2 2 Regressionsanalyse Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

3 3 Regressionsanalyse Abhängige Variable (Regressand): Y –„zu erklärende Variable“ Unabhängige Variable/n (Regressor): X –„erklärende Variable/n“ Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. Regression von Y auf X, Y=f(X).

4 4 Regressionsanalyse Art der Beziehung zw. den Variablen? Welche Form hat die Regressionsfunktion? Antworten darauf aus: –Theorie –Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

5 5 Regressionsanalyse Punktwolke Regressionsfunktion

6 6 Regressionsanalyse Lineare Regression: –Regressionsfunktion ist linear Nichtlineare Regression: –Regressionsfunktion ist nicht linear

7 7 Regressionsanalyse Einfachregression: –Beziehung zwischen 2 Variablen –Regressand: Y –Regressor: X Mehrfachregression = multiple Regression: –Beziehung zwischen 3 oder mehr Variablen –Regressand: Y –Regressoren: X 1, X 2, …, X k

8 8 Regressionsanalyse Lineare Einfachregression: –Lineare Regressionsfunktion (Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X. –Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x 1, …, x n und y 1, …, y n.

9 9 Regressionsanalyse Wahre Funktion: y i ‘ = α + βx i für i = 1, …, n –α … Absolutglied –β … Steigungsparameter Beobachtet wird: y i = y i ‘ + ε i für i = 1, …, n –ε i … Störterm, Realisationen einer Zufallsvariable Wahre Koeffizienten, Parameter der Grundgesamtheit

10 10 Regressionsanalyse Modell der linearen Einfachregression: y i = α + βx i + ε i für i = 1, …, n –α … Absolutglied –β … Steigungsparameter –ε i … Störterm

11 11 Regressionsanalyse Annahmen: (1)E(ε i ) = 0 für i=1,…,n (2)Var(ε i ) = σ² für i=1,…,n (Homoskedastizität) (3)Cov(ε i,ε j ) = 0 für alle i  j (unkorrelierte Fehler) (4)x i nicht stochastisch (5)x i  x j für mindestens ein i  j

12 12 Regressionsanalyse Aus den Annahmen folgt für die abhängige Zufallsvariable Y i : –E(Y i ) = E(α + βx i + ε i ) = α + βx i + E(ε i ) = y i ‘ für i=1,…,n –Var(Y i ) = Var(ε i ) = σ² für i=1,…,n = 0

13 13 Regressionsanalyse Regressionsfunktion/-gerade: ŷ i = a + bx i für i = 1, …, n –a … Schätzer für Absolutglied –b … Schätzer für Steigungsparameter –ŷ i … Schätzer für Ausprägung y i von Y

14 14 Regressionsanalyse Abweichung zwischen den beobachteten Werten y i und den geschätzten Werten ŷ i : Residuen e i = y i – ŷ i = y i – (a + bx i )

15 15 Regressionsanalyse Regressionsgerade: –unendlich viele mögliche Geraden durch eine Punktwolke –Wähle jene, die die vorhandene Tendenz am besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

16 16 Regressionsanalyse Methode der Kleinsten Quadrate Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme) Wähle die Schätzer a und b für α und β so, dass S² minimal wird.

17 17 Regressionsanalyse

18 18 Regressionsanalyse Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte y i von den durch die Regressionsgerade an den Stellen x i bestimmten Werten ŷ i ).

19 19 Regressionsanalyse Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems: Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

20 20 Regressionsanalyse Kleinste Quadrate Schätzer für β: Kleinste Quadrate Schätzer für α: Kleinste Quadrate Regressionsfunktion:

21 21 Regressionsanalyse Eigenschaften der KQ Schätzer: –Summe der Residuen  e i ist Null. –Summe  x i e i ist Null. –Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte –Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (  x,  y).

22 22 Regressionsanalyse Quadratsummenzerlegung: Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. –Zu erklärende Variation: y i –  y –Erklärte Variation: ŷ i –  y –Nicht erklärte Variation: y i – ŷ i –(y i –  y) = (ŷ i –  y) + (y i – ŷ i ) für i=1,…,n

23 23 Regressionsanalyse

24 24 Regressionsanalyse Maß der Variation: Quadratsumme der Abweichungen SST =  (y i –  y)² –Sum of Squares Total SSE =  (ŷ i –  y)² –Sum of Squares Explained SSR =  (y i – ŷ i )² –Sum of Squares Residual Es gilt: SST = SSE + SSR

25 25 Regressionsanalyse Einfaches Bestimmtheitsmaß: –Maß für die durch die lineare Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen r² = SSE / SST = 1 – SSR / SST –r² = Anteil der durch die Regressionsfunktion erklärten Variation an der zu erklärenden gesamten Variation.

26 26 Regressionsanalyse Es gilt: 0 ≤ r² ≤ 1 Extremfälle: –r² = 0  SSE = 0  ŷ i =  ŷ (=  y) für alle i, d.h. ŷ i hängt nicht von i ab  b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag –r² = 1  SSE = SST  SSR = 0  e i = 0 für alle i  ŷ i = y i für alle i  die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

27 27 Regressionsanalyse

28 28 Regressionsanalyse Linearer Einfachkorrelationskoeffizient: r = +  r² und r  [0 ; 1] Extremfälle: –r = 0, d.h. fehlende Erklärung, fehlende Korrelation –r = 1, d.h. vollständige Erklärung, vollständige Korrelation r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.

29 29 Regressionsanalyse Eigenschaften der KQ Schätzer: Da y i Zufallsvariable sind, sind auch a und b Zufallsvariable. Erwartungswerte der KQ Schätzer: –E(b) = β –E(a) = α –D.h. a und b sind unverzerrte Schätzer

30 30 Regressionsanalyse Varianzen der KQ Schätzer: Beides sind theoretische Größen, da σ² (=Var(ε i )) unbekannt ist.

31 31 Regressionsanalyse Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von  x ab.

32 32 Regressionsanalyse Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

33 33 Regressionsanalyse Gauss-Markov-Theorem: –Einfaches lineares Regressionsmodell, –Es gelten Annahmen 1-5 Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) –Best: Var(b*)  Var(b) –Linear: b* =  c i y i –Unbiased: E(b*) = β –Analoge Aussage für Schätzer a* von α.

34 34 Regressionsanalyse Schätzung der Fehlervarianz σ² –Wären ε i beobachtbar, dann Schätzer für σ² = 1/n  ε i ². –Aber: ε i nicht beobachtbar, daher σ² durch s² schätzen.

35 35 Regressionsanalyse Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

36 36 Regressionsanalyse Inferenz im linearen Regressionsmodell: –Ann (1-5) –Ann (6): ε i ~ N(0,σ²) Testprobleme: –Einseitig: z.B. H 0 : b = b* gegen H 1 : b > b* –Zweiseitig: H 0 : b = b* gegen H 1 : b  b* Teststatistik:

37 37 Regressionsanalyse Verteilung der Teststatistik: –s b bekannt: T ~ N(0,1) –s b geschätzt: T ~ t n-2 Kritische Werte bestimmen Entscheidung: Lehne H 0 ab, wenn Teststatistik im kritischen Bereich liegt. Gleiche Vorgehensweise bei Tests für Schätzer a.

38 38 Regressionsanalyse Konfidenzintervall Regressionskoeffizienten Interzept: –Es gilt P(a – t s a  α  a + t s a ) = 1 – α –KI für α: [a – t s a ; a + t s a ] Steigungsparameter: –Es gilt P(b – t s b  β  b + t s b ) = 1 – α –KI für β: [b – t s b ; b + t s b ] t = t 1- α/2; n-2 (Werte der t-Verteilung)

39 39 Regressionsanalyse F-Test Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

40 40 Regressionsanalyse Mittlere erklärte Quadratsumme: –MSE = SSE / 1 Mittlere nicht erklärte Quadratsumme: –MSR = SSR / (n – 2) Teststatistik: –F = MSE / MSR –F ~ F 1;n-2;1-α

41 41 Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) –Modell: Y = α + Xβ + ε –Parameterschätzer: a = -105,75, b = 0,98 –Regressionsfunktion: Ŷ = -105,75 + 0,98X –Interpretation der Koeffizienten: a = -105,75: Verschiebung b = 0,98: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! –Bestimmtheitsmaß: 0,577 –Korrelationskoeffizient: 0,759

42 42 Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) –Koeffiziententests (t-Tests): –H 0 : α = 0 ablehnen (p-Wert α  0 –H 0 : β = 0 ablehnen (p-Wert β  0 –F-Test: H 0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

43 43 Regressionsanalyse Prognose Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. –Schätzung des Erwartungswertes E(y f ) an der Stelle x f. –Schätzung eines Einzelwertes y f an der Stelle x f.

44 44 Regressionsanalyse Geg. x f (weiterer Wert von X) Ges. zugehöriger Wert y f von Y und/oder „mittleres“ Verhalten E(y f ) = a + bx f. Weitere Annahmen: –y f = α + βx f + ε f –E(ε f ) = 0 –E(ε f ²) = σ² –Cov(ε f, ε i ) = 0 –x f nicht stochastisch

45 45 Regressionsanalyse Parameter α und β bekannt: –Prognose der Einzelwerte: y f = α + βx f –Prognose des Erwartungswertes: E(y f ) = α + βx f Parameter unbekannt. –Prognose der Einzelwerte: ŷ f = a + bx f ŷ f ist ein unverzerrter Prediktor für y f –Prognose des Erwartungswertes: E(ŷ f ) = a + bx f ŷ f ist ein unverzerrter Prediktor für E(y f )

46 46 Regressionsanalyse Prognose Erwartungswert: E(ŷ f ) = a + bx f Varianz des durchschnittlichen Prognosewertes s ŷf ²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2)  e i ²)

47 47 Regressionsanalyse Prognose Einzelwert: ŷ f = a + bx f Prognosefehler: e f = y f – ŷ f Varianz des individuellen Prognosefehlers s f ²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2)  e i ²)

48 48 Regressionsanalyse Zusätzlich Ann: Störvariable ε f ~ N(0,σ²) 1-α Konfidenzintervall für E(ŷ f ): [ŷ f – t s ŷf ; ŷ f + t s ŷf ] t = t 1-α/2;n-2 1-α Prognoseintervall für ŷ f : [ŷ f – t s f ; ŷ f + t s f ] t = t 1-α/2;n-2

49 49 Regressionsanalyse Residuenanalyse Ex-post Überprüfung der Modellannahmen. Ann 1: E(ε i ) = 0 Ann 2: Var(ε i ) = σ² Ann 3: Cov(ε i,ε j ) = 0

50 50 Regressionsanalyse Grafische Residualanalyse Residuen der KQ Schätzer: e i = y i – ŷ i Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) Streudiagramm: Residuen gegen Ŷ (Prognosewerte). Es gilt:  e i = 0 und arithm. Mittel der e i = 0

51 51 Regressionsanalyse Residuen gegen X:

52 52 Regressionsanalyse Residuen gegen Ŷ:

53 53 Regressionsanalyse Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

54 54 Regressionsanalyse Ann. linearen Regressionsfunktion verletzt.

55 55 Regressionsanalyse Streudiagramm: e i gegen e i-1 Autokorrelation der Residuen

56 56 Regressionsanalyse Normalverteilung der ε i : QQ-Plot –Empirische- und Theoretische Quantile

57 57 Regressionsanalyse Linear Mehrfachregression –Eine abhängige Variabel Y –Mehrere unabhängige Variabeln x 1,…,x k-1. Modell: Y i = β 0 + β 1 x 1 + β 2 x 2 + …+ β k-1 x k-1 + ε i für i=1,…,n –β 0 … Absolutglied, Interzept –β j … Steigungsparameter (j=1,…,k-1) –x j … unabhängige Variable (j = 1,…,k-1) –ε i … Störterm, zufälliger Fehler

58 58 Regressionsanalyse Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. –Abhängige Variable: Y = Größe, –Unabhängige Variablen: X 1 = Größe Mutter und X 2 = Größe Vater –Modell: y i = β 0 + β 1 x 1 + β 2 x 2 + ε i

59 59 Regressionsanalyse Matrixschreibweise: Y = Xβ + ε –Y … n  1 Vektor der abhängigen Variable –X … n  k Matrix der unabhängigen Variable, X=[1:X j ] mit j=1,…,k-1 –β … k  1 Parametervektor, β=[β 0 :β j ]´ mit j=1,…,k-1 –ε … n  1 Vektor der zufälligen Störungen

60 60 Regressionsanalyse Annahmen: (1)E(ε) = 0 (2)Var(ε) = σ² (3)Cov(ε) = E(εε´) = σ²I (4)X nicht stochastisch (5)rang(X) = k (X sind nicht linear abhängig)

61 61 Regressionsanalyse Kleinste Quadrate Schätzung: Minimierung der Abweichungsquadratsumme (Y-Xb)‘(Y-Xb) =  (y i -x i. b)²  min

62 62 Regressionsanalyse Normalengleichungssystem: (X´X)b = X´y Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X) -1 X´y b … k  1 Vektor der Schätzer

63 63 Regressionsanalyse Konsequenzen aus den Normalgleichungen: X‘e = 0 Ŷ‘e = 0 e = MY mit M = I – X(X‘X) -1 X‘

64 64 Regressionsanalyse Statistische Eigenschaften: E(e) = 0 VC(e) = σ²M (  σ²I = VC(ε)) E(b) = β VC(b) = σ²(X‘X)

65 65 Regressionsanalyse Schätzung von σ²: E(s²) = σ² Schätzung der Varianz-Kovarianz Matrix von b: VC(b) est. = s²(X‘X) -1 (unverzerrt für VC(b))

66 66 Regressionsanalyse Gauss-Markov Theorem: –Y=Xβ+ε –Es gelten Ann. 1-4 und β  k ist beliebig –b* sei ein linearer unverzerrter Schätzer für β VC(b)  VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. –Var(b i )  Var(b i *) für alle i = 1,..., k –Man sagt: b ist BLUE –c‘b ist der BLUE für die Linearkombination c‘β

67 67 Regressionsanalyse Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige k  n Matrix ist. Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

68 68 Regressionsanalyse Tests der Regressionskoeffizienten: Einseitige Hypothesen: –H 0 : β i  β* (z.B. 0) gegen H 1 : β i < β* –H 0 : β i  β* (z.B. 0) gegen H 1 : β i > β* Zweiseitige Hypothese: –H 0 : β i = β* (z.B. 0) gegen H 1 : β i  β*

69 69 Regressionsanalyse Teststatistik: –T = (b i - β*) / s bi Testverteilung: –T ~ t n-k Entscheidung: Lehne H 0 ab, wenn T im kritischen Bereich liegt.

70 70 Regressionsanalyse Konfidenzintervalle der Parameter: Wahrscheinlichkeitsintervall: –P(b i – t s bi  β  b i + t s bi ) = 1 – α für i = 1,...,k Konfidenzintervall: –[b i – t s bi ; b i + t s bi ] für i = 1,...,k mit t = t 1- α/2;n-k

71 71 Regressionsanalyse Beispiel Körpergröße: –Modell: Y = β 0 + β 1 X 1 + β 2 X 2 Parameterschätzer und p-Werte: –b 0 = 81,24; p-Wert = 0,015 –b 1 = 0,545; p-Wert = 0,005 –b 2 = 0,008; p-Wert = 0,87 –Körpergröße der Mutter hat einen positiven Einfluss auf die Körpergröße des Kindes

72 72 Regressionsanalyse Quadratsummen: –SST =  (y i -  y)² = ns y ² = Y‘AY –SSE =  (ŷ i -  ŷ)² = ns ŷ ² = Ŷ‘A Ŷ –SSR =  e i ² = ns² = e‘Ae –wobei A = (I n – (1/n)ii‘) Quadratsummenzerlegung: –SST = SSE + SSR

73 73 Regressionsanalyse F-Test: –Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X 2,…,X k ein linearer Zusammenhang besteht. –H 0 : β 2 = β 3 = … = β k = 0 Mittlere quadratische Abweichungen: –MQE = SSE / (k-1) –MQR = SSR / (n-k)

74 74 Regressionsanalyse Teststatistik: –F = MQE / MQR –F ~ F (k-1),(n-k) Entscheidung: –F > F (k-1),(n-k) lehne H 0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

75 75 Regressionsanalyse Lineares multiples Bestimmtheitsmaß: –R² = SSE / SST = 1 – SSR / SST –Es gilt: 0  R²  1 Linearer multipler Korrelationskoeffizient: –r = +  R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

76 76 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Regressoren X 2,...,X k : r² Y,X2,...,Xk = SSE(X 2,...,X k ) / SST –Zusätzliche erklärende Variable X k+1, also Regressoren X 2,...,X k,X k+1 : r² Y,X2,...,Xk,Xk+1 = SSE(X 2,...,X k,X k+1 ) / SST –Zusätzliche (durch X k+1 ) erklärte Abweichungsquadratsumme: SSE(X k+1 |X 2,...,X k ) = SSE(X 2,...,X k,X k+1 ) – SSE(X 2,...,X k ) = (r² Y,X2,...,Xk,Xk+1 – r² Y,X2,...,Xk ) SST

77 77 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Quotient der zusätzlichen erklärten Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme: –r² Y(k+1),X2,...,Xk = SSE(X k+1 |X 2,...,X k ) / SSR(X 2,...,X k ) = (r² Y,X2,...,Xk+1 – r² Y,X2,...,Xk ) / (1 – r² Y,X2,...,Xk ) wobei SSR(X 2,...,X k ) = SST – SSE(X 2,...,X k )

78 78 Regressionsanalyse Partieller F-Test: –f = MQE(X k+1 |X 2,...,X k ) / MQR(X 2,...,X k,X k+1 ) –MQE(X k+1 |X 2,...,X k )=SSE(X k+1 |X 2,...,X k ) –MQR(X 2,...,X k+1 )=SSR(X 2,...,X k+1 )/(n-(k+1)) –f ~ F 1,n-(k+1)

79 79 Regressionsanalyse Adjusted R²: berücksichtigt die Anzahl der Koeffizienten –adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R² –Es gilt: (1-k)/(n-k)  adj. R²  1

80 80 Regressionsanalyse Variablenselektion: –Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden? Kriterium? –R² => Wähle Modell mit größten R² => immer Modell mit allen möglichen Variablen – Unsinn! –Adj. R² => Wähle Modell mit dem größten Wert des korrigierten Bestimmtheitsmaßes. –AIC, BIC => Wähle Modell mit kleinsten Wert von AIC (Akaike‘s Information Criterion) bzw. BIC (Bayesian Information Criterion)

81 81 Regressionsanalyse Vorwärtsauswahl –Einfachregressionen zw. Y und X i (i=2,…,k) –Sind alle Variablen nicht signifikant, Abbruch. –Sind einige Variablen signifikant, wählt jene mit dem höchsten F-Wert. –Variable mit höchstem partiellen F-Wert (und > als ein kritischer Wert) ins Modell aufnehmen –usw.

82 82 Regressionsanalyse Rückwärtsauswahl –Umkehrung des Verfahrens der Vorwärt- Selektion. –Modell mit allen erklärenden Variablen –Sind alle Variablen signifikant, Modell mit allen Variablen. –Sind Variable nicht signifikant, schließe jene mit dem kleinsten partiellen F-Wert aus. –usw.

83 83 Regressionsanalyse Schrittweise Auswahl –Prüfe ob ein linearer Zusammenhang vorliegt –Wähle jene Variable mit dem höchsten linearen Einfachkorrelationskoeffizienten. –Wähle jene Variable mit dem höchsten signifikanten partiellen F-Wert –Prüfe alle Variablen im Modell auf Signifikanz, bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen. –usw.

84 84 Regressionsanalyse Prognose: Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. –Schätzung des Erwartungswertes E(y f ) –Schätzung eines Einzelwertes y f an der Stelle x f.

85 85 Regressionsanalyse Geg. x f. (weitere Werte von X) Ges. zugehöriger Wert y f von Y und/oder mittleres Verhalten E(y f ) = x f. b Weitere Annahmen: –y f = x f. β + ε f –E(ε f ) = 0 –E(ε f ²) = σ² –E(ε f, ε i ) = 0 für alle i = 1,…,n –x f. nicht stochastisch

86 86 Regressionsanalyse Parameter bekannt: –Prognose der Einzelwerte: ŷ f = x f. β –Prognose des Erwartungswertes: E(ŷ f ) = x f. β Parameter unbekannt: –Prognose der Einzelwerte: ŷ f = x f. b ŷ f ist ein unverzerrter Prediktor für y f –Prognose des Erwartungswertes: E(ŷ f ) = x f. b E(ŷ f )ist ein unverzerrter Prediktor für E(y f )

87 87 Regressionsanalyse Prognose Erwartungswert E(ŷ f ) = x f. β Varianz des durchschnittlichen Prognosewertes s ŷf ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

88 88 Regressionsanalyse Prognose Einzelwert ŷ f = x f. β Prognosefehler: e f = y f – ŷ f Varianz des individuellen Prognosewertes s f ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

89 89 Regressionsanalyse 1-α Konfidenzintervall für E(ŷ f ): [ŷ f – t s ŷf ; ŷ f + t s ŷf ] t = t 1-α;n-2 1-α Prognoseintervall für ŷ f : [ŷ f – t s yf ; ŷ f + t s yf ] t = t 1-α;n-2

90 90 Regressionsanalyse Nichtlineare Regression: Nichtlineare Regressionsfunktion –Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

91 91 Regressionsanalyse Nichtlinearer Einfachregression als lineare Zweifachregression ansehen –z.B. y i = β 1 +β 2 x i + β 3 x i ² +ε i setze x=x 1 und x²=x 2, und interpretiere y i = b 1 +b 2 x 1i + b 3 x 2i im Sinne der linearen Zweifachregression Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse –z.B. Potenzfunktion: y i = β 1 ·x i β 2 ·ε i Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(y i )=log(β 1 )+β 2 log(x i )+log(ε i )


Herunterladen ppt "1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006."

Ähnliche Präsentationen


Google-Anzeigen