1 STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005.

1 STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005

2 Regressionsanalyse Linear Mehrfachregression –Eine abhängige Variabel Y –Mehrere unabhängige Variabeln x 1,…,x k-1. Modell: Y i = β 0 + β 1 x 1 + β 2 x 2 + …+ β k-1 x k-1 + ε i für i=1,…,n –β 0 … Absolutglied, Interzept –β j … Steigungsparameter (j=1,…,k-1) –x j … unabhängige Variable (j = 1,…,k-1) –ε i … Störterm, zufälliger Fehler

3 Regressionsanalyse Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. –Abhängige Variable: Y = Größe, –Unabhängige Variablen: X 1 = Größe Mutter und X 2 = Größe Vater –Modell: y i = β 0 + β 1 x 1 + β 2 x 2 + ε i

4 Regressionsanalyse Matrixschreibweise: Y = Xβ + ε –Y … n 1 Vektor der abhängigen Variable –X … n k Matrix der unabhängigen Variable, X=[1:X j ] mit j=1,…,k-1 –β … k 1 Parametervektor, β=[β 0 :β j ]´ mit j=1,…,k-1 –ε … n 1 Vektor der zufälligen Störungen

5 Regressionsanalyse Annahmen: (1)E(ε) = 0 (2)Var(ε) = σ² (3)Cov(ε) = E(εε´) = σ²I (4)X nicht stochastisch (5)rang(X) = k (X sind nicht linear abhängig)

6 Regressionsanalyse Kleinste Quadrate Schätzung: Minimierung der Abweichungsquadratsumme (Y-Xb)(Y-Xb) = (y i -x i. b)² min

7 Regressionsanalyse Normalengleichungssystem: (X´X)b = X´y Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X) -1 X´y b … k 1 Vektor der Schätzer

8 Regressionsanalyse Konsequenzen aus den Normalgleichungen: Xe = 0 Ŷe = 0 e = MY mit M = I – X(XX) -1 X

9 Regressionsanalyse Statistische Eigenschaften: E(e) = 0 VC(e) = σ²M ( σ²I = VC(ε)) E(b) = β VC(b) = σ²(XX)

10 Regressionsanalyse Schätzung von σ²: E(s²) = σ² Schätzung der Varianz-Kovarianz Matrix von b: VC(b) est. = s²(XX) -1 (unverzerrt für VC(b))

11 Regressionsanalyse Gauss-Markov Theorem: –Y=Xβ+ε –Es gelten Ann. 1-4 und β k ist beliebig –b* sei ein linearer unverzerrter Schätzer für β VC(b) VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. –Var(b i ) Var(b i *) für alle i = 1,..., k –Man sagt: b ist BLUE –cb ist der BLUE für die Linearkombination cβ

12 Regressionsanalyse Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige k n Matrix ist. Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

13 Regressionsanalyse Tests der Regressionskoeffizienten: Einseitige Hypothesen: –H 0 : β i β* (z.B. 0) gegen H 1 : β i < β* –H 0 : β i β* (z.B. 0) gegen H 1 : β i > β* Zweiseitige Hypothese: –H 0 : β i = β* (z.B. 0) gegen H 1 : β i β*

14 Regressionsanalyse Teststatistik: –T = (b i - β*) / s bi Testverteilung: –T ~ t n-k Entscheidung: Lehne H 0 ab, wenn T im kritischen Bereich liegt.

15 Regressionsanalyse Konfidenzintervalle der Parameter: Wahrscheinlichkeitsintervall: –P(b i – t s bi β b i + t s bi ) = 1 – α für i = 1,...,k Konfidenzintervall: –[b i – t s bi ; b i + t s bi ] für i = 1,...,k mit t = t 1- α/2;n-k

16 Regressionsanalyse Beispiel Körpergröße: –Modell: Y = β 0 + β 1 X 1 + β 2 X 2 Parameterschätzer und p-Werte: –b 0 = 81,24; p-Wert = 0,015 –b 1 = 0,545; p-Wert = 0,005 –b 2 = 0,008; p-Wert = 0,87 –Körpergröße der Mutter hat einen positiven Einfluss auf die Körpergröße des Kindes

17 Regressionsanalyse Quadratsummen: –SST = (y i - y)² = ns y ² = YAY –SSE = (ŷ i - ŷ)² = ns ŷ ² = ŶA Ŷ –SSR = e i ² = ns² = eAe –wobei A = (I n – (1/n)ii) Quadratsummenzerlegung: –SST = SSE + SSR

18 Regressionsanalyse F-Test: –Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X 2,…,X k ein linearer Zusammenhang besteht. –H 0 : β 2 = β 3 = … = β k = 0 Mittlere quadratische Abweichungen: –MQE = SSE / (k-1) –MQR = SSR / (n-k)

19 Regressionsanalyse Teststatistik: –F = MQE / MQR –F ~ F (k-1),(n-k) Entscheidung: –F > F (k-1),(n-k) lehne H 0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

20 Regressionsanalyse Lineares multiples Bestimmtheitsmaß: –R² = SSE / SST = 1 – SSR / SST –Es gilt: 0 R² 1 Linearer multipler Korrelationskoeffizient: –r = + R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

21 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Regressoren X 2,...,X k : r² Y,X2,...,Xk = SSE(X 2,...,X k ) / SST –Zusätzliche erklärende Variable X k+1 : r² Y,X2,...,Xk,Xk+1 = SSE(X 2,...,X k,X k+1 ) / SST –Zusätzliche (durch X k+1 ) erklärte Abweichungsquadratsumme: SSE(X k+1 |X 2,...,X k ) = SSE(X 2,..., X k,X k+1 ) – SSE(X 2,...,X k ) = (r² Y,X2,...,Xk,Xk+1 – r² Y,X2,...,Xk,Xk+1 ) SST

22 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Quotient der zusätzlichen erklärten Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme: –r² Y(k+1),X2,...,Xk = SSE(X k+1 |X 2,...,X k ) / SSR(X 2,...,X k ) = (r² Y,X2,...,Xk+1 – r² Y,X2,...,Xk ) / (1 – r² Y,X2,...,Xk ) wobei SSR(X 2,...,X k ) = SST – SSE(X 2,...,X k )

23 Regressionsanalyse Partieller F-Test: –f = MQE(X k+1 |X 2,...,X k ) / MQR(X 2,...,X k,X k+1 ) –MQE(X k+1 |X 2,...,X k )=SSE(X k+1 |X 2,...,X k )/(k-2) –MQR(X 2,...,X k+1 )=SSR(X 2,...,X k+1 )/(n-k) –f ~ F (k-2),(n-k)

24 Regressionsanalyse Adjusted R²: berücksichtigt die Anzahl der Koeffizienten –adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R² –Es gilt: (1-k)/(n-k) adj. R² 1

25 Regressionsanalyse Variablenselektion: –Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden? Kriterium? –R² => Wähle Modell mit größten R² => immer Modell mit allen möglichen Variablen – Unsinn! –Adj. R² => Wähle Modell mit dem größten Wert des korrigierten Bestimmtheitsmaßes. –AIC, BIC => Wähle Modell mit kleinsten Wert von AIC (Akaikes Information Criterion) bzw. BIC (Bayesian Information Criterion)

26 Regressionsanalyse Vorwärtsauswahl –Einfachregressionen zw. Y und X i (i=2,…,k) –Sind alle Variablen nicht signifikant, Abbruch. –Sind einige Variablen signifikant, wählt jene mit dem höchsten F-Wert. –Variable mit höchstem partiellen F-Wert (und > als ein kritischer Wert) ins Modell aufnehmen –usw.

27 Regressionsanalyse Rückwärtsauswahl –Umkehrung des Verfahrens der Vorwärt- Selektion. –Modell mit allen erklärenden Variablen –Sind alle Variablen signifikant, Modell mit allen Variablen. –Sind Variable nicht signifikant, schließe jene mit dem kleinsten partiellen F-Wert aus. –usw.

28 Regressionsanalyse Schrittweise Auswahl –Prüfe ob ein linearer Zusammenhang vorliegt –Wähle jene Variable mit dem höchsten linearen Einfachkorrelationskoeffizienten. –Wähle jene Variable mit dem höchsten signifikanten partiellen F-Wert –Prüfe alle Variablen im Modell auf Signifikanz, bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen. –usw.

29 Regressionsanalyse Prognose: Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. –Schätzung des Erwartungswertes E(y f ) –Schätzung eines Einzelwertes y f an der Stelle x f.

30 Regressionsanalyse Geg. x f. (weitere Werte von X) Ges. zugehöriger Wert y f von Y und/oder mittleres Verhalten E(y f ) = x f. b Weitere Annahmen: –y f = x f. β + ε f –E(ε f ) = 0 –E(ε f ²) = σ² –E(ε f, ε i ) = 0 für alle i = 1,…,n –x f. nicht stochastisch

31 Regressionsanalyse Parameter bekannt: –Prognose der Einzelwerte: ŷ f = x f. β –Prognose des Erwartungswertes: E(ŷ f ) = x f. β Parameter unbekannt: –Prognose der Einzelwerte: ŷ f = x f. b ŷ f ist ein unverzerrter Prediktor für y f –Prognose des Erwartungswertes: E(ŷ f ) = x f. b E(ŷ f )ist ein unverzerrter Prediktor für E(y f )

32 Regressionsanalyse Prognose Erwartungswert E(ŷ f ) = x f. β Varianz des durchschnittlichen Prognosewertes s ŷf ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) ee)

33 Regressionsanalyse Prognose Einzelwert ŷ f = x f. β Prognosefehler: e f = y f – ŷ f Varianz des individuellen Prognosewertes s f ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) ee)

34 Regressionsanalyse 1-α Konfidenzintervall für E(ŷ f ): [ŷ f – t s ŷf ; ŷ f + t s ŷf ] t = t 1-α;n-k 1-α Prognoseintervall für ŷ f : [ŷ f – t s yf ; ŷ f + t s yf ] t = t 1-α;n-k

35 Regressionsanalyse Nichtlineare Regression: Nichtlineare Regressionsfunktion –Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

36 Regressionsanalyse Nichtlinearer Einfachregression als lineare Zweifachregression ansehen –z.B. y i = β 1 +β 2 x i + β 3 x i ² +ε i setze x=x 1 und x²=x 2, und interpretiere y i = b 1 +b 2 x 1i + b 3 x 2i im Sinne der linearen Zweifachregression Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse –z.B. Potenzfunktion: y i = β 1 ·x i β 2 ·ε i Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(y i )=log(β 1 )+β 2 log(x i )+log(ε i )

1 STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005.

Ähnliche Präsentationen

Präsentation zum Thema: "1 STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

1 STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005.

Ähnliche Präsentationen

Präsentation zum Thema: "1 STATISIK LV Nr.: 0021 WS 2005/06 15. November 2005."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback