Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +

Ähnliche Präsentationen


Präsentation zum Thema: "1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +"—  Präsentation transkript:

1 1 STATISIK LV Nr.: 1375 SS April 2005

2 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α + βx i + ε i Regressionsfunktion: ŷ i = a + bx i Schätzung: min. Residual-Quadratsumme KQ-Schätzer a und b: BLUE Tests für a und b: t-Tests

3 3 Regressionsanalyse F-Test Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

4 4 Regressionsanalyse Mittlere erklärte Quadratsumme: –MSE = SSE / 1 Mittlere nicht erklärte Quadratsumme: –MSR = SSR / (n – 2) Teststatistik: –F = MSE / MSR –F ~ F 1;n-2;1-α

5 5 Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) –Modell: Y = α + Xβ + ε –Parameterschätzer: a = -95,89, b = 0,93 –Regressionsfunktion: Ŷ = -95,89 + 0,93X –Interpretation der Koeffizienten: a = -95,89: Verschiebung b = 0,93: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,93 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! –Bestimmtheitsmaß: 0,597 –Korrelationskoeffizient: 0,77

6 6 Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) –Koeffiziententests (t-Tests): –H 0 : α = 0 ablehnen (p-Wert α 0 –H 0 : β = 0 ablehnen (p-Wert β 0 –F-Test: H 0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

7 7 Regressionsanalyse Prognose Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. –Schätzung des Erwartungswertes E(y f ) an der Stelle x f. –Schätzung eines Einzelwertes y f an der Stelle x f.

8 8 Regressionsanalyse Geg. x f (weiterer Wert von X) Ges. zugehöriger Wert y f von Y und/oder mittleres Verhalten E(y f ) = a + bx f. Weitere Annahmen: –y f = α + βx f + ε f –E(ε f ) = 0 –E(ε f ²) = σ² –Cov(ε f, ε i ) = 0 –x f nicht stochastisch

9 9 Regressionsanalyse Parameter α und β bekannt: –Prognose der Einzelwerte: y f = α + βx f –Prognose des Erwartungswertes: E(y f ) = α + βx f Parameter unbekannt. –Prognose der Einzelwerte: ŷ f = a + bx f ŷ f ist ein unverzerrter Prediktor für y f –Prognose des Erwartungswertes: E(ŷ f ) = a + bx f ŷ f ist ein unverzerrter Prediktor für E(y f )

10 10 Regressionsanalyse Prognose Erwartungswert: E(ŷ f ) = a + bx f Varianz des durchschnittlichen Prognosewertes s ŷf ²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) e i ²)

11 11 Regressionsanalyse Prognose Einzelwert: ŷ f = a + bx f Prognosefehler: e f = y f – ŷ f Varianz des individuellen Prognosefehlers s f ²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) e i ²)

12 12 Regressionsanalyse Zusätzlich Ann: Störvariable ε f ~ N(0,σ²) 1-α Konfidenzintervall für E(ŷ f ): [ŷ f – t s ŷf ; ŷ f + t s ŷf ] t = t 1-α/2;n-2 1-α Prognoseintervall für ŷ f : [ŷ f – t s f ; ŷ f + t s f ] t = t 1-α/2;n-2

13 13 Regressionsanalyse Residuenanalyse Ex-post Überprüfung der Modellannahmen. Ann 1: E(ε i ) = 0 Ann 2: Var(ε i ) = σ² Ann 3: Cov(ε i,ε j ) = 0

14 14 Regressionsanalyse Grafische Residualanalyse Residuen der KQ Schätzer: e i = y i – ŷ i Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) Streudiagramm: Residuen gegen Ŷ (Prognosewerte). Es gilt: e i = 0 und arithm. Mittel der e i = 0

15 15 Regressionsanalyse Residuen gegen X:

16 16 Regressionsanalyse Residuen gegen Ŷ:

17 17 Regressionsanalyse Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

18 18 Regressionsanalyse Ann. linearen Regressionsfunktion verletzt.

19 19 Regressionsanalyse Streudiagramm: e i gegen e i-1 Autokorrelation der Residuen

20 20 Regressionsanalyse Normalverteilung der ε i : QQ-Plot –Empirische- und Theoretische Quantile

21 21 Regressionsanalyse Linear Mehrfachregression –Eine abhängige Variabel Y –Mehrere unabhängige Variabeln x 1,…,x k-1. Modell: Y i = β 0 + β 1 x 1 + β 2 x 2 + …+ β k-1 x k-1 + ε i für i=1,…,n –β 0 … Absolutglied, Interzept –β j … Steigungsparameter (j=1,…,k-1) –x j … unabhängige Variable (j = 1,…,k-1) –ε i … Störterm, zufälliger Fehler

22 22 Regressionsanalyse Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. –Abhängige Variable: Y = Größe, –Unabhängige Variablen: X 1 = Größe Mutter und X 2 = Größe Vater –Modell: y i = β 0 + β 1 x 1 + β 2 x 2 + ε i

23 23 Regressionsanalyse Matrixschreibweise: Y = Xβ + ε –Y … n 1 Vektor der abhängigen Variable –X … n k Matrix der unabhängigen Variable, X=[1:X j ] mit j=1,…,k-1 –β … k 1 Parametervektor, β=[β 0 :β j ]´ mit j=1,…,k-1 –ε … n 1 Vektor der zufälligen Störungen

24 24 Regressionsanalyse Annahmen: (1)E(ε) = 0 (2)Var(ε) = σ² (3)Cov(ε) = E(εε´) = σ²I (4)X nicht stochastisch (5)rang(X) = k (X sind nicht linear abhängig)

25 25 Regressionsanalyse Kleinste Quadrate Schätzung: Minimierung der Abweichungsquadratsumme (Y-Xb)(Y-Xb) = (y i -x i. b)² min

26 26 Regressionsanalyse Normalengleichungssystem: (X´X)b = X´y Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X) -1 X´y b … k 1 Vektor der Schätzer

27 27 Regressionsanalyse Konsequenzen aus den Normalgleichungen: Xe = 0 Ŷe = 0 e = MY mit M = I – X(XX) -1 X

28 28 Regressionsanalyse Statistische Eigenschaften: E(e) = 0 VC(e) = σ²M ( σ²I = VC(ε)) E(b) = β VC(b) = σ²(XX)

29 29 Regressionsanalyse Schätzung von σ²: E(s²) = σ² Schätzung der Varianz-Kovarianz Matrix von b: VC(b) est. = s²(XX) -1 (unverzerrt für VC(b))

30 30 Regressionsanalyse Gauss-Markov Theorem: –Y=Xβ+ε –Es gelten Ann. 1-4 und β k ist beliebig –b* sei ein linearer unverzerrter Schätzer für β VC(b) VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. –Var(b i ) Var(b i *) für alle i = 1,..., k –Man sagt: b ist BLUE –cb ist der BLUE für die Linearkombination cβ

31 31 Regressionsanalyse Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige k n Matrix ist. Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

32 32 Regressionsanalyse Tests der Regressionskoeffizienten: Einseitige Hypothesen: –H 0 : β i β* (z.B. 0) gegen H 1 : β i < β* –H 0 : β i β* (z.B. 0) gegen H 1 : β i > β* Zweiseitige Hypothese: –H 0 : β i = β* (z.B. 0) gegen H 1 : β i β*

33 33 Regressionsanalyse Teststatistik: –T = (b i - β*) / s bi Testverteilung: –T ~ t n-k Entscheidung: Lehne H 0 ab, wenn T im kritischen Bereich liegt.

34 34 Regressionsanalyse Konfidenzintervalle der Parameter: Wahrscheinlichkeitsintervall: –P(b i – t s bi β b i + t s bi ) = 1 – α für i = 1,...,k Konfidenzintervall: –[b i – t s bi ; b i + t s bi ] für i = 1,...,k mit t = t 1- α/2;n-k

35 35 Regressionsanalyse Beispiel Körpergröße: –Modell: Y = β 0 + β 1 X 1 + β 2 X 2 Parameterschätzer und p-Werte: –b 0 = -28,26; p-Wert = 0,657 –b 1 = 0,277; p-Wert = 0,292 –b 2 = 0,871; p-Wert = 0,002 –Körpergröße des Vaters hat einen positiven Einfluss auf die Körpergröße des Kindes

36 36 Regressionsanalyse Quadratsummen: –SST = (y i - y)² = ns y ² = YAY –SSE = (ŷ i - ŷ)² = ns ŷ ² = ŶA Ŷ –SSR = e i ² = ns² = eAe –wobei A = (I n – (1/n)ii) Quadratsummenzerlegung: –SST = SSE + SSR

37 37 Regressionsanalyse F-Test: –Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X 2,…,X k ein linearer Zusammenhang besteht. –H 0 : β 2 = β 3 = … = β k = 0 Mittlere quadratische Abweichungen: –MQE = SSE / (k-1) –MQR = SSR / (n-k)

38 38 Regressionsanalyse Teststatistik: –F = MQE / MQR –F ~ F (k-1),(n-k) Entscheidung: –F > F (k-1),(n-k) lehne H 0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

39 39 Regressionsanalyse Lineares multiples Bestimmtheitsmaß: –R² = SSE / SST = 1 – SSR / SST –Es gilt: 0 R² 1 Linearer multipler Korrelationskoeffizient: –r = + R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

40 40 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Regressoren X 2,...,X k : r² Y,X2,...,Xk = SSE(X 2,...,X k ) / SST –Zusätzliche erklärende Variable X k+1 : r² Y,X2,...,Xk,Xk+1 = SSE(X 2,...,X k,X k+1 ) / SST –Zusätzliche (durch X k+1 ) erklärte Abweichungsquadratsumme: SSE(X k+1 |X 2,...,X k ) = SSE(X 2,...,X k ) – SSE(X 2,...,X k,X k+1 ) = (r² Y,X2,...,Xk – r² Y,X2,...,Xk,Xk+1 ) SST

41 41 Regressionsanalyse Lineares partielles Bestimmtheitsmaß: –Quotient der zusätzlichen erklärten Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme: –r² Y(k+1),X2,...,Xk = SSE(X k+1 |X 2,...,X k ) / SSR(X 2,...,X k ) = (r² Y,X2,...,Xk – r² Y,X2,...,Xk,Xk+1 ) / (1 – r² Y,X2,...,Xk ) wobei SSR(X 2,...,X k ) = SST – SSE(X 2,...,X k )

42 42 Regressionsanalyse Partieller F-Test: –f = MQE(X k+1 |X 2,...,X k ) / MQR(X 2,...,X k,X k+1 ) –MQE(X k+1 |X 2,...,X k )=SSE(X k+1 |X 2,...,X k )/(k-2) –MQR(X 2,...,X k+1 )=SSR(X 2,...,X k+1 )/(n-k) –f ~ F (k-2),(n-k)

43 43 Regressionsanalyse Adjusted R²: berücksichtigt die Anzahl der Koeffizienten –adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R² –Es gilt: (1-k)/(n-k) adj. R² 1

44 44 Regressionsanalyse Variablenselektion: –Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden? Kriterium? –R² => Wähle Modell mit größten R² => immer Modell mit allen möglichen Variablen – Unsinn! –Adj. R² => Wähle Modell mit dem größten Wert des korrigierten Bestimmtheitsmaßes. –AIC, BIC => Wähle Modell mit kleinsten Wert von AIC (Akaikes Information Criterion) bzw. BIC (Bayesian Information Criterion)

45 45 Regressionsanalyse Vorwärtsauswahl –Einfachregressionen zw. Y und X i (i=2,…,k) –Sind alle Variablen nicht signifikant, Abbruch. –Sind einige Variablen signifikant, wählt jene mit dem höchsten F-Wert. –Variable mit höchstem partiellen F-Wert (und > als ein kritischer Wert) ins Modell aufnehmen –usw.

46 46 Regressionsanalyse Rückwärtsauswahl –Umkehrung des Verfahrens der Vorwärt- Selektion. –Modell mit allen erklärenden Variablen –Sind alle Variablen signifikant, Modell mit allen Variablen. –Sind Variable nicht signifikant, schließe jene mit dem kleinsten partiellen F-Wert aus. –usw.

47 47 Regressionsanalyse Schrittweise Auswahl –Prüfe ob ein linearer Zusammenhang vorliegt –Wähle jene Variable mit dem höchsten linearen Einfachkorrelationskoeffizienten. –Wähle jene Variable mit dem höchsten signifikanten partiellen F-Wert –Prüfe alle Variablen im Modell auf Signifikanz, bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen. –usw.

48 48 Regressionsanalyse Prognose: Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. –Schätzung des Erwartungswertes E(y f ) –Schätzung eines Einzelwertes y f an der Stelle x f.

49 49 Regressionsanalyse Geg. x f. (weitere Werte von X) Ges. zugehöriger Wert y f von Y und/oder mittleres Verhalten E(y f ) = x f. b Weitere Annahmen: –y f = x f. β + ε f –E(ε f ) = 0 –E(ε f ²) = σ² –E(ε f, ε i ) = 0 für alle i = 1,…,n –x f. nicht stochastisch

50 50 Regressionsanalyse Parameter bekannt: –Prognose der Einzelwerte: ŷ f = x f. β –Prognose des Erwartungswertes: E(ŷ f ) = x f. β Parameter unbekannt: –Prognose der Einzelwerte: ŷ f = x f. b ŷ f ist ein unverzerrter Prediktor für y f –Prognose des Erwartungswertes: E(ŷ f ) = x f. b E(ŷ f )ist ein unverzerrter Prediktor für E(y f )

51 51 Regressionsanalyse Prognose Erwartungswert E(ŷ f ) = x f. β Varianz des durchschnittlichen Prognosewertes s ŷf ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) ee)

52 52 Regressionsanalyse Prognose Einzelwert ŷ f = x f. β Prognosefehler: e f = y f – ŷ f Varianz des individuellen Prognosewertes s f ² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) ee)

53 53 Regressionsanalyse 1-α Konfidenzintervall für E(ŷ f ): [ŷ f – t s ŷf ; ŷ f + t s ŷf ] t = t 1-α;n-2 1-α Prognoseintervall für ŷ f : [ŷ f – t s yf ; ŷ f + t s yf ] t = t 1-α;n-2

54 54 Regressionsanalyse Nichtlineare Regression: Nichtlineare Regressionsfunktion –Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

55 55 Regressionsanalyse Nichtlinearer Einfachregression als lineare Zweifachregression ansehen –z.B. y i = β 1 +β 2 x i + β 3 x i ² +ε i setze x=x 1 und x²=x 2, und interpretiere y i = b 1 +b 2 x 1i + b 3 x 2i im Sinne der linearen Zweifachregression Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse –z.B. Potenzfunktion: y i = β 1 ·x i β 2 ·ε i Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(y i )=log(β 1 )+β 2 log(x i )+log(ε i )

56 56 Nichtparametrische ANOVA Kruskal-Wallis Test Unterscheiden sich die Mittelwerte von p Messreihen (n 1, …, n p )? Voraussetzungen: –Stetige Verteilung der Messreihen –Mindestens Ordinalskala –Setzt weder Normalverteilung, noch Varianzhomogenität voraus. Hypothese: –H 0 : Mittelwerte der p Messreihen sind gleich –H 1 : Mittelwerte unterscheiden sich

57 57 Nichtparametrische ANOVA Vorgehensweise: –N Messwerten X 11, …, X pnp werden Rangzahlen r ij zugewiesen. –Summe der Ränge der einzelnen Messreihen berechnen: –Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge

58 58 Nichtparametrische ANOVA Prüfgröße: –g … Anzahl der verschiedenen Messwerte –t … wie oft tritt ein Messwert auf –Treten keine Bindungen auf, ist B = 1

59 59 Nichtparametrische ANOVA Entscheidung: –H 0 ablehnen, wenn H > h p(n1,…,np);1-α –h … kritische Werte (Tabelle, z.B. Hartung S. 615) Approximation durch χ² p-1,1-α Verteilung: –H 0 ablehnen, wenn H > χ² p-1,1-α (Quantile der χ² Verteilung)


Herunterladen ppt "1 STATISIK LV Nr.: 1375 SS 2005 19. April 2005. 2 Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: y i = α +"

Ähnliche Präsentationen


Google-Anzeigen