Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 STATISIK LV Nr.: 0028 SS 2005 6. Juni 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

Ähnliche Präsentationen


Präsentation zum Thema: "1 STATISIK LV Nr.: 0028 SS 2005 6. Juni 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal."—  Präsentation transkript:

1 1 STATISIK LV Nr.: 0028 SS Juni 2005

2 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen Merkmal (durch Faktor beeinflusst): Metrische Größe

3 3 Varianzanalyse Einfache Varianzanalyse: Ein Faktor Zweifache Varianzanalyse: Zwei Faktoren …

4 4 Varianzanalyse Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. –Test, ob die Differenz der arithmetischen Mittel von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist.

5 5 Varianzanalyse Modellannahmen der Varinazanalyse: –Unabhängigkeit der Stichproben (i=1,…,r) –Normalverteilung der Merkmale mit µ i und σ i ² –Varianzhomogenität (Homoskedastizität), d.h. σ i ² = σ²

6 6 Varianzanalyse Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ H 0 : µ 1 = µ 2 = … = µ Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ H 1 : mindestens zwei µ i sind ungleich

7 7 Varianzanalyse Frage: Beeinflusst der Faktor (nominal- skalierte Größe) das Merkmal (metrisch- skalierte Größe)? Unter H 0 : µ i = µ für alle i (i = 1,…,r Faktorstufen). Abweichung, die dem Faktor zuzuschreiben sind: α i = µ i - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene.

8 8 Varianzanalyse Modell der einfachen Varianzanalyse: x ij = µ + α i + e ij –µ … Gesamtmittelwert –α i … Effekt auf der i-ten Ebene –e ij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes x ik vom Mittelwert µ i dieser Ebene. e ij = x ij – µ i = x ij – (µ + α i )

9 9 Varianzanalyse Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µ i,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit? i Drahtsorte j , ,415,69,6 38,214,211,5 43,91319,4 57,36,817,1 610,89,714,4

10 10 Varianzanalyse Vorgehensweise: Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen Bestimmung der Abweichungen Zerlegung der Abweichungsquadratsumme Teststatistik und Testverteilung bestimmen Entscheidung, Interpretation

11 11 Varianzanalyse Gesamtmittelwert über alle Faktorstufen r Mittelwerte der r Faktorstufen

12 12 Varianzanalyse Beispiel: Drahtsorten i Drahtsorte j123 x.. 197, ,415,69,6 38,214,211,5 43,91319,4 57,36,817,1 610,89,714,4 x i. 9,111,11511,7

13 13 Varianzanalyse Abweichungen: Quadratsumme der Abweichungen (Sum of Squares) –Abweichungen der Beobachtungen vom Gesamtmittelwert. –Summe der Quadratischen Abweichungen –Bezeichnungen: SST (Total), SSG (Gesamt)

14 14 Varianzanalyse Sum of Squares: –Abweichungen der Beobachtungen der einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe. –Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität –Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual).

15 15 Varianzanalyse Sum of Squares: –Abweichungen der Mittelwerte der einzelnen Messreihen vom Gesamtmittelwert. –Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors. –Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment),

16 16 Varianzanalyse Quadratsummenzerlegung: SST = SSB + SSW Interpretation: Gesamtvarianz (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen.

17 17 Varianzanalyse Idee für Test: –Vergleich der Variation zwischen den Messreihen mit der Variation innerhalb der Messreihen –Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt).

18 18 Varianzanalyse Teststatistik – Idee: –Aus den Beobachtungswerten werden zwei voneinander unabhängige Schätzwerte für s W ² und s B ² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt. –Liegen keine wahren Effekte vor (Gültigkeit von H 0 ), sind s W ² und s B ² (bis auf zufällige Abweichungen) gleich. –Bei Vorhandensein von wahren Effekten (H 1 ) ist s B ² systematisch größer als s W ².

19 19 Varianzanalyse Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz): Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt)

20 20 Varianzanalyse Mittlere Quadratsummen (MSS = Mean Sum of Squares): Quadratsummen dividiert durch entsprechende Freiheitsgrade MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen.

21 21 Varianzanalyse Varianzanalysetafel (r Messreihen): Streuungs- ursache Freiheits- grade (DF) Quadrat- summe (SS) Mittlere Quadratsumme (MS) Unterschied zw Messreihen r-1SSB (Between) MSB = SSB / (r-1) Zufälliger Fehler N-rSSW (Within) MSW = SSW / (N-r) GesamtN-1SST (Total)

22 22 Varianzanalyse Teststatistik: F = MSB / MSW F ~ F (r-1),(N-r) Entscheidung: Ist F F c, lehne H 0 nicht ab (F c = kritischer Wert der F-Verteilung mit (r-1) und (N-r) Freiheitsgraden).

23 23 Varianzanalyse Beispiel: Drahtsorten Quadratsummenzerlegung: SST = SSB + SSW –324,62 = 108, ,58 Mittlere Quadratsummen: –MSB = 108,04 / (3-1) = 54,02 –MSW = 216,58 / (18-3) = 14,44 Teststatistik: –F = MSB / MSW = 3,74 Kritischer Wert der F 2;15 Vt. 3,68 Entscheidung: 3,74 > 3,68 => H 0 ablehnen, d.h. es besteht ein signifikanter Unterschied zw. den Sorten

24 24 Varianzanalyse Zweifache Varianzanalyse: –2 Faktoren (A und B, wobei r Faktorstufen bei A und p Faktorstufen bei B) –1 metrische Variable Unterscheidung: –Modell ohne Wechselwirkungen zw. den Faktoren –Modell mit Wechselwirkungen zw. den Faktoren

25 25 Varianzanalyse Modell ohne Wechselwirkungen zw. den Faktoren x ijk = µ + α i + β j + e ijk (für i=1,…,r, j=1,…,p, k=1,…,n) –µ gemeinsamer Mittelwert –α, β Faktoreffekte –e ijk zufällige Fehler

26 26 Varianzanalyse Mittelwerte: Gesamt Faktor A Faktor B

27 27 Varianzanalyse Schätzer für Gesamtmittel und Effekte Gesamtmittel Effekt von Faktor A Effekt von Faktor B

28 28 Varianzanalyse Quadratsummen SSR = SST – SSE(A) – SSE(B)

29 29 Varianzanalyse Quadratsummenzerlegung –SST = SSE(A) + SSE(B) + SSR Mittlere Quadratsummen: –MSE(A) = SSE(A) / (r-1) –MSE(B) = SSE(B) / (p-1) –MSR = SSR / (rpn-r-p+1)

30 30 Varianzanalyse Prüfgrößen und kritische Werte: Faktor A: –F(A) = MSE(A) / MSR –F r-1,(nrp-r-p+1);1-α Faktor B: –F(B) = MSE(B) / MSR –F p-1,(nrp-r-p+1);1-α

31 31 Varianzanalyse Beispiel: 2 Faktoren (Erreger, Antibiotikum) Erreger i (A) Antibiotikum j (B) 123MittelwerteSchätzer a i k ,50, ,7-0, ,3-0,500 Mittelwerte 39,838,235,537,8 Schätzer b j 2,0000,333-2,333

32 32 Varianzanalyse Modell mit Wechselwirkungen zw. den Faktoren x ijk = µ + α i + β j + (αβ) ij + e ijk (für i=1,…,r, j=1,…,p, k=1,…,n) –µ gemeinsamer Mittelwert –α, β Faktoreffekte –αβWechselwirkung –e ijk zufällige Fehler

33 33 Varianzanalyse Mittelwerte: Gesamt Faktor A Faktor B Wechselwirkung

34 34 Varianzanalyse Gesamtmittel und Effekte Gesamtmittel Effekt von Faktor A Effekt von Faktor B Effekt der Wechselwirkung

35 35 Varianzanalyse Quadratsummen SSR = SST – SSE(A) – SSE(B) – SSE(AB)

36 36 Varianzanalyse Quadratsummenzerlegung –SST = SSE(A) + SSE(B) + SSE(AB) + SSR Mittlere Quadratsummen: –MSE(A) = SSE(A) / (r-1) –MSE(B) = SSE(B) / (p-1) –MSE(AB) = SSE(AB) / (p-1)(r-1) –MSR = SSR / (rpn-r-p+1)

37 37 Varianzanalyse Prüfgrößen und kritische Werte: Faktor A: –F(A) = MSE(A) / MSR –F r-1, pr(n-1); 1-α Faktor B: –F(B) = MSE(B) / MSR –F p-1, pr(n-1); 1-α Wechselwirkung: –F(AB) = MSE(AB) / MSR –F (p-1)(r-1), pr(n-1); 1-α

38 38 Varianzanalyse Beispiel: 2 Faktoren + Wechselwirkung Erreger i Antibiotikum j (Faktor B) (Faktor A) 123 x i.. aiai kx i1k x i1. (ab) i1 x i2k x i2. (ab) i2 x i3k x i3. (ab) i ,5-4, ,51, ,52, ,50, ,53, , ,5-1, ,7-0, ,50, , ,5-0, ,3-0,500 x.j. 39,8 38,2 35,5 37,8 bjbj 2,000 0,333 -2,333

39 39 Varianzanalyse Beispiel: Varianzanalysetafel Faktor Erreger: kein Effekt Faktor Antibiotikum: Effekt Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat). Streuungs- ursache Freiheits- grade Quadrat- summe Mittlere Quadrats. Test- statistik Kritischer Wert Erreger24,332,166670,524,26 Antibiotikum257,3328,66676,884,26 Interaktion493,3323,33335,603,63 Fehler937,504,16667 Total17192,5

40 40 Varianzanalyse

41 41 Nichtparametrische ANOVA Kruskal-Wallis Test Unterscheiden sich die Mittelwerte von p Messreihen (n 1, …, n p )? Voraussetzungen: –Stetige Verteilung der Messreihen –Mindestens Ordinalskala –Setzt weder Normalverteilung, noch Varianzhomogenität voraus. Hypothese: –H 0 : Mittelwerte der p Messreihen sind gleich –H 1 : Mittelwerte unterscheiden sich

42 42 Nichtparametrische ANOVA Vorgehensweise: –N Messwerten X 11, …, X pnp werden Rangzahlen r ij zugewiesen. –Summe der Ränge der einzelnen Messreihen berechnen: –Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge

43 43 Nichtparametrische ANOVA Prüfgröße: –g … Anzahl der verschiedenen Messwerte –t … wie oft tritt ein Messwert auf –Treten keine Bindungen auf, ist B = 1

44 44 Nichtparametrische ANOVA Entscheidung: –H 0 ablehnen, wenn H > h p(n1,…,np);1-α –h … kritische Werte (Tabelle, z.B. Hartung S. 615) Approximation durch χ² p-1,1-α Verteilung: –H 0 ablehnen, wenn H > χ² p-1,1-α (Quantile der χ² Verteilung)

45 45 Regressionsanalyse Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

46 46 Regressionsanalyse Abhängige Variable (Regressand): Y –zu erklärende Variable Unabhängige Variable/n (Regressor): X –erklärende Variable/n Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. Regression von Y auf X, Y=f(X).

47 47 Regressionsanalyse Art der Beziehung zw. den Variablen? Welche Form hat die Regressionsfunktion? Antworten darauf aus: –Theorie –Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

48 48 Regressionsanalyse Punktwolke Regressionsfunktion

49 49 Regressionsanalyse Lineare Regression: –Regressionsfunktion ist linear Nichtlineare Regression: –Regressionsfunktion ist nicht linear

50 50 Regressionsanalyse Einfachregression: –Beziehung zwischen 2 Variablen –Regressand: Y –Regressor: X Mehrfachregression = multiple Regression: –Beziehung zwischen 3 oder mehr Variablen –Regressand: Y –Regressoren: X 1, X 2, …, X k

51 51 Regressionsanalyse Lineare Einfachregression: –Lineare Regressionsfunktion (Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X. –Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x 1, …, x n und y 1, …, y n.

52 52 Regressionsanalyse Wahre Funktion: y i = α + βx i für i = 1, …, n –α … Absolutglied –β … Steigungsparameter Beobachtet wird: y i = y i + ε i für i = 1, …, n –ε i … Störterm, Realisationen einer Zufallsvariable Wahre Koeffizienten, Parameter der Grundgesamtheit

53 53 Regressionsanalyse Modell der linearen Einfachregression: y i = α + βx i + ε i für i = 1, …, n –α … Absolutglied –β … Steigungsparameter –ε i … Störterm

54 54 Regressionsanalyse Annahmen: (1)E(ε i ) = 0 für i=1,…,n (2)Var(ε i ) = σ² für i=1,…,n (Homoskedastizität) (3)Cov(ε i,ε j ) = 0 für alle i j (unkorrelierte Fehler) (4)x i nicht stochastisch (5)x i x j für mindestens ein i j

55 55 Regressionsanalyse Aus den Annahmen folgt für die abhängige Zufallsvariable Y i : –E(Y i ) = E(α + βx i + ε i ) = α + βx i + E(ε i ) = y i für i=1,…,n –Var(Y i ) = Var(ε i ) = σ² für i=1,…,n = 0

56 56 Regressionsanalyse Regressionsfunktion/-gerade: ŷ i = a + bx i für i = 1, …, n –a … Schätzer für Absolutglied –b … Schätzer für Steigungsparameter –ŷ i … Schätzer für Ausprägung y i von Y

57 57 Regressionsanalyse Abweichung zwischen den beobachteten Werten y i und den geschätzten Werten ŷ i : Residuen e i = y i – ŷ i = y i – (a + bx i )

58 58 Regressionsanalyse Regressionsgerade: –unendlich viele mögliche Geraden durch eine Punktwolke –Wähle jene, die die vorhandene Tendenz am besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

59 59 Regressionsanalyse Methode der Kleinsten Quadrate Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme) Wähle die Schätzer a und b für α und β so, dass S² minimal wird.

60 60 Regressionsanalyse

61 61 Regressionsanalyse Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte y i von den durch die Regressionsgerade an den Stellen x i bestimmten Werten ŷ i ).

62 62 Regressionsanalyse Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems: Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

63 63 Regressionsanalyse Kleinste Quadrate Schätzer für β: Kleinste Quadrate Schätzer für α: Kleinste Quadrate Regressionsfunktion:

64 64 Regressionsanalyse Eigenschaften der KQ Schätzer: –Summe der Residuen e i ist Null. –Summe x i e i ist Null. –Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte –Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke ( x, y).

65 65 Regressionsanalyse Quadratsummenzerlegung: Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. –Zu erklärende Variation: y i – y –Erklärte Variation: ŷ i – y –Nicht erklärte Variation: y i – ŷ i –(y i – y) = (ŷ i – y) + (y i – ŷ i ) für i=1,…,n

66 66 Regressionsanalyse

67 67 Regressionsanalyse Maß der Variation: Quadratsumme der Abweichungen SST = (y i – y)² –Sum of Squares Total SSE = (ŷ i – y)² –Sum of Squares Explained SSR = (y i – ŷ i )² –Sum of Squares Residual Es gilt: SST = SSE + SSR

68 68 Regressionsanalyse Einfaches Bestimmtheitsmaß: –Maß für die durch die lineare Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen r² = SSE / SST = 1 – SSR / SST –r² = Anteil der durch die Regressionsfunktion erklärten Variation an der zu erklärenden gesamten Variation.

69 69 Regressionsanalyse Es gilt: 0 r² 1 Extremfälle: –r² = 0 SSE = 0 ŷ i = ŷ (= y) für alle i, d.h. ŷ i hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag –r² = 1 SSE = SST SSR = 0 e i = 0 für alle i ŷ i = y i für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

70 70 Regressionsanalyse

71 71 Regressionsanalyse Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1] Extremfälle: –r = 0, d.h. fehlende Erklärung, fehlende Korrelation –r = 1, d.h. vollständige Erklärung, vollständige Korrelation r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.

72 72 Regressionsanalyse Eigenschaften der KQ Schätzer: Da y i Zufallsvariable sind, sind auch a und b Zufallsvariable. Erwartungswerte der KQ Schätzer: –E(b) = β –E(a) = α –D.h. a und b sind unverzerrte Schätzer

73 73 Regressionsanalyse Varianzen der KQ Schätzer: Beides sind theoretische Größen, da σ² (=Var(ε i )) unbekannt ist.

74 74 Regressionsanalyse Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

75 75 Regressionsanalyse Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

76 76 Regressionsanalyse Gauss-Markov-Theorem: –Einfaches lineares Regressionsmodell, –Es gelten Annahmen 1-5 Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) –Best: Var(b*) Var(b) –Linear: b* = c i y i –Unbiased: E(b*) = β –Analoge Aussage für Schätzer a* von α.

77 77 Regressionsanalyse Schätzung der Fehlervarianz σ² –Wären ε i beobachtbar, dann Schätzer für σ² = 1/n ε i ². –Aber: ε i nicht beobachtbar, daher σ² durch s² schätzen.

78 78 Regressionsanalyse Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

79 79 Regressionsanalyse Inferenz im linearen Regressionsmodell: –Ann (1-5) –Ann (6): ε i ~ N(0,σ²) Testprobleme: –Einseitig: z.B. H 0 : b = b* gegen H 1 : b > b* –Zweiseitig: H 0 : b = b* gegen H 1 : b b* Teststatistik:

80 80 Regressionsanalyse Verteilung der Teststatistik: –s b bekannt: T ~ N(0,1) –s b geschätzt: T ~ t n-2 Kritische Werte bestimmen Entscheidung: Lehne H 0 ab, wenn Teststatistik im kritischen Bereich liegt. Gleiche Vorgehensweise bei Tests für Schätzer a.

81 81 Regressionsanalyse Konfidenzintervall Regressionskoeffizienten Interzept: –Es gilt P(a – t s a α a + t s a ) = 1 – α –KI für α: [a – t s a ; a + t s a ] Steigungsparameter: –Es gilt P(b – t s b β b + t s b ) = 1 – α –KI für β: [b – t s b ; b + t s b ] t = t 1- α/2; n-2 (Werte der t-Verteilung)


Herunterladen ppt "1 STATISIK LV Nr.: 0028 SS 2005 6. Juni 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal."

Ähnliche Präsentationen


Google-Anzeigen