STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

Slides:



Advertisements
Ähnliche Präsentationen
Induktive Statistik: Regressionsanalyse
Advertisements

Forschungsstrategien Johannes Gutenberg Universität Mainz
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.
Der Zusammenhang metrischer Merkmale
Mehrfachregressionen
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
K. Desch - Statistik und Datenanalyse SS05
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Datenmatrix.
Korrelationskoeffizient nach Bravais-Pearson Eigenschaften X und Y unabhängig.
Datentabelle für 2 Merkmale
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Tutorium
Tutorium
(Gini-Koeffizient, Lorenz-Kurve)
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
Matrix-Algebra Grundlagen 1. Matrizen und Vektoren
Ausgleichungsrechnung I
Ausgleichungsrechnung II
STATISIK LV Nr.: 1375 SS März 2005.
Regionalisierte Variablen und Kriging
STATISIK LV Nr.: 1375 SS April 2005.
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Juni 2005.
Statistik: Mehr zur Regression.
STATISIK LV Nr.: 0028 SS Mai 2005.
Kapitel 13 Zeitreihen und Zeitreihen-Modelle
Kapitel 15 Instrumentvariablen- Schätzung
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005.
Kapitel 10 Multikollinearität
STATISIK LV Nr.: 1375 SS April 2005.
STATISIK LV Nr.: 1375 SS März 2005.
Kapitel 2 Das klassische Regressionsmodell
Lineare Restriktionen
Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen
Kapitel 19 Kointegration
Kapitel 3 Lineare Regression: Schätzverfahren
Ökonometrie I Variablenauswahl.
Bewertung von Regressionsbeziehungen
Kapitel 11 Heteroskedastizität
Einfache und multiple Regression
Annahmen des lineare Regressionsmodells
Kapitel 4 Annahmen des linearen Regressionsmodells
Ökonometrie I Modellvergleich (Übersicht) Ökonometrie I2 Vergleich von Modellen Fragestellungen für Modellvergleich 1.Fehlende Regressoren.
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Regression und Kollokation
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
Die einfache/multiple lineare Regression
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
STATISIK LV Nr.: 1375 SS März 2005.
 Gegenstandsbereich der Testtheorie: Analyse der Charakteristika von Tests:  Güte von Tests.  Struktur von Tests.  Schwierigkeit von Tests.  Gruppenunterschiede.
Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.
Die einfache/multiple lineare Regression
 Präsentation transkript:

STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006

Regressionsanalyse Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen. Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

Regressionsanalyse Abhängige Variable (Regressand): Y „zu erklärende Variable“ Unabhängige Variable/n (Regressor): X „erklärende Variable/n“ Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt. Regression von Y auf X, Y=f(X).

Regressionsanalyse Art der Beziehung zw. den Variablen? Welche Form hat die Regressionsfunktion? Antworten darauf aus: Theorie Empirische Beobachtung, z.B. Punktwolke zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

Regressionsanalyse Punktwolke Regressionsfunktion

Regressionsanalyse Lineare Regression: Nichtlineare Regression: Regressionsfunktion ist linear Nichtlineare Regression: Regressionsfunktion ist nicht linear

Regressionsanalyse Einfachregression: Beziehung zwischen 2 Variablen Regressand: Y Regressor: X Mehrfachregression = multiple Regression: Beziehung zwischen 3 oder mehr Variablen Regressoren: X1, X2, …, Xk

Regressionsanalyse Lineare Einfachregression: Lineare Regressionsfunktion (Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X. Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.

Regressionsanalyse Wahre Funktion: yi‘ = α + βxi für i = 1, …, n α … Absolutglied β … Steigungsparameter Beobachtet wird: yi = yi‘ + εi für i = 1, …, n εi … Störterm, Realisationen einer Zufallsvariable Wahre Koeffizienten, Parameter der Grundgesamtheit

Regressionsanalyse Modell der linearen Einfachregression: yi = α + βxi + εi für i = 1, …, n α … Absolutglied β … Steigungsparameter εi … Störterm

Regressionsanalyse Annahmen: E(εi) = 0 für i=1,…,n Var(εi) = σ² für i=1,…,n (Homoskedastizität) Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler) xi nicht stochastisch xi  xj für mindestens ein ij

Regressionsanalyse Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi‘ für i=1,…,n Var(Yi) = Var(εi) = σ² für i=1,…,n = 0

Regressionsanalyse Regressionsfunktion/-gerade: ŷi = a + bxi für i = 1, …, n a … Schätzer für Absolutglied b … Schätzer für Steigungsparameter ŷi … Schätzer für Ausprägung yi von Y

Regressionsanalyse Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)

Regressionsanalyse Regressionsgerade: unendlich viele mögliche Geraden durch eine Punktwolke Wähle jene, die die vorhandene Tendenz am besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

Regressionsanalyse Methode der Kleinsten Quadrate Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme) Wähle die Schätzer a und b für α und β so, dass S² minimal wird.

Regressionsanalyse

Regressionsanalyse Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).

Regressionsanalyse Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems: Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

Regressionsanalyse Kleinste Quadrate Schätzer für β: Kleinste Quadrate Regressionsfunktion:

Regressionsanalyse Eigenschaften der KQ Schätzer: Summe der Residuen ei ist Null. Summe xiei ist Null. Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).

Regressionsanalyse Quadratsummenzerlegung: Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. Zu erklärende Variation: yi –y Erklärte Variation: ŷi –y Nicht erklärte Variation: yi – ŷi (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n

Regressionsanalyse

Regressionsanalyse Maß der Variation: Quadratsumme der Abweichungen SST =  (yi –y)² Sum of Squares Total SSE =  (ŷi –y)² Sum of Squares Explained SSR =  (yi – ŷi)² Sum of Squares Residual Es gilt: SST = SSE + SSR

Regressionsanalyse Einfaches Bestimmtheitsmaß: Maß für die durch die lineare Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen r² = SSE / SST = 1 – SSR / SST r² = Anteil der durch die Regressionsfunktion erklärten Variation an der zu erklärenden gesamten Variation.

Regressionsanalyse Es gilt: 0 ≤ r² ≤ 1 Extremfälle: r² = 0  SSE = 0  ŷi =ŷ (=y) für alle i, d.h. ŷi hängt nicht von i ab  b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag r² = 1  SSE = SST  SSR = 0  ei = 0 für alle i  ŷi = yi für alle i  die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

Regressionsanalyse

Regressionsanalyse Linearer Einfachkorrelationskoeffizient: r = + r² und r  [0 ; 1] Extremfälle: r = 0, d.h. fehlende Erklärung, fehlende Korrelation r = 1, d.h. vollständige Erklärung, vollständige Korrelation r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.

Regressionsanalyse Eigenschaften der KQ Schätzer: Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable. Erwartungswerte der KQ Schätzer: E(b) = β E(a) = α D.h. a und b sind unverzerrte Schätzer

Regressionsanalyse Varianzen der KQ Schätzer: Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.

Regressionsanalyse Kovarianz der KQ Schätzer: Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

Regressionsanalyse Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β? Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

Regressionsanalyse Gauss-Markov-Theorem: Einfaches lineares Regressionsmodell, Es gelten Annahmen 1-5 Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator) Best: Var(b*)  Var(b) Linear: b* =ciyi Unbiased: E(b*) = β Analoge Aussage für Schätzer a* von α.

Regressionsanalyse Schätzung der Fehlervarianz σ² Wären εi beobachtbar, dann Schätzer für σ² = 1/n εi². Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.

Regressionsanalyse Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

Regressionsanalyse Inferenz im linearen Regressionsmodell: Ann (1-5) Ann (6): εi ~ N(0,σ²) Testprobleme: Einseitig: z.B. H0: b = b* gegen H1: b > b* Zweiseitig: H0: b = b* gegen H1: b  b* Teststatistik:

Regressionsanalyse Verteilung der Teststatistik: sb bekannt: T ~ N(0,1) sb geschätzt: T ~ tn-2 Kritische Werte bestimmen Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt. Gleiche Vorgehensweise bei Tests für Schätzer a.

Regressionsanalyse Konfidenzintervall Regressionskoeffizienten Interzept: Es gilt P(a – t sa  α  a + t sa) = 1 – α KI für α: [a – t sa; a + t sa] Steigungsparameter: Es gilt P(b – t sb  β  b + t sb) = 1 – α KI für β: [b – t sb; b + t sb] t = t1- α/2; n-2 (Werte der t-Verteilung)

Regressionsanalyse F-Test Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

Regressionsanalyse Mittlere erklärte Quadratsumme: MSE = SSE / 1 Mittlere nicht erklärte Quadratsumme: MSR = SSR / (n – 2) Teststatistik: F = MSE / MSR F ~ F1;n-2;1-α

Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) Modell: Y = α + Xβ + ε Parameterschätzer: a = -105,75, b = 0,98 Regressionsfunktion: Ŷ = -105,75 + 0,98X Interpretation der Koeffizienten: a = -105,75: Verschiebung b = 0,98: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! Bestimmtheitsmaß: 0,577 Korrelationskoeffizient: 0,759

Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) Koeffiziententests (t-Tests): H0: α = 0 ablehnen (p-Wert < 0,05) => α  0 H0: β = 0 ablehnen (p-Wert < 0,05) => β  0 F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

Regressionsanalyse Prognose Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. Schätzung des Erwartungswertes E(yf) an der Stelle xf. Schätzung eines Einzelwertes yf an der Stelle xf.

Regressionsanalyse Geg. xf (weiterer Wert von X) Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf. Weitere Annahmen: yf = α + βxf + εf E(εf) = 0 E(εf²) = σ² Cov(εf, εi) = 0 xf nicht stochastisch

Regressionsanalyse Parameter α und β bekannt: Parameter unbekannt. Prognose der Einzelwerte: yf = α + βxf Prognose des Erwartungswertes: E(yf) = α + βxf Parameter unbekannt. Prognose der Einzelwerte: ŷf = a + bxf ŷf ist ein unverzerrter Prediktor für yf Prognose des Erwartungswertes: E(ŷf ) = a + bxf ŷf ist ein unverzerrter Prediktor für E(yf)

Regressionsanalyse Prognose Erwartungswert: E(ŷf ) = a + bxf Varianz des durchschnittlichen Prognosewertes sŷf²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

Regressionsanalyse Prognose Einzelwert: ŷf = a + bxf Prognosefehler: ef = yf – ŷf Varianz des individuellen Prognosefehlers sf²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

Regressionsanalyse Zusätzlich Ann: Störvariable εf ~ N(0,σ²) 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α/2;n-2 1-α Prognoseintervall für ŷf: [ŷf – t sf ; ŷf + t sf]

Regressionsanalyse Residuenanalyse Ex-post Überprüfung der Modellannahmen. Ann 1: E(εi) = 0 Ann 2: Var(εi) = σ² Ann 3: Cov(εi,εj) = 0

Regressionsanalyse Grafische Residualanalyse Residuen der KQ Schätzer: ei = yi – ŷi Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) Streudiagramm: Residuen gegen Ŷ (Prognosewerte). Es gilt: ei = 0 und arithm. Mittel der ei = 0

Regressionsanalyse Residuen gegen X:

Regressionsanalyse Residuen gegen Ŷ:

Regressionsanalyse Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

Regressionsanalyse Ann. linearen Regressionsfunktion verletzt.

Regressionsanalyse Streudiagramm: ei gegen ei-1 Autokorrelation der Residuen

Regressionsanalyse Normalverteilung der εi: QQ-Plot Empirische- und Theoretische Quantile

Regressionsanalyse Linear Mehrfachregression Modell: Eine abhängige Variabel Y Mehrere unabhängige Variabeln x1,…,xk-1. Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n β0 … Absolutglied, Interzept βj … Steigungsparameter (j=1,…,k-1) xj … unabhängige Variable (j = 1,…,k-1) εi … Störterm, zufälliger Fehler

Regressionsanalyse Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. Abhängige Variable: Y = Größe, Unabhängige Variablen: X1 = Größe Mutter und X2 = Größe Vater Modell: yi = β0 + β1x1 + β2x2 + εi

Regressionsanalyse Matrixschreibweise: Y = Xβ + ε Y … n1 Vektor der abhängigen Variable X … nk Matrix der unabhängigen Variable, X=[1:Xj] mit j=1,…,k-1 β … k1 Parametervektor, β=[β0:βj]´ mit j=1,…,k-1 ε … n1 Vektor der zufälligen Störungen

Regressionsanalyse Annahmen: E(ε) = 0 Var(ε) = σ² Cov(ε) = E(εε´) = σ²I X nicht stochastisch rang(X) = k (X sind nicht linear abhängig)

Regressionsanalyse Kleinste Quadrate Schätzung: Minimierung der Abweichungsquadratsumme (Y-Xb)‘(Y-Xb) = (yi-xi.b)²  min

Regressionsanalyse Normalengleichungssystem: (X´X)b = X´y Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X)-1X´y b … k1 Vektor der Schätzer

Regressionsanalyse Konsequenzen aus den Normalgleichungen: X‘e = 0 e = MY mit M = I – X(X‘X)-1X‘

Regressionsanalyse Statistische Eigenschaften: E(e) = 0 VC(e) = σ²M ( σ²I = VC(ε)) E(b) = β VC(b) = σ²(X‘X)

Regressionsanalyse Schätzung von σ²: E(s²) = σ² Schätzung der Varianz-Kovarianz Matrix von b: VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))

Regressionsanalyse Gauss-Markov Theorem: Y=Xβ+ε Es gelten Ann. 1-4 und β k ist beliebig b* sei ein linearer unverzerrter Schätzer für β VC(b)  VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. Var(bi)  Var(bi*) für alle i = 1, ..., k Man sagt: b ist BLUE c‘b ist der BLUE für die Linearkombination c‘β

Regressionsanalyse Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist. Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

Regressionsanalyse Tests der Regressionskoeffizienten: Einseitige Hypothesen: H0: βi  β* (z.B. 0) gegen H1: βi < β* H0: βi  β* (z.B. 0) gegen H1: βi > β* Zweiseitige Hypothese: H0: βi = β* (z.B. 0) gegen H1: βi  β*

Regressionsanalyse Teststatistik: Testverteilung: T = (bi - β*) / sbi Testverteilung: T ~ tn-k Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.

Regressionsanalyse Konfidenzintervalle der Parameter: Wahrscheinlichkeitsintervall: P(bi – t sbi  β  bi + t sbi) = 1 – α für i = 1,...,k Konfidenzintervall: [bi – t sbi ; bi + t sbi] für i = 1,...,k mit t = t1- α/2;n-k

Regressionsanalyse Beispiel Körpergröße: Modell: Y = β0 + β1X1 + β2X2 Parameterschätzer und p-Werte: b0 = 81,24; p-Wert = 0,015 b1 = 0,545; p-Wert = 0,005 b2 = 0,008; p-Wert = 0,87 Körpergröße der Mutter hat einen positiven Einfluss auf die Körpergröße des Kindes

Regressionsanalyse Quadratsummen: Quadratsummenzerlegung: SST = (yi -y)² = nsy² = Y‘AY SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ SSR = ei² = ns² = e‘Ae wobei A = (In – (1/n)ii‘) Quadratsummenzerlegung: SST = SSE + SSR

Regressionsanalyse F-Test: Mittlere quadratische Abweichungen: Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht. H0: β2 = β3 = … = βk = 0 Mittlere quadratische Abweichungen: MQE = SSE / (k-1) MQR = SSR / (n-k)

Regressionsanalyse Teststatistik: Entscheidung: F = MQE / MQR F ~ F(k-1),(n-k) Entscheidung: F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

Regressionsanalyse Lineares multiples Bestimmtheitsmaß: R² = SSE / SST = 1 – SSR / SST Es gilt: 0  R²  1 Linearer multipler Korrelationskoeffizient: r = +R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

Regressionsanalyse Lineares partielles Bestimmtheitsmaß: Regressoren X2, ...,Xk: r²Y,X2,...,Xk = SSE(X2,...,Xk) / SST Zusätzliche erklärende Variable Xk+1, also Regressoren X2, ...,Xk,Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,...,Xk,Xk+1) – SSE(X2,...,Xk) = (r²Y,X2,...,Xk,Xk+1 – r²Y,X2,...,Xk) SST

Regressionsanalyse Lineares partielles Bestimmtheitsmaß: Quotient der zusätzlichen erklärten Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme: r²Y(k+1),X2,...,Xk = SSE(Xk+1|X2,...,Xk) / SSR(X2,...,Xk) = (r²Y,X2,...,Xk+1 – r²Y,X2,...,Xk) / (1 – r²Y,X2,...,Xk) wobei SSR(X2,...,Xk) = SST – SSE(X2,...,Xk)

Regressionsanalyse Partieller F-Test: f = MQE(Xk+1|X2,...,Xk) / MQR(X2,...,Xk,Xk+1) MQE(Xk+1|X2,...,Xk)=SSE(Xk+1|X2,...,Xk) MQR(X2,...,Xk+1)=SSR(X2,...,Xk+1)/(n-(k+1)) f ~ F1,n-(k+1)

Regressionsanalyse Adjusted R²: berücksichtigt die Anzahl der Koeffizienten adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R² Es gilt: (1-k)/(n-k)  adj. R²  1

Regressionsanalyse Variablenselektion: Kriterium? Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden? Kriterium? R² => Wähle Modell mit größten R² => immer Modell mit allen möglichen Variablen – Unsinn! Adj. R² => Wähle Modell mit dem größten Wert des korrigierten Bestimmtheitsmaßes. AIC, BIC => Wähle Modell mit kleinsten Wert von AIC (Akaike‘s Information Criterion) bzw. BIC (Bayesian Information Criterion)

Regressionsanalyse Vorwärtsauswahl Einfachregressionen zw. Y und Xi (i=2,…,k) Sind alle Variablen nicht signifikant, Abbruch. Sind einige Variablen signifikant, wählt jene mit dem höchsten F-Wert. Variable mit höchstem partiellen F-Wert (und > als ein kritischer Wert) ins Modell aufnehmen usw.

Regressionsanalyse Rückwärtsauswahl Umkehrung des Verfahrens der Vorwärt- Selektion. Modell mit allen erklärenden Variablen Sind alle Variablen signifikant, Modell mit allen Variablen. Sind Variable nicht signifikant, schließe jene mit dem kleinsten partiellen F-Wert aus. usw.

Regressionsanalyse Schrittweise Auswahl Prüfe ob ein linearer Zusammenhang vorliegt Wähle jene Variable mit dem höchsten linearen Einfachkorrelationskoeffizienten. Wähle jene Variable mit dem höchsten signifikanten partiellen F-Wert Prüfe alle Variablen im Modell auf Signifikanz, bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen. usw.

Regressionsanalyse Prognose: Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. Schätzung des Erwartungswertes E(yf) Schätzung eines Einzelwertes yf an der Stelle xf.

Regressionsanalyse Geg. xf. (weitere Werte von X) Ges. zugehöriger Wert yf von Y und/oder mittleres Verhalten E(yf) = xf.b Weitere Annahmen: yf = xf.β + εf E(εf) = 0 E(εf²) = σ² E(εf ,εi) = 0 für alle i = 1,…,n xf. nicht stochastisch

Regressionsanalyse Parameter bekannt: Parameter unbekannt: Prognose der Einzelwerte: ŷf = xf.β Prognose des Erwartungswertes: E(ŷf) = xf.β Parameter unbekannt: Prognose der Einzelwerte: ŷf = xf.b ŷf ist ein unverzerrter Prediktor für yf Prognose des Erwartungswertes: E(ŷf) = xf.b E(ŷf)ist ein unverzerrter Prediktor für E(yf)

Regressionsanalyse Prognose Erwartungswert E(ŷf) = xf.β Varianz des durchschnittlichen Prognosewertes sŷf² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

Regressionsanalyse Prognose Einzelwert ŷf = xf.β Prognosefehler: ef = yf – ŷf Varianz des individuellen Prognosewertes sf² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

Regressionsanalyse 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α;n-2 1-α Prognoseintervall für ŷf: [ŷf – t syf ; ŷf + t syf]

Regressionsanalyse Nichtlineare Regression: Nichtlineare Regressionsfunktion Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

Regressionsanalyse Nichtlinearer Einfachregression als lineare Zweifachregression ansehen z.B. yi= β1+β2xi+ β3xi² +εi setze x=x1 und x²=x2, und interpretiere yi= b1+b2x1i+ b3x2i im Sinne der linearen Zweifachregression Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse z.B. Potenzfunktion: yi = β1·xiβ2·εi Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(yi)=log(β1)+β2log(xi)+log(εi)