STATISIK LV Nr.: 1375 SS 2005 19. April 2005.

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Induktive Statistik: Regressionsanalyse
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Workshop zur Medienarbeit der katholischen Kirche Aspekte des Religionsmonitors Berlin, 02. April 2008.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Forschungsstatistik II
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Mehrfachregressionen
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Hypothesen testen: Grundidee
Astronomisch, Physikalische und Mathematische Geodäsie II
AC Analyse.
Studienverlauf im Ausländerstudium
Konfidenzintervalle Intervallschätzung
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
Tutorium
Tutorium
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Eigenschaften der OLS-Schätzer
Einfache Regressionsgleichung
Multikollinearität Wann spricht man von Multikollinearität?
Wiederholung: Einfache Regressionsgleichung
20:00.
Kapitel 15 Instrumentvariablen- Schätzung
STATISIK LV Nr.: 0028 SS Juni 2005.
STATISIK LV Nr.: 1375 SS April 2005.
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Juni 2005.
Statistik: Mehr zur Regression.
STATISIK LV Nr.: 0028 SS Mai 2005.
Kapitel 15 Instrumentvariablen- Schätzung
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
STATISIK LV Nr.: 0021 WS 2005/06 3. November 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 0021 WS 2005/06 8. November 2005.
STATISIK LV Nr.: 1375 SS März 2005.
Kapitel 2 Das klassische Regressionsmodell
Kapitel 18 Dynamische Modelle: Schätzen der Parameter
Kapitel 5 Statistische Bewertung von Regressionsbezie-hungen
Bewertung von Regressionsbeziehungen
Einfache und multiple Regression
STATISIK LV Nr.: 0021 WS 2005/ November 2005.
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Symmetrische Blockchiffren DES – der Data Encryption Standard
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 STATISIK LV Nr.: 0021 WS 2005/ November 2005.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Mathematical Programming Nichtlineare Programmierung.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Die einfache/multiple lineare Regression
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
STATISIK LV Nr.: 1852 WS 2005/ Jänner 2006.
setzt Linearität des Zusammenhangs voraus
Die einfache/multiple lineare Regression
STATISIK LV Nr.: 1375 SS März 2005.
 Präsentation transkript:

STATISIK LV Nr.: 1375 SS 2005 19. April 2005

Regressionsanalyse Lineare Einfachregression: 2 metrisch skalierte Variablen Y, X Modell: yi = α + βxi + εi Regressionsfunktion: ŷi = a + bxi Schätzung: min. Residual-Quadratsumme KQ-Schätzer a und b: BLUE Tests für a und b: t-Tests

Regressionsanalyse F-Test Hypothese: Kein Zusammenhang zwischen den Variablen X und Y in der Grundgesamtheit Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

Regressionsanalyse Mittlere erklärte Quadratsumme: MSE = SSE / 1 Mittlere nicht erklärte Quadratsumme: MSR = SSR / (n – 2) Teststatistik: F = MSE / MSR F ~ F1;n-2;1-α

Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) Modell: Y = α + Xβ + ε Parameterschätzer: a = -95,89, b = 0,93 Regressionsfunktion: Ŷ = -95,89 + 0,93X Interpretation der Koeffizienten: a = -95,89: Verschiebung b = 0,93: Steigung, steigt X um eine Einheit (1cm), steigt Y um 0,93 Einheiten (kg). Vorsicht: Umkehrung gilt nicht! Bestimmtheitsmaß: 0,597 Korrelationskoeffizient: 0,77

Regressionsanalyse Beispiel: Körpergröße (X), Gewicht (Y) Koeffiziententests (t-Tests): H0: α = 0 ablehnen (p-Wert < 0,05) => α  0 H0: β = 0 ablehnen (p-Wert < 0,05) => β  0 F-Test: H0 ablehnen (Prüfgröße > kritischer Wert) => Zusammenhang zw. den Variablen

Regressionsanalyse Prognose Ziel: bei gegebenen Werten der unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. Schätzung des Erwartungswertes E(yf) an der Stelle xf. Schätzung eines Einzelwertes yf an der Stelle xf.

Regressionsanalyse Geg. xf (weiterer Wert von X) Ges. zugehöriger Wert yf von Y und/oder „mittleres“ Verhalten E(yf) = a + bxf. Weitere Annahmen: yf = α + βxf + εf E(εf) = 0 E(εf²) = σ² Cov(εf, εi) = 0 xf nicht stochastisch

Regressionsanalyse Parameter α und β bekannt: Parameter unbekannt. Prognose der Einzelwerte: yf = α + βxf Prognose des Erwartungswertes: E(yf) = α + βxf Parameter unbekannt. Prognose der Einzelwerte: ŷf = a + bxf ŷf ist ein unverzerrter Prediktor für yf Prognose des Erwartungswertes: E(ŷf ) = a + bxf ŷf ist ein unverzerrter Prediktor für E(yf)

Regressionsanalyse Prognose Erwartungswert: E(ŷf ) = a + bxf Varianz des durchschnittlichen Prognosewertes sŷf²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

Regressionsanalyse Prognose Einzelwert: ŷf = a + bxf Prognosefehler: ef = yf – ŷf Varianz des individuellen Prognosefehlers sf²: Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

Regressionsanalyse Zusätzlich Ann: Störvariable εf ~ N(0,σ²) 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α/2;n-2 1-α Prognoseintervall für ŷf: [ŷf – t sf ; ŷf + t sf]

Regressionsanalyse Residuenanalyse Ex-post Überprüfung der Modellannahmen. Ann 1: E(εi) = 0 Ann 2: Var(εi) = σ² Ann 3: Cov(εi,εj) = 0

Regressionsanalyse Grafische Residualanalyse Residuen der KQ Schätzer: ei = yi – ŷi Streudiagramm: Residuen gegen X (Werte der unabhängige Variable) Streudiagramm: Residuen gegen Ŷ (Prognosewerte). Es gilt: ei = 0 und arithm. Mittel der ei = 0

Regressionsanalyse Residuen gegen X:

Regressionsanalyse Residuen gegen Ŷ:

Regressionsanalyse Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

Regressionsanalyse Ann. linearen Regressionsfunktion verletzt.

Regressionsanalyse Streudiagramm: ei gegen ei-1 Autokorrelation der Residuen

Regressionsanalyse Normalverteilung der εi: QQ-Plot Empirische- und Theoretische Quantile

Regressionsanalyse Linear Mehrfachregression Modell: Eine abhängige Variabel Y Mehrere unabhängige Variabeln x1,…,xk-1. Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n β0 … Absolutglied, Interzept βj … Steigungsparameter (j=1,…,k-1) xj … unabhängige Variable (j = 1,…,k-1) εi … Störterm, zufälliger Fehler

Regressionsanalyse Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. Abhängige Variable: Y = Größe, Unabhängige Variablen: X1 = Größe Mutter und X2 = Größe Vater Modell: yi = β0 + β1x1 + β2x2 + εi

Regressionsanalyse Matrixschreibweise: Y = Xβ + ε Y … n1 Vektor der abhängigen Variable X … nk Matrix der unabhängigen Variable, X=[1:Xj] mit j=1,…,k-1 β … k1 Parametervektor, β=[β0:βj]´ mit j=1,…,k-1 ε … n1 Vektor der zufälligen Störungen

Regressionsanalyse Annahmen: E(ε) = 0 Var(ε) = σ² Cov(ε) = E(εε´) = σ²I X nicht stochastisch rang(X) = k (X sind nicht linear abhängig)

Regressionsanalyse Kleinste Quadrate Schätzung: Minimierung der Abweichungsquadratsumme (Y-Xb)‘(Y-Xb) = (yi-xi.b)²  min

Regressionsanalyse Normalengleichungssystem: (X´X)b = X´y Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X)-1X´y b … k1 Vektor der Schätzer

Regressionsanalyse Konsequenzen aus den Normalgleichungen: X‘e = 0 e = MY mit M = I – X(X‘X)-1X‘

Regressionsanalyse Statistische Eigenschaften: E(e) = 0 VC(e) = σ²M ( σ²I = VC(ε)) E(b) = β VC(b) = σ²(X‘X)

Regressionsanalyse Schätzung von σ²: E(s²) = σ² Schätzung der Varianz-Kovarianz Matrix von b: VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))

Regressionsanalyse Gauss-Markov Theorem: Y=Xβ+ε Es gelten Ann. 1-4 und β k ist beliebig b* sei ein linearer unverzerrter Schätzer für β VC(b)  VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. Var(bi)  Var(bi*) für alle i = 1, ..., k Man sagt: b ist BLUE c‘b ist der BLUE für die Linearkombination c‘β

Regressionsanalyse Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist. Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

Regressionsanalyse Tests der Regressionskoeffizienten: Einseitige Hypothesen: H0: βi  β* (z.B. 0) gegen H1: βi < β* H0: βi  β* (z.B. 0) gegen H1: βi > β* Zweiseitige Hypothese: H0: βi = β* (z.B. 0) gegen H1: βi  β*

Regressionsanalyse Teststatistik: Testverteilung: T = (bi - β*) / sbi Testverteilung: T ~ tn-k Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.

Regressionsanalyse Konfidenzintervalle der Parameter: Wahrscheinlichkeitsintervall: P(bi – t sbi  β  bi + t sbi) = 1 – α für i = 1,...,k Konfidenzintervall: [bi – t sbi ; bi + t sbi] für i = 1,...,k mit t = t1- α/2;n-k

Regressionsanalyse Beispiel Körpergröße: Modell: Y = β0 + β1X1 + β2X2 Parameterschätzer und p-Werte: b0 = -28,26; p-Wert = 0,657 b1 = 0,277; p-Wert = 0,292 b2 = 0,871; p-Wert = 0,002 Körpergröße des Vaters hat einen positiven Einfluss auf die Körpergröße des Kindes

Regressionsanalyse Quadratsummen: Quadratsummenzerlegung: SST = (yi -y)² = nsy² = Y‘AY SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ SSR = ei² = ns² = e‘Ae wobei A = (In – (1/n)ii‘) Quadratsummenzerlegung: SST = SSE + SSR

Regressionsanalyse F-Test: Mittlere quadratische Abweichungen: Prüft, ob zw. der abhängigen Variable Y und den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht. H0: β2 = β3 = … = βk = 0 Mittlere quadratische Abweichungen: MQE = SSE / (k-1) MQR = SSR / (n-k)

Regressionsanalyse Teststatistik: Entscheidung: F = MQE / MQR F ~ F(k-1),(n-k) Entscheidung: F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine lineare Abhängigkeit zw. Y und X.

Regressionsanalyse Lineares multiples Bestimmtheitsmaß: R² = SSE / SST = 1 – SSR / SST Es gilt: 0  R²  1 Linearer multipler Korrelationskoeffizient: r = +R², absolute Größe (unterschiedliche Vorzeichen der einzelnen Koeffizienten mögl.)

Regressionsanalyse Lineares partielles Bestimmtheitsmaß: Regressoren X2, ...,Xk: r²Y,X2,...,Xk = SSE(X2,...,Xk) / SST Zusätzliche erklärende Variable Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,...,Xk) – SSE(X2,...,Xk,Xk+1) = (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) SST

Regressionsanalyse Lineares partielles Bestimmtheitsmaß: Quotient der zusätzlichen erklärten Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme: r²Y(k+1),X2,...,Xk = SSE(Xk+1|X2,...,Xk) / SSR(X2,...,Xk) = (r²Y,X2,...,Xk – r²Y,X2,...,Xk,Xk+1) / (1 – r²Y,X2,...,Xk) wobei SSR(X2,...,Xk) = SST – SSE(X2,...,Xk)

Regressionsanalyse Partieller F-Test: f = MQE(Xk+1|X2,...,Xk) / MQR(X2,...,Xk,Xk+1) MQE(Xk+1|X2,...,Xk)=SSE(Xk+1|X2,...,Xk)/(k-2) MQR(X2,...,Xk+1)=SSR(X2,...,Xk+1)/(n-k) f ~ F(k-2),(n-k)

Regressionsanalyse Adjusted R²: berücksichtigt die Anzahl der Koeffizienten adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R² Es gilt: (1-k)/(n-k)  adj. R²  1

Regressionsanalyse Variablenselektion: Kriterium? Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden? Kriterium? R² => Wähle Modell mit größten R² => immer Modell mit allen möglichen Variablen – Unsinn! Adj. R² => Wähle Modell mit dem größten Wert des korrigierten Bestimmtheitsmaßes. AIC, BIC => Wähle Modell mit kleinsten Wert von AIC (Akaike‘s Information Criterion) bzw. BIC (Bayesian Information Criterion)

Regressionsanalyse Vorwärtsauswahl Einfachregressionen zw. Y und Xi (i=2,…,k) Sind alle Variablen nicht signifikant, Abbruch. Sind einige Variablen signifikant, wählt jene mit dem höchsten F-Wert. Variable mit höchstem partiellen F-Wert (und > als ein kritischer Wert) ins Modell aufnehmen usw.

Regressionsanalyse Rückwärtsauswahl Umkehrung des Verfahrens der Vorwärt- Selektion. Modell mit allen erklärenden Variablen Sind alle Variablen signifikant, Modell mit allen Variablen. Sind Variable nicht signifikant, schließe jene mit dem kleinsten partiellen F-Wert aus. usw.

Regressionsanalyse Schrittweise Auswahl Prüfe ob ein linearer Zusammenhang vorliegt Wähle jene Variable mit dem höchsten linearen Einfachkorrelationskoeffizienten. Wähle jene Variable mit dem höchsten signifikanten partiellen F-Wert Prüfe alle Variablen im Modell auf Signifikanz, bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen. usw.

Regressionsanalyse Prognose: Ziel: bei gegebenen Werten der unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. Schätzung des Erwartungswertes E(yf) Schätzung eines Einzelwertes yf an der Stelle xf.

Regressionsanalyse Geg. xf. (weitere Werte von X) Ges. zugehöriger Wert yf von Y und/oder mittleres Verhalten E(yf) = xf.b Weitere Annahmen: yf = xf.β + εf E(εf) = 0 E(εf²) = σ² E(εf ,εi) = 0 für alle i = 1,…,n xf. nicht stochastisch

Regressionsanalyse Parameter bekannt: Parameter unbekannt: Prognose der Einzelwerte: ŷf = xf.β Prognose des Erwartungswertes: E(ŷf) = xf.β Parameter unbekannt: Prognose der Einzelwerte: ŷf = xf.b ŷf ist ein unverzerrter Prediktor für yf Prognose des Erwartungswertes: E(ŷf) = xf.b E(ŷf)ist ein unverzerrter Prediktor für E(yf)

Regressionsanalyse Prognose Erwartungswert E(ŷf) = xf.β Varianz des durchschnittlichen Prognosewertes sŷf² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

Regressionsanalyse Prognose Einzelwert ŷf = xf.β Prognosefehler: ef = yf – ŷf Varianz des individuellen Prognosewertes sf² Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

Regressionsanalyse 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf] t = t1-α;n-2 1-α Prognoseintervall für ŷf: [ŷf – t syf ; ŷf + t syf]

Regressionsanalyse Nichtlineare Regression: Nichtlineare Regressionsfunktion Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

Regressionsanalyse Nichtlinearer Einfachregression als lineare Zweifachregression ansehen z.B. yi= β1+β2xi+ β3xi² +εi setze x=x1 und x²=x2, und interpretiere yi= b1+b2x1i+ b3x2i im Sinne der linearen Zweifachregression Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse z.B. Potenzfunktion: yi = β1·xiβ2·εi Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(yi)=log(β1)+β2log(xi)+log(εi)

Nichtparametrische ANOVA Kruskal-Wallis Test Unterscheiden sich die Mittelwerte von p Messreihen (n1, …, np)? Voraussetzungen: Stetige Verteilung der Messreihen Mindestens Ordinalskala Setzt weder Normalverteilung, noch Varianzhomogenität voraus. Hypothese: H0: Mittelwerte der p Messreihen sind gleich H1: Mittelwerte unterscheiden sich

Nichtparametrische ANOVA Vorgehensweise: N Messwerten X11, …, Xpnp werden Rangzahlen rij zugewiesen. Summe der Ränge der einzelnen Messreihen berechnen: Bindungen (mehrere Messwerte sind gleich): Mittelwert der Ränge

Nichtparametrische ANOVA Prüfgröße: g … Anzahl der verschiedenen Messwerte t … wie oft tritt ein Messwert auf Treten keine Bindungen auf, ist B = 1

Nichtparametrische ANOVA Entscheidung: H0 ablehnen, wenn H > hp(n1,…,np);1-α h … kritische Werte (Tabelle, z.B. Hartung S. 615) Approximation durch χ²p-1,1-α Verteilung: H0 ablehnen, wenn H > χ²p-1,1-α (Quantile der χ² Verteilung)