Relationen zwischen metrischen Merkmalen Statistik: 28.10.04 Relationen zwischen metrischen Merkmalen
Beispiel: Wohnungsmarkt Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m2) Angebotspreis (1000 EUR) Fläche 122 71 125 45 100 63 194 85 Preis 530 410 480 170 315 455 885 400 164 119 140 109 40 62 84 65 900 550 790 810 390 440 300 385 28.10.04 PI Statistik, WS 2004/05 (5)
Wohnungsmarkt Punkte- oder Streudiagramm (scatterplot) 28.10.04 PI Statistik, WS 2004/05 (5)
Randverteilungen Fläche der Wohnung (m2) Preis (1000 EUR) 28.10.04 PI Statistik, WS 2004/05 (5)
Randverteilungen Kenngrößen Fläche Preis Mittelwert 99,3 513,1 Standardfehler 10,8 54,8 Median 92,5 447,5 Standardabweichung 43,3 219,3 Stichprobenvarianz 1870,6 48109,6 Kurtosis -0,049 -0,547 Schiefe 0,651 0,663 Wertebereich 154 730 Minimum 40 170 Maximum 194 900 Anzahl 16 Kenngrößen 28.10.04 PI Statistik, WS 2004/05 (5)
Standardisieren Merkmal X : x1, …, xn Stichprobenkennzahlen: Standardisierte Daten: z1, …, zn 28.10.04 PI Statistik, WS 2004/05 (5)
Beispiel: Wohnungsmarkt Standardisierte Daten: Preis Fläche 28.10.04 PI Statistik, WS 2004/05 (5)
Korrelationskoeffizient Produkt-Moment Korrelationskoeffizient: oder mit der Kovarianz Beispiel: Fläche (X) und Preis (Y) von angebotenen Wohnungen: sxy = 7342.34, sx= 43.3, sy= 219.3 r = 0.826 28.10.04 PI Statistik, WS 2004/05 (5)
Korrelationskoeffizient Korrelationskoeffizient ist ein (durch das Standardi-sieren) normiertes Maß für den linearen Zusam-menhang Eigenschaften: -1 ≤ r ≤ 1 |r| ist Maß für die Stärke des linearen Zusammenhanges |r|=1: perfekte lineare Abhängigkeit |r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1) um Gerade Sign(r) ist Maß für Richtung des linearen Zusammenhanges Sign(r)=1: steigende Gerade Sign(r)=-1: fallende Gerade 28.10.04 PI Statistik, WS 2004/05 (5)
Beziehungen: Beispiele 0.997 -0.977 -0.289 -0.067 28.10.04 PI Statistik, WS 2004/05 (5)
Rang Korrelationskoeffizient nach Spearman Korrelationsmaß für ordinale Merkmale Auch anwendbar auf Rangzahlen für metrische Merkmale Definition wie Produkt-Moment Korrelationskoeffizient rxy, angewendet auf die Ränge der Beobachtungen 28.10.04 PI Statistik, WS 2004/05 (5)
Berechnung von r sp Sortieren der Stichprobenpaare (xi, yi) nach steigenden Werten von X Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen (i, Ri) Einsetzen in Formel für Produkt-Moment Korrelationskoeffizient r : Alternative Schreibweise: 28.10.04 PI Statistik, WS 2004/05 (5)
Beispiel: Schulnoten r sp = 0.430 Math Engl 3 4 1 2 Math Engl 1 2 1,5 3,5 3 6,5 4 5 6 7 8 9,5 9 10 r sp = 0.430 28.10.04 PI Statistik, WS 2004/05 (5)
Typen von Beziehungen zwischen Merkmalen Kausaler Zusammenhang Wenn es kalt ist, steigen die Heizkosten Rauchen macht Lungenkrebs Gemeinsame Response Die fleißige Studentin bekommt viele gute Noten Zahl der Babys und der Störche wird weniger Vermengung (confounding) Sloppy lifestyle Hypothese und Lungenkrebs 28.10.04 PI Statistik, WS 2004/05 (5)
Typen von Beziehungen zwischen zwei Merkmalen x und y x y x y x y z z x ist kausal für y z z x, y sind gemeinsame Response auf z y: Effekte von x und z sind vermengt 28.10.04 PI Statistik, WS 2004/05 (5)
Vorsicht! Die Interpretation von Korrelation als kausale Beziehung ist oft eine Fehlinterpretation! Zahl der Babys und der Störche sind hoch positiv korreliert!? Einkommen und Konsum sind hoch positiv korreliert Ausreißer haben großen Effekt auf den Wert des Korrelationskoeffizienten Nicht-lineare Beziehungen! 28.10.04 PI Statistik, WS 2004/05 (5)
Lineare Regression Gerade, die die Datenwolke im Streudiagramm bzw. die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiert Wohnungsmarkt: Daten und Regressionsgerade 28.10.04 PI Statistik, WS 2004/05 (5)
Lineare Regression, Forts. Abhängiges Merkmal: Y Unabhängiges Merkmal: X Regressionsgerade: Y = a + b X a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept) Methode der kleinsten Quadrate: Wähle die Koeffizienten so, dass die Summe der quadrierten Abstände zwischen Beobachtungen und der Geraden minimiert werden Schätzer: 28.10.04 PI Statistik, WS 2004/05 (5)
Wohnungsmarkt, Forts. Geschätzte Regressionsgerade 28.10.04 PI Statistik, WS 2004/05 (5)
Wohnungsmarkt Geschätzte Regressionsgerade Je m2 muss man im Durchschnitt mit Kosten von 4.190 Euro rechnen; dazu kommt ein fixer Betrag von im Durchschnitt 97.590 Euro Residuen: zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen 28.10.04 PI Statistik, WS 2004/05 (5)
Regression in EXCEL Analysefunktion „Regression“ Statistische Funktionen RGP: liefert die Koeffizienten der linearen Regression SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert nach Anpassen der linearen Regression Und andere 28.10.04 PI Statistik, WS 2004/05 (5)
Regression in EXCEL: Ausgabe: Zusammenfassung Regressions-Statistik Multipler Korrela-tionskoeffizient 0,826 Bestimmtheitsmaß 0,682 Adj. Bestimmt-heitsmaß 0,659 Standardfehler 128,12 Beobachtungen 16 Koeffizi enten Standard fehler t-Statistik P-Wert Schnittpunkt 97,59 82,39 1,18 0,256 X Variable 1 4,19 0,76 5,47 8,2E-05 28.10.04 PI Statistik, WS 2004/05 (5)