Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Relationen zwischen metrischen Merkmalen

Ähnliche Präsentationen


Präsentation zum Thema: "Relationen zwischen metrischen Merkmalen"—  Präsentation transkript:

1 Relationen zwischen metrischen Merkmalen
Statistik: Relationen zwischen metrischen Merkmalen

2 Beispiel: Wohnungsmarkt
Für 16 Angebote von Eigentumswohnungen wurden registriert: Fläche der Wohnung (m2) Angebotspreis (1000 EUR) Fläche 122 71 125 45 100 63 194 85 Preis 530 410 480 170 315 455 885 400 164 119 140 109 40 62 84 65 900 550 790 810 390 440 300 385 PI Statistik, WS 2004/05 (5)

3 Wohnungsmarkt Punkte- oder Streudiagramm (scatterplot) 28.10.04
PI Statistik, WS 2004/05 (5)

4 Randverteilungen Fläche der Wohnung (m2) Preis (1000 EUR) 28.10.04
PI Statistik, WS 2004/05 (5)

5 Randverteilungen Kenngrößen Fläche Preis Mittelwert 99,3 513,1
Standardfehler 10,8 54,8 Median 92,5 447,5 Standardabweichung 43,3 219,3 Stichprobenvarianz 1870,6 48109,6 Kurtosis -0,049 -0,547 Schiefe 0,651 0,663 Wertebereich 154 730 Minimum 40 170 Maximum 194 900 Anzahl 16 Kenngrößen PI Statistik, WS 2004/05 (5)

6 Standardisieren Merkmal X : x1, …, xn Stichprobenkennzahlen:
Standardisierte Daten: z1, …, zn PI Statistik, WS 2004/05 (5)

7 Beispiel: Wohnungsmarkt
Standardisierte Daten: Preis Fläche PI Statistik, WS 2004/05 (5)

8 Korrelationskoeffizient
Produkt-Moment Korrelationskoeffizient: oder mit der Kovarianz Beispiel: Fläche (X) und Preis (Y) von angebotenen Wohnungen: sxy = , sx= 43.3, sy= 219.3 r = 0.826 PI Statistik, WS 2004/05 (5)

9 Korrelationskoeffizient
Korrelationskoeffizient ist ein (durch das Standardi-sieren) normiertes Maß für den linearen Zusam-menhang Eigenschaften: -1 ≤ r ≤ 1 |r| ist Maß für die Stärke des linearen Zusammenhanges |r|=1: perfekte lineare Abhängigkeit |r|<1: Punkte streuen stark (|r|~0) oder schwach (|r|~1) um Gerade Sign(r) ist Maß für Richtung des linearen Zusammenhanges Sign(r)=1: steigende Gerade Sign(r)=-1: fallende Gerade PI Statistik, WS 2004/05 (5)

10 Beziehungen: Beispiele
0.997 -0.977 -0.289 -0.067 PI Statistik, WS 2004/05 (5)

11 Rang Korrelationskoeffizient
nach Spearman Korrelationsmaß für ordinale Merkmale Auch anwendbar auf Rangzahlen für metrische Merkmale Definition wie Produkt-Moment Korrelationskoeffizient rxy, angewendet auf die Ränge der Beobachtungen PI Statistik, WS 2004/05 (5)

12 Berechnung von r sp Sortieren der Stichprobenpaare (xi, yi) nach steigenden Werten von X Ersetzen der Beobachtungen (xi, yi) durch die Rangzahlen (i, Ri) Einsetzen in Formel für Produkt-Moment Korrelationskoeffizient r : Alternative Schreibweise: PI Statistik, WS 2004/05 (5)

13 Beispiel: Schulnoten r sp = 0.430 Math Engl 3 4 1 2 Math Engl 1 2 1,5
3,5 3 6,5 4 5 6 7 8 9,5 9 10 r sp = 0.430 PI Statistik, WS 2004/05 (5)

14 Typen von Beziehungen zwischen Merkmalen Kausaler Zusammenhang
Wenn es kalt ist, steigen die Heizkosten Rauchen macht Lungenkrebs Gemeinsame Response Die fleißige Studentin bekommt viele gute Noten Zahl der Babys und der Störche wird weniger Vermengung (confounding) Sloppy lifestyle Hypothese und Lungenkrebs PI Statistik, WS 2004/05 (5)

15 Typen von Beziehungen zwischen zwei Merkmalen x und y x y x y x y z z
x ist kausal für y z z x, y sind gemeinsame Response auf z y: Effekte von x und z sind vermengt PI Statistik, WS 2004/05 (5)

16 Vorsicht! Die Interpretation von Korrelation als kausale Beziehung ist oft eine Fehlinterpretation! Zahl der Babys und der Störche sind hoch positiv korreliert!? Einkommen und Konsum sind hoch positiv korreliert Ausreißer haben großen Effekt auf den Wert des Korrelationskoeffizienten Nicht-lineare Beziehungen! PI Statistik, WS 2004/05 (5)

17 Lineare Regression Gerade, die die Datenwolke im Streudiagramm bzw.
die Beziehung zwischen den dargestellten Merkmalen möglichst gut repräsentiert Wohnungsmarkt: Daten und Regressionsgerade PI Statistik, WS 2004/05 (5)

18 Lineare Regression, Forts.
Abhängiges Merkmal: Y Unabhängiges Merkmal: X Regressionsgerade: Y = a + b X a, b: Regressionskoeffizienten (b: Anstieg, a: Interzept) Methode der kleinsten Quadrate: Wähle die Koeffizienten so, dass die Summe der quadrierten Abstände zwischen Beobachtungen und der Geraden minimiert werden Schätzer: PI Statistik, WS 2004/05 (5)

19 Wohnungsmarkt, Forts. Geschätzte Regressionsgerade 28.10.04
PI Statistik, WS 2004/05 (5)

20 Wohnungsmarkt Geschätzte Regressionsgerade
Je m2 muss man im Durchschnitt mit Kosten von Euro rechnen; dazu kommt ein fixer Betrag von im Durchschnitt Euro Residuen: zur Beurteilung der Qualität der Erklärung der Daten durch die Regressionsgerade, insb. des Effekts von einzelnen Beobachtungen PI Statistik, WS 2004/05 (5)

21 Regression in EXCEL Analysefunktion „Regression“
Statistische Funktionen RGP: liefert die Koeffizienten der linearen Regression SCHÄTZER: Liefert einen Y-Wert zu einem X-Wert nach Anpassen der linearen Regression Und andere PI Statistik, WS 2004/05 (5)

22 Regression in EXCEL: Ausgabe: Zusammenfassung
Regressions-Statistik Multipler Korrela-tionskoeffizient 0,826 Bestimmtheitsmaß 0,682 Adj. Bestimmt-heitsmaß 0,659 Standardfehler 128,12 Beobachtungen 16 Koeffizi enten Standard fehler t-Statistik P-Wert Schnittpunkt 97,59 82,39 1,18 0,256 X Variable 1 4,19 0,76 5,47 8,2E-05 PI Statistik, WS 2004/05 (5)


Herunterladen ppt "Relationen zwischen metrischen Merkmalen"

Ähnliche Präsentationen


Google-Anzeigen