Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
1
5 Beschreibung und Analyse
empirischer Zusammenhänge
2
5 Beschreibung und Analyse empirischer Zusammenhänge
5.1 Zusammenhänge zwischen kategorialen Merkmalen 151 5.1.1 Kontingenztabellen 151 Verteilungen in Kontingenztabellen 151 Empirische Abhängigkeit und Unabhängigkeit 158 Konzeptionelle Vorüberlegungen für ein Zusammenhangsmaß 165 5.1.2 Zusammenhangsmaße für Kontingenztabellen 168 Chi-Quadrat-Koeffizient 168 Mittlere quadratische Kontingenz 173 Kontingenzkoeffizient nach Pearson 175 Transformationseigenschaften der Zusammenhangsmaße 178 5.1.3 Grafische Analysemöglichkeiten 181 Gestapelte und gruppierte Säulendiagramme 181 Segmentierte Säulen- und Balkendiagramme 183 2
3
5 Beschreibung und Analyse empirischer Zusammenhänge
Assoziationsplots 184 Mosaikplots 188 Spineplots 189 5.2 Zusammenhänge zwischen metrischen Merkmalen 190 5.2.1 Grafische Analysemöglichkeiten 190 Streudiagramme 190 Streudiagramm-Matrizen 192 Hexagonalplots 193 5.2.2 Zusammenhangsmaße für metrische Merkmale 194 Empirische Kovarianz 194 Empirischer Korrelationskoeffizient nach Pearson 200 Empirische Kovarianz- und Korrelationsmatrizen 211 Korrelationskoeffizient nach Spearman 212 3
4
5 Beschreibung und Analyse empirischer Zusammenhänge
5.2.3 Einfache lineare Regression 216 Zweck und allgemeine Vorgehensweise 216 KQ-Methode (L2-Regression) 222 LAD-Methode (L1-Regression) 232 Kritische Punkte und Alternativen 240 5.3 Ergänzende und vertiefende Themen 243 5.3.1 Zusammenhänge in anderen Skalierungsfällen 243 Grafische Analysemöglichkeiten 243 Zusammenhangsmaße 246 Spezielle Regressionsmodelle 248 4
5
5 Beschreibung und Analyse empirischer Zusammenhänge
5.3.2 Grafische Darstellung höherdimensionaler Daten 250 Höherdimensionale Mosaikplots 250 3D-Punktwolken 252 Biplots 253 5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenhänge 258 Empirische Zusammenhänge und Kausalität 258 Spezielle Formen von Kausalität 260 Systematische Verzerrungen 261 Zufällige Schwankungen 267 5
6
5.1 Zusammenhänge zwischen kategorialen Merkmalen
5.1.1 Kontingenztabellen Verteilungen in Kontingenztabellen ● Beispiel ● ● Allgemeines zur Notation ● ● Absolute Verteilungen ● ● Relative Verteilungen ● 𝑛 11 𝑛 12 𝑛 13 𝑛 1 𝑛 21 𝑛 22 𝑛 23 𝑛 2 𝑛 1 𝑛 2 𝑛 3 𝑛
7
5.1 Zusammenhänge zwischen kategorialen Merkmalen
𝑛 𝑖 = 𝑗=1 𝑙 𝑛 𝑖𝑗 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 =𝑛 𝑛 𝑗 = 𝑖=1 𝑘 𝑛 𝑖𝑗 Im Beispiel mit k = 2 und l = 3: 𝑖=1 2 𝑗=1 3 𝑛 𝑖𝑗 = 𝑛 11 + 𝑛 12 + 𝑛 13 + 𝑛 21 + 𝑛 22 + 𝑛 23 =100
8
5.1 Zusammenhänge zwischen kategorialen Merkmalen
𝑓 11 𝑓 12 𝑓 13 𝑓 1 𝑓 21 𝑓 22 𝑓 23 𝑓 2 𝑓 1 𝑓 2 𝑓 3 𝑓 𝑖𝑗 = 𝑛 𝑖𝑗 𝑛 𝑓 𝑗 = 𝑛 𝑗 𝑛 𝑓 𝑖 = 𝑛 𝑖 𝑛 Es gilt: 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖𝑗 =1
9
5.1 Zusammenhänge zwischen kategorialen Merkmalen
10
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Bedingte Verteilungen ● ● Notation für bedingte Verteilungen ● Y X Beispiele: 𝑓 11 𝑋|𝑌 = 𝑛 11 𝑛 1 = 4 16 = 𝑓 11 𝑓 1 = =0.25 𝑓 22 𝑋|𝑌 = 𝑛 22 𝑛 2 = = 𝑓 22 𝑓 2 = =0.60 𝑓 12 𝑋|𝑌 = 𝑛 12 𝑛 2 = 8 20 = 𝑓 12 𝑓 2 = =0.40
11
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Y X Beispiele: 𝑓 11 𝑌|𝑋 = 𝑛 11 𝑛 1 = 4 40 = 𝑓 11 𝑓 1 = =0.10 𝑓 22 𝑌|𝑋 = 𝑛 22 𝑛 2 = = 𝑓 22 𝑓 2 = =0.20 𝑓 23 𝑌|𝑋 = 𝑛 23 𝑛 2 = = 𝑓 23 𝑓 2 = =0.60
12
5.1 Zusammenhänge zwischen kategorialen Merkmalen
13
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Empirische Abhängigkeit und Unabhängigkeit ● Empirische Abhängigkeit ● Empirische Abhängigkeit ⇔ Bedingte Verteilungen unterscheiden sich ● Frage der Richtung der Abhängigkeit ●
14
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Empirische Unabhängigkeit ● Empirische Unabhängigkeit ⇔ Bedingte Verteilungen sind identisch Identische „Zeilenverteilungen“ => unabhängig
15
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Verhältnis zur Kausalität ● Weder impliziert empirische Abhängigkeit eine kausale Beziehung (Ursache-Wirkungs-Beziehung), noch schließt empirische Unabhängigkeit eine solche aus.
16
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Formale Unabhängigkeitskriterien ● > Zwei Merkmale sind genau dann empirisch unabhängig, falls die beding- ten Verteilungen identisch sind. Damit stimmen diese auch mit den jeweili- gen Randverteilungen überein. Formal ausgedrückt gilt dann: 𝑓 𝑖𝑗 𝑌|𝑋 = 𝑓 𝑗 für alle i und j bzw. 𝑓 𝑖𝑗 𝑋|𝑌 = 𝑓 𝑖 für alle i und j. > Gemäß Definition bedingter Häufigkeiten resultieren daraus die Kriterien: 𝑛 𝑖𝑗 𝑛 𝑖 = 𝑓 𝑗 für alle i und j bzw. 𝑛 𝑖𝑗 𝑛 𝑗 = 𝑓 𝑖 für alle i und j.
17
5.1 Zusammenhänge zwischen kategorialen Merkmalen
> Durch Umformung erhält man daraus 𝑛 𝑖𝑗 = 𝑛 𝑖 𝑓 𝑗 bzw. 𝑛 𝑖𝑗 = 𝑛 𝑗 𝑓 𝑖 > Mit 𝑓 𝑗 = 𝑛 𝑗 𝑛 und 𝑓 𝑖 = 𝑛 𝑖 𝑛 erhält man daraus schließlich (*) 𝑛 𝑖𝑗 = 𝑛 𝑖 𝑛 𝑗 𝑛 für alle i und j ● Tatsächliche und zu erwartende Häufigkeiten ● > 𝑛 𝑖𝑗 ... tatsächliche Häufigkeit > 𝑛 𝑖 𝑛 𝑗 𝑛 ... erwartete Häufigkeit bei Unabhängigkeit (Inhaltliche Begründung für „erwartet“ siehe Folgepunkt)
18
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Multiplikationskriterium ● > Dividiert man Gleichung (*) durch n erhält man 𝑓 𝑖𝑗 = 𝑓 𝑖 𝑓 𝑗 für alle i und j Das Produkt der Randverteilungen ergibt die gemeinsame Verteilung > Bei Unabhängigkeit erwartet man für Zelle (i, j) genau 𝑛× 𝑓 𝑖𝑗 = 𝑛×𝑓 𝑖 𝑓 𝑗 = 𝑛 𝑖 𝑛 𝑗 𝑛 Beobachtungswerte. ● Stochastische Unabhängigkeit ● Analoges Konzept in W‘rechnung (später)
19
5.1 Zusammenhänge zwischen kategorialen Merkmalen
20
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Konzeptionelle Vorüberlegungen für ein Zusammenhangsmaß ● Abweichungen von der Unabhängigkeit ● > Unter Unabhängigkeit sollte gelten 𝑛 𝑖𝑗 = 𝑛 𝑖 𝑛 𝑗 𝑛 𝑛 𝑖𝑗 − 𝑛 𝑖 𝑛 𝑗 𝑛 =0 d. h. für alle i und j
21
5.1 Zusammenhänge zwischen kategorialen Merkmalen
> Abweichungen von der Unabhängigkeit im Beispiel (Tab ), z. B. 𝑛 11 − 𝑛 1 𝑛 1 𝑛 =4− 40× =4−6.4=−2.4 𝑛 12 − 𝑛 1 𝑛 2 𝑛 =8− 40× =8−8=0 ● Assoziationsplot ● Säulenflächen proportional zu den Abweichungen (Details später)
22
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Summe aller absoluten Abweichungen ● > Summe aller „Abweichungen von der Unabhängigkeit“ als Maß für die Stärke der Abhängigkeit nicht geeignet, da stets 0: 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖 𝑛 𝑗 𝑛 =𝑛−𝑛 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖 𝑛 𝑗 𝑛×𝑛 =𝑛−𝑛 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖 𝑓 𝑗 =𝑛−𝑛 𝑖=1 𝑘 𝑓 𝑖 𝑗=1 𝑙 𝑓 𝑗 =0 =1 =1 > Summe aller absoluten Abweichungen als Maß nicht üblich
23
5.1 Zusammenhänge zwischen kategorialen Merkmalen
5.1.2 Zusammenhangsmaße für Kontingenztabellen Chiquadrat-Koeffizient ● Definition und Rechenbeispiel ● 𝜒 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 𝑛 𝑖• 𝑛 •𝑗 𝑛 > Definition: wobei 𝑛 𝑖 >0 und für alle i und j 𝑛 𝑗 >0 > Rechenbeispiel zu Folie 165: 𝜒 2 = − − =1.875
24
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Interpretation ● > falls keine Abhängigkeit besteht, sonst > 0. 𝜒 2 =0 > umso größer, desto größer die Abweichungen von der Unabhängigkeit > Abweichungen werden umso höher gewichtet, desto kleiner die Rand- häufigkeiten bzw. die erwarteten Häufigkeiten sind, da Division durch 𝑛 𝑖• 𝑛 •𝑗 𝑛 ● Wertebereich ● > Allgemein: , 𝑀−1 ×𝑛 , wobei 𝑀=min 𝑘,𝑙 Theoretischer Maximalwert > Beispiel zu Folie 165: 𝑀=min 2,3 =2, 𝑛=100 ⇒ 0, 2−1 ×100 = 0, 100
25
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Maximale Abhängigkeit in nichtquadratischen Tabellen ● Sofern 𝑙>𝑘 (mehr Spalten als Zeilen) gilt: Maximale Kontingenz ⇔ In jeder Spalte genau ein positiver Zelleneintrag ● Maximale Abhängigkeit in quadratischen Tabellen ● Diagonalisierbarkeits- kriterium
26
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Berechnungsformel für (2 2)Tabellen ● 𝜒 2 = 𝑛 𝑛 11 𝑛 22 − 𝑛 12 𝑛 𝑛 1 𝑛 2 𝑛 1 𝑛 2 > Formel: > Beispiel : Raucher Gelegenheits-raucher Summe weiblich 4 8 männlich 12 12 24 16 20 36 36× 4×12−12× ×20×12×24 =0.9 𝜒 2 = Wertebereich: 0, 𝑀−1 ×𝑛 = 0, 36
27
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Zwischenschritt zum Kontingenzkoeffizienten ● > Als rein deskriptives Maß eher unbedeutend > Verwendung als Teststatistik beim Unabhängigkeitstest (siehe Statistik 2)
28
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Mittlere quadratische Kontingenz ● Definition und Rechenbeispiel ● 𝜙 2 = 1 𝑛 𝜒 2 > Definition: 𝜙 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖𝑗 − 𝑓 𝑖• 𝑓 •𝑗 𝑓 𝑖• 𝑓 •𝑗 > Es gilt: Beweis: 𝜙 2 = 1 𝑛 𝜒 2 = 𝑛 𝑛 2 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 𝑛 𝑖• 𝑛 •𝑗 𝑛 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 𝑛 − 𝑛 𝑖• 𝑛 •𝑗 𝑛×𝑛 𝑛 𝑖• 𝑛 •𝑗 𝑛×𝑛 > Beispiel zu Folien 168 (165): 𝜙 2 = 1 𝑛 𝜒 2 = ×1.875=
29
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Wertebereich und Interpretation ● > Allgemein: , 𝑀−1 , wobei 𝑀=min 𝑘,𝑙 Theoretischer Maximalwert > Beispiel zu Folie 165: 𝑀=min 2,3 =2 ⇒ 0, 2−1 = 0, 1 > Interpretation: Kein Unterschied zum Chiquadrat-Koeffizienten; Ermittlung des Durchschnitts der Abweichungen
30
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Kontingenzkoeffizient nach Pearson ● Definition und Wertebereich ● 𝐶= 𝜒 2 𝜒 2 +𝑛 = 𝜙 2 𝜙 2 +1 > Definition: > Allgemein: 0, 𝑀−1 𝑀 , wobei 𝑀=min 𝑘,𝑙 Theoretischer Maximalwert ⇒ 0, = 0, > Beispiel zu Folie 165: 𝑀=min 2,3 =2 ● Korrigierter Kontingenzkoeffizient ● > Definition: 𝐶 𝐾 =𝐶× 𝑀 𝑀−1 > Wertebereich: 0,1
31
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Beispiel ● Beispiel zu Folie 165 (168): 𝜒 2 = ⇒ 𝐶= 𝜒 2 𝜒 2 +𝑛 = ≈0.1357 𝑀=min 2,3 =2 ⇒ 𝐶 𝐾 =0.1357× ≈0.1919 ● Interpretation ● > 𝐶 𝐾 =0, falls keine Abhängigkeit besteht, sonst > 0. > 𝐶 𝐾 =1, bei maximaler Abhängigkeit > Anhand des Wertes von 𝐶 oder 𝐶 𝐾 lässt sich nicht erkennen, in welcher Weise Abhängigkeiten bestehen (Vergleich bedingter Verteilungen!) ● Anmerkung zur Einordnung der Stärke von Zusammenhängen ●
32
5.1 Zusammenhänge zwischen kategorialen Merkmalen
33
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Transformationseigenschaften der Zusammenhangsmaße ● Invarianz gegenüber Zeilen- und Spaltenvertauschungen ● ● Äquivarianz des Chiquadrat-Koeffizienten gegenüber Multiplikationen ● > Beispiel: > Nachweis: 𝜒 𝑇𝑟𝑎𝑓𝑜 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑐 𝑛 𝑖𝑗 − 𝑐𝑛 𝑖• 𝑐 𝑛 •𝑗 𝑐𝑛 𝑐𝑛 𝑖• 𝑐 𝑛 •𝑗 𝑐𝑛 = 𝑐 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 𝑛 𝑖• 𝑛 •𝑗 𝑛 =𝑐 𝜒 2
34
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Invarianz aller anderen Maße gegenüber Multiplikationen ● > Mittlere quadratische Kontingenz: 𝜙 2 = 1 𝑛 𝜒 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖𝑗 − 𝑓 𝑖• 𝑓 •𝑗 𝑓 𝑖• 𝑓 •𝑗 > (Korrigierter) Kontingenzkoeffizient 𝐶= 𝜙 2 𝜙 ⇒ 𝐶 𝐾 =𝐶× 𝑀 𝑀−1 > Beispiel (Folie 178): Links und rechts jeweils 𝐶 𝐾 =0.2863 ● Invarianz und statistisches Problem ● > Invarianz gegenüber Multiplikationen erzeugt statistisches Problem > Starker Zusammenhang gemäß C bei wenigen Beobachtungen wenig aussagekräftig
35
5.1 Zusammenhänge zwischen kategorialen Merkmalen
36
5.1 Zusammenhänge zwischen kategorialen Merkmalen
5.1.3 Grafische Analysemöglichkeiten Gestapelte und gruppierte Säulendiagramme ● Konzept und Beispiel ●
37
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Stapelung vs. Gruppierung ● > Stapelung: Randverteilung eines Merkmals leichter ersichtlich > Gruppierung: (Absolute) Bedingte Verteilungen leichter ersichtlich
38
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Segmentierte Säulen- und Balkendiagramme Darstellung der (relativen) bedingten Verteilungen
39
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Assoziationsplots ● Konzept ● 𝑛 𝑖𝑗 − 𝑛 𝑖 𝑛 𝑗 𝑛 > „Abweichungen von der Unabhängigkeit“: 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 𝑛 𝑖• 𝑛 •𝑗 𝑛 > Pearson-Residuen: > Assoziationsplot: - Richtung der Säulen nach Vorzeichen der Residuen (nach oben oder unten) - Höhe der Säulen proportional zu absoluten Residuen - Breite der Säulen proportional zu Termen des Nenners - Flächen der Säulen entsprechen den absoluten Abweichungen > Unterschiede der bedingten Verteilungen werden hervor- gehoben
40
5.1 Zusammenhänge zwischen kategorialen Merkmalen
> Rechenbeispiel von Folie 165 und 166
41
5.1 Zusammenhänge zwischen kategorialen Merkmalen
● Beispiel ●
42
5.1 Zusammenhänge zwischen kategorialen Merkmalen
43
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Mosaikplots ● Konzept ● Breiten der Säulen (Balken) spiegeln Randverteilung eines Merkmals wider. Dadurch entsprechen Flächen der gemeinsamen relativen Verteilung ( 𝑓 𝑖𝑗 ) ● Beispiel ● 𝑛 11 𝑛 1 = 𝑓 11 𝑋|𝑌 Höhe: 𝑛 1 𝑛 = 𝑓 1 Breite: vertauscht! 𝑛 1 𝑛 11 𝑛 ×𝑛 1 = 𝑓 11 Fläche: ● Höherdimensionale Mosaikplots ●
44
5.1 Zusammenhänge zwischen kategorialen Merkmalen
Spineplots ● Konzept ● Ähnlich wie Mosaikplots, jedoch Lücken zwischen den Säulen und Skalenachse ● Beispiel ●
45
5.2 Zusammenhänge zwischen metrischen Merkmalen
5.2.1 Grafische Analysemöglichkeiten Streudiagramme ● Konzept ● ● Beispiel ●
46
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Richtung von Zusammenhängen ● > Positiv: Größere x-Werte gehen tendenziell mit größeren y-Werten einher > Negativ: Größere x-Werte gehen tendenziell mit kleineren y-Werten einher ● Zweidimensionale Ausreißer ● Höherdimensionale Ausreißer nicht zwingend in niedrigeren Dimensionen sichtbar (vgl. Abb und 5.2.2)
47
5.2 Zusammenhänge zwischen metrischen Merkmalen
Streudiagramm-Matrizen ● Konzept ● ● Beispiel ● ● Hilfsmittel für „Datenscreening“ und Modellbildung ●
48
5.2 Zusammenhänge zwischen metrischen Merkmalen
Hexagonalplots ● Konzept ● ● Beispiel ● Mehr als die Hälfte aller etwa 200 Studierenden besitzt eine Schuhgröße zwischen 42 und 46 und schläft zwischen 7 und 9 Stunden (ohne Färbung nicht ersichtlich)
49
5.2 Zusammenhänge zwischen metrischen Merkmalen
5.2.2 Zusammenhangsmaße für metrische Merkmale Empirische Kovarianz ● Definition und Interpretation ● > Gegeben: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3) 𝑥 =5.9 𝑦 =3.5 Rechteckfläche z. B.: 𝑥 7 − 𝑥 × 𝑦 7 − 𝑦 = 9−5.9 × 6−3.5 =3.1×2.5 =7.75
50
5.2 Zusammenhänge zwischen metrischen Merkmalen
𝑠 𝑋𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 > Empirische Kovarianz: > Als „durchschnittliche Rechteckfläche“ (< 0, = 0 oder > 0) interpretierbar ● Beispiel ● Hier gilt: 𝑠 𝑋𝑌 = =2.45
51
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Verschiebungsformel für die empirische Kovarianz ● > Es gilt: 𝑠 𝑋𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 > Beweis: 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑦 𝑥 𝑖 − 𝑥 𝑦 𝑖 + 𝑥 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑦 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑖=1 𝑛 𝑦 𝑖 + 𝑖=1 𝑛 𝑥 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑦 𝑛 𝑥 − 𝑥 𝑛 𝑦 +𝑛 𝑥 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 −𝑛 𝑥 𝑦 Division durch n
52
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Transformationseigenschaften ● ● Verschiebungen ● > Transformation: 𝑢 𝑖 , 𝑣 𝑖 = 𝑥 𝑖 + 𝑐 𝑋 , 𝑦 𝑖 + 𝑐 𝑌 für 𝑖=1, …, 𝑛 > Rechteckflächen bei Verschiebung sind invariant: 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 𝑥 𝑖 + 𝑐 𝑋 − 𝑥 − 𝑐 𝑋 𝑦 𝑖 + 𝑐 𝑌 − 𝑦 − 𝑐 𝑌 = 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 ⇒ Kovarianz ist verschiebungsinvariant
53
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Umskalierungen ● > Transformation: 𝑢 𝑖 , 𝑣 𝑖 = 𝑐 𝑋 𝑥 𝑖 , 𝑐 𝑌 𝑦 𝑖 für 𝑖=1, …, 𝑛 und 𝑐 𝑋 >0, 𝑐 𝑌 >0 > Rechteckflächen bei Umskalierung sind äquivariant im Sinne von 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 𝑐 𝑋 𝑥 𝑖 − 𝑐 𝑋 𝑥 𝑐 𝑌 𝑦 𝑖 − 𝑐 𝑌 𝑦 = 𝑐 𝑋 𝑐 𝑌 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 ⇒ Kovarianz ist äquivariant im Sinne von... 𝑠 𝑈𝑉 = 1 𝑛 𝑖=1 𝑛 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 𝑐 𝑋 𝑐 𝑌 × 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 𝑐 𝑋 𝑐 𝑌 𝑠 𝑋𝑌
54
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Zwischenschritt zum Korrelationskoeffizienten ● > Problem: Kovarianz als Zusammenhangsmaß nicht geeignet, da skalen- abhängig und Wertebereich unbeschränkt (nichtnormiertes Maß) > Lösung: Berechne Kovarianz der standardisierten Werte
55
5.2 Zusammenhänge zwischen metrischen Merkmalen
Empirischer Korrelationskoeffizient nach Pearson ● Kovarianz standardisierter Werte ● > Unterziehe x- und y-Werte einer Z-Standardisierung 𝑢 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 𝑋 = 1 𝑠 𝑋 𝑥 𝑖 − 𝑥 𝑠 𝑋 , 𝑣 𝑖 = 𝑦 𝑖 − 𝑦 𝑠 𝑌 = 1 𝑠 𝑌 𝑦 𝑖 − 𝑦 𝑠 𝑌 > Dann gilt (vgl. Folie 115): 𝑢 =0, 𝑣 =0, 𝑠 𝑈 2 =1, 𝑠 𝑉 2 =1 > Daraus folgt dann: 𝑠 𝑈𝑉 = 1 𝑛 𝑖=1 𝑛 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑠 𝑋 −0 𝑦 𝑖 − 𝑦 𝑠 𝑌 −0 = 1 𝑠 𝑋 𝑠 𝑌 × 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 Korrelationskoeffizient
56
5.2 Zusammenhänge zwischen metrischen Merkmalen
57
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Definition −äquivalente Varianten ● 𝑟 𝑋𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑛 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 𝑛 𝑖=1 𝑛 𝑦 2 − 𝑦 2 > Variante 1: Mittelwertbildungen 𝑟 𝑋𝑌 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 −𝑛 𝑥 𝑦 𝑖=1 𝑛 𝑥 𝑖 2 −𝑛 𝑥 𝑖=1 𝑛 𝑦 2 −𝑛 𝑦 2 > Variante 2: Summenbildungen
58
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Verschiebungs- und skaleninvariant ● > Korrelationskoeffizient ist verschiebungsinvariant sind, da dies Kovarianz und Varianz sind. > Der Korrelationskoeffizient ist auch skaleninvariant: 𝑟 𝑈𝑉 = 𝑠 𝑈𝑉 𝑠 𝑈 𝑠 𝑉 = 𝑐 𝑋 𝑐 𝑌 𝑠 𝑋𝑌 𝑐 𝑋 𝑠 𝑋 𝑐 𝑌 𝑠 𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 ● Wertebereich ● > Es lässt sich zeigen: 𝑟 𝑋𝑌 ∈ −1,1 > Die Korrelation ist betragsmäßig genau dann gleich 1, falls die y-Werte perfekt linear von den x-Werten abhängen im Sinne von 𝑦 𝑖 − 𝑦 =𝑐 𝑥 𝑖 − 𝑥 für ein 𝑐≠0 ⇔ 𝑦 𝑖 = 𝑦 −𝑐 𝑥 +𝑐 𝑥 𝑖 ⇔ 𝑦 𝑖 = 𝑏 0 + 𝑏 1 𝑥 𝑖 mit 𝑏 0 = 𝑦 −𝑐 𝑥 , 𝑏 1 =𝑐
59
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Interpretation ●
60
5.2 Zusammenhänge zwischen metrischen Merkmalen
61
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Korrelation misst nur lineare Abhängigkeit ● ● Reine Optik kann täuschen ● ● Beispiel ● Gegeben: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3) 𝑥 = =5.9 𝑦 = =3.5
62
5.2 Zusammenhänge zwischen metrischen Merkmalen
𝑟 𝑋𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 𝑛 𝑖=1 𝑛 𝑦 2 − 𝑦 2 = −5.9× − − 3.5 2 ≈0.6730
63
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Verhältnis zur Kausalität ● > Keine Ursache-Wirkungs-Aussage > Weitere Ausführungen in Abschnitt ● Zur Historie und Namensgebung des Korrelationskoeffizienten ●
64
5.2 Zusammenhänge zwischen metrischen Merkmalen
Beispiel 5.2.6: Korrelation ökonomischer Indikatoren
65
5.2 Zusammenhänge zwischen metrischen Merkmalen
66
5.2 Zusammenhänge zwischen metrischen Merkmalen
Empirische Kovarianz- und Korrelationsmatrizen ● Kovarianzmatrix ● 𝑠 𝑋𝑋 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑥 𝑖 − 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 = 𝑠 𝑋 2 . Beachte: „Kovarianz mit sich selbst“ = Varianz ● Korrelationsmatrix ● 𝑟 𝑋𝑋 = 𝑠 𝑋𝑋 𝑠 𝑋 𝑠 𝑋 = 𝑠 𝑋 2 𝑠 𝑋 2 =1. Beachte: „Korrelation mit sich selbst“ = 1
67
5.2 Zusammenhänge zwischen metrischen Merkmalen
Korrelationskoeffizient nach Spearman ● Hintergrund ● > Betrachte folgende Daten: (1, 1), (8, 0.125), (4, 0.25), (2, 0.5) > Feststellung: Perfekter monotoner Zusammenhang, jedoch Korrelation < 1 => Korrelation misst nur Stärke der linearen Abhängigkeit
68
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Rangzahlen ● > Originalwerte: 𝑥 1 =1, 𝑥 2 =8, 𝑥 3 =4, 𝑥 4 =2 > Geordnete Werte: 𝑥 1 =1, 𝑥 2 =2, 𝑥 3 =4, 𝑥 4 =8 > Rangwerte: 𝑟𝑔 𝑥 1 =1, 𝑟𝑔 𝑥 2 =4, 𝑟𝑔 𝑥 3 =3, 𝑟𝑔 𝑥 4 =2 > Bei Bindungen werden Durchschnittsränge gebildet (vgl. Tab ) ● Definition und Interpretation ● > Der Korrelationskoeffizient nach Spearman (Rangkorrelationskoeffizient) ist der für die Rangwerte ermittelte Korrelationskoeffizient nach Pearson 𝑟 𝑆 = 1 𝑛 𝑖=1 𝑛 𝑟𝑔 𝑥 𝑖 𝑟𝑔 𝑦 𝑖 − 𝑟𝑔 𝑋 𝑟𝑔 𝑌 𝑛 𝑖=1 𝑛 𝑟𝑔 𝑥 𝑖 2 − 𝑟𝑔 𝑋 𝑛 𝑖=1 𝑛 𝑟𝑔 𝑦 𝑖 2 − 𝑟𝑔 𝑌 2
69
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Sinnvolle Ergänzung zur gewöhnlichen Korrelation ● ● Transformationseigenschaften ● ● Auch für Ordinalskala geeignet ● ● Beispiel ●
70
5.2 Zusammenhänge zwischen metrischen Merkmalen
− × − − 𝑟 𝑆 = ≈0.6335 Beispiel 5.2.8: Korrelation von Wirtschaftsleistung und Lebenserwartung
71
5.2 Zusammenhänge zwischen metrischen Merkmalen
5.2.3 Einfache lineare Regression Zweck und allgemeine Vorgehensweise ● Hintergrund ●
72
5.2 Zusammenhänge zwischen metrischen Merkmalen
Vorteile einer funktionalen Beschreibung von Zusammenhängen: Quantifizierung kausaler Effekte, Prognosen, ... ● Lineares Regressionsproblem ● > Zusammenhang zwischen X und Y soll mittels einer Geraden 𝑦= 𝑏 0 + 𝑏 1 𝑥 beschrieben werden. > Regressionsproblem: Welche Gerade passt am besten? ● Mathematisch formaler Rahmen ● > Gegeben Beobachtungswerte: 𝑥 1 , 𝑦 1 , 𝑥 2 , 𝑦 2 ,…, 𝑥 𝑛 , 𝑦 𝑛 > Es gelte die Beziehung: 𝑦 𝑖 = 𝑏 0 + 𝑏 1 𝑥 𝑖 + 𝑢 𝑖 für 𝑖=1,…,𝑛
73
5.2 Zusammenhänge zwischen metrischen Merkmalen
> Ausführlich notiert: 𝑦 1 = 𝑏 0 + 𝑏 1 𝑥 1 + 𝑢 1 , 𝑦 2 = 𝑏 0 + 𝑏 1 𝑥 2 + 𝑢 2 , ... 𝑦 𝑛 = 𝑏 0 + 𝑏 1 𝑥 𝑛 + 𝑢 𝑛 . Y X U Involvierte Variablen (Merkmale) 𝑌 ... Zielvariable, abhängige Variable, Regressand, ... 𝑋 ... erklärende Variable, unabhängige Variable, Regressor, ... 𝑈 ... Fehler(variable), Residuum, ... ● Interpretation von Koeffizienten und Prognosen ● > 𝑏 Steigungskoeffizient: Veränderung in 𝑋 um ∆𝑥 Einheiten geht „tendenziell“ mit einer Veränderung in 𝑌 um 𝑏 1 ×∆𝑥 Einheiten einher
74
5.2 Zusammenhänge zwischen metrischen Merkmalen
> 𝑏 Achsenabschnitt: der für 𝑌 „prognostizierte Wert für 𝑋=0 (inhaltlich nicht immer sinnvoll) > Beispiel einer Prognose (Prädiktion) des Körpergewichts einer 180 cm großen Person (Abb ): − ×180=72.27
75
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Berechnungsmethoden ● 𝑖=1 𝑛 𝑢 𝑖 𝑖=1 𝑛 𝑢 𝑖 2 Minimiere oder alternativ: LAD-Gerade (Least Absolute Deviation) KQ-Gerade (Kleinste Quadrate)
76
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Frage der Auswahl ● > Kleinste-Quadrate-Gerade am populärsten aus praktischen und theoretische Gründen > Allerdings: LAD-Gerade robuster gegenüber Ausreißern > Beziehung von KQ-Gerade zu LAD-Gerade ähnlich wie arithmetisches Mittel zu Median
77
5.2 Zusammenhänge zwischen metrischen Merkmalen
KQ−Methode (L2−Regression) ● Minimierungsproblem ● > Minimiere Summe der quadratischen Abweichungen: 𝑖=1 𝑛 𝑢 𝑖 2 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 2 > Definiere dazu analytische Funktion: 𝑄 𝑏 0 , 𝑏 1 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 2 > Analytisches Minimierungsproblem: min 𝑏 0 , 𝑏 1 𝑄 𝑏 0 , 𝑏 1
78
5.2 Zusammenhänge zwischen metrischen Merkmalen
> Beispiel: Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2) (vgl. Folie 220) 𝑄 𝑏 0 , 𝑏 1 = 𝑖= 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 2 = 𝑦 1 − 𝑏 0 − 𝑏 1 𝑥 𝑦 2 − 𝑏 0 − 𝑏 1 𝑥 𝑦 3 − 𝑏 0 − 𝑏 1 𝑥 3 2 + 𝑦 4 − 𝑏 0 − 𝑏 1 𝑥 𝑦 5 − 𝑏 0 − 𝑏 1 𝑥 5 2 = 1− 𝑏 0 − 𝑏 − 𝑏 0 − 2𝑏 − 𝑏 0 − 3𝑏 1 2 + 3− 𝑏 0 − 4𝑏 − 𝑏 0 − 5𝑏 1 2
79
5.2 Zusammenhänge zwischen metrischen Merkmalen
> Im vorliegenden Beispiel lauten die Lösungen: 𝑏 0 =0.9 und 𝑏 1 =0.3 mit 𝑄 0.9, 0.3 =1.9
80
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Lösung und Berechnung ● > Allgemeine Lösungsformeln (werden in Statistik 2 hergeleitet): 𝑏 1 = 𝑠 𝑋𝑌 𝑠 𝑋 2 𝑏 0 = 𝑦 − 𝑏 1 𝑥 und > Für 𝑠 𝑋 2 =0 sind die Lösungen nicht eindeutig (Abb )
81
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Bezeichnungen ● > KQ-Gerade: 𝑦 𝑥 = 𝑏 𝑏 1 𝑥 > Gefittete Werte: 𝑦 𝑖 = 𝑦 𝑥 𝑖 = 𝑏 𝑏 1 𝑥 𝑖 > KQ-Residuen: 𝑢 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 ● Eigenschaften der KQ-Gerade ● > (1) KQ-Gerade verläuft stets durch den Schwerpunkt 𝑥 , 𝑦 (2) Die Summe der gefitteten Werte ist gleich der Summe der y-Werte: 𝑖=1 𝑛 𝑦 𝑖 = 𝑖=1 𝑛 𝑦 𝑖 (3) Die Summe der KQ-Residuen ist gleich 0: 𝑖=1 𝑛 𝑢 𝑖 =0
82
5.2 Zusammenhänge zwischen metrischen Merkmalen
> Nachweis dieser 3 und weiterer Eigenschaften folgt in Statistik 2 ● Beispiel ● Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2)
83
5.2 Zusammenhänge zwischen metrischen Merkmalen
𝑥 = 15 5 =3 𝑦 = 9 5 =1.8 𝑠 𝑋𝑌 𝑠 𝑋 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 = 30 5 −3× − 3 2 =0.3 𝑏 1 = 𝑏 0 = 𝑦 − 𝑏 1 𝑥 = 1.8−0.3×3=0.9 ⇒ 𝑦 𝑥 = 𝑏 𝑏 1 𝑥= 𝑥
84
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Interpretation der KQ-Gerade ● > Deutung von Steigung und Achsenabschnitt wie auf Folien > „Durchschnittsgerade“ (Schwerpunkteigenschaft) Beispiel von Folie 219: „Mit jedem Zentimeter nimmt das Gewicht durchschnittlich um 0.93 Kilogramm zu“ „Eine 180 cm große Person sollte im Durchschnitt kg wiegen“ ● Bezug zum Korrelationskoeffizienten ● 𝑏 1 = 𝑠 𝑋𝑌 𝑠 𝑋 2 𝑟 𝑋𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 Es gilt: und Daraus folgt: 𝑏 1 < ⇔ 𝑟 𝑋𝑌 <0 𝑏 1 = ⇔ 𝑟 𝑋𝑌 =0 𝑏 1 > ⇔ 𝑟 𝑋𝑌 >0
85
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Bezug zum arithmetischen Mittel ● Betrachtet man Minimierungsproblem mit Restriktion 𝑏 1 =0, erhält man 𝑓 𝑏 0 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 2 min 𝑏 𝑓 𝑏 0 mit Die Lösung hierzu lautet bekanntlich: 𝑏 0 = 𝑦
86
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Vor- und Nachteile der KQ-Regression ● > Einfache Berechenbarkeit, gute Interpretierbarkeit, Eindeutigkeit > In gewisser Weise optimal (Gauß-Markov-Theorem) > Jedoch: Empfindlich gegenüber Ausreißern (nicht robust) ● Anmerkungen zur Historie ●
87
5.2 Zusammenhänge zwischen metrischen Merkmalen
LAD−Methode (L1−Regression) ● Minimierungsproblem ● > Minimiere Summe der absoluten Abweichungen: 𝑖=1 𝑛 𝑢 𝑖 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 > Definiere dazu Funktion: 𝑄 𝑏 0 , 𝑏 1 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 > Minimierungsproblem: min 𝑏 0 , 𝑏 1 𝑄 𝑏 0 , 𝑏 1
88
5.2 Zusammenhänge zwischen metrischen Merkmalen
> Beispiel: Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2) (vgl. Folie 220) 𝑄 𝑏 0 , 𝑏 1 = 𝑖=1 5 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 = 𝑦 1 − 𝑏 0 − 𝑏 1 𝑥 𝑦 2 − 𝑏 0 − 𝑏 1 𝑥 𝑦 3 − 𝑏 0 − 𝑏 1 𝑥 3 + 𝑦 4 − 𝑏 0 − 𝑏 1 𝑥 𝑦 5 − 𝑏 0 − 𝑏 1 𝑥 5 = 1− 𝑏 0 − 𝑏 − 𝑏 0 −2 𝑏 − 𝑏 0 −3 𝑏 1 + 3− 𝑏 0 − 4𝑏 − 𝑏 0 −5 𝑏 1
89
5.2 Zusammenhänge zwischen metrischen Merkmalen
> Im vorliegenden Beispiel lauten die Lösungen: 𝑏 0 =0.75 und 𝑏 1 =0.24 mit 𝑄 0.75, =2.5 ● Lösung und Berechnung ● Analytisch nicht handhabbar; stattdessen: numerische Bestimmung ● Eindeutigkeitsprobleme ● (siehe nächste Folie)
90
5.2 Zusammenhänge zwischen metrischen Merkmalen
91
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Bezeichnungen ● > LAD-Gerade: 𝑦 𝑥 = 𝑏 𝑏 1 𝑥 > Gefittete Werte: 𝑦 𝑖 = 𝑦 𝑥 𝑖 = 𝑏 𝑏 1 𝑥 𝑖 > LAD-Residuen: 𝑢 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 ● Eigenschaften der LAD-Gerade ● > 3 Eigenschaften der KQ-Gerade (Folie 226) gelten nicht mehr! > „Mediangerade “ in folgendem Sinne: Etwa 50% der Beobachtungen liegt oberhalb und 50% unterhalb der Geraden > Verallgemeinerung im Rahmen der sog. Quantilsregression
92
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Beispiel ● Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2) Numerische Ermittlung der LAD-Geraden (z. B. mit Software R): 𝑦 𝑥 = 𝑏 𝑏 1 𝑥= 𝑥
93
5.2 Zusammenhänge zwischen metrischen Merkmalen
Wohlgemerkt: 𝑖=1 𝑛 𝑦 𝑖 ≠ 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑢 𝑖 ≠0 Beispielsweise gilt hier: 𝑦 1 = 𝑦 𝑥 1 = 𝑏 𝑏 1 𝑥 1 = ×1=1 𝑦 2 = 𝑦 𝑥 2 = 𝑏 𝑏 1 𝑥 2 = ×2=1.25 ⋮ 𝑢 1 = 𝑦 1 − 𝑦 1 =1−1=0 𝑢 2 = 𝑦 2 − 𝑦 2 =2−1.25=0.75 ⋮
94
5.2 Zusammenhänge zwischen metrischen Merkmalen
Außerdem zu beobachten (kein Zufall!): 𝑖=1 𝑛 𝑢 𝑖 2 ≤ 𝑖=1 𝑛 𝑢 𝑖 2 𝑖=1 𝑛 𝑢 𝑖 ≤ 𝑖=1 𝑛 𝑢 𝑖 und ● Interpretation der LAD-Gerade ● > Deutung von Steigung und Achsenabschnitt wie auf Folien > „Mediangerade “ (Folie 236) > Wesentlich sind die Robustheitseigenschaften ● Bezug zum Median ● Betrachtet man Minimierungsproblem mit Restriktion 𝑏 1 =0, erhält man 𝑓 𝑏 0 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 min 𝑏 𝑓 𝑏 0 mit Die Lösung hierzu lautet bekanntlich: 𝑏 0 = 𝑦 0.5
95
5.2 Zusammenhänge zwischen metrischen Merkmalen
● Vor- und Nachteile der LAD-Regression ● > Unempfindlich(er) gegenüber Ausreißern (robust) > Schwieriger zu berechnen (numerisches Problem), Eindeutigkeits- probleme können auftreten ● Anmerkungen zur Historie ● Kritische Punkte und Alternativen ● Frage der Richtung der Abhängigkeit ● ● Multiple lineare Regression ● ● Nichtlineare Regressionsansätze ●
96
5.2 Zusammenhänge zwischen metrischen Merkmalen
Beispiel : Entwicklung von Wohnungspreisen in Deutschland
97
5.2 Zusammenhänge zwischen metrischen Merkmalen
98
5.3 Ergänzende und vertiefende Themen
5.3.1 Zusammenhänge in anderen Skalierungsfällen Grafische Analysemöglichkeiten ● Metrisches vs. kategoriales Merkmal ●
99
5.3 Ergänzende und vertiefende Themen
● Kategoriales vs. metrisches Merkmal ●
100
5.3 Ergänzende und vertiefende Themen
● Kategorisierte und dichotomisierte Merkmale ●
101
5.3 Ergänzende und vertiefende Themen
Zusammenhangsmaße ● Zusammenhangsmaße für ordinale Merkmale ● > Hier gilt: 𝐶 𝐾 =0.3585, 𝑟 𝑋𝑌 =0.2515, 𝑟 𝑆 =0.2369 > Berechnung von 𝑟 𝑋𝑌 hier eigentlich nicht ganz sinnvoll, da ordinal skaliertes Merkmal vorliegt
102
5.3 Ergänzende und vertiefende Themen
> Beispiel mit größerem Unterschied zwischen 𝑟 𝑋𝑌 und 𝑟 𝑆 > Hier gilt: 𝐶 𝐾 =0.9129, 𝑟 𝑋𝑌 =−0.8455, 𝑟 𝑆 =−0.9231 > Es existieren zahlreiche alternative Zusammenhangsmaße für ordinal skalierte Merkmale ● Zusammenhangsmaße in gemischten Skalierungsfällen ●
103
5.3 Ergänzende und vertiefende Themen
Spezielle Regressionsmodelle ● Hintergrund ● ● Anpassungs- und Prognosemaße ● ● Metrisches vs. kategoriales Merkmal: Varianzanalysemodelle ● > Modellierung der Streuungszerlegung im Rahmen eines (multiplen) linearen Regressionsmodells > Zur Erinnerung nochmal ein altes Beispiel ...
104
5.3 Ergänzende und vertiefende Themen
● Kategoriales vs. metrisches Merkmal: Logistische Regressionsmodelle ● ● Multiple Regression ● ● Generalisierte lineare Modelle ●
105
5.3 Ergänzende und vertiefende Themen
5.3.2 Grafische Darstellung höherdimensionaler Daten Höherdimensionale Mosaikplots ● Konzept ● ● Beispiel 5.3.1: 3-dimensionale Mosaikplots ●
106
5.3 Ergänzende und vertiefende Themen
● Beispiel 5.3.2: 4-dimensionale Mosaikplots ● Daten ● Weitere Möglichkeiten ●
107
5.3 Ergänzende und vertiefende Themen
3D-Punktwolken ● Konzept ● ● Beispiel ●
108
5.3 Ergänzende und vertiefende Themen
Biplots ● Konzept ● ● Hauptkomponentenanalyse-Biplots ●
109
5.3 Ergänzende und vertiefende Themen
110
5.3 Ergänzende und vertiefende Themen
● Korrespondenzanalyse-Biplots ●
111
5.3 Ergänzende und vertiefende Themen
112
5.3 Ergänzende und vertiefende Themen
113
5.3 Ergänzende und vertiefende Themen
5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenhänge Empirischer Zusammenhänge und Kausalität ● Zum Kausalitätsbegriff ● ● Kausalität in der Statistik ● > „Force as a cause of motion is exactly on the same footing as a tree-god as cause of growth“ (Karl Pearson [1900b]) > Ein „kognitives Konstrukt “ (Kälble [1997]) > Zu Causal Inference und Structural Causal Models vgl. etwa Cox und Wermuth [2004] oder Pearl [2009] ● Korrelation impliziert keine Kausalität ● Empirische Zusammenhangsmaße können stets verzerrt sein durch (i) systematische Verzerrungen (ii) zufällige Schwankungen
114
5.3 Ergänzende und vertiefende Themen
● Nachweis und Messung kausaler Effekte ● ● Experimentalstudien vs. Erhebungsstudien ● ● Einflussschema bei Kausalanalysen ●
115
5.3 Ergänzende und vertiefende Themen
Spezielle Formen von Kausalität ● Direkte und indirekte kausale Effekte ● ● Dynamische und simultane Abhängigkeit ● > Dynamische kausale Effekte: Anpassungsvorgänge vollziehen sich zeitlich verzögert und schrittweise > Simultane Kausalität: X beeinflusst Y und umgekehrt
116
5.3 Ergänzende und vertiefende Themen
Systematische Verzerrungen ● Hintergrund ● ● Beispiele systematischer Verzerrungen ● Kodierung binärer Variablen Abitur: 0 = kein Abitur, 1 = Abitur vorhanden Männlich: 0 = weiblich, 1 = männlich Weiblich: 0 = männlich, 1 = weiblich
117
5.3 Ergänzende und vertiefende Themen
● Merkregeln für den 3-Variablen-Fall ● > Direkter Effekt von X auf Y ist positiv oder negativ > Direkter Effekt von Z auf Y ist positiv oder negativ > Indirekter Effekt von X über Z auf Y negativ ⇔ Corr(X, Z) und direkter Z-Effekt gegensätzlich positiv ⇔ Corr(X, Z) und direkter Z-Effekt gleichgerichtet ⇔ Corr(X, Z) = 0 und/oder direkter Z-Effekt = 0
118
5.3 Ergänzende und vertiefende Themen
> Gesamteffekt (totaler Effekt) von X auf Y spiegelt direkten X-Effekt systematisch verzerrt wider, sofern indirekter X-Effekt ≠ 0 > Direkter X-Effekt wird kompensiert ⇔ direkter und indirekter X-Effekt gegensätzlich verstärkt ⇔ direkter und indirekter X-Effekt gleichgerichtet ● Weitere Bemerkungen ● > Wird direkter Effekt von X auf Y verzerrt, so auch der direkte Effekt von Z auf Y > Indirekter Effekt muss nicht kausaler Natur sein > Corr(X, Z) muss nicht kausal begründet sein > Besonders schwerwiegende Verzerrung bei Überkompensation ⇔ Indirekter Effekt stärker als direkter Effekt
119
5.3 Ergänzende und vertiefende Themen
● Scheinabhängigkeiten ● ● Methodischer Umgang mit systematischen Verzerrungen ● ● Versuchsplanung ● ● Randomisierung ● ● Untersuchung in homogeneren Untergruppen ● ● Multiple lineare Regression ● ● Multiple Regression in anderen Modellen ●
120
5.3 Ergänzende und vertiefende Themen
● Beispiel ● > Fall 1: Erwerbstätigkeit (Zielvariable), Alter und Schulabschluss 84.9% 84.1% 61.3% 35.4% 28.6% 23.5% 81.6% Mögliches Konstrukt: Verstärkung des direkten Effekts von Alter durch indirekten Effekt von Alter über Abitur
121
5.3 Ergänzende und vertiefende Themen
> Fall 2: Gewicht (Zielvariable), Geschlecht und Größe Mögliches Konstrukt: Verstärkung des direkten Effekts von „männlich“ durch indirekten Effekt von „männlich“ über Größe
122
5.3 Ergänzende und vertiefende Themen
Zufällige Schwankungen ● Hintergrund ● ● Beispiele rein zufälliger Abhängigkeiten ● > Beispiel 1: Man nehme einen weißen und einen schwarzen Würfel und werfe beide jeweils n = 10 Mal: weiß: , 3, 5, 5, 4, 6, 4, 6, 3, 6 schwarz: 5, 4, 6, 1, 2, 3, 4, 1, 4, 5 (1, 5), (3, 4), (5, 6), (5, 1), (4, 2), (6, 3), (4, 4), (6, 1), (3, 4), (6, 5) ⟹ 𝑟 𝑋𝑌 =−0.34 Jetzt 1000-fache Wiederholung dieses „Experiments“...
123
5.3 Ergänzende und vertiefende Themen
> Beispiel 2: Man nehme einen weißen und einen schwarzen Würfel und werfe beide jeweils 60 Mal
124
5.3 Ergänzende und vertiefende Themen
⟹ 𝐶 𝐾 =0.32 Jetzt 1000-fache Wiederholung dieses „Experiments“...
125
5.3 Ergänzende und vertiefende Themen
● System oder Zufall? ● ● Methodischer Umgang mit zufälligen Schwankungen ● ● Höhere Aussagekraft durch mehr Beobachtungen ● ● Induktive Methoden ●
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.