5 Beschreibung und Analyse

Slides:

Advertisements

Ähnliche Präsentationen

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Advertisements

Forschungsstatistik I

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2004/2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz.

Der Produkt-Moment- Korrelationskoeffizient Der Produkt-Moment Korrelationskoeffizient gibt Stärke und Richtung des linearen Zusammenhanges zweier Variablen.

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

Vorlesung: Biometrie für Studierende der Veterinärmedizin

§24 Affine Koordinatensysteme

STATISIK LV Nr.: 0028 SS Mai 2005.

STATISIK LV Nr.: 0021 WS 2005/ November 2005.

Theorie psychometrischer Tests, II

Statistik – Regression - Korrelation

Testtheorie (Vorlesung 4: ) Wiederholung/Zusammenfassung

setzt Linearität des Zusammenhangs voraus

Testtheorie (Vorlesung 12: ) Wiederholung: Reliabilität

Klassenstufe 10 -Einführung des Ableitungsbegriffs Julia Klein.

Außenhandelsbeziehungen zwischen China, USA, EU Makroökonometrie Vorlesung Dr. Oliver Bode.

Kapitel 2: Testtheorie / Testmodelle  Multivariate (p-variate) Normalverteil- ung :  Mittelwertstruktur: p Mittelwerte  Kovarianzstruktur: p·(p+1)/2.

Seminarvortrag Statistische und numerische Auswertung von Schwingfestigkeits- und Ermüdungsversuchen mit SAFD Lan Tran Aachen,

Ein Dozent hat mittels eines Fragebogens die Körpergröße seiner Studenten festgestellt. Anhand der erfassten Daten weiß er, dass der kleinste Student 158.

Wahrscheinlichkeitstheorie

Betrachtung der Realität aus der Sicht der Statistik VARIABILITÄT

4 Spezifizierende Beschreibung

Österreichisches Wildeinflussmonitoring

Mathematik der Geraden – Lineare Funktion

Deskriptive Statistik -

5 Beschreibung und Analyse

8 Ergänzungen und Verallgemeinerungen.

7.2 Theoretische Kennwerte

Seminar im Fach Geoinformation IV

Deskriptive Statistik -

Nucleophile Substitution: SN2-Reaktion

GRUNDLAGEN UND METHODIK

1 Einführung in die Statistik

Transformationskurve und Opportunitätskosten

Abiturprüfung Mathematik 2017 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analysis A 1 Lösungen der Aufgaben A 1.1 und A 1.2

Transformationskurve und Opportunitätskosten

Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Pflichtteil Lösungen

Abiturprüfung Mathematik 2012 Baden-Württemberg Allgemeinbildende Gymnasien Pflichtteil Lösungen

Die 7 Wege zur Effektivität

Ökonometrie und Statistik Logistische Regression

Ökonometrie und Statistik Wiederholung

Ökonometrie und Statistik Mehrfachregression

Fächerabwahl am Ende der Jahrgangsstufe Q2-1

Kapitel 2: Testtheorie / Testmodelle

Wachstumsprozesse Natürliches Wachstum Größenbeschränktes Wachstum

10 Statistisches Schätzen

12 Das lineare Regressionsmodell

Kapitel IV. Matrizen Inhalt:

Lösung Aufgabe 3 (Programmplanung)

3 Gesamtbeschreibung empirischer Verteilungen.

Forschungsstrategien Johannes Gutenberg Universität Mainz

Statistik IV Statistik III

Ökonometrie und Statistik Wiederholung

4 Spezifizierende Beschreibung

Ökonometrie und Statistik Prüfungsthemen

Wahlteil 2009 – Geometrie II 1

Pflichtteil 2016 Aufgabe 6: Gegeben ist die Gerade

Das Vektorprodukt Wir definieren erneut eine Multiplikation zwischen zwei Vektoren, das Vektorprodukt, nicht zu verwechseln mit dem Skalarprodukt. Schreibe.

Wahlteil 2016 – Aufgabe B 1 Aufgabe B 1.1 In einem Koordinatensystem beschreiben die Punkte

Kapitel 2: Testtheorie / Testmodelle

Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analytische Geometrie / Stochastik Aufgabe B 2.1 und B Lösungen.

Konfidenzintervalle und Tests auf Normalverteilung

Ökonometrie und Statistik Mehrfachregression

Zusammengesetzte Ereignisse

Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analysis A 2 Lösungen der Aufgaben A 2.1 und A 2.2

Korrelation & Skalentransformation

Fortgeschrittene statistische Methoden SS2020

Ökonometrie und Statistik Wiederholung

Präsentation transkript:

5 Beschreibung und Analyse empirischer Zusammenhänge

5 Beschreibung und Analyse empirischer Zusammenhänge 5.1 Zusammenhänge zwischen kategorialen Merkmalen 151 5.1.1 Kontingenztabellen 151 Verteilungen in Kontingenztabellen 151 Empirische Abhängigkeit und Unabhängigkeit 158 Konzeptionelle Vorüberlegungen für ein Zusammenhangsmaß 165 5.1.2 Zusammenhangsmaße für Kontingenztabellen 168 Chi-Quadrat-Koeffizient 168 Mittlere quadratische Kontingenz 173 Kontingenzkoeffizient nach Pearson 175 Transformationseigenschaften der Zusammenhangsmaße 178 5.1.3 Grafische Analysemöglichkeiten 181 Gestapelte und gruppierte Säulendiagramme 181 Segmentierte Säulen- und Balkendiagramme 183 2

5 Beschreibung und Analyse empirischer Zusammenhänge Assoziationsplots 184 Mosaikplots 188 Spineplots 189 5.2 Zusammenhänge zwischen metrischen Merkmalen 190 5.2.1 Grafische Analysemöglichkeiten 190 Streudiagramme 190 Streudiagramm-Matrizen 192 Hexagonalplots 193 5.2.2 Zusammenhangsmaße für metrische Merkmale 194 Empirische Kovarianz 194 Empirischer Korrelationskoeffizient nach Pearson 200 Empirische Kovarianz- und Korrelationsmatrizen 211 Korrelationskoeffizient nach Spearman 212 3

5 Beschreibung und Analyse empirischer Zusammenhänge 5.2.3 Einfache lineare Regression 216 Zweck und allgemeine Vorgehensweise 216 KQ-Methode (L2-Regression) 222 LAD-Methode (L1-Regression) 232 Kritische Punkte und Alternativen 240 5.3 Ergänzende und vertiefende Themen 243 5.3.1 Zusammenhänge in anderen Skalierungsfällen 243 Grafische Analysemöglichkeiten 243 Zusammenhangsmaße 246 Spezielle Regressionsmodelle 248 4

5 Beschreibung und Analyse empirischer Zusammenhänge 5.3.2 Grafische Darstellung höherdimensionaler Daten 250 Höherdimensionale Mosaikplots 250 3D-Punktwolken 252 Biplots 253 5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenhänge 258 Empirische Zusammenhänge und Kausalität 258 Spezielle Formen von Kausalität 260 Systematische Verzerrungen 261 Zufällige Schwankungen 267 5

5.1 Zusammenhänge zwischen kategorialen Merkmalen 5.1.1 Kontingenztabellen Verteilungen in Kontingenztabellen ● Beispiel 5.1.1 ● ● Allgemeines zur Notation ● ● Absolute Verteilungen ● ● Relative Verteilungen ● 𝑛 11 𝑛 12 𝑛 13 𝑛 1 𝑛 21 𝑛 22 𝑛 23 𝑛 2 𝑛 1 𝑛 2 𝑛 3 𝑛

5.1 Zusammenhänge zwischen kategorialen Merkmalen 𝑛 𝑖 = 𝑗=1 𝑙 𝑛 𝑖𝑗 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 =𝑛 𝑛 𝑗 = 𝑖=1 𝑘 𝑛 𝑖𝑗 Im Beispiel mit k = 2 und l = 3: 𝑖=1 2 𝑗=1 3 𝑛 𝑖𝑗 = 𝑛 11 + 𝑛 12 + 𝑛 13 + 𝑛 21 + 𝑛 22 + 𝑛 23 =100

5.1 Zusammenhänge zwischen kategorialen Merkmalen 𝑓 11 𝑓 12 𝑓 13 𝑓 1 𝑓 21 𝑓 22 𝑓 23 𝑓 2 𝑓 1 𝑓 2 𝑓 3 𝑓 𝑖𝑗 = 𝑛 𝑖𝑗 𝑛 𝑓 𝑗 = 𝑛 𝑗 𝑛 𝑓 𝑖 = 𝑛 𝑖 𝑛 Es gilt: 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖𝑗 =1

5.1 Zusammenhänge zwischen kategorialen Merkmalen

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Bedingte Verteilungen ● ● Notation für bedingte Verteilungen ● Y X Beispiele: 𝑓 11 𝑋|𝑌 = 𝑛 11 𝑛 1 = 4 16 = 𝑓 11 𝑓 1 = 0.04 0.16 =0.25 𝑓 22 𝑋|𝑌 = 𝑛 22 𝑛 2 = 12 20 = 𝑓 22 𝑓 2 = 0.12 0.20 =0.60 𝑓 12 𝑋|𝑌 = 𝑛 12 𝑛 2 = 8 20 = 𝑓 12 𝑓 2 = 0.08 0.20 =0.40

5.1 Zusammenhänge zwischen kategorialen Merkmalen Y X Beispiele: 𝑓 11 𝑌|𝑋 = 𝑛 11 𝑛 1 = 4 40 = 𝑓 11 𝑓 1 = 0.04 0.40 =0.10 𝑓 22 𝑌|𝑋 = 𝑛 22 𝑛 2 = 12 60 = 𝑓 22 𝑓 2 = 0.12 0.60 =0.20 𝑓 23 𝑌|𝑋 = 𝑛 23 𝑛 2 = 36 60 = 𝑓 23 𝑓 2 = 0.36 0.60 =0.60

5.1 Zusammenhänge zwischen kategorialen Merkmalen

5.1 Zusammenhänge zwischen kategorialen Merkmalen Empirische Abhängigkeit und Unabhängigkeit ● Empirische Abhängigkeit ● Empirische Abhängigkeit ⇔ Bedingte Verteilungen unterscheiden sich ● Frage der Richtung der Abhängigkeit ●

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Empirische Unabhängigkeit ● Empirische Unabhängigkeit ⇔ Bedingte Verteilungen sind identisch Identische „Zeilenverteilungen“ => unabhängig

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Verhältnis zur Kausalität ● Weder impliziert empirische Abhängigkeit eine kausale Beziehung (Ursache-Wirkungs-Beziehung), noch schließt empirische Unabhängigkeit eine solche aus.

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Formale Unabhängigkeitskriterien ● > Zwei Merkmale sind genau dann empirisch unabhängig, falls die bedingten Verteilungen identisch sind. Damit stimmen diese auch mit den jeweili- gen Randverteilungen überein. Formal ausgedrückt gilt dann: 𝑓 𝑖𝑗 𝑌|𝑋 = 𝑓 𝑗 für alle i und j bzw. 𝑓 𝑖𝑗 𝑋|𝑌 = 𝑓 𝑖 für alle i und j. > Gemäß Definition bedingter Häufigkeiten resultieren daraus die Kriterien: 𝑛 𝑖𝑗 𝑛 𝑖 = 𝑓 𝑗 für alle i und j bzw. 𝑛 𝑖𝑗 𝑛 𝑗 = 𝑓 𝑖 für alle i und j.

5.1 Zusammenhänge zwischen kategorialen Merkmalen > Durch Umformung erhält man daraus 𝑛 𝑖𝑗 = 𝑛 𝑖 𝑓 𝑗 bzw. 𝑛 𝑖𝑗 = 𝑛 𝑗 𝑓 𝑖 > Mit 𝑓 𝑗 = 𝑛 𝑗 𝑛 und 𝑓 𝑖 = 𝑛 𝑖 𝑛 erhält man daraus schließlich (*) 𝑛 𝑖𝑗 = 𝑛 𝑖 𝑛 𝑗 𝑛 für alle i und j ● Tatsächliche und zu erwartende Häufigkeiten ● > 𝑛 𝑖𝑗 ... tatsächliche Häufigkeit > 𝑛 𝑖 𝑛 𝑗 𝑛 ... erwartete Häufigkeit bei Unabhängigkeit (Inhaltliche Begründung für „erwartet“ siehe Folgepunkt)

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Multiplikationskriterium ● > Dividiert man Gleichung (*) durch n erhält man 𝑓 𝑖𝑗 = 𝑓 𝑖 𝑓 𝑗 für alle i und j Das Produkt der Randverteilungen ergibt die gemeinsame Verteilung > Bei Unabhängigkeit erwartet man für Zelle (i, j) genau 𝑛× 𝑓 𝑖𝑗 = 𝑛×𝑓 𝑖 𝑓 𝑗 = 𝑛 𝑖 𝑛 𝑗 𝑛 Beobachtungswerte. ● Stochastische Unabhängigkeit ● Analoges Konzept in W‘rechnung (später)

5.1 Zusammenhänge zwischen kategorialen Merkmalen

5.1 Zusammenhänge zwischen kategorialen Merkmalen Konzeptionelle Vorüberlegungen für ein Zusammenhangsmaß ● Abweichungen von der Unabhängigkeit ● > Unter Unabhängigkeit sollte gelten 𝑛 𝑖𝑗 = 𝑛 𝑖 𝑛 𝑗 𝑛 𝑛 𝑖𝑗 − 𝑛 𝑖 𝑛 𝑗 𝑛 =0 d. h. für alle i und j

5.1 Zusammenhänge zwischen kategorialen Merkmalen > Abweichungen von der Unabhängigkeit im Beispiel (Tab. 5.1.9), z. B. 𝑛 11 − 𝑛 1 𝑛 1 𝑛 =4− 40×16 100 =4−6.4=−2.4 𝑛 12 − 𝑛 1 𝑛 2 𝑛 =8− 40×20 100 =8−8=0 ● Assoziationsplot ● Säulenflächen proportional zu den Abweichungen (Details später)

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Summe aller absoluten Abweichungen ● > Summe aller „Abweichungen von der Unabhängigkeit“ als Maß für die Stärke der Abhängigkeit nicht geeignet, da stets 0: 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖 𝑛 𝑗 𝑛 =𝑛−𝑛 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖 𝑛 𝑗 𝑛×𝑛 =𝑛−𝑛 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖 𝑓 𝑗 =𝑛−𝑛 𝑖=1 𝑘 𝑓 𝑖 𝑗=1 𝑙 𝑓 𝑗 =0 =1 =1 > Summe aller absoluten Abweichungen als Maß nicht üblich

5.1 Zusammenhänge zwischen kategorialen Merkmalen 5.1.2 Zusammenhangsmaße für Kontingenztabellen Chiquadrat-Koeffizient ● Definition und Rechenbeispiel ● 𝜒 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 2 𝑛 𝑖• 𝑛 •𝑗 𝑛 > Definition: wobei 𝑛 𝑖 >0 und für alle i und j 𝑛 𝑗 >0 > Rechenbeispiel zu Folie 165: 𝜒 2 = −2.4 2 6.4 + 0 2 8 + 2.4 2 25.6 + 2.4 2 9.6 + 0 2 12 + −2.4 2 38.4 =1.875

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Interpretation ● > falls keine Abhängigkeit besteht, sonst > 0. 𝜒 2 =0 > umso größer, desto größer die Abweichungen von der Unabhängigkeit > Abweichungen werden umso höher gewichtet, desto kleiner die Rand- häufigkeiten bzw. die erwarteten Häufigkeiten sind, da Division durch 𝑛 𝑖• 𝑛 •𝑗 𝑛 ● Wertebereich ● > Allgemein: 0, 𝑀−1 ×𝑛 , wobei 𝑀=min 𝑘,𝑙 Theoretischer Maximalwert > Beispiel zu Folie 165: 𝑀=min 2,3 =2, 𝑛=100 ⇒ 0, 2−1 ×100 = 0, 100

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Maximale Abhängigkeit in nichtquadratischen Tabellen ● Sofern 𝑙>𝑘 (mehr Spalten als Zeilen) gilt: Maximale Kontingenz ⇔ In jeder Spalte genau ein positiver Zelleneintrag ● Maximale Abhängigkeit in quadratischen Tabellen ● Diagonalisierbarkeits- kriterium

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Berechnungsformel für (2  2)Tabellen ● 𝜒 2 = 𝑛 𝑛 11 𝑛 22 − 𝑛 12 𝑛 21 2 𝑛 1 𝑛 2 𝑛 1 𝑛 2 > Formel: > Beispiel : Raucher Gelegenheits-raucher Summe weiblich 4 8 männlich 12 12 24 16 20 36 36× 4×12−12×8 2 16×20×12×24 =0.9 𝜒 2 = Wertebereich: 0, 𝑀−1 ×𝑛 = 0, 36

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Zwischenschritt zum Kontingenzkoeffizienten ● > Als rein deskriptives Maß eher unbedeutend > Verwendung als Teststatistik beim Unabhängigkeitstest (siehe Statistik 2)

5.1 Zusammenhänge zwischen kategorialen Merkmalen Mittlere quadratische Kontingenz ● Definition und Rechenbeispiel ● 𝜙 2 = 1 𝑛 𝜒 2 > Definition: 𝜙 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖𝑗 − 𝑓 𝑖• 𝑓 •𝑗 2 𝑓 𝑖• 𝑓 •𝑗 > Es gilt: Beweis: 𝜙 2 = 1 𝑛 𝜒 2 = 𝑛 𝑛 2 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 2 𝑛 𝑖• 𝑛 •𝑗 𝑛 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 𝑛 − 𝑛 𝑖• 𝑛 •𝑗 𝑛×𝑛 2 𝑛 𝑖• 𝑛 •𝑗 𝑛×𝑛 > Beispiel zu Folien 168 (165): 𝜙 2 = 1 𝑛 𝜒 2 = 1 100 ×1.875=0.01875

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Wertebereich und Interpretation ● > Allgemein: 0, 𝑀−1 , wobei 𝑀=min 𝑘,𝑙 Theoretischer Maximalwert > Beispiel zu Folie 165: 𝑀=min 2,3 =2 ⇒ 0, 2−1 = 0, 1 > Interpretation: Kein Unterschied zum Chiquadrat-Koeffizienten; Ermittlung des Durchschnitts der Abweichungen

5.1 Zusammenhänge zwischen kategorialen Merkmalen Kontingenzkoeffizient nach Pearson ● Definition und Wertebereich ● 𝐶= 𝜒 2 𝜒 2 +𝑛 = 𝜙 2 𝜙 2 +1 > Definition: > Allgemein: 0, 𝑀−1 𝑀 , wobei 𝑀=min 𝑘,𝑙 Theoretischer Maximalwert ⇒ 0, 1 2 = 0, 0.7071 > Beispiel zu Folie 165: 𝑀=min 2,3 =2 ● Korrigierter Kontingenzkoeffizient ● > Definition: 𝐶 𝐾 =𝐶× 𝑀 𝑀−1 > Wertebereich: 0,1

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Beispiel 5.1.2 ● Beispiel zu Folie 165 (168): 𝜒 2 =1.875 ⇒ 𝐶= 𝜒 2 𝜒 2 +𝑛 = 1.875 1.875+100 ≈0.1357 𝑀=min 2,3 =2 ⇒ 𝐶 𝐾 =0.1357× 2 1 ≈0.1919 ● Interpretation ● > 𝐶 𝐾 =0, falls keine Abhängigkeit besteht, sonst > 0. > 𝐶 𝐾 =1, bei maximaler Abhängigkeit > Anhand des Wertes von 𝐶 oder 𝐶 𝐾 lässt sich nicht erkennen, in welcher Weise Abhängigkeiten bestehen (Vergleich bedingter Verteilungen!) ● Anmerkung zur Einordnung der Stärke von Zusammenhängen ●

5.1 Zusammenhänge zwischen kategorialen Merkmalen

5.1 Zusammenhänge zwischen kategorialen Merkmalen Transformationseigenschaften der Zusammenhangsmaße ● Invarianz gegenüber Zeilen- und Spaltenvertauschungen ● ● Äquivarianz des Chiquadrat-Koeffizienten gegenüber Multiplikationen ● > Beispiel: > Nachweis: 𝜒 𝑇𝑟𝑎𝑓𝑜 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑐 𝑛 𝑖𝑗 − 𝑐𝑛 𝑖• 𝑐 𝑛 •𝑗 𝑐𝑛 2 𝑐𝑛 𝑖• 𝑐 𝑛 •𝑗 𝑐𝑛 = 𝑐 𝑖=1 𝑘 𝑗=1 𝑙 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 2 𝑛 𝑖• 𝑛 •𝑗 𝑛 =𝑐 𝜒 2

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Invarianz aller anderen Maße gegenüber Multiplikationen ● > Mittlere quadratische Kontingenz: 𝜙 2 = 1 𝑛 𝜒 2 = 𝑖=1 𝑘 𝑗=1 𝑙 𝑓 𝑖𝑗 − 𝑓 𝑖• 𝑓 •𝑗 2 𝑓 𝑖• 𝑓 •𝑗 > (Korrigierter) Kontingenzkoeffizient 𝐶= 𝜙 2 𝜙 2 +1 ⇒ 𝐶 𝐾 =𝐶× 𝑀 𝑀−1 > Beispiel (Folie 178): Links und rechts jeweils 𝐶 𝐾 =0.2863 ● Invarianz und statistisches Problem ● > Invarianz gegenüber Multiplikationen erzeugt statistisches Problem > Starker Zusammenhang gemäß C bei wenigen Beobachtungen wenig aussagekräftig

5.1 Zusammenhänge zwischen kategorialen Merkmalen

5.1 Zusammenhänge zwischen kategorialen Merkmalen 5.1.3 Grafische Analysemöglichkeiten Gestapelte und gruppierte Säulendiagramme ● Konzept und Beispiel ●

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Stapelung vs. Gruppierung ● > Stapelung: Randverteilung eines Merkmals leichter ersichtlich > Gruppierung: (Absolute) Bedingte Verteilungen leichter ersichtlich

5.1 Zusammenhänge zwischen kategorialen Merkmalen Segmentierte Säulen- und Balkendiagramme Darstellung der (relativen) bedingten Verteilungen

5.1 Zusammenhänge zwischen kategorialen Merkmalen Assoziationsplots ● Konzept ● 𝑛 𝑖𝑗 − 𝑛 𝑖 𝑛 𝑗 𝑛 > „Abweichungen von der Unabhängigkeit“: 𝑛 𝑖𝑗 − 𝑛 𝑖• 𝑛 •𝑗 𝑛 𝑛 𝑖• 𝑛 •𝑗 𝑛 > Pearson-Residuen: > Assoziationsplot: - Richtung der Säulen nach Vorzeichen der Residuen (nach oben oder unten) - Höhe der Säulen proportional zu absoluten Residuen - Breite der Säulen proportional zu Termen des Nenners - Flächen der Säulen entsprechen den absoluten Abweichungen > Unterschiede der bedingten Verteilungen werden hervor- gehoben

5.1 Zusammenhänge zwischen kategorialen Merkmalen > Rechenbeispiel von Folie 165 und 166

5.1 Zusammenhänge zwischen kategorialen Merkmalen ● Beispiel 5.1.3 ●

5.1 Zusammenhänge zwischen kategorialen Merkmalen

5.1 Zusammenhänge zwischen kategorialen Merkmalen Mosaikplots ● Konzept ● Breiten der Säulen (Balken) spiegeln Randverteilung eines Merkmals wider. Dadurch entsprechen Flächen der gemeinsamen relativen Verteilung ( 𝑓 𝑖𝑗 ) ● Beispiel 5.1.4 ● 𝑛 11 𝑛 1 = 𝑓 11 𝑋|𝑌 Höhe: 𝑛 1 𝑛 = 𝑓 1 Breite: vertauscht! 𝑛 1 𝑛 11 𝑛 ×𝑛 1 = 𝑓 11 Fläche: ● Höherdimensionale Mosaikplots ●

5.1 Zusammenhänge zwischen kategorialen Merkmalen Spineplots ● Konzept ● Ähnlich wie Mosaikplots, jedoch Lücken zwischen den Säulen und Skalenachse ● Beispiel 5.1.5 ●

5.2 Zusammenhänge zwischen metrischen Merkmalen 5.2.1 Grafische Analysemöglichkeiten Streudiagramme ● Konzept ● ● Beispiel 5.2.1 ●

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Richtung von Zusammenhängen ● > Positiv: Größere x-Werte gehen tendenziell mit größeren y-Werten einher > Negativ: Größere x-Werte gehen tendenziell mit kleineren y-Werten einher ● Zweidimensionale Ausreißer ● Höherdimensionale Ausreißer nicht zwingend in niedrigeren Dimensionen sichtbar (vgl. Abb. 5.2.1 und 5.2.2)

5.2 Zusammenhänge zwischen metrischen Merkmalen Streudiagramm-Matrizen ● Konzept ● ● Beispiel 5.2.2 ● ● Hilfsmittel für „Datenscreening“ und Modellbildung ●

5.2 Zusammenhänge zwischen metrischen Merkmalen Hexagonalplots ● Konzept ● ● Beispiel 5.2.3 ● Mehr als die Hälfte aller etwa 200 Studierenden besitzt eine Schuhgröße zwischen 42 und 46 und schläft zwischen 7 und 9 Stunden (ohne Färbung nicht ersichtlich)

5.2 Zusammenhänge zwischen metrischen Merkmalen 5.2.2 Zusammenhangsmaße für metrische Merkmale Empirische Kovarianz ● Definition und Interpretation ● > Gegeben: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3) 𝑥 =5.9 𝑦 =3.5 Rechteckfläche z. B.: 𝑥 7 − 𝑥 × 𝑦 7 − 𝑦 = 9−5.9 × 6−3.5 =3.1×2.5 =7.75

5.2 Zusammenhänge zwischen metrischen Merkmalen 𝑠 𝑋𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 > Empirische Kovarianz: > Als „durchschnittliche Rechteckfläche“ (< 0, = 0 oder > 0) interpretierbar ● Beispiel 5.2.4 ● Hier gilt: 𝑠 𝑋𝑌 = 24.5 10 =2.45

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Verschiebungsformel für die empirische Kovarianz ● > Es gilt: 𝑠 𝑋𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 > Beweis: 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑦 𝑥 𝑖 − 𝑥 𝑦 𝑖 + 𝑥 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑦 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑖=1 𝑛 𝑦 𝑖 + 𝑖=1 𝑛 𝑥 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑦 𝑛 𝑥 − 𝑥 𝑛 𝑦 +𝑛 𝑥 𝑦 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 −𝑛 𝑥 𝑦 Division durch n

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Transformationseigenschaften ● ● Verschiebungen ● > Transformation: 𝑢 𝑖 , 𝑣 𝑖 = 𝑥 𝑖 + 𝑐 𝑋 , 𝑦 𝑖 + 𝑐 𝑌 für 𝑖=1, …, 𝑛 > Rechteckflächen bei Verschiebung sind invariant: 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 𝑥 𝑖 + 𝑐 𝑋 − 𝑥 − 𝑐 𝑋 𝑦 𝑖 + 𝑐 𝑌 − 𝑦 − 𝑐 𝑌 = 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 ⇒ Kovarianz ist verschiebungsinvariant

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Umskalierungen ● > Transformation: 𝑢 𝑖 , 𝑣 𝑖 = 𝑐 𝑋 𝑥 𝑖 , 𝑐 𝑌 𝑦 𝑖 für 𝑖=1, …, 𝑛 und 𝑐 𝑋 >0, 𝑐 𝑌 >0 > Rechteckflächen bei Umskalierung sind äquivariant im Sinne von ... 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 𝑐 𝑋 𝑥 𝑖 − 𝑐 𝑋 𝑥 𝑐 𝑌 𝑦 𝑖 − 𝑐 𝑌 𝑦 = 𝑐 𝑋 𝑐 𝑌 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 ⇒ Kovarianz ist äquivariant im Sinne von... 𝑠 𝑈𝑉 = 1 𝑛 𝑖=1 𝑛 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 𝑐 𝑋 𝑐 𝑌 × 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 𝑐 𝑋 𝑐 𝑌 𝑠 𝑋𝑌

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Zwischenschritt zum Korrelationskoeffizienten ● > Problem: Kovarianz als Zusammenhangsmaß nicht geeignet, da skalen- abhängig und Wertebereich unbeschränkt (nichtnormiertes Maß) > Lösung: Berechne Kovarianz der standardisierten Werte

5.2 Zusammenhänge zwischen metrischen Merkmalen Empirischer Korrelationskoeffizient nach Pearson ● Kovarianz standardisierter Werte ● > Unterziehe x- und y-Werte einer Z-Standardisierung 𝑢 𝑖 = 𝑥 𝑖 − 𝑥 𝑠 𝑋 = 1 𝑠 𝑋 𝑥 𝑖 − 𝑥 𝑠 𝑋 , 𝑣 𝑖 = 𝑦 𝑖 − 𝑦 𝑠 𝑌 = 1 𝑠 𝑌 𝑦 𝑖 − 𝑦 𝑠 𝑌 > Dann gilt (vgl. Folie 115): 𝑢 =0, 𝑣 =0, 𝑠 𝑈 2 =1, 𝑠 𝑉 2 =1 > Daraus folgt dann: 𝑠 𝑈𝑉 = 1 𝑛 𝑖=1 𝑛 𝑢 𝑖 − 𝑢 𝑣 𝑖 − 𝑣 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑠 𝑋 −0 𝑦 𝑖 − 𝑦 𝑠 𝑌 −0 = 1 𝑠 𝑋 𝑠 𝑌 × 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 Korrelationskoeffizient

5.2 Zusammenhänge zwischen metrischen Merkmalen

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Definition −äquivalente Varianten ● 𝑟 𝑋𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 1 𝑛 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 1 𝑛 𝑖=1 𝑛 𝑦 2 − 𝑦 2 > Variante 1: Mittelwertbildungen 𝑟 𝑋𝑌 = 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑦 𝑖 − 𝑦 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 = 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 −𝑛 𝑥 𝑦 𝑖=1 𝑛 𝑥 𝑖 2 −𝑛 𝑥 2 𝑖=1 𝑛 𝑦 2 −𝑛 𝑦 2 > Variante 2: Summenbildungen

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Verschiebungs- und skaleninvariant ● > Korrelationskoeffizient ist verschiebungsinvariant sind, da dies Kovarianz und Varianz sind. > Der Korrelationskoeffizient ist auch skaleninvariant: 𝑟 𝑈𝑉 = 𝑠 𝑈𝑉 𝑠 𝑈 𝑠 𝑉 = 𝑐 𝑋 𝑐 𝑌 𝑠 𝑋𝑌 𝑐 𝑋 𝑠 𝑋 𝑐 𝑌 𝑠 𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 ● Wertebereich ● > Es lässt sich zeigen: 𝑟 𝑋𝑌 ∈ −1,1 > Die Korrelation ist betragsmäßig genau dann gleich 1, falls die y-Werte perfekt linear von den x-Werten abhängen im Sinne von 𝑦 𝑖 − 𝑦 =𝑐 𝑥 𝑖 − 𝑥 für ein 𝑐≠0 ⇔ 𝑦 𝑖 = 𝑦 −𝑐 𝑥 +𝑐 𝑥 𝑖 ⇔ 𝑦 𝑖 = 𝑏 0 + 𝑏 1 𝑥 𝑖 mit 𝑏 0 = 𝑦 −𝑐 𝑥 , 𝑏 1 =𝑐

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Interpretation ●

5.2 Zusammenhänge zwischen metrischen Merkmalen

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Korrelation misst nur lineare Abhängigkeit ● ● Reine Optik kann täuschen ● ● Beispiel 5.2.5 ● Gegeben: (2, 1), (4, 2), (4, 3), (5, 2), (6, 4), (8, 5), (9, 6), (10, 4), (4, 5), (7, 3) 𝑥 = 59 10 =5.9 𝑦 = 35 10 =3.5

5.2 Zusammenhänge zwischen metrischen Merkmalen 𝑟 𝑋𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 1 𝑛 𝑖=1 𝑛 𝑦 2 − 𝑦 2 = 231 10 −5.9×3.5 407 10 − 5.9 2 145 10 − 3.5 2 ≈0.6730

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Verhältnis zur Kausalität ● > Keine Ursache-Wirkungs-Aussage > Weitere Ausführungen in Abschnitt 5.3.3. ● Zur Historie und Namensgebung des Korrelationskoeffizienten ●

5.2 Zusammenhänge zwischen metrischen Merkmalen Beispiel 5.2.6: Korrelation ökonomischer Indikatoren

5.2 Zusammenhänge zwischen metrischen Merkmalen

5.2 Zusammenhänge zwischen metrischen Merkmalen Empirische Kovarianz- und Korrelationsmatrizen ● Kovarianzmatrix ● 𝑠 𝑋𝑋 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 𝑥 𝑖 − 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 − 𝑥 2 = 𝑠 𝑋 2 . Beachte: „Kovarianz mit sich selbst“ = Varianz ● Korrelationsmatrix ● 𝑟 𝑋𝑋 = 𝑠 𝑋𝑋 𝑠 𝑋 𝑠 𝑋 = 𝑠 𝑋 2 𝑠 𝑋 2 =1. Beachte: „Korrelation mit sich selbst“ = 1

5.2 Zusammenhänge zwischen metrischen Merkmalen Korrelationskoeffizient nach Spearman ● Hintergrund ● > Betrachte folgende Daten: (1, 1), (8, 0.125), (4, 0.25), (2, 0.5) > Feststellung: Perfekter monotoner Zusammenhang, jedoch Korrelation < 1 => Korrelation misst nur Stärke der linearen Abhängigkeit

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Rangzahlen ● > Originalwerte: 𝑥 1 =1, 𝑥 2 =8, 𝑥 3 =4, 𝑥 4 =2 > Geordnete Werte: 𝑥 1 =1, 𝑥 2 =2, 𝑥 3 =4, 𝑥 4 =8 > Rangwerte: 𝑟𝑔 𝑥 1 =1, 𝑟𝑔 𝑥 2 =4, 𝑟𝑔 𝑥 3 =3, 𝑟𝑔 𝑥 4 =2 > Bei Bindungen werden Durchschnittsränge gebildet (vgl. Tab. 5.2.3 ) ● Definition und Interpretation ● > Der Korrelationskoeffizient nach Spearman (Rangkorrelationskoeffizient) ist der für die Rangwerte ermittelte Korrelationskoeffizient nach Pearson 𝑟 𝑆 = 1 𝑛 𝑖=1 𝑛 𝑟𝑔 𝑥 𝑖 𝑟𝑔 𝑦 𝑖 − 𝑟𝑔 𝑋 𝑟𝑔 𝑌 1 𝑛 𝑖=1 𝑛 𝑟𝑔 𝑥 𝑖 2 − 𝑟𝑔 𝑋 2 1 𝑛 𝑖=1 𝑛 𝑟𝑔 𝑦 𝑖 2 − 𝑟𝑔 𝑌 2

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Sinnvolle Ergänzung zur gewöhnlichen Korrelation ● ● Transformationseigenschaften ● ● Auch für Ordinalskala geeignet ● ● Beispiel 5.2.7 ●

5.2 Zusammenhänge zwischen metrischen Merkmalen 353.5 10 − 55 10 × 55 10 383 10 − 55 10 2 383 10 − 55 10 2 𝑟 𝑆 = ≈0.6335 Beispiel 5.2.8: Korrelation von Wirtschaftsleistung und Lebenserwartung

5.2 Zusammenhänge zwischen metrischen Merkmalen 5.2.3 Einfache lineare Regression Zweck und allgemeine Vorgehensweise ● Hintergrund ●

5.2 Zusammenhänge zwischen metrischen Merkmalen Vorteile einer funktionalen Beschreibung von Zusammenhängen: Quantifizierung kausaler Effekte, Prognosen, ... ● Lineares Regressionsproblem ● > Zusammenhang zwischen X und Y soll mittels einer Geraden 𝑦= 𝑏 0 + 𝑏 1 𝑥 beschrieben werden. > Regressionsproblem: Welche Gerade passt am besten? ● Mathematisch formaler Rahmen ● > Gegeben Beobachtungswerte: 𝑥 1 , 𝑦 1 , 𝑥 2 , 𝑦 2 ,…, 𝑥 𝑛 , 𝑦 𝑛 > Es gelte die Beziehung: 𝑦 𝑖 = 𝑏 0 + 𝑏 1 𝑥 𝑖 + 𝑢 𝑖 für 𝑖=1,…,𝑛

5.2 Zusammenhänge zwischen metrischen Merkmalen > Ausführlich notiert: 𝑦 1 = 𝑏 0 + 𝑏 1 𝑥 1 + 𝑢 1 , 𝑦 2 = 𝑏 0 + 𝑏 1 𝑥 2 + 𝑢 2 , ... 𝑦 𝑛 = 𝑏 0 + 𝑏 1 𝑥 𝑛 + 𝑢 𝑛 . Y X U Involvierte Variablen (Merkmale) 𝑌 ... Zielvariable, abhängige Variable, Regressand, ... 𝑋 ... erklärende Variable, unabhängige Variable, Regressor, ... 𝑈 ... Fehler(variable), Residuum, ... ● Interpretation von Koeffizienten und Prognosen ● > 𝑏 1 ... Steigungskoeffizient: Veränderung in 𝑋 um ∆𝑥 Einheiten geht „tendenziell“ mit einer Veränderung in 𝑌 um 𝑏 1 ×∆𝑥 Einheiten einher

5.2 Zusammenhänge zwischen metrischen Merkmalen > 𝑏 0 ... Achsenabschnitt: der für 𝑌 „prognostizierte Wert für 𝑋=0 (inhaltlich nicht immer sinnvoll) > Beispiel einer Prognose (Prädiktion) des Körpergewichts einer 180 cm großen Person (Abb. 5.2.14): −95.13+0.93×180=72.27

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Berechnungsmethoden ● 𝑖=1 𝑛 𝑢 𝑖 𝑖=1 𝑛 𝑢 𝑖 2 Minimiere oder alternativ: LAD-Gerade (Least Absolute Deviation) KQ-Gerade (Kleinste Quadrate)

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Frage der Auswahl ● > Kleinste-Quadrate-Gerade am populärsten aus praktischen und theoretische Gründen > Allerdings: LAD-Gerade robuster gegenüber Ausreißern > Beziehung von KQ-Gerade zu LAD-Gerade ähnlich wie arithmetisches Mittel zu Median

5.2 Zusammenhänge zwischen metrischen Merkmalen KQ−Methode (L2−Regression) ● Minimierungsproblem ● > Minimiere Summe der quadratischen Abweichungen: 𝑖=1 𝑛 𝑢 𝑖 2 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 2 > Definiere dazu analytische Funktion: 𝑄 𝑏 0 , 𝑏 1 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 2 > Analytisches Minimierungsproblem: min 𝑏 0 , 𝑏 1 𝑄 𝑏 0 , 𝑏 1

5.2 Zusammenhänge zwischen metrischen Merkmalen > Beispiel: Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2) (vgl. Folie 220) 𝑄 𝑏 0 , 𝑏 1 = 𝑖=1 5 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 2 = 𝑦 1 − 𝑏 0 − 𝑏 1 𝑥 1 2 + 𝑦 2 − 𝑏 0 − 𝑏 1 𝑥 2 2 + 𝑦 3 − 𝑏 0 − 𝑏 1 𝑥 3 2 + 𝑦 4 − 𝑏 0 − 𝑏 1 𝑥 4 2 + 𝑦 5 − 𝑏 0 − 𝑏 1 𝑥 5 2 = 1− 𝑏 0 − 𝑏 1 2 + 2− 𝑏 0 − 2𝑏 1 2 + 1− 𝑏 0 − 3𝑏 1 2 + 3− 𝑏 0 − 4𝑏 1 2 + 2− 𝑏 0 − 5𝑏 1 2

5.2 Zusammenhänge zwischen metrischen Merkmalen > Im vorliegenden Beispiel lauten die Lösungen: 𝑏 0 =0.9 und 𝑏 1 =0.3 mit 𝑄 0.9, 0.3 =1.9

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Lösung und Berechnung ● > Allgemeine Lösungsformeln (werden in Statistik 2 hergeleitet): 𝑏 1 = 𝑠 𝑋𝑌 𝑠 𝑋 2 𝑏 0 = 𝑦 − 𝑏 1 𝑥 und > Für 𝑠 𝑋 2 =0 sind die Lösungen nicht eindeutig (Abb. 5.2.17)

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Bezeichnungen ● > KQ-Gerade: 𝑦 𝑥 = 𝑏 0 + 𝑏 1 𝑥 > Gefittete Werte: 𝑦 𝑖 = 𝑦 𝑥 𝑖 = 𝑏 0 + 𝑏 1 𝑥 𝑖 > KQ-Residuen: 𝑢 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 ● Eigenschaften der KQ-Gerade ● > (1) KQ-Gerade verläuft stets durch den Schwerpunkt 𝑥 , 𝑦 (2) Die Summe der gefitteten Werte ist gleich der Summe der y-Werte: 𝑖=1 𝑛 𝑦 𝑖 = 𝑖=1 𝑛 𝑦 𝑖 (3) Die Summe der KQ-Residuen ist gleich 0: 𝑖=1 𝑛 𝑢 𝑖 =0

5.2 Zusammenhänge zwischen metrischen Merkmalen > Nachweis dieser 3 und weiterer Eigenschaften folgt in Statistik 2 ● Beispiel 5.2.9 ● Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2)

5.2 Zusammenhänge zwischen metrischen Merkmalen 𝑥 = 15 5 =3 𝑦 = 9 5 =1.8 𝑠 𝑋𝑌 𝑠 𝑋 2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 𝑦 𝑖 − 𝑥 𝑦 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 = 30 5 −3×1.8 55 5 − 3 2 =0.3 𝑏 1 = 𝑏 0 = 𝑦 − 𝑏 1 𝑥 = 1.8−0.3×3=0.9 ⇒ 𝑦 𝑥 = 𝑏 0 + 𝑏 1 𝑥=0.9+0.3𝑥

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Interpretation der KQ-Gerade ● > Deutung von Steigung und Achsenabschnitt wie auf Folien 218-219 > „Durchschnittsgerade“ (Schwerpunkteigenschaft) Beispiel von Folie 219: „Mit jedem Zentimeter nimmt das Gewicht durchschnittlich um 0.93 Kilogramm zu“ „Eine 180 cm große Person sollte im Durchschnitt 72.27 kg wiegen“ ● Bezug zum Korrelationskoeffizienten ● 𝑏 1 = 𝑠 𝑋𝑌 𝑠 𝑋 2 𝑟 𝑋𝑌 = 𝑠 𝑋𝑌 𝑠 𝑋 𝑠 𝑌 Es gilt: und Daraus folgt: 𝑏 1 <0 ⇔ 𝑟 𝑋𝑌 <0 𝑏 1 =0 ⇔ 𝑟 𝑋𝑌 =0 𝑏 1 >0 ⇔ 𝑟 𝑋𝑌 >0

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Bezug zum arithmetischen Mittel ● Betrachtet man Minimierungsproblem mit Restriktion 𝑏 1 =0, erhält man 𝑓 𝑏 0 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 2 min 𝑏 0 𝑓 𝑏 0 mit Die Lösung hierzu lautet bekanntlich: 𝑏 0 = 𝑦

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Vor- und Nachteile der KQ-Regression ● > Einfache Berechenbarkeit, gute Interpretierbarkeit, Eindeutigkeit > In gewisser Weise optimal (Gauß-Markov-Theorem) > Jedoch: Empfindlich gegenüber Ausreißern (nicht robust) ● Anmerkungen zur Historie ●

5.2 Zusammenhänge zwischen metrischen Merkmalen LAD−Methode (L1−Regression) ● Minimierungsproblem ● > Minimiere Summe der absoluten Abweichungen: 𝑖=1 𝑛 𝑢 𝑖 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 > Definiere dazu Funktion: 𝑄 𝑏 0 , 𝑏 1 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 > Minimierungsproblem: min 𝑏 0 , 𝑏 1 𝑄 𝑏 0 , 𝑏 1

5.2 Zusammenhänge zwischen metrischen Merkmalen > Beispiel: Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2) (vgl. Folie 220) 𝑄 𝑏 0 , 𝑏 1 = 𝑖=1 5 𝑦 𝑖 − 𝑏 0 − 𝑏 1 𝑥 𝑖 = 𝑦 1 − 𝑏 0 − 𝑏 1 𝑥 1 + 𝑦 2 − 𝑏 0 − 𝑏 1 𝑥 2 + 𝑦 3 − 𝑏 0 − 𝑏 1 𝑥 3 + 𝑦 4 − 𝑏 0 − 𝑏 1 𝑥 4 + 𝑦 5 − 𝑏 0 − 𝑏 1 𝑥 5 = 1− 𝑏 0 − 𝑏 1 + 2− 𝑏 0 −2 𝑏 1 + 1− 𝑏 0 −3 𝑏 1 + 3− 𝑏 0 − 4𝑏 1 + 2− 𝑏 0 −5 𝑏 1

5.2 Zusammenhänge zwischen metrischen Merkmalen > Im vorliegenden Beispiel lauten die Lösungen: 𝑏 0 =0.75 und 𝑏 1 =0.24 mit 𝑄 0.75, 0.25 =2.5 ● Lösung und Berechnung ● Analytisch nicht handhabbar; stattdessen: numerische Bestimmung ● Eindeutigkeitsprobleme ● (siehe nächste Folie)

5.2 Zusammenhänge zwischen metrischen Merkmalen

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Bezeichnungen ● > LAD-Gerade: 𝑦 𝑥 = 𝑏 0 + 𝑏 1 𝑥 > Gefittete Werte: 𝑦 𝑖 = 𝑦 𝑥 𝑖 = 𝑏 0 + 𝑏 1 𝑥 𝑖 > LAD-Residuen: 𝑢 𝑖 = 𝑦 𝑖 − 𝑦 𝑖 ● Eigenschaften der LAD-Gerade ● > 3 Eigenschaften der KQ-Gerade (Folie 226) gelten nicht mehr! > „Mediangerade “ in folgendem Sinne: Etwa 50% der Beobachtungen liegt oberhalb und 50% unterhalb der Geraden > Verallgemeinerung im Rahmen der sog. Quantilsregression

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Beispiel 5.2.10 ● Beobachtungswerte: (1, 1), (2, 2), (3, 1), (4, 3), (5, 2) Numerische Ermittlung der LAD-Geraden (z. B. mit Software R): 𝑦 𝑥 = 𝑏 0 + 𝑏 1 𝑥=0.75+0.25𝑥

5.2 Zusammenhänge zwischen metrischen Merkmalen Wohlgemerkt: 𝑖=1 𝑛 𝑦 𝑖 ≠ 𝑖=1 𝑛 𝑦 𝑖 𝑖=1 𝑛 𝑢 𝑖 ≠0 Beispielsweise gilt hier: 𝑦 1 = 𝑦 𝑥 1 = 𝑏 0 + 𝑏 1 𝑥 1 =0.75+0.25×1=1 𝑦 2 = 𝑦 𝑥 2 = 𝑏 0 + 𝑏 1 𝑥 2 =0.75+0.25×2=1.25 ⋮ 𝑢 1 = 𝑦 1 − 𝑦 1 =1−1=0 𝑢 2 = 𝑦 2 − 𝑦 2 =2−1.25=0.75 ⋮

5.2 Zusammenhänge zwischen metrischen Merkmalen Außerdem zu beobachten (kein Zufall!): 𝑖=1 𝑛 𝑢 𝑖 2 ≤ 𝑖=1 𝑛 𝑢 𝑖 2 𝑖=1 𝑛 𝑢 𝑖 ≤ 𝑖=1 𝑛 𝑢 𝑖 und ● Interpretation der LAD-Gerade ● > Deutung von Steigung und Achsenabschnitt wie auf Folien 218-219 > „Mediangerade “ (Folie 236) > Wesentlich sind die Robustheitseigenschaften ● Bezug zum Median ● Betrachtet man Minimierungsproblem mit Restriktion 𝑏 1 =0, erhält man 𝑓 𝑏 0 = 𝑖=1 𝑛 𝑦 𝑖 − 𝑏 0 min 𝑏 0 𝑓 𝑏 0 mit Die Lösung hierzu lautet bekanntlich: 𝑏 0 = 𝑦 0.5

5.2 Zusammenhänge zwischen metrischen Merkmalen ● Vor- und Nachteile der LAD-Regression ● > Unempfindlich(er) gegenüber Ausreißern (robust) > Schwieriger zu berechnen (numerisches Problem), Eindeutigkeits- probleme können auftreten ● Anmerkungen zur Historie ● Kritische Punkte und Alternativen ● Frage der Richtung der Abhängigkeit ● ● Multiple lineare Regression ● ● Nichtlineare Regressionsansätze ●

5.2 Zusammenhänge zwischen metrischen Merkmalen Beispiel 5.2.11: Entwicklung von Wohnungspreisen in Deutschland

5.2 Zusammenhänge zwischen metrischen Merkmalen

5.3 Ergänzende und vertiefende Themen 5.3.1 Zusammenhänge in anderen Skalierungsfällen Grafische Analysemöglichkeiten ● Metrisches vs. kategoriales Merkmal ●

5.3 Ergänzende und vertiefende Themen ● Kategoriales vs. metrisches Merkmal ●

5.3 Ergänzende und vertiefende Themen ● Kategorisierte und dichotomisierte Merkmale ●

5.3 Ergänzende und vertiefende Themen Zusammenhangsmaße ● Zusammenhangsmaße für ordinale Merkmale ● > Hier gilt: 𝐶 𝐾 =0.3585, 𝑟 𝑋𝑌 =0.2515, 𝑟 𝑆 =0.2369 > Berechnung von 𝑟 𝑋𝑌 hier eigentlich nicht ganz sinnvoll, da ordinal skaliertes Merkmal vorliegt

5.3 Ergänzende und vertiefende Themen > Beispiel mit größerem Unterschied zwischen 𝑟 𝑋𝑌 und 𝑟 𝑆 > Hier gilt: 𝐶 𝐾 =0.9129, 𝑟 𝑋𝑌 =−0.8455, 𝑟 𝑆 =−0.9231 > Es existieren zahlreiche alternative Zusammenhangsmaße für ordinal skalierte Merkmale ● Zusammenhangsmaße in gemischten Skalierungsfällen ●

5.3 Ergänzende und vertiefende Themen Spezielle Regressionsmodelle ● Hintergrund ● ● Anpassungs- und Prognosemaße ● ● Metrisches vs. kategoriales Merkmal: Varianzanalysemodelle ● > Modellierung der Streuungszerlegung im Rahmen eines (multiplen) linearen Regressionsmodells > Zur Erinnerung nochmal ein altes Beispiel ...

5.3 Ergänzende und vertiefende Themen ● Kategoriales vs. metrisches Merkmal: Logistische Regressionsmodelle ● ● Multiple Regression ● ● Generalisierte lineare Modelle ●

5.3 Ergänzende und vertiefende Themen 5.3.2 Grafische Darstellung höherdimensionaler Daten Höherdimensionale Mosaikplots ● Konzept ● ● Beispiel 5.3.1: 3-dimensionale Mosaikplots ●

5.3 Ergänzende und vertiefende Themen ● Beispiel 5.3.2: 4-dimensionale Mosaikplots ● Daten ● Weitere Möglichkeiten ●

5.3 Ergänzende und vertiefende Themen 3D-Punktwolken ● Konzept ● ● Beispiel 5.3.3 ●

5.3 Ergänzende und vertiefende Themen Biplots ● Konzept ● ● Hauptkomponentenanalyse-Biplots ●

5.3 Ergänzende und vertiefende Themen

5.3 Ergänzende und vertiefende Themen ● Korrespondenzanalyse-Biplots ●

5.3 Ergänzende und vertiefende Themen

5.3 Ergänzende und vertiefende Themen

5.3 Ergänzende und vertiefende Themen 5.3.3 Wichtige Aspekte bei der Analyse empirischer Zusammenhänge Empirischer Zusammenhänge und Kausalität ● Zum Kausalitätsbegriff ● ● Kausalität in der Statistik ● > „Force as a cause of motion is exactly on the same footing as a tree-god as cause of growth“ (Karl Pearson [1900b]) > Ein „kognitives Konstrukt “ (Kälble [1997]) > Zu Causal Inference und Structural Causal Models vgl. etwa Cox und Wermuth [2004] oder Pearl [2009] ● Korrelation impliziert keine Kausalität ● Empirische Zusammenhangsmaße können stets verzerrt sein durch (i) systematische Verzerrungen (ii) zufällige Schwankungen

5.3 Ergänzende und vertiefende Themen ● Nachweis und Messung kausaler Effekte ● ● Experimentalstudien vs. Erhebungsstudien ● ● Einflussschema bei Kausalanalysen ●

5.3 Ergänzende und vertiefende Themen Spezielle Formen von Kausalität ● Direkte und indirekte kausale Effekte ● ● Dynamische und simultane Abhängigkeit ● > Dynamische kausale Effekte: Anpassungsvorgänge vollziehen sich zeitlich verzögert und schrittweise > Simultane Kausalität: X beeinflusst Y und umgekehrt

5.3 Ergänzende und vertiefende Themen Systematische Verzerrungen ● Hintergrund ● ● Beispiele systematischer Verzerrungen ● Kodierung binärer Variablen Abitur: 0 = kein Abitur, 1 = Abitur vorhanden Männlich: 0 = weiblich, 1 = männlich Weiblich: 0 = männlich, 1 = weiblich

5.3 Ergänzende und vertiefende Themen ● Merkregeln für den 3-Variablen-Fall ● > Direkter Effekt von X auf Y ist positiv oder negativ > Direkter Effekt von Z auf Y ist positiv oder negativ > Indirekter Effekt von X über Z auf Y negativ ⇔ Corr(X, Z) und direkter Z-Effekt gegensätzlich positiv ⇔ Corr(X, Z) und direkter Z-Effekt gleichgerichtet 0 ⇔ Corr(X, Z) = 0 und/oder direkter Z-Effekt = 0

5.3 Ergänzende und vertiefende Themen > Gesamteffekt (totaler Effekt) von X auf Y spiegelt direkten X-Effekt systematisch verzerrt wider, sofern indirekter X-Effekt ≠ 0 > Direkter X-Effekt wird kompensiert ⇔ direkter und indirekter X-Effekt gegensätzlich verstärkt ⇔ direkter und indirekter X-Effekt gleichgerichtet ● Weitere Bemerkungen ● > Wird direkter Effekt von X auf Y verzerrt, so auch der direkte Effekt von Z auf Y > Indirekter Effekt muss nicht kausaler Natur sein > Corr(X, Z) muss nicht kausal begründet sein > Besonders schwerwiegende Verzerrung bei Überkompensation ⇔ Indirekter Effekt stärker als direkter Effekt

5.3 Ergänzende und vertiefende Themen ● Scheinabhängigkeiten ● ● Methodischer Umgang mit systematischen Verzerrungen ● ● Versuchsplanung ● ● Randomisierung ● ● Untersuchung in homogeneren Untergruppen ● ● Multiple lineare Regression ● ● Multiple Regression in anderen Modellen ●

5.3 Ergänzende und vertiefende Themen ● Beispiel 5.3.4 ● > Fall 1: Erwerbstätigkeit (Zielvariable), Alter und Schulabschluss 84.9% 84.1% 61.3% 35.4% 28.6% 23.5% 81.6% Mögliches Konstrukt: Verstärkung des direkten Effekts von Alter durch indirekten Effekt von Alter über Abitur

5.3 Ergänzende und vertiefende Themen > Fall 2: Gewicht (Zielvariable), Geschlecht und Größe Mögliches Konstrukt: Verstärkung des direkten Effekts von „männlich“ durch indirekten Effekt von „männlich“ über Größe

5.3 Ergänzende und vertiefende Themen Zufällige Schwankungen ● Hintergrund ● ● Beispiele rein zufälliger Abhängigkeiten ● > Beispiel 1: Man nehme einen weißen und einen schwarzen Würfel und werfe beide jeweils n = 10 Mal: weiß: 1, 3, 5, 5, 4, 6, 4, 6, 3, 6 schwarz: 5, 4, 6, 1, 2, 3, 4, 1, 4, 5 (1, 5), (3, 4), (5, 6), (5, 1), (4, 2), (6, 3), (4, 4), (6, 1), (3, 4), (6, 5) ⟹ 𝑟 𝑋𝑌 =−0.34 Jetzt 1000-fache Wiederholung dieses „Experiments“...

5.3 Ergänzende und vertiefende Themen > Beispiel 2: Man nehme einen weißen und einen schwarzen Würfel und werfe beide jeweils 60 Mal

5.3 Ergänzende und vertiefende Themen ⟹ 𝐶 𝐾 =0.32 Jetzt 1000-fache Wiederholung dieses „Experiments“...

5.3 Ergänzende und vertiefende Themen ● System oder Zufall? ● ● Methodischer Umgang mit zufälligen Schwankungen ● ● Höhere Aussagekraft durch mehr Beobachtungen ● ● Induktive Methoden ●