UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018 Statistik Prof. Dr. Stefan Kooths UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018
Kontaktdaten Prof. Dr. Stefan Kooths Leiter des Prognosezentrums Institut für Weltwirtschaft Kiel (IfW) Büro Berlin In den Ministergärten 8 10117 Berlin 030/2067-9664 stefan.kooths@ue-germany.com www.kooths.de
The Kiel Institute for the World Economy Forecasting Center
Be smarter than your phone …
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Leitfrage Worum geht es?
Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage
Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage
Aufgaben und Vorgehensweise Daten sammeln darstellen analysieren interpretieren Phase 1 Planung Phase 2 Datenerhebung Phase 3 Datenaufbereitung Phase 4 Auswertung und Analyse Phase 5 Interpretation
Wichtige Begriffe 1
Wichtige Begriffe 2 Statistische Einheit (= Merkmalsträger) Träger von Eigenschaften, die im Rahmen einer empirischen Untersuchung von Interesse sind Grundgesamtheit Eine hinsichtlich sachlicher, räumlicher und zeitlicher Kriterien sinnvoll gebildete Gesamtheit von statistischen Einheiten Teilgesamtheit Teilmenge der Grundgesamtheit Merkmal (= Variable) Charakteristische Eigenschaft einer statistischen Einheit Merkmalsausprägungen (= Definitionsbereich des Merkmals) Mögliche Werte, die ein Merkmal annehmen kann Merkmalswert Konkreter Wert, den eine statistische Einheit hinsichtlich eines bestimmten Merkmals aufweist
Merkmal, Merkmalsausprägungen, Merkmalswert: Beispiel
Stichprobe (= Teilerhebung) Erhebungsformen Vollerhebung Alle statistischen Einheiten einer Grundgesamtheit werden berücksichtigt (Beispiel: Volkszählung) Stichprobe (= Teilerhebung) Tatsächlich untersuchte Teilgesamtheit (Beispiel: Mikrozensus) Kleine Stichprobe: bis zu 30 statistische Einheiten Große Stichprobe: mehr als 30 statistische Einheiten
Skalenniveau Skalentyp Aussageformen mögliche Relationen qualitativ Nominalskala gleich oder ungleich , Ordinalskala Rangordnung , , >, < quantitativ (metrisch) Intervallskala Abstand (Differenzen) , , >, <, +, - Verhältnisskala Verhältnisse (absoluter Nullpunkt) , , >, <, +, -, ,
Häufbarkeit von Merkmalsausprägungen Häufbare Merkmale Merkmalsträger mit mehreren Ausprägungen desselben Merkmals Beispiele Studiengänge eines Studenten Mitgliedschaft in Vereinen Nicht-häufbare Merkmale Merkmalsträger weist genau eine Ausprägung je Merkmal auf Geburtsort einer Person Erstzulassung eines Fahrzeugs
Metrische Merkmale: Diskret, stetig, quasi-stetig Diskrete Merkmale Nur bestimmte Werte auf einer metrischen Skala sind zulässig (= endliche Anzahl an Ausprägungen) Beispiele Zahl der Studenten einer Vorlesung Zahl der Fahrzeuge eines Fuhrparks Quasi-stetige Merkmale Diskret, aber sehr große Anzahl an Ausprägungen Beispiel Kunden einer Sportmarke Stetige Merkmale Können alle (= unendlich viele) Werte innerhalb eines Intervalls annehmen Beispiele Länge eines Werkstücks Füllgewicht
Gruppieren (klassieren, kategorisieren) Zusammenfassen mehrerer Ausprägungen (vor allem bei stetigen Merkmalen) zu einer Klasse oder Kategorie Beispiele Einkommensgruppen (niedrig, mittel, hoch) Altersgruppen (minderjährig, volljährig) Berufserfahrung (0..3 Jahre, 4..10 Jahre, mehr als 10 Jahre)
Übung
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Wie lassen sich Daten sammeln und darstellen? Leitfrage Wie lassen sich Daten sammeln und darstellen?
Befragung Fragebogen Erhebung Befragung Fragebogen Schriftlich Mündlich Beobachtung Experiment Automatische Erfassung
Grober erster Überblick: Stem-and-Leaf-Diagram Messwerte (z. B. Umsatz je Gast eines Restaurants in Euro): 44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106 Stem (Zehner) Leaf (Einer) 4 4 6 7 9 5 6 3 4 6 8 8 7 2 2 5 6 8 1 4 8 9 10
Häufigkeitsverteilungen Variablen Anzahl der statistischen Einheiten in der Gesamtheit: n Merkmal X mit m Ausprägungen 𝑎 1 , 𝑎 2 , … 𝑎 𝑖 , … 𝑎 𝑚 Merkmalswerte 𝑥 1 , 𝑥 2 , … 𝑥 𝑛 Absolute Häufigkeit: ℎ 𝑎 𝑖 Anzahl, mit der die Ausprägung ai in der Gesamtheit auftritt Relative Häufigkeit: 𝑓 𝑎 𝑖 = ℎ 𝑎 𝑖 𝑛 Anteil der Ausprägung ai in der Grundgesamtheit Häufigkeitsverteilung Darstellung von Ausprägungen und ihren absoluten oder relativen Häufigkeiten in Tabellen oder Diagrammen
Summenhäufigkeitsfunktion (empirische Verteilungsfunktion) Fortlaufende Summierung (Kumulierung) der absoluten oder relativen Häufigkeiten Absolut: 𝐻 𝑗 = 𝑖=1 𝑗 ℎ( 𝑎 𝑖 ) Anzahl der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist Relativ: 𝐹 𝑗 = 𝑖=1 𝑗 𝑓( 𝑎 𝑖 ) Anteil der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist
Häufigkeitsverteilung: Tabellendarstellung
Beispiel: Zeitungsverkäufe (Bleymüller 2012, S. 7 ff) Ein Kioskinhaber notiert 200 Tage lang täglich die Zahl der verkauften Exemplare einer bestimmten Zeitung.
Häufigkeitsverteilung und Summenhäufigkeiten
Stabdiagramm Höhenproportional zur Häufigkeit
Histogramm Flächenproportional zur Häufigkeit
Relative Summenhäufigkeitsfunktion
Beispiel: (Sonntagsfrage zur) Bundestagswahl Relative Häufigkeitsverteilung der Wähler (Wahlabsichten) Stichproben Voll- erhebung Nominal- skala
Tortendiagramm (Chart): Bundestagswahlergebnis 2017 Flächenproportional zur Häufigkeit
Klassengrenzen für Klasse j Gruppierung von Daten Klassengrenzen für Klasse j Untere Klassengrenze: 𝑐 𝑗 𝑢 Obere Klassengrenze: 𝑐 𝑗 𝑜 := 𝑐 𝑗 Klassenbreite: 𝑑 𝑗 = 𝑐 𝑗 𝑜 − 𝑐 𝑗 𝑢 = 𝑐 𝑗 − 𝑐 𝑗−1 Klassenmitte: 𝑐′ 𝑗 = 𝑐 𝑗−1 + 𝑐 𝑗 2 Klassen dürfen sich nicht überlappen „von … bis unter“ „über … bis“ Klassen müssen alle Ausprägungen abdecken Ausprägungen eindeutig einer Klasse zuordnen
Absolute Klassenhäufigkeit: ℎ 𝑗 Relative Klassenhäufigkeit: 𝑓 𝑗 Klassenhäufigkeiten Absolute Klassenhäufigkeit: ℎ 𝑗 Anzahl der Beobachtungswerte in der j-ten Klasse Relative Klassenhäufigkeit: 𝑓 𝑗 Anteil der Beobachtungswerte in der j-ten Klasse Histogramm-Darstellung Flächenproportionalität: Klassenbreite berücksichtigen! Höhe proportional zur Klassendichte: ℎ 𝑗 𝑑 𝑗
Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln Klassenanzahl Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln m= 𝑛 m=2∙ 𝑛 m=10∙ log 𝑛 m << n
Beispiel: Monatseinkommen von Studenten
Beispiel: Monatseinkommen von Studenten (cont.) Bezogen auf eine Intervallbreite von 100 Euro
Übungen
Übungen (cont.)
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Leitfrage Wo ist die Mitte/das Zentrum einer Häufigkeitsverteilung? (Repräsentativer oder typischer Wert eines Datensatzes)
Beispiel: Alter der Studenten im 3. Semester Welcher einzelne Wert vermittelt am ehesten einen zutreffenden Eindruck vom Alter der Studenten?
Modus, Median und arithmetisches Mittel Modus (Dichtester Wert): x D Ausprägung, die am häufigsten auftritt Im Beispiel: x D = 21 Median (Zentralwert): x Z Merkmalswert in der Mitte der geordneten Daten n ungerade: 𝑥 𝑍 = 𝑥 𝑛+1 2 n gerade: 𝑥 𝑍 = 1 2 ∙(𝑥 𝑛 2 + 𝑥 𝑛 2 +1 ) Im Beispiel: n = 25 ungerade x Z = x13 = 21 Arithmetisches Mittel: x Durchschnitt aller Merkmalswerte: 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 Im Beispiel: x = 537/25 = 21,48
Median und arithmetisches Mittel (Ergänzung)
Arithmetisches Mittel: Eigenschaften Die Summe der Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist Null (= die Abweichungen heben sich gegeneinander auf) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) = 0 Die Summe der quadrieren Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist kleiner als von jedem anderen beliebigen Wert M 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 < 𝑖=1 𝑛 ( 𝑥 𝑖 −𝑀)2 für: M ≠ x Das arithmetische Mittel folgt jeder linearen Transformation der Merkmalswerte y = + 𝑥 𝑦 = + 𝑥
Übungen
Arithmetisches Mittel Klassierte Daten Arithmetisches Mittel Berechnung über die Klassenmitten als Repräsentanten der Klassen (Annahme der gleichmäßigen Verteilung innerhalb der Klassen!) 𝑥 = 1 𝑛 𝑗=1 𝑘 ℎ𝑗𝑥’𝑗 (mit k = Anzahl der Klassen) Median Fällt in diejenige Klasse j, in der die empirische Verteilungsfunktion F() den Wert 0,5 erreicht bzw. erstmals überschreitet Feinberechnung: 𝑥 Z = 𝑐 𝑗−1 + 𝑐 𝑗 − 𝑐 𝑗−1 𝑓 𝑗 ∙ 0,5−𝐹 𝑐 𝑗−1 Modus Klasse mit der größten Dichte (= größte Histogrammhöhe)
Exkurs: Feinberechnung des Median bei klassierten Daten (Herleitung)
Übung Bestimmen Sie Modus, Median und arithmetisches Mittel.
Quartile Ähnlich wie Median, aber Aufteilung der geordneten Merkmalswerte in 4 gleich große Teile Unteres Quartil: Q1 = X0,25 (Mitte zwischen kleinstem Wert und dem Median) Mittleres Quartil: Q2 = X0,5 = x Z (identisch mit Median) Oberes Quartil: Q3 = X0,75 (Mitte zwischen Median und größtem Wert) Berechnung xp = x pn+0,5 mit […] für die nächst kleinere ganze Zahl Q1: p = 0,25 Q2: p = 0,5 Q3: p = 0,75
Quartile Quelle: https://en.wikipedia.org/wiki/Quartile
Übung
Durchschnittliche prozentuale Veränderungen Geometrisches Mittel Durchschnittliche prozentuale Veränderungen Arithmetisches Mittel ungeeignet (Zinseszinseffekt!) Geometrisches Mittel Beispiel Umsatz im Jahr 2010: 1000 Euro Veränderung im Jahr 2011: +20 % (Faktor 1,2) Veränderung im Jahr 2012: - 5 % (Faktor 0,95) Veränderung im Jahr 2013: - 20 % (Faktor 0,8) Veränderung im Jahr 2014: + 5 % (Faktor 1,05) Berechnung
Übung
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes? Leitfrage Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes?
Beispiel: Altersverteilungen
Interquartilsabstand (Inter Quartile Range, IQR) Streuungsmaße Spannweite (Range) Differenz zwischen größtem und kleinstem Merkmalswert Range = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 Interquartilsabstand (Inter Quartile Range, IQR) Differenz zwischen oberem und unterem Quartil 𝐼𝑄𝑅=𝑄 3 − 𝑄 1 Varianz: s2 (bzw. Standardabweichung s = s 2 ) Durchschnittliche quadrierte Abweichung vom arithmetischen Mittel 𝑠 2 = 1 𝑛 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 Mean Absolute Deviation (MAD) Durchschnittliche absolute Abweichung vom Median MAD= 1 𝑛 𝑖=1 𝑛 | 𝑥 𝑖 − 𝑥 𝑍|
Übung
Boxplot (Box-and-Whisker-Plot) Grafische Darstellung für Mittelwert und Streuung Fünf-Punkte-Zusammenfassung Unteres Quartil Anfang der Box Median Strich innerhalb der Box Obere Quartil Ende der Box Kleinster Merkmalswert Linie (Whisker) unterhalb der Box Größter Merkmalswert Linie (Whisker) oberhalb der Box Zäune für Whisker und Ausreißer Unterer Zaun: zu = x0,25 – 1,5IQR unterer Whisker, falls xmin < zu Oberer Zaun: zo = x0,75 + 1,5IQR oberer Whisker, falls xmax > zu
Boxplot: Anwendung Vergleiche von Datensätzen Beispiel: Ergebnisse der Klausur Wirtschafts- mathematik (WS 2010) nach Studiengängen
Übung
Empirische Regel für die Standardabweichung Abgeleitet aus Normalverteilung Anteil der Beobachtungen rund um das arithmetische Mittel Einfaches s-Band: 68 Prozent im Intervall [ x -s; x +s] Doppeltes s-Band: 95 Prozent im Intervall [ x -2s; x +2s] Dreifaches s-Band: 99,7 Prozent im Intervall [ x -3s; x +3s]
Übung
Variationskoeffizient (relative Streuung) Nur für verhältnisskalierte Merkmale Wert der Standardabweichung hängt auch von absoluter Höhe der Merkmalswerte ab Variationskoeffizient: v= 𝑠 𝑥 = Standardabweichung arithmetisches Mittel
rechtsschief/linkssteil linksschief/rechtssteil Schiefemaß Art und Stärke der Asymmetrie einer Verteilung Schiefe nach Yule-Pearson: g= 3∙ 𝑥 − 𝑥 𝑍 𝑠 Interpretation g > 0 rechtsschiefe Verteilung (linkssteil) g = 0 symmetrische Verteilung g < 0 linksschiefe Verteilung (rechtssteil) rechtsschief/linkssteil symmetrisch linksschief/rechtssteil
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger? Leitfrage Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger?
Beispiel: Unternehmensgrößen nach Umsätzen 1 2 3 4 5 6 7 8 9 10 Quelle: Bleymüller (2012).
Konzentration und Konzentrationsmaße Absolute Konzentration (Konzentration i.e.S.) Großteil der Merkmalssumme entfällt auf kleine Zahl von Merkmalsträgern Konzentrationsrate CRm (m = 1, 2, 3, … CR1, CR2, CR3, …) Herfindahl-Index H Relative Konzentration (Disparität, Ungleichheit) Großteil der Merkmalssumme entfällt auf kleinen Anteil der Merkmalsträger Lorenz-Kurve Gini-Koeffizient
Konzentrationsrate CRm Aussage Auf die m größten Merkmalsträger entfallen CRm Prozent der Merkmalssumme Vorgehensweise [abweichend vom Skript!] Sortieren der Merkmalswerte in absteigender Reihenfolge Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 CRm= 𝑖=1 𝑚 𝑝 𝑖 Beispiel Verteilung A: CR1 = 100 % (maximale Konzentration) Verteilung B: CR1 = 36 %, CR2 = 66 %, CR3 = 86 % Verteilung F: CR1 = 18 %. CR2 = 36 %, CR3 = 41 %
Herfindahl-Index H (= Herfindahl-Hirschman-Index) Aussage Summe der quadrierten prozentualen Anteile aller Merkmalswerte Schöpft die gesamte in der Verteilung enthaltene Information aus Berechnung Ordnen der Merkmalsträger nach Größe nicht erforderlich Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 H= 𝑖=1 𝑛 𝑝 𝑖 2 es gilt: 1 n H 1 Beispiel Verteilung A: H = 1 (maximale Konzentration) Verteilung B: H = 0,2 Verteilung G: H = 0,1 Verteilung H: H = 0,198
Reihung der Merkmale nach aufsteigender Größe Lorenzkurve Reihung der Merkmale nach aufsteigender Größe Gegenüberstellung kumulierter Anteile Merkmalsträger: 𝑢 𝑖 = 𝑖 𝑛 (Abszisse) Merkmalssumme: 𝑣 𝑖 = 𝑗=1 𝑖 𝑝 𝑗 (Ordinate) Quadratisches Diagramm Gleichverteilung = Diagonale
Lorenzkurve: Beispiele
Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis Gini-Koeffizient Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis Fläche zwischen Lorenzkurve und Gleichverteilungslinie (Schraffur) Fläche des Gleichverteilungsdreiecks Berechnung Reihung der Merkmalsträger nach aufsteigender Größe Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑝 𝑖 𝑛 − 𝑛 + 1 𝑛 es gilt: 0 Gini n − 1 n 1 Normiert: 𝐺𝑖𝑛𝑖 ∗ = 𝑛 𝑛 − 1 ∙𝐺𝑖𝑛𝑖 0 Gini* 1 Interpretation Hohe Konzentration: Gini nahe 1 Geringe Konzentration: Gini nahe 0 Corrado Gini (1884 – 1965)
Gini-Koeffizient: Vergleich zum Skript 𝑝 𝑖 = 𝑥 𝑖 G (Merkmalssummenanteile) G= 𝑖=1 𝑛 𝑥 𝑖 (Merkmalssumme) Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝐺 𝑛 − 𝑛 + 1 𝑛 Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙𝐺 − 𝑛 + 1 𝑛 = 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑛 + 1 𝑛
Übung: Marktanteile von Fahrzeugherstellern (aus Beispiel 5.2) Bestimmen Sie den Herfindahl-Index. Skizzieren Sie die Lorenzkurve.
Übung
Übung Welcher Anteil der Arbeitnehmer erhält 50 Prozent des gesamten Jahreseinkommens? Welcher Anteil der Arbeitnehmer erhält 25 Prozent des gesamten Jahreseinkommens?
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Leitfrage Wie lassen sich zweidimensionale Häufigkeitsverteilungen darstellen? (Vorbereitung für explorative Datenanalyse)
Kontingenztafel (zweidimensionale Häufigkeitstabelle) Merkmal Y Randverteilung von X Merkmal X Randverteilung von Y Zwei Merkmale Kombinationen von Ausprägungen Absolute Häufigkeit: ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Relative Häufigkeit: 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) = ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑛 Bedingte Verteilung Verteilung für gegebene Ausprägung des jeweils anderen Merkmals Spalte bzw. Zeile der Kontingenztafel als betrachtete Gesamtheit
Beispiel: Bachelor-Studenten Kontingenztafel (X: Geschlecht, Y: Studiengang) Bedingte Verteilung von Y für X = männlich
Streudiagramm (Scatter plot) Y Punktwolke X
Übung
Übung
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale? Leitfrage Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale?
Zusammenhang zwischen X und Y Nominale Merkmale Vierfelderkoeffizient (für dichotome Merkmale) Kontingenzkoeffizient K Ordinale Merkmale Rangkorrelationskoeffizient rSP (Spearman‘s rho) Metrische Merkmale Korrelationskoeffizient rXY
Vierfelderkoeffizient X und Y mit jeweils zwei Ausprägungen X = {x1, x2} Y = {y1, y2} Kontingenztafel Vierfeldertafel Φ= 𝑎∙𝑑 − 𝑏∙𝑐 (𝑎+𝑏)∙(𝑐+𝑑)∙(𝑎+𝑐)∙(𝑏+𝑑) es gilt: -1 1 Interpretation || nahe 1 hoher statistischer Zusammenhang || nahe 0 kein statistischer Zusammenhang y1 y2 x1 a b x2 c d
Übung Liegt ein statistischer Zusammenhang zwischen der Art der Ausbildung und der Länge der Arbeitslosigkeit vor?
Kontingenzkoeffizient K Erwartete Werte bei Unabhängigkeit zwischen X und Y Häufigkeit proportional zu Randverteilungen Erwartete Werte: 𝐸ℎ 𝑎 𝑖 , 𝑏 𝑗 =𝑛∙ 𝑅𝑅𝑉𝑋 𝑖 ∙ 𝑅𝑅𝑉𝑌 𝑗 Relative Randverteilung RRV 𝑅𝑅𝑉𝑋 𝑖 = 𝑗=1 𝑚 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑅𝑅𝑉𝑌 𝑗 = 𝑖=1 𝑘 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) 2 = 𝑗=1 𝑚 𝑖=1 𝑘 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) − ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 2 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Kontingenzkoeffizient K= χ 2 χ 2 +𝑛 es gilt: 0 K 1
Normierter Kontingenzkoeffizient Kt 𝐾 𝑚𝑎𝑥 = 𝑀 − 1 𝑀 mit: M = min{k,m} 𝐾 𝑡 = 𝐾 𝐾 max es gilt: 0 Kt 1 Interpretation Kt nahe 1 starker statistischer Zusammenhang Kt nahe 0 kein statistischer Zusammenhang
Übung Unterscheiden sich Männer und Frauen hinsichtlich der Wahl des Studiengangs?
Rangkorrelationskoeffizient rSP (Spearman‘s rho) Korrelation zwischen zwei ordinalen Merkmalen X und Y Ränge für beide Merkmale vergeben Beste Bewertung Platz 1 Gleiche Bewertung Ränge mitteln Rangdifferenzen bilden 𝐷 𝑖 =𝑅𝑎𝑛𝑔 𝑋 𝑖 −𝑅𝑎𝑛𝑔( 𝑌 𝑖 ) mit i = 1 … n 𝑟 𝑆𝑃 =𝜌=− 6∙ 𝑖=1 𝑛 𝐷 𝑖 2 𝑛3 − 𝑛 es gilt: –1 rSP 1 Interpretation rSP nahe –1 starker negativer statistischer Zusammenhang rSP nahe +1 starker positiver statistischer Zusammenhang rSP nahe 0 kein statistischer Zusammenhang Charles Spearman (1863 – 1945)
Übung
Korrelation zwischen metrischen Merkmalen
Kovarianz COV X,Y = 1 𝑛 ∙ 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) = 1 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑥 ∙ 𝑦 I II III IV y = 8,2 x = 9,2
Übung: Kovarianz für Beispiel 7.4
Korrelationskoeffizient rXY Auguste Bravais (1811 – 1863) Maß für den linearen (!) Zusammenhang zwischen zwei metrischen Merkmalen 𝑟 𝑋𝑌 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 ∙ 𝑠 𝑌 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2∙ 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 )2 Es gilt: -1 rXY 1 Interpretation rxy nahe -1 starker negativer linearer Zusammenhang rxy nahe +1 starker positiver linearer Zusammenhang rxy nahe 0 kein linearer Zusammenhang Karl Pearson (1857 – 1936)
Korrelationskoeffizient: Interpretation (Extremwerte)
Übung: Korrelationskoeffizient für Beispiel 7.4
Übungen
Übungen
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
Leitfrage Wie lässt sich der Zusammenhang zwischen mehreren Merkmalen mathematisch-funktional darstellen?
Regression Regression Regressionsfunktion Interpretation Funktionaler Zusammenhang zwischen metrischen Merkmalen Y: abhängige Variable, Regressand, zu erklärende Variable X: unabhängige Variable, Regressor, erklärende Variable Regressionsfunktion Einfachregression: Y = f(X) Beziehung zwischen zwei Variablen (ein Regressand, ein Regressor) Mehrfachregression: Y = f(X1, X2, …, Xk) Beziehung zwischen Regressand und mehreren Regressoren Interpretation Mathematische Beziehung Vorsicht: keine zwingende Kausalität (mögliche „spurious regression“)!
Streuungsdiagramme und Einfachregression 1 Kein Zusammenhang Positiver linearer Zusammenhang Quelle: Bleymüller (2012).
Streuungsdiagramme und Einfachregression 2 Negativer linearer Zusammenhang Nicht-linearer Zusammenhang Quelle: Bleymüller (2012).
Lineare Einfachregression Regressionsfunktion: y = a + bx a Achsenabschnitt b Steigung Residuum: ei = yi - y i y 1 b yi ei y i a xi x
Methode der Kleinsten Quadrate Kriterium für Regressionsgerade (Parameter a und b) Minimale Summe der quadrierten Residuen (KQ-Verfahren) SAQ a,b = 𝑖=1 𝑛 𝑒 𝑖 2 min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 𝑖 )2 min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 −𝑎−𝑏∙ 𝑥 𝑖 )2 min! Partielles Ableiten nach den Parametern und Nullsetzen 𝜕𝑆𝐴𝑄 𝜕𝑎 =0 𝜕𝑆𝐴𝑄 𝜕𝑏 =0 Zwei unabhängige Gleichungen für zwei Unbekannte (a und b)
Regressionskoeffizienten a= 𝑖=1 𝑛 𝑥 𝑖 2 ∙ 𝑖=1 𝑛 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 − ( 𝑖=1 𝑛 𝑥 𝑖 )2 b= 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 −( 𝑖=1 𝑛 𝑥 𝑖 )2 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 2 Rechenvereinfachung via Schwerpunkt der Punktwolke 𝑦 = 𝑎+𝑏∙ 𝑥
Güte der Regression: Bestimmtheitsmaß Quadratsummen der Abweichungen Zu erklärende Abweichungen: SQT= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Erklärende Abweichungen: SQE= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Nicht-erklärende Abweichungen: SQR= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 𝑖 2 = 𝑖=1 𝑛 𝑒 𝑖 2 SQT = SQE + SQR Division durch n Varianzzerlegung 𝑠 𝑌 2 = 𝑠 𝑌 2 + 𝑠 𝑒 2 1 = 𝑠 𝑌 2 𝑠 𝑌 2 + 𝑠 𝑒 2 𝑠 𝑌 2 = SQE SQT + SQR SQT Bestimmtheitsmaß: R2 = 𝑠 𝑌 2 𝑠 𝑌 2 = SQE SQT Es gilt: 0 R2 1
Bestimmtheitsmaß: Interpretation R2 = 1 perfekter linearer Zusammenhang zwischen X und Y positiv (b > 0) negativ (b < 0) R2 = 0 kein linearer Zusammenhang zwischen X und Y Je höher R2, desto enger ist der lineare Zusammenhang Quelle: Bleymüller (2012).
Beispiel: Verkaufsfläche und Umsatz (Bleymüller 2012) Jahresumsatz und Verkaufsfläche in n = 12 Filialen Linearer Zusammenhang? Funktionale Form des Zusammenhangs (Parameter a und b)?
Beispiel (cont.): Arbeitstabelle und Parameterberechnung
Beispiel (cont.): Regressionsfunktion
Vorsicht Scheinkorrelation! Y [Durchschnittsgeschwindigkeit im Marathon] Männer Frauen X [Gewicht des Läufers]
Übung