Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018

Ähnliche Präsentationen


Präsentation zum Thema: "UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018"—  Präsentation transkript:

1 UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018
Statistik Prof. Dr. Stefan Kooths UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018

2 Kontaktdaten Prof. Dr. Stefan Kooths Leiter des Prognosezentrums Institut für Weltwirtschaft Kiel (IfW) Büro Berlin In den Ministergärten Berlin 030/

3 The Kiel Institute for the World Economy
Forecasting Center

4 Be smarter than your phone …

5 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

6 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

7 Leitfrage Worum geht es?

8 Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage

9 Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage

10 Aufgaben und Vorgehensweise
Daten sammeln darstellen analysieren interpretieren Phase 1 Planung Phase 2 Datenerhebung Phase 3 Datenaufbereitung Phase 4 Auswertung und Analyse Phase 5 Interpretation

11 Wichtige Begriffe 1

12 Wichtige Begriffe 2 Statistische Einheit (= Merkmalsträger)
Träger von Eigenschaften, die im Rahmen einer empirischen Untersuchung von Interesse sind Grundgesamtheit Eine hinsichtlich sachlicher, räumlicher und zeitlicher Kriterien sinnvoll gebildete Gesamtheit von statistischen Einheiten Teilgesamtheit Teilmenge der Grundgesamtheit Merkmal (= Variable) Charakteristische Eigenschaft einer statistischen Einheit Merkmalsausprägungen (= Definitionsbereich des Merkmals) Mögliche Werte, die ein Merkmal annehmen kann Merkmalswert Konkreter Wert, den eine statistische Einheit hinsichtlich eines bestimmten Merkmals aufweist

13 Merkmal, Merkmalsausprägungen, Merkmalswert: Beispiel

14 Stichprobe (= Teilerhebung)
Erhebungsformen Vollerhebung Alle statistischen Einheiten einer Grundgesamtheit werden berücksichtigt (Beispiel: Volkszählung) Stichprobe (= Teilerhebung) Tatsächlich untersuchte Teilgesamtheit (Beispiel: Mikrozensus) Kleine Stichprobe: bis zu 30 statistische Einheiten Große Stichprobe: mehr als 30 statistische Einheiten

15 Skalenniveau Skalentyp Aussageformen mögliche Relationen qualitativ
Nominalskala gleich oder ungleich ,  Ordinalskala Rangordnung , , >, < quantitativ (metrisch) Intervallskala Abstand (Differenzen) , , >, <, +, - Verhältnisskala Verhältnisse (absoluter Nullpunkt) , , >, <, +, -, , 

16 Häufbarkeit von Merkmalsausprägungen
Häufbare Merkmale Merkmalsträger mit mehreren Ausprägungen desselben Merkmals Beispiele Studiengänge eines Studenten Mitgliedschaft in Vereinen Nicht-häufbare Merkmale Merkmalsträger weist genau eine Ausprägung je Merkmal auf Geburtsort einer Person Erstzulassung eines Fahrzeugs

17 Metrische Merkmale: Diskret, stetig, quasi-stetig
Diskrete Merkmale Nur bestimmte Werte auf einer metrischen Skala sind zulässig (= endliche Anzahl an Ausprägungen) Beispiele Zahl der Studenten einer Vorlesung Zahl der Fahrzeuge eines Fuhrparks Quasi-stetige Merkmale Diskret, aber sehr große Anzahl an Ausprägungen Beispiel Kunden einer Sportmarke Stetige Merkmale Können alle (= unendlich viele) Werte innerhalb eines Intervalls annehmen Beispiele Länge eines Werkstücks Füllgewicht

18 Gruppieren (klassieren, kategorisieren)
Zusammenfassen mehrerer Ausprägungen (vor allem bei stetigen Merkmalen) zu einer Klasse oder Kategorie Beispiele Einkommensgruppen (niedrig, mittel, hoch) Altersgruppen (minderjährig, volljährig) Berufserfahrung (0..3 Jahre, Jahre, mehr als 10 Jahre)

19 Übung

20 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

21 Wie lassen sich Daten sammeln und darstellen?
Leitfrage Wie lassen sich Daten sammeln und darstellen?

22 Befragung  Fragebogen
Erhebung Befragung  Fragebogen Schriftlich Mündlich Beobachtung Experiment Automatische Erfassung

23 Grober erster Überblick: Stem-and-Leaf-Diagram
Messwerte (z. B. Umsatz je Gast eines Restaurants in Euro): 44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106 Stem (Zehner) Leaf (Einer) 4 5 6 7 8 9 10

24 Häufigkeitsverteilungen
Variablen Anzahl der statistischen Einheiten in der Gesamtheit: n Merkmal X mit m Ausprägungen 𝑎 1 , 𝑎 2 , … 𝑎 𝑖 , … 𝑎 𝑚 Merkmalswerte 𝑥 1 , 𝑥 2 , … 𝑥 𝑛 Absolute Häufigkeit: ℎ 𝑎 𝑖 Anzahl, mit der die Ausprägung ai in der Gesamtheit auftritt Relative Häufigkeit: 𝑓 𝑎 𝑖 = ℎ 𝑎 𝑖 𝑛 Anteil der Ausprägung ai in der Grundgesamtheit Häufigkeitsverteilung Darstellung von Ausprägungen und ihren absoluten oder relativen Häufigkeiten in Tabellen oder Diagrammen

25 Summenhäufigkeitsfunktion (empirische Verteilungsfunktion)
Fortlaufende Summierung (Kumulierung) der absoluten oder relativen Häufigkeiten Absolut: 𝐻 𝑗 = 𝑖=1 𝑗 ℎ( 𝑎 𝑖 ) Anzahl der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist Relativ: 𝐹 𝑗 = 𝑖=1 𝑗 𝑓( 𝑎 𝑖 ) Anteil der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist

26 Häufigkeitsverteilung: Tabellendarstellung

27 Beispiel: Zeitungsverkäufe (Bleymüller 2012, S. 7 ff)
Ein Kioskinhaber notiert 200 Tage lang täglich die Zahl der verkauften Exemplare einer bestimmten Zeitung.

28 Häufigkeitsverteilung und Summenhäufigkeiten

29 Stabdiagramm Höhenproportional zur Häufigkeit

30 Histogramm Flächenproportional zur Häufigkeit

31 Relative Summenhäufigkeitsfunktion

32 Beispiel: (Sonntagsfrage zur) Bundestagswahl
Relative Häufigkeitsverteilung der Wähler (Wahlabsichten) Stichproben Voll- erhebung Nominal- skala

33 Tortendiagramm (Chart): Bundestagswahlergebnis 2017
Flächenproportional zur Häufigkeit

34 Klassengrenzen für Klasse j
Gruppierung von Daten Klassengrenzen für Klasse j Untere Klassengrenze: 𝑐 𝑗 𝑢 Obere Klassengrenze: 𝑐 𝑗 𝑜 := 𝑐 𝑗 Klassenbreite: 𝑑 𝑗 = 𝑐 𝑗 𝑜 − 𝑐 𝑗 𝑢 = 𝑐 𝑗 − 𝑐 𝑗−1 Klassenmitte: 𝑐′ 𝑗 = 𝑐 𝑗−1 + 𝑐 𝑗 2 Klassen dürfen sich nicht überlappen „von … bis unter“ „über … bis“ Klassen müssen alle Ausprägungen abdecken Ausprägungen eindeutig einer Klasse zuordnen

35 Absolute Klassenhäufigkeit: ℎ 𝑗 Relative Klassenhäufigkeit: 𝑓 𝑗
Klassenhäufigkeiten Absolute Klassenhäufigkeit: ℎ 𝑗 Anzahl der Beobachtungswerte in der j-ten Klasse Relative Klassenhäufigkeit: 𝑓 𝑗 Anteil der Beobachtungswerte in der j-ten Klasse Histogramm-Darstellung Flächenproportionalität: Klassenbreite berücksichtigen! Höhe proportional zur Klassendichte: ℎ 𝑗 𝑑 𝑗

36 Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln
Klassenanzahl Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln m= 𝑛 m=2∙ 𝑛 m=10∙ log 𝑛 m << n

37 Beispiel: Monatseinkommen von Studenten

38 Beispiel: Monatseinkommen von Studenten (cont.)
Bezogen auf eine Intervallbreite von 100 Euro

39 Übungen

40 Übungen (cont.)

41 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

42 Leitfrage Wo ist die Mitte/das Zentrum einer Häufigkeitsverteilung? (Repräsentativer oder typischer Wert eines Datensatzes)

43 Beispiel: Alter der Studenten im 3. Semester
Welcher einzelne Wert vermittelt am ehesten einen zutreffenden Eindruck vom Alter der Studenten?

44 Modus, Median und arithmetisches Mittel
Modus (Dichtester Wert): x D Ausprägung, die am häufigsten auftritt Im Beispiel: x D = 21 Median (Zentralwert): x Z Merkmalswert in der Mitte der geordneten Daten n ungerade: 𝑥 𝑍 = 𝑥 𝑛+1 2 n gerade: 𝑥 𝑍 = 1 2 ∙(𝑥 𝑛 2 + 𝑥 𝑛 2 +1 ) Im Beispiel: n = 25  ungerade  x Z = x13 = 21 Arithmetisches Mittel: x Durchschnitt aller Merkmalswerte: 𝑥 = 1 𝑛  𝑖=1 𝑛 𝑥 𝑖 Im Beispiel: x = 537/25 = 21,48

45 Median und arithmetisches Mittel (Ergänzung)

46 Arithmetisches Mittel: Eigenschaften
Die Summe der Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist Null (= die Abweichungen heben sich gegeneinander auf) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) = 0 Die Summe der quadrieren Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist kleiner als von jedem anderen beliebigen Wert M 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 < 𝑖=1 𝑛 ( 𝑥 𝑖 −𝑀)2 für: M ≠ x Das arithmetische Mittel folgt jeder linearen Transformation der Merkmalswerte y =  + 𝑥  𝑦 =  +  𝑥

47 Übungen

48 Arithmetisches Mittel
Klassierte Daten Arithmetisches Mittel Berechnung über die Klassenmitten als Repräsentanten der Klassen (Annahme der gleichmäßigen Verteilung innerhalb der Klassen!) 𝑥 = 1 𝑛  𝑗=1 𝑘 ℎ𝑗𝑥’𝑗 (mit k = Anzahl der Klassen) Median Fällt in diejenige Klasse j, in der die empirische Verteilungsfunktion F() den Wert 0,5 erreicht bzw. erstmals überschreitet Feinberechnung: 𝑥 Z = 𝑐 𝑗−1 + 𝑐 𝑗 − 𝑐 𝑗−1 𝑓 𝑗 ∙ 0,5−𝐹 𝑐 𝑗−1 Modus Klasse mit der größten Dichte (= größte Histogrammhöhe)

49 Exkurs: Feinberechnung des Median bei klassierten Daten (Herleitung)

50 Übung Bestimmen Sie Modus, Median und arithmetisches Mittel.

51 Quartile Ähnlich wie Median, aber Aufteilung der geordneten Merkmalswerte in 4 gleich große Teile Unteres Quartil: Q1 = X0,25 (Mitte zwischen kleinstem Wert und dem Median) Mittleres Quartil: Q2 = X0,5 = x Z (identisch mit Median) Oberes Quartil: Q3 = X0,75 (Mitte zwischen Median und größtem Wert) Berechnung xp = x pn+0, mit […] für die nächst kleinere ganze Zahl Q1: p = 0,25 Q2: p = 0,5 Q3: p = 0,75

52 Quartile Quelle:

53 Übung

54 Durchschnittliche prozentuale Veränderungen
Geometrisches Mittel Durchschnittliche prozentuale Veränderungen Arithmetisches Mittel ungeeignet (Zinseszinseffekt!) Geometrisches Mittel Beispiel Umsatz im Jahr 2010: 1000 Euro Veränderung im Jahr 2011: +20 % (Faktor 1,2) Veränderung im Jahr 2012: - 5 % (Faktor 0,95) Veränderung im Jahr 2013: - 20 % (Faktor 0,8) Veränderung im Jahr 2014: + 5 % (Faktor 1,05) Berechnung

55 Übung

56 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

57 Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes?
Leitfrage Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes?

58 Beispiel: Altersverteilungen

59 Interquartilsabstand (Inter Quartile Range, IQR)
Streuungsmaße Spannweite (Range) Differenz zwischen größtem und kleinstem Merkmalswert Range = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 Interquartilsabstand (Inter Quartile Range, IQR) Differenz zwischen oberem und unterem Quartil 𝐼𝑄𝑅=𝑄 3 − 𝑄 1 Varianz: s2 (bzw. Standardabweichung s = s 2 ) Durchschnittliche quadrierte Abweichung vom arithmetischen Mittel 𝑠 2 = 1 𝑛  𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 = 1 𝑛  𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 Mean Absolute Deviation (MAD) Durchschnittliche absolute Abweichung vom Median MAD= 1 𝑛  𝑖=1 𝑛 | 𝑥 𝑖 − 𝑥 𝑍|

60 Übung

61 Boxplot (Box-and-Whisker-Plot)
Grafische Darstellung für Mittelwert und Streuung Fünf-Punkte-Zusammenfassung Unteres Quartil  Anfang der Box Median  Strich innerhalb der Box Obere Quartil  Ende der Box Kleinster Merkmalswert  Linie (Whisker) unterhalb der Box Größter Merkmalswert  Linie (Whisker) oberhalb der Box Zäune für Whisker und Ausreißer Unterer Zaun: zu = x0,25 – 1,5IQR  unterer Whisker, falls xmin < zu Oberer Zaun: zo = x0,75 + 1,5IQR  oberer Whisker, falls xmax > zu

62 Boxplot: Anwendung Vergleiche von Datensätzen Beispiel: Ergebnisse der Klausur Wirtschafts- mathematik (WS 2010) nach Studiengängen

63 Übung

64 Empirische Regel für die Standardabweichung
Abgeleitet aus Normalverteilung Anteil der Beobachtungen rund um das arithmetische Mittel Einfaches s-Band: 68 Prozent im Intervall [ x -s; x +s] Doppeltes s-Band: 95 Prozent im Intervall [ x -2s; x +2s] Dreifaches s-Band: 99,7 Prozent im Intervall [ x -3s; x +3s]

65 Übung

66 Variationskoeffizient (relative Streuung)
Nur für verhältnisskalierte Merkmale Wert der Standardabweichung hängt auch von absoluter Höhe der Merkmalswerte ab Variationskoeffizient: v= 𝑠 𝑥 = Standardabweichung arithmetisches Mittel

67 rechtsschief/linkssteil linksschief/rechtssteil
Schiefemaß Art und Stärke der Asymmetrie einer Verteilung Schiefe nach Yule-Pearson: g= 3∙ 𝑥 − 𝑥 𝑍 𝑠 Interpretation g > 0  rechtsschiefe Verteilung (linkssteil) g = 0  symmetrische Verteilung g < 0  linksschiefe Verteilung (rechtssteil) rechtsschief/linkssteil symmetrisch linksschief/rechtssteil

68 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

69 Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger?
Leitfrage Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger?

70 Beispiel: Unternehmensgrößen nach Umsätzen
1 2 3 4 5 6 7 8 9 10 Quelle: Bleymüller (2012).

71 Konzentration und Konzentrationsmaße
Absolute Konzentration (Konzentration i.e.S.) Großteil der Merkmalssumme entfällt auf kleine Zahl von Merkmalsträgern Konzentrationsrate CRm (m = 1, 2, 3, …  CR1, CR2, CR3, …) Herfindahl-Index H Relative Konzentration (Disparität, Ungleichheit) Großteil der Merkmalssumme entfällt auf kleinen Anteil der Merkmalsträger Lorenz-Kurve Gini-Koeffizient

72 Konzentrationsrate CRm
Aussage Auf die m größten Merkmalsträger entfallen CRm Prozent der Merkmalssumme Vorgehensweise [abweichend vom Skript!] Sortieren der Merkmalswerte in absteigender Reihenfolge Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 CRm= 𝑖=1 𝑚 𝑝 𝑖 Beispiel Verteilung A: CR1 = 100 % (maximale Konzentration) Verteilung B: CR1 = 36 %, CR2 = 66 %, CR3 = 86 % Verteilung F: CR1 = 18 %. CR2 = 36 %, CR3 = 41 %

73 Herfindahl-Index H (= Herfindahl-Hirschman-Index)
Aussage Summe der quadrierten prozentualen Anteile aller Merkmalswerte Schöpft die gesamte in der Verteilung enthaltene Information aus Berechnung Ordnen der Merkmalsträger nach Größe nicht erforderlich Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 H= 𝑖=1 𝑛 𝑝 𝑖 es gilt: 1 n  H  1 Beispiel Verteilung A: H = 1 (maximale Konzentration) Verteilung B: H = 0,2 Verteilung G: H = 0,1 Verteilung H: H = 0,198

74 Reihung der Merkmale nach aufsteigender Größe
Lorenzkurve Reihung der Merkmale nach aufsteigender Größe Gegenüberstellung kumulierter Anteile Merkmalsträger: 𝑢 𝑖 = 𝑖 𝑛 (Abszisse) Merkmalssumme: 𝑣 𝑖 = 𝑗=1 𝑖 𝑝 𝑗 (Ordinate) Quadratisches Diagramm Gleichverteilung = Diagonale

75 Lorenzkurve: Beispiele

76 Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis
Gini-Koeffizient Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis Fläche zwischen Lorenzkurve und Gleichverteilungslinie (Schraffur) Fläche des Gleichverteilungsdreiecks Berechnung Reihung der Merkmalsträger nach aufsteigender Größe Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑝 𝑖 𝑛 − 𝑛 + 1 𝑛 es gilt: 0  Gini  n − 1 n  1 Normiert: 𝐺𝑖𝑛𝑖 ∗ = 𝑛 𝑛 − 1 ∙𝐺𝑖𝑛𝑖  0  Gini*  1 Interpretation Hohe Konzentration: Gini nahe 1 Geringe Konzentration: Gini nahe 0 Corrado Gini (1884 – 1965)

77 Gini-Koeffizient: Vergleich zum Skript
𝑝 𝑖 = 𝑥 𝑖 G (Merkmalssummenanteile) G= 𝑖=1 𝑛 𝑥 𝑖 (Merkmalssumme) Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝐺 𝑛 − 𝑛 + 1 𝑛 Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙𝐺 − 𝑛 + 1 𝑛 = 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑛 + 1 𝑛

78 Übung: Marktanteile von Fahrzeugherstellern (aus Beispiel 5.2)
Bestimmen Sie den Herfindahl-Index. Skizzieren Sie die Lorenzkurve.

79 Übung

80 Übung Welcher Anteil der Arbeitnehmer erhält 50 Prozent des gesamten Jahreseinkommens? Welcher Anteil der Arbeitnehmer erhält 25 Prozent des gesamten Jahreseinkommens?

81 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

82 Leitfrage Wie lassen sich zweidimensionale Häufigkeitsverteilungen darstellen? (Vorbereitung für explorative Datenanalyse)

83 Kontingenztafel (zweidimensionale Häufigkeitstabelle)
Merkmal Y Randverteilung von X Merkmal X Randverteilung von Y Zwei Merkmale  Kombinationen von Ausprägungen Absolute Häufigkeit: ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Relative Häufigkeit: 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) = ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑛 Bedingte Verteilung Verteilung für gegebene Ausprägung des jeweils anderen Merkmals Spalte bzw. Zeile der Kontingenztafel als betrachtete Gesamtheit

84 Beispiel: Bachelor-Studenten
Kontingenztafel (X: Geschlecht, Y: Studiengang) Bedingte Verteilung von Y für X = männlich

85 Streudiagramm (Scatter plot)
Y Punktwolke X

86 Übung

87 Übung

88 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

89 Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale?
Leitfrage Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale?

90 Zusammenhang zwischen X und Y
Nominale Merkmale Vierfelderkoeffizient  (für dichotome Merkmale) Kontingenzkoeffizient K Ordinale Merkmale Rangkorrelationskoeffizient rSP (Spearman‘s rho) Metrische Merkmale Korrelationskoeffizient rXY

91 Vierfelderkoeffizient 
X und Y mit jeweils zwei Ausprägungen X = {x1, x2} Y = {y1, y2} Kontingenztafel  Vierfeldertafel Φ= 𝑎∙𝑑 − 𝑏∙𝑐 (𝑎+𝑏)∙(𝑐+𝑑)∙(𝑎+𝑐)∙(𝑏+𝑑) es gilt: -1    1 Interpretation || nahe 1  hoher statistischer Zusammenhang || nahe 0  kein statistischer Zusammenhang y1 y2 x1 a b x2 c d

92 Übung Liegt ein statistischer Zusammenhang zwischen der Art der Ausbildung und der Länge der Arbeitslosigkeit vor?

93 Kontingenzkoeffizient K
Erwartete Werte bei Unabhängigkeit zwischen X und Y Häufigkeit proportional zu Randverteilungen Erwartete Werte: 𝐸ℎ 𝑎 𝑖 , 𝑏 𝑗 =𝑛∙ 𝑅𝑅𝑉𝑋 𝑖 ∙ 𝑅𝑅𝑉𝑌 𝑗 Relative Randverteilung RRV 𝑅𝑅𝑉𝑋 𝑖 = 𝑗=1 𝑚 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑅𝑅𝑉𝑌 𝑗 = 𝑖=1 𝑘 𝑓( 𝑎 𝑖 , 𝑏 𝑗 )  2 = 𝑗=1 𝑚 𝑖=1 𝑘 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) − ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 2 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Kontingenzkoeffizient K= χ 2 χ 2 +𝑛 es gilt: 0  K  1

94 Normierter Kontingenzkoeffizient Kt
𝐾 𝑚𝑎𝑥 = 𝑀 − 1 𝑀 mit: M = min{k,m} 𝐾 𝑡 = 𝐾 𝐾 max es gilt: 0  Kt  1 Interpretation Kt nahe 1  starker statistischer Zusammenhang Kt nahe 0  kein statistischer Zusammenhang

95 Übung Unterscheiden sich Männer und Frauen hinsichtlich der Wahl des Studiengangs?

96 Rangkorrelationskoeffizient rSP (Spearman‘s rho)
Korrelation zwischen zwei ordinalen Merkmalen X und Y Ränge für beide Merkmale vergeben Beste Bewertung  Platz 1 Gleiche Bewertung  Ränge mitteln Rangdifferenzen bilden 𝐷 𝑖 =𝑅𝑎𝑛𝑔 𝑋 𝑖 −𝑅𝑎𝑛𝑔( 𝑌 𝑖 ) mit i = 1 … n 𝑟 𝑆𝑃 =𝜌=− 6∙ 𝑖=1 𝑛 𝐷 𝑖 2 𝑛3 − 𝑛 es gilt: –1  rSP  1 Interpretation rSP nahe –1  starker negativer statistischer Zusammenhang rSP nahe +1  starker positiver statistischer Zusammenhang rSP nahe 0  kein statistischer Zusammenhang Charles Spearman (1863 – 1945)

97 Übung

98 Korrelation zwischen metrischen Merkmalen

99 Kovarianz COV X,Y = 1 𝑛 ∙ 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) = 1 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑥 ∙ 𝑦 I II III IV y = 8,2 x = 9,2

100 Übung: Kovarianz für Beispiel 7.4

101 Korrelationskoeffizient rXY
Auguste Bravais (1811 – 1863) Maß für den linearen (!) Zusammenhang zwischen zwei metrischen Merkmalen 𝑟 𝑋𝑌 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 ∙ 𝑠 𝑌 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2∙ 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 )2 Es gilt: -1  rXY  1 Interpretation rxy nahe -1  starker negativer linearer Zusammenhang rxy nahe +1  starker positiver linearer Zusammenhang rxy nahe 0  kein linearer Zusammenhang Karl Pearson (1857 – 1936)

102 Korrelationskoeffizient: Interpretation (Extremwerte)

103 Übung: Korrelationskoeffizient für Beispiel 7.4

104 Übungen

105 Übungen

106 Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

107 Leitfrage Wie lässt sich der Zusammenhang zwischen mehreren Merkmalen mathematisch-funktional darstellen?

108 Regression Regression Regressionsfunktion Interpretation
Funktionaler Zusammenhang zwischen metrischen Merkmalen Y: abhängige Variable, Regressand, zu erklärende Variable X: unabhängige Variable, Regressor, erklärende Variable Regressionsfunktion Einfachregression: Y = f(X)  Beziehung zwischen zwei Variablen (ein Regressand, ein Regressor) Mehrfachregression: Y = f(X1, X2, …, Xk)  Beziehung zwischen Regressand und mehreren Regressoren Interpretation Mathematische Beziehung Vorsicht: keine zwingende Kausalität (mögliche „spurious regression“)!

109 Streuungsdiagramme und Einfachregression 1
Kein Zusammenhang Positiver linearer Zusammenhang Quelle: Bleymüller (2012).

110 Streuungsdiagramme und Einfachregression 2
Negativer linearer Zusammenhang Nicht-linearer Zusammenhang Quelle: Bleymüller (2012).

111 Lineare Einfachregression
Regressionsfunktion: y = a + bx a  Achsenabschnitt b  Steigung Residuum: ei = yi - y i y 1 b yi ei y i a xi x

112 Methode der Kleinsten Quadrate
Kriterium für Regressionsgerade (Parameter a und b) Minimale Summe der quadrierten Residuen (KQ-Verfahren) SAQ a,b = 𝑖=1 𝑛 𝑒 𝑖 2  min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 𝑖 )2  min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 −𝑎−𝑏∙ 𝑥 𝑖 )2  min! Partielles Ableiten nach den Parametern und Nullsetzen 𝜕𝑆𝐴𝑄 𝜕𝑎 =0 𝜕𝑆𝐴𝑄 𝜕𝑏 =0 Zwei unabhängige Gleichungen für zwei Unbekannte (a und b)

113 Regressionskoeffizienten
a= 𝑖=1 𝑛 𝑥 𝑖 2 ∙ 𝑖=1 𝑛 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 − ( 𝑖=1 𝑛 𝑥 𝑖 )2 b= 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 −( 𝑖=1 𝑛 𝑥 𝑖 )2 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 2 Rechenvereinfachung via Schwerpunkt der Punktwolke 𝑦 = 𝑎+𝑏∙ 𝑥

114 Güte der Regression: Bestimmtheitsmaß
Quadratsummen der Abweichungen Zu erklärende Abweichungen: SQT= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Erklärende Abweichungen: SQE= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Nicht-erklärende Abweichungen: SQR= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 𝑖 2 = 𝑖=1 𝑛 𝑒 𝑖 2 SQT = SQE + SQR Division durch n  Varianzzerlegung 𝑠 𝑌 2 = 𝑠 𝑌 𝑠 𝑒  1 = 𝑠 𝑌 2 𝑠 𝑌 𝑠 𝑒 2 𝑠 𝑌 2 = SQE SQT + SQR SQT Bestimmtheitsmaß: R2 = 𝑠 𝑌 2 𝑠 𝑌 2 = SQE SQT Es gilt: 0  R2  1

115 Bestimmtheitsmaß: Interpretation
R2 = 1  perfekter linearer Zusammenhang zwischen X und Y positiv (b > 0) negativ (b < 0) R2 = 0  kein linearer Zusammenhang zwischen X und Y Je höher R2, desto enger ist der lineare Zusammenhang Quelle: Bleymüller (2012).

116 Beispiel: Verkaufsfläche und Umsatz (Bleymüller 2012)
Jahresumsatz und Verkaufsfläche in n = 12 Filialen Linearer Zusammenhang? Funktionale Form des Zusammenhangs (Parameter a und b)?

117 Beispiel (cont.): Arbeitstabelle und Parameterberechnung

118 Beispiel (cont.): Regressionsfunktion

119 Vorsicht Scheinkorrelation!
Y [Durchschnittsgeschwindigkeit im Marathon] Männer Frauen X [Gewicht des Läufers]

120 Übung


Herunterladen ppt "UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018"

Ähnliche Präsentationen


Google-Anzeigen