Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Rolf Bauer Geändert vor über 6 Jahren
1
UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018
Statistik Prof. Dr. Stefan Kooths UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018
2
Kontaktdaten Prof. Dr. Stefan Kooths Leiter des Prognosezentrums Institut für Weltwirtschaft Kiel (IfW) Büro Berlin In den Ministergärten Berlin 030/
3
The Kiel Institute for the World Economy
Forecasting Center
4
Be smarter than your phone …
5
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
6
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
7
Leitfrage Worum geht es?
8
Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage
9
Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage
10
Aufgaben und Vorgehensweise
Daten sammeln darstellen analysieren interpretieren Phase 1 Planung Phase 2 Datenerhebung Phase 3 Datenaufbereitung Phase 4 Auswertung und Analyse Phase 5 Interpretation
11
Wichtige Begriffe 1
12
Wichtige Begriffe 2 Statistische Einheit (= Merkmalsträger)
Träger von Eigenschaften, die im Rahmen einer empirischen Untersuchung von Interesse sind Grundgesamtheit Eine hinsichtlich sachlicher, räumlicher und zeitlicher Kriterien sinnvoll gebildete Gesamtheit von statistischen Einheiten Teilgesamtheit Teilmenge der Grundgesamtheit Merkmal (= Variable) Charakteristische Eigenschaft einer statistischen Einheit Merkmalsausprägungen (= Definitionsbereich des Merkmals) Mögliche Werte, die ein Merkmal annehmen kann Merkmalswert Konkreter Wert, den eine statistische Einheit hinsichtlich eines bestimmten Merkmals aufweist
13
Merkmal, Merkmalsausprägungen, Merkmalswert: Beispiel
14
Stichprobe (= Teilerhebung)
Erhebungsformen Vollerhebung Alle statistischen Einheiten einer Grundgesamtheit werden berücksichtigt (Beispiel: Volkszählung) Stichprobe (= Teilerhebung) Tatsächlich untersuchte Teilgesamtheit (Beispiel: Mikrozensus) Kleine Stichprobe: bis zu 30 statistische Einheiten Große Stichprobe: mehr als 30 statistische Einheiten
15
Skalenniveau Skalentyp Aussageformen mögliche Relationen qualitativ
Nominalskala gleich oder ungleich , Ordinalskala Rangordnung , , >, < quantitativ (metrisch) Intervallskala Abstand (Differenzen) , , >, <, +, - Verhältnisskala Verhältnisse (absoluter Nullpunkt) , , >, <, +, -, ,
16
Häufbarkeit von Merkmalsausprägungen
Häufbare Merkmale Merkmalsträger mit mehreren Ausprägungen desselben Merkmals Beispiele Studiengänge eines Studenten Mitgliedschaft in Vereinen Nicht-häufbare Merkmale Merkmalsträger weist genau eine Ausprägung je Merkmal auf Geburtsort einer Person Erstzulassung eines Fahrzeugs
17
Metrische Merkmale: Diskret, stetig, quasi-stetig
Diskrete Merkmale Nur bestimmte Werte auf einer metrischen Skala sind zulässig (= endliche Anzahl an Ausprägungen) Beispiele Zahl der Studenten einer Vorlesung Zahl der Fahrzeuge eines Fuhrparks Quasi-stetige Merkmale Diskret, aber sehr große Anzahl an Ausprägungen Beispiel Kunden einer Sportmarke Stetige Merkmale Können alle (= unendlich viele) Werte innerhalb eines Intervalls annehmen Beispiele Länge eines Werkstücks Füllgewicht
18
Gruppieren (klassieren, kategorisieren)
Zusammenfassen mehrerer Ausprägungen (vor allem bei stetigen Merkmalen) zu einer Klasse oder Kategorie Beispiele Einkommensgruppen (niedrig, mittel, hoch) Altersgruppen (minderjährig, volljährig) Berufserfahrung (0..3 Jahre, Jahre, mehr als 10 Jahre)
19
Übung
20
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
21
Wie lassen sich Daten sammeln und darstellen?
Leitfrage Wie lassen sich Daten sammeln und darstellen?
22
Befragung Fragebogen
Erhebung Befragung Fragebogen Schriftlich Mündlich Beobachtung Experiment Automatische Erfassung
23
Grober erster Überblick: Stem-and-Leaf-Diagram
Messwerte (z. B. Umsatz je Gast eines Restaurants in Euro): 44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106 Stem (Zehner) Leaf (Einer) 4 5 6 7 8 9 10
24
Häufigkeitsverteilungen
Variablen Anzahl der statistischen Einheiten in der Gesamtheit: n Merkmal X mit m Ausprägungen 𝑎 1 , 𝑎 2 , … 𝑎 𝑖 , … 𝑎 𝑚 Merkmalswerte 𝑥 1 , 𝑥 2 , … 𝑥 𝑛 Absolute Häufigkeit: ℎ 𝑎 𝑖 Anzahl, mit der die Ausprägung ai in der Gesamtheit auftritt Relative Häufigkeit: 𝑓 𝑎 𝑖 = ℎ 𝑎 𝑖 𝑛 Anteil der Ausprägung ai in der Grundgesamtheit Häufigkeitsverteilung Darstellung von Ausprägungen und ihren absoluten oder relativen Häufigkeiten in Tabellen oder Diagrammen
25
Summenhäufigkeitsfunktion (empirische Verteilungsfunktion)
Fortlaufende Summierung (Kumulierung) der absoluten oder relativen Häufigkeiten Absolut: 𝐻 𝑗 = 𝑖=1 𝑗 ℎ( 𝑎 𝑖 ) Anzahl der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist Relativ: 𝐹 𝑗 = 𝑖=1 𝑗 𝑓( 𝑎 𝑖 ) Anteil der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist
26
Häufigkeitsverteilung: Tabellendarstellung
27
Beispiel: Zeitungsverkäufe (Bleymüller 2012, S. 7 ff)
Ein Kioskinhaber notiert 200 Tage lang täglich die Zahl der verkauften Exemplare einer bestimmten Zeitung.
28
Häufigkeitsverteilung und Summenhäufigkeiten
29
Stabdiagramm Höhenproportional zur Häufigkeit
30
Histogramm Flächenproportional zur Häufigkeit
31
Relative Summenhäufigkeitsfunktion
32
Beispiel: (Sonntagsfrage zur) Bundestagswahl
Relative Häufigkeitsverteilung der Wähler (Wahlabsichten) Stichproben Voll- erhebung Nominal- skala
33
Tortendiagramm (Chart): Bundestagswahlergebnis 2017
Flächenproportional zur Häufigkeit
34
Klassengrenzen für Klasse j
Gruppierung von Daten Klassengrenzen für Klasse j Untere Klassengrenze: 𝑐 𝑗 𝑢 Obere Klassengrenze: 𝑐 𝑗 𝑜 := 𝑐 𝑗 Klassenbreite: 𝑑 𝑗 = 𝑐 𝑗 𝑜 − 𝑐 𝑗 𝑢 = 𝑐 𝑗 − 𝑐 𝑗−1 Klassenmitte: 𝑐′ 𝑗 = 𝑐 𝑗−1 + 𝑐 𝑗 2 Klassen dürfen sich nicht überlappen „von … bis unter“ „über … bis“ Klassen müssen alle Ausprägungen abdecken Ausprägungen eindeutig einer Klasse zuordnen
35
Absolute Klassenhäufigkeit: ℎ 𝑗 Relative Klassenhäufigkeit: 𝑓 𝑗
Klassenhäufigkeiten Absolute Klassenhäufigkeit: ℎ 𝑗 Anzahl der Beobachtungswerte in der j-ten Klasse Relative Klassenhäufigkeit: 𝑓 𝑗 Anteil der Beobachtungswerte in der j-ten Klasse Histogramm-Darstellung Flächenproportionalität: Klassenbreite berücksichtigen! Höhe proportional zur Klassendichte: ℎ 𝑗 𝑑 𝑗
36
Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln
Klassenanzahl Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln m= 𝑛 m=2∙ 𝑛 m=10∙ log 𝑛 m << n
37
Beispiel: Monatseinkommen von Studenten
38
Beispiel: Monatseinkommen von Studenten (cont.)
Bezogen auf eine Intervallbreite von 100 Euro
39
Übungen
40
Übungen (cont.)
41
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
42
Leitfrage Wo ist die Mitte/das Zentrum einer Häufigkeitsverteilung? (Repräsentativer oder typischer Wert eines Datensatzes)
43
Beispiel: Alter der Studenten im 3. Semester
Welcher einzelne Wert vermittelt am ehesten einen zutreffenden Eindruck vom Alter der Studenten?
44
Modus, Median und arithmetisches Mittel
Modus (Dichtester Wert): x D Ausprägung, die am häufigsten auftritt Im Beispiel: x D = 21 Median (Zentralwert): x Z Merkmalswert in der Mitte der geordneten Daten n ungerade: 𝑥 𝑍 = 𝑥 𝑛+1 2 n gerade: 𝑥 𝑍 = 1 2 ∙(𝑥 𝑛 2 + 𝑥 𝑛 2 +1 ) Im Beispiel: n = 25 ungerade x Z = x13 = 21 Arithmetisches Mittel: x Durchschnitt aller Merkmalswerte: 𝑥 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 Im Beispiel: x = 537/25 = 21,48
45
Median und arithmetisches Mittel (Ergänzung)
46
Arithmetisches Mittel: Eigenschaften
Die Summe der Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist Null (= die Abweichungen heben sich gegeneinander auf) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) = 0 Die Summe der quadrieren Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist kleiner als von jedem anderen beliebigen Wert M 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 < 𝑖=1 𝑛 ( 𝑥 𝑖 −𝑀)2 für: M ≠ x Das arithmetische Mittel folgt jeder linearen Transformation der Merkmalswerte y = + 𝑥 𝑦 = + 𝑥
47
Übungen
48
Arithmetisches Mittel
Klassierte Daten Arithmetisches Mittel Berechnung über die Klassenmitten als Repräsentanten der Klassen (Annahme der gleichmäßigen Verteilung innerhalb der Klassen!) 𝑥 = 1 𝑛 𝑗=1 𝑘 ℎ𝑗𝑥’𝑗 (mit k = Anzahl der Klassen) Median Fällt in diejenige Klasse j, in der die empirische Verteilungsfunktion F() den Wert 0,5 erreicht bzw. erstmals überschreitet Feinberechnung: 𝑥 Z = 𝑐 𝑗−1 + 𝑐 𝑗 − 𝑐 𝑗−1 𝑓 𝑗 ∙ 0,5−𝐹 𝑐 𝑗−1 Modus Klasse mit der größten Dichte (= größte Histogrammhöhe)
49
Exkurs: Feinberechnung des Median bei klassierten Daten (Herleitung)
50
Übung Bestimmen Sie Modus, Median und arithmetisches Mittel.
51
Quartile Ähnlich wie Median, aber Aufteilung der geordneten Merkmalswerte in 4 gleich große Teile Unteres Quartil: Q1 = X0,25 (Mitte zwischen kleinstem Wert und dem Median) Mittleres Quartil: Q2 = X0,5 = x Z (identisch mit Median) Oberes Quartil: Q3 = X0,75 (Mitte zwischen Median und größtem Wert) Berechnung xp = x pn+0, mit […] für die nächst kleinere ganze Zahl Q1: p = 0,25 Q2: p = 0,5 Q3: p = 0,75
52
Quartile Quelle:
53
Übung
54
Durchschnittliche prozentuale Veränderungen
Geometrisches Mittel Durchschnittliche prozentuale Veränderungen Arithmetisches Mittel ungeeignet (Zinseszinseffekt!) Geometrisches Mittel Beispiel Umsatz im Jahr 2010: 1000 Euro Veränderung im Jahr 2011: +20 % (Faktor 1,2) Veränderung im Jahr 2012: - 5 % (Faktor 0,95) Veränderung im Jahr 2013: - 20 % (Faktor 0,8) Veränderung im Jahr 2014: + 5 % (Faktor 1,05) Berechnung
55
Übung
56
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
57
Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes?
Leitfrage Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes?
58
Beispiel: Altersverteilungen
59
Interquartilsabstand (Inter Quartile Range, IQR)
Streuungsmaße Spannweite (Range) Differenz zwischen größtem und kleinstem Merkmalswert Range = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 Interquartilsabstand (Inter Quartile Range, IQR) Differenz zwischen oberem und unterem Quartil 𝐼𝑄𝑅=𝑄 3 − 𝑄 1 Varianz: s2 (bzw. Standardabweichung s = s 2 ) Durchschnittliche quadrierte Abweichung vom arithmetischen Mittel 𝑠 2 = 1 𝑛 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 = 1 𝑛 𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 Mean Absolute Deviation (MAD) Durchschnittliche absolute Abweichung vom Median MAD= 1 𝑛 𝑖=1 𝑛 | 𝑥 𝑖 − 𝑥 𝑍|
60
Übung
61
Boxplot (Box-and-Whisker-Plot)
Grafische Darstellung für Mittelwert und Streuung Fünf-Punkte-Zusammenfassung Unteres Quartil Anfang der Box Median Strich innerhalb der Box Obere Quartil Ende der Box Kleinster Merkmalswert Linie (Whisker) unterhalb der Box Größter Merkmalswert Linie (Whisker) oberhalb der Box Zäune für Whisker und Ausreißer Unterer Zaun: zu = x0,25 – 1,5IQR unterer Whisker, falls xmin < zu Oberer Zaun: zo = x0,75 + 1,5IQR oberer Whisker, falls xmax > zu
62
Boxplot: Anwendung Vergleiche von Datensätzen Beispiel: Ergebnisse der Klausur Wirtschafts- mathematik (WS 2010) nach Studiengängen
63
Übung
64
Empirische Regel für die Standardabweichung
Abgeleitet aus Normalverteilung Anteil der Beobachtungen rund um das arithmetische Mittel Einfaches s-Band: 68 Prozent im Intervall [ x -s; x +s] Doppeltes s-Band: 95 Prozent im Intervall [ x -2s; x +2s] Dreifaches s-Band: 99,7 Prozent im Intervall [ x -3s; x +3s]
65
Übung
66
Variationskoeffizient (relative Streuung)
Nur für verhältnisskalierte Merkmale Wert der Standardabweichung hängt auch von absoluter Höhe der Merkmalswerte ab Variationskoeffizient: v= 𝑠 𝑥 = Standardabweichung arithmetisches Mittel
67
rechtsschief/linkssteil linksschief/rechtssteil
Schiefemaß Art und Stärke der Asymmetrie einer Verteilung Schiefe nach Yule-Pearson: g= 3∙ 𝑥 − 𝑥 𝑍 𝑠 Interpretation g > 0 rechtsschiefe Verteilung (linkssteil) g = 0 symmetrische Verteilung g < 0 linksschiefe Verteilung (rechtssteil) rechtsschief/linkssteil symmetrisch linksschief/rechtssteil
68
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
69
Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger?
Leitfrage Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger?
70
Beispiel: Unternehmensgrößen nach Umsätzen
1 2 3 4 5 6 7 8 9 10 Quelle: Bleymüller (2012).
71
Konzentration und Konzentrationsmaße
Absolute Konzentration (Konzentration i.e.S.) Großteil der Merkmalssumme entfällt auf kleine Zahl von Merkmalsträgern Konzentrationsrate CRm (m = 1, 2, 3, … CR1, CR2, CR3, …) Herfindahl-Index H Relative Konzentration (Disparität, Ungleichheit) Großteil der Merkmalssumme entfällt auf kleinen Anteil der Merkmalsträger Lorenz-Kurve Gini-Koeffizient
72
Konzentrationsrate CRm
Aussage Auf die m größten Merkmalsträger entfallen CRm Prozent der Merkmalssumme Vorgehensweise [abweichend vom Skript!] Sortieren der Merkmalswerte in absteigender Reihenfolge Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 CRm= 𝑖=1 𝑚 𝑝 𝑖 Beispiel Verteilung A: CR1 = 100 % (maximale Konzentration) Verteilung B: CR1 = 36 %, CR2 = 66 %, CR3 = 86 % Verteilung F: CR1 = 18 %. CR2 = 36 %, CR3 = 41 %
73
Herfindahl-Index H (= Herfindahl-Hirschman-Index)
Aussage Summe der quadrierten prozentualen Anteile aller Merkmalswerte Schöpft die gesamte in der Verteilung enthaltene Information aus Berechnung Ordnen der Merkmalsträger nach Größe nicht erforderlich Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 H= 𝑖=1 𝑛 𝑝 𝑖 es gilt: 1 n H 1 Beispiel Verteilung A: H = 1 (maximale Konzentration) Verteilung B: H = 0,2 Verteilung G: H = 0,1 Verteilung H: H = 0,198
74
Reihung der Merkmale nach aufsteigender Größe
Lorenzkurve Reihung der Merkmale nach aufsteigender Größe Gegenüberstellung kumulierter Anteile Merkmalsträger: 𝑢 𝑖 = 𝑖 𝑛 (Abszisse) Merkmalssumme: 𝑣 𝑖 = 𝑗=1 𝑖 𝑝 𝑗 (Ordinate) Quadratisches Diagramm Gleichverteilung = Diagonale
75
Lorenzkurve: Beispiele
76
Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis
Gini-Koeffizient Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis Fläche zwischen Lorenzkurve und Gleichverteilungslinie (Schraffur) Fläche des Gleichverteilungsdreiecks Berechnung Reihung der Merkmalsträger nach aufsteigender Größe Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑝 𝑖 𝑛 − 𝑛 + 1 𝑛 es gilt: 0 Gini n − 1 n 1 Normiert: 𝐺𝑖𝑛𝑖 ∗ = 𝑛 𝑛 − 1 ∙𝐺𝑖𝑛𝑖 0 Gini* 1 Interpretation Hohe Konzentration: Gini nahe 1 Geringe Konzentration: Gini nahe 0 Corrado Gini (1884 – 1965)
77
Gini-Koeffizient: Vergleich zum Skript
𝑝 𝑖 = 𝑥 𝑖 G (Merkmalssummenanteile) G= 𝑖=1 𝑛 𝑥 𝑖 (Merkmalssumme) Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝐺 𝑛 − 𝑛 + 1 𝑛 Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙𝐺 − 𝑛 + 1 𝑛 = 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑛 + 1 𝑛
78
Übung: Marktanteile von Fahrzeugherstellern (aus Beispiel 5.2)
Bestimmen Sie den Herfindahl-Index. Skizzieren Sie die Lorenzkurve.
79
Übung
80
Übung Welcher Anteil der Arbeitnehmer erhält 50 Prozent des gesamten Jahreseinkommens? Welcher Anteil der Arbeitnehmer erhält 25 Prozent des gesamten Jahreseinkommens?
81
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
82
Leitfrage Wie lassen sich zweidimensionale Häufigkeitsverteilungen darstellen? (Vorbereitung für explorative Datenanalyse)
83
Kontingenztafel (zweidimensionale Häufigkeitstabelle)
Merkmal Y Randverteilung von X Merkmal X Randverteilung von Y Zwei Merkmale Kombinationen von Ausprägungen Absolute Häufigkeit: ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Relative Häufigkeit: 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) = ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑛 Bedingte Verteilung Verteilung für gegebene Ausprägung des jeweils anderen Merkmals Spalte bzw. Zeile der Kontingenztafel als betrachtete Gesamtheit
84
Beispiel: Bachelor-Studenten
Kontingenztafel (X: Geschlecht, Y: Studiengang) Bedingte Verteilung von Y für X = männlich
85
Streudiagramm (Scatter plot)
Y Punktwolke X
86
Übung
87
Übung
88
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
89
Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale?
Leitfrage Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale?
90
Zusammenhang zwischen X und Y
Nominale Merkmale Vierfelderkoeffizient (für dichotome Merkmale) Kontingenzkoeffizient K Ordinale Merkmale Rangkorrelationskoeffizient rSP (Spearman‘s rho) Metrische Merkmale Korrelationskoeffizient rXY
91
Vierfelderkoeffizient
X und Y mit jeweils zwei Ausprägungen X = {x1, x2} Y = {y1, y2} Kontingenztafel Vierfeldertafel Φ= 𝑎∙𝑑 − 𝑏∙𝑐 (𝑎+𝑏)∙(𝑐+𝑑)∙(𝑎+𝑐)∙(𝑏+𝑑) es gilt: -1 1 Interpretation || nahe 1 hoher statistischer Zusammenhang || nahe 0 kein statistischer Zusammenhang y1 y2 x1 a b x2 c d
92
Übung Liegt ein statistischer Zusammenhang zwischen der Art der Ausbildung und der Länge der Arbeitslosigkeit vor?
93
Kontingenzkoeffizient K
Erwartete Werte bei Unabhängigkeit zwischen X und Y Häufigkeit proportional zu Randverteilungen Erwartete Werte: 𝐸ℎ 𝑎 𝑖 , 𝑏 𝑗 =𝑛∙ 𝑅𝑅𝑉𝑋 𝑖 ∙ 𝑅𝑅𝑉𝑌 𝑗 Relative Randverteilung RRV 𝑅𝑅𝑉𝑋 𝑖 = 𝑗=1 𝑚 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑅𝑅𝑉𝑌 𝑗 = 𝑖=1 𝑘 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) 2 = 𝑗=1 𝑚 𝑖=1 𝑘 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) − ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 2 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Kontingenzkoeffizient K= χ 2 χ 2 +𝑛 es gilt: 0 K 1
94
Normierter Kontingenzkoeffizient Kt
𝐾 𝑚𝑎𝑥 = 𝑀 − 1 𝑀 mit: M = min{k,m} 𝐾 𝑡 = 𝐾 𝐾 max es gilt: 0 Kt 1 Interpretation Kt nahe 1 starker statistischer Zusammenhang Kt nahe 0 kein statistischer Zusammenhang
95
Übung Unterscheiden sich Männer und Frauen hinsichtlich der Wahl des Studiengangs?
96
Rangkorrelationskoeffizient rSP (Spearman‘s rho)
Korrelation zwischen zwei ordinalen Merkmalen X und Y Ränge für beide Merkmale vergeben Beste Bewertung Platz 1 Gleiche Bewertung Ränge mitteln Rangdifferenzen bilden 𝐷 𝑖 =𝑅𝑎𝑛𝑔 𝑋 𝑖 −𝑅𝑎𝑛𝑔( 𝑌 𝑖 ) mit i = 1 … n 𝑟 𝑆𝑃 =𝜌=− 6∙ 𝑖=1 𝑛 𝐷 𝑖 2 𝑛3 − 𝑛 es gilt: –1 rSP 1 Interpretation rSP nahe –1 starker negativer statistischer Zusammenhang rSP nahe +1 starker positiver statistischer Zusammenhang rSP nahe 0 kein statistischer Zusammenhang Charles Spearman (1863 – 1945)
97
Übung
98
Korrelation zwischen metrischen Merkmalen
99
Kovarianz COV X,Y = 1 𝑛 ∙ 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) = 1 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑥 ∙ 𝑦 I II III IV y = 8,2 x = 9,2
100
Übung: Kovarianz für Beispiel 7.4
101
Korrelationskoeffizient rXY
Auguste Bravais (1811 – 1863) Maß für den linearen (!) Zusammenhang zwischen zwei metrischen Merkmalen 𝑟 𝑋𝑌 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 ∙ 𝑠 𝑌 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2∙ 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 )2 Es gilt: -1 rXY 1 Interpretation rxy nahe -1 starker negativer linearer Zusammenhang rxy nahe +1 starker positiver linearer Zusammenhang rxy nahe 0 kein linearer Zusammenhang Karl Pearson (1857 – 1936)
102
Korrelationskoeffizient: Interpretation (Extremwerte)
103
Übung: Korrelationskoeffizient für Beispiel 7.4
104
Übungen
105
Übungen
106
Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse
107
Leitfrage Wie lässt sich der Zusammenhang zwischen mehreren Merkmalen mathematisch-funktional darstellen?
108
Regression Regression Regressionsfunktion Interpretation
Funktionaler Zusammenhang zwischen metrischen Merkmalen Y: abhängige Variable, Regressand, zu erklärende Variable X: unabhängige Variable, Regressor, erklärende Variable Regressionsfunktion Einfachregression: Y = f(X) Beziehung zwischen zwei Variablen (ein Regressand, ein Regressor) Mehrfachregression: Y = f(X1, X2, …, Xk) Beziehung zwischen Regressand und mehreren Regressoren Interpretation Mathematische Beziehung Vorsicht: keine zwingende Kausalität (mögliche „spurious regression“)!
109
Streuungsdiagramme und Einfachregression 1
Kein Zusammenhang Positiver linearer Zusammenhang Quelle: Bleymüller (2012).
110
Streuungsdiagramme und Einfachregression 2
Negativer linearer Zusammenhang Nicht-linearer Zusammenhang Quelle: Bleymüller (2012).
111
Lineare Einfachregression
Regressionsfunktion: y = a + bx a Achsenabschnitt b Steigung Residuum: ei = yi - y i y 1 b yi ei y i a xi x
112
Methode der Kleinsten Quadrate
Kriterium für Regressionsgerade (Parameter a und b) Minimale Summe der quadrierten Residuen (KQ-Verfahren) SAQ a,b = 𝑖=1 𝑛 𝑒 𝑖 2 min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 𝑖 )2 min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 −𝑎−𝑏∙ 𝑥 𝑖 )2 min! Partielles Ableiten nach den Parametern und Nullsetzen 𝜕𝑆𝐴𝑄 𝜕𝑎 =0 𝜕𝑆𝐴𝑄 𝜕𝑏 =0 Zwei unabhängige Gleichungen für zwei Unbekannte (a und b)
113
Regressionskoeffizienten
a= 𝑖=1 𝑛 𝑥 𝑖 2 ∙ 𝑖=1 𝑛 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 − ( 𝑖=1 𝑛 𝑥 𝑖 )2 b= 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 −( 𝑖=1 𝑛 𝑥 𝑖 )2 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 2 Rechenvereinfachung via Schwerpunkt der Punktwolke 𝑦 = 𝑎+𝑏∙ 𝑥
114
Güte der Regression: Bestimmtheitsmaß
Quadratsummen der Abweichungen Zu erklärende Abweichungen: SQT= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Erklärende Abweichungen: SQE= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Nicht-erklärende Abweichungen: SQR= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 𝑖 2 = 𝑖=1 𝑛 𝑒 𝑖 2 SQT = SQE + SQR Division durch n Varianzzerlegung 𝑠 𝑌 2 = 𝑠 𝑌 𝑠 𝑒 1 = 𝑠 𝑌 2 𝑠 𝑌 𝑠 𝑒 2 𝑠 𝑌 2 = SQE SQT + SQR SQT Bestimmtheitsmaß: R2 = 𝑠 𝑌 2 𝑠 𝑌 2 = SQE SQT Es gilt: 0 R2 1
115
Bestimmtheitsmaß: Interpretation
R2 = 1 perfekter linearer Zusammenhang zwischen X und Y positiv (b > 0) negativ (b < 0) R2 = 0 kein linearer Zusammenhang zwischen X und Y Je höher R2, desto enger ist der lineare Zusammenhang Quelle: Bleymüller (2012).
116
Beispiel: Verkaufsfläche und Umsatz (Bleymüller 2012)
Jahresumsatz und Verkaufsfläche in n = 12 Filialen Linearer Zusammenhang? Funktionale Form des Zusammenhangs (Parameter a und b)?
117
Beispiel (cont.): Arbeitstabelle und Parameterberechnung
118
Beispiel (cont.): Regressionsfunktion
119
Vorsicht Scheinkorrelation!
Y [Durchschnittsgeschwindigkeit im Marathon] Männer Frauen X [Gewicht des Läufers]
120
Übung
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.