UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018

Slides:

Advertisements

Ähnliche Präsentationen

Univariate Statistik M. Kresken.

Advertisements

Lagemaße kritische Fragen

Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.

2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell

Statistische Methoden I

Statistische Methoden I

Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.

Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.

Median Merkmal Geordneter Datensatz

Streuungsparameter Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.

Die Vorlesung Mathematik I (Prof. Kugelmann) findet heute um 14:30 Uhr im Hörsaal Loefflerstraße 70 statt.

Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)

Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.

Datentabelle für 2 Merkmale

Streuungsparameter Median Mittlere Abweichung vom Median

Lehrstuhl für Algebra und funktionalanalytische Anwendungen

Univariate Statistik M. Kresken.

(Gini-Koeffizient, Lorenz-Kurve)

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Diskrete Wahrscheinlichkeitsmodelle

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Daten auswerten Boxplots

STATISIK LV Nr.: 0028 SS Mai 2005.

STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005.

Statistik Statistik I Seminar + Blockveranstaltung Statistik I

Statistik – Regression - Korrelation

Erheben, berechnen und darstellen von Daten

Messen Zuordnung von Zahlen zu Objekten/Ereignissen gemäß Regeln

Mathematik für BiologInnen WS 05

setzt Linearität des Zusammenhangs voraus

Weitere Informationen zur Vorlesung 1)In den Übungen werden die Aufgaben besprochen, die Sie im Internet auf der Seite meines Lehrstuhls finden. 2) Die.

Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken

Statistische Auswertung und Darstellungsmöglichkeiten von Messdaten Seminarvortrag von Christian Gorgels im Studiengang Scientific Programming.

Seminarvortrag Statistische und numerische Auswertung von Schwingfestigkeits- und Ermüdungsversuchen mit SAFD Lan Tran Aachen,

Ein Dozent hat mittels eines Fragebogens die Körpergröße seiner Studenten festgestellt. Anhand der erfassten Daten weiß er, dass der kleinste Student 158.

Page  1 Agenda  Beantwortung der Forschungsfragen  Datendarstellung für Präsentation und Bericht  Häufigkeitsverteilungen  Statistische Kennwerte.

Wahrscheinlichkeitstheorie

Betrachtung der Realität aus der Sicht der Statistik VARIABILITÄT

Übersetzung: / Tradotto da:

4 Spezifizierende Beschreibung

5 Beschreibung und Analyse

7.2 Theoretische Kennwerte

Median, Spannweite, Halbweite

Die einfache/multiple lineare Regression

Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)

Ökonometrie und Statistik Wiederholung

Ökonometrie und Statistik Mehrfachregression

Univariate Statistik M. Kresken.

10 Statistisches Schätzen

12 Das lineare Regressionsmodell

3 Gesamtbeschreibung empirischer Verteilungen.

Forschungsstrategien Johannes Gutenberg Universität Mainz

Statistik IV Statistik III

Ökonometrie und Statistik Wiederholung

4 Spezifizierende Beschreibung

5 Beschreibung und Analyse

Statistik und Biometrie

ReduSoft Ltd. Kurzbeschreibungen zu einigen Modulen, die im Programm MathProf 5.0 unter dem Themenbereich Stochastik implementiert sind.

Ökonometrie und Statistik Prüfungsthemen

Ökonometrie und Statistik Wiederholung

Übersicht Etwas Mathematik (ganz ohne geht es nicht).

Konfidenzintervalle und Tests auf Normalverteilung

Korrelation & Skalentransformation

Fortgeschrittene statistische Methoden SS2020

Ökonometrie und Statistik Unabhängigkeitstest, c² - Test (Chi Quadrat Test) Dr. Bertram Wassermann.

Ökonometrie und Statistik Wiederholung

Präsentation transkript:

UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018 Statistik Prof. Dr. Stefan Kooths UE/BiTS Berlin, ALBA BERLIN College Sommersemester 2018

Kontaktdaten Prof. Dr. Stefan Kooths Leiter des Prognosezentrums Institut für Weltwirtschaft Kiel (IfW) Büro Berlin In den Ministergärten 8 10117 Berlin 030/2067-9664 stefan.kooths@ue-germany.com www.kooths.de

The Kiel Institute for the World Economy Forecasting Center

Be smarter than your phone …

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Leitfrage Worum geht es?

Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage

Statistik Deskriptive und explorative Statistik: Datenbeschreibung und Mustererkennung (meist in großen Datensätzen) Stochastik (schließende Statistik): Wahrscheinlichkeitsrechnung und Hypothesentests Empirische Grundlage

Aufgaben und Vorgehensweise Daten sammeln darstellen analysieren interpretieren Phase 1 Planung Phase 2 Datenerhebung Phase 3 Datenaufbereitung Phase 4 Auswertung und Analyse Phase 5 Interpretation

Wichtige Begriffe 1

Wichtige Begriffe 2 Statistische Einheit (= Merkmalsträger) Träger von Eigenschaften, die im Rahmen einer empirischen Untersuchung von Interesse sind Grundgesamtheit Eine hinsichtlich sachlicher, räumlicher und zeitlicher Kriterien sinnvoll gebildete Gesamtheit von statistischen Einheiten Teilgesamtheit Teilmenge der Grundgesamtheit Merkmal (= Variable) Charakteristische Eigenschaft einer statistischen Einheit Merkmalsausprägungen (= Definitionsbereich des Merkmals) Mögliche Werte, die ein Merkmal annehmen kann Merkmalswert Konkreter Wert, den eine statistische Einheit hinsichtlich eines bestimmten Merkmals aufweist

Merkmal, Merkmalsausprägungen, Merkmalswert: Beispiel

Stichprobe (= Teilerhebung) Erhebungsformen Vollerhebung Alle statistischen Einheiten einer Grundgesamtheit werden berücksichtigt (Beispiel: Volkszählung) Stichprobe (= Teilerhebung) Tatsächlich untersuchte Teilgesamtheit (Beispiel: Mikrozensus) Kleine Stichprobe: bis zu 30 statistische Einheiten Große Stichprobe: mehr als 30 statistische Einheiten

Skalenniveau Skalentyp Aussageformen mögliche Relationen qualitativ Nominalskala gleich oder ungleich ,  Ordinalskala Rangordnung , , >, < quantitativ (metrisch) Intervallskala Abstand (Differenzen) , , >, <, +, - Verhältnisskala Verhältnisse (absoluter Nullpunkt) , , >, <, +, -, , 

Häufbarkeit von Merkmalsausprägungen Häufbare Merkmale Merkmalsträger mit mehreren Ausprägungen desselben Merkmals Beispiele Studiengänge eines Studenten Mitgliedschaft in Vereinen Nicht-häufbare Merkmale Merkmalsträger weist genau eine Ausprägung je Merkmal auf Geburtsort einer Person Erstzulassung eines Fahrzeugs

Metrische Merkmale: Diskret, stetig, quasi-stetig Diskrete Merkmale Nur bestimmte Werte auf einer metrischen Skala sind zulässig (= endliche Anzahl an Ausprägungen) Beispiele Zahl der Studenten einer Vorlesung Zahl der Fahrzeuge eines Fuhrparks Quasi-stetige Merkmale Diskret, aber sehr große Anzahl an Ausprägungen Beispiel Kunden einer Sportmarke Stetige Merkmale Können alle (= unendlich viele) Werte innerhalb eines Intervalls annehmen Beispiele Länge eines Werkstücks Füllgewicht

Gruppieren (klassieren, kategorisieren) Zusammenfassen mehrerer Ausprägungen (vor allem bei stetigen Merkmalen) zu einer Klasse oder Kategorie Beispiele Einkommensgruppen (niedrig, mittel, hoch) Altersgruppen (minderjährig, volljährig) Berufserfahrung (0..3 Jahre, 4..10 Jahre, mehr als 10 Jahre)

Übung

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Wie lassen sich Daten sammeln und darstellen? Leitfrage Wie lassen sich Daten sammeln und darstellen?

Befragung  Fragebogen Erhebung Befragung  Fragebogen Schriftlich Mündlich Beobachtung Experiment Automatische Erfassung

Grober erster Überblick: Stem-and-Leaf-Diagram Messwerte (z. B. Umsatz je Gast eines Restaurants in Euro): 44, 46, 47, 49, 63, 64, 66, 68, 68, 72, 72, 75, 76, 81, 84, 88, 106 Stem (Zehner) Leaf (Einer) 4 4 6 7 9 5 6 3 4 6 8 8 7 2 2 5 6 8 1 4 8 9 10

Häufigkeitsverteilungen Variablen Anzahl der statistischen Einheiten in der Gesamtheit: n Merkmal X mit m Ausprägungen 𝑎 1 , 𝑎 2 , … 𝑎 𝑖 , … 𝑎 𝑚 Merkmalswerte 𝑥 1 , 𝑥 2 , … 𝑥 𝑛 Absolute Häufigkeit: ℎ 𝑎 𝑖 Anzahl, mit der die Ausprägung ai in der Gesamtheit auftritt Relative Häufigkeit: 𝑓 𝑎 𝑖 = ℎ 𝑎 𝑖 𝑛 Anteil der Ausprägung ai in der Grundgesamtheit Häufigkeitsverteilung Darstellung von Ausprägungen und ihren absoluten oder relativen Häufigkeiten in Tabellen oder Diagrammen

Summenhäufigkeitsfunktion (empirische Verteilungsfunktion) Fortlaufende Summierung (Kumulierung) der absoluten oder relativen Häufigkeiten Absolut: 𝐻 𝑗 = 𝑖=1 𝑗 ℎ( 𝑎 𝑖 ) Anzahl der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist Relativ: 𝐹 𝑗 = 𝑖=1 𝑗 𝑓( 𝑎 𝑖 ) Anteil der statistischen Einheiten, deren Merkmalswert kleiner oder gleich aj ist

Häufigkeitsverteilung: Tabellendarstellung

Beispiel: Zeitungsverkäufe (Bleymüller 2012, S. 7 ff) Ein Kioskinhaber notiert 200 Tage lang täglich die Zahl der verkauften Exemplare einer bestimmten Zeitung.

Häufigkeitsverteilung und Summenhäufigkeiten

Stabdiagramm Höhenproportional zur Häufigkeit

Histogramm Flächenproportional zur Häufigkeit

Relative Summenhäufigkeitsfunktion

Beispiel: (Sonntagsfrage zur) Bundestagswahl Relative Häufigkeitsverteilung der Wähler (Wahlabsichten) Stichproben Voll- erhebung Nominal- skala

Tortendiagramm (Chart): Bundestagswahlergebnis 2017 Flächenproportional zur Häufigkeit

Klassengrenzen für Klasse j Gruppierung von Daten Klassengrenzen für Klasse j Untere Klassengrenze: 𝑐 𝑗 𝑢 Obere Klassengrenze: 𝑐 𝑗 𝑜 := 𝑐 𝑗 Klassenbreite: 𝑑 𝑗 = 𝑐 𝑗 𝑜 − 𝑐 𝑗 𝑢 = 𝑐 𝑗 − 𝑐 𝑗−1 Klassenmitte: 𝑐′ 𝑗 = 𝑐 𝑗−1 + 𝑐 𝑗 2 Klassen dürfen sich nicht überlappen „von … bis unter“ „über … bis“ Klassen müssen alle Ausprägungen abdecken Ausprägungen eindeutig einer Klasse zuordnen

Absolute Klassenhäufigkeit: ℎ 𝑗 Relative Klassenhäufigkeit: 𝑓 𝑗 Klassenhäufigkeiten Absolute Klassenhäufigkeit: ℎ 𝑗 Anzahl der Beobachtungswerte in der j-ten Klasse Relative Klassenhäufigkeit: 𝑓 𝑗 Anteil der Beobachtungswerte in der j-ten Klasse Histogramm-Darstellung Flächenproportionalität: Klassenbreite berücksichtigen! Höhe proportional zur Klassendichte: ℎ 𝑗 𝑑 𝑗

Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln Klassenanzahl Anzahl Beobachtungen: n Anzahl Klassen: m Faustregeln m= 𝑛 m=2∙ 𝑛 m=10∙ log 𝑛 m << n

Beispiel: Monatseinkommen von Studenten

Beispiel: Monatseinkommen von Studenten (cont.) Bezogen auf eine Intervallbreite von 100 Euro

Übungen

Übungen (cont.)

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Leitfrage Wo ist die Mitte/das Zentrum einer Häufigkeitsverteilung? (Repräsentativer oder typischer Wert eines Datensatzes)

Beispiel: Alter der Studenten im 3. Semester Welcher einzelne Wert vermittelt am ehesten einen zutreffenden Eindruck vom Alter der Studenten?

Modus, Median und arithmetisches Mittel Modus (Dichtester Wert): x D Ausprägung, die am häufigsten auftritt Im Beispiel: x D = 21 Median (Zentralwert): x Z Merkmalswert in der Mitte der geordneten Daten n ungerade: 𝑥 𝑍 = 𝑥 𝑛+1 2 n gerade: 𝑥 𝑍 = 1 2 ∙(𝑥 𝑛 2 + 𝑥 𝑛 2 +1 ) Im Beispiel: n = 25  ungerade  x Z = x13 = 21 Arithmetisches Mittel: x Durchschnitt aller Merkmalswerte: 𝑥 = 1 𝑛  𝑖=1 𝑛 𝑥 𝑖 Im Beispiel: x = 537/25 = 21,48

Median und arithmetisches Mittel (Ergänzung)

Arithmetisches Mittel: Eigenschaften Die Summe der Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist Null (= die Abweichungen heben sich gegeneinander auf) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) = 0 Die Summe der quadrieren Abweichungen der Merkmalswerte von ihrem arithmetischen Mittel ist kleiner als von jedem anderen beliebigen Wert M 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 < 𝑖=1 𝑛 ( 𝑥 𝑖 −𝑀)2 für: M ≠ x Das arithmetische Mittel folgt jeder linearen Transformation der Merkmalswerte y =  + 𝑥  𝑦 =  +  𝑥

Übungen

Arithmetisches Mittel Klassierte Daten Arithmetisches Mittel Berechnung über die Klassenmitten als Repräsentanten der Klassen (Annahme der gleichmäßigen Verteilung innerhalb der Klassen!) 𝑥 = 1 𝑛  𝑗=1 𝑘 ℎ𝑗𝑥’𝑗 (mit k = Anzahl der Klassen) Median Fällt in diejenige Klasse j, in der die empirische Verteilungsfunktion F() den Wert 0,5 erreicht bzw. erstmals überschreitet Feinberechnung: 𝑥 Z = 𝑐 𝑗−1 + 𝑐 𝑗 − 𝑐 𝑗−1 𝑓 𝑗 ∙ 0,5−𝐹 𝑐 𝑗−1 Modus Klasse mit der größten Dichte (= größte Histogrammhöhe)

Exkurs: Feinberechnung des Median bei klassierten Daten (Herleitung)

Übung Bestimmen Sie Modus, Median und arithmetisches Mittel.

Quartile Ähnlich wie Median, aber Aufteilung der geordneten Merkmalswerte in 4 gleich große Teile Unteres Quartil: Q1 = X0,25 (Mitte zwischen kleinstem Wert und dem Median) Mittleres Quartil: Q2 = X0,5 = x Z (identisch mit Median) Oberes Quartil: Q3 = X0,75 (Mitte zwischen Median und größtem Wert) Berechnung xp = x pn+0,5 mit […] für die nächst kleinere ganze Zahl Q1: p = 0,25 Q2: p = 0,5 Q3: p = 0,75

Quartile Quelle: https://en.wikipedia.org/wiki/Quartile

Übung

Durchschnittliche prozentuale Veränderungen Geometrisches Mittel Durchschnittliche prozentuale Veränderungen Arithmetisches Mittel ungeeignet (Zinseszinseffekt!) Geometrisches Mittel Beispiel Umsatz im Jahr 2010: 1000 Euro Veränderung im Jahr 2011: +20 % (Faktor 1,2) Veränderung im Jahr 2012: - 5 % (Faktor 0,95) Veränderung im Jahr 2013: - 20 % (Faktor 0,8) Veränderung im Jahr 2014: + 5 % (Faktor 1,05) Berechnung

Übung

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes? Leitfrage Wie stark streuen die Merkmalswerte um das Zentrum des Datensatzes?

Beispiel: Altersverteilungen

Interquartilsabstand (Inter Quartile Range, IQR) Streuungsmaße Spannweite (Range) Differenz zwischen größtem und kleinstem Merkmalswert Range = 𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛 Interquartilsabstand (Inter Quartile Range, IQR) Differenz zwischen oberem und unterem Quartil 𝐼𝑄𝑅=𝑄 3 − 𝑄 1 Varianz: s2 (bzw. Standardabweichung s = s 2 ) Durchschnittliche quadrierte Abweichung vom arithmetischen Mittel 𝑠 2 = 1 𝑛  𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2 = 1 𝑛  𝑖=1 𝑛 𝑥 𝑖 2 − 𝑥 2 Mean Absolute Deviation (MAD) Durchschnittliche absolute Abweichung vom Median MAD= 1 𝑛  𝑖=1 𝑛 | 𝑥 𝑖 − 𝑥 𝑍|

Übung

Boxplot (Box-and-Whisker-Plot) Grafische Darstellung für Mittelwert und Streuung Fünf-Punkte-Zusammenfassung Unteres Quartil  Anfang der Box Median  Strich innerhalb der Box Obere Quartil  Ende der Box Kleinster Merkmalswert  Linie (Whisker) unterhalb der Box Größter Merkmalswert  Linie (Whisker) oberhalb der Box Zäune für Whisker und Ausreißer Unterer Zaun: zu = x0,25 – 1,5IQR  unterer Whisker, falls xmin < zu Oberer Zaun: zo = x0,75 + 1,5IQR  oberer Whisker, falls xmax > zu

Boxplot: Anwendung Vergleiche von Datensätzen Beispiel: Ergebnisse der Klausur Wirtschafts- mathematik (WS 2010) nach Studiengängen

Übung

Empirische Regel für die Standardabweichung Abgeleitet aus Normalverteilung Anteil der Beobachtungen rund um das arithmetische Mittel Einfaches s-Band: 68 Prozent im Intervall [ x -s; x +s] Doppeltes s-Band: 95 Prozent im Intervall [ x -2s; x +2s] Dreifaches s-Band: 99,7 Prozent im Intervall [ x -3s; x +3s]

Übung

Variationskoeffizient (relative Streuung) Nur für verhältnisskalierte Merkmale Wert der Standardabweichung hängt auch von absoluter Höhe der Merkmalswerte ab Variationskoeffizient: v= 𝑠 𝑥 = Standardabweichung arithmetisches Mittel

rechtsschief/linkssteil linksschief/rechtssteil Schiefemaß Art und Stärke der Asymmetrie einer Verteilung Schiefe nach Yule-Pearson: g= 3∙ 𝑥 − 𝑥 𝑍 𝑠 Interpretation g > 0  rechtsschiefe Verteilung (linkssteil) g = 0  symmetrische Verteilung g < 0  linksschiefe Verteilung (rechtssteil) rechtsschief/linkssteil symmetrisch linksschief/rechtssteil

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger? Leitfrage Wie sehr verdichten sich die Merkmalswerte auf wenige Merkmalsträger?

Beispiel: Unternehmensgrößen nach Umsätzen 1 2 3 4 5 6 7 8 9 10 Quelle: Bleymüller (2012).

Konzentration und Konzentrationsmaße Absolute Konzentration (Konzentration i.e.S.) Großteil der Merkmalssumme entfällt auf kleine Zahl von Merkmalsträgern Konzentrationsrate CRm (m = 1, 2, 3, …  CR1, CR2, CR3, …) Herfindahl-Index H Relative Konzentration (Disparität, Ungleichheit) Großteil der Merkmalssumme entfällt auf kleinen Anteil der Merkmalsträger Lorenz-Kurve Gini-Koeffizient

Konzentrationsrate CRm Aussage Auf die m größten Merkmalsträger entfallen CRm Prozent der Merkmalssumme Vorgehensweise [abweichend vom Skript!] Sortieren der Merkmalswerte in absteigender Reihenfolge Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 CRm= 𝑖=1 𝑚 𝑝 𝑖 Beispiel Verteilung A: CR1 = 100 % (maximale Konzentration) Verteilung B: CR1 = 36 %, CR2 = 66 %, CR3 = 86 % Verteilung F: CR1 = 18 %. CR2 = 36 %, CR3 = 41 %

Herfindahl-Index H (= Herfindahl-Hirschman-Index) Aussage Summe der quadrierten prozentualen Anteile aller Merkmalswerte Schöpft die gesamte in der Verteilung enthaltene Information aus Berechnung Ordnen der Merkmalsträger nach Größe nicht erforderlich Berechnen der Merkmalssumme G= 𝑖=1 𝑛 𝑥 𝑖 Berechnen der Merkmalssummenanteile 𝑝 𝑖 = 𝑥 𝑖 𝐺 H= 𝑖=1 𝑛 𝑝 𝑖 2 es gilt: 1 n  H  1 Beispiel Verteilung A: H = 1 (maximale Konzentration) Verteilung B: H = 0,2 Verteilung G: H = 0,1 Verteilung H: H = 0,198

Reihung der Merkmale nach aufsteigender Größe Lorenzkurve Reihung der Merkmale nach aufsteigender Größe Gegenüberstellung kumulierter Anteile Merkmalsträger: 𝑢 𝑖 = 𝑖 𝑛 (Abszisse) Merkmalssumme: 𝑣 𝑖 = 𝑗=1 𝑖 𝑝 𝑗 (Ordinate) Quadratisches Diagramm Gleichverteilung = Diagonale

Lorenzkurve: Beispiele

Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis Gini-Koeffizient Verdichtung der Lorenzkurve in einer Zahl: Flächenverhältnis Fläche zwischen Lorenzkurve und Gleichverteilungslinie (Schraffur) Fläche des Gleichverteilungsdreiecks Berechnung Reihung der Merkmalsträger nach aufsteigender Größe Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑝 𝑖 𝑛 − 𝑛 + 1 𝑛 es gilt: 0  Gini  n − 1 n  1 Normiert: 𝐺𝑖𝑛𝑖 ∗ = 𝑛 𝑛 − 1 ∙𝐺𝑖𝑛𝑖  0  Gini*  1 Interpretation Hohe Konzentration: Gini nahe 1 Geringe Konzentration: Gini nahe 0 Corrado Gini (1884 – 1965)

Gini-Koeffizient: Vergleich zum Skript 𝑝 𝑖 = 𝑥 𝑖 G (Merkmalssummenanteile) G= 𝑖=1 𝑛 𝑥 𝑖 (Merkmalssumme) Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝐺 𝑛 − 𝑛 + 1 𝑛 Gini= 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙𝐺 − 𝑛 + 1 𝑛 = 2∙ 𝑖=1 𝑛 𝑖∙ 𝑥 𝑖 𝑛∙ 𝑖=1 𝑛 𝑥 𝑖 − 𝑛 + 1 𝑛

Übung: Marktanteile von Fahrzeugherstellern (aus Beispiel 5.2) Bestimmen Sie den Herfindahl-Index. Skizzieren Sie die Lorenzkurve.

Übung

Übung Welcher Anteil der Arbeitnehmer erhält 50 Prozent des gesamten Jahreseinkommens? Welcher Anteil der Arbeitnehmer erhält 25 Prozent des gesamten Jahreseinkommens?

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Leitfrage Wie lassen sich zweidimensionale Häufigkeitsverteilungen darstellen? (Vorbereitung für explorative Datenanalyse)

Kontingenztafel (zweidimensionale Häufigkeitstabelle) Merkmal Y Randverteilung von X Merkmal X Randverteilung von Y Zwei Merkmale  Kombinationen von Ausprägungen Absolute Häufigkeit: ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Relative Häufigkeit: 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) = ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑛 Bedingte Verteilung Verteilung für gegebene Ausprägung des jeweils anderen Merkmals Spalte bzw. Zeile der Kontingenztafel als betrachtete Gesamtheit

Beispiel: Bachelor-Studenten Kontingenztafel (X: Geschlecht, Y: Studiengang) Bedingte Verteilung von Y für X = männlich

Streudiagramm (Scatter plot) Y Punktwolke X

Übung

Übung

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale? Leitfrage Besteht ein Zusammenhang zwischen den Ausprägungen zweier Merkmale?

Zusammenhang zwischen X und Y Nominale Merkmale Vierfelderkoeffizient  (für dichotome Merkmale) Kontingenzkoeffizient K Ordinale Merkmale Rangkorrelationskoeffizient rSP (Spearman‘s rho) Metrische Merkmale Korrelationskoeffizient rXY

Vierfelderkoeffizient  X und Y mit jeweils zwei Ausprägungen X = {x1, x2} Y = {y1, y2} Kontingenztafel  Vierfeldertafel Φ= 𝑎∙𝑑 − 𝑏∙𝑐 (𝑎+𝑏)∙(𝑐+𝑑)∙(𝑎+𝑐)∙(𝑏+𝑑) es gilt: -1    1 Interpretation || nahe 1  hoher statistischer Zusammenhang || nahe 0  kein statistischer Zusammenhang y1 y2 x1 a b x2 c d

Übung Liegt ein statistischer Zusammenhang zwischen der Art der Ausbildung und der Länge der Arbeitslosigkeit vor?

Kontingenzkoeffizient K Erwartete Werte bei Unabhängigkeit zwischen X und Y Häufigkeit proportional zu Randverteilungen Erwartete Werte: 𝐸ℎ 𝑎 𝑖 , 𝑏 𝑗 =𝑛∙ 𝑅𝑅𝑉𝑋 𝑖 ∙ 𝑅𝑅𝑉𝑌 𝑗 Relative Randverteilung RRV 𝑅𝑅𝑉𝑋 𝑖 = 𝑗=1 𝑚 𝑓( 𝑎 𝑖 , 𝑏 𝑗 ) 𝑅𝑅𝑉𝑌 𝑗 = 𝑖=1 𝑘 𝑓( 𝑎 𝑖 , 𝑏 𝑗 )  2 = 𝑗=1 𝑚 𝑖=1 𝑘 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) − ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) 2 𝐸ℎ( 𝑎 𝑖 , 𝑏 𝑗 ) Kontingenzkoeffizient K= χ 2 χ 2 +𝑛 es gilt: 0  K  1

Normierter Kontingenzkoeffizient Kt 𝐾 𝑚𝑎𝑥 = 𝑀 − 1 𝑀 mit: M = min{k,m} 𝐾 𝑡 = 𝐾 𝐾 max es gilt: 0  Kt  1 Interpretation Kt nahe 1  starker statistischer Zusammenhang Kt nahe 0  kein statistischer Zusammenhang

Übung Unterscheiden sich Männer und Frauen hinsichtlich der Wahl des Studiengangs?

Rangkorrelationskoeffizient rSP (Spearman‘s rho) Korrelation zwischen zwei ordinalen Merkmalen X und Y Ränge für beide Merkmale vergeben Beste Bewertung  Platz 1 Gleiche Bewertung  Ränge mitteln Rangdifferenzen bilden 𝐷 𝑖 =𝑅𝑎𝑛𝑔 𝑋 𝑖 −𝑅𝑎𝑛𝑔( 𝑌 𝑖 ) mit i = 1 … n 𝑟 𝑆𝑃 =𝜌=− 6∙ 𝑖=1 𝑛 𝐷 𝑖 2 𝑛3 − 𝑛 es gilt: –1  rSP  1 Interpretation rSP nahe –1  starker negativer statistischer Zusammenhang rSP nahe +1  starker positiver statistischer Zusammenhang rSP nahe 0  kein statistischer Zusammenhang Charles Spearman (1863 – 1945)

Übung

Korrelation zwischen metrischen Merkmalen

Kovarianz COV X,Y = 1 𝑛 ∙ 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) = 1 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑥 ∙ 𝑦 I II III IV y = 8,2 x = 9,2

Übung: Kovarianz für Beispiel 7.4

Korrelationskoeffizient rXY Auguste Bravais (1811 – 1863) Maß für den linearen (!) Zusammenhang zwischen zwei metrischen Merkmalen 𝑟 𝑋𝑌 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 ∙ 𝑠 𝑌 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )∙( 𝑦 𝑖 − 𝑦 ) 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 )2∙ 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 )2 Es gilt: -1  rXY  1 Interpretation rxy nahe -1  starker negativer linearer Zusammenhang rxy nahe +1  starker positiver linearer Zusammenhang rxy nahe 0  kein linearer Zusammenhang Karl Pearson (1857 – 1936)

Korrelationskoeffizient: Interpretation (Extremwerte)

Übung: Korrelationskoeffizient für Beispiel 7.4

Übungen

Übungen

Gliederung Begriffe und Definitionen Datendarstellung und graphische Präsentation Lageparameter (Mittelwerte) Streuungsmaße Konzentrationsmessung Zweidimensionale Häufigkeitsverteilungen Korrelation und Kontingenz Regressionsanalyse

Leitfrage Wie lässt sich der Zusammenhang zwischen mehreren Merkmalen mathematisch-funktional darstellen?

Regression Regression Regressionsfunktion Interpretation Funktionaler Zusammenhang zwischen metrischen Merkmalen Y: abhängige Variable, Regressand, zu erklärende Variable X: unabhängige Variable, Regressor, erklärende Variable Regressionsfunktion Einfachregression: Y = f(X)  Beziehung zwischen zwei Variablen (ein Regressand, ein Regressor) Mehrfachregression: Y = f(X1, X2, …, Xk)  Beziehung zwischen Regressand und mehreren Regressoren Interpretation Mathematische Beziehung Vorsicht: keine zwingende Kausalität (mögliche „spurious regression“)!

Streuungsdiagramme und Einfachregression 1 Kein Zusammenhang Positiver linearer Zusammenhang Quelle: Bleymüller (2012).

Streuungsdiagramme und Einfachregression 2 Negativer linearer Zusammenhang Nicht-linearer Zusammenhang Quelle: Bleymüller (2012).

Lineare Einfachregression Regressionsfunktion: y = a + bx a  Achsenabschnitt b  Steigung Residuum: ei = yi - y i y 1 b yi ei y i a xi x

Methode der Kleinsten Quadrate Kriterium für Regressionsgerade (Parameter a und b) Minimale Summe der quadrierten Residuen (KQ-Verfahren) SAQ a,b = 𝑖=1 𝑛 𝑒 𝑖 2  min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 − 𝑦 𝑖 )2  min! SAQ a,b = 𝑖=1 𝑛 ( 𝑦 𝑖 −𝑎−𝑏∙ 𝑥 𝑖 )2  min! Partielles Ableiten nach den Parametern und Nullsetzen 𝜕𝑆𝐴𝑄 𝜕𝑎 =0 𝜕𝑆𝐴𝑄 𝜕𝑏 =0 Zwei unabhängige Gleichungen für zwei Unbekannte (a und b)

Regressionskoeffizienten a= 𝑖=1 𝑛 𝑥 𝑖 2 ∙ 𝑖=1 𝑛 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 − ( 𝑖=1 𝑛 𝑥 𝑖 )2 b= 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑦 𝑖 − 𝑖=1 𝑛 𝑥 𝑖 ∙ 𝑖=1 𝑛 𝑦 𝑖 𝑛 ∙ 𝑖=1 𝑛 𝑥 𝑖 2 −( 𝑖=1 𝑛 𝑥 𝑖 )2 = 𝐶𝑂𝑉(𝑋,𝑌) 𝑠 𝑋 2 Rechenvereinfachung via Schwerpunkt der Punktwolke 𝑦 = 𝑎+𝑏∙ 𝑥

Güte der Regression: Bestimmtheitsmaß Quadratsummen der Abweichungen Zu erklärende Abweichungen: SQT= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Erklärende Abweichungen: SQE= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 2 Nicht-erklärende Abweichungen: SQR= 𝑖=1 𝑛 𝑦 𝑖 − 𝑦 𝑖 2 = 𝑖=1 𝑛 𝑒 𝑖 2 SQT = SQE + SQR Division durch n  Varianzzerlegung 𝑠 𝑌 2 = 𝑠 𝑌 2 + 𝑠 𝑒 2  1 = 𝑠 𝑌 2 𝑠 𝑌 2 + 𝑠 𝑒 2 𝑠 𝑌 2 = SQE SQT + SQR SQT Bestimmtheitsmaß: R2 = 𝑠 𝑌 2 𝑠 𝑌 2 = SQE SQT Es gilt: 0  R2  1

Bestimmtheitsmaß: Interpretation R2 = 1  perfekter linearer Zusammenhang zwischen X und Y positiv (b > 0) negativ (b < 0) R2 = 0  kein linearer Zusammenhang zwischen X und Y Je höher R2, desto enger ist der lineare Zusammenhang Quelle: Bleymüller (2012).

Beispiel: Verkaufsfläche und Umsatz (Bleymüller 2012) Jahresumsatz und Verkaufsfläche in n = 12 Filialen Linearer Zusammenhang? Funktionale Form des Zusammenhangs (Parameter a und b)?

Beispiel (cont.): Arbeitstabelle und Parameterberechnung

Beispiel (cont.): Regressionsfunktion

Vorsicht Scheinkorrelation! Y [Durchschnittsgeschwindigkeit im Marathon] Männer Frauen X [Gewicht des Läufers]

Übung 