Grundlagen sozialwissenschaftlicher Datenanalyse

Slides:



Advertisements
Ähnliche Präsentationen
Quanti Tutorium
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Univariate Statistik M. Kresken.
Mittlere absolute Abweichung vom Mittelwert(1)
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Berechnung des Korrelationskoeffizienten Vorbemerkung. Der Korrelationskoeffizient ist im Grunde ein Bruch aus 3 unvollständig berechneten statistischen.
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik II
Die Standardnormalverteilung
Deskriptive Statistik und Wahrscheinlichkeitstheorie
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Median Merkmal Geordneter Datensatz
Die Vorlesung Mathematik I (Prof. Kugelmann) findet heute um 14:30 Uhr im Hörsaal Loefflerstraße 70 statt.
Rechenregeln für Mittelwert, Varianz und Streuung.
Datenmatrix.
Quantile.
Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)
Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.
Streuungsparameter Median Mittlere Abweichung vom Median
Quantile.
Univariate Statistik M. Kresken.
Wahrscheinlich-keitsrechnung
Fachschule für Technik Biomedizinische Arbeitsmethoden
AWA 2007 Natur und Umwelt Natürlich Leben
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Das wars!.
Diskrete Wahrscheinlichkeitsmodelle
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Wiederholung und Beispiele
Vorlesung: ANOVA II.
Daten auswerten Boxplots
Potenzfunktionen Nullstellenberechnungen
Eine Einführung in die CD-ROM
Alle Maße in mm.
Aufgabenzettel V Statistik I
Forschungsmethoden Masse der zentralen Tendenz Horst Biedermann Departement Erziehungswissenschaften, Universität Fribourg.
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) 3. Ausgaben ( ) Wiederholung Tabellen,
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Versuch zur Messung der Geschwindigkeit
Kennwerte und Boxplots
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005.
Referat über das Thema STOCHASTIK.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Empirische Softwaretechnik
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Data Mining Georg Pölzlbauer.
Der Zentralwert.
Deskriptive Statistik
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Folie Einzelauswertung der Gemeindedaten
Statistik – Regression - Korrelation
Veranstaltung 4.
Einführung zur Fehlerrechnung
Mathematik für BiologInnen WS 05
setzt Linearität des Zusammenhangs voraus
STATISIK LV Nr.: 1375 SS März 2005.
Verteilungen, Varianz Tamara Katschnig.
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
Statistik III Statistik III 2. Streuungsmaße (Dispersionsmaße)
Ökonometrie und Statistik Wiederholung
Univariate Statistik M. Kresken.
 Präsentation transkript:

Grundlagen sozialwissenschaftlicher Datenanalyse (B.MZS.11: Statistik I) LE 6: Streuungsmaße und weitere Kenngrößen LE 7: Lineartransformationen (und Zusammenfassungen von Gruppen) Vorlesung Statistik I

Streuungsmaße für nominalskalierte Variablen gültige Konfession Häudigkeit Prozent Prozent evang. ohne Freikirchen 1169 34.2 34.3 evang. Freikirche 89 2.6 2.6 Römisch-katholisch 1042 30.5 30.6 andere christl. Religion 76 2.2 2.2 nicht-christliche Religion 138 4.0 4.1 ohne Religionszugehör. 890 26.0 26.2 verweigert 10 0.3 -- keine Angabe 8 0.2 -- Total: 3422 100.0 100.0 Gültige Fälle 3404 Fehlende Fälle: 18 (Allbuss 2006 Ost-West-gewichtet) -2·nk·ln(pk) -2·pk·ln(pk) 2501.718 0.73404 649.639 0.18978 2467.811 0.72471 580.140 0.16794 881.595 0.26192 2384.151 0.70185 9465.054 2.78024 Index qualitativer Variation: Beispiel: IQV = (1  .3432  .0262  .3062  .0222  .0412  .2622)  6/(61) = 0.861. Bei Gleichverteilung wird Maximum von 1 erreicht. Absolute Devianz DX bzw. relativen Devianz dX: Vorlesung Statistik I

Devianz – Nominalskaliertes Streuungsmaß Vorlesung Statistik I

Beispielaufgaben: Wie berechnet sich Varianz und die relative Devianz für die Spalte der Datenmatrix ? Y 7 5 1 4 2 6 3 --- 40 pk 0.2 0.1 ---- 1.0 -pk ln(pk) 0.3219 0.2303 - --- 1.8867 Vorlesung Statistik I

Streuung von ordinalen Variablen Für ordinale Variablen finden sich in der Literatur bislang keine speziellen Streuungsmaße. Bisweilen wird der Quartilabstand verwendet. Problematisch wegen Verwendung von Abstandsinformationen. Da die Messnievaus hierarchisch geordnet sind, kann auf Streuungsmaß für stets auf Kennwerte für ein niedrigeres Messniveau zurückgegriffen werden, also z.B. auf die Devianz. Aber: u-förmige Verteilungen lassen sich dann nicht erkennen, weil keine Ranginformation genutzt wird. Schiefe Alter in Jahren 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 .000 .005 .010 .015 .020 .025 Empirische Dichte Modus Median Mittelwert rechtsschiefe Verteilung Hinweise auf die Schiefe (engl.: skewness) Für unimodale, symmetrische Verteilungen gilt Modus = Median = Mittelwert, bei mehrgipfligen, symmetrischen Verteilungen gilt: Median = Mittelwert; bei einer eindeutig rechtsschiefen Verteilung gilt: Modus < Median < Mittelwert; bei einer eindeutig linksschiefen Verteilung gilt: Modus > Median > Mittelwert. Vorlesung Statistik I

Lerneinheit 6: Streuungsmaße und weitere Kenngrößen Kennzeichen von Verteilungen ist gerade, dass es unterschiedliche Realisierungen gibt. Streuungsmaße sollen das Ausmaß der Unterschiedlichkeit einer Verteilung erfassen: W X Y Wert nk pk cpk nk pk cpk nk pk cpk 1 10 0.1 0.1 20 0.2 0.2 40 0.4 0.4 2 20 0.2 0.3 20 0.2 0.4 10 0.1 0.5 3 40 0.4 0.7 20 0.2 0.6 0 0.0 0.5 4 20 0.2 0.9 20 0.2 0.8 10 0.1 0.6 5 10 0.1 1.0 20 0.2 1.0 40 0.4 1.0  100 1.0 100 1.0 100 1.0 Vorlesung Statistik I

Streuungsmaße für metrische Variablen W X Y Wert nk pk cpk nk pk cpk nk pk cpk 1 10 0.1 0.1 20 0.2 0.2 40 0.4 0.4 2 20 0.2 0.3 20 0.2 0.4 10 0.1 0.5 3 40 0.4 0.7 20 0.2 0.6 0 0.0 0.5 4 20 0.2 0.9 20 0.2 0.8 10 0.1 0.6 5 10 0.1 1.0 20 0.2 1.0 40 0.4 1.0  100 1.0 100 1.0 100 1.0 Spannweite (engl. Range): Abstand (Differenz) zwischen größter und kleinster Realisierung. RW = 5 – 1 = 4 RX = 5 – 1 = 4 RY = 5 – 1 = 4 Quartilabstand (engl. interquartil range): Differenz des dritten vom ersten Quartil: IQRW=2 IQRX=2 IQRY=4 Mittlere Quartilabstand : Durchschnittliche absolute Abweichung (engl. absolute deviation): Mittelwert der vorbezei-chenbereinigten Differenzen aller Realisierungen vom Mittelwert: ADW=0.8 ADX=1.2 ADY=1.8 Vorlesung Statistik I

Metrische Streuungsmaße Die Summe der abweichenden Realisierungen – vom Mittelwert – ergibt immer Null! Vorlesung Statistik I

Durchschnittliche Abweichung vs. Standardabweichung 1 2 1 2 3 Vorlesung Statistik I

Streuungsmaße für metrische Variablen Berechnung der durchschnittlichen absoluten Abweichung: 3 4 5 6 7 8 11 nk·|wk–3| 20 =80 W nk pk cpk 1 10 0.1 0.1 2 20 0.2 0.3 3 40 0.4 0.7 4 20 0.2 0.9 5 10 0.1 1.0  100 1.0 pk·wk pk·|wk–3| 0.1 0.2 0.4 0.2 1.2 0.0 0.8 0.2 0.5 0.2 3.0 0.8 Vorlesung Statistik I

Streuungsmaße für metrische Variablen Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares, abgekürzt: SSX): Summe der quadrierten Abweichungen vom Mittelwert: W nk pk cpk 1 10 0.1 0.1 2 20 0.2 0.3 3 40 0.4 0.7 4 20 0.2 0.9 5 10 0.1 1.0  100 1.0 pk·wk nk·(wk–3)2 0.1 40 0.4 20 1.2 0 0.8 20 0.5 40 3.0 120 X nk pk cpk 1 20 0.2 0.2 2 20 0.2 0.4 3 20 0.2 0.6 4 20 0.2 0.8 5 20 0.2 1.0  100 1.0 pk·xk nk·(xk–3)2 0.2 80 0.4 20 0.6 0 0.8 20 1.0 80 3.0 200 Y nk pk cpk 1 40 0.4 0.4 2 10 0.1 0.5 3 0 0.0 0.5 4 10 0.1 0.6 5 40 0.4 1.0  100 1.0 pk·yk nk·(yk–3)2 0.4 160 0.2 10 0.0 0 0.4 10 2.0 160 3.0 340 Für die Berechnung werden nur Fallzahl, Summe und Quadratsumme über alle Realisierungen benötigt: Vorlesung Statistik I

Streuungsmaße für metrische Variablen (Stichproben-) Varianz: die durchschnittliche quadrierte Abweichung vom Mittelwert: Standardabweichung (engl: standard deviation): positive Quadratwurzel aus der Varianz: Vorlesung Statistik I

Die Variation berechnet sich aus diesen Summen nach: Berechnung von Variation und Standardabweichung für eine Variable der Datenmatrix Alter (X) 65 48 51 69 missing 52 38 88 42 Fallnr. IS 1943 1960 1957 1939 1956 1970 1920 1966 Alter2 (X2) 4225 2304 2601 4761 missing 2704 1444 7744 1764 Die Variation berechnet sich aus diesen Summen nach: Für die Beispieldaten ergibt sich: 505 Summe 56.111 30251 3361.222 Vorlesung Statistik I

Rechenschema für Häufigkeitstabellen W nk pk cpk 1 10 0.1 0.1 2 20 0.2 0.3 3 40 0.4 0.7 4 20 0.2 0.9 5 10 0.1 1.0  100 1.0 nk·wk nk·(wk)2 10 10 40 80 120 360 80 320 50 250 300 1020 pk·wk pk·(wk)2 0.10 0.10 0.40 0.80 1.20 3.60 0 80 3.20 0.50 2.50 3.00 10.20 Vorlesung Statistik I

Streuungsmaße für metrische Variablen Variationskoeffizient: Quotient der Standardabweichung geteilt durch das arithmetisches Mittel: Welches Streuungsmaßes sollte verwendet werden? - Spannweite: empfindlich gegenüber Ausreißer und sehr wenig Informationsgehalt Quartilabstand: robust gegenüber Ausreißern, aber wenig Informationsgehalt Variation und abgeleitete Maße: empfindlich gegenüber Ausreißern aber großer Informations- gehalt Mit Ausnahme explorativer Statistik, wo auch der Quartilabstand genutzt wird (z.B. in Box- Plots), werden vor allem die Variation bzw. abgeleitete Kennwerte verwendet. Für die Verwendung von Varianz bzw. Standardabweichung spricht auch die Tschebyscheffsche Ungleichung: Für alle Verteilungen gilt, dass im Abstand von k Standardabweichungen vom Mittelwert mindestens 11/k2 aller Realisierungen liegen: Vorlesung Statistik I

Steilheit (relativ zur Normalverteilung): Momente Zur Kennzeichnung von Verteilungen können auch höhere Momente verwendet werden: Das k-te (Roh-) Moment ist der Durchschnittswert über alle mit k potenzierten Realisierungen einer Verteilung: Werden vor der Potenzierung die Differenzen vom ersten Moment berechnet, ergeben sich die zentralen Momente: Schiefekoeffizient: Steilheit (relativ zur Normalverteilung): Vorlesung Statistik I

Lineartransformationen und Zusammenfassungen von Gruppen Lerneinheit 7: Lineartransformationen und Zusammenfassungen von Gruppen Lineartransformation: Y = a + b·X Lineare Gleichungen lassen sich in einem Koordinatensystem als Graden einzeich-nen. Die Konstante a gibt dabei den Wert von Y an, wenn X=0. Grafisch ist das der Schnittpunkt der Geraden mit der senk-rechten Y-Achse. Das Gewicht b gibt die Steigung der Ge-raden an. Immer, wenn der Wert von X um +1 Einheit ansteigt, verändert sich der Wert von Y um b Einheiten. Y = 2 –1·X Y = 4 +0.5·X Y = 2 +1·X Y = 4 +1·X  yi = a + b·xi für i = 1,2,...,n Vorlesung Statistik I

Lineartransformationen Y = a+b*X Intervallskalenniveau => Y = a+b*X Ratioskalenniveau => Y = b*X

Intervallskalenniveau Beispiel a) Islamischer (Mond)Kalender

Intervallskalenniveau Beispiel b) Temperatur Ist es in Rom doppelt so warm wie in Göttingen?

Ratioskalenniveau Beispiel a) Zoll in cm

Beispiel b) Währung Hat Gabi doppelt soviel Geld wie Peter? Ratioskalenniveau Beispiel b) Währung Hat Gabi doppelt soviel Geld wie Peter?

Lineartransformation Lineartransformationen Als Beispiel soll Mittelwert, Variation und Varianz des Alters aus den enstprechenden Kennwerten des Geburtsjahrs berechnet werden. Geburts- jahr (X) 1943 1960 1957 1939 missing 1956 1970 1920 1966 Geburts- jahr2 (X2) 3775249 3851600 3829894 3759721 missing 3825936 3880900 3686400 3865156 Alter (Y) 65 48 51 69 missing 52 38 88 42 Alter2 (Y2) 4225 2304 2601 4761 missing 2704 1444 7744 1764 Lineartransformation Y = 2008 +(–1)·X  17567 1951.889 Summe 34290747 3910083 505 Summe 56.111 30251 3361.222 Vorlesung Statistik I

Standardisierung: Mittelwert ist 0 und Varianz ist 1. Standardisierten Realisierungen bisweilen auch als Z-Werte bezeichnet werden und die standar-disierende Transformation als Z-Transformation: Y 8.889 –8.111 –5.111 12.889 missing –4.111 –18.111 31.889 –14.111 Y 4.456 3.291 3.497 4.731 missing 3.565 2.605 6.033 2.879 Z 0.609 –0.556 –0.350 0.884 missing –0.282 –1.242 2.186 –0.967 Alter (X) 65 48 51 69 missing 52 38 88 42 Alter2 (X2) 4225 2304 2601 4761 missing 2704 1444 7744 1764 Y2 79.012 65.790 26.123 166.123 missing 16.901 328.012 1016.901 199.123 Y2 19.859 10.830 12.226 22.378 missing 12.710 6.787 36.399 8.291 Z2 0.371 0.309 0.123 0.781 missing 0.080 1.543 4.779 0.935 505 Summe 56.111 30251 3361.222 0.001 0.000 1914.886 212.765 34.622 3.847 142.190 15.7998 0.000 9.001 1.000 Vorlesung Statistik I

Beispielaufgaben zu Lineartransformationen Der Mittelwert einer Verteilung beträgt 45, die Varianz 81. Wie muss die Verteilung transfor-miert werden, um sie zu standardisieren? 90% aller Realisierungen einer standardisierten symmetrischen Verteilung liegen zwischen 1.65 und +1.65. Durch eine Lineartransformation der Gleichung Y = 5 + 3X werden alle Realisierun-gen transformiert. In welchem Intervall liegen 90% aller Realisierungen der transformierten Ver-teilung? Die beiden Ausgangsquantilwerte müssen transformiert werden: 1.653 + 5 = 0.05; 1.65 3 + 5 = 9.95. Nach der Lineartransformation liegen 90% aller Realisierungen zwischen 0.05 und 9.95. Welchen Wert weist der Mittelwert und die Varianz der transformierten Verteilung auf? Die Ausgangsverteilung ist standardisisert, hat also einen Mittelwert von 0 und eine Varianz und Standardabweichung von 1. Für die transformierte Verteilung folgt dann: Vorlesung Statistik I