Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Grundlagen sozialwissenschaftlicher Datenanalyse

Ähnliche Präsentationen


Präsentation zum Thema: "Grundlagen sozialwissenschaftlicher Datenanalyse"—  Präsentation transkript:

1 Grundlagen sozialwissenschaftlicher Datenanalyse
(B.MZS.11: Statistik I) LE 6: Streuungsmaße und weitere Kenngrößen LE 7: Lineartransformationen (und Zusammenfassungen von Gruppen) Vorlesung Statistik I

2 Streuungsmaße für nominalskalierte Variablen
gültige Konfession Häudigkeit Prozent Prozent evang. ohne Freikirchen evang. Freikirche Römisch-katholisch andere christl. Religion nicht-christliche Religion ohne Religionszugehör verweigert keine Angabe Total: Gültige Fälle Fehlende Fälle: 18 (Allbuss 2006 Ost-West-gewichtet) -2·nk·ln(pk) -2·pk·ln(pk) Index qualitativer Variation: Beispiel: IQV = (1       .2622)  6/(61) = Bei Gleichverteilung wird Maximum von 1 erreicht. Absolute Devianz DX bzw. relativen Devianz dX: Vorlesung Statistik I

3 Devianz – Nominalskaliertes Streuungsmaß
Vorlesung Statistik I

4 Beispielaufgaben: Wie berechnet sich Varianz und die relative Devianz für die Spalte der Datenmatrix ? Y 7 5 1 4 2 6 3 --- 40 pk 0.2 0.1 ---- 1.0 -pk ln(pk) 0.3219 0.2303 - --- 1.8867 Vorlesung Statistik I

5 Streuung von ordinalen Variablen
Für ordinale Variablen finden sich in der Literatur bislang keine speziellen Streuungsmaße. Bisweilen wird der Quartilabstand verwendet. Problematisch wegen Verwendung von Abstandsinformationen. Da die Messnievaus hierarchisch geordnet sind, kann auf Streuungsmaß für stets auf Kennwerte für ein niedrigeres Messniveau zurückgegriffen werden, also z.B. auf die Devianz. Aber: u-förmige Verteilungen lassen sich dann nicht erkennen, weil keine Ranginformation genutzt wird. Schiefe Alter in Jahren 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 .000 .005 .010 .015 .020 .025 Empirische Dichte Modus Median Mittelwert rechtsschiefe Verteilung Hinweise auf die Schiefe (engl.: skewness) Für unimodale, symmetrische Verteilungen gilt Modus = Median = Mittelwert, bei mehrgipfligen, symmetrischen Verteilungen gilt: Median = Mittelwert; bei einer eindeutig rechtsschiefen Verteilung gilt: Modus < Median < Mittelwert; bei einer eindeutig linksschiefen Verteilung gilt: Modus > Median > Mittelwert. Vorlesung Statistik I

6 Lerneinheit 6: Streuungsmaße und weitere Kenngrößen
Kennzeichen von Verteilungen ist gerade, dass es unterschiedliche Realisierungen gibt. Streuungsmaße sollen das Ausmaß der Unterschiedlichkeit einer Verteilung erfassen: W X Y Wert nk pk cpk nk pk cpk nk pk cpk Vorlesung Statistik I

7 Streuungsmaße für metrische Variablen
W X Y Wert nk pk cpk nk pk cpk nk pk cpk Spannweite (engl. Range): Abstand (Differenz) zwischen größter und kleinster Realisierung. RW = 5 – 1 = 4 RX = 5 – 1 = 4 RY = 5 – 1 = 4 Quartilabstand (engl. interquartil range): Differenz des dritten vom ersten Quartil: IQRW=2 IQRX=2 IQRY=4 Mittlere Quartilabstand : Durchschnittliche absolute Abweichung (engl. absolute deviation): Mittelwert der vorbezei-chenbereinigten Differenzen aller Realisierungen vom Mittelwert: ADW=0.8 ADX=1.2 ADY=1.8 Vorlesung Statistik I

8 Metrische Streuungsmaße
Die Summe der abweichenden Realisierungen – vom Mittelwert – ergibt immer Null! Vorlesung Statistik I

9 Durchschnittliche Abweichung vs. Standardabweichung
1 2 1 2 3 Vorlesung Statistik I

10 Streuungsmaße für metrische Variablen
Berechnung der durchschnittlichen absoluten Abweichung: 3 4 5 6 7 8 11 nk·|wk–3| 20 =80 W nk pk cpk pk·wk pk·|wk–3| Vorlesung Statistik I

11 Streuungsmaße für metrische Variablen
Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares, abgekürzt: SSX): Summe der quadrierten Abweichungen vom Mittelwert: W nk pk cpk pk·wk nk·(wk–3)2 X nk pk cpk pk·xk nk·(xk–3)2 Y nk pk cpk pk·yk nk·(yk–3)2 Für die Berechnung werden nur Fallzahl, Summe und Quadratsumme über alle Realisierungen benötigt: Vorlesung Statistik I

12 Streuungsmaße für metrische Variablen
(Stichproben-) Varianz: die durchschnittliche quadrierte Abweichung vom Mittelwert: Standardabweichung (engl: standard deviation): positive Quadratwurzel aus der Varianz: Vorlesung Statistik I

13 Die Variation berechnet sich aus diesen Summen nach:
Berechnung von Variation und Standardabweichung für eine Variable der Datenmatrix Alter (X) 65 48 51 69 missing 52 38 88 42 Fallnr. IS 1943 1960 1957 1939 1956 1970 1920 1966 Alter2 (X2) 4225 2304 2601 4761 missing 2704 1444 7744 1764 Die Variation berechnet sich aus diesen Summen nach: Für die Beispieldaten ergibt sich: 505 Summe 56.111 30251 Vorlesung Statistik I

14 Rechenschema für Häufigkeitstabellen
W nk pk cpk nk·wk nk·(wk)2 pk·wk pk·(wk)2 Vorlesung Statistik I

15 Streuungsmaße für metrische Variablen
Variationskoeffizient: Quotient der Standardabweichung geteilt durch das arithmetisches Mittel: Welches Streuungsmaßes sollte verwendet werden? - Spannweite: empfindlich gegenüber Ausreißer und sehr wenig Informationsgehalt Quartilabstand: robust gegenüber Ausreißern, aber wenig Informationsgehalt Variation und abgeleitete Maße: empfindlich gegenüber Ausreißern aber großer Informations gehalt Mit Ausnahme explorativer Statistik, wo auch der Quartilabstand genutzt wird (z.B. in Box- Plots), werden vor allem die Variation bzw. abgeleitete Kennwerte verwendet. Für die Verwendung von Varianz bzw. Standardabweichung spricht auch die Tschebyscheffsche Ungleichung: Für alle Verteilungen gilt, dass im Abstand von k Standardabweichungen vom Mittelwert mindestens 11/k2 aller Realisierungen liegen: Vorlesung Statistik I

16 Steilheit (relativ zur Normalverteilung):
Momente Zur Kennzeichnung von Verteilungen können auch höhere Momente verwendet werden: Das k-te (Roh-) Moment ist der Durchschnittswert über alle mit k potenzierten Realisierungen einer Verteilung: Werden vor der Potenzierung die Differenzen vom ersten Moment berechnet, ergeben sich die zentralen Momente: Schiefekoeffizient: Steilheit (relativ zur Normalverteilung): Vorlesung Statistik I

17 Lineartransformationen und Zusammenfassungen von Gruppen
Lerneinheit 7: Lineartransformationen und Zusammenfassungen von Gruppen Lineartransformation: Y = a + b·X Lineare Gleichungen lassen sich in einem Koordinatensystem als Graden einzeich-nen. Die Konstante a gibt dabei den Wert von Y an, wenn X=0. Grafisch ist das der Schnittpunkt der Geraden mit der senk-rechten Y-Achse. Das Gewicht b gibt die Steigung der Ge-raden an. Immer, wenn der Wert von X um +1 Einheit ansteigt, verändert sich der Wert von Y um b Einheiten. Y = 2 –1·X Y = ·X Y = 2 +1·X Y = 4 +1·X  yi = a + b·xi für i = 1,2,...,n Vorlesung Statistik I

18 Lineartransformationen
Y = a+b*X Intervallskalenniveau => Y = a+b*X Ratioskalenniveau => Y = b*X

19 Intervallskalenniveau
Beispiel a) Islamischer (Mond)Kalender

20 Intervallskalenniveau
Beispiel b) Temperatur Ist es in Rom doppelt so warm wie in Göttingen?

21 Ratioskalenniveau Beispiel a) Zoll in cm

22 Beispiel b) Währung Hat Gabi doppelt soviel Geld wie Peter?
Ratioskalenniveau Beispiel b) Währung Hat Gabi doppelt soviel Geld wie Peter?

23 Lineartransformation
Lineartransformationen Als Beispiel soll Mittelwert, Variation und Varianz des Alters aus den enstprechenden Kennwerten des Geburtsjahrs berechnet werden. Geburts- jahr (X) 1943 1960 1957 1939 missing 1956 1970 1920 1966 Geburts- jahr2 (X2) missing Alter (Y) 65 48 51 69 missing 52 38 88 42 Alter2 (Y2) 4225 2304 2601 4761 missing 2704 1444 7744 1764 Lineartransformation Y = (–1)·X 17567 Summe 505 Summe 56.111 30251 Vorlesung Statistik I

24 Standardisierung: Mittelwert ist 0 und Varianz ist 1.
Standardisierten Realisierungen bisweilen auch als Z-Werte bezeichnet werden und die standar-disierende Transformation als Z-Transformation: Y 8.889 –8.111 –5.111 12.889 missing –4.111 –18.111 31.889 –14.111 Y 4.456 3.291 3.497 4.731 missing 3.565 2.605 6.033 2.879 Z 0.609 –0.556 –0.350 0.884 missing –0.282 –1.242 2.186 –0.967 Alter (X) 65 48 51 69 missing 52 38 88 42 Alter2 (X2) 4225 2304 2601 4761 missing 2704 1444 7744 1764 Y2 79.012 65.790 26.123 missing 16.901 Y2 19.859 10.830 12.226 22.378 missing 12.710 6.787 36.399 8.291 Z2 0.371 0.309 0.123 0.781 missing 0.080 1.543 4.779 0.935 505 Summe 56.111 30251 0.001 0.000 34.622 3.847 0.000 9.001 1.000 Vorlesung Statistik I

25 Beispielaufgaben zu Lineartransformationen
Der Mittelwert einer Verteilung beträgt 45, die Varianz 81. Wie muss die Verteilung transfor-miert werden, um sie zu standardisieren? 90% aller Realisierungen einer standardisierten symmetrischen Verteilung liegen zwischen 1.65 und Durch eine Lineartransformation der Gleichung Y = 5 + 3X werden alle Realisierun-gen transformiert. In welchem Intervall liegen 90% aller Realisierungen der transformierten Ver-teilung? Die beiden Ausgangsquantilwerte müssen transformiert werden: 1.653 + 5 = 0.05; 1.65 3 + 5 = Nach der Lineartransformation liegen 90% aller Realisierungen zwischen 0.05 und 9.95. Welchen Wert weist der Mittelwert und die Varianz der transformierten Verteilung auf? Die Ausgangsverteilung ist standardisisert, hat also einen Mittelwert von 0 und eine Varianz und Standardabweichung von 1. Für die transformierte Verteilung folgt dann: Vorlesung Statistik I


Herunterladen ppt "Grundlagen sozialwissenschaftlicher Datenanalyse"

Ähnliche Präsentationen


Google-Anzeigen