Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Vorlesung Statistik I Grundlagen sozialwissenschaftlicher Datenanalyse (B.MZS.11: Statistik I) LE 6: Streuungsmaße und weitere Kenngrößen LE 7: Lineartransformationen.

Ähnliche Präsentationen


Präsentation zum Thema: "Vorlesung Statistik I Grundlagen sozialwissenschaftlicher Datenanalyse (B.MZS.11: Statistik I) LE 6: Streuungsmaße und weitere Kenngrößen LE 7: Lineartransformationen."—  Präsentation transkript:

1 Vorlesung Statistik I Grundlagen sozialwissenschaftlicher Datenanalyse (B.MZS.11: Statistik I) LE 6: Streuungsmaße und weitere Kenngrößen LE 7: Lineartransformationen (und Zusammenfassungen von Gruppen)

2 Vorlesung Statistik I Streuungsmaße für nominalskalierte Variablen gültige KonfessionHäudigkeitProzentProzent evang. ohne Freikirchen evang. Freikirche Römisch-katholisch andere christl. Religion nicht-christliche Religion ohne Religionszugehör verweigert keine Angabe Total: Gültige Fälle 3404Fehlende Fälle: 18 (Allbuss 2006 Ost-West-gewichtet) Index qualitativer Variation: Beispiel: IQV = ( ) 6/(6 1) = Bei Gleichverteilung wird Maximum von 1 erreicht. Absolute Devianz D X bzw. relativen Devianz d X : -2·n k ·ln(p k )-2·p k ·ln(p k )

3 Vorlesung Statistik I Devianz – Nominalskaliertes Streuungsmaß

4 Vorlesung Statistik I Beispielaufgaben: Wie berechnet sich Varianz und die relative Devianz für die Spalte der Datenmatrix ? Y p k p k ln(p k )

5 Vorlesung Statistik I Streuung von ordinalen Variablen Für ordinale Variablen finden sich in der Literatur bislang keine speziellen Streuungsmaße. Bisweilen wird der Quartilabstand verwendet. Problematisch wegen Verwendung von Abstandsinformationen. Da die Messnievaus hierarchisch geordnet sind, kann auf Streuungsmaß für stets auf Kennwerte für ein niedrigeres Messniveau zurückgegriffen werden, also z.B. auf die Devianz. Aber: u-förmige Verteilungen lassen sich dann nicht erkennen, weil keine Ranginformation genutzt wird. Alter in Jahren Empirische Dichte Alter in Jahren Modus Median Mittelwert rechtsschiefe Verteilung Schiefe Hinweise auf die Schiefe (engl.: skewness) Für unimodale, symmetrische Verteilungen gilt Modus = Median = Mittelwert, bei mehrgipfligen, symmetrischen Verteilungen gilt:Median = Mittelwert; bei einer eindeutig rechtsschiefen Verteilung gilt:Modus < Median < Mittelwert; bei einer eindeutig linksschiefen Verteilung gilt: Modus > Median > Mittelwert.

6 Vorlesung Statistik I Lerneinheit 6: Streuungsmaße und weitere Kenngrößen Kennzeichen von Verteilungen ist gerade, dass es unterschiedliche Realisierungen gibt. Streuungsmaße sollen das Ausmaß der Unterschiedlichkeit einer Verteilung erfassen: W X Y Wert n k p k cp k n k p k cp k n k p k cp k

7 Vorlesung Statistik I Streuungsmaße für metrische Variablen Spannweite (engl. Range): Abstand (Differenz) zwischen größter und kleinster Realisierung. R W = 5 – 1 = 4R X = 5 – 1 = 4R Y = 5 – 1 = 4 Quartilabstand (engl. interquartil range): Differenz des dritten vom ersten Quartil: W X Y Wert n k p k cp k n k p k cp k n k p k cp k IQR W =2IQR X =2IQR Y =4 Mittlere Quartilabstand : Durchschnittliche absolute Abweichung (engl. absolute deviation): Mittelwert der vorbezei- chenbereinigten Differenzen aller Realisierungen vom Mittelwert: AD W =0.8AD X =1.2AD Y =1.8

8 Metrische Streuungsmaße Die Summe der abweichenden Realisierungen – vom Mittelwert – ergibt immer Null! Vorlesung Statistik I

9 Durchschnittliche Abweichung vs. Standardabweichung 12 Vorlesung Statistik I 123

10 W n k p k cp k p k ·w k p k ·|w k –3| Streuungsmaße für metrische Variablen Berechnung der durchschnittlichen absoluten Abweichung: n k ·|w k –3| 20 0 =80

11 Vorlesung Statistik I Streuungsmaße für metrische Variablen Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares, abgekürzt: SS X ): Summe der quadrierten Abweichungen vom Mittelwert: W n k p k cp k p k ·w k n k ·(w k –3) X n k p k cp k p k ·x k n k ·(x k –3) Y n k p k cp k p k ·y k n k ·(y k –3) Für die Berechnung werden nur Fallzahl, Summe und Quadratsumme über alle Realisierungen benötigt:

12 Vorlesung Statistik I Streuungsmaße für metrische Variablen (Stichproben-) Varianz: die durchschnittliche quadrierte Abweichung vom Mittelwert: Standardabweichung (engl: standard deviation): positive Quadratwurzel aus der Varianz:

13 Vorlesung Statistik I Berechnung von Variation und Standardabweichung für eine Variable der Datenmatrix Alter 2 (X 2 ) missing Summe Alter (X) missing Fallnr. IS missing Die Variation berechnet sich aus diesen Summen nach: Für die Beispieldaten ergibt sich:

14 Vorlesung Statistik I Rechenschema für Häufigkeitstabellen W n k p k cp k n k ·w k n k ·(w k ) p k ·w k p k ·(w k )

15 Vorlesung Statistik I Streuungsmaße für metrische Variablen Variationskoeffizient: Quotient der Standardabweichung geteilt durch das arithmetisches Mittel: Welches Streuungsmaßes sollte verwendet werden? - Spannweite: empfindlich gegenüber Ausreißer und sehr wenig Informationsgehalt - Quartilabstand:robust gegenüber Ausreißern, aber wenig Informationsgehalt - Variation und abgeleitete Maße: empfindlich gegenüber Ausreißern aber großer Informations- gehalt Mit Ausnahme explorativer Statistik, wo auch der Quartilabstand genutzt wird (z.B. in Box- Plots), werden vor allem die Variation bzw. abgeleitete Kennwerte verwendet. Für die Verwendung von Varianz bzw. Standardabweichung spricht auch die Tschebyscheffsche Ungleichung: Für alle Verteilungen gilt, dass im Abstand von k Standardabweichungen vom Mittelwert mindestens 1 1/k 2 aller Realisierungen liegen:

16 Vorlesung Statistik I Momente Zur Kennzeichnung von Verteilungen können auch höhere Momente verwendet werden: Das k-te (Roh-) Moment ist der Durchschnittswert über alle mit k potenzierten Realisierungen einer Verteilung: Werden vor der Potenzierung die Differenzen vom ersten Moment berechnet, ergeben sich die zentralen Momente: Schiefekoeffizient: Steilheit (relativ zur Normalverteilung):

17 Vorlesung Statistik I Lerneinheit 7: Lineartransformationen und Zusammenfassungen von Gruppen Lineartransformation:Y = a + b·X Lineare Gleichungen lassen sich in einem Koordinatensystem als Graden einzeich- nen. Die Konstante a gibt dabei den Wert von Y an, wenn X=0. Grafisch ist das der Schnittpunkt der Geraden mit der senk- rechten Y-Achse. Das Gewicht b gibt die Steigung der Ge- raden an. Immer, wenn der Wert von X um +1 Einheit ansteigt, verändert sich der Wert von Y um b Einheiten. Y = 2 +1·X Y = 4 +1·X Y = ·X Y = 2 –1·X y i = a + b·x i für i = 1,2,...,n

18 Lineartransformationen Y = a+b*X Intervallskalenniveau=> Y = a+b*X Ratioskalenniveau => Y = b*X

19 Intervallskalenniveau Beispiel a) Islamischer (Mond)Kalender

20 Intervallskalenniveau Beispiel b) Temperatur Ist es in Rom doppelt so warm wie in Göttingen?

21 Ratioskalenniveau Beispiel a) Zoll in cm

22 Ratioskalenniveau Beispiel b) Währung Hat Gabi doppelt soviel Geld wie Peter?

23 Vorlesung Statistik I Als Beispiel soll Mittelwert, Variation und Varianz des Alters aus den enstprechenden Kennwerten des Geburtsjahrs berechnet werden. Geburts- jahr (X) missing Geburts- jahr 2 (X 2 ) missing Alter (Y) missing Summe Lineartransformation Y = (–1)·X Alter 2 (Y 2 ) missing Summe Lineartransformationen

24 Vorlesung Statistik I Standardisierung Standardisierung: Mittelwert ist 0 und Varianz ist 1. Standardisierten Realisierungen bisweilen auch als Z-Werte bezeichnet werden und die standar- disierende Transformation als Z-Transformation: Alter 2 (X 2 ) missing Summe Alter (X) missing Y –8.111 – missing –4.111 – –4.111 – Y2Y missing Y2Y missing Y missing Z –0.556 – missing –0.282 – –0.282 –0.967 Z2Z missing

25 Vorlesung Statistik I Beispielaufgaben zu Lineartransformationen Der Mittelwert einer Verteilung beträgt 45, die Varianz 81. Wie muss die Verteilung transfor- miert werden, um sie zu standardisieren? 90% aller Realisierungen einer standardisierten symmetrischen Verteilung liegen zwischen 1.65 und Durch eine Lineartransformation der Gleichung Y = X werden alle Realisierun- gen transformiert. In welchem Intervall liegen 90% aller Realisierungen der transformierten Ver- teilung? Die beiden Ausgangsquantilwerte müssen transformiert werden: = 0.05; = Nach der Lineartransformation liegen 90% aller Realisierungen zwischen 0.05 und Welchen Wert weist der Mittelwert und die Varianz der transformierten Verteilung auf? Die Ausgangsverteilung ist standardisisert, hat also einen Mittelwert von 0 und eine Varianz und Standardabweichung von 1. Für die transformierte Verteilung folgt dann:


Herunterladen ppt "Vorlesung Statistik I Grundlagen sozialwissenschaftlicher Datenanalyse (B.MZS.11: Statistik I) LE 6: Streuungsmaße und weitere Kenngrößen LE 7: Lineartransformationen."

Ähnliche Präsentationen


Google-Anzeigen