Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.

Ähnliche Präsentationen


Präsentation zum Thema: "Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X."—  Präsentation transkript:

1 Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X Mo ab Nominalskala Modus ist nicht die Häufigkeit, sondern die Variablenausprägung bimodale Verteilungen: 2 häufige Werte

2 Modus klassifizierter Daten Einkommensklasse von... bis unter... l Klassen- mitte x l absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten flfl plpl cf l cp l , ,50070, ,250100, ,083110, und mehr(9000)10,083120, ,999 Verwende Klassenmitte der häufigsten Klasse: Modus= 3000

3 Median ~ Notation: X (X Tilde) teilt Werte in 2 gleich große Hälften ab Ordinalskala bei ungeradem N: Wert der mittleren Person bei geradem N: Mittelwert der beiden mittleren Personen (dies nur bei Intervallskala) bei mehrfach auftretenden Werten: Uminterpretieren des Medians (mindestens die Hälfte der Personen liegt unter/über 8) oder lineare Interpolation (Median=8.17 siehe Benninghaus)

4 Median der 12 Einkommensangaben (1) Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert, der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert, wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf gültige Einkommensangaben, so dass wir in diesem Beispiel von einer geraden Anzahl von Fällen ausgehen müssen.

5 Median der 12 Einkommensangaben (2) Rang (i) Ein- kommen x (i) Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der Durchschnitt beider Werte: Median = ( )/2 =

6 Median klassifizierter Daten (1) Einkommensklasse von... bis unter... l Klassen- mitte x l absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten flfl plpl cf l cp l , ,50070, ,250100, ,083110, und mehr(9000)10,083120, ,999 Daten: Diekmann (1995).

7 Verwende lineare Interpolation im Medianintervall = Medianintervall 2000= c mu (exakte untere Grenze des Medianintervalls) 12= n (Stichprobenumfang) 1= cf u (kumulierte Häufigkeit unterhalb des Medianintervalls) 6= f m (Häufigkeit im Medianintervall) 2000= c mo - c mu (Breite des Medianintervalls) Median= c mu + [(n/2 - cf u ). (c mo - c mu ) / f m ] 3666,67 DM= [(12/2 - 1) / 6] Median klassifizierter Daten (2)

8 Arithmetisches Mittel Notation: x quer ab Intervallskalenniveau nicht robust gegenüber Ausreißern, alle Werte gehen ein

9 Arithmetisches Mittel der 12 Einkommensangaben Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben. Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt durch die Anzahl der Fälle Fall-Nr. i Einkommen x i Summe51000 Arithmetisches Mittel = x i /n = 51000/12 = 4250

10 Arbeitstabelle für MW bei gruppierten Daten xixi fifi f i x i Summe 14Summe = 25 MW=25/14

11 Arithmetisches Mittel klassifizierter Daten (1) Einkommensklasse von... bis unter... l Klassen- mitte x l absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten flfl plpl cf l cp l , ,50070, ,250100, ,083110, und mehr(9000)10,083120, ,999 Daten: Diekmann (1995).

12 Verwende Klassenmitten Arithm.Mittel = ( ) / 12 = / 12 = 4166,67 DM = 0, , , , , Arithmetisches Mittel klassifizierter Daten (2)

13 Spannweite Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Die Spannweite der Verteilung entspricht der Differenz zwischen dem kleinsten und dem größten Merkmalswert. Dazu ist metrisches Skalenniveau erforderlich (Intervallskala). Bei ordinalen Skalen begnügt man sich mit der Angabe des kleinsten und größten Werts (min, max). Bei klassifizierten Daten: Differenz zwischen der Klassenmitte der obersten Klasse und der untersten Klasse. Der Wert ist sensibel für Ausreißer (erfasst nur ! Ausreißer), daher besser Quartilsabstand (umfasst die mittleren 50%).

14 Quartilsabstand (1) Ähnlich wie der Median die unteren 50% der Merkmalswerte von den oberen 50% trennt, lassen sich beliebige Perzentile einer Verteilung berechnen. Am bekanntesten sind das 25%- und 75%-Perzentil, die das untere und das obere Viertel der Verteilung abschneiden. Man bezeichnet sie daher auch als untere und obere Quartile bzw. als erstes und drittes Quartil (der Median ist quasi das zweite Quartil). Notation: QA. Der Quartilsabstand entspricht der Differenz zwischen dem oberen (dritten) und unteren (ersten) Quartil. Er misst, in welchem Bereich sich die mittleren 50% der Merkmalswerte bewegen. Intervallskala erforderlich. Gebräuchlich ist auch der Semiquartilsabstand (die Hälfte des Quartilsabstands) aufgrund der Vergleichsmöglichkeiten mit der Standardabweichung. (Daten: Diekmann, 1995)

15 Quartilsabstand (2) Für die Berechnung der Quartile gibt es unterschiedliche Formeln, und die berechneten Werte hängen sehr stark von der verwendeten Formel ab. Rang (i)Einkommen x (i) Quartile Q 1 = Q 2 (Median) = Q 3 = Spannweite = = Quartilsabstand = Q 3 - Q 1 = = 2550

16 Varianz quadrierte aufsummierte Abweichungen vom Mittelwert, geteilt durch n bzw. n-1 (unquadrierte Abweichungen würden immer 0 ergeben). Intervallskalenniveau erforderlich

17 Varianz und Standardabweichung (1) Die Varianz basiert auf der Summe der quadrierten Abweichungen jedes Merkmalswertes vom arithmetischen Mittel: SAQ x. Ihre Berechnung hängt davon ab, ob man Daten einer Totalerhebung oder einer Stichprobe betrachtet: Stichprobe: Varianz = SAQ x / (n-1) Totalerhebung: Varianz = SAQ x / n Dabei entspricht n der Anzahl der Untersuchungseinheiten der Stichprobe bzw. der Totalerhebung. Die Standardabweichung ergibt sich aus der Quadratwurzel der Varianz. Vorteil: Die ursprüngliche Maßeinheit bleibt erhalten, z.B. das Alter weicht durchschnittlich 7 Jahre vom Mittelwert ab.

18 Fall-Nr. i Einkommen x i Arithmetisches MittelAbweichungQuadrat Summe Varianz und Standardabweichung (2): Arbeitstabelle

19 Stichprobe (Divisor n-1=11) Varianz= / 11 = ,73 Standardabweichung = Varianz = ,73 = 2824,41 Variationskoeffizient= Standardabweichung / arithm. Mittel = 2824,41 / 4250 = 0,66 Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe, sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen müssen. Grundgesamtheit (Divisor n=12) Varianz= / 12 = ,00 Standardabweichung = Varianz = ,00 = 2589,04 Variationskoeffizient= Standardabweichung / arithm. Mittel = 2589,04 / 4250 = 0,61 Varianz und Standardabweichung (3)

20 Standardabweichung klassifizierter Daten (1) Ein- kommens- klasse von... bis unter... Klassen mitte Häufig keit Arithm. Mittel Abweichung von Klassenmitte quadrierte Abweichung , , , , , , ,67833, , ,672833, , und mehr ,674833, ,89 Daten: Diekmann (1995).

21 Verwende gewichtete Summe der Abweichungsquadrate GSAQ x = , , , , ,89 = ,45 Varianz = GSAQ x /(n-1) = ,45 / (12-1) = ,68 Standardabweichung = Varianz = ,68 = 1987,97 Standardabweichung klassifizierter Daten (2)

22 Zusammenfassung der Ergebnisse: Einkommen der Befragten Es wurden 60 männliche Bedienstete der Verwaltung einer westdeutschen Großstadt befragt. Insgesamt 58 Personen machten Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der befragten Personen bewegen sich im Bereich von 1300 DM bis 4300 DM. Sieht man einmal von den extrem niedrigen und den extrem hohen Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen 1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen 2118,79 DM (Standardabweichung 619,60).

23 Mittelwerte und Streuungsmaße nach Messniveau (1) Zentrale Tendenz (Mittelwerte) NominalOrdinalIntervallVerhältnis Modusja MedianneinJaja Arithm. Mittelnein ja Geom. Mittelnein ja

24 Mittelwerte und Streuungsmaße nach Messniveau (2) Streuung (Streuungsmaße) NominalOrdinalIntervallVerhältnis Spannweitenein(ja)ja Quartilsabstandnein(ja)ja Mittl. absolute Abweichung nein ja Varianz Standardabweichung nein ja Variationskoeffizientnein ja

25 Typische Verteilungsformen (1) e) schmalgipfligf) breitgipflig g) u-förmig h) -förmig

26 Typische Verteilungsformen (2) a) unimodal c) bimodal c) rechtssteil/linksschief d) linkssteil/rechtsschief

27 Weitere univariate Statistiken Schiefe: Maß für die Asymmetrie Exzess: Maß für die Steilheit

28 symmetrisch linkssteil x ~ x h x ~ x h x ~ xh rechtssteil Die Lage der Mittelwerte in verschiedenen Verteilungen

29 Vergleich einer Verteilung mit der Standardnormalverteilung Wenn die relative Stellung einer Person bezogen auf eine Stichprobe in Einheiten der Standardabweichung ermittelt werden soll oder wenn die Werte zweier Tests einer Person, die mit verschiedenen Maßeinheiten gemessen wurden, verglichen werden sollen, werden die Werte z- transformiert: z i =x i -xquer / s symmetrische Verteilungen (Normalverteilungen) werden so in eine Standardnormalverteilung überführt, man kann aus Tabellen ablesen, wie viele Werte unter einem bestimmten Wert liegen.


Herunterladen ppt "Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X."

Ähnliche Präsentationen


Google-Anzeigen