Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Maße der zentralen Tendenz

Ähnliche Präsentationen


Präsentation zum Thema: "Maße der zentralen Tendenz"—  Präsentation transkript:

1 Maße der zentralen Tendenz
Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X Mo ab Nominalskala Modus ist nicht die Häufigkeit, sondern die Variablenausprägung bimodale Verteilungen: 2 häufige Werte

2 Modus klassifizierter Daten
Einkommensklasse von ... bis unter ... l Klassen-mitte xl absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten fl pl cfl cpl 1000 1 0,083 3000 6 0,500 7 0,583 5000 3 0,250 10 0,833 7000 11 0,916 8000 und mehr (9000) 12 0,999 å Verwende Klassenmitte der häufigsten Klasse: Modus = 3000

3 teilt Werte in 2 gleich große Hälften ab Ordinalskala
Median ~ Notation: X (X Tilde) teilt Werte in 2 gleich große Hälften ab Ordinalskala bei ungeradem N: Wert der mittleren Person bei geradem N: Mittelwert der beiden mittleren Personen (dies nur bei Intervallskala) bei mehrfach auftretenden Werten: Uminterpretieren des Medians (mindestens die Hälfte der Personen liegt unter/über 8) oder lineare Interpolation (Median=8.17 siehe Benninghaus)

4 Median der 12 Einkommensangaben (1)
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert, der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert, wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf gültige Einkommensangaben, so dass wir in diesem Beispiel von einer geraden Anzahl von Fällen ausgehen müssen.

5 Median der 12 Einkommensangaben (2)
Rang (i) Ein-kommen x(i) 1 1600 2 2300 3 4 2400 5 2900 6 3200 Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der Durchschnitt beider Werte: Median = ( )/2 = 3350. 7 3500 8 4500 9 4600 10 5200 11 6500 12 12000

6 Median klassifizierter Daten (1)
Einkommensklasse von ... bis unter ... l Klassen-mitte xl absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten fl pl cfl cpl 1000 1 0,083 3000 6 0,500 7 0,583 5000 3 0,250 10 0,833 7000 11 0,916 8000 und mehr (9000) 12 0,999 å Daten: Diekmann (1995).

7 Median klassifizierter Daten (2)
Verwende lineare Interpolation im Medianintervall = Medianintervall 2000 = cmu (exakte untere Grenze des Medianintervalls) 12 = n (Stichprobenumfang) 1 = cfu (kumulierte Häufigkeit unterhalb des Medianintervalls) 6 = fm (Häufigkeit im Medianintervall) = cmo - cmu (Breite des Medianintervalls) Median = cmu + [(n/2 - cfu) . (cmo - cmu) / fm] 3666,67 DM = [(12/2 - 1) / 6]

8 Arithmetisches Mittel
Notation: x quer ab Intervallskalenniveau nicht robust gegenüber Ausreißern, alle Werte gehen ein

9 Arithmetisches Mittel = åxi/n = 51000/12 = 4250
Arithmetisches Mittel der 12 Einkommensangaben Als Beispiel dienen die Einkommensangaben aus Diekmann (1995) . Die folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben. Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt durch die Anzahl der Fälle Fall-Nr. i Einkommen xi 1 3500 2 2400 3 5200 4 3200 5 2300 6 4500 7 12000 8 6500 11 13 4600 14 1600 15 2900 Summe 51000 Arithmetisches Mittel = åxi/n = 51000/12 = 4250

10 Arbeitstabelle für MW bei gruppierten Daten
xi fi fi xi 1 5 2 7 14 3 6 Summe 14 Summe = 25 MW=25/14

11 Arithmetisches Mittel klassifizierter Daten (1)
Einkommensklasse von ... bis unter ... l Klassen-mitte xl absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten fl pl cfl cpl 1000 1 0,083 3000 6 0,500 7 0,583 5000 3 0,250 10 0,833 7000 11 0,916 8000 und mehr (9000) 12 0,999 å Daten: Diekmann (1995).

12 Arithmetisches Mittel klassifizierter Daten (2)
Verwende Klassenmitten Arithm.Mittel = ( ) / 12 = / 12 = 4166,67 DM = 0, , , 0, ,

13 Spannweite Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Die Spannweite der Verteilung entspricht der Differenz zwischen dem kleinsten und dem größten Merkmalswert. Dazu ist metrisches Skalenniveau erforderlich (Intervallskala). Bei ordinalen Skalen begnügt man sich mit der Angabe des kleinsten und größten Werts (min, max). Bei klassifizierten Daten: Differenz zwischen der Klassenmitte der obersten Klasse und der untersten Klasse. Der Wert ist sensibel für Ausreißer (erfasst nur ! Ausreißer), daher besser Quartilsabstand (umfasst die mittleren 50%).

14 Quartilsabstand (1) Ähnlich wie der Median die unteren 50% der Merkmalswerte von den oberen 50% trennt, lassen sich beliebige Perzentile einer Verteilung berechnen. Am bekanntesten sind das 25%- und 75%-Perzentil, die das untere und das obere Viertel der Verteilung abschneiden. Man bezeichnet sie daher auch als untere und obere Quartile bzw. als erstes und drittes Quartil (der Median ist quasi das zweite Quartil). Notation: QA. Der Quartilsabstand entspricht der Differenz zwischen dem oberen (dritten) und unteren (ersten) Quartil. Er misst, in welchem Bereich sich die mittleren 50% der Merkmalswerte bewegen. Intervallskala erforderlich. Gebräuchlich ist auch der Semiquartilsabstand (die Hälfte des Quartilsabstands) aufgrund der Vergleichsmöglichkeiten mit der Standardabweichung. (Daten: Diekmann, 1995)

15 Quartilsabstand (2) Für die Berechnung der Quartile gibt es unterschiedliche Formeln, und die berechneten Werte hängen sehr stark von der verwendeten Formel ab. Rang (i) Einkommen x(i) Quartile 1 1600 2 2300 3 Q1 = 2350 4 2400 5 2900 6 3200 Q2 (Median) = 3350 7 3500 8 4500 9 4600 Q3 = 4900 10 5200 11 6500 12 12000 Spannweite = = 10400 Quartilsabstand = Q3 - Q1 = = 2550

16 Varianz quadrierte aufsummierte Abweichungen vom Mittelwert, geteilt durch n bzw. n-1 (unquadrierte Abweichungen würden immer 0 ergeben). Intervallskalenniveau erforderlich

17 Varianz und Standardabweichung (1)
Die Varianz basiert auf der Summe der quadrierten Abweichungen jedes Merkmalswertes vom arithmetischen Mittel: SAQx. Ihre Berechnung hängt davon ab, ob man Daten einer Totalerhebung oder einer Stichprobe betrachtet: Stichprobe: Varianz = SAQx / (n-1) Totalerhebung: Varianz = SAQx / n Dabei entspricht n der Anzahl der Untersuchungseinheiten der Stichprobe bzw. der Totalerhebung. Die Standardabweichung ergibt sich aus der Quadratwurzel der Varianz. Vorteil: Die ursprüngliche Maßeinheit bleibt erhalten, z.B. das Alter weicht durchschnittlich 7 Jahre vom Mittelwert ab.

18 Varianz und Standardabweichung (2): Arbeitstabelle
Fall-Nr. i Einkommen xi Arithmetisches Mittel Abweichung Quadrat 1 3500 4250 -750 562500 2 2400 -1850 3 5200 950 902500 4 3200 -1050 5 2300 -1950 6 4500 250 62500 7 12000 7750 8 6500 2250 11 13 4600 350 122500 14 1600 -2650 15 2900 -1350 Summe 51000

19 Varianz und Standardabweichung (3)
Stichprobe (Divisor n-1=11) Varianz = / 11 = ,73 Standardabweichung = Ö Varianz = Ö ,73 = 2824,41 Variationskoeffizient = Standardabweichung / arithm. Mittel = 2824,41 / 4250 = 0,66 Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe, sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen müssen. Grundgesamtheit (Divisor n=12) Varianz = / 12 = ,00 Standardabweichung = Ö Varianz = Ö ,00 = 2589,04 Variationskoeffizient = Standardabweichung / arithm. Mittel = 2589,04 / 4250 = 0,61

20 Standardabweichung klassifizierter Daten (1)
Ein-kommens-klasse von ... bis unter ... Klassenmitte Häufigkeit Arithm. Mittel Abweichung von Klassenmitte quadrierte Abweichung 0-2000 1000 1 4166,67 -3166,67 ,89 3000 6 -1166,67 ,89 5000 3 833,33 694438,89 7000 2833,33 ,89 8000 und mehr 9000 4833,33 ,89 Daten: Diekmann (1995).

21 Standardabweichung klassifizierter Daten (2)
Verwende gewichtete Summe der Abweichungsquadrate GSAQx = , , , , ,89 = ,45 Varianz = GSAQx/(n-1) = ,45 / (12-1) = ,68 Standardabweichung = Ö Varianz = Ö ,68 = 1987,97

22 Zusammenfassung der Ergebnisse: Einkommen der Befragten
Es wurden 60 männliche Bedienstete der Verwaltung einer westdeutschen Großstadt befragt. Insgesamt 58 Personen machten Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der befragten Personen bewegen sich im Bereich von 1300 DM bis 4300 DM. Sieht man einmal von den extrem niedrigen und den extrem hohen Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen 1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen 2118,79 DM (Standardabweichung 619,60).

23 Mittelwerte und Streuungsmaße nach Messniveau (1)
Zentrale Tendenz (Mittelwerte) Nominal Ordinal Intervall Verhältnis Modus ja Median nein Ja Arithm. Mittel Geom. Mittel

24 Mittelwerte und Streuungsmaße nach Messniveau (2)
Streuung (Streuungsmaße) Nominal Ordinal Intervall Verhältnis Spannweite nein (ja) ja Quartilsabstand Mittl. absolute Abweichung Varianz Standardabweichung Variationskoeffizient

25 Typische Verteilungsformen (1)
e) schmalgipflig f) breitgipflig g) u-förmig h) -förmig

26 Typische Verteilungsformen (2)
a) unimodal c) bimodal c) rechtssteil/linksschief d) linkssteil/rechtsschief

27 Weitere univariate Statistiken
Schiefe: Maß für die Asymmetrie Exzess: Maß für die Steilheit

28 Die Lage der Mittelwerte in verschiedenen Verteilungen
symmetrisch linkssteil x ~ h x ~ h rechtssteil x ~ h

29 Vergleich einer Verteilung mit der Standardnormalverteilung
Wenn die relative Stellung einer Person bezogen auf eine Stichprobe in Einheiten der Standardabweichung ermittelt werden soll oder wenn die Werte zweier Tests einer Person, die mit verschiedenen Maßeinheiten gemessen wurden, verglichen werden sollen, werden die Werte z-transformiert: zi=xi-xquer / s symmetrische Verteilungen (Normalverteilungen) werden so in eine Standardnormalverteilung überführt, man kann aus Tabellen ablesen, wie viele Werte unter einem bestimmten Wert liegen.


Herunterladen ppt "Maße der zentralen Tendenz"

Ähnliche Präsentationen


Google-Anzeigen