Maße der zentralen Tendenz

Slides:



Advertisements
Ähnliche Präsentationen
statistische Maßzahlen
Advertisements

Beispiel: Grundbegriffe Statistik/Stochastik
Univariate Statistik M. Kresken.
Der F - Test Man prüft, ob sich 2 Varianzen unterscheiden, mit dem F-Quotienten: Geprüft werden stets die Schätzungen der Populationsvarianzen aufgrund.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Mittlere absolute Abweichung vom Mittelwert(1)
Klassen (Zweck) Wozu legt man Klassen an? Überblick
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Zentralwert bei Listen: Beispiele und Formeln
Lagemaße kritische Fragen
Berechnung des Korrelationskoeffizienten Vorbemerkung. Der Korrelationskoeffizient ist im Grunde ein Bruch aus 3 unvollständig berechneten statistischen.
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik II
Der Binomialtest Man habe einen wahren Anteil P.
Deskriptive Statistik und Wahrscheinlichkeitstheorie
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Konfidenzintervalle Intervallschätzung
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Median Merkmal Geordneter Datensatz
Die Vorlesung Mathematik I (Prof. Kugelmann) findet heute um 14:30 Uhr im Hörsaal Loefflerstraße 70 statt.
Quantile.
Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)
Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.
Quantile.
Univariate Statistik M. Kresken.
Fachschule für Technik Biomedizinische Arbeitsmethoden
Deskriptive Statistik
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Das wars!.
Diskrete Wahrscheinlichkeitsmodelle
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Wiederholung und Beispiele
Daten auswerten Boxplots
Aufgabenzettel V Statistik I
Forschungsmethoden Masse der zentralen Tendenz Horst Biedermann Departement Erziehungswissenschaften, Universität Fribourg.
STATISIK LV Nr.: 1375 SS März 2005.
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) 3. Ausgaben ( ) Wiederholung Tabellen,
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Kennwerte und Boxplots
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005.
Referat über das Thema STOCHASTIK.
Empirische Softwaretechnik
Data Mining Georg Pölzlbauer.
von Chantal & Katharina
Der Zentralwert.
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Bioinformatik Vorlesung
Statistik – Regression - Korrelation
Veranstaltung 4.
Statistik – Wahrscheinlichkeit
Einführung zur Fehlerrechnung
Erheben, berechnen und darstellen von Daten
Mathematik für BiologInnen WS 05
setzt Linearität des Zusammenhangs voraus
STATISIK LV Nr.: 1375 SS März 2005.
Verteilungen, Varianz Tamara Katschnig.
Weitere Informationen zur Vorlesung 1)In den Übungen werden die Aufgaben besprochen, die Sie im Internet auf der Seite meines Lehrstuhls finden. 2) Die.
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
Mathe Hausaufgabe Von Joschka und Niklas.
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
Statistik III Statistik III 2. Streuungsmaße (Dispersionsmaße)
Ein Dozent hat mittels eines Fragebogens die Körpergröße seiner Studenten festgestellt. Anhand der erfassten Daten weiß er, dass der kleinste Student 158.
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
Ökonometrie und Statistik Wiederholung
Univariate Statistik M. Kresken.
 Präsentation transkript:

Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X Mo ab Nominalskala Modus ist nicht die Häufigkeit, sondern die Variablenausprägung bimodale Verteilungen: 2 häufige Werte

Modus klassifizierter Daten Einkommensklasse von ... bis unter ... l Klassen-mitte xl absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten fl pl cfl cpl 0 - 2000 1000 1 0,083 2000 - 4000 3000 6 0,500 7 0,583 4000 - 6000 5000 3 0,250 10 0,833 6000 - 8000 7000 11 0,916 8000 und mehr (9000) 12 0,999 å Verwende Klassenmitte der häufigsten Klasse: Modus = 3000

teilt Werte in 2 gleich große Hälften ab Ordinalskala Median ~ Notation: X (X Tilde) teilt Werte in 2 gleich große Hälften ab Ordinalskala bei ungeradem N: Wert der mittleren Person bei geradem N: Mittelwert der beiden mittleren Personen (dies nur bei Intervallskala) bei mehrfach auftretenden Werten: 3 6 7 8 8 8 9 9 10 12 Uminterpretieren des Medians (mindestens die Hälfte der Personen liegt unter/über 8) oder lineare Interpolation (Median=8.17 siehe Benninghaus)

Median der 12 Einkommensangaben (1) Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert, der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert, wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf gültige Einkommensangaben, so dass wir in diesem Beispiel von einer geraden Anzahl von Fällen ausgehen müssen.

Median der 12 Einkommensangaben (2) Rang (i) Ein-kommen x(i) 1 1600 2 2300 3 4 2400 5 2900 6 3200 Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der Durchschnitt beider Werte: Median = (3200+3500)/2 = 3350. 7 3500 8 4500 9 4600 10 5200 11 6500 12 12000

Median klassifizierter Daten (1) Einkommensklasse von ... bis unter ... l Klassen-mitte xl absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten fl pl cfl cpl 0 - 2000 1000 1 0,083 2000 - 4000 3000 6 0,500 7 0,583 4000 - 6000 5000 3 0,250 10 0,833 6000 - 8000 7000 11 0,916 8000 und mehr (9000) 12 0,999 å Daten: Diekmann (1995).

Median klassifizierter Daten (2) Verwende lineare Interpolation im Medianintervall 2000-4000 = Medianintervall 2000 = cmu (exakte untere Grenze des Medianintervalls) 12 = n (Stichprobenumfang) 1 = cfu (kumulierte Häufigkeit unterhalb des Medianintervalls) 6 = fm (Häufigkeit im Medianintervall) = cmo - cmu (Breite des Medianintervalls) Median = cmu + [(n/2 - cfu) . (cmo - cmu) / fm] 3666,67 DM = 2000 + [(12/2 - 1) . 2000 / 6]

Arithmetisches Mittel Notation: x quer ab Intervallskalenniveau nicht robust gegenüber Ausreißern, alle Werte gehen ein

Arithmetisches Mittel = åxi/n = 51000/12 = 4250 Arithmetisches Mittel der 12 Einkommensangaben Als Beispiel dienen die Einkommensangaben aus Diekmann (1995) . Die folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben. Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt durch die Anzahl der Fälle Fall-Nr. i Einkommen xi 1 3500 2 2400 3 5200 4 3200 5 2300 6 4500 7 12000 8 6500 11 13 4600 14 1600 15 2900 Summe 51000 Arithmetisches Mittel = åxi/n = 51000/12 = 4250

Arbeitstabelle für MW bei gruppierten Daten xi fi fi xi 1 5 2 7 14 3 6 Summe 14 Summe = 25 MW=25/14

Arithmetisches Mittel klassifizierter Daten (1) Einkommensklasse von ... bis unter ... l Klassen-mitte xl absolute und relative Häufigkeiten kumulierte absolute und relative Häufigkeiten fl pl cfl cpl 0 - 2000 1000 1 0,083 2000 - 4000 3000 6 0,500 7 0,583 4000 - 6000 5000 3 0,250 10 0,833 6000 - 8000 7000 11 0,916 8000 und mehr (9000) 12 0,999 å Daten: Diekmann (1995).

Arithmetisches Mittel klassifizierter Daten (2) Verwende Klassenmitten Arithm.Mittel = (1 . 1000 + 6 . 3000 + 3 . 5000 + 1 . 7000 + 1 . 9000) / 12 = 50000 / 12 = 4166,67 DM = 0,083 . 1000 + 0,500 . 3000 + 0,250 . 5000 + 0,083 . 7000 + 0,083 . 9000

Spannweite Die Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Die Spannweite der Verteilung entspricht der Differenz zwischen dem kleinsten und dem größten Merkmalswert. Dazu ist metrisches Skalenniveau erforderlich (Intervallskala). Bei ordinalen Skalen begnügt man sich mit der Angabe des kleinsten und größten Werts (min, max). Bei klassifizierten Daten: Differenz zwischen der Klassenmitte der obersten Klasse und der untersten Klasse. Der Wert ist sensibel für Ausreißer (erfasst nur ! Ausreißer), daher besser Quartilsabstand (umfasst die mittleren 50%).

Quartilsabstand (1) Ähnlich wie der Median die unteren 50% der Merkmalswerte von den oberen 50% trennt, lassen sich beliebige Perzentile einer Verteilung berechnen. Am bekanntesten sind das 25%- und 75%-Perzentil, die das untere und das obere Viertel der Verteilung abschneiden. Man bezeichnet sie daher auch als untere und obere Quartile bzw. als erstes und drittes Quartil (der Median ist quasi das zweite Quartil). Notation: QA. Der Quartilsabstand entspricht der Differenz zwischen dem oberen (dritten) und unteren (ersten) Quartil. Er misst, in welchem Bereich sich die mittleren 50% der Merkmalswerte bewegen. Intervallskala erforderlich. Gebräuchlich ist auch der Semiquartilsabstand (die Hälfte des Quartilsabstands) aufgrund der Vergleichsmöglichkeiten mit der Standardabweichung. (Daten: Diekmann, 1995)

Quartilsabstand (2) Für die Berechnung der Quartile gibt es unterschiedliche Formeln, und die berechneten Werte hängen sehr stark von der verwendeten Formel ab. Rang (i) Einkommen x(i) Quartile 1 1600 2 2300 3 Q1 = 2350 4 2400 5 2900 6 3200 Q2 (Median) = 3350 7 3500 8 4500 9 4600 Q3 = 4900 10 5200 11 6500 12 12000 Spannweite = 12000 - 1600 = 10400 Quartilsabstand = Q3 - Q1 = 4900 - 2350 = 2550

Varianz quadrierte aufsummierte Abweichungen vom Mittelwert, geteilt durch n bzw. n-1 (unquadrierte Abweichungen würden immer 0 ergeben). Intervallskalenniveau erforderlich

Varianz und Standardabweichung (1) Die Varianz basiert auf der Summe der quadrierten Abweichungen jedes Merkmalswertes vom arithmetischen Mittel: SAQx. Ihre Berechnung hängt davon ab, ob man Daten einer Totalerhebung oder einer Stichprobe betrachtet: Stichprobe: Varianz = SAQx / (n-1) Totalerhebung: Varianz = SAQx / n Dabei entspricht n der Anzahl der Untersuchungseinheiten der Stichprobe bzw. der Totalerhebung. Die Standardabweichung ergibt sich aus der Quadratwurzel der Varianz. Vorteil: Die ursprüngliche Maßeinheit bleibt erhalten, z.B. das Alter weicht durchschnittlich 7 Jahre vom Mittelwert ab.

Varianz und Standardabweichung (2): Arbeitstabelle Fall-Nr. i Einkommen xi Arithmetisches Mittel Abweichung Quadrat 1 3500 4250 -750 562500 2 2400 -1850 3422500 3 5200 950 902500 4 3200 -1050 1102500 5 2300 -1950 3802500 6 4500 250 62500 7 12000 7750 60062500 8 6500 2250 5062500 11 13 4600 350 122500 14 1600 -2650 7022500 15 2900 -1350 1822500 Summe 51000 87750000

Varianz und Standardabweichung (3) Stichprobe (Divisor n-1=11) Varianz = 87750000 / 11 = 7977272,73 Standardabweichung = Ö Varianz = Ö 7977272,73 = 2824,41 Variationskoeffizient = Standardabweichung / arithm. Mittel = 2824,41 / 4250 = 0,66 Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe, sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen müssen. Grundgesamtheit (Divisor n=12) Varianz = 87750000 / 12 = 7312500,00 Standardabweichung = Ö Varianz = Ö 7312500,00 = 2589,04 Variationskoeffizient = Standardabweichung / arithm. Mittel = 2589,04 / 4250 = 0,61

Standardabweichung klassifizierter Daten (1) Ein-kommens-klasse von ... bis unter ... Klassenmitte Häufigkeit Arithm. Mittel Abweichung von Klassenmitte quadrierte Abweichung 0-2000 1000 1 4166,67 -3166,67 10027798,89 2000-4000 3000 6 -1166,67 1361118,89 4000-6000 5000 3 833,33 694438,89 6000-8000 7000 2833,33 8027758,89 8000 und mehr 9000 4833,33 23361078,89 Daten: Diekmann (1995).

Standardabweichung klassifizierter Daten (2) Verwende gewichtete Summe der Abweichungsquadrate GSAQx = 1 . 10027798,89 + 6 . 1361118,89 + 3 . 694438,89 + 1 . 8027758,89 + 1 . 23361078,89 = 43472194,45 Varianz = GSAQx/(n-1) = 43472194,45 / (12-1) = 3952017,68 Standardabweichung = Ö Varianz = Ö3952017,68 = 1987,97

Zusammenfassung der Ergebnisse: Einkommen der Befragten Es wurden 60 männliche Bedienstete der Verwaltung einer westdeutschen Großstadt befragt. Insgesamt 58 Personen machten Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der befragten Personen bewegen sich im Bereich von 1300 DM bis 4300 DM. Sieht man einmal von den extrem niedrigen und den extrem hohen Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen 1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen 2118,79 DM (Standardabweichung 619,60).

Mittelwerte und Streuungsmaße nach Messniveau (1) Zentrale Tendenz (Mittelwerte) Nominal Ordinal Intervall Verhältnis Modus ja Median nein Ja Arithm. Mittel Geom. Mittel

Mittelwerte und Streuungsmaße nach Messniveau (2) Streuung (Streuungsmaße) Nominal Ordinal Intervall Verhältnis Spannweite nein (ja) ja Quartilsabstand Mittl. absolute Abweichung Varianz Standardabweichung Variationskoeffizient

Typische Verteilungsformen (1) e) schmalgipflig f) breitgipflig g) u-förmig h) -förmig

Typische Verteilungsformen (2) a) unimodal c) bimodal c) rechtssteil/linksschief d) linkssteil/rechtsschief

Weitere univariate Statistiken Schiefe: Maß für die Asymmetrie Exzess: Maß für die Steilheit

Die Lage der Mittelwerte in verschiedenen Verteilungen symmetrisch linkssteil x ~ h x ~ h rechtssteil x ~ h

Vergleich einer Verteilung mit der Standardnormalverteilung Wenn die relative Stellung einer Person bezogen auf eine Stichprobe in Einheiten der Standardabweichung ermittelt werden soll oder wenn die Werte zweier Tests einer Person, die mit verschiedenen Maßeinheiten gemessen wurden, verglichen werden sollen, werden die Werte z-transformiert: zi=xi-xquer / s symmetrische Verteilungen (Normalverteilungen) werden so in eine Standardnormalverteilung überführt, man kann aus Tabellen ablesen, wie viele Werte unter einem bestimmten Wert liegen.