Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Deskriptive Statistik

Ähnliche Präsentationen


Präsentation zum Thema: "Deskriptive Statistik"—  Präsentation transkript:

1 Deskriptive Statistik
2 Deskriptive Statistik 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte bivariater Verteilungen

2 Deskriptive Statistik
2 Aufgaben der deskriptiven Statistik: - übersichtliche Darstellung großer Datenmengen - Erkennen von Gesetzmäßigkeiten - Vorbereitung zur theoretischen Überprüfung (schließende Statistik) Mittel der deskriptiven Statistik: - Tabellen - Graphiken - Kennwerte der empirischen Verteilungen - Kennwerte des bivariaten Zusammenhangs univariate und bivariate Betrachtungen: univariat bivariat

3 Deskriptive Statistik
2 1. Differenzierungsmerkmal empirischer Daten: Skalenniveau - Nominalskala - Ordinalskala - Intervallskala - Rationalskala 2. Differenzierungsmerkmal empirischer Daten: “spezielle Genauigkeit“ - singuläre Daten: - alle erfassten Daten unterschieden sich voneinander - z.B. metrische Daten mit hoher Messgenauigkeit oder ordinalskalierte Daten mit einfach besetzten Klassen - jeder Wert besitzt die absolute Häufigkeit = 1 - gruppierte Daten: - Wiederholung gleicher Messwerte oder Zusammenfassung zu Klassen (Kategorien, Rangplätze, Messwerte) - absolute Häufigkeiten  1 - singuläre Daten mit Bindung: - prinzipiell unterschiedliche Messwerte, aber durch Rundungen gleiche Werte - auch bei Transformation von metrischen zu ordinalskalierten Daten - Unterscheidung: separate Rangplätze mittlere Rangplätze - abhängig vom statistischen Verfahren metrisch ordinal (separat) ordinal (Mittelung) 1,7 1 2,3 2 2,5 3 4

4 Darstellung univariater Stichproben
2.1 Urliste: Ergebnis der Registrierung der Beobachtungsdaten (meist unübersichtlich): Bsp. 1: Verkehrsmittel von deutschen Urlaubern (n=100) nominalskaliert  metrisch, singulär mit Bindungen  Bsp. 2: Körpergröße von 10-jährigen (n=200)

5 Darstellung univariater Stichproben
2.1 einfachste Form der statistischen Analyse: absolute Häufigkeiten (z.B. Strichliste): erste Strukturen erkennbar, aber im rechten Fall immer noch zu unübersichtlich graphische Darstellung gefordert: je nach Fragestellung

6 Darstellung univariater Stichproben
2.1 gebräuchlichste Form der graphischen Darstellung ist Histogramm: - x-Achse: Merkmalsausprägungen - y-Achse: absolute Häufigkeit  Stabdiagramm  zweidimensionales  Histogramm  dreidimensionales  Histogramm Pfeilspitzen nur bei metrischen Daten

7 Darstellung univariater Stichproben
2.1 je nach Fragestellung werden auch relative Häufigkeiten eingetragen: - z.B. beim Vergleich von zwei Stichproben unterschiedlicher Größe - Berechnung: - im Histogramm oder Kreisdia- gramm m = Anzahl der Klassen n = Anzahl der Probanden relative Häufigkeit in % bei relativen Häufigkeiten Vorsicht bei Interpretation geboten: - absolute Änderungen maskiert durch unterschiedlichen STP-Umfang - z.B. Busreisen absolut mehr, aber Marktanteil rückläufig

8 Darstellung univariater Stichproben
2.1 bei Histogrammen können Koordinatenachsen auch vertauscht werden: - x-Achse: aboslute Häufigkeit - y-Achse: Merkmalsausprägungen - z.B. Alterspyramide Bahn Bus PKW Flugzeug Sonstige 100% %

9 Darstellung univariater Stichproben
2.1 bei stetigen metrischen Variablen müssen Messwertklassen für die Darstellung von Häufigkeiten gebildet werden: - Klassengrenzen und -anzahl zunächst beliebig - Verbindung der Klassenmitten/-grenzen heißt Häufigkeits-/Summenpolygon - Wahrscheinlichkeit entspricht Flächeninhalt im Histogramm, nicht Höhe - häufig auch Darstellung der kumulativen Häufigkeiten Messwertklassen kumulativ Polygon Summen- polygon

10 Darstellung univariater Stichproben
2.1 Wahl der Klassen hat häufig Einfluss auf die weitere Analyse und Interpretation: - keine allgemeingültige Festlegung, aber Orientierungen Gruppierung metrischer Daten: - untere Grenze der Klasse xi: xi,u - obere Grenze der Klasse xi: xi,o - Obergrenze der einen Klasse entspricht Untergrenze der nächst höheren Klasse, und andersherum: xi,o= xi+1,u ; xi,u= xi-1,o - Klassenmitte: x*i = (xi,u + xi,o)/2 - Klassenbreite: bi = xi,o – xi,u , bi = const(i\r) - offene Randklassen: xiru: xi,u = - ; xiro: xi,o =  - Leerklassen: xi: hi = fi = 0

11 Darstellung univariater Stichproben
2.1 Wahl der Klassenbreite b: - Problem bei zu großer Klassenbreite: Charakteristik der Verteilung wird verwischt - Problem bei zu kleiner Klassenbreite: Gruppierung zu unübersichtlich - Kriterium 1: - Kriterium 2: Wahl der Reduktionslage x1,u: - eindeutiger Fall: xmin = 0 , x  [0,]  x1,u = 0 - kein eindeutiger Fall: bekannte Eigenschaften der Verteilung berücksichtigen (Symmetrie, keine Werte auf Klassengrenzen) - Algorithmus nach Lienert: a) Bestimmung von k: b) Bestimmung von b: c) b wird so gerundet, dass es nicht genauer als die Messwerte ist d) Hilfsgröße: n = Anzahl der Messwerte d = Genauigkeit der Messung xmin = kleinster Messwert xmax = größter Messwert

12 Darstellung univariater Stichproben
2.1 e) Reduktionslage für mod(Δ,d)=0: Reduktionslage für mod(Δ,d)≠0: f) in der Folge gilt: g) Überprüfung auf besetzte Randklassen: Δ < b für mod(Δ,d)=0 Δ < b-d für mod(Δ,d)≠0 h) wenn diese Nebenbedingungen nicht erfüllt, Iteration mit k-1 Beispiel: Punkte 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 Häufigkeit 1 2 3 5 4 n = 83 xmin = 7 xmax = 23 d = 1 Klassenanzahl: Klassenbreite: Hilfsgröße: Randklassen überprüfen: Reduktionslage: hk 7,5 9,5 11,5 13,5 15,5 17,5 19,5 21,5 23,5 Klassenmitte

13 Darstellung univariater Stichproben
2.1 typische Verteilungsformen (Häufigkeitspolygone): a) glockenform, eingipflig, zufällige Streuung um Mittelwert (sehr häufig) b) U-förmig, bei Häufung von Extremwerten (polarisierende Meinungsumfrage) c) L-förmig, kleiner Extremwert häufig, dann monoton abfallend (Lebensdauer von Glühlampen) d) J-förmig, großer Extremwert häufig, davor monoton ansteigend e) linksschief, eingipflig, Asymmetrie bei positiv definiten Variablen (Niederschlag) f) zweigipflig, häufig bei Mischverteilungen (Größe von 10- und 20-jährigen) g) schmalgipflig, geringe Streuung um einen zentralen Wert h) breitgipflig, starke Streuung um einen zentralen Wert

14 Darstellung bivariater Stichproben
2.2 wenn für jedes Untersuchungselement zwei Variablen X und Y erhoben werden, entstehen bivariate Verteilungsfunktionen (Zusammenhang!): absolute Häufigkeiten der bivari- aten Merkmalsausprägung in Kon- tingenztafel:

15 Darstellung bivariater Stichproben
2.2 unterschiedliche Formen der zwei- und dreidimensionalen Darstellung von bivariaten Verteilungen: - geometrische Körper, Anzahl der Punkte oder proportionale Flächen bei bivariaten Verteilungen von stetigen metrischen Variablen ist Darstellung mit gruppierten Histogrammen eher unüblich stattdessen Darstellung der Messergebnisse als Punktwolken: aus der Punktwolke läßt sich bereits optisch auf einen möglichen Zusammenhang zwischen X und Y schließen (quantitativ: Korrelationsrechnung) nichtlineare Korrelation

16 Darstellung bivariater Stichproben
2.2 weitere häufige Darstellungsform sind Isolinien der Häufigkeit (Isoplethen): - hier bivariate Verteilung von Windrichtung (X) und Windgeschwindigkeit (Y) - auch Randverteilungen von X und Y eingezeichnet Y X

17 Kennwerte univariater Stichproben
2.3 meist kennzeichnen einige wenige statistische Maßzahlen die Verteilung einer Variablen: - Parameter der Verteilung - Vorteil: Übersichtlichkeit - Nachteil: Verlust an Informationen wichtigste Parameter (Momente) einer Verteilung: 1. Mittelwertmaß (Lageparameter) 2. Streumaß (Streuparameter) 3. Schiefe (Asymmetrie) 4. Exzess (Wölbung, Kurtosis) je nach Skalenniveau und Verteilung unterschiedliche Mittelwerte und Streumaße zu wählen fi xi

18 Kennwerte univariater Stichproben
2.3 Mittelwerte: - physikalisch: Massenschwerpunkt - statistisch: Wert, der am häufigsten auftritt bzw. die höchste Wahrscheinlichkeit besitzt - Definition: Kennzeichnung der zentralen Tendenz einer univariaten Verteilung Modalwert (Modus) D: - Name bzw. Wert der Kategorie mit der größten Häufigkeit (Nominalskala) - häufigster Messwert einer diskreten metrischen Verteilung (Messgenauigkeit) - häufigste Klasse einer stetigen metrischen Verteilung (gruppierte Daten) - bei mehrgipfligen (bimodalen) Verteilungen Mittelwert (benachbarte Maxima), Mehrfachnennung (nicht benachbarte Maxima) oder keine Angabe - direkt aus Häufigkeitsverteilung abzulesen - sehr sensitiv gegenüber geringen Veränderungen des empirischen Materials - insensitiv gegenüber Ausreißern fi fi ?

19 Kennwerte univariater Stichproben
2.3 Bsp. Modalwert: D : “PKW“  D :  Messwert Häufigkeit 11 1 12 2 13 3 14 15 16 Messwert Häufigkeit 11 1 12 3 13 2 14 15 16 D : 13,  D1 :  D2 : 15

20 Kennwerte univariater Stichproben
2.3 Median (Zentralwert) Z: - nur für Daten mit interner Rangfolge (nicht für Nominalskala) - derjenige Wert, der die Rangreihe halbiert - bei mod(n,2)≠0 : Beobachtungswert auf Rangplatz - bei mod(n,2)=0 : Mittel der Beobachtungswerte auf Rangplätzen - angepasster Mittelwert für Ordinalskala - insensitiv gegenüber Ausreißern (bei kleinem STP-Umfang empfohlen) Bsp. Median: Rang Beliebtheit 1 Jennifer 2 Petra 3 Bert 4 Steffi 5 Hans 6 Paul 7 Mathilde Proband Leistung 1 12 h 2 11 h 3 9,5 h 4 9 h 5 8,5 h 6 8 h Proband Rangplatz Michael 1 Claudia 2 Beate 3 Georg 4 Simone 5 Jürgen 6 Z : 9,25 h  Z : zwischen  Wert von Beate und Georg Z : “Steffi“ 

21 Kennwerte univariater Stichproben
2.3 bei Daten mit Mehrfachnennungen in Klassen gleiches Vorgehen: Bestimmung der Medianklasse: - absolute Häufigkeiten und kumulierte Häufigkeiten bilden - Zuordnung der Rangplätze zu jeder Klasse - Bestimmung des Medianrangplatzes (hier: 30,5) - Bestimmung der Medianklasse (hier: Klasse 5) - bei Klassen mit Zahlenangaben auch genaue Abschätzung möglich unter der Annahme der Gleichverteilung der Werte innerhalb der Klasse: Klassenmittel:  Z=14 xm,u : untere Klassengrenze der Medianklasse (hier: 12,5) b : Klassenbreite (hier: 3) n : STP-Umfang (hier: 60) ncm-1 : kumulative Häufigkeit der Klasse vor der Medianklasse (hier: 27) nm : absolute Häufigkeit der Medianklasse (hier: 15)  Z=13,1

22 Kennwerte univariater Stichproben
2.3 arithmetisches Mittel x: - nur für metrische Daten - singuläre Messwerte: - mehrfach vorliegende Messwerte: (gewichtetes Mittel) - Messwertklassen ohne offene Randklassen näherungsweise: (sonst x*1 = - bzw. x*k = ) Bsp. arithmetisches Mittel: n : STP-Umfang xi : Messwerte hi : absolute Häufigkeiten fi : relative Häufigkeiten k : Anzahl der Klassen x*i : Klassenmitten Proband Wert 1 1,2 2 2,3 3 1,7 4 2,9 5 2,4 6 1,5 Wert Häufigkeit 14 33 17 36 22 9 11 19 29 21 18 Klassen Häufigkeit 71-80 11 81-90 24 91-100 32 33 25 14 x=2,0  n=6 x=17,1  n=141 x=101,2  n=139

23 Kennwerte univariater Stichproben
2.3 arithmetisches Mittel skaliert bei linearen Tranformationen mit: - hilfreich bei manueller Berechnung die Summe der Abweichungen (Anomalien) der Werte vom arithmetischen Mittel ist immer null: die Summe der Quadratdifferenzen der Werte vom arithmetischen Mittel ist immer kleiner oder gleich der Summe der Quadratdifferenzen zu jedem beliebigen Wert a: Proband alter Wert neuer Wert 1 1,2 3,4 2 2,3 5,6 3 1,7 4,4 4 2,9 6,8 5 2,4 5,8 6 1,5 4,0 lineare Transformation yi = 2 • xi + 1 x=2, x=5,0

24 Kennwerte univariater Stichproben
2.3 arithmetisches Mittel einer Gesamt-STP kann auch direkt aus den gewich-teten arithmetischen Mitteln von Teilmengen der STP berechnet werden: Lage von Modus, Median und arithmetischem Mittel bei symmetrischen und asymmetrischen Verteilungen: - bei symmetrischen, unimodalen Verteilungen fallen alle drei Mittelwertmaße zusammen - bei asymmetrischen Verteilungen durchaus starke Unterschiede - Median immer zwischen Modus und arithmeti- schem Mittel n : STP-Umfang k : Anzahl der Teilmengen (Klassen) hi : Anzahl der Objekte in der Teilmenge xki : Teilmittelwerte x : Gesamtmittelwert mittlerer Niederschlag über Land (149 Mio km2): mm mittlerer Niederschlag über Wasser (361 Mio km2): mm mittlerer Niederschlag auf der Erde (510 Mio km2): mm linksschief rechtsschief

25 Kennwerte univariater Stichproben
2.3 Vergleich von Modus, Median und arithmetischem Mittel: - Modus: - sehr anschaulich - häufigster (“normaler“) Wert - z.B. normalerweise 2h Fahrzeit - bei gleichverteilten Verteilungen sinnlos - bei mehrgipfligen Verteilungen mehrdeutig - Median: - anschaulich - Vorstellung des Zentrums in einem Datenkollektiv - mittig in asymmetrischen Verteilungen - arith. Mittel: - von allen Messwerten beeinflusst - sehr sensitiv gegenüber Ausreißern - nicht immer eindeutig zu interpretieren fi Fahrtzeit mit der DB D=2h Z=3h x=4h

26 Kennwerte univariater Stichproben
2.3 in den Geowissenschaften wird sehr häufig auf das arithmetische Mittel zurückgegriffen gleichzeitig sind viele Größen asymmetrisch verteilt (z.B. Pendler-entfernungen, Niederschlag): rechtsschief deshalb existieren Transformationen, die die Messwerte in eine symmetrische Verteilung überführen: - Mittelwert auf Basis der transformierten symmetrischen Daten berechnen - Mittelwert anschließend zurücktransformieren - nur bei Rationalskala und bei xi > 0 - hyperbolische Transformation: - logarithmische Transformation: - auch wichtig für Verfahren der schließenden Statistik “Harmonisches Mittel“ “Geometrisches Mittel“

27 Kennwerte univariater Stichproben
2.3 je nach Datenart sind nur bestimmte Mittelwertmaße zugelassen:

28 Kennwerte univariater Stichproben
2.3 Streumaße: - Maßzahlen zur Bewertung der Variabilität der Messwerte - Indikator der Breite einer Verteilung - wichtige Zusatzinformation zum Mittelwert (Lageparameter) - auch Information über Einfluss des Zufalls oder von Kovariablen - je nach Datenniveau unterschiedliche Streumaße Variationsbreite (Spannweite): - nur für metrische Variablen - nur abhängig von den Extremwerten der STP: extrem sensitiv - meist nur für kleine STP (n ≤ 12), da Ausreißer unwahr- scheinlicher xmin v= =31 xmax

29 Kennwerte univariater Stichproben
2.3 mittlere absolute Abweichung: - nur für metrische Variablen - berücksichtigt alle Werte der STP - heute kaum noch verwendet wegen der Betragsoperation - manchmal auch Differenz gegenüber dem Median gewählt: Proband Wert |xi-x| 1 1,2 0,8 2 2,3 0,3 3 1,7 4 2,9 0,9 5 2,4 0,4 6 1,5 0,5 x = 2,0 e = 0,53 Z = 2,0 ez = 0,53

30 Kennwerte univariater Stichproben
2.3 empirische Varianz: - nur für metrische Variablen - mittlere quadratische Abweichung vom arithmetischen Mittel mit Einheit U2 - gebräuchliches Streumaß (mathematisch zugänglich, binomische Formel) - sehr sensitiv gegenüber Ausreißern (gehen zum Quadrat ein) empirische Standardabweichung: - mittlere Abweichung vom Mittelwert - gebräuchlichstes Streumaß - Nenner (1 - n) kennzeichnet STP-Streumaß (“unverzerrter Schätzer“) Proband Wert (xi-x)2 1 1,2 0,64 2 2,3 0,09 3 1,7 4 2,9 0,81 5 2,4 0,16 6 1,5 0,25 x = 2, s2 = 0,41 SS = 2, s = 0,64

31 Kennwerte univariater Stichproben
2.3 Variationsbreite versus empirische Standardabweichung: - Variationsbreite: maximaler Schwankungsbereich der Werte - Standardabweichung: mittlerer Schwankungsbereich der Werte Variationsbreite Standardabweichung Variabilität der täglichen Mitteltemperaturen im Januar und Juli

32 Kennwerte univariater Stichproben
2.3 bei manueller Berechnung ist folgende Formel für die Quadratsumme praktikabler: bei einer linearen Transformation der Daten skaliert die Standard-abweichung mit b, ist aber invariant gegenüber a: lineare Transformation

33 Kennwerte univariater Stichproben
2.3 Quadratsumme bei mehrfach auftretenden Messwerten: Quadratsumme bei Messwertklassen ohne offene Randklassen näherungsweise: Werte innerhalb der Messwertklassen meist schief verteilt, so dass Klassenmitte nicht repräsentativ und empirische Standardabweichung s zu groß; deshalb Sheppard‘sche Korrektur (empirisch): Beispiel: n : STP-Umfang xi : Messwerte hi : absolute Häufigkeiten k : Anzahl der Klassen x*i : Klassenmitten x* : arithmetisches Mittel der Klassenmitten Würfel hi hixi hixi2 1 12 2 18 36 72 3 15 45 135 4 19 76 304 5 20 100 500 6 16 96 576 Σ 365 1599

34 Kennwerte univariater Stichproben
2.3 in der Praxis häufig mehrere Stichproben jeweils mit Mittelwert und Varianz: geeignete Maßzahl für globales Streuen der Messwerte in den l Stichproben gesucht 1. Möglichkeit: mittlere empirische Varianz Beispiel: STP ni xi si2 1 36 2,8 1,1 2 40 5,4 0,9 3 37 3,3 1,3 4 31 4,5 0,8 alle STP gleich groß: ni : Umfang der STP i xi : Mittelwert der STP i si2 : Varianz der STP i STP unterschiedlich groß:

35 Kennwerte univariater Stichproben
2.3 2. Möglichkeit: empirische Gesamtvarianz unter Berücksichtigung aller Werte mit ihrer absoluten Lage Beispiel: Gesamtvarianz ist immer größer oder gleich der mittleren Varianz der l STP STP ni xi si2 1 36 2,8 1,1 2 40 5,4 0,9 3 37 3,3 1,3 4 31 4,5 0,8 ni : Umfang der STP i xi : Mittelwert der STP i si2 : Varianz der STP i

36 Kennwerte univariater Stichproben
2.3 empirischer Interquartilsbereich, empirischer Quartilsabstand: - für metrische und ordinale Variablen - auf Basis einer der Größe nach geordneten Datenreihe - wesentlich robuster gegenüber Ausreißern als Varianz / Standardabweichung - Aufteilung der Datenreihe in 4 gleich große Kompartimente: - genaue Lage häufig nicht eindeutig festgelegt, da zwischen zwei Messwerten oder Rangplätzen - bei Messwerten mit Wiederholung u.U. gar keine sinnvolle Festlegung möglich - hier nur singuläre Daten berücksichtigt - Intervall zwischen Q1 und Q3 heißt empirischer Interquartilsbereich - bei metrischen Daten heißt (Q3-Q1) auch empirischer Quartilsabstand Q1 : unteres Quartil = Abgrenzung der 25% der kleinsten Werte Q2 : Median = Abgrenzung von 50 % der Werte Q3 : oberes Quartil = Abgrenzung der 25% der größten Werte

37 Kennwerte univariater Stichproben
2.3 allgemeine Bestimmung der Quartile: - Bestimmung des Medians: - Bestimmung des unteren Quartils durch Halbierung zwischen kleinstem Datenwert und Median: - Bestimmung des oberen Quartils durch Halbierung zwischen Median und größtem Datenwert: - wenn Rangplätze R nicht ganzzahlig, folgende Interpolation für Quartile Q: Q : Quartil RQ : berechneter nicht ganzzahliger Rangplatz von Q Ru : ganzzahliger Rangplatz unterhalb von RQ Ro : ganzzahliger Rangplatz unterhalb von RQ xu : Messwert auf Rangplatz Ru xo : Messwert auf Rangplatz Ro

38 Kennwerte univariater Stichproben
2.3 Beispiel für die Bestimmung von Quartilen und Quartilsabstand: Darstellung der Quartile in so genanntem Boxplot: - zum direkten optischen Vergleich von Messergebnisreihen Beispiel: Rangplatz 1 2 3 4 5 6 7 8 Messwert 9 12 14 17 29 33

39 Kennwerte univariater Stichproben
2.3 bei metrischen Daten wird der halbe empirische Quartilsabstand als Streumaß angegeben: Beispiel: bei metrischen gruppierten Daten wird der halbe Quartilsabstand bzgl. Klassen berechnet: Rangplatz 1 2 3 4 5 6 7 8 Messwert 9 12 14 17 29 33 q1 : Nummer der (unteren) Quartilklasse von Q1 q3 : Nummer der (oberen) Quartilklasse von Q3 xq1,u : untere Klassengrenze der Q1-Klasse xq3,u : untere Klassengrenze der Q3-Klasse nq : Häufigkeit in der jeweiligen Quartilklasse nc,q-1: kumulative Häufigkeit in der Klasse q-1 b : Klassenbreite Q1* : trennt die ersten 25% der Histogrammfläche ab Q3* : trennt die letzten 25% der Histogrammfläche ab

40 Kennwerte univariater Stichproben
2.3 bei ordinalen gruppierten Daten ist das Streumaß der Unterschied zwischen den Beobachtungswerten der Q1- und Q3-Klasse: Beispiel: Klassifizierung der Stürme große Streuung: Q1 und Q3 fallen in die Randklassen kleine Streuung: Q1 und Q3 fallen in die gleiche Klasse } Q1 fällt in die Klasse “stark“ Q3 fällt in die Klasse “schwach“ die wesentliche Streuung erfolgt zwischen “stark“ und “schwach“

41 Kennwerte univariater Stichproben
2.3 Begriff der Quartile läßt sich verallgemeinern: - Quantile: allgemeine Verteilungsmaße - Quartile: Viertel (25%, 50%, …) - Pentile: Fünftel (20%, 40%, …) - Dezile: Zehntel (10%, 20%, …) - Zentile: Hundertstel (1%, 2%, …) - Perzentile: “ graphisch anhand von kumulierten Häufigkeitsverteilungen (Verteilungs- funktionen) zu veranschaulichen:

42 Kennwerte univariater Stichproben
2.3 relativer Informationsgehalt h: - für kategoriale Variablen (Nominalskala) - Maßzahl für die Verteilung der Beobachtungswerte auf die Kategorien - für h=0 gilt, dass alle Werte in der gleichen Kategorie liegen - für h=1 gilt, dass sich alle Werte gleichmäßig auf die Kategorien aufteilen (völlige Streuung) - bei einem großen h bestehen folglich geringe Unterschiede bzgl. der Häufig- keit zwischen den Kategorien wegen der grundsätzlich beliebigen Anordnung der Kategorien ist h kein Maß für die Streuung um einen Zentralwert (Modus) k : Anzahl der Kategorien N : Gesamtzahl der Daten ni : absolute Häufigkeit jeder Kategorie

43 Kennwerte univariater Stichproben
2.3 Beispiel: “richtiges Symbol in Zeichenkette“ Zeichenkette: Elementtypen: ? Schüler 2. Klasse: Schüler 4. Klasse: Modalwert: D2. Klasse = D4. Klasse = Schüler der 4. Klasse zeigen klare Ungleichverteilung zugunsten des richtigen Symbols: Vergleichsmaß für Streuung bei nominalverteilten Variablen

44 Kennwerte univariater Stichproben
2.3 je nach Datenart sind nur bestimmte Streumaße zugelassen:

45 Kennwerte univariater Stichproben
2.3 bei Nominal- und Ordinalskala ist Wahl des Streumaßes eindeutig bei metrischen Daten hängt Wahl des Streumaßes von der Fragestellung ab: - Variationsbreite kennzeichnet zwar gesamten Wertebereich, ist aber sehr sensitiv gegenüber Ausreißern - Quartilsabstand ist zwar insensitiv gegenüber Ausreißern, berücksichtigt aber nur ca. 50 % der Daten - Standardabweichung berücksichtigt alle Daten, ist aber weniger anschaulich bei normalverteilten Variablen sind arithmetisches Mittel und Standard-abweichung am besten geeignet und auch anschaulich: - typische Verteilung in den Geowissenschaften für zufällige Streuung um Mittelwert (Glockenkurve) x = Z = D : genau in der Mitte der symmetrischen Verteilung x ± 1•s : schließt ca. 68,0 % der Werte ein x ± 2•s : schließt ca. 95,5 % der Werte ein x ± 3•s : schließt ca. 99,7 % der Werte ein  Näherungsformel für große normalverteilte STP:

46 Kennwerte univariater Stichproben
2.3 häufig lineare Transformation der Daten durch Umrechnung der Einheiten: - Meilen → Kilometer , m/s → km/h , °C → °F , … - Skalierung des Mittelwertes: - Skalierung der Standardabweichung: um die Form von Verteilungen zu vergleichen, werden Stichproben häufig standardisiert: - lineare Transformation der Form zi = b• xi +a - danach besitzen alle STP den gleichen Mittelwert (=0) und die gleiche Standard- abweichung (=1) - Beispiel: xi 18,2 23,4 19,0 21,1 15,3 27,9 24,5 20,7 zi -0,8 0,5 -0,6 -0,1 -1,5 1,7 0,8 -0,2

47 Kennwerte univariater Stichproben
2.3 in anderen Fällen interessiert gerade die Standardabweichung im Verhältnis zum Mittelwert: - empirischer Variationskoeffizient: - bei insgesamt kleineren Werten fällt eine konkrete Standardabweichung mehr ins Gewicht

48 Kennwerte univariater Stichproben
2.3 Beispiel Variationskoeffizient: Niederschlagszeitreihen in Nordafrika

49 Kennwerte univariater Stichproben
2.3 empirische und theoretische Häufigkeitsverteilungen werden neben dem Mittelwert und der Standardabweichung noch durch weitere Maßzahlen charakterisiert: - Momente (Potenzmomente): - zentrale Momente: - arithmetischer Mittelwert entspricht dem ersten Moment m1 - Varianz entspricht annähernd dem zweiten zentralen Moment mz2 - es gilt grundsätzlich mz1=0 - Schiefe als Formparameter der Asymmetrie steht im Zusammenhang mit drittem zentralen Moment: - Exzess als Formparameter der Wöl- bung steht im Zusammenhang mit viertem zentralen Moment: fi xi

50 Kennwerte univariater Stichproben
2.3 zur Schiefe S: - für symmetrische Verteilungen gilt S=0 - bei S > 0 heißt die Verteilung positiv schief oder linkssteil - bei S < 0 heißt die Verteilung negativ schief oder rechtssteil - vereinfachte Rechenformel zur qualitativen Bestimmung der Schiefe: zum Exzess E: - für die Normalverteilung gilt E=0 (Mesokurtosis) - bei E >0 spricht man von positivem Exzess (Leptokurtosis) - bei E < 0 spricht man von negativem Exzess (Platykurtosis) - vereinfachte Rechenformel zur quali- tativen Bestimmung des Exzesses: Q1 : unteres Quartil Q3 : oberes Quartil De1 : unteres Dezil De9 : oberes Dezil

51 Kennwerte bivariater Stichproben
2.4 bei vielen Fragestellungen in der Geographie bivariate Verteilungen: - zwei Merkmalsausprägungen bzgl. jedes Untersuchungselements - z.B. Einwohnerzahl und Kriminalität bzgl. Flächeneinheiten - z.B. horizontale Windkomponenten in einer Modellgitterbox - z.B. Temperatur und Niederschlag an einer Klimastation bivariate Verteilungen lassen sich ebenfalls durch Kennwerte wie Mittelwerte und Streumaße charakterisieren ferner läßt sich der Zusammenhang zwischen den beiden Variablen in Form von Maßzahlen (Korrelationskoeffizienten) ausdrücken (s. Kapitel 5)

52 Kennwerte bivariater Stichproben
2.4 arithmetisches Mittelzentrum ist typischer Lageparameter für bivariate Verteilungen: - Schwerpunkt einer zweidimensionalen Punktverteilung - entweder Verteilung einer Variablen in der Fläche: Variable X : W-E-Richtung (x-Achse) Variable Y : N-S-Richtung (y-Achse) - oder Verteilung der Untersuchungselemente bzgl. zwei Variablen: Variable X : Temperatur (x-Achse) Variable Y : Niederschlag (y-Achse) - Berechnung aus den arithmetischen Mittelwerten der Koordinaten: - auch höherdimensional möglich: Temperaturwert Klimastation geogr. Breite Niederschlag geogr. Länge Temperatur

53 Kennwerte bivariater Stichproben
2.4 arithmetisches Mittelzentrum (Forts.): - P minimiert die Summe der quadrierten Abstände zwischen allen Punkten und sich selbst: - für gruppierte Daten läßt sich der Schwerpunkt analog zum univariaten arithmetischen Mittel berechnen gewichtetes arithmetisches Mittelzentrum, wenn statt reiner Punkt-verteilung Bezugseinheiten mit unterschiedlicher Größe (z.B. Verwaltungs-einheiten mit unterschiedlicher Einwohnerzahl): xi : Klassenmitten auf der x-Achse yi : Klassenmitten auf der y-Achse hi*: absolute Häufigkeit von xi hi*: absolute Häufigkeit von yi k : Anzahl der Klassen auf der x-Achse l : Anzahl der Klassen auf der y-Achse : Koordinaten des Mittelpunktes der Bezugseinheit i gi : Gewicht der Bezugseinheit i häufig normiert auf:

54 Kennwerte bivariater Stichproben
2.4 Beispiel für Schwerpunkt von grup- pierten Daten: - Kundenwohnungen eines Kaufhauses - Aufteilung in Gitternetz mit b = 2km - Kaufhaus bei (0,0) - Schwerpunkt (n=446): - Kundenschwerpunkt ca. 1,9 km nach Nordwesten verschoben Beispiel für gewichteten Schwerpunkt: - Verlagerung des Bevölkerungsschwer- punktes in den USA - auf Basis von bevölkerungsgewichteten Verwaltungseinheiten - Verlagerung im Zuge der Pioneerbewegung NW

55 Kennwerte bivariater Stichproben
2.4 Modalzentrum einer bivariaten STP direkt aus zweidimensionaler Häufigkeitsmatrix (Kontingenztafel) abzulesen: - kann wie im univariaten Fall unimodal, bimodal oder multimodal sein - hier bimodal Medianzentrum einer bivariaten STP definiert als derjenige Punkt in der Fläche, für den die Summe der Abstände zu allen anderen Punkten minimal ist: - exakte Berechnung i.d.R. nicht möglich - stattdessen iteratives Verfahren: - Medianzentrum kennzeichnet optimalen Standort für Betriebe und Geschäfte nach dem Prinzip der minimalen Entfernungen a) grobmaschiges Gitternetz über die Fläche b) über alle Gitterpunkte Gj(xj,yj) wird f(Gj)=min bestimmt c) engmaschigeres Gitternetz über die Fläche der Gitterbox mit f(Gj)=min d) Iteration ab Schritt b)  Abbruch der Iteration, wenn sich Koordinaten xjund yj kaum mehr ändern

56 Kennwerte bivariater Stichproben
2.4 Standarddistanz bei bivariaten STP entspricht Standardabweichung bei univariaten STP (Varianz und Variationskoeffizient analog): - Maß für die Streuung der Punkte auf der Fläche um den Schwerpunkt: - auch als Maß für den mittleren Abstand aller Punkte zueinander zu verstehen: Standarddistanz ist absolutes Streumaß, das bei unterschiedlich großen Bezugsflächen keinen Ver- gleich zulässt: - dann relative Distanz durch Division mit Flächenmaß: Kreisfläche: Quadrat: r : Radius des Kreises s : Seitenlänge des Quadrats

57 Kennwerte bivariater Stichproben
2.4 anschaulich lässt sich sd als Kreis um den Schwerpunkt mit dem Radius vorstellen wie beim arithmetischen Mittelzentrum lässt sich die Standarddistanz auch im höher-(k-)dimensionalen (multivariaten) Fall berechnen: Beispiel: Standarddistanz von Bevölkerung und zentralen Einrichtungen auf Basis von Verwaltungseinheiten in einer Großstadt: - Standarddistanz in Metern - relative Distanz im Verhältnis zur Standarddistanz der Bevölkerung  Supermärkte und Friseure streuen ähnlich stark über das Stadtgebiet wie die Bevölkerung  Boutiquen, Ärzte und Banken sind stärker konzentriert Bevölkerung Supermärkte Boutiquen Friseure Banken Ärzte sd 2870 2440 1300 2230 780 1560 sd,rel 1 0,85 0,45 0,78 0,27 0,54

58 “Take-away“ 2 Bei der graphischen Darstellung von uni- und bivariaten Stichproben kommt den Häufigkeitsdiagrammen mit Messwertklassen eine zentrale Bedeutung zu. Die empirische Verteilung von Beobachtungswerten kann durch einige wenige Maßzahlen hinreichend charakterisiert werden: Lageparameter, Streuparameter, Schiefe, Exzess. Die Wahl der Kennwerte uni- und bivariater Verteilungen hängt vom Skalenniveau der Variablen und der Fragestellung ab. Bei univariaten metrischen Verteilungen sind arithmetisches Mittel und empirische Standardabweichung am gebräuchlichsten. Bei bivariaten metrischen Verteilungen sind arithmetisches Mittelzentrum und Standarddistanz am gebräuchlichsten. Die Kennwerte der deskriptiven Statistik treffen nur Aussagen über die STP-Verteilung, nicht über die Verteilung der Grundgesamtheit.


Herunterladen ppt "Deskriptive Statistik"

Ähnliche Präsentationen


Google-Anzeigen