Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Deskriptive Statistik 2 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte.

Ähnliche Präsentationen


Präsentation zum Thema: "Deskriptive Statistik 2 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte."—  Präsentation transkript:

1 Deskriptive Statistik Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte bivariater Verteilungen

2 Deskriptive Statistik 2 Aufgaben der deskriptiven Statistik: - übersichtliche Darstellung großer Datenmengen - Erkennen von Gesetzmäßigkeiten - Vorbereitung zur theoretischen Überprüfung (schließende Statistik) Mittel der deskriptiven Statistik: - Tabellen - Graphiken - Kennwerte der empirischen Verteilungen - Kennwerte des bivariaten Zusammenhangs univariate und bivariate Betrachtungen: univariatbivariat

3 Deskriptive Statistik 2 1. Differenzierungsmerkmal empirischer Daten: Skalenniveau - Nominalskala - Ordinalskala - Intervallskala - Rationalskala 2. Differenzierungsmerkmal empirischer Daten: spezielle Genauigkeit - singuläre Daten: - alle erfassten Daten unterschieden sich voneinander - z.B. metrische Daten mit hoher Messgenauigkeit oder ordinalskalierte Daten mit einfach besetzten Klassen - jeder Wert besitzt die absolute Häufigkeit = 1 - gruppierte Daten: - Wiederholung gleicher Messwerte oder Zusammenfassung zu Klassen (Kategorien, Rangplätze, Messwerte) - absolute Häufigkeiten 1 - singuläre Daten mit Bindung: - prinzipiell unterschiedliche Messwerte, aber durch Rundungen gleiche Werte - auch bei Transformation von metrischen zu ordinalskalierten Daten - Unterscheidung: separate Rangplätze mittlere Rangplätze - abhängig vom statistischen Verfahren metrischordinal (separat) ordinal (Mittelung) 1,711 2,322,5 2,332,5 44

4 Darstellung univariater Stichproben 2.1 Urliste: Ergebnis der Registrierung der Beobachtungsdaten (meist unübersichtlich): Bsp. 1: Verkehrsmittel von deutschen Urlaubern (n=100) Bsp. 2: Körpergröße von 10-jährigen (n=200) nominalskaliert metrisch, singulär mit Bindungen

5 Darstellung univariater Stichproben 2.1 einfachste Form der statistischen Analyse: absolute Häufigkeiten (z.B. Strichliste): erste Strukturen erkennbar, aber im rechten Fall immer noch zu unübersichtlich graphische Darstellung gefordert: je nach Fragestellung

6 Darstellung univariater Stichproben 2.1 gebräuchlichste Form der graphischen Darstellung ist Histogramm: - x-Achse: Merkmalsausprägungen - y-Achse: absolute Häufigkeit Stabdiagramm zweidimensionales Histogramm dreidimensionales Histogramm Pfeilspitzen nur bei metrischen Daten

7 Darstellung univariater Stichproben 2.1 je nach Fragestellung werden auch relative Häufigkeiten eingetragen: - z.B. beim Vergleich von zwei Stichproben unterschiedlicher Größe - Berechnung: - im Histogramm oder Kreisdia- gramm m = Anzahl der Klassen n = Anzahl der Probanden relative Häufigkeit in % bei relativen Häufigkeiten Vorsicht bei Interpretation geboten: - absolute Änderungen maskiert durch unterschiedlichen STP-Umfang - z.B. Busreisen absolut mehr, aber Marktanteil rückläufig

8 Darstellung univariater Stichproben 2.1 bei Histogrammen können Koordinatenachsen auch vertauscht werden: - x-Achse: aboslute Häufigkeit - y-Achse: Merkmalsausprägungen - z.B. Alterspyramide 100% 0 100% Bahn Bus PKW Flugzeug Sonstige

9 Darstellung univariater Stichproben 2.1 bei stetigen metrischen Variablen müssen Messwertklassen für die Darstellung von Häufigkeiten gebildet werden: - Klassengrenzen und -anzahl zunächst beliebig - Verbindung der Klassenmitten/-grenzen heißt Häufigkeits-/Summenpolygon - Wahrscheinlichkeit entspricht Flächeninhalt im Histogramm, nicht Höhe - häufig auch Darstellung der kumulativen Häufigkeiten Messwertklassen kumulativ PolygonSummen- polygon

10 Darstellung univariater Stichproben 2.1 Wahl der Klassen hat häufig Einfluss auf die weitere Analyse und Interpretation: - keine allgemeingültige Festlegung, aber Orientierungen Gruppierung metrischer Daten: - untere Grenze der Klasse x i : x i,u - obere Grenze der Klasse x i : x i,o - Obergrenze der einen Klasse entspricht Untergrenze der nächst höheren Klasse, und andersherum: x i,o = x i+1,u ; x i,u = x i-1,o - Klassenmitte: x * i = (x i,u + x i,o )/2 - Klassenbreite: b i = x i,o – x i,u, b i = const (i\r) - offene Randklassen: x i r u : x i,u = - ; x i r o : x i,o = - Leerklassen: x i : h i = f i = 0

11 Darstellung univariater Stichproben 2.1 Wahl der Klassenbreite b: - Problem bei zu großer Klassenbreite: Charakteristik der Verteilung wird verwischt - Problem bei zu kleiner Klassenbreite: Gruppierung zu unübersichtlich - Kriterium 1: - Kriterium 2: Wahl der Reduktionslage x 1,u : - eindeutiger Fall: x min = 0, x [0, ] x 1,u = 0 - kein eindeutiger Fall: bekannte Eigenschaften der Verteilung berücksichtigen (Symmetrie, keine Werte auf Klassengrenzen) - Algorithmus nach Lienert: a) Bestimmung von k: b) Bestimmung von b: c) b wird so gerundet, dass es nicht genauer als die Messwerte ist d) Hilfsgröße: n = Anzahl der Messwerte d = Genauigkeit der Messung x min = kleinster Messwert x max = größter Messwert

12 Darstellung univariater Stichproben 2.1 Beispiel: e) Reduktionslage für mod(Δ,d)=0: Reduktionslage für mod(Δ,d)0: f) in der Folge gilt: g) Überprüfung auf besetzte Randklassen: Δ < b für mod(Δ,d)=0 Δ < b-d für mod(Δ,d)0 h) wenn diese Nebenbedingungen nicht erfüllt, Iteration mit k-1 Punkte Häufigkeit Klassenanzahl: Klassenbreite: Hilfsgröße: Randklassen überprüfen: Reduktionslage: n = 83 xmin = 7 xmax = 23 d = 1 7,5 9,5 11,5 13,5 15,5 17,5 19,5 21,5 23,5 hkhk Klassenmitte

13 Darstellung univariater Stichproben 2.1 typische Verteilungsformen (Häufigkeitspolygone): a) glockenform, eingipflig, zufällige Streuung um Mittelwert (sehr häufig) b) U-förmig, bei Häufung von Extremwerten (polarisierende Meinungsumfrage) c) L-förmig, kleiner Extremwert häufig, dann monoton abfallend (Lebensdauer von Glühlampen) d) J-förmig, großer Extremwert häufig, davor monoton ansteigend e) linksschief, eingipflig, Asymmetrie bei positiv definiten Variablen (Niederschlag) f) zweigipflig, häufig bei Mischverteilungen (Größe von 10- und 20-jährigen) g) schmalgipflig, geringe Streuung um einen zentralen Wert h) breitgipflig, starke Streuung um einen zentralen Wert

14 Darstellung bivariater Stichproben 2.2 wenn für jedes Untersuchungselement zwei Variablen X und Y erhoben werden, entstehen bivariate Verteilungsfunktionen (Zusammenhang!): absolute Häufigkeiten der bivari- aten Merkmalsausprägung in Kon- tingenztafel:

15 Darstellung bivariater Stichproben 2.2 unterschiedliche Formen der zwei- und dreidimensionalen Darstellung von bivariaten Verteilungen: - geometrische Körper, Anzahl der Punkte oder proportionale Flächen bei bivariaten Verteilungen von stetigen metrischen Variablen ist Darstellung mit gruppierten Histogrammen eher unüblich stattdessen Darstellung der Messergebnisse als Punktwolken: aus der Punktwolke läßt sich bereits optisch auf einen möglichen Zusammenhang zwischen X und Y schließen (quantitativ: Korrelationsrechnung) nichtlineare Korrelation

16 Darstellung bivariater Stichproben 2.2 weitere häufige Darstellungsform sind Isolinien der Häufigkeit (Isoplethen): - hier bivariate Verteilung von Windrichtung (X) und Windgeschwindigkeit (Y) - auch Randverteilungen von X und Y eingezeichnet X Y

17 Kennwerte univariater Stichproben 2.3 meist kennzeichnen einige wenige statistische Maßzahlen die Verteilung einer Variablen: - Parameter der Verteilung - Vorteil: Übersichtlichkeit - Nachteil: Verlust an Informationen wichtigste Parameter (Momente) einer Verteilung: 1. Mittelwertmaß (Lageparameter) 2. Streumaß (Streuparameter) 3. Schiefe (Asymmetrie) 4. Exzess (Wölbung, Kurtosis) je nach Skalenniveau und Verteilung unterschiedliche Mittelwerte und Streumaße zu wählen fifi xixi

18 Kennwerte univariater Stichproben 2.3 Mittelwerte: - physikalisch: Massenschwerpunkt - statistisch: Wert, der am häufigsten auftritt bzw. die höchste Wahrscheinlichkeit besitzt - Definition: Kennzeichnung der zentralen Tendenz einer univariaten Verteilung Modalwert (Modus) D: - Name bzw. Wert der Kategorie mit der größten Häufigkeit (Nominalskala) - häufigster Messwert einer diskreten metrischen Verteilung (Messgenauigkeit) - häufigste Klasse einer stetigen metrischen Verteilung (gruppierte Daten) - bei mehrgipfligen (bimodalen) Verteilungen Mittelwert (benachbarte Maxima), Mehrfachnennung (nicht benachbarte Maxima) oder keine Angabe - direkt aus Häufigkeitsverteilung abzulesen - sehr sensitiv gegenüber geringen Veränderungen des empirischen Materials - insensitiv gegenüber Ausreißern fifi fifi ?

19 Kennwerte univariater Stichproben 2.3 Bsp. Modalwert: D : PKW D : 150 MesswertHäufigkeit D : 13,5 MesswertHäufigkeit D 1 : 12 D 2 : 15

20 Kennwerte univariater Stichproben 2.3 Median (Zentralwert) Z: - nur für Daten mit interner Rangfolge (nicht für Nominalskala) - derjenige Wert, der die Rangreihe halbiert - bei mod(n,2)0 : Beobachtungswert auf Rangplatz - bei mod(n,2)=0 : Mittel der Beobachtungswerte auf Rangplätzen - angepasster Mittelwert für Ordinalskala - insensitiv gegenüber Ausreißern (bei kleinem STP-Umfang empfohlen) Bsp. Median: RangBeliebtheit 1Jennifer 2Petra 3Bert 4Steffi 5Hans 6Paul 7Mathilde Z : Steffi ProbandLeistung 112 h 211 h 39,5 h 49 h 58,5 h 6 8 h Z : 9,25 h ProbandRangplatz Michael1 Claudia2 Beate3 Georg4 Simone5 Jürgen 6 Z : zwischen Wert von Beate und Georg

21 Kennwerte univariater Stichproben 2.3 bei Daten mit Mehrfachnennungen in Klassen gleiches Vorgehen: Bestimmung der Medianklasse: - absolute Häufigkeiten und kumulierte Häufigkeiten bilden - Zuordnung der Rangplätze zu jeder Klasse - Bestimmung des Medianrangplatzes (hier: 30,5) - Bestimmung der Medianklasse (hier: Klasse 5) - bei Klassen mit Zahlenangaben auch genaue Abschätzung möglich unter der Annahme der Gleichverteilung der Werte innerhalb der Klasse: x m,u : untere Klassengrenze der Medianklasse (hier: 12,5) b : Klassenbreite (hier: 3) n : STP-Umfang (hier: 60) n c m-1 : kumulative Häufigkeit der Klasse vor der Medianklasse (hier: 27) n m : absolute Häufigkeit der Medianklasse (hier: 15) Z=13,1 Klassenmittel: Z=14

22 Kennwerte univariater Stichproben 2.3 arithmetisches Mittel x: - nur für metrische Daten - singuläre Messwerte: - mehrfach vorliegende Messwerte: (gewichtetes Mittel) - Messwertklassen ohne offene Randklassen näherungsweise: (sonst x * 1 = - bzw. x * k = ) Bsp. arithmetisches Mittel: n : STP-Umfang x i : Messwerte h i : absolute Häufigkeiten f i : relative Häufigkeiten k : Anzahl der Klassen x * i : Klassenmitten ProbandWert 11,2 22,3 31,7 42,9 52,4 61,5 x=2,0 n=6 WertHäufigkeit x=17,1 n=141 KlassenHäufigkeit x=101,2 n=139

23 Kennwerte univariater Stichproben 2.3 arithmetisches Mittel skaliert bei linearen Tranformationen mit: - hilfreich bei manueller Berechnung die Summe der Abweichungen (Anomalien) der Werte vom arithmetischen Mittel ist immer null: die Summe der Quadratdifferenzen der Werte vom arithmetischen Mittel ist immer kleiner oder gleich der Summe der Quadratdifferenzen zu jedem beliebigen Wert a: lineare Transformation Probandalter Wertneuer Wert 11,23,4 22,35,6 31,74,4 42,96,8 52,45,8 61,54,0 x=2,0 x=5,0 y i = 2 x i + 1

24 Kennwerte univariater Stichproben 2.3 arithmetisches Mittel einer Gesamt-STP kann auch direkt aus den gewich- teten arithmetischen Mitteln von Teilmengen der STP berechnet werden: Lage von Modus, Median und arithmetischem Mittel bei symmetrischen und asymmetrischen Verteilungen: - bei symmetrischen, unimodalen Verteilungen fallen alle drei Mittelwertmaße zusammen - bei asymmetrischen Verteilungen durchaus starke Unterschiede - Median immer zwischen Modus und arithmeti- schem Mittel n : STP-Umfang k : Anzahl der Teilmengen (Klassen) h i : Anzahl der Objekte in der Teilmenge x k i : Teilmittelwerte x : Gesamtmittelwert mittlerer Niederschlag über Land (149 Mio km 2 ): 900 mm mittlerer Niederschlag über Wasser (361 Mio km 2 ): 1050 mm mittlerer Niederschlag auf der Erde (510 Mio km 2 ): 1006 mm rechtsschief linksschief

25 Kennwerte univariater Stichproben 2.3 Vergleich von Modus, Median und arithmetischem Mittel: - Modus: - sehr anschaulich - häufigster (normaler) Wert - z.B. normalerweise 2h Fahrzeit - bei gleichverteilten Verteilungen sinnlos - bei mehrgipfligen Verteilungen mehrdeutig - Median: - anschaulich - Vorstellung des Zentrums in einem Datenkollektiv - mittig in asymmetrischen Verteilungen - arith. Mittel: - von allen Messwerten beeinflusst - sehr sensitiv gegenüber Ausreißern - nicht immer eindeutig zu interpretieren fifi Fahrtzeit mit der DB D=2hZ=3hx=4h

26 Kennwerte univariater Stichproben 2.3 in den Geowissenschaften wird sehr häufig auf das arithmetische Mittel zurückgegriffen gleichzeitig sind viele Größen asymmetrisch verteilt (z.B. Pendler- entfernungen, Niederschlag): rechtsschief deshalb existieren Transformationen, die die Messwerte in eine symmetrische Verteilung überführen: - Mittelwert auf Basis der transformierten symmetrischen Daten berechnen - Mittelwert anschließend zurücktransformieren - nur bei Rationalskala und bei x i > 0 - hyperbolische Transformation: - logarithmische Transformation: - auch wichtig für Verfahren der schließenden Statistik Harmonisches Mittel Geometrisches Mittel

27 Kennwerte univariater Stichproben 2.3 je nach Datenart sind nur bestimmte Mittelwertmaße zugelassen:

28 Kennwerte univariater Stichproben 2.3 Streumaße: - Maßzahlen zur Bewertung der Variabilität der Messwerte - Indikator der Breite einer Verteilung - wichtige Zusatzinformation zum Mittelwert (Lageparameter) - auch Information über Einfluss des Zufalls oder von Kovariablen - je nach Datenniveau unterschiedliche Streumaße Variationsbreite (Spannweite): - nur für metrische Variablen - nur abhängig von den Extremwerten der STP: extrem sensitiv - meist nur für kleine STP (n 12), da Ausreißer unwahr- scheinlicher x min x max v= =31

29 Kennwerte univariater Stichproben 2.3 mittlere absolute Abweichung: - nur für metrische Variablen - berücksichtigt alle Werte der STP - heute kaum noch verwendet wegen der Betragsoperation - manchmal auch Differenz gegenüber dem Median gewählt: ProbandWert|x i -x| 11,20,8 22,30,3 31,70,3 42,90,9 52,40,4 61,50,5 x = 2,0 e = 0,53 Z = 2,0 e z = 0,53

30 Kennwerte univariater Stichproben 2.3 empirische Varianz: - nur für metrische Variablen - mittlere quadratische Abweichung vom arithmetischen Mittel mit Einheit U 2 - gebräuchliches Streumaß (mathematisch zugänglich, binomische Formel) - sehr sensitiv gegenüber Ausreißern (gehen zum Quadrat ein) empirische Standardabweichung: - nur für metrische Variablen - mittlere Abweichung vom Mittelwert - gebräuchlichstes Streumaß - Nenner (1 - n) kennzeichnet STP-Streumaß (unverzerrter Schätzer) ProbandWert(x i -x) 2 11,20,64 22,30,09 31,70,09 42,90,81 52,40,16 61,50,25 x = 2,0 s 2 = 0,41 SS = 2,04 s = 0,64

31 Kennwerte univariater Stichproben 2.3 Variationsbreite versus empirische Standardabweichung: - Variationsbreite: maximaler Schwankungsbereich der Werte - Standardabweichung: mittlerer Schwankungsbereich der Werte VariationsbreiteStandardabweichung Variabilität der täglichen Mitteltemperaturen im Januar und Juli

32 Kennwerte univariater Stichproben 2.3 bei manueller Berechnung ist folgende Formel für die Quadratsumme praktikabler: bei einer linearen Transformation der Daten skaliert die Standard- abweichung mit b, ist aber invariant gegenüber a: lineare Transformation

33 Kennwerte univariater Stichproben 2.3 Quadratsumme bei mehrfach auftretenden Messwerten: Quadratsumme bei Messwertklassen ohne offene Randklassen näherungsweise: Werte innerhalb der Messwertklassen meist schief verteilt, so dass Klassenmitte nicht repräsentativ und empirische Standardabweichung s zu groß; deshalb Sheppardsche Korrektur (empirisch): Beispiel: n : STP-Umfang x i : Messwerte h i : absolute Häufigkeiten k : Anzahl der Klassen x * i : Klassenmitten x* : arithmetisches Mittel der Klassenmitten Würfelhihi hixihixi hixi2hixi Σ

34 Kennwerte univariater Stichproben 2.3 in der Praxis häufig mehrere Stichproben jeweils mit Mittelwert und Varianz: geeignete Maßzahl für globales Streuen der Messwerte in den l Stichproben gesucht 1. Möglichkeit: mittlere empirische Varianz Beispiel: alle STP gleich groß: STP unterschiedlich groß: STPnini xixi si2si2 1362,81,1 2405,40,9 3373,31,3 4314,50,8 n i : Umfang der STP i x i : Mittelwert der STP i s i 2 : Varianz der STP i

35 Kennwerte univariater Stichproben Möglichkeit: empirische Gesamtvarianz unter Berücksichtigung aller Werte mit ihrer absoluten Lage Beispiel: Gesamtvarianz ist immer größer oder gleich der mittleren Varianz der l STP n i : Umfang der STP i x i : Mittelwert der STP i s i 2 : Varianz der STP i STPnini xixi si2si2 1362,81,1 2405,40,9 3373,31,3 4314,50,8

36 Kennwerte univariater Stichproben 2.3 empirischer Interquartilsbereich, empirischer Quartilsabstand: - für metrische und ordinale Variablen - auf Basis einer der Größe nach geordneten Datenreihe - wesentlich robuster gegenüber Ausreißern als Varianz / Standardabweichung - Aufteilung der Datenreihe in 4 gleich große Kompartimente: - genaue Lage häufig nicht eindeutig festgelegt, da zwischen zwei Messwerten oder Rangplätzen - bei Messwerten mit Wiederholung u.U. gar keine sinnvolle Festlegung möglich - hier nur singuläre Daten berücksichtigt - Intervall zwischen Q 1 und Q 3 heißt empirischer Interquartilsbereich - bei metrischen Daten heißt (Q 3 -Q 1 ) auch empirischer Quartilsabstand Q 1 : unteres Quartil = Abgrenzung der 25% der kleinsten Werte Q 2 : Median = Abgrenzung von 50 % der Werte Q 3 : oberes Quartil = Abgrenzung der 25% der größten Werte

37 Kennwerte univariater Stichproben 2.3 allgemeine Bestimmung der Quartile: - Bestimmung des Medians: - Bestimmung des unteren Quartils durch Halbierung zwischen kleinstem Datenwert und Median: - Bestimmung des oberen Quartils durch Halbierung zwischen Median und größtem Datenwert: - wenn Rangplätze R nicht ganzzahlig, folgende Interpolation für Quartile Q: Q : Quartil R Q : berechneter nicht ganzzahliger Rangplatz von Q R u : ganzzahliger Rangplatz unterhalb von R Q R o : ganzzahliger Rangplatz unterhalb von R Q x u : Messwert auf Rangplatz R u x o : Messwert auf Rangplatz R o

38 Kennwerte univariater Stichproben 2.3 Beispiel für die Bestimmung von Quartilen und Quartilsabstand: Darstellung der Quartile in so genanntem Boxplot: - zum direkten optischen Vergleich von Messergebnisreihen Beispiel: Rangplatz Messwert

39 Kennwerte univariater Stichproben 2.3 bei metrischen Daten wird der halbe empirische Quartilsabstand als Streumaß angegeben: Beispiel: bei metrischen gruppierten Daten wird der halbe Quartilsabstand bzgl. Klassen berechnet: Rangplatz Messwert q 1 : Nummer der (unteren) Quartilklasse von Q 1 q 3 : Nummer der (oberen) Quartilklasse von Q 3 x q1,u : untere Klassengrenze der Q 1 -Klasse x q3,u : untere Klassengrenze der Q 3 -Klasse n q : Häufigkeit in der jeweiligen Quartilklasse n c,q-1 : kumulative Häufigkeit in der Klasse q-1 b : Klassenbreite Q 1 * : trennt die ersten 25% der Histogrammfläche ab Q 3 * : trennt die letzten 25% der Histogrammfläche ab

40 Kennwerte univariater Stichproben 2.3 bei ordinalen gruppierten Daten ist das Streumaß der Unterschied zwischen den Beobachtungswerten der Q 1 - und Q 3 -Klasse: Beispiel: Klassifizierung der Stürme große Streuung: Q 1 und Q 3 fallen in die Randklassen kleine Streuung: Q 1 und Q 3 fallen in die gleiche Klasse Q 1 fällt in die Klasse stark Q 3 fällt in die Klasse schwach } die wesentliche Streuung erfolgt zwischen stark und schwach

41 Kennwerte univariater Stichproben 2.3 Begriff der Quartile läßt sich verallgemeinern: - Quantile: allgemeine Verteilungsmaße - Quartile: Viertel (25%, 50%, …) - Pentile: Fünftel (20%, 40%, …) - Dezile: Zehntel (10%, 20%, …) - Zentile: Hundertstel (1%, 2%, …) - Perzentile: graphisch anhand von kumulierten Häufigkeitsverteilungen (Verteilungs- funktionen) zu veranschaulichen:

42 Kennwerte univariater Stichproben 2.3 relativer Informationsgehalt h: - für kategoriale Variablen (Nominalskala) - Maßzahl für die Verteilung der Beobachtungswerte auf die Kategorien - für h=0 gilt, dass alle Werte in der gleichen Kategorie liegen - für h=1 gilt, dass sich alle Werte gleichmäßig auf die Kategorien aufteilen (völlige Streuung) - bei einem großen h bestehen folglich geringe Unterschiede bzgl. der Häufig- keit zwischen den Kategorien wegen der grundsätzlich beliebigen Anordnung der Kategorien ist h kein Maß für die Streuung um einen Zentralwert (Modus) k : Anzahl der Kategorien N : Gesamtzahl der Daten n i : absolute Häufigkeit jeder Kategorie

43 Kennwerte univariater Stichproben 2.3 Beispiel: richtiges Symbol in Zeichenkette Zeichenkette: Elementtypen: ? Schüler 2. Klasse: Schüler 4. Klasse: Modalwert: D 2. Klasse = D 4. Klasse = Schüler der 4. Klasse zeigen klare Ungleichverteilung zugunsten des richtigen Symbols: Vergleichsmaß für Streuung bei nominalverteilten Variablen

44 Kennwerte univariater Stichproben 2.3 je nach Datenart sind nur bestimmte Streumaße zugelassen:

45 Kennwerte univariater Stichproben 2.3 bei Nominal- und Ordinalskala ist Wahl des Streumaßes eindeutig bei metrischen Daten hängt Wahl des Streumaßes von der Fragestellung ab: - Variationsbreite kennzeichnet zwar gesamten Wertebereich, ist aber sehr sensitiv gegenüber Ausreißern - Quartilsabstand ist zwar insensitiv gegenüber Ausreißern, berücksichtigt aber nur ca. 50 % der Daten - Standardabweichung berücksichtigt alle Daten, ist aber weniger anschaulich bei normalverteilten Variablen sind arithmetisches Mittel und Standard- abweichung am besten geeignet und auch anschaulich: - typische Verteilung in den Geowissenschaften für zufällige Streuung um Mittelwert (Glockenkurve) x = Z = D : genau in der Mitte der symmetrischen Verteilung x ± 1s : schließt ca. 68,0 % der Werte ein x ± 2s : schließt ca. 95,5 % der Werte ein x ± 3s : schließt ca. 99,7 % der Werte ein Näherungsformel für große normalverteilte STP:

46 Kennwerte univariater Stichproben 2.3 häufig lineare Transformation der Daten durch Umrechnung der Einheiten: - Meilen Kilometer, m/s km/h, °C °F, … - Skalierung des Mittelwertes: - Skalierung der Standardabweichung: um die Form von Verteilungen zu vergleichen, werden Stichproben häufig standardisiert: - lineare Transformation der Form z i = b x i +a - danach besitzen alle STP den gleichen Mittelwert (=0) und die gleiche Standard- abweichung (=1) - Beispiel: xixi 18,223,419,021,115,327,924,520,7 zizi -0,80,5-0,6-0,1-1,51,70,8-0,2

47 Kennwerte univariater Stichproben 2.3 in anderen Fällen interessiert gerade die Standardabweichung im Verhältnis zum Mittelwert: - empirischer Variationskoeffizient: - bei insgesamt kleineren Werten fällt eine konkrete Standardabweichung mehr ins Gewicht

48 Kennwerte univariater Stichproben 2.3 Beispiel Variationskoeffizient: Niederschlagszeitreihen in Nordafrika

49 Kennwerte univariater Stichproben 2.3 empirische und theoretische Häufigkeitsverteilungen werden neben dem Mittelwert und der Standardabweichung noch durch weitere Maßzahlen charakterisiert: - Momente (Potenzmomente): - zentrale Momente: - arithmetischer Mittelwert entspricht dem ersten Moment m 1 - Varianz entspricht annähernd dem zweiten zentralen Moment m z 2 - es gilt grundsätzlich m z 1 =0 - Schiefe als Formparameter der Asymmetrie steht im Zusammenhang mit drittem zentralen Moment: - Exzess als Formparameter der Wöl- bung steht im Zusammenhang mit viertem zentralen Moment: fifi xixi

50 Kennwerte univariater Stichproben 2.3 zur Schiefe S: - für symmetrische Verteilungen gilt S=0 - bei S > 0 heißt die Verteilung positiv schief oder linkssteil - bei S < 0 heißt die Verteilung negativ schief oder rechtssteil - vereinfachte Rechenformel zur qualitativen Bestimmung der Schiefe: zum Exzess E: - für die Normalverteilung gilt E=0 (Mesokurtosis) - bei E >0 spricht man von positivem Exzess (Leptokurtosis) - bei E < 0 spricht man von negativem Exzess (Platykurtosis) - vereinfachte Rechenformel zur quali- tativen Bestimmung des Exzesses: Q 1 : unteres Quartil Q 3 : oberes Quartil De 1 : unteres Dezil De 9 : oberes Dezil

51 Kennwerte bivariater Stichproben 2.4 bei vielen Fragestellungen in der Geographie bivariate Verteilungen: - zwei Merkmalsausprägungen bzgl. jedes Untersuchungselements - z.B. Einwohnerzahl und Kriminalität bzgl. Flächeneinheiten - z.B. horizontale Windkomponenten in einer Modellgitterbox - z.B. Temperatur und Niederschlag an einer Klimastation bivariate Verteilungen lassen sich ebenfalls durch Kennwerte wie Mittelwerte und Streumaße charakterisieren ferner läßt sich der Zusammenhang zwischen den beiden Variablen in Form von Maßzahlen (Korrelationskoeffizienten) ausdrücken (s. Kapitel 5)

52 Kennwerte bivariater Stichproben 2.4 arithmetisches Mittelzentrum ist typischer Lageparameter für bivariate Verteilungen: - Schwerpunkt einer zweidimensionalen Punktverteilung - entweder Verteilung einer Variablen in der Fläche: Variable X : W-E-Richtung (x-Achse) Variable Y : N-S-Richtung (y-Achse) - oder Verteilung der Untersuchungselemente bzgl. zwei Variablen: Variable X : Temperatur (x-Achse) Variable Y : Niederschlag (y-Achse) - Berechnung aus den arithmetischen Mittelwerten der Koordinaten: - auch höherdimensional möglich: geogr. LängeTemperaturgeogr. Breite Niederschlag TemperaturwertKlimastation

53 Kennwerte bivariater Stichproben 2.4 arithmetisches Mittelzentrum (Forts.): - P minimiert die Summe der quadrierten Abstände zwischen allen Punkten und sich selbst: - für gruppierte Daten läßt sich der Schwerpunkt analog zum univariaten arithmetischen Mittel berechnen gewichtetes arithmetisches Mittelzentrum, wenn statt reiner Punkt- verteilung Bezugseinheiten mit unterschiedlicher Größe (z.B. Verwaltungs- einheiten mit unterschiedlicher Einwohnerzahl): x i : Klassenmitten auf der x-Achse y i : Klassenmitten auf der y-Achse h i *: absolute Häufigkeit von x i h i *: absolute Häufigkeit von y i k : Anzahl der Klassen auf der x-Achse l : Anzahl der Klassen auf der y-Achse : Koordinaten des Mittelpunktes der Bezugseinheit i g i : Gewicht der Bezugseinheit i häufig normiert auf:

54 Kennwerte bivariater Stichproben 2.4 Beispiel für Schwerpunkt von grup- pierten Daten: - Kundenwohnungen eines Kaufhauses - Aufteilung in Gitternetz mit b = 2km - Kaufhaus bei (0,0) - Schwerpunkt (n=446): - Kundenschwerpunkt ca. 1,9 km nach Nordwesten verschoben Beispiel für gewichteten Schwerpunkt: - Verlagerung des Bevölkerungsschwer- punktes in den USA auf Basis von bevölkerungsgewichteten Verwaltungseinheiten - Verlagerung im Zuge der Pioneerbewegung NW

55 Kennwerte bivariater Stichproben 2.4 Modalzentrum einer bivariaten STP direkt aus zweidimensionaler Häufigkeitsmatrix (Kontingenztafel) abzulesen: - kann wie im univariaten Fall unimodal, bimodal oder multimodal sein - hier bimodal Medianzentrum einer bivariaten STP definiert als derjenige Punkt in der Fläche, für den die Summe der Abstände zu allen anderen Punkten minimal ist: - exakte Berechnung i.d.R. nicht möglich - stattdessen iteratives Verfahren: - Medianzentrum kennzeichnet optimalen Standort für Betriebe und Geschäfte nach dem Prinzip der minimalen Entfernungen a) grobmaschiges Gitternetz über die Fläche b) über alle Gitterpunkte G j (x j,y j ) wird f(G j )=min bestimmt c) engmaschigeres Gitternetz über die Fläche der Gitterbox mit f(G j )=min d) Iteration ab Schritt b) Abbruch der Iteration, wenn sich Koordinaten x j und y j kaum mehr ändern

56 Kennwerte bivariater Stichproben 2.4 Standarddistanz bei bivariaten STP entspricht Standardabweichung bei univariaten STP (Varianz und Variationskoeffizient analog): - Maß für die Streuung der Punkte auf der Fläche um den Schwerpunkt: - auch als Maß für den mittleren Abstand aller Punkte zueinander zu verstehen: Standarddistanz ist absolutes Streumaß, das bei unterschiedlich großen Bezugsflächen keinen Ver- gleich zulässt: - dann relative Distanz durch Division mit Flächenmaß: Kreisfläche: Quadrat: r : Radius des Kreises s : Seitenlänge des Quadrats

57 Kennwerte bivariater Stichproben 2.4 anschaulich lässt sich s d als Kreis um den Schwerpunkt mit dem Radius vorstellen wie beim arithmetischen Mittelzentrum lässt sich die Standarddistanz auch im höher-(k-)dimensionalen (multivariaten) Fall berechnen: Beispiel: Standarddistanz von Bevölkerung und zentralen Einrichtungen auf Basis von Verwaltungseinheiten in einer Großstadt: - Standarddistanz in Metern - relative Distanz im Verhältnis zur Standarddistanz der Bevölkerung Supermärkte und Friseure streuen ähnlich stark über das Stadtgebiet wie die Bevölkerung Boutiquen, Ärzte und Banken sind stärker konzentriert BevölkerungSupermärkteBoutiquenFriseureBankenÄrzte sdsd s d,rel 10,850,450,780,270,54

58 Take-away Bei der graphischen Darstellung von uni- und bivariaten Stichproben kommt den Häufigkeitsdiagrammen mit Messwertklassen eine zentrale Bedeutung zu. Die empirische Verteilung von Beobachtungswerten kann durch einige wenige Maßzahlen hinreichend charakterisiert werden: Lageparameter, Streuparameter, Schiefe, Exzess. Die Wahl der Kennwerte uni- und bivariater Verteilungen hängt vom Skalenniveau der Variablen und der Fragestellung ab. Bei univariaten metrischen Verteilungen sind arithmetisches Mittel und empirische Standardabweichung am gebräuchlichsten. Bei bivariaten metrischen Verteilungen sind arithmetisches Mittelzentrum und Standarddistanz am gebräuchlichsten. Die Kennwerte der deskriptiven Statistik treffen nur Aussagen über die STP-Verteilung, nicht über die Verteilung der Grundgesamtheit. 2


Herunterladen ppt "Deskriptive Statistik 2 2.1 Darstellung univariater Stichproben 2.2 Darstellung bivariater Stichproben 2.3 Kennwerte univariater Verteilungen 2.4 Kennwerte."

Ähnliche Präsentationen


Google-Anzeigen