Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)

Ähnliche Präsentationen


Präsentation zum Thema: "Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)"—  Präsentation transkript:

1 Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung) könnten ganz weit links LIEGEN (Werte sehr klein) oder weit rechts sein. Was heißt nun aber: die Werte? Ist damit gemeint: der Großteil der Werte, die mittleren Werte? Der kleinste ( bzw. der größte)? die 10% kleinsten? usw. Dispersion der Verteilung. Konzentration auf wenige Punkte bzw. engen Bereich versus auf viele verschiedene Punkte bzw. weiten Bereich. Das entspricht bei Intervallskalen der Breite der Verteilung (auch Streuung genannt ): Die Werte könnten ganz eng beieinander liegen oder aber weit gestreut. Schiefe der Verteilung: Manche Verteilungen sind mehr oder weniger symmetrisch, andere könnten als schief bezeichnet werden (linksschief bzw. rechtsschief). Kurtizität (Kurvigkeit, Wölbung) der Verteilung. Manche Verteilungen haben einen spitzen bzw. glatten Gipfel (leptokurtisch bzw. platykurtisch). Die Idealfigur ist die Normalverteilung. ideal glatte bzw. zerklüftete Verteilungen. Auch hier: welche Werte? Alle? Ein Großteil? Der kleinste und größte? Die 10% kleinsten im Vergleich zu den 10% größten? usw.

2 mode(Alter)= 21. Denn f(x) ist bei 21 am größten Modalwert (engl. Mode): mode(x) Der Modalwert ist der x-Wert mit größter Dichte. min(Alter) = 21 = x (1) max(Alter) = 30 = x (16) min(x)= x (1), max(x)= x (n). Mit x (1) und x (n) aus der sortierten Liste Minimum bzw. Maximum Beispiele: Lagemaßzahl Für den Modalwert gilt: f(mode(x)) = max (f(x)) x Quantitative Charakterisierung, Lage: Min, Max, Mode Problem: Es kann auch mehrere Modalwerte geben (bimodale oder sogar multimodale Verteilungen) mode(Familienstand) = 0 (=ledig). Denn f(x) ist bei ledig am größten: 11/16. mode(IQ) = 100. Denn f(x) ist bei 100 am größten. mode(Einkommen) = Intervall von 0 bis 100. Zwei Lösungsstrategien: Modalwertmenge berichten. Eindeutigkeitsstrategie: Bei Intervallen das Intervallmittel berechnen. Sonst: Modalwert nur für unimodale Verteilungen als sinnvoll. bzw. mode(Einkommen) = Intervallmittel = 50 Index Wert (i)x (i) (1)21 (2)21 (3)21 (4)21 (5)21 (6)21 (7)22 (8)22 (9)22 (10)22 (11)23 (12)23 (13)24 (14)24 (15)24 (16)30 Sortierte Liste Dichtefunktion f(x), x=Alter x f(IQ) IQ Normalverteilung für den IQ Streifendiagramm, vertikal ledigverlobtgetrennt Anteil f(x) f(x)

3 Quantitative Charakterisierung, Lage: Median und Co. Median (mittlerer Wert): med(x) ist der x-Wert, der die Verteilung in zwei Hälften teilt. Lagemaßzahl Diese Idee kann auch auf andere Quantelungen ausgedehnt werden: Einteilung in 3 Teile, 4 Teile usw. Für diskrete Verteilungen präziser: med(x) ist der x-Wert, für den die beiden Forderungen gelten: 1. mindestens die Hälfte aller Werte ist kleiner gleich med(x) 2. mindestens die Hälfte aller Werte ist größer gleich med(x) f(x) x x f(x) xixi Wert Anteilsverteilung p(x i ) Anteil i Index Der Median med(x) ist hier = 100. Der Median med(x) ist hier = 22 Terzile sind die beiden x-Werte, die die Verteilung in drei Drittel teilt: 1. Terzil und 2. Terzil. Quartile sind die 3 x-Werte, die die Verteilung in 4 Viertel teilt: 1. Quartil und 2. Quartil (= Median) und 3. Quartil. Darüber hinaus gibt es: Quintile (5 Teile), Sextile (6 Teile), Septile (7 Teile), Oktile (8 Teile), Dezile (10 Teile) usw. Perzentile heißen die 99 Werte, die eine Quantelung in 100 Teile ermöglichen: 1. Perzentil, 2. Perzentil usw. Quantile: Diese -ile können unter dem Begriff Quantil zu bestimmten Quanten (= q) zusammengefasst werden. Beispiel: Das 1. Terzil ist das Quantil zum Quantum 1/3. Das 2. Terzil ist das Quantil zum Quantum 2/3. Beispiel: Das 1. Quartil ist das Quantil zum Quantum 1/4. Das 3. Quartil ist das Quantil zum Quantum 3/4.

4 [z] Die eckigen Klammern um die Zahl z bedeuten, dass die Dezimalstellen abgeschnitten werden sollen (diese Dezimalstellenabschneideregel heißt auch Floor-Function). Beispiele: [5.13] = 5, [2.4711] = 2, [ ] = x f(x)f(x) f(x)f(x) x Quantile Bis zu welchem x-Wert liegt ein gegebenes Quantum q (=Anteil) aller Werte ? Für diskrete Verteilungen muss diese Definition präzisiert werden: für gelten die beiden Forderungen: 1. mindestens q aller Werte ist kleiner gleich, 2. mindestens (1-q) aller Werte ist größer gleich. Index Wert (i)x (i) (1)21 (2)21 (3)21 (4)21 (5)21 (6)21 (7)22 (8)22 (9)22 (10)22 (11)23 (12)23 (13)24 (14)24 (15)24 (16)30 Sortierte Liste Bei diskreten Verteilungen Dieser x-Wert heißt Quantil zum Quantum q: Gesucht:. Das Quantum q=1/3, n=16. z:=16*(1/3) = z ist keine ganze Zahl; daher muss [z]+1 berechnet werden: [5.3333]+1 = 6. Das Quantil ist daher das 6. aus der sortierten Liste: x (6) = 21. Gesucht:. Das Quantum q= ¾, n=16. z:=16*(¾) = 12. z ist eine ganze Zahl. Daher ist das Quantil =: ( x (12) + x (13) )/2 = (23+24)/2 = x F(x)F(x) Verteilungsfunktion für Alter d.h. liegt dort auf der x- Achse, wo F(x) erstmals q überschreitet bzw. erreicht. Auf Grund der sortierten Liste das Quantil berechnen: nein Berechne z:= n*q Ist z eine ganze Zahl? ja 1]z[ q x : x 2 z +1z q xx : x ~ ~ An der Stelle, wo man auf die Funktion F(x) stößt, ist auf der x-Achse (Abszisse) das Quantil zum Quantum q ablesbar. So kann das Quantil auch mit Hilfe der Verteilungsfunktion graphisch bestimmt werden: Starten von der Ordinate bei q. Die beiden Forderungen, mit der Verteilungs- und Dichte- funktion formuliert, lauten: q F( ) und F( ) f ( ) q q = ¾ q = 1/3 Index Wert (i)x (i) (1)21 (2)21 (3)21 (4)21 (5)21 (6)21 (7)22 (8)22 (9)22 (10)22 (11)23 (12)23 (13)24 (14)24 (15)24 (16)30 Sortierte Liste q = 0.5 q = ¾ Quantile zu Problem der Nichteindeutigkeit des Quantils wird nur durch die Konvention der Mittelwertbildung gelöst.

5 Kumulierte Anteilsverteilung oioi uiui Klassen Grenzen Klassen Index i Kum. Anteil F( o i ) Klassen Breite b i x ~ ¼ x ~ ¼ Gesucht:, daher ist q = Index m = 3. Erst hier ist F(o 3 ) > u 3 = 500. F(u 3 ) = F(500) = Daher ist das 1. Quartil = ( )500/ 0.20 = x F(x) q = 0.80 q = ¼ Quantile bei stetigen Verteilungen Für stetige Verteilungen können Quantile einfacher definiert werden als für die diskreten. ist der x-Wert, für den gilt: x ~ q x ~ q q = F( ). An der Stelle, wo man auf die Funktion F(x) stößt, ist auf der x-Achse (Abszisse) das Quantil zum Quantum q ablesbar. Graphisches Verfahren: Starten von der Ordinate bei q. q = ½ Gesucht:, daher ist q = Index m = 5. Erst hier ist F(o 5 ) > u 5 = F(u 5 ) = F(2000) = Daher ist das Quantil = ( )3000/ 0.30 = x ~.8 x ~ x ~ ½ x ~ ½ Gesucht:, daher ist q = Index m = 4. Erst hier ist F(o 4 ) > u 4 = F(u 4 ) = F(1000) = Daher ist der Median = ( )1000/ 0.30 = x ~ 0.7 x ~ Gesucht:, daher ist q = 0.7. Index m = 4. Hier erreicht F(o 4 ) nun 0.7; F(o 4 ) = 0.7. o 4 = u 5 =2000. Daher ist das Quantil = ( )/2 = F(o m ) In der Anteilsverteilung den Index m finden, für den F(o m ) erstmals q überschreitet (F(o m ) > q) bzw. erreicht (F(o m ) = q). > q : q x ~ 1 2 mm uo q x ~ : )u(F)o(F b))u(Fq( u mm mm m = q Berechnen für gruppierte Daten Die in Klassen gruppierten Messwerte seien pro Klasse gleichverteilt im Intervall [u i,o i ). Zudem sei der kumulierte Anteil in jeder Klasse F( o i ) bekannt. Dann kann das Quantil wie folgt berechnet werden. x ~ ¼ x ~ ¼ Gesucht:, daher ist q = Index m = 3. Erst hier ist F(o 3 ) > u 3 = 500. F(u 3 ) = F(500) = Daher ist das 1. Quartil = ( )500/ 0.20 = x x F(x) Begründung der Formel für das Quantil q = Für q muss festgestellt werden, welche Gerade benötigt wird. b )bu)u(F q (x ~ 1 mmq b/)aq(x ~ x ~ baq qq a und b kann durch Einsetzen der Punkte in die Gleichung berechnet werden., m m bu )u(F a uo )u(F)o(F b mm mm Weiteres Umformen und Einsetzen von a und b liefert die Formel: mmq ))u(Fq(ux ~ )u(F)u(F uo mm mm Jeder Klasse entspricht eine Gerade. Die Geradengleichung allgemein ist: y = a + bx. Die Gerade geht durch die Punkte und. )(,u m ) u ( F m )(,o m ) o ( F m q x ~ Nun wird der Punkt in die Gleichung eingesetzt. ~ )q,x( q

6 In der EDA (TUKEY, 1977 Exploratory Data Analysis) wurden innovativ anschauliche Begriffe und Konzepte eingeführt, die denen der klassischen Statistik ähnlich sind, aber etwas anders definiert sind. So entsprechen die Hinges (=Falten) fast dem 1. und 3. Quartil, die Eighths fast dem 1. und 7. Oktil, aber nicht bei jedem n. Beispiel: 9 sortierte Werte 7, 18, 23, 24, Man denke sich die UEen als Perlen, die auf eine Schnur aufgezogen sind. Hält man die Schnur an beiden Enden fest, fällt die Schnur so, dass unten die Medianperle hängt. Der Median ist dann 25. Durch Hochziehen der Medianperle entstehen Falten, bei der 3. Perle (von vorn bzw. hinten): die beiden Werte 23 und 27 sind die Hinges Beispiel: 10 Werte, zusätzlich 32. Hochziehen in der Mitte. Beispiel: 11 Werte, zusätzlich 38. Hochziehen der Medianperle. Hinges Der Prozess des Faltens könnte weiter fortgesetzt werden, indem die Hinges selbst hochgezogen werden. Das führt dann zu einer Art Achtelung der Perlenkette. Usw. Berechnungsmethode Zuerst wird die Tiefe für die Größen berechnet; das ist die Position in der sortierten Liste von vorne bzw. von hinten. Tiefe(Median)=(n+1)/2. Tiefe(Hinges)=([Tiefe(Median)]+1)/2. Tiefe(Eighths)=([Tiefe(Hinges)]+1)/2. Der Median(x) = x (Tiefe(Median)), falls Tiefe(Median) eine ganze Zahl ist, sonst ist der Median das Mittel der beiden Werte, zwischen denen die Dezimalzahl liegt. Entsprechend erfolgt die Berechnung der beiden Hinges (h u, h o ) und der beiden Eighths(e u, e o ). Beispiel (9 Werte). Tiefe(Median)=(9+1)/2 = 5. Tiefe(Hinges)=([5]+1)/2 = 3. Tiefe(Eighths)=([3]+1)/2 = 2. Median(x) = 25. h u = 23 (3. von vorne), h o = 27 (3. von hinten), e u = 18 (2. von vorne), e o = 28 (2. von hinten). Beispiel (10 Werte). Tiefe(Median)=(10+1)/2 = 5.5. Tiefe(Hinges)=([5.5]+1)/2 = 3. Tiefe(Eighths)=([3]+1)/2 = 2. Median(x) = (25+26)/2. h u = 23 (3. von vorne), h o = 28 (3. von hinten), e u = 18 (2. von vorne), e o = 29 (2. von hinten). Beispiel (11 Werte). Tiefe(Median)=(11+1)/2 = 6. Tiefe(Hinges)=([6]+1)/2 = 3.5. Tiefe(Eighths)=([3.5]+1)/2 = (3+1)/2 = 2. Median(x) = 26. h u = 23.5 (Mittel des 3. und 4. von vorne), h o = 28.5 (Mittel des 3. und 4. von hinten), e u = 18 (2. von vorne), e o = 32 (2. von hinten). Median, Hinges und Eighths aus der EDA. hoho hu hu hoho hu hu Mittel der beiden: 25.5 = Median Mittel der beiden: 23.5 Mittel der beiden: 28.5 Hinges hoho hu hu

7 Die Schwerpunkt-Eigenschaft bedeutet, dass die Summe der Differenzen zum Mittel 0 ist, was auch mit Hilfe einer Dezimalwaage demonstriert werden kann. Das arithmetische Mittel (engl. Mean) wird auch als Mittel, Durchschnitt oder Schwerpunkt (engl. Centroid) bezeichnet bzw. etwas unpräzis einfach als der Mittelwert. Lagemaß Arithmetisches Mittel Arithmetisches Mittel des Alters (aus Urliste) = ( ) / 16 = 362 / 16 = n=16, es wird über 16 Werte gemittelt (ungewichtet). Für Urliste: I 1i ii n 1 I 1i ii xnxpx Für Verteilung: Arithmetisches Mittel des Alters (aus Verteilung) mit Anteilen (I=5): = Mittel über 5 Werte (mit Anteilen als Gewichten). Der Waagebalken habe kein Eigengewicht _X_X Die Summe der Differenzen zum Mittelwert ist 0: Beachte: Bei den Werten des Balken wird pro UE ein Gewicht gehängt. Balance ist beim Mittelwert als Haltepunkt gegeben. Alle Werte werden linear via y = x (96 ist a, 100 ist b) transformiert: Die y-Werte sind 96, 196, 296, 396. Wie groß ist der Mittelwert? Statt nochmals neu den Mittelwert zu berechnen, kann der Mittelwert ebenfalls nach der Transformation berechnet werden: *1.5 = 246. ist translationsäquivariant bei linearen Transformationen: y = a + b x. xbay D. h.: Werden alle einzelnen Werte linear transformiert, gilt dies auch für das arithm. Mittel: Beispiel: Währungsumrechnungen sind lineare Transformationen mit a=0. Ist der Mittelwert in einer Währung bekannt, kann er direkt in eine andere Währung umgerechnet werden (ohne Kenntnis der Einzelwerte). Für jeden der n x-Werte werden die y- Werte gebildet:. Den y-Mittelwert erhält man aus mit der gleichen Transformation. ii bxbxay Beweis: Beispiel(4 x-Werte 0, 1, 2, 3): ist 1.5.

8 Entscheidungshilfe: Arithmetisches Mittel oder Median Das Mindestskalenniveau für das arithmetische Mittel ist das Intervallskalenniveau, für den Median reicht das Ordinalskalenniveau. Das arithmetische Mittel reagiert sensibel auf extreme Messwerte (Ausreißer), nicht aber der Median. Beispiel: 2 Einkommenslisten, unterscheiden sich in nur einem Wert Ohne Großverdiener: 100, 100, 100, 100, 200 Mit Großverdiener: 100, 100, 100, 100, Median 100 Das arithm. Mittel eignet sich nicht als Indikator dafür, wie es den meisten Leuten geht. Der Median reagiert sensibler auf interne Veränderungen als das arithmetische Mittel. Beispiel: Zuerst haben 5 Leute das gleiche Vermögen, dann nimmt einer jedem 100 weg. Vor Putsch: 200, 200, 200, 200, 200 Nach Putsch: 100, 100, 100, 100, 600 Das arithm. Mittel bemerkt den Putsch nicht, der Median schon Mittel 200 Mittel Median 100

9 Arithmetisches Mittel (stetige Verteilung) Spezialfall: Berechnen für gruppierte Daten Für gruppierte Daten kann die übliche Formel für den Mittelwert verwendet werden mit den Klassenmitten als x- Werten. Anteilsverteilung oioi uiui Klassen Grenzen Klassen Index i Anteil p i Klassen Mitte x i Produkt p i x i I 1i ii n 1 I 1i ii xnxpx Für Verteilung: Berechnen der Klassenmitten: Arithmetisches Mittel des Einkommens = 1685 x Allgemeiner Fall Der Mittelwert ist im stetigen Fall das Integral des Produktes der x-Werte mit der Dichtefunktion. Arithmetisches Mittel: f(x) ist die Dichtefunktion der Verteilung für Beispiel: Gleichverteilung f(x) = 1/(b-a), in x (a,b). Das unbestimmte Integral ist )ab()ab(dxx ab 1 b a ab 1 hier, das bestimmte. Der Mittelwert der Gleichverteilung ist daher die Mitte des Definitions-Intervalls. x x x x x x x x f(x) Mittel = Für eine Einteilung des Bereichs von a bis b in mehrere gleich breite (= x ) Intervalle seien jeweils die Klassenmitten die x-Werte aus dem Bereich. Das arithmetische Mittel kann dann nach der üblichen Formel berechnet werden: Erläuterung x Einteilung kann feiner gemacht werden, bis x mickrig klein ist: dx Beispiel: Normalverteilung. Das Integral für das arithmetische Mittel ist immer der Symmetriepunkt. Im vorliegenden Fall also: 100.

10 Sortierte Liste Index Wert (i)x (i) (1)21 (2)21 (3)21 (4)21 (5)21 (6)21 (7)22 (8)22 (9)22 (10)22 (11)23 (12)23 (13)24 (14)24 (15)24 (16)30 Andere Mittelwerte: q-getrimmtes und q-winsorisiertes Mittel Diese Mittelwertbildungen soll die Anfälligkeit des arithmetischen Mittels für Ausreißer abschwächen. q-getrimmtes Mittel. Beim getrimmten Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte eliminiert. Das arithm. Mittel der restlichen Werte heißt das q-getrimmte Mittel. Für sortierte Liste: Berechne z:= n*q. Beispiel: q-getrimmtes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6. [z]= 1 (Dezimalstellen abgeschnitten). q-winsorisiertes Mittel. Bei diesem Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte durch weniger extreme ersetzt. Das arithm. Mittel der so modifizierten Werte ist das q-winsorisierte Mittel. Für sortierte Liste: Wie oben z:= n*q. Beispiel: q-winsorisiertes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6. [z]= 1 (Dezimalstellen abgeschnitten). Ersetze den 1. bis zum [z]. durch den [z]+1. Wert. Der 1. bis 1. Wert soll durch den 2. ersetzt werden. Die Werte vom 16. bis zum 16. Sollen durch den 15. ersetzt werden. Ersetze den (n-[z]+1). bis zum n. durch den (n-[z]). Der Mittelwert über die modifizierten Werte ist das q-winsorisierte Mittel = Berechne den Mittelwert dieser modifizierten Werte Der Mittelwert über die verbleibenden Werte ist das q-getrimmte Mittel = Berechne den Mittelwert der ausgewählten Werte Daher sollen die alle Werte zwischen dem [z]. d.h. dem 1. und dem n-[z]+1. d.h. dem = 16. Die Werte zwischen dem 1. und 16. sind die Werte vom 2. bis zum 15. Wähle die Werte zwischen dem [z]. und dem (n-[z]+1). aus: x ([z]+1),..., x (n-[z]) q ist der Anteil der fraglichen Ausreißer im oberen bzw. unteren Bereich und muss vorgängig festgelegt werden.

11 sp(Alter) = = 9. sp(x) := Max(x) –Min(x) Spannweite (engl. range) : =Maximum-Minimum. Beispiele: Streuungsmaßzahl Sehr sensibel für einzelne Extremwerte.Für manche Verteilungen unbrauchbar! Quantitative Charakterisierung, Streuung Quantilabstand Differenz zwischen symmetrischen Quantilen für ein gegebenes Quantum q x ~ x ~ d qq 1 q : Für q = 0.25 ist d der Quartilabstand; für q = 0.10 ist d der Dezilabstand. Für Alter: = = 2.5. ~ x 0.25 ~ x 0.75 d 0.25 : Der halbe Quantilabstand heißt mittlerer Quantilabstand. EDA-Beispiel = = 6. ~ x 0.25 ~ x 0.75 d 0.25 : ~ x ~ x ee H-Spread (Hingedifferenz) d h := h o – h u EDA-Beispiel: h u =23.5. h o =28.5. e u = 18. e o = 32. d h =5, ~ x e h ~ x e h x f(x)f(x) h ~ x 0.75 ~ x 0.25 e e h EDA Beispiel Streuungsmessung mit Hilfe der Differenz zweier markanter Lagemaßzahlen E-Spread (Eighthsdifferenz)d e := e o – e u hh d e =14 Alter

12 Mittlere Abweichung vom Median := arithmetisches Mittel der Distanzen aller Werte zum Median. Beispiele: Streuungsmaßzahl Streuungsmessung mit Hilfe der Abweichungen aller Werte zu einer Lagemaßzahl Median Quantitative Charakterisierung, Streuung ~ x ½ x f(x)f(x) Urliste: Verteilung: Urliste: ~ |)xx(| : 5.0i n,1,i Median MAD Erstellen einer sortierten Liste der Abweichungen vom Median. D.h. Für diese sortierte Liste den Median bestimmen. Bei der Erstellung der sortierten Liste der Abweichungen vom Median ist die Verteilung hilfreich, weil da schon gleiche Werte zusammengefasst sind. ~ x ½ Erstellen einer sortierten Liste der Abweichungen vom Median: 4 Werte aus x=22.0, 0, 0, 0 1, 1, 1, 2, 2, 2, Werte aus x=21, 2 Werte aus x=23 3 Werte aus x=24. aus x=30. Für die sortierte Liste den Median bestimmen: Der Median bei n=16 ist der Mittelwert des 8. und 9. Werts in der sortierten Liste: (1+1)/2 = 1 = MAD. Median-Abweichung vom Median := Median der Distanzen aller Werte zum Median. engl. Median of Absolute Deviations = MAD.

13 Var(x) = arithmetisches Mittel der quadrierten Distanzen aller Werte zum arithmetischen Mittel der Werte. Streuungsmessung mit Hilfe der Abweichungen aller Werte zum Lagemaß Arithm. Mittel Quantitative Charakterisierung, Streuung x f(x)f(x) Varianz x _ = = Für n* = n-1: Var(x) = / Für n* = n : Var(x) = / Varianz: Andere Bezeichnungen der Varianz Var(x) Für die Stichprobe: oder (um an das Merkmal zu erinnern) oder (falls durch n dividiert wird) oder (falls durch n-1 dividiert wird). Für die Population: oder (um an das Merkmal zu erinnern). Wann: Nur in Stichproben, wenn das arithmetische Mittel auch auf Grund der Stichprobe berechnet wurde. In allen übrigen Fällen wird durch n dividiert. Wann und wozu durch n-1 dividieren? Wozu: Die Division durch n-1 in Stichproben wird durchgeführt, wenn die Varianz der Population durch die Varianz in der Stichprobe erwartungstreu geschätzt werden soll. Bei Division durch n bzw. in diskreten Populationsverteilungen kann die Varianz für die Verteilung etwas einfacher formuliert werden. für Verteilung: Bei Division durch n. Standardabweichung: Std(x) := Wurzel aus der Varianz für Verteilung: Quadratsummen für Urliste:

14 -21 + ½ x 4-Väter-Beispiel: 4 x-Werte Alter: 42, 44, 46, 52 Sei y= *x. a= -21. b= i )y( y Var(y) = 14 / i )x( x Var(x) = 56 / 3 ¼ ( ½) 2 Alle x-Werte werden mit der Linearkombination y = a + bx. transformiert. Wie groß ist die Varianz der transformierten Werte? Dehnung (um b) wirkt sich quadratisch im quadratischen Konzept der Varianz aus. Var(a+bx)= b 2 *Var(x) Varianz einer Linearkombination Breite bleibt gleich bei Verschiebung um a. Varianz einer Linearkombination. Verschiebungssatz. zur einfacheren Berechnung der Quadratsummen bei krummen Mittelwerten: Verschiebungssatz für sq x Zuerst Summe der quadrierten Werte bilden. Erst danach den Mittelwert (quadriert und mit n multipliziert) subtrahieren. Beispiel: Alter, 16 Studenten. Mittelwert = Berechne zuerst Summe der quadrierten Werte: Der Standardfehler ist die Standardabweichung der Verteilung aller denkbaren Mittelwerte, die man erhielte, wenn man etwa sehr viele Stichproben ziehen würde (jeweils mit gleichem n). Standardfehler des arithmetischen Mittels Die Standardabweichung des arithm. Mittels ist kleiner als die der Werte selbst, und zwar um den Faktor. Standardfehler des Altersmittelswerts bei einer Stichprobengröße von n=16 Std( ) = Std(x) / = Std(x) / 4. Etwas exakter spricht man vom geschätztem Standardfehler, wenn die Std(x) selbst auf Grund der Stichprobe geschätzt wird. (Geschätzter) Standardfehler des arithmetischen Mittels Formeln zur Varianz Danach 16*quadrierter Mw. berechnen Differenz: sq x = 8268 – =77.75, wie vorher!

15 -2² n 1i 2 iy ) y y(:sq 1n :Var(y) y Im Variablen-Raum Geometrische Interpretation der Varianz Die Abweichungen vom Mittelwert werden quadriert und können als Flächen-Quadrate dargestellt werden. Im Einheiten-Raum Pro UE wird eine Achse verwendet. Bei n UEen ist daher ein n-dimensionaler Raum nötig. Für jeden Wert, der genau dem Mittel entspricht, kann die Dimension um 1 reduziert werden y1y1 y2y2 y3y3 y _ y _ y _ Der quadrierte Abstand vom Nullpunkt zum Datenpunkt ist genau die Summe der quadrierten Abweichungen vom Mittelwert = Var(y) * (n-1) 4-Väter-Beispiel: y-Werte 0, 1, 2, 5 Var(y) = 14 / 3 = y i 2 i )y( y _ y yy ² Nun ist e schon die gesuchte Distanz, quadriert: e 2 = d 2 + b 2 = a 2 + c 2 + b 2. Die Werte werden zentriert (d.h. arithmetisches Mittel wird subtrahiert) und auf dem Zahlenstrahl abgetragen. Der Nullpunkt stellt den Mittelwert dar. Auf jeder Achse werden als Werte die Differenzen zum Mittelwert eingetragen. -2 Das Ergebnis ist ein Datenpunkt für die gesamte Stichprobe. Varianz als mittlere Fläche 14/3 = Var(y) 2301 Std(y) = 2.1 Zuerst noch eine Hilfsebene einfügen. Pythagoras Berechnung der Distanz: wiederholte Anwendung des Pythagoras-Satzes: Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet. a b c d Mit dem braunen Dreieck kann d auf Grund von a und c berechnet werden: d 2 = a 2 + c 2. Mit dem lila Dreieck kann e auf Grund von d und b berechnet werden: e 2 = d 2 + b 2. e 3²3²

16 Bei linksschiefen Verteilungen ist das arithmetische Mittel links(kleiner) vom Median. Daher ist dann die Differenz arithmetisches Mittel minus Median negativ. Schiefemaß: schiefe(X) Beispiele für unterschiedliche Verteilungen: nini xixi linksschief nini xixi symmetrisch nini xixi rechtsschief schiefe(x) = -0.71schiefe(x) = 0schiefe(x) = 0.71 Schiefe der Verteilung Schiefemaß Bei symmetrischer Verteilung ist diese Differenz 0 und bei rechtsschiefer Verteilung positiv. Die Division durch die Standardabweichung normiert den Schiefekoeffizient (siehe MOOD et al. 1974, S. 76) linksschief symmetrischrechtsschief Median arithm. Mittel * * * * * Anteil * -

17 h-Spread *1.5 Alter Oberer innerer Zaun Oberer äußerer Zaun Unterer äußerer Zaun Unterer innerer Zaun h-Spread Box-Plot Ad-Hoc-Beispiel mit n=11. Alters-Werte sortiert: 7, 18, 23, 24, 24.5, 25, 27, 28, 29, 32, 38. Median = 25. h u = 23.5; h o =28.5; h-Spread= h o - h u =5. Box-Plot (bzw. Box-and-Whisker Plot) Median Unterer Hinge h u Oberer Hinge h o Whisker Hinges mit einer Box (daher Box-Plot) verbinden Median als Querstrich eintragen. Nun kann das Feld durch Zäune (engl. Fences) abgesteckt werden. Der obere innere Zaun liegt 1.5* h-Spread über dem oberen Hinge. Der untere innere Zaun liegt 1.5* h-Spread unter dem unteren Hinge. Bereiche: Innere Zäune = 16 bis 36. Äußere Zäune= 8.5 bis 43.5 Der obere äußere Zaun liegt 3* h-Spread über dem oberen Hinge. Der untere äußere Zaun liegt 3* h-Spread unter dem unteren Hinge. Whisker Extremwerte-Markierung (Outlier, Ausreißer) Jeder Wert außerhalb der äußeren Zäune wird durch einen fetten Punkt markiert. Jeder Wert zwischen dem innere Zaun und äußerem Zaun wird durch einen Stern markiert. Festlegung der (=Schnurrbart). Whiskers Das sind die Linien (nach oben bzw. unten) bis zum extremsten Wert, der noch innerhalb des inneren Zauns liegt. Die Zäune gehören nicht zum Boxplot. Hinges ebenfalls eintragen.

18 Streuungsmaße für qualitative Merkmale Alle bisher behandelten Streuungsmaße bauen auf der Breite der Verteilung auf. Das setzt für das Merkmal Intervallskalenniveau voraus. Für ein qualitatives Merkmal kann untersucht werden, inwiefern die Anteilsmasse auf eine einzige Ausprägung bzw. einige wenige Ausprägungen konzentriert ist (geringe Streuung), oder auf mehrere Ausprägungen eher gleichmäßig verteilt ist (große Streuung). md = = qv = = = qv = = = h(x) = nits h(x) b =h(x) / ln(2)= h(x) 1.12 h(x) = nits h(x) b = h(x) 1.58 Modaldispersion: md Der Anteil der Werte, die nicht in der Modal-Ausprägung liegen. Die Anteile sind Daher md = = Der größte Anteil ist Modaldispersion Qualitative Varianz: qv Hier werden alle Anteile (quadratisch) berücksichtigt. Qualitative Varianz Entropie: h Potentiell minimale mittlere Länge von Informationen in Bits (bzw. Nits), wenn alle Teilinformationen (Ausprägungen des Merkmals) optimal codiert werden. (bzw. mittlere Entropie) Zur Entwicklung optimaler Codes im Sinne der Informationstheorie, später! Entropie(in bits) Entropie(in nits) Anteilsmasse konzentriert sich stark auf die Ausprägungledig. Anteilsmasse ist eher gleichmäßig auf die Ausprägungen aufgeteilt. (große Streuung)(geringe Streuung) Familienstand verlobtlediggetrennt Anteil Familienstand verlobtlediggetrennt Anteil

19 Die Entwicklung optimaler Binärcodes entspricht dem Finden einer optimalen Fragestrategie bei Unsicherheit, wobei jede Antwort nur binär (etwa: nein/ja; bzw. 0/1) sein darf. Beispiel: Anne und Bert spielen Felderraten auf dem PC. Der PC wählt zufällig (jedes Feld mit gleicher Chance) ein bestimmtes Feld auf einem Schachbrett. Anne soll erraten, welches Feld ausgewählt ist. Der PC antwortet auf Annes Fragen jeweils mit nein bzw. ja oder 0 bzw. 1. Bert macht das auch. Beide wiederholen das Spiel öfters. Gewinner ist, wer pro Spiel am wenigsten Fragen braucht. Welches ist hier die optimale Fragestrategie? z.B. für Suche von C8 1. Feld oberhalb der Mitte? Feld links der Mitte? Liegt es in Zeile A bzw. B? In Spalte 5 bzw. 6? In der Zeile C? Ist es in Spalte 7? 0. Antwortfolge: Daher muss es Feld C8 sein. Wie viele Fragen dieser Art sind nötig? 6. Mit 6 Fragen kann jedes der 64 Felder eindeutig identifiziert werden. Die 64 Felder entsprechen den Ausprägungen. Jede Frage kann 2 mögliche Antworten haben. Daher insgesamt 2 6 = 64 mögliche Antwortsequenzen. Bei I Ausprägungen sind ld(I) Fragen bei optimaler Fragestrategie erforderlich, wenn die Chancen aller Ausprägungen gleich sind. Es gilt auch: ld(I) = -ld(1/I) Der Logarithmus von 64 zur Basis 2 löst die Aufgabe: 2 hoch x = 64. D.h. x = ld(64) = 6. Umgeformt: 6 = - ld(1/64). Bei ungleichen Anteilen sind andere Fragestrategien besser. z.B. Falls der PC fast immer das Feld C8 wählt, ist es wohl optimaler, zuerst zu fragen: Ist es Feld C8? Die optimale Strategie wird auf Grund der Anteile entwickelt. Nach Ausprägungen mit großem Anteil wird zuerst gefragt. Überlegungen zur Entwicklung optimaler Binär-Codes A B C D E G F H *

20 Die optimale Strategie wird auf Grund der Anteile entwickelt. Zuerst nach Ausprägungen mit dem größten Anteil fragen; danach die seltenen Fälle abklappern! Bei passenden Anteilen gilt: Fragenanzahl = ld(1/p i ) = -ld(p i ) 4-Buchstaben-Beispiel: Buchstaben A, B, C, D erraten. Anne weiß aus Erfahrung, dass der PC A in ½, B in ¼, C in 1/8 und D in 1/8 der Fälle auswählt. Welche optimale Fragestrategie soll sie wählen? Vorschlag: Zuerst nach A fragen., weil der Anteil mit ½ am größten ist (Die Chance, nach der ersten Frage fertig zu sein ist groß). Falls nein nach B fragen (wegen ¼ Chance). Falls nein, nach C fragen. C Fragestrategie in Form eines Flussdiagramms 0 1 A?A? 0 1 C?C? 0 1 B?B? BA D Für das Erraten von:ABCD benötigte Fragenanzahl1233 Anteil½ ¼1/8 Überlegungen zur Entwicklung optimaler Binär-Codes, Forts. Das Spiel werde nun sehr oft wiederholt. Mit Hilfe der Anteile als Gewichte kann nun die durchschnittlich benötigte Fragenlänge berechnet werden : ½ mal 1, ¼ mal 2, 1/8 mal 3 1/8 mal 3. Durchschnittlich benötigte Anzahl optimaler Entropie(in bits) = )p(ldp:)x(h i I 1i ib Fragen Als gewichtetes arithmetische Mittel: ½ * 1 + ¼ * 2 + 1/8* 3 + 1/8*3 = 14 / 8 kann dann so ausgedrückt werden: - (½ * ld(½ ) + ¼ *ld(¼) + 1/8 *ld(1/8) + 1/8 *ld(1/8)) Übersetzen des Fragespiels in die Übermittlung von Nachrichten. Der Binärcode für alle Ausprägungen eines Merkmals (ein Alphabet, die Bezeichnung der 64 Schachfelder, die 4 Ausprägungen A B C D) optimal aufgebaut werden, damit zur Übertragung von Nachrichten (mit dem betrachteten Alphabet) möglichst wenig binäre Zeichen notwendig sind. Eine Antwortsequenz entspricht einem Binärcode, die Länge des Binärcodes (gemessen in bit) der Fragenanzahl. Die Antwortsequenz für eine einzelne Ausprägung entspricht dem Binärcode der Ausprägung (z.B für C8 innerhalb des Schachalphabets, im 4-Buchstaben-Beispiel 1 für A, 01 für B, 001 für C und 000 für D). Übertragen vieler gleicher Ausprägungen in einer Nachricht als Packet. Wenn in Nachrichten oft mehrere gleiche Ausprägungen hintereinander übertragen werden müssen, kann ein Wiederholungsmodus (eine zahlenmäßige Information derart, dass z.B.100 gleiche Zeichen folgen usw.) eingebaut werden. So kann die (potentiell minimale) durchschnittliche Informationslänge auch kleiner als 1 Bit werden. Das Übertragen von Nachrichten ist kein kompetitives, sondern ein kooperatives Spiel. Erwartete Fragelänge(in bits) p i I 1i i Fragenanzahl Für das Erraten von:ABCD benötigte Fragenanzahl1233 Anteil½ ¼1/8 1/Anteil2488 ld(1/Anteil)1233 Das gewichtete arithmetische Mittel: ½ * 1 + ¼ * 2 + 1/8 * 3 + 1/8 * 3. Optimal?

21 x F(x) f(x) Anteilsverteilung oioi uiui Klassen Grenzen Klassen Index i Anteil p i Klassen Mitte x i Sortierte Liste Index Wert (i)x (i) (1)21 (2)21 (3)21 (4)21 (5)21 (6)21 (7)22 (8)22 (9)22 (10)22 (11)23 (12)23 (13)24 (14)24 (15)24 (16)30 Rest

22 f(x) Das Verhältnis der Flächen ist gleich dem Verhältnis der Längen: p m / q m b m / s Daher:. / p m q m b m s f(x) u(F m ) q x ~ u m s

23 x ~ ¼ x ~ ¼ Gesucht:, daher ist q = Index m = 3. Erst hier ist F(o 3 ) > u 3 = 500. F(u 3 ) = F(500) = Daher ist das 1. Quartil = ( )500/ 0.20 = x x F(x) Begründung der Formel für das Quantil q = Für q muss festgestellt werden, welche Gerade benötigt wird. b )bu)u(F q (x ~ 1 mmq b/)aq(x ~ x ~ baq qq a und b kann durch Einsetzen der Punkte in die Gleichung berechnet werden., m m bu )u(F a uo )u(F)o(F b mm mm Weiteres Umformen und Einsetzen von a und b liefert die Formel: mmq ))u(Fq(ux ~ )u(F)u(F uo mm mm Jeder Klasse entspricht eine Gerade. Die Geradengleichung allgemein ist: y = a + bx. Die Gerade geht durch die Punkte und. )(,u m ) u ( F m )(,o m ) o ( F m q x ~ Nun wird der Punkt in die Gleichung eingesetzt. ~ )q,x( q ~ x ~ x e 200 e f(x)

24 für Verteilung: Quadratsummen Varianz n 1i 2 iy ) y y(:sq 1n :Var(y) y

25 Zuerst noch Hilfsebene einfügen A B C D E G F H a b c Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet. Pythagoras Berechnung der Distanz: wiederholte Anwendung des Pythagoras Satzes.

26 Andere Mittelwerte, Geometrisches Mittel Das geometrische Mittel ist die n-te Wurzel aus dem Produkt aller Werte. Für Urliste: Beispiel (Eine Firma habe seit 4 Jahren des Bestehens folgende Gewinne: 200, 400, 300, 300). Der Wachstumsfaktor des Gewinns ist hier das Verhältnis des jeweiligen Gewinns zum Vorjahresgewinn. Das ergibt 3 Wachstumsfaktoren: x 1 = 400/200 =2, x 2 =0.75, x 3 = (etwas anders formuliert: das ist ein durchschnittliches Wachstum von 14 %). An die Stelle des Addierens tritt das Multiplizieren. Statt durch n zu divi- dieren, wird die n-te Wurzel gezogen. Das arithmetische Mittel der logarithmierten Werte ist der Logarithmus des geometrischen Mittels. Auf beiden Seiten Logarithmieren liefert: Die Formel gilt für jede Art von Logarithmus, hier wird der zur Basis e verwendet (natürlicher Logarithmus): Aus dem Logarithmus einer Zahl kann mit Hilfe des Potenzierens der Basis die Zahl selbst berechnet werden: 1.14 Das arithm. Mittel der Wachstumsfaktoren = 1.25 (=25% Wachstum; etwas größer). Wendet man dies als durchschnittliches Wachstum über die Jahre an wie vorher, erhält man: 200*1.25*1.25*1.25 = (Wohl etwas zu optimistisch). Bei Wachstumsfaktoren liefert das geometrische Mittel die adäquate Berechnung des Endwerts aus dem Anfangswert. Das Merkmal muss mindestens Verhältnisskalenniveau haben. Die Werte sollten positiv sein. Generell ist das geometrische Mittel ist kleiner (bzw. gleich) als das arithmetische. Wenn über Wachstumsfaktoren gemittelt wird, sollte statt des arithmetischen auf jeden Fall das geometrische Mittel verwendet werden. Voraussetzungen und Eigenschaften des geometrischen Mittels Wendet man den durchschnittlichen Wachstumsfaktor pro Jahr seit Beginn an: 200*1.14*1.14*1.14 =300. Der tatsächliche Gewinn am Ende kann damit vom Anfang her mit Hilfe des durchschnittlichen Wachstums berechnet werden.

27 Beispiel: Logit für den männlich-Anteil logit(14/16) =ln(7) = Der Logit für den weiblich- Anteil logit(14/16)=ln(1/7) = Beispiel: Bei Sex unter den ersten 16 ist der männlich-Anteil =14/16, der weiblich-Anteil=2/16. Als Verhältnis 14 : 2 bzw. 7:1 mit weiblich als Referenzkategorie. bzw. (1/7) : 1 mitmännlich als Referenzkategorie bzw : 1 Als Darstellung interessiert das Verhältnis der Anteile (Häufigkeiten) zueinander bzw. zu einer Referenz- Ausprägung. (engl. Odds), beim Wetten als Angabe zur Charakterisierung der Chancen Verhältnisangaben Verteilungscharakterisierung durch Funktionen der Anteile Odds odds j (p i ) := p i : p j = p i /p j mit j als Index für die Referenzausprägung Der Logit ist der natürliche Logarithmus der Odds. Logit. Die Verhältnisse werden logarithmiert; so werden die multiplikativen Verhältnisangaben additiv. Logits Logit j (p i ) := ln( p i /p j ) = ln(p i )-ln(p j ). mit j als Index für die Referenzausprägung Durch das Logarithmieren erhält man bei zwei Ausprägungen den gleichen Wert (einmal positiv, einmal negativ). Die Wahl der Referenzausprägung ist dadurch nicht mehr so wichtig. Bei den Odds versucht man, die Referenzausprägung so zu wählen, dass möglichst als Verhältnis Werte größer als 1 resultieren (bei Odds für Teilgruppen schwer realisierbar). Beispiel: Nach M ENDEL sollten 4 Erbsensorten bei einem Kreuzungsexperiment im Verhältnis 9 : 3 : 3 : 1 stehen (Angaben als Odds). Die Häufigkeiten beim M ENDEL schen Experiment waren: 315, 108, 101, 32. Mit der 4. Ausprägung als Referenz- kategorie lauten die realisierten Odds: 9.8 : : : 1


Herunterladen ppt "Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung)"

Ähnliche Präsentationen


Google-Anzeigen