Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Qualitative Charakterisierung von Verteilungen.

Ähnliche Präsentationen


Präsentation zum Thema: "Qualitative Charakterisierung von Verteilungen."—  Präsentation transkript:

1 Qualitative Charakterisierung von Verteilungen.
Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung) könnten ganz weit links LIEGEN (Werte sehr klein) oder weit rechts sein. Was heißt nun aber: die Werte? Ist damit gemeint: der Großteil der Werte, die ‚mittleren’ Werte? Der kleinste ( bzw. der größte)? die 10% kleinsten? usw. Dispersion der Verteilung. Konzentration auf wenige Punkte bzw. engen Bereich versus auf viele verschiedene Punkte bzw. weiten Bereich. Das entspricht bei Intervallskalen der Breite der Verteilung (auch Streuung genannt ): Die Werte könnten ganz eng beieinander liegen oder aber weit gestreut. Auch hier: welche Werte? Alle? Ein Großteil? Der kleinste und größte? Die 10% kleinsten im Vergleich zu den 10% größten? usw. Schiefe der Verteilung: Manche Verteilungen sind mehr oder weniger symmetrisch, andere könnten als schief bezeichnet werden (linksschief bzw. rechtsschief). Kurtizität (Kurvigkeit, Wölbung) der Verteilung. Manche Verteilungen haben einen spitzen bzw. glatten Gipfel (leptokurtisch bzw. platykurtisch). Die Idealfigur ist die Normalverteilung. ideal glatte bzw. zerklüftete Verteilungen.

2 Quantitative Charakterisierung, Lage: Min, Max, Mode
Index Wert x(i) 21 22 23 24 30 Sortierte Liste Lagemaßzahl Beispiele: Minimum bzw. Maximum min(x)= x(1), max(x)= x(n). Mit x(1) und x(n) aus der sortierten Liste min(Alter) = 21 = x(1) max(Alter) = 30 = x(16) Modalwert (engl. Mode): mode(x) Der Modalwert ist der x-Wert mit größter Dichte. mode(Alter)= 21. Denn f(x) ist bei 21 am größten Für den Modalwert gilt: f(mode(x)) = max (f(x)) x mode(Familienstand) = 0 (=ledig). Denn f(x) ist bei ‚ledig‘ am größten: 11/16. mode(IQ) = 100. Denn f(x) ist bei 100 am größten. Problem: Es kann auch mehrere Modalwerte geben (bimodale oder sogar multimodale Verteilungen) Zwei Lösungsstrategien: Dichtefunktion f(x), x=Alter 18 20 22 24 26 28 30 x 0.1 0.2 0.3 0.4 Streifendiagramm, vertikal ledig verlobt getrennt 0.8 0.6 0.4 0.2 Anteil mode(Einkommen) = Intervall von 0 bis 100. f(x) 1000 2000 3000 4000 5000 Modalwertmenge berichten. Eindeutigkeitsstrategie: bzw. mode(Einkommen) = Intervallmittel = 50 Bei Intervallen das Intervallmittel berechnen. Sonst: Modalwert nur für unimodale Verteilungen als sinnvoll. f(IQ) IQ Normalverteilung für den IQ

3 Quantitative Charakterisierung, Lage: Median und Co.
Lagemaßzahl f(x) x 18 20 22 24 26 28 30 0.1 0.2 0.3 0.4 Median (‚mittlerer Wert‘): med(x) ist der x-Wert, der die Verteilung in zwei Hälften teilt. Der Median med(x) ist hier = 100. 21 22 23 24 30 xi Wert Anteilsverteilung 0.375 0.125 0.1875 0.0625 p(xi) Anteil i Index 1 2 3 4 5 Für diskrete Verteilungen präziser: med(x) ist der x-Wert, für den die beiden Forderungen gelten: 1. mindestens die Hälfte aller Werte ist kleiner gleich med(x) 2. mindestens die Hälfte aller Werte ist größer gleich med(x) Der Median med(x) ist hier = 22 Diese Idee kann auch auf andere Quantelungen ausgedehnt werden: Einteilung in 3 Teile, 4 Teile usw. Terzile sind die beiden x-Werte, die die Verteilung in drei Drittel teilt: 1. Terzil und 2. Terzil. Quartile sind die 3 x-Werte, die die Verteilung in 4 Viertel teilt: 1. Quartil und 2. Quartil (= Median) und 3. Quartil. Darüber hinaus gibt es: Quintile (5 Teile), Sextile (6 Teile), Septile (7 Teile), Oktile (8 Teile), Dezile (10 Teile) usw. Perzentile heißen die 99 Werte, die eine Quantelung in 100 Teile ermöglichen: 1. Perzentil, 2. Perzentil usw. Quantile: Diese ‚-ile‘ können unter dem Begriff Quantil zu bestimmten Quanten (= q) zusammengefasst werden. Beispiel: Das 1. Terzil ist das Quantil zum Quantum 1/3. Das 2. Terzil ist das Quantil zum Quantum 2/3. Beispiel: Das 1. Quartil ist das Quantil zum Quantum 1/4. Das 3. Quartil ist das Quantil zum Quantum 3/4.

4 Quantile Bei diskreten Verteilungen Sortierte Liste Sortierte Liste
f(x) x Quantile 18 20 22 24 26 28 30 x 0.1 0.2 0.3 0.4 f(x) Bis zu welchem x-Wert liegt ein gegebenes Quantum q (=Anteil) aller Werte? q = ¾ Quantile zu Dieser x-Wert heißt Quantil zum Quantum q: Problem der Nichteindeutigkeit des Quantils wird nur durch die Konvention der Mittelwertbildung gelöst. Index Wert x(i) 21 22 23 24 30 Sortierte Liste Bei diskreten Verteilungen Index Wert x(i) 21 22 23 24 30 Sortierte Liste Auf Grund der sortierten Liste das Quantil berechnen: nein Berechne z:= n*q Ist z eine ganze Zahl? ja ( ) 1 ] z [ q x : + = 2 z +1 ~ Für diskrete Verteilungen muss diese Definition präzisiert werden: für gelten die beiden Forderungen: 1.   mindestens q aller Werte ist kleiner gleich , 2. mindestens (1-q) aller Werte ist größer gleich Gesucht: Das Quantum q=1/3, n=16. z:=16*(1/3) = z ist keine ganze Zahl; daher muss [z]+1 berechnet werden: [5.3333]+1 = 6. Das Quantil ist daher das 6. aus der sortierten Liste: x(6) = 21. Gesucht: Das Quantum q= ¾, n=16. z:=16*(¾) = 12. z ist eine ganze Zahl. Daher ist das Quantil =: (x(12) + x(13) )/2 = (23+24)/2 = 23.5. [z] Die eckigen Klammern um die Zahl z bedeuten, dass die Dezimalstellen abgeschnitten werden sollen (diese Dezimalstellenabschneideregel heißt auch Floor-Function). Beispiele: [5.13] = 5, [2.4711] = 2, [ ] = 0 18 20 22 24 26 28 30 x 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1.0 F(x) Verteilungsfunktion für Alter Die beiden Forderungen, mit der Verteilungs- und Dichte-funktion formuliert, lauten: q  F( ) und F( )  f ( )  q So kann das Quantil auch mit Hilfe der Verteilungsfunktion graphisch bestimmt werden: Starten von der Ordinate bei q. q = ¾ An der Stelle, wo man auf die Funktion F(x) stößt, ist auf der x-Achse (Abszisse) das Quantil zum Quantum q ablesbar. q = 0.5 q =1/3 d.h liegt dort auf der x-Achse, wo F(x) erstmals q überschreitet bzw. erreicht.

5 Quantile bei stetigen Verteilungen
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 x 1000 2000 3000 4000 5000 F(x) Für stetige Verteilungen können Quantile einfacher definiert werden als für die diskreten. ist der x-Wert, für den gilt: x ~ q q = F( ) . Graphisches Verfahren: Starten von der Ordinate bei q. q = 0.80 An der Stelle, wo man auf die Funktion F(x) stößt, ist auf der x-Achse (Abszisse) das Quantil zum Quantum q ablesbar. q = ½ 1333 q = ¼ 625 Berechnen für gruppierte Daten Die in Klassen gruppierten Messwerte seien pro Klasse gleichverteilt im Intervall [ui,oi). Zudem sei der kumulierte Anteil in jeder Klasse F(oi) bekannt. Dann kann das Quantil wie folgt berechnet werden. x ~ 0.7 Gesucht: , daher ist q = 0.7. Index m = 4. Hier erreicht F(o4) nun 0.7; F(o4) = o4= u5= Daher ist das Quantil = ( )/2 = 2000. F(om) In der Anteilsverteilung den Index m finden, für den F(om) erstmals q überschreitet (F(om) > q) bzw. erreicht (F(om) = q). > q : = q x ~ 1 2 m u o + ) ( F b )) - = q Gesucht: , daher ist q = Index m = 5. Erst hier ist F(o5) > u5= F(u5) = F(2000) = Daher ist das Quantil = ( )3000/ 0.30 = 3000. x ~ .8 x ~ Gesucht: , daher ist q = Index m = 4. Erst hier ist F(o4) > u4= F(u4) = F(1000) = Daher ist der Median = ( )1000/ 0.30 = x ~ Gesucht: , daher ist q = Index m = 3. Erst hier ist F(o3) > u3= F(u3) = F(500) = Daher ist das 1. Quartil = ( )500/ 0.20 = 625. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1000 2000 3000 4000 5000 F(x) Begründung der Formel für das Quantil x ~ Gesucht: , daher ist q = Index m = 3. Erst hier ist F(o3) > u3= F(u3) = F(500) = Daher ist das 1. Quartil = ( )500/ 0.20 = 625. Jeder Klasse entspricht eine Gerade. q = Für q muss festgestellt werden, welche Gerade benötigt wird. Die Geradengleichung allgemein ist: y = a + bx. Die Gerade geht durch die Punkte und ) ( , u m F o Kumulierte Anteilsverteilung oi 100 500 1000 2000 5000 ui Klassen Grenzen 1 2 3 4 5 Klassen Index i 0.10 0.20 0.40 0.70 1.00 Kum. Anteil F(oi) 400 3000 Klassen Breite bi q x ~ Nun wird der Punkt in die Gleichung eingesetzt. ) , ( a und b kann durch Einsetzen der Punkte in die Gleichung berechnet werden. , m bu ) u ( F a - = o b b / ) a q ( x ~ - = Þ + b ) bu u ( F q x ~ 1 m + - = Weiteres Umformen und Einsetzen von a und b liefert die Formel: m q )) u ( F x ~ ) o - + =

6 Median, Hinges und Eighths aus der EDA.
Beispiel: 9 sortierte Werte 7, 18, 23, 24, Man denke sich die UEen als Perlen, die auf eine Schnur aufgezogen sind. Hält man die Schnur an beiden Enden fest, fällt die Schnur so, dass unten die Medianperle hängt. Der Median ist dann 25. In der EDA (TUKEY, 1977 Exploratory Data Analysis) wurden innovativ ‚anschauliche‘ Begriffe und Konzepte eingeführt, die denen der ‚klassischen‘ Statistik ähnlich sind, aber etwas anders definiert sind. So entsprechen die ‚Hinges‘ (=Falten) fast dem 1. und 3. Quartil, die ‚Eighths‘ fast dem 1. und 7. Oktil, aber nicht bei jedem n. 1 29 2 28 3 27 5 25 4 26 7 18 23 24 4 26 5 25 24 Berechnungsmethode Zuerst wird die Tiefe für die Größen berechnet; das ist die Position in der sortierten Liste von vorne bzw. von hinten. Hinges ho hu 5 25 Durch Hochziehen der Medianperle entstehen Falten, bei der 3. Perle (von vorn bzw. hinten): die beiden Werte 23 und 27 sind die Hinges Tiefe(Median)=(n+1)/2. Tiefe(Hinges)=([Tiefe(Median)]+1)/2. Tiefe(Eighths)=([Tiefe(Hinges)]+1)/2. Beispiel: 10 Werte, zusätzlich 32. Hochziehen in der Mitte. Mittel der beiden: = Median Der Median(x) = x(Tiefe(Median)) , falls Tiefe(Median) eine ganze Zahl ist, sonst ist der Median das Mittel der beiden Werte, zwischen denen die Dezimalzahl liegt. 5 25 4 24 26 27 5 25 4 24 3 23 2 18 1 7 26 27 29 28 32 5 25 4 24 26 27 Entsprechend erfolgt die Berechnung der beiden Hinges (hu, ho) und der beiden Eighths(eu, eo). 3 23 28 5 25 4 24 26 27 Hinges ho hu Beispiel: 11 Werte, zusätzlich 38. Hochziehen der Medianperle. Beispiel (9 Werte). Tiefe(Median)=(9+1)/2 = 5. Tiefe(Hinges)=([5]+1)/2 = Tiefe(Eighths)=([3]+1)/2 = 2. Median(x) = 25. hu = 23 (3. von vorne), ho = 27 (3. von hinten), eu = 18 (2. von vorne), eo = 28 (2. von hinten). 5 25 6 26 4 24 3 23 2 18 1 7 27 28 32 29 38 4 28 5 27 25 24 6 26 5 27 6 26 25 Mittel der beiden: 23.5 Mittel der beiden: 28.5 Hinges Beispiel (10 Werte). Tiefe(Median)=(10+1)/2 = Tiefe(Hinges)=([5.5]+1)/2 = Tiefe(Eighths)=([3]+1)/2 = 2. Median(x) = (25+26)/2. hu = 23 (3. von vorne), ho = 28 (3. von hinten), eu = 18 (2. von vorne), eo = 29 (2. von hinten). ho hu 6 26 Beispiel (11 Werte). Tiefe(Median)=(11+1)/2 = 6. Tiefe(Hinges)=([6]+1)/2 = Tiefe(Eighths)=([3.5]+1)/2 = (3+1)/2 = 2. Median(x) = 26. hu = 23.5 (Mittel des 3. und 4. von vorne), ho = 28.5 (Mittel des 3. und 4. von hinten), eu = 18 (2. von vorne), eo = 32 (2. von hinten). Der Prozess des Faltens könnte weiter fortgesetzt werden, indem die Hinges selbst hochgezogen werden. Das führt dann zu einer Art Achtelung der Perlenkette. Usw.

7 Lagemaß Arithmetisches Mittel
Das arithmetische Mittel (engl. Mean) wird auch als Mittel, Durchschnitt oder Schwerpunkt (engl. Centroid) bezeichnet bzw. etwas unpräzis einfach als der Mittelwert. Arithmetisches Mittel des Alters (aus Urliste) = ( ) / 16 = 362 / 16 = n=16, es wird über 16 Werte gemittelt (ungewichtet). Für Urliste: å = I 1 i n x p Für Verteilung: Arithmetisches Mittel des Alters (aus Verteilung) mit Anteilen (I=5): = Mittel über 5 Werte (mit Anteilen als Gewichten). Die Schwerpunkt-Eigenschaft bedeutet, dass die Summe der Differenzen zum Mittel 0 ist, was auch mit Hilfe einer Dezimalwaage demonstriert werden kann. Die Summe der Differenzen zum Mittelwert ist 0: Beachte: Der Waagebalken habe kein Eigengewicht 22.625 _ X 21 22 27 24 25 26 23 28 29 30 Bei den Werten des Balken wird pro UE ein Gewicht gehängt. Balance ist beim Mittelwert als Haltepunkt gegeben. ist translationsäquivariant bei linearen Transformationen: y = a + b x. Für jeden der n x-Werte werden die y-Werte gebildet: Den y-Mittelwert erhält man aus mit der gleichen Transformation. i bx a y + = Beispiel(4 x-Werte 0, 1, 2, 3): ist 1.5. Alle Werte werden linear via y = x (96 ist a, 100 ist b) transformiert: Die y-Werte sind 96, 196, 296, 396. Wie groß ist der Mittelwert? x b a y + = D. h.: Werden alle einzelnen Werte linear transformiert, gilt dies auch für das arithm. Mittel: Statt nochmals neu den Mittelwert zu berechnen, kann der Mittelwert ebenfalls nach der Transformation berechnet werden: *1.5 = 246. Beweis: Beispiel: Währungsumrechnungen sind lineare Transformationen mit a=0. Ist der Mittelwert in einer Währung bekannt, kann er direkt in eine andere Währung umgerechnet werden (ohne Kenntnis der Einzelwerte).

8 Entscheidungshilfe: Arithmetisches Mittel oder Median
Das Mindestskalenniveau für das arithmetische Mittel ist das Intervallskalenniveau, für den Median reicht das Ordinalskalenniveau. Das arithmetische Mittel reagiert sensibel auf extreme Messwerte (Ausreißer), nicht aber der Median. Beispiel: 2 Einkommenslisten, unterscheiden sich in nur einem Wert 100 Median Mittel 120 300 1000 500 Ohne Großverdiener: 100, 100, 100, 100, 200 Mit Großverdiener: 100, 100, 100, 100, 1100 Das arithm. Mittel eignet sich nicht als Indikator dafür, wie es den ‚meisten‘ Leuten geht. Der Median reagiert sensibler auf interne Veränderungen als das arithmetische Mittel. Beispiel: Zuerst haben 5 Leute das gleiche Vermögen, dann nimmt einer jedem 100 weg. 200 Median 100 Mittel 200 1000 500 Vor Putsch: 200, 200, 200, 200, 200 Nach Putsch: 100, 100, 100, 100, 600 Das arithm. Mittel bemerkt den ‚Putsch‘ nicht, der Median schon.

9 Arithmetisches Mittel (stetige Verteilung)
Spezialfall: Berechnen für gruppierte Daten Anteilsverteilung oi 100 500 1000 2000 5000 ui Klassen Grenzen 1 2 3 4 5 Klassen Index i 0.10 0.20 0.30 Anteil pi Für gruppierte Daten kann die übliche Formel für den Mittelwert verwendet werden mit den Klassenmitten als x-Werten. Berechnen der Klassenmitten: 50 300 750 1500 3500 Klassen Mitte xi 5 30 150 450 1050 Produkt pi xi å = I 1 i n x p Für Verteilung: Arithmetisches Mittel des Einkommens = 1685 = x Allgemeiner Fall Der Mittelwert ist im stetigen Fall das Integral des Produktes der x-Werte mit der Dichtefunktion. ArithmetischesMittel: f(x) ist die Dichtefunktion der Verteilung für x f(x) Mittel = Für eine Einteilung des Bereichs von a bis b in mehrere gleich breite (= x) Intervalle seien jeweils die Klassenmitten die x-Werte aus dem Bereich Das arithmetische Mittel kann dann nach der üblichen Formel berechnet werden: Erläuterung x Einteilung kann feiner gemacht werden, bis x mickrig klein ist: dx Beispiel: Gleichverteilung f(x) = 1/(b-a), in x (a,b). Das unbestimmte Integral ist ) a b ( dx x 2 1 + = - ò hier , das bestimmte Der Mittelwert der Gleichverteilung ist daher die Mitte des Definitions-Intervalls. Beispiel: Normalverteilung. Das Integral für das arithmetische Mittel ist immer der Symmetriepunkt. Im vorliegenden Fall also: 100.

10 Andere Mittelwerte: q-getrimmtes und q-winsorisiertes Mittel
Diese Mittelwertbildungen soll die Anfälligkeit des arithmetischen Mittels für Ausreißer abschwächen. q ist der Anteil der fraglichen Ausreißer im oberen bzw. unteren Bereich und muss vorgängig festgelegt werden. q-getrimmtes Mittel. Beim getrimmten Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte eliminiert. Sortierte Liste Index Wert x(i) 21 22 23 24 30 Für sortierte Liste: Berechne z:= n*q. Beispiel: q-getrimmtes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6. [z]= 1 (Dezimalstellen abgeschnitten). Daher sollen die alle Werte zwischen dem [z]. d.h. dem 1. und dem n-[z]+1. d.h. dem = 16. Die Werte zwischen dem 1. und 16. sind die Werte vom 2. bis zum 15. Wähle die Werte zwischen dem [z]. und dem (n-[z]+1). aus: x([z]+1) ,..., x(n-[z]) 21 Das arithm. Mittel der restlichen Werte heißt das q-getrimmte Mittel. Der Mittelwert über die verbleibenden Werte ist das q-getrimmte Mittel = Berechne den Mittelwert der ausgewählten Werte q-winsorisiertes Mittel. Bei diesem Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte durch weniger extreme ersetzt. Für sortierte Liste: Wie oben z:= n*q. Beispiel: q-winsorisiertes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6. [z]= 1 (Dezimalstellen abgeschnitten). Ersetze den 1. bis zum [z]. durch den [z]+1. Wert. Der 1. bis 1. Wert soll durch den 2. ersetzt werden. 24 Die Werte vom 16. bis zum 16. Sollen durch den 15. ersetzt werden. Ersetze den (n-[z]+1). bis zum n. durch den (n-[z]). Das arithm. Mittel der so modifizierten Werte ist das q-winsorisierte Mittel. Der Mittelwert über die modifizierten Werte ist das q-winsorisierte Mittel = Berechne den Mittelwert dieser modifizierten Werte

11 Quantitative Charakterisierung, Streuung
20 30 40 10 15 25 35 5 h ~ x 0.75 0.25 e EDA Beispiel Streuungsmessung mit Hilfe der Differenz zweier markanter Lagemaßzahlen Streuungsmaßzahl Beispiele: sp(Alter) = = 9. sp(x) := Max(x) –Min(x) Spannweite (engl. range) :=Maximum-Minimum. Sehr ‚sensibel‘ für einzelne Extremwerte. Für manche Verteilungen unbrauchbar! Quantilabstand Differenz zwischen symmetrischen Quantilen für ein gegebenes Quantum q x ~ d q 1 : - = Für q = 0.25 ist d der Quartilabstand; für q = 0.10 ist d der Dezilabstand. Für Alter: = = 2.5. ~ x 0.25 0.75 d : - = EDA-Beispiel = = 6. ~ x 0.25 0.75 d : - = Der halbe Quantilabstand heißt mittlerer Quantilabstand. H-Spread (Hingedifferenz) dh := ho – hu EDA-Beispiel: hu=23.5. ho=28.5. eu= 18. eo= 32. dh =5, E-Spread (Eighthsdifferenz) de := eo – eu de =14 ~ x 0.25 89.9 0.75 110.1 e 82.7 117.3 ~ x 0.75 23.5 e h 0.25 21 18 20 22 24 26 28 30 0.1 0.2 0.3 0.4 f(x) Alter h

12 Quantitative Charakterisierung, Streuung
Streuungsmessung mit Hilfe der Abweichungen aller Werte zu einer Lagemaßzahl Median Streuungsmaßzahl Beispiele: Urliste: ~ x 18 20 22 24 26 28 30 0.1 0.2 0.3 0.4 f(x) Mittlere Abweichung vom Median := arithmetisches Mittel der Distanzen aller Werte zum Median. Verteilung: 1.375 8 2 1 16 3 4 6 = + Bei der Erstellung der sortierten Liste der Abweichungen vom Median ist die Verteilung hilfreich, weil da schon gleiche Werte zusammengefasst sind. Median-Abweichung vom Median := Median der Distanzen aller Werte zum Median. engl. Median of Absolute Deviations = MAD. Urliste: ~ = |) x (| : 5 . i n , 1, Median MAD - L ~ x Erstellen einer sortierten Liste der Abweichungen vom Median: 4 Werte aus x=22. 0, 0, 0, 0 1, 1, 1, 1, 1, 1, 2, 2, 2, 8. 4 Werte aus x=21, 2 Werte aus x=23 3 Werte aus x=24. aus x=30. Erstellen einer sortierten Liste der Abweichungen vom Median. D.h. Für diese sortierte Liste den Median bestimmen. Für die sortierte Liste den Median bestimmen: Der Median bei n=16 ist der Mittelwert des 8. und 9. Werts in der sortierten Liste: (1+1)/2 = 1 = MAD.

13 Quantitative Charakterisierung, Streuung
Streuungsmessung mit Hilfe der Abweichungen aller Werte zum Lagemaß Arithm. Mittel für Verteilung: Quadratsummen für Urliste: 0.1 0.2 0.3 0.4 f(x) x _ =22.625 Varianz: Var(x) = arithmetisches Mittel der quadrierten Distanzen aller Werte zum arithmetischen Mittel der Werte. 18 20 22 24 26 28 30 x Standardabweichung: Std(x) := Wurzel aus der Varianz Varianz = 77.75 Für n* = n-1: Var(x) = / 15  5.18 Für n* = n : Var(x) = / 16  4.86 Andere Bezeichnungen der Varianz Var(x) Für die Stichprobe: oder (um an das Merkmal zu erinnern) oder (falls durch n dividiert wird) oder (falls durch n-1 dividiert wird). Für die Population: oder (um an das Merkmal zu erinnern). Wann: Nur in Stichproben, wenn das arithmetische Mittel auch auf Grund der Stichprobe berechnet wurde. In allen übrigen Fällen wird durch n dividiert. Wann und wozu durch n-1 dividieren? Wozu: Die Division durch n-1 in Stichproben wird durchgeführt, wenn die Varianz der Population durch die Varianz in der Stichprobe ‚erwartungstreu‘ geschätzt werden soll. Bei Division durch n bzw. in diskreten Populationsverteilungen kann die Varianz für die Verteilung etwas einfacher formuliert werden. für Verteilung: Bei Division durch n.

14 Varianz einer Linearkombination
Formeln zur Varianz Varianz einer Linearkombination. 4-Väter-Beispiel: 4 x-Werte Alter: 42, 44, 46, 52 Sei y= *x. a= b= 0.5. Alle x-Werte werden mit der Linearkombination y = a + bx. transformiert. Wie groß ist die Varianz der transformierten Werte? Var(a+bx)= b2*Var(x) Varianz einer Linearkombination 42 44 52 46 16 4 36 2 i ) x ( - Var(x) = 56 / 3 1 5 2 4 9 i ) y ( - Var(y) = 14 / 3 Dehnung (um b) wirkt sich quadratisch im quadratischen Konzept der Varianz aus. -21 + ½ x ‚Breite‘ bleibt gleich bei Verschiebung um a. (½)2 Verschiebungssatz. zur einfacheren Berechnung der Quadratsummen bei ‚krummen‘ Mittelwerten: Verschiebungssatz für sqx Beispiel: Alter, 16 Studenten. Mittelwert = Berechne zuerst Summe der quadrierten Werte: Danach 16*quadrierter Mw. berechnen Differenz: sqx = 8268 – =77.75 , wie vorher! Zuerst Summe der quadrierten Werte bilden. Erst danach den Mittelwert (quadriert und mit n multipliziert) subtrahieren. (Geschätzter) Standardfehler des arithmetischen Mittels Der Standardfehler ist die Standardabweichung der Verteilung aller denkbaren Mittelwerte, die man erhielte, wenn man etwa sehr viele Stichproben ziehen würde (jeweils mit gleichem n). Standardfehler des Altersmittelswerts bei einer Stichprobengröße von n=16 Std( ) = Std(x) / = Std(x) / 4. Standardfehler des arithmetischen Mittels Die Standardabweichung des arithm. Mittels ist kleiner als die der Werte selbst, und zwar um den Faktor Etwas exakter spricht man vom geschätztem Standardfehler, wenn die Std(x) selbst auf Grund der Stichprobe geschätzt wird.

15 Geometrische Interpretation der Varianz
4-Väter-Beispiel: y-Werte 0, 1, 2, 5 Im ‚Variablen-Raum‘ Die Werte werden zentriert (d.h. arithmetisches Mittel wird subtrahiert) und auf dem Zahlenstrahl abgetragen. Varianz als mittlere Fläche 14/3 = Var(y) 2 3 1 4 1 9 -2 -1 3 5 2 y i - ) ( _ Die Abweichungen vom Mittelwert werden quadriert und können als Flächen-Quadrate dargestellt werden. -2² -1² Var(y) = 14 / 3 = 4.66. 14 y - -2 1 -1 2 3 Std(y) = 2.1 å = - n 1 i 2 y ) ( : sq Var(y) 2 3 1 4 5 Im ‚Einheiten-Raum‘ Pro UE wird eine Achse verwendet. Bei n UEen ist daher ein n-dimensionaler Raum nötig. Für jeden Wert, der genau dem Mittel entspricht, kann die Dimension um 1 reduziert werden. 3 -3 y1 y2 y3 - y _ Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet. a b c Mit dem lila Dreieck kann e auf Grund von d und b berechnet werden: e2 = d2 + b2. e Zuerst noch eine Hilfsebene einfügen. d Mit dem braunen Dreieck kann d auf Grund von a und c berechnet werden: d2 = a2 + c2. Der Nullpunkt stellt den Mittelwert dar. Auf jeder Achse werden als Werte die Differenzen zum Mittelwert eingetragen. -2 -1 Berechnung der Distanz: wiederholte Anwendung des Pythagoras-Satzes: Das Ergebnis ist ein Datenpunkt für die gesamte Stichprobe. Der quadrierte Abstand vom Nullpunkt zum Datenpunkt ist genau die Summe der quadrierten Abweichungen vom Mittelwert = Var(y) * (n-1) Nun ist e schon die gesuchte Distanz, quadriert: e2 = d2 + b2 = a2 + c2 + b2.

16 Schiefe der Verteilung
Schiefemaß: schiefe(X) Beispiele für unterschiedliche Verteilungen: 1 3 6 2 ni xi linksschief symmetrisch rechtsschief Bei linksschiefen Verteilungen ist das arithmetische Mittel links(kleiner) vom Median. Daher ist dann die Differenz arithmetisches Mittel minus Median negativ. Schiefemaß Bei symmetrischer Verteilung ist diese Differenz 0 und bei rechtsschiefer Verteilung positiv. linksschief 2 1 0. 1 0. 6 0. 5 0. 4 0. 3 0. 2 symmetrisch rechtsschief Median arithm. Mittel * Anteil - Die Division durch die Standardabweichung normiert den Schiefekoeffizient (siehe MOOD et al. 1974, S. 76) schiefe(x) = -0.71 schiefe(x) = 0 schiefe(x) = 0.71

17 Box-Plot (bzw. Box-and-Whisker Plot)
Median als Querstrich eintragen. Ad-Hoc-Beispiel mit n=11. Alters-Werte sortiert: 7, 18, 23, 24, 24.5, 25, 27, 28, 29, 32, 38. Median = 25. hu= 23.5; ho=28.5; h-Spread= ho- hu=5. Hinges ebenfalls eintragen. Bereiche: Innere Zäune = 16 bis 36. Äußere Zäune= 8.5 bis 43.5 Hinges mit einer Box (daher Box-Plot) verbinden Oberer äußerer Zaun Nun kann das Feld durch Zäune (engl. Fences) abgesteckt werden. Der obere innere Zaun liegt 1.5* h-Spread über dem oberen Hinge. Der untere innere Zaun liegt 1.5* h-Spread unter dem unteren Hinge. Alter 20 30 40 10 15 25 35 5 Box-Plot h-Spread *1.5 Oberer innerer Zaun h-Spread *1.5 Der obere äußere Zaun liegt 3* h-Spread über dem oberen Hinge. Der untere äußere Zaun liegt 3* h-Spread unter dem unteren Hinge. Whisker Oberer Hinge ho Extremwerte-Markierung (Outlier, Ausreißer) Jeder Wert außerhalb der äußeren Zäune wird durch einen fetten Punkt markiert. h-Spread Median Unterer Hinge hu h-Spread *1.5 Jeder Wert zwischen dem innere Zaun und äußerem Zaun wird durch einen Stern markiert. Whisker Festlegung der (=Schnurrbart). Whiskers Das sind die Linien (nach oben bzw. unten) bis zum extremsten Wert, der noch innerhalb des inneren Zauns liegt. Unterer innerer Zaun h-Spread *1.5 Die Zäune gehören nicht zum Boxplot. Unterer äußerer Zaun

18 Streuungsmaße für qualitative Merkmale
Anteilsmasse konzentriert sich stark auf die Ausprägung‚ledig‘. Anteilsmasse ist eher gleichmäßig auf die Ausprägungen aufgeteilt. (große Streuung) (geringe Streuung) Familienstand verlobt ledig getrennt Anteil 0.60 0.40 0.20 Alle bisher behandelten Streuungsmaße bauen auf der Breite der Verteilung auf. Das setzt für das Merkmal Intervallskalenniveau voraus. Für ein qualitatives Merkmal kann untersucht werden, inwiefern die Anteilsmasse auf eine einzige Ausprägung bzw. einige wenige Ausprägungen konzentriert ist (geringe Streuung), oder auf mehrere Ausprägungen eher gleichmäßig verteilt ist (große Streuung). Modaldispersion: md Der Anteil der Werte, die nicht in der Modal-Ausprägung liegen. Die Anteile sind Daher md = = Der größte Anteil ist Modaldispersion md = = 0.625 Qualitative Varianz: qv Hier werden alle Anteile (quadratisch) berücksichtigt. Qualitative Varianz qv = = = 0.461 qv = = = 0.664 Entropie: h Potentiell minimale mittlere Länge von Informationen in Bits (bzw. Nits), wenn alle Teilinformationen (Ausprägungen des Merkmals) optimal codiert werden. (bzw. mittlere Entropie) Entropie(in bits) Entropie(in nits) Zur Entwicklung optimaler Codes im Sinne der Informationstheorie, später! h(x) =  nits h(x)b =h(x) / ln(2)= h(x)  1.12 h(x) =  nits h(x)b = h(x)  1.58

19 Überlegungen zur Entwicklung optimaler Binär-Codes
Die Entwicklung optimaler Binärcodes entspricht dem Finden einer optimalen Fragestrategie bei Unsicherheit, wobei jede Antwort nur binär (etwa: nein/ja; bzw. 0/1) sein darf. Beispiel: Anne und Bert spielen ‚Felderraten‘ auf dem PC. Der PC wählt zufällig (jedes Feld mit gleicher Chance) ein bestimmtes Feld auf einem Schachbrett. Anne soll erraten, welches Feld ausgewählt ist. Der PC antwortet auf Annes Fragen jeweils mit nein bzw. ja oder 0 bzw. 1. Bert macht das auch. Beide wiederholen das Spiel öfters. Gewinner ist, wer pro Spiel am wenigsten Fragen braucht. Welches ist hier die optimale Fragestrategie? z.B. für Suche von C8 1. Feld oberhalb der Mitte? 1. 2. Feld links der Mitte? 0. 3. Liegt es in Zeile A bzw. B? 0. 4. In Spalte 5 bzw. 6? 0. 5. In der Zeile C? 1. 6. Ist es in Spalte 7? 0. Antwortfolge: Daher muss es Feld C8 sein. A B C D E G F H 1 4 5 6 7 8 2 3 * Bei I Ausprägungen sind ld(I) Fragen bei optimaler Fragestrategie erforderlich, wenn die Chancen aller Ausprägungen gleich sind. Es gilt auch: ld(I) = -ld(1/I) Wie viele Fragen dieser Art sind nötig? 6. Mit 6 Fragen kann jedes der 64 Felder eindeutig identifiziert werden. Die 64 Felder entsprechen den Ausprägungen. Jede Frage kann 2 mögliche Antworten haben. Daher insgesamt 26 = 64 mögliche Antwortsequenzen. Der Logarithmus von 64 zur Basis 2 löst die Aufgabe: 2 hoch x = 64. D.h. x = ld(64) = 6. Umgeformt: 6 = - ld(1/64). Bei ungleichen Anteilen sind andere Fragestrategien besser. z.B. Falls der PC fast immer das Feld C8 wählt, ist es wohl optimaler, zuerst zu fragen: Ist es Feld C8? Die optimale Strategie wird auf Grund der Anteile entwickelt. Nach Ausprägungen mit großem Anteil wird zuerst gefragt.

20 Überlegungen zur Entwicklung optimaler Binär-Codes, Forts.
Die optimale Strategie wird auf Grund der Anteile entwickelt. Zuerst nach Ausprägungen mit dem größten Anteil fragen; danach die seltenen Fälle abklappern! 4-Buchstaben-Beispiel: Buchstaben A, B, C, D erraten. Anne weiß aus Erfahrung, dass der PC A in ½, B in ¼, C in 1/8 und D in 1/8 der Fälle auswählt. Welche optimale Fragestrategie soll sie wählen? Vorschlag: Zuerst nach A fragen., weil der Anteil mit ½ am größten ist (Die Chance, nach der ersten Frage fertig zu sein ist groß). Falls nein nach B fragen (wegen ¼ Chance). Falls nein, nach C fragen. C Fragestrategie in Form eines Flussdiagramms 1 A? C? B? B A D Für das Erraten von: A B C D benötigte Fragenanzahl 1 2 3 Anteil 1/8 Optimal? Erwartete Fragelänge(in bits) p i I 1 å = Fragenanzahl Das Spiel werde nun sehr oft wiederholt. Mit Hilfe der Anteile als Gewichte kann nun die durchschnittlich benötigte Fragenlänge berechnet werden : ½ mal 1, ¼ mal 2, 1/8 mal 3 1/8 mal 3. Als gewichtetes arithmetische Mittel: ½ * 1 + ¼ * /8* 3 + 1/8*3 = 14 / 8 Bei passenden Anteilen gilt: Fragenanzahl = ld(1/pi) = -ld(pi ) Für das Erraten von: A B C D benötigte Fragenanzahl 1 2 3 Anteil 1/8 1/Anteil 4 8 ld(1/Anteil) Durchschnittlich benötigte Anzahl ‚optimaler‘ Entropie(in bits) = ) p ( ld : x h i I 1 b å - Fragen Das gewichtete arithmetische Mittel: ½ * 1 + ¼ * /8 * /8 * 3. kann dann so ausgedrückt werden: (½ * ld(½ ) + ¼ *ld(¼) + 1/8 *ld(1/8) + 1/8 *ld(1/8)) Übersetzen des Fragespiels in die Übermittlung von Nachrichten. Das Übertragen von Nachrichten ist kein kompetitives, sondern ein kooperatives ‚Spiel‘. Der Binärcode für alle Ausprägungen eines Merkmals (ein Alphabet, die Bezeichnung der 64 Schachfelder, die 4 Ausprägungen A B C D) optimal aufgebaut werden, damit zur Übertragung von Nachrichten (mit dem betrachteten Alphabet) möglichst wenig binäre Zeichen notwendig sind. Eine Antwortsequenz entspricht einem Binärcode, die Länge des Binärcodes (gemessen in bit) der Fragenanzahl. Die Antwortsequenz für eine einzelne Ausprägung entspricht dem Binärcode der Ausprägung (z.B für C8 innerhalb des Schachalphabets, im 4-Buchstaben-Beispiel 1 für A , 01 für B, 001 für C und 000 für D). Übertragen vieler gleicher Ausprägungen in einer Nachricht als Packet. Wenn in Nachrichten oft mehrere gleiche Ausprägungen hintereinander übertragen werden müssen, kann ein Wiederholungsmodus (eine zahlenmäßige Information derart, dass z.B.100 gleiche Zeichen folgen usw.) eingebaut werden. So kann die (potentiell minimale) durchschnittliche Informationslänge auch kleiner als 1 Bit werden.

21 Rest Anteilsverteilung f(x) F(x) oi ui Sortierte Liste Index Wert x(i)
100 500 1000 2000 5000 ui Klassen Grenzen 1 2 3 4 5 Klassen Index i 0.10 0.20 0.30 Anteil pi 400 3000 Klassen Mitte xi Sortierte Liste Index Wert x(i) 21 22 23 24 30 .0001 .0002 .0003 .0004 .0005 .0006 .0007 .0008 .0009 .0010 1000 2000 3000 4000 5000 f(x) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 x 1000 2000 3000 4000 5000 F(x)

22 = Das Verhältnis der Flächen ist gleich dem Verhältnis der Längen: p m / q b / s Daher: / p s .0001 .0002 .0003 .0004 .0005 .0006 .0007 .0008 .0009 .0010 1000 2000 3000 4000 5000 f(x) .0001 .0002 .0003 .0004 .0005 .0006 .0007 .0008 .0009 .0010 1000 2000 3000 4000 5000 f(x) u ( F m ) q x ~ s

23 f(x) ~ x F(x) x ~ ) , ( , bu ) u ( F a - = b )) u ( F x ~ + = ~
0.25 625 0.75 2500 e 200 3750 .0001 .0002 .0003 .0004 .0005 .0006 .0007 .0008 .0009 .0010 1000 2000 3000 4000 5000 f(x) x ~ Gesucht: , daher ist q = Index m = 3. Erst hier ist F(o3) > u3= F(u3) = F(500) = Daher ist das 1. Quartil = ( )500/ 0.20 = 625. 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1000 2000 3000 4000 5000 F(x) Begründung der Formel für das Quantil Jeder Klasse entspricht eine Gerade. q = Für q muss festgestellt werden, welche Gerade benötigt wird. Die Geradengleichung allgemein ist: y = a + bx. Die Gerade geht durch die Punkte und ) ( , u m F o q x ~ Nun wird der Punkt in die Gleichung eingesetzt. ) , ( a und b kann durch Einsetzen der Punkte in die Gleichung berechnet werden. , m bu ) u ( F a - = o b b / ) a q ( x ~ - = Þ + b ) bu u ( F q x ~ 1 m + - = Weiteres Umformen und Einsetzen von a und b liefert die Formel: m q )) u ( F x ~ ) o - + =

24 å Varianz Quadratsummen - ) ( : sq Var(y) für Verteilung: = n 1 i 2 y
3 -3 -2 -1 Varianz -1 Quadratsummen für Verteilung:

25 Berechnung der Distanz: wiederholte Anwendung des Pythagoras Satzes.
F H 1 4 5 6 7 8 2 3 a b c Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet. Zuerst noch Hilfsebene einfügen Berechnung der Distanz: wiederholte Anwendung des Pythagoras Satzes. Berechnung der Distanz: wiederholte Anwendung des Pythagoras Satzes.

26 Andere Mittelwerte, Geometrisches Mittel
Das geometrische Mittel ist die n-te Wurzel aus dem Produkt aller Werte. Für Urliste: Beispiel (Eine Firma habe seit 4 Jahren des Bestehens folgende Gewinne: 200, 400, 300, 300). Der Wachstumsfaktor des Gewinns ist hier das Verhältnis des jeweiligen Gewinns zum Vorjahresgewinn. Das ergibt 3 Wachstumsfaktoren: x1=400/200=2, x2 =0.75, x3 =1. An die Stelle des Addierens tritt das Multiplizieren. Statt durch n zu divi-dieren, wird die n-te Wurzel gezogen. 1.14 (etwas anders formuliert: das ist ein durchschnittliches Wachstum von 14 %). Das arithmetische Mittel der logarithmierten Werte ist der Logarithmus des geometrischen Mittels. Auf beiden Seiten Logarithmieren liefert: Die Formel gilt für jede Art von Logarithmus, hier wird der zur Basis e verwendet (natürlicher Logarithmus): Aus dem Logarithmus einer Zahl kann mit Hilfe des Potenzierens der Basis die Zahl selbst berechnet werden: 1.14 Bei Wachstumsfaktoren liefert das geometrische Mittel die adäquate Berechnung des Endwerts aus dem Anfangswert. Wendet man den durchschnittlichen Wachstumsfaktor pro Jahr seit Beginn an: 200*1.14*1.14*1.14 =300. Der tatsächliche Gewinn am Ende kann damit vom Anfang her mit Hilfe des durchschnittlichen Wachstums berechnet werden. Das arithm. Mittel der Wachstumsfaktoren = 1.25 (=25% Wachstum; etwas größer). Wendet man dies als durchschnittliches Wachstum über die Jahre an wie vorher, erhält man: 200*1.25*1.25*1.25 = (Wohl etwas zu optimistisch). Voraussetzungen und Eigenschaften des geometrischen Mittels Das Merkmal muss mindestens Verhältnisskalenniveau haben. Die Werte sollten positiv sein. Generell ist das geometrische Mittel ist kleiner (bzw. gleich) als das arithmetische. Wenn über Wachstumsfaktoren gemittelt wird, sollte statt des arithmetischen auf jeden Fall das geometrische Mittel verwendet werden.

27 Verteilungscharakterisierung durch Funktionen der Anteile
Verhältnisangaben (engl. Odds), beim Wetten als Angabe zur Charakterisierung der Chancen Beispiel: Bei Sex unter den ersten 16 ist der ‚männlich‘-Anteil =14/16, der ‚weiblich‘-Anteil=2/16. Als Verhältnis 14 : 2 bzw. 7:1 mit ‚weiblich‘ als Referenzkategorie. bzw. (1/7) : 1 mit ‚männlich‘ als Referenzkategorie bzw : 1 Als Darstellung interessiert das Verhältnis der Anteile (Häufigkeiten) zueinander bzw. zu einer ‚Referenz‘-Ausprägung. Odds oddsj(pi ) := pi : pj = pi/pj mit j als Index für die Referenzausprägung Beispiel: Nach MENDEL sollten 4 Erbsensorten bei einem Kreuzungsexperiment im Verhältnis 9 : 3 : 3 : 1 stehen (Angaben als Odds). Die Häufigkeiten beim MENDEL’schen Experiment waren: 315, 108, 101, 32. Mit der 4. Ausprägung als Referenz-kategorie lauten die realisierten Odds: 9.8 : : : 1 Der Logit ist der natürliche Logarithmus der Odds. Logit. Die Verhältnisse werden logarithmiert; so werden die ‚multiplikativen‘ Verhältnisangaben ‚additiv‘. Logits Logitj(pi ) := ln( pi /pj ) = ln(pi )-ln(pj). mit j als Index für die Referenzausprägung Beispiel: Logit für den ‚männlich‘-Anteil logit(14/16) =ln(7) = 1.96. Der Logit für den ‚weiblich‘- Anteil logit(14/16)=ln(1/7) = Durch das Logarithmieren erhält man bei zwei Ausprägungen den gleichen Wert (einmal positiv, einmal negativ). Die Wahl der Referenzausprägung ist dadurch nicht mehr so wichtig. Bei den Odds versucht man, die Referenzausprägung so zu wählen, dass möglichst als Verhältnis Werte größer als 1 resultieren (bei Odds für Teilgruppen schwer realisierbar).


Herunterladen ppt "Qualitative Charakterisierung von Verteilungen."

Ähnliche Präsentationen


Google-Anzeigen