3 Gesamtbeschreibung empirischer Verteilungen
3 Gesamtbeschreibung empirischer Verteilungen 3.1 Tabellarische Darstellungsmöglichkeiten 33 3.1.1 Elementare Begriffe und Notation 33 3.1.2 Häufigkeitstabellen bei Urlisten 35 3.1.3 Häufigkeitstabellen bei klassierten Daten 37 3.2 Grafische Darstellungsmöglichkeiten 39 3.2.1 Kreis-, Säulen- und Balkendiagramme 39 3.2.2 Stamm-Blatt-Diagramme 42 3.2.3 Histogramme (Häufigkeitsdichten) 44 3.2.4 Boxplots 48 3.3 Empirische Verteilungsfunktion (EVF) 53 3.3.1 Häufigkeitsfunktion und EVF bei Urlisten 53 3.3.2 Häufigkeitsdichtefunktion und EVF bei klassierten Daten 57 2
3.1 Tabellarische Darstellungsmöglichkeiten 3.1.1 Elementare Begriffe und Notation ● Urliste und Stichprobenumfang ● > Urliste: Nichtmanipulierte ursprünglich Beobachtungswerte > Stichprobenumfang: Anzahl an Beobachtungswerten; notiert mit n ● Merkmale und Ausprägungsmöglichkeiten ● > Merkmal (Variable): Interessierende Eigenschaft von Person, Objekt oder Vorgang. Variable betont die Variabilität hinsichtlich verschiedener Ausprägungsmöglichkeiten, meist notiert mit Großbuchstaben X, Y, Z, ... > Beobachtungswerte eines Merkmals werden mit Kleinbuchstaben notiert: 𝑥 1 , 𝑥 2 ,…, 𝑥 𝑛 bzw. 𝑦 1 , 𝑦 2 ,…, 𝑦 𝑛 usw. > Ausprägungsmöglichkeiten: Menge aller Werte oder Kategorien, welche ein Merkmal (eine Variable) potenziell annehmen kann Im Falle von Klausuren könnte z. B. gelten 𝑎 1 = 1.3, 𝑎 2 = 1.3, 𝑎 3 = 1.7,... im Falle des Merkmal „Raucherstatus: 𝑎 1 = Raucher, 𝑎 2 = Nichtraucher, ...
3.1 Tabellarische Darstellungsmöglichkeiten
3.1 Tabellarische Darstellungsmöglichkeiten 3.1.2 Häufigkeitstabellen bei Urlisten ● Absolute und relative Häufigkeiten ● > Beispiel: 𝑛 1 =3, 𝑛 2 =2, 𝑛 3 =2, 𝑛 4 =1 𝑓 1 = 𝑛 1 𝑛 = 3 8 =0.375, 𝑓 2 = 𝑛 2 𝑛 = 2 8 =0.25, ... > Allgemein gilt: 𝑓 𝑗 = 𝑛 𝑗 𝑛 ● Tabellarische Darstellung der Häufigkeitsverteilung ●
3.1 Tabellarische Darstellungsmöglichkeiten
3.1 Tabellarische Darstellungsmöglichkeiten 3.1.2 Häufigkeitstabellen bei klassierten Daten ● Größenklassierung ● > Angenommen, bei einer Erhebung wurde die monatliche Absatzmenge einer bestimmten Brötchensorte in 30 Filialen eines Bäckereibetriebs erhoben: > Einteilung in Größenklassen mit jeweils „ähnlich großen“ Werten > Klassengrenzen: 𝑐 𝑗−1 und 𝑐 𝑗 für linke bzw. rechte Grenze der jten Klasse > Beispiel: 𝑐 0 =0, 𝑐 1 =10000 Klassengrenzen der 1. Klasse ● Absolute und relative Klassenhäufigkeiten ● Beispiel: 𝑛 1 =2, 𝑓 1 = 𝑛 1 𝑛 = 2 30≈ 0.067
3.1 Tabellarische Darstellungsmöglichkeiten
3.2 Grafische Darstellungsmöglichkeiten 3.2.1 Kreis-, Säulen- und Balkendiagramme ● Kreis- und Ringdiagramme ● ● Säulendiagramme ●
3.2 Grafische Darstellungsmöglichkeiten
3.2 Grafische Darstellungsmöglichkeiten ● Balkendiagramme ●
3.2 Grafische Darstellungsmöglichkeiten 3.2.2 Stamm-Blatt-Diagramme Hier nochmals die Urliste
3.2 Grafische Darstellungsmöglichkeiten
3.2 Grafische Darstellungsmöglichkeiten 3.2.3 Histogramme ● Konzept und Beispiel ● > Säulendiagramm über Größenklassen, dessen Flächen den relativen Klassenhäufigkeiten entsprechen > Es gilt: Säulenhöhe = Relative Klassenhäufigkeit / Klassenbreite > Der Wert 𝑓 𝑗 𝑑 𝑗 heißt auch Häufigkeitsdichte
3.2 Grafische Darstellungsmöglichkeiten > Beispiel anhand von Größenklasse 3, d. h. j = 3 𝑓 3 = 𝑛 3 𝑛 = 10 30 ≈0.3333 𝑓 3 𝑑 3 = 0.3333 10 ≈0.0333
3.2 Grafische Darstellungsmöglichkeiten ● Problem der Klassenwahl ●
3.2 Grafische Darstellungsmöglichkeiten ● Regeln zur Klassenwahl ● > Nur einige sehr elementarge Regeln: 1. Nach Möglichkeit sollten Klassen ohne Werte („leere Klassen“) vermieden werden. 2. Die Werte sollten innerhalb der Klassen möglichst gleichmäßig verteilt sein. 3. Nach Möglichkeit sollten gleich breite Klassen gewählt werden (erleichtert die Interpretation). > Theorie zur Konstruktion „optimaler“ Histogramme in nichtpara- metrischer Statistik im Rahmen der Dichteschätzung > Implementierung von Algorithmen zur Konstruktion „optimaler“ Histogramme in Software-Pakete
3.2 Grafische Darstellungsmöglichkeiten 3.2.4 Boxplots ● Konzept und Beispiel ● „firstchi“
3.2 Grafische Darstellungsmöglichkeiten > Unterer und oberer Hinge: ℎ 𝐿 ≈ 𝑥 0.25 bzw. ℎ 𝑈 ≈ 𝑥 0.75 > Interquartilsabstand: 𝑑 𝑄 = 𝑥 0.75 − 𝑥 0.25 > Oberer (unterer) Anrainer: nicht weiter als das 1.5-fache des Inter- quartilsabstands vom oberen (unteren) Boxende entfernt
3.2 Grafische Darstellungsmöglichkeiten ● Deutung ● ● Für Vergleichszwecke geeignet ●
3.2 Grafische Darstellungsmöglichkeiten
3.2 Grafische Darstellungsmöglichkeiten
3.3 Empirische Verteilungsfunktion 3.3.1 Häufigkeitsfunktion und EVF bei Urlisten ● Häufigkeitsfunktion ● Die Häufigkeitsfunktion ordnet jedem beliebigen Wert x die relative Häufigkeit seines Auftretens in der Urliste zu, z. B. 𝑓 𝑛 −0.4 =0, 𝑓 𝑛 1 =0.375, 𝑓 𝑛 3 =0.250, 𝑓 𝑛 1.15 =0, 𝑓 𝑛 4 =0.125, usw.
3.3 Empirische Verteilungsfunktion > Kumulatives Aufsummieren der Häufigkeitsfunktion > Gibt für jeden beliebigen Wert x an, wie groß der relative Anteil der Werte ist, die kleiner oder gleich x sind
3.3 Empirische Verteilungsfunktion > Beispiele: 𝐹 𝑛 1 = 𝑓 𝑛 1 =0.375, 𝐹 𝑛 2 = 𝑓 𝑛 1 + 𝑓 𝑛 2 =0.375+0.250=0.625, 𝐹 𝑛 3 = 𝑓 𝑛 1 + 𝑓 𝑛 2 + 𝑓 𝑛 3 =0.375+0.250+0.250=0.875 𝐹 𝑛 −12.3 =0, 𝐹 𝑛 0.98 =0, 𝐹 𝑛 1.99 = 𝑓 𝑛 1 =0.375 𝐹 𝑛 5.565 = 𝑓 𝑛 1 + 𝑓 𝑛 2 + 𝑓 𝑛 3 + 𝑓 𝑛 4 =1
3.3 Empirische Verteilungsfunktion
3.3 Empirische Verteilungsfunktion 3.3.2 Häufigkeitsdichtefunktion und EVF bei klassierten Daten ● Häufigkeitsdichtefunktion ● Die Häufigkeitsdichtefunktion ordnet jedem beliebigen Wert x die Häufigkeitsdichte an der Stelle x zu (klassierte Daten), z. B. 𝑓 𝑛 −0.5 =0, 𝑓 𝑛 0 =0, 𝑓 𝑛 8.5 =0.0067, 𝑓 𝑛 31.2 =0.0200, 𝑓 𝑛 60 =0.0033, 𝑓 𝑛 60.01 =0, usw.
3.3 Empirische Verteilungsfunktion ● EVF an den Klassengrenzen ● > EVF für klassierte Daten soll kumulativen Anteil von Werten bis zu einem bestimmten Wert angeben. > Kumulatives Integrieren der Häufigkeitsdichtefunktion 𝐹 𝑛 𝑥 = −∞ 𝑥 𝑓 𝑛 𝑡 𝑑𝑡 > Sie ordnet einem beliebigen Wert x die Fläche unterhalb der Häufigkeitsdichtefunktion bis zu diesem Wert zu > An einer Klassengrenze entspricht der Wert der EVF genau der kumulierten Summe der relativen Klassenhäufigkeiten bis zu dieser Klassengrenze
3.3 Empirische Verteilungsfunktion
3.3 Empirische Verteilungsfunktion ● Approximation innerhalb der Klassen ● Für einen Wert x innerhalb der j-ten Klasse gilt (als Approximation): 𝐹 𝑛 𝑥 = 𝐹 𝑛 𝑐 𝑗−1 + 𝑥− 𝑐 𝑗−1 𝑓 𝑗 𝑑 𝑗
3.3 Empirische Verteilungsfunktion ● 1. Ableitung der EVF ● Die Steigung der EVF für 𝑥∈ 𝑐 𝑗−1 , 𝑐 𝑗 entspricht der Häufigkeitsdichte 𝑑 𝐹 𝑛 𝑥 𝑑𝑥 = 𝑓 𝑗 𝑑 𝑗