Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Frank Padberg Sommersemester 2007
Boxplots
Graphische Darstellung veranschaulicht die Werte einer Stichprobe
Median gegeben eine sortierte Stichprobe Median gibt den „mittleren“ Wert der sortierten Stichprobe an eine Hälfte der Stichproben-Werte ist kleiner als der Median, die andere Hälfte ist größer
Berechnung des Median Stichprobenumfang N ungerade, dann Median gleich Stichprobenwert Nummer N gerade, dann Median mittig zwischen den Stichprobenwerten Nummer und
Median (Forts.) Median ist unempfindlicher gegen Ausreißer als der Mittelwert Beispiele: Stichprobe 3,4,8,9,15 hat Median 8,Mittelwert 7,8 Stichprobe 3,4,8,9,100 hat auch Median 8,Mittelwert 24,8. Stichprobe 1,3,4,8,9,15 hat Median
Quartile das erste und dritte Quartil Q1 und Q3 geben (in etwa) die Schranken für das untere und obere Viertel der sortierten Stichprobe an der Interquartil-Bereich umfasst (in etwa) die „mittlere“ Hälfte der Datenpunkte das zweite Quartil Q2 ist genau der Median
Berechnung der Quartile Vorsicht: es gibt mehrere Berechnungs- vorschriften, die aber leicht unterschiedliche Ergebnisse liefern das liegt daran, daß J. W. Tukey für seine Boxplots mit den sogenannten „hinges“ gearbeitet hat, die aber nur für genau die Quartile liefern
Berechnung der Quartile (Forts.) Stichprobenumfang Q1 auf 3/4 der Strecke zwischen den Stichprobenwerten Nummer k und k +1 Q2 mittig zwischen den Stichprobenwerten Nummer 2k und 2k +1 Q3 auf 1/4 der Strecke zwischen den Stichprobenwerten Nummer 3 k und 3 k +1
Berechnung der Quartile (Forts.) Stichprobenumfang Q1 = H1 gleich dem Stichprobenwert Nummer k +1 Q2 = M gleich dem Stichprobenwert Nummer 2 k +1 Q3 = H2 gleich dem Stichprobenwert Nummer 3 k +1 hinge = Angelpunkt, Scharnier
Berechnung der Quartile (Forts.) Stichprobenumfang Q1 auf 1/4 der Strecke zwischen den Stichprobenwerten Nummer k +1 und k +2 Q2 mittig zwischen den Stichprobenwerten Nummer 2 k +1 und 2 k +2 Q3 auf 3/4 der Strecke zwischen den Stichprobenwerten Nummer 3 k +1 und 3 k +2 D.h. im Interquartil-Bereich liegen 2 k Werte, außerhalb 2 k +2 Werte
Berechnung der Quartile (Forts.) Stichprobenumfang Q1 mittig zwischen den Stichprobenwerten Nummer k +1 und k +2 Q2 ist der Stichprobenwerten Nummer 2 k +2 Q3 mittig zwischen den Stichprobenwerten Nummer 3 k +2 und 3 k +3
Berechnung der Quartile (Forts.) Beispiel: Stichprobe 10,15,18,33,34,36,51,73,80,86,92 Median ist 36 (mittlerer Datenpunkt) das erste Quartil ist 25,5 (mittig zwischen 18 und 33) das dritte Quartil ist 76,5 (mittig zwischen 73 und 80) der Interquartilbereich ist [25,5; 76,5] .... ....und hat die Länge
Quartile mit R a <- c(10,15,18,33,34,36,51,73,80,86,92) median(a) [1] 36 quantile(a) 0% 25% 50% 75% 100% 10.0 25.5 36.0 76.5 92.0
Quartile mit R (Forts.) b <- c(99,61,18,98,80,95,118,93,36,14) sort(b) [1] 14 18 36 61 80 93 95 98 99 118 quantile(b) 0% 25% 50% 75% 100% 14.00 42.25 86.50 97.25 118.00
Quartile mit R (Forts.) c <- c(10,15,18,33,34,36,51,73,80,86,92,93) quantile(c) 0% 25% 50% 75% 100% 10.00 29.25 43.50 81.50 93.00
Whiskers der untere whisker („Schnurrhaar“) entspricht dem kleinsten Datenpunkt, der um nicht mehr als unterhalb des ersten Quartils liegt der obere whisker ist analog definiert die whisker verdeutlichen die Schwankung in der Stichprobe Außerhalb der whisker liegende Punkte heißen Ausreisser.
Boxplots mit R a <- c(10,15,18,33,34,36,51,73,80,86,92) boxplot(a)
Multiple Boxplots mit R b <- c(99,61,18,98,80,95,118,93,36,14) boxplot(list(eins=a,zwei=b))