Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 schlecht gut. 2 Unterschiede messen 0 1 2 3 4 5 6 7 8 9 10 MedianMean Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere.

Ähnliche Präsentationen


Präsentation zum Thema: "1 schlecht gut. 2 Unterschiede messen 0 1 2 3 4 5 6 7 8 9 10 MedianMean Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere."—  Präsentation transkript:

1 1 schlecht gut

2 2 Unterschiede messen MedianMean Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere unterhalb dieses Punktes liegt Der Mittelwert wird berechnet durch die Summe aller Werte geteilt durch die Anzahl der Werte

3 3 X = xixi n Mathematisch wird die Berechnung des Mittelwertes so dargestellt: X ausgesprochen: X Strich oder x quer ist das Symbol für den Mittelwert dies ist der griechische Großbuchstabe für Sigma und das sog. Summenzeichen, d.h. alle Messwerte müssen addiert werden xixi dieses Zeichen steht für sämtliche Einzelmesswerte n und n steht schließlich für die Anzahl der durchgeführten Messungen

4 4 Unterschiede messen Zwei weit verbreite, einfache Methoden: Zwischen zwei Klassen unterscheiden: Gut Schlecht Zwischen vier (oder einer anderen Anzahl von) Perzentilen unterscheiden

5 Rangreihe: Einfache Aussage über Reihenfolge Hohe Reliabilität, etwa durch Paarvergleich Keine Informationen über Abstände Vergleichbarkeit nur bei identischen Ns

6 Quartile: Grobe Aussage über die Stellung in einer Reihe Hohe Reliabilität, weil recht simpel Sehr grobe Informationen über Abstände Einfache Vergleichbarkeit über verschiedene Bereiche hinweg I. QuartilII. QuartilIII. QuartilVI. Quartil

7 7 Prozentrang (RANG): Aussage über die Stellung in einer Reihe Reliabilität von der Messung abhängig Keine Informationen über Abstände Einfache Vergleichbar- keit über verschiedene Bereiche hinweg WerteQuartilProzentrang , , , , , , , , , ,00

8 8 Relativer Prozentrang: (100*Wert)/MaxWert Genaue Aussage über die Stellung in einer Reihe Reliabilität von der Messung abhängig Informationen über Abstände Einfache Vergleichbar- keit über verschiedene Bereiche hinweg WerteRelativer Prozentrang 30100, , , , , ,67 620,00 516,67 13,33 0,00

9 9

10 10 WerteRel. %Z-WerteNote 30100,001, ,331, ,00, ,33, ,00-, ,67-, ,00-, ,67-, ,33-1, ,00-1,222345

11 11 Unterschiede messen Keine Variation vorhanden

12 12 Unterschiede messen In welchem Maß ist Variation vorhanden? Erste Ebene: Spannbreite (R für range) R = X max – X min

13 13 Unterschiede messen In welchem Maß ist Variation vorhanden? Zweite Ebene: Summe der quadrierten Fehler (Abweichungen) Mean σ² = xixi X - () n - 1 2

14 14 Unterschiede messen In welchem Maß ist Variation vorhanden? Dritte Ebene: Standardabweichung Mean σ = xixi X - () n - 1 2

15 15 Unterschiede messen In welchem Maß ist Variation vorhanden? Vierte Ebene: z-Transformation Abstand jeder Messung zum Mittelwert, geteilt durch die Standardabweichung z = xixi X - σxσx Alle Mittewerte werden Null, die Abstände werden standardisiert; die relative Lage jeder Messung kann verglichen werden Mean 0

16 16

17 17 (leicht hinkender Vergleich) Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen

18 18 (leicht hinkender Vergleich) Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen

19 19 Mittelwerte: 64,55 49,26 Std.-Abw.: 11,623 29,831

20 20 Wirkung der Z-Transformation:

21 Mit Hilfe dieser Grafik wird erkennbar, was die Prozentränge im Unterschied zu den Z-standardisierten Werten angeben: Am linken Rand sind die Rohwerte abgetragen, am oberen Rand die Prozentränge und am unteren Rand die z-standardisierten Werte. Wie ersichtlich, hat der höchste Rohwert den Prozentrang 100 und den Z-Wert +3. Der niedrigste Rohwert hingegen den Prozentrang 1,25 und den Z-Wert -2.

22 22 Prozentränge cum f % = 100 cum f N RohwertFällefcum fcum f %PR , , , , ,03 (N = 300) 300 = 100 % 9 = x %

23 23 sog. Absoluter Rangwert: 1. Rang + 2. Rang/2 = 1,5 Werte mal 100/Max-Wert: 2*100 = 200/30 = 6,66666 Relative Rangfolge in %: 20 = 100 % 1,5 = x % Z-Transformation

24 24

25 25

26 26

27 27

28 28

29 29

30 30

31 31

32 32

33 33

34 34

35 35

36 36 Umwandlung eines numerischen Wertes in einen kategorialen Wert

37 37 Deskriptive Statistik (School perfomance) Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING8099, , , ,11183,377652

38 38 Mittelwert: Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen Median (auch Zentral- oder 50% Wert): Der Median ist der Wert für den gilt, dass 50% aller Werte größer oder gleich sind. Der Median halbiert die Stichprobenverteilung

39 39 Deskriptive Statistik (School perfomance) Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING90121, ,194493, ,000066,48269

40 40 Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING8099, , , ,11183, Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING90121, ,194493, ,000066,48269

41 41

42 42 Umwandlung eines numerischen Wertes in einen kategorialen Wert

43 43 Deskriptive Statistik (School perfomance) Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING8099, , , ,11183,377652

44 44 Mittelwert: Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen Median (auch Zentral- oder 50% Wert): Der Median ist der Wert für den gilt, dass 50% aller Werte größer oder gleich sind. Der Median halbiert die Stichprobenverteilung

45 45 Deskriptive Statistik (School perfomance) Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING90121, ,194493, ,000066,48269

46 46 Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING8099, , , ,11183, Gült. NMittelw.MedianMinimumMaximumStdabw. WRITING90121, ,194493, ,000066,48269

47 47

48 48 Gruppenzugehörigkeit: A Gruppenzugehörigkeit: B Gruppenzugehörigkeit: C

49 49 Gibt es Muster in der Verteilung?

50 50

51 51

52 52

53 53 Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen KelchlängeKelchbreiteBlattlängeBlattbreiteIristyp 153,31,40,2Setosa 26,42,85,62,2Virginic 36,52,84,61,5Versicol 46,73,15,62,4Virginic 56,32,85,11,5Virginic 64,63,41,40,3Setosa 76,93,15,12,3Virginic 86,22,24,51,5Versicol 95,93,24,81,8Versicol 104,63,610,2Setosa 116,134,61,4Versicol 1262,75,11,6Versicol 136,535,22Virginic 145,62,53,91,1Versicol 156,535,51,8Virginic 165,82,75,11,9Virginic 176,83,25,92,3Virginic 185,13,31,70,5Setosa 195,72,84,51,3Versicol 206,23,45,42,3Virginic 217,73,86,72,2Virginic 226,33,34,71,6Versicol 236,73,35,72,5Virginic 247,636,62,1Virginic 254,92,54,51,7Virginic Durch was unterscheiden sich die drei Iristypen?

54 54 Kategoriale Werte (gut/schlecht) Metrische Werte (1, 2, 3, 4,..) [Nominale, Ordinale Werte] Split: Welche Variable trennt am besten bei welchem Wert? CART (classification and regression trees)

55 55

56 56

57 57

58 58

59 59

60 60

61 61

62 62

63 63

64 64

65 65

66 66

67 67

68 68

69 69

70 70

71 71 Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Klasse - SetosaKlasse - VersicolKlasse - Virginic Setosa00 Versicol04 Virginic02 Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Klasse - SetosaKlasse - VersicolKlasse - Virginic Setosa5000 Versicol0484 Virginic0246

72 72 Split-Bedingung (Irisdat) Split-Bedingung je Knoten Split - Konst.Split - Variable 1-2,09578Blattlänge 2 3-1,64421Blattbreite

73 73

74 74

75 75

76 76 Zwei, von vielen Problemen: Feature Choise Overfitting, Underfitting

77 77 Zwei, von vielen Problemen: Feature Choise Overfitting, Underfitting

78 78 a b Kategoriale Splits < 0,5 > 0,5 < 0,5> 0,5, < 1,8> 1,8 Bivariate Splits Multivariate Splits

79 79 Wie kann man dieses Problem lösen? Etwa mit Hilfe einer sog. Kreuzvalidierung: Alle Daten Teilmenge Analyse und Modellbildung Anwendung auf andere Teilmenge

80 80 Daten teilen Trainings- daten Validierungs- daten Modell- bewertung

81 81 Vierter Schritt: Wovon ist gut oder schlecht abhängig? Güte der erreichten Aufklärung überprüfen

82 82

83 83 Practical Significance Statistical Significance

84 84 Practical Significance Statistical Significance Datensatz 50% Datensatz Modell/Zusammenhang Zufall Modell/Zusammenhang = Zufall? Modell/Zusammenhang >/< Zufall? Was, wenn kein Zusammenhang?

85 85 Zusammenfassung der behandelten methodischen Ansätze: Eine bislang unbehandelte Frage lautet: Wie aussagekräftig sind die jeweils gewonnenen Befunde?

86 86 Folgende Hypothese soll geprüft werden: H 0 Person A besitzt keine hellseherischen Fähigkeiten H 1 Person A verfügt über hellseherische Fähigkeiten Unter welchen Bedingungen kann H 0 bestätigt/verworfen werden? Unter welchen Bedingungen kann H 1 bestätigt/verworfen werden? Es gibt Konventionen, die als Grundlage der Entscheidung genutzt werden können/sollten: Das Signifikanzniveau. IrrtumswahrscheinlichkeitBedeutungSymbolisierung p > 0,05nicht signifikantns p <= 0,05signifikant* p <= 0,01sehr signifikant** p <= 0,001höchst signifikant***

87 87 Wie groß ist die Wahrscheinlichkeit dreimal Kopf zu erhalten, wenn drei mal eine Münze geworfen wird? Dazu müssen wir uns die Möglichkeiten vor Augen führen: (K = Kopf; W = Wappen) WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK Wir haben folglich 8 Möglichkeiten, davon erfüllt eine unsere Bedingung. Die Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.

88 88 Wahrscheinlichkeit p bei drei Würfen

89 89 Wie groß ist die Wahrscheinlichkeit viermal Kopf zu erhalten, wenn vier mal eine Münze geworfen wird? Dazu erneut die Möglichkeiten: (K = Kopf; W = Wappen) W W W WK K K KW W K KK W K W W W W KK K K WW K K WW K W K W W K WK K W KK K W W W K W WK W K KK W W K K W W WW K K K Wir haben folglich 16 Möglichkeiten, davon erfüllt eine unsere Bedingung. Die Wahrscheinlichkeit p ist demnach 1/16 oder 0,0625.

90 90 Signifikanzstufen IrrtumswahrscheinlichkeitBedeutungSymbolisierung p > 0,05nicht signifikantns p <= 0,05signifikant* p <= 0,01sehr signifikant** p <= 0,001höchst signifikant***

91 91 Ein Wert von p = 0.05 besagt unter der Annahme, dass kein Effekt existiert, dass – vereinfacht aus- gedrückt, puristische Methodiker mögen mit der Stirn runzeln – bei dieser Stichprobengröße ein mindestens so großer Effekt nur in 5% aller vergleichbar angelegter Studien beobachtet werden kann. Rost 2007, 81

92 92 Irrtumswahrscheinlichkeit: Ein p = 0,03 bedeutet: Die Wahrscheinlichkeit, dass unter der Annahme, die Nullhypothese sei richtig, das gegebene Untersuchungsergebnis oder ein noch extremeres auftritt, beträgt 0,03 oder 3%. Signifikanzstufen p <= 0,05signifikant* p <= 0,01sehr signifikant** p <= 0,001höchst signifikant***

93 93 Ergebnis einer hypothetischen Studie, in der die Ausbildung von Paaren verglichen wird (aus: Sedlmeier & Renkewitz 2008, 370): PartnerPartnerinVorzeichen StudiumRealschule + GymnasiumRealschule + Gymnasium = Es finden sich somit 7 positive Vorzeichen. Ist das Ergebnis auf dem 5% Niveau signifikant? Wie hoch ist die Wahrscheinlichkeit für 0, 1, 2 etc. positive Vorzeichen? Vorzeichentest nach Fischer

94 94

95 95 Wenn, wie im vorliegenden Fall, von zehn Paaren sieben ein positives Vorzeichen aufweisen (Bildungsabschluss des männlichen Partners höher als der des weiblich), dann liegt die Wahrscheinlichkeit dafür: 0,1 % + 1,0 % + 4,4 % + 11,7 % = 17,2 % Es wäre gemäß der Konvention also falsch, daraus irgendwelche Schlussfolgerungen zu ziehen, weil ns.

96 96 Erstellen einer einfachen Probedatei mit folgendem Inhalt:

97 97 Bei zwei Beobachtungen pro Schulform ergeben sich damit 3 mal 8 = 24 Kombinationsmöglichkeiten: SchulformAbschluss

98 98 Die Wahrscheinlichkeit p ist demnach für eine Abweichung von einem Fall bei sechs Beobachtungen 01/06 entspricht der Wahrscheinlichkeit vom 8/24 p = 0,33333

99 99

100 100

101 101

102 102

103 103

104 104

105 105

106 106

107 107

108 108 N = 80

109 109 N = 4

110 110 N = 8

111 111 N = 16

112 112

113 113 N = 80

114 114 N = 4

115 115 N = 4

116 116 N = 8

117 117 N = 16


Herunterladen ppt "1 schlecht gut. 2 Unterschiede messen 0 1 2 3 4 5 6 7 8 9 10 MedianMean Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere."

Ähnliche Präsentationen


Google-Anzeigen