Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt Termin3.

Ähnliche Präsentationen


Präsentation zum Thema: "Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt Termin3."—  Präsentation transkript:

1 Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt Termin3

2 W ICHTIGES AUS T ERMIN 2 Kategorien Regeln zur Kategoriebildung Scheinbare- vs. Wahre Kategoriegrenzen Offene Kategoriegrenzen Häufigkeiten Relative Häufigkeit, absolute Häufigkeit und kumulierte Häufigkeit Maße der zentralen Tendenz Modalwert, Median und arithmetisches Mittel berechnen. Voraussetzungen, Vorteile und Nachteile der Kennwerte kennen. 2

3 V ERTEILUNGSKURVEN 3 X-Achse: Variablenwerte ( ) Y-Achse: Personenzahl (Häufigkeit) N steht für die Gesamtstichprobe n steht für eine definierte Teilstichprobe (Gruppe)

4 M ODUS, M EDIAN, M ITTELWERT UND V ERTEILUNGSFORM 4 = Linksschiefe Verteilung= Rechtsschiefe Verteilung Mo > AM Rechtssteile Verteilung Mo < AM Linkssteile Verteilung Mo = AM Symmetrische Verteilung

5 Verteilungsform I: Schiefe Berechnung der Schiefe (a 3 ): a 3 <0 rechtssteile Verteilung a 3 =0 symmetrische Verteilung a 3 >0 linkssteile Verteilung a 3 0 5

6 Verteilungsform II: Exzess (Kurtosis) Berechnung der Kurtosis (a 4 ): a 4 <3 breitgipflige Verteilung (platykurtisch) a 4 =3 normale Verteilung a 4 >3 schmalgipflige Verteilung (leptokurtisch) a 4 3 6

7 M AßE DER D ISPERSION Range Interquartilabstand AD-Streuung Varianz Standardabweichung Variationskoeffizient 7

8 R ANGE Den Range bezeichnet man auch als Spannweite oder Variatonsbreite. Für kontinuierliche Variablen: Range = maximaler Wert – minimaler Wert. Für diskrete Variablen: Range = maximaler Wert – minimaler Wert + 1 (bei nominalskalierten Variablen = Kategorienanzahl) Voraussetzung : Nominalskalenniveau. Nachteile : Anfällig für Ausreißerwerte. Nur 2 Rohwerte fließen in Kennwert ein. 8

9 Range MinimumMaximum Geschlecht12 Wohnort15 Optimismus15 Alter1945 Neugierde20100 Größe Wie groß ist der Range? 9

10 B EISPIEL : R ANGE Berechnet für diesen Datensatz den Range. 10 Diskrete Variable: Range = max. Wert – min. Wert + 1 Range 5 – = 5

11 Q UARTILE & I NTERQUARTILABSTAND Quartile sind die Punkte einer Verteilung bezeichnet, welche die geordnete Liste von Werten in vier Bereiche mit jeweils 25% der Stichprobe einteilen. Es gibt also 3 Quartile. Wegen dessen Ausreißeranfälligkeit wird statt des Range oft der Abstand zwischen dem 1. und dem 3. Quartil - der Interquartilabstand (IQA) –verwendet. Im Interquartilbereich als Maß für den Kernbereich einer Verteilung liegen 50% der Stichprobe. 11

12 B ESTIMMUNG DER Q UARTILE 1. Es wird der Median bestimmt (Q2). 2. Der Median ist Ausgangspunkt (Nullpunkt) für die Bestimmung von Q1 (25%) und Q2 (75%). 3. Vom Md ausgehend, berechnet ihr für die untere bzw. obere Teilhälfte noch zweimal einen Median. Dies sind Q1 bzw. Q3. Wichtig für gerade Stichprobengrößen: Der Median wird selbst als virtueller Messwert berücksichtigt. Anders ausgedrückt: Habe ich eine gerade Stichprobe, verwende ich zur Bestimmung von Q1 und Q3 dann die Formel für ungerade Stichproben. 12

13 I NTERQUARTILABSTAND o Berechnung des Interquartilabstands Kontinuierliche Variablen: IQA = Q3 – Q1 Diskrete Variablen: IQA = Q3 – Q1 (+1) o Vorraussetzung: Ordinalskalenniveau. Vorteil: nicht so stark anfällig gegen Extremwerte Nachteil: Nur 50% des Gesamtbereichs der Rohwerte gehen in den Kennwert ein. 13

14 B EISPIEL : Geordnete Reihe der Messwerte: 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2.5, 2.5, 3, 3, 3, 3, 3, 3, 3, 3, 3.5, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5 (N = 34) 1. Median berechnen: Md = Q2 = (3 + 3)/2 = 3 2. Quartile Q1 und Q3 berechnen: Q1 = 2 und Q3 = 4 3. IQA berechnen: IQA = Q3 – Q 1= 4 – 2 = 2 14 Virtueller Ausgangspunkt zur Bestimmung von Q1 und Q3.

15 AD-Streuung Formel der AD-Streuung: Voraussetzung: Intervallskalenniveau. 15 Vorteil: Alle Rohwerte fließen in den Kennwert mit ein. Nachteil: Viele kleine Abweichungen haben denselben Einfluss wie ein großer abweichender Wert. Um Unterschiede besser darzustellen: Varianz bzw. Standardabweichung

16 Varianz Die Varianz als wichtigstes Dispersionsmaß beschreibt die mittlere quadrierte Abweichung vom Gesamtmittelwert. Vorteile: Die Berechnung berücksichtigt jeden Einzelwert; es gibt keinen Informationsverlust. Größere Abweichungen sind von höherer Relevanz. Nachteil: Die Varianz ist durch die Bildung der Quadrate schwer zu interpretieren; sie ist ein unstandardisiertes Maß Daher wird oft die Standardabweichung verwendet σ² : Varianz in der Population μ: Mittelwert in der Population Formel der Varianz: Voraussetzung: Intervallskalenniveau. 16

17 Standardabweichung Die SD berechnet man schlicht durch Ziehen der Quadratwurzel aus der Varianz. Vorraussetzungen und Vorteile sind dieselben wie bei der Varianz. Schätzung aus den Daten einer Stichprobe: Berechnung aus den Daten der kompletten Population: 17

18 Variationskoeffizient 18 Gibt den Prozentsatz der Standardabweichung im Bezug auf den Mittelwert wieder. Gut zum Vergleichen von mehreren Variabilitäten.

19 L ATEINISCHE VS. GRIECHISCHE B UCHSTABEN : P OPULATION ODER S TICHPROBE Lateinische Buchstaben Stichprobe Griechische Buchstaben Population Dabei ist der wahre Wert in der Population in der Praxis nicht bekannt – hierzu müsste nämlich die gesamte Population erhoben werden. In der empirisch-sozialwissenschaftlichen Praxis erheben wir immer Stichproben. Somit schätzen wir aus Stichprobendaten auf Populationsdaten. Dies machen wir durch die Verwendung eines Dachs (=Schätzer) über den griechischen Buchstaben deutlich. 19

20 D REI N OTATIONEN AUF EINEN B LICK 20 Lateinischer Buchstabe: Beschreibt die Stichprobe Griechischer Buchstabe: Beschreibt die Population Griechischer Buchstabe mit Dach: Schätzt aus Stichprobendaten den Populationswert (konservatives Vorgehen mit Freiheitsgrad: N- 1)

21 P OPULATION ODER S TICHPROBE ? 1. Mich interessiert der Mittelwert der mathematischen Kenntnisse in diesem Tutorat. Ich erhebe mit einer 20- stufigen Skala die Daten jedes Teilnehmers. Population 2. Forschungsfrage analog zu 1. Diesmal erhebe ich allerdings nur die Daten der Hälfte der Teilnehmer. Stichprobe 3. Ich erhebe die mathematischen Kenntnisse aller Studenten eures Semesters. Mich interessiert nun der Mittelwert der deutschen Psychologiestudierenden in eurem Jahrgang. Stichprobe 21

22 V ARIANZ IN DER P OPULATION Die Stichprobenvarianz ist kein erwartungstreuer Schätzer (im Gegensatz zum Mittelwert); sie unterschätzt die Populationsvarianz. Diese Abweichung ist umso stärker, je kleiner die Stichprobe ist. Die Formel für die Stichprobenvarianz korrigiert diese Unterschätzung. Freiheitsgrade: Beim Term im Nenner des Bruchs ( N -1) spricht man von Freiheitsgraden. 22 Populationsvarianz, die aus einer Stichprobe geschätzt wurde.

23 23 R ECHENBEISPIEL Berechnet für diesen Datensatz Varianz und Standardabweichung. Anmerkung: Wir wollen eine Schlussfolgerung für euren gesamten Jahrgang ableiten.

24 Kennwerte und Skalenniveaus MaßVorraussetzung Häufigkeit / ProzenteNominal ModalwertNominal MedianOrdinal QuartileOrdinal arithmetisches MittelIntervall VarianzIntervall StandardabweichungIntervall SchiefeIntervall ExzessIntervall Bei einem jeweils höherem Skalenniveau darf ein Maß selbstverständlich auch eingesetzt werden! 24

25 W ICHTIGES AUS T ERMIN 3 Verteilungsformen Schiefe & Exzess Maße der Dispersion Welche Kennwerte gibt es… (Range, IQA, Varianz, Standardabweichung usw.) Einfache Berechnungen Voraussetzungen, Vor und Nachteile Stichprobe und Population Notationsunterschiede (Stichprobe Lateinische Buchstaben, Population Griechische Buchstaben) Freiheitsgrade (Warum?) 25

26 V IELEN D ANK FÜR EURE A UFMERKSAMKEIT ! Bis nächste Woche… Schreibt euch Fragen auf wenn ihr welche habt… Fragen an 26


Herunterladen ppt "Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie 1 Kai Vogt Termin3."

Ähnliche Präsentationen


Google-Anzeigen