Deskriptive Statistik und Wahrscheinlichkeitstheorie

Slides:



Advertisements
Ähnliche Präsentationen
Quanti Tutorium
Advertisements

T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Univariate Statistik M. Kresken.
Der F - Test Man prüft, ob sich 2 Varianzen unterscheiden, mit dem F-Quotienten: Geprüft werden stets die Schätzungen der Populationsvarianzen aufgrund.
Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Mittlere absolute Abweichung vom Mittelwert(1)
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Lagemaße kritische Fragen
Streuungsmaß 3: absolute Abweichung vom Mittelwert
Forschungsstrategien Johannes Gutenberg Universität Mainz
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Gliederung Der Begriff der Stichprobe, Stichprobenfehler
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik II
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Kapitel 1 Das Schubfachprinzip
Prüfung statistischer Hypothesen
Die Standardnormalverteilung
Deskriptive Statistik und Wahrscheinlichkeitstheorie
Konzentrationsmaße (Gini-Koeffizient, Lorenz-Kurve) Konzentrationsmaße Kennwert für die wirtschaftliche Konzentration Typische Beispiele: Verteilung des.
Datenmatrix. Datentabelle für 2 Merkmale Kontingenztafel der absoluten Häufigkeiten.
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Median Merkmal Geordneter Datensatz
Die Vorlesung Mathematik I (Prof. Kugelmann) findet heute um 14:30 Uhr im Hörsaal Loefflerstraße 70 statt.
Datenmatrix.
Häufigkeiten Gegeben ist eine Datenliste (Urliste) (hier z. B. die Klausur-Noten von 50 Studenten)
Streuungsparameter für Median Mittlere Abweichung vom Median Die Ungleichung gilt für jede Konstante c.
Univariate Statistik M. Kresken.
Deskriptive Statistik
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Das wars!.
Diskrete Wahrscheinlichkeitsmodelle
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Wiederholung und Beispiele
Daten auswerten Boxplots
Diskrete Mathe 9 Vorlesung 9 SS 2001
Diagramme für Häufigkeiten und Prozentwerte
Ausgleichungsrechnung II
Ausgleichungsrechnung I
Aufgabenzettel V Statistik I
Forschungsmethoden Masse der zentralen Tendenz Horst Biedermann Departement Erziehungswissenschaften, Universität Fribourg.
Grundbegriffe und Kennwerte
Seminar: Datenerhebung
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) 3. Ausgaben ( ) Wiederholung Tabellen,
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
Mittelwert und Standardabweichung
Kennwerte und Boxplots
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 1852 WS 2005/06 1.Dezember 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Referat über das Thema STOCHASTIK.
Empirische Softwaretechnik
Der Zentralwert.
Deskriptive Statistik
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Veranstaltung 4.
Erheben, berechnen und darstellen von Daten
Mathematik für BiologInnen WS 05
setzt Linearität des Zusammenhangs voraus
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Verteilungen, Varianz Tamara Katschnig.
Weitere Informationen zur Vorlesung 1)In den Übungen werden die Aufgaben besprochen, die Sie im Internet auf der Seite meines Lehrstuhls finden. 2) Die.
Deskriptive Statistik, Korrelationen, Mittelwertvergleiche, Graphiken
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
Statistik III Statistik III 2. Streuungsmaße (Dispersionsmaße)
Ein Dozent hat mittels eines Fragebogens die Körpergröße seiner Studenten festgestellt. Anhand der erfassten Daten weiß er, dass der kleinste Student 158.
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
 Präsentation transkript:

Deskriptive Statistik und Wahrscheinlichkeitstheorie Termin3 Tutorat Deskriptive Statistik und Wahrscheinlichkeitstheorie Kai Vogt vogtkai@gmx.net

Wichtiges aus Termin 2 Kategorien Häufigkeiten Regeln zur Kategoriebildung Scheinbare- vs. Wahre Kategoriegrenzen Offene Kategoriegrenzen Häufigkeiten Relative Häufigkeit, absolute Häufigkeit und kumulierte Häufigkeit Maße der zentralen Tendenz Modalwert, Median und arithmetisches Mittel berechnen. Voraussetzungen, Vorteile und Nachteile der Kennwerte kennen.

Verteilungskurven Y-Achse: Personenzahl (Häufigkeit) N steht für die Gesamtstichprobe n steht für eine definierte Teilstichprobe (Gruppe) X-Achse: Variablenwerte ( )

Modus, Median, Mittelwert und Verteilungsform = Linksschiefe Verteilung = Rechtsschiefe Verteilung Verteilungsform ist für viele inferenzstatistische Tests von Bedeutung! Mo > AM  Rechtssteile Verteilung Mo < AM  Linkssteile Verteilung Mo = AM  Symmetrische Verteilung

Verteilungsform I: Schiefe Berechnung der Schiefe (a3): a3<0  rechtssteile Verteilung a3=0  symmetrische Verteilung a3>0  linkssteile Verteilung a3<0 a3>0

Verteilungsform II: Exzess (Kurtosis) Berechnung der Kurtosis (a4): a4<3  breitgipflige Verteilung (platykurtisch) a4=3  normale Verteilung a4>3  schmalgipflige Verteilung (leptokurtisch) a4<3 a4>3

Maße der Dispersion Range Interquartilabstand AD-Streuung Varianz Standardabweichung Variationskoeffizient

Range Den Range bezeichnet man auch als Spannweite oder Variatonsbreite. Für kontinuierliche Variablen: Range = maximaler Wert – minimaler Wert. Für diskrete Variablen: Range = maximaler Wert – minimaler Wert + 1 (bei nominalskalierten Variablen = Kategorienanzahl) Voraussetzung: Nominalskalenniveau. Nachteile: Anfällig für Ausreißerwerte. Nur 2 Rohwerte fließen in Kennwert ein.

Range Minimum Maximum Geschlecht 1 2 Wohnort 5 Optimismus Alter 19 45 Wie groß ist der Range? Minimum Maximum Geschlecht 1 2 Wohnort 5 Optimismus Alter 19 45 Neugierde 20 100 Größe 1.55 1.96

Beispiel: Range Berechnet für diesen Datensatz den Range. Diskrete Variable: Range = max. Wert – min. Wert + 1 → Range 5 – 1 + 1 = 5

Quartile & Interquartilabstand Quartile sind die Punkte einer Verteilung bezeichnet, welche die geordnete Liste von Werten in vier Bereiche mit jeweils 25% der Stichprobe einteilen.  Es gibt also 3 Quartile. Wegen dessen Ausreißeranfälligkeit wird statt des Range oft der Abstand zwischen dem 1. und dem 3. Quartil - der Interquartilabstand (IQA)–verwendet. Im Interquartilbereich als Maß für den „Kernbereich“ einer Verteilung liegen 50% der Stichprobe.

Bestimmung der Quartile Es wird der Median bestimmt (Q2). Der Median ist Ausgangspunkt („Nullpunkt“) für die Bestimmung von Q1 (25%) und Q2 (75%). Vom Md ausgehend, berechnet ihr für die untere bzw. obere Teilhälfte noch zweimal einen Median. Dies sind Q1 bzw. Q3. Wichtig für gerade Stichprobengrößen: Der Median wird selbst als „virtueller“ Messwert berücksichtigt. Anders ausgedrückt: Habe ich eine gerade Stichprobe, verwende ich zur Bestimmung von Q1 und Q3 dann die Formel für ungerade Stichproben. Diese Folie ist ein gutes Beispiel, warum es didaktisch bisweilen günstiger ist, erst die Rechnung und dann die zugehörige Theorie durchzugehen.

Interquartilabstand Berechnung des Interquartilabstands Kontinuierliche Variablen: IQA = Q3 – Q1 Diskrete Variablen: IQA = Q3 – Q1 (+1) Vorraussetzung: Ordinalskalenniveau. Vorteil: nicht so stark anfällig gegen Extremwerte Nachteil: Nur 50% des Gesamtbereichs der Rohwerte gehen in den Kennwert ein.

Beispiel: Geordnete Reihe der Messwerte: Median berechnen: Md = Q2 = (3 + 3)/2 = 3 2. Quartile Q1 und Q3 berechnen: Q1 = 2 und Q3 = 4 3. IQA berechnen: IQA = Q3 – Q 1= 4 – 2 = 2 Virtueller Ausgangspunkt zur Bestimmung von Q1 und Q3.

AD-Streuung Formel der AD-Streuung: Voraussetzung: Intervallskalenniveau. Vorteil: Alle Rohwerte fließen in den Kennwert mit ein. Notation: Sigma  Varianz  griechisch weil unbekannt Hoch zwei = quadrieren (ist klar) Subskript x  Varianz der variablen x Summe mit Index von 1 bis N – also über alle Werte der Stichprobe Was wird summiert? die quadrierte Abweichung: x_i, der Wert der Person i, minus mu, dem griechischen M, für Mittelwert  und diese Differenz wird dann quadriert Am Ende wird sie durch die Anzahl der Werte geteilt, so daß die Varianz schließlich definiert ist als die mittlere Abweichung der Werte von x vom Gesamtmittelwert Nachteil: Viele kleine Abweichungen haben denselben Einfluss wie ein großer abweichender Wert.  Um Unterschiede besser darzustellen: Varianz bzw. Standardabweichung

Varianz Formel der Varianz: Die Varianz als wichtigstes Dispersionsmaß beschreibt die mittlere quadrierte Abweichung vom Gesamtmittelwert. Vorteile: Die Berechnung berücksichtigt jeden Einzelwert; es gibt keinen Informationsverlust. Größere Abweichungen sind von höherer Relevanz. Nachteil: Die Varianz ist durch die Bildung der Quadrate schwer zu interpretieren; sie ist ein unstandardisiertes Maß  Daher wird oft die Standardabweichung verwendet Formel der Varianz: Voraussetzung: Intervallskalenniveau. σ² : Varianz in der Population μ: Mittelwert in der Population Notation: Sigma  Varianz  griechisch weil unbekannt Hoch zwei = quadrieren (ist klar) Subskript x  Varianz der variablen x Summe mit Index von 1 bis N – also über alle Werte der Stichprobe Was wird summiert? die quadrierte Abweichung: x_i, der Wert der Person i, minus mu, dem griechischen M, für Mittelwert  und diese Differenz wird dann quadriert Am Ende wird sie durch die Anzahl der Werte geteilt, so daß die Varianz schließlich definiert ist als die mittlere Abweichung der Werte von x vom Gesamtmittelwert

Standardabweichung Die SD berechnet man schlicht durch Ziehen der Quadratwurzel aus der Varianz. Vorraussetzungen und Vorteile sind dieselben wie bei der Varianz. Berechnung aus den Daten der kompletten Population: SD = Englisch: Standard Deviation Schätzung aus den Daten einer Stichprobe:

Variationskoeffizient Gibt den Prozentsatz der Standardabweichung im Bezug auf den Mittelwert wieder. Gut zum Vergleichen von mehreren Variabilitäten. SD = Englisch: Standard Deviation

Lateinische vs. griechische Buchstaben: Population oder Stichprobe Lateinische Buchstaben  Stichprobe Griechische Buchstaben  Population Dabei ist der wahre Wert in der Population in der Praxis nicht bekannt – hierzu müsste nämlich die gesamte Population erhoben werden. In der empirisch-sozialwissenschaftlichen Praxis erheben wir immer Stichproben. Somit schätzen wir aus Stichprobendaten auf Populationsdaten. Dies machen wir durch die Verwendung eines Dachs (=„Schätzer“) über den griechischen Buchstaben deutlich. Eine Semantische Eselsbrücke: Stichprobe = Teil eines Ganzen Selbst wenn es möglich wäre, die gesamte interessierende Population zu erheben, wird man dies i.d.R. aus Effizienzerwägungen heraus nicht tun. Mit Stichproben lassen sich Zeit und Forschungsgelder sparen.

Drei Notationen auf einen Blick Lateinischer Buchstabe: Beschreibt die Stichprobe Griechischer Buchstabe: Beschreibt die Population Griechischer Buchstabe mit Dach: Schätzt aus Stichprobendaten den Populationswert (konservatives Vorgehen mit Freiheitsgrad: N- 1)

Population oder Stichprobe? Mich interessiert der Mittelwert der mathematischen Kenntnisse in diesem Tutorat. Ich erhebe mit einer 20- stufigen Skala die Daten jedes Teilnehmers. Population Forschungsfrage analog zu 1. Diesmal erhebe ich allerdings nur die Daten der Hälfte der Teilnehmer. Stichprobe Ich erhebe die mathematischen Kenntnisse aller Studenten eures Semesters. Mich interessiert nun der Mittelwert der deutschen Psychologiestudierenden in eurem Jahrgang.

Varianz in der Population Populationsvarianz, die aus einer Stichprobe geschätzt wurde. Die Stichprobenvarianz ist kein erwartungstreuer Schätzer (im Gegensatz zum Mittelwert); sie unterschätzt die Populationsvarianz. Diese Abweichung ist umso stärker, je kleiner die Stichprobe ist. Die Formel für die Stichprobenvarianz korrigiert diese Unterschätzung. Freiheitsgrade: Beim Term im Nenner des Bruchs (N-1) spricht man von Freiheitsgraden.

Berechnet für diesen Datensatz Varianz und Standardabweichung. Rechenbeispiel Berechnet für diesen Datensatz Varianz und Standardabweichung. Anmerkung: Wir wollen eine Schlussfolgerung für euren gesamten Jahrgang ableiten.

Kennwerte und Skalenniveaus Maß Vorraussetzung Häufigkeit / Prozente Nominal Modalwert Median Ordinal Quartile arithmetisches Mittel Intervall Varianz Standardabweichung Schiefe Exzess Bei einem jeweils höherem Skalenniveau darf ein Maß selbstverständlich auch eingesetzt werden!

Wichtiges aus Termin 3 Verteilungsformen Maße der Dispersion Schiefe & Exzess Maße der Dispersion Welche Kennwerte gibt es… (Range, IQA, Varianz, Standardabweichung usw.) Einfache Berechnungen Voraussetzungen, Vor und Nachteile Stichprobe und Population Notationsunterschiede (Stichprobe  Lateinische Buchstaben, Population  Griechische Buchstaben) Freiheitsgrade (Warum?)

Vielen Dank für eure Aufmerksamkeit! Bis nächste Woche… Schreibt euch Fragen auf wenn ihr welche habt… Fragen an vogtkai@gmx.net Vielen Dank für eure Aufmerksamkeit!