Statistiktutorat Sitzung 3: Grafische Darstellungen und Wahrscheinlichkeitsrechnung christian_langrock@web.de.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Stochastik und Markovketten
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Klassen (Zweck) Wozu legt man Klassen an? Überblick
Aufgabe Analyse (Friedman-Test) von letzter Stunde wiederholen
Hypothesenprüfung nach Bayes
Gliederung Vertrauensintervalle Arten von Hypothesen
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Gliederung Tabellarische und grafische Darstellung von Rohwerten mittels Histogramme und Polygone Statistische Kennwertbeschreibung mittels Tendenz- und.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Kapitel 1 Das Schubfachprinzip
Hypothesen testen: Grundidee
2. Univariate Regressionsanalyse 2.1 Das statische Regressionsmodell
Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung
Statistiktutorat: Datenkontrolle
Konfidenzintervalle Intervallschätzung
Wahrscheinlichkeitsräume. A. N. Kolmogorov Kolmogorov wurde (mehr zufällig, seine Mutter war auf der Durchreise) in Tambov, Russland, geboren.
Bedingte Wahrscheinlichkeiten
Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Univariate Statistik M. Kresken.
AWA 2007 Natur und Umwelt Natürlich Leben
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Vorlesung Biometrie für Studierende der Veterinärmedizin
Vorlesung: Biometrie für Studierende der Veterinärmedizin
Zur Kommunikation von Wahrscheinlichkeiten
Wiederholung und Beispiele
Vorlesung: ANOVA I
Wahrscheinlichkeitsrechnung
Eigenschaften der OLS-Schätzer
Daten auswerten Boxplots
20:00.
Histogramm/empirische Verteilung Verteilungen
Diagramme für Häufigkeiten und Prozentwerte
Wahrscheinlichkeitsrechnung Grundbegriffe
Wahrscheinlichkeitsrechnung
SPSS für Windows Auswertung von Marktforschungsdaten mit SPSS für Windows WINDER Thomas Porzellangasse 32, 1090 Wien.
Vorbereitung zur Reife- und Diplomprüfung Statistik
Aufgabenzettel V Statistik I
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Definitionen für Wahrscheinlichkeiten
Kennwerte und Boxplots
Gleichungen und Gleichungssysteme
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
Wahrscheinlichkeitsrechnung
PROCAM Score Alter (Jahre)
Wahrscheinlichkeitsrechnung
Referat über das Thema STOCHASTIK.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Symmetrische Blockchiffren DES – der Data Encryption Standard
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1. 2. Berechnen von Wahrscheinlichkeiten
Der Zentralwert.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Bioinformatik Vorlesung
Erheben, berechnen und darstellen von Daten
Stochastik Grundlagen
K. Desch - Statistik und Datenanalyse SS05 Statistik und Datenanalyse 1.Wahrscheinlichkeit 2.Wahrscheinlichkeitsverteilungen 3.Monte-Carlo-Methoden 4.Statistische.
Mathematik Q1 -Stochastik. Die Immunschwächekrankheit AIDS wird durch das HI-Virus, welches 1993 entdeckt wurde, verursacht. Die Krankheit gilt bis heute.
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
 Präsentation transkript:

Statistiktutorat Sitzung 3: Grafische Darstellungen und Wahrscheinlichkeitsrechnung christian_langrock@web.de

Aufgabenblatt III, Aufgabe 1 m = 1 + 3.32 · log (N)

Aufgabenblatt III, Aufgabe 2 Welche grafischen Darstellungsformen sind besonders geeignet? Entscheiden Sie sich immer für eine Diagrammform! Zusammenhang 2er stetiger (kontinuierlicher) Variablen → Scatterplot Häufigkeit; 1 diskrete Variable → Kreisdiagramm

Aufgabenblatt III, Aufgabe 2 Verteilung; 1 stetige (kontinuierliche) Variable → Histogramm, Boxplot oder Stem-and-Leaf-Plot Häufigkeit; 1 diskrete Variable → Balkendiagramm

Aufgabenblatt III, Aufgabe 3 Stelle die folgenden Gewichtsangaben in kg als Stem-and-Leaf-Plot dar. 65, 54, 53, 55, 48, 80, 77, 63, 63, 58, 60, 66, 54, 52, 68, 59, 63, 68, 70, 58, 53, 62

Aufgabenblatt III, Aufgabe 4 Skizziere schematisch einen Box-Plot dar und beschrifte die relevanten Elemente.

Aufgabenblatt III, Aufgabe 5 Welchen Vorteil hat die grafische Darstellung einer Verteilung mittels eines Boxplots gegenüber dem Balkendiagramm? Aussagen über den Kernbereich der Vereilung möglich (Box). Extrem- & Ausreißerwerte ersichtlich (Kreise, Sterne). Aussagen über Variabilität der Werte möglich (Whiskers).

Grafische Darstellungen

Boxplot Boxplots stellen viele Verteilungsinformationen gleich-zeitig dar: Man sieht den Median, den Interquartilabstand, den Range und so genannte Ausreißer- und Extremwerte. In der Praxis dienen Boxplots primär der Kontrolle von besagten Ausreißer- und Extremwerten. Als Ausreißer gelten Werte die mehr als das 1.5fache des des Interquartilabstandes unter Q1 oder über Q3 liegen. Als Extremwerte gelten Werte, die mehr als das 3fache des Interquartilabstandes unter Q1 oder über Q3 liegen. Beispiel: Q1 = 30; Q3 = 38; IQA = 8  Ausreißer: x < 18 oder x > 50  Extremwerte: x < 6 oder x > 62

Boxplot Beispiel I: Range = 85 IQA = 30 Max = 90 Q3 = 60 Md = 43.5 Min = 5

Boxplot Beispiel II: Grenze für Extremwerte: 25.25 + 3·5.25 = 41 Grenze für Ausreißer: 25.25 + 1.5·5.25 ≈ 33.1 Q3 = 25.25 IQA = 5.25 Q1 = 20

Welche grafische Darstellung ist hier gewählt? Balkendiagramm (Häufigkeit in %)

Welche grafische Darstellung ist hier gewählt? Balkendiagramm (Mittelwerte)

Welche grafische Darstellung ist hier gewählt? Histogramm Was unterscheidet ein Histogramm von Balkendiagrammen oder Polygonen? geeignet für kontinuierliche Variablen

Welche grafische Darstellung ist hier gewählt? Scatterplot Was stellt ein Scatterplot dar? Zusammenhänge zwischen Variablen

Was fehlt… Welche Möglichkeiten der grafischen Darstellung außer Balkendiagrammen, Histogrammen und Scatterplots kennt ihr und was wird jeweils dargestellt? Stem-and-Leaf-Plot; exakte Werte. Kreisdiagramm; (relative) Häufigkeit. Polygon; (absolute) Häufigkeit. Boxplot; Verteilungskennwerte.

Arbeitsblatt 3, Aufgabe 1 Nennen Sie drei Unterschiede zwischen einem Polygon und einem Histogramm. Ein Polygon überspringt leere Kategorien. Ein Polygon eignet sich für diskrete Variablen, ein Histogramm für kontinuierliche. Beim Histogramm werden automatisch Kategorien gebildet.

Arbeitsblatt 3, Aufgabe 2 Nennen Sie einen wichtigen Unterschied bei der Darstellung einer Verteilung als Histogramm und als Balkendiagramm. Für welchen Variablentyp sind die Darstellungen jeweils besonders geeignet? Beim Histogramm werden Kategorien gebildet; beim Balkendiagramm nicht. Daher ist das Histogramm gut für kontinuierliche Variablen und das Balkendiagramm für diskrete Variablen geeignet.

Arbeitsblatt 3, Aufgabe 3 Stellen Sie folgende Verteilung als Häufigkeitstabelle dar (Schätzung): Wert Häufigkeit 1 2 5 3 16 4 42 38 Gesamt 78

Arbeitsblatt 3, Aufgabe 4 Bilden Sie ein „stem-and-leaf-plot“ für folgende Verteilung von Werten der Körpergröße:

Arbeitsblatt 3, Aufgabe 5 Der Boxplot stellt die Verteilungen der Reaktionszeiten einer Versuchsperson in einer Computeraufgabe in Millisekunden dar. Geben Sie bitte folgende Werte so genau wie möglich an: (a) 1. Quartil (Q1) (b) Median (Q2) (c) 3. Quartil (Q3) (d) Interquartilabstand (e) Range (für den um Ausreißer und Extremwerte bereinigten Datensatz). Berechnen Sie auch die Grenzen für (f) Ausreißerzeiten und (g) Extremwerte.

Arbeitsblatt 3, Aufgabe 5 Lösungen:

Wahrscheinlichkeitsrechnung

Wozu, weshalb, warum? Wir erinnern uns: Der große Rahmen… Stochastik = griechisch für „Kunst des Mutmaßens“ Mathematische Stochastik beschäftigt sich mit der Beschreibung und Untersuchung von Zufallsexperimenten Als mathematische Statistik (auch: schließende Statistik, induktive Statistik, Inferenzstatistik oder inferentielle Statistik) bezeichnet man das Teilgebiet der Statistik, das sich mit Analyse von Daten unter mathematischen Modellen beschäftigt

Der „Ereignisraum“ Die WS für Ereignisse liegt zwischen 0 (unmöglich) und 1 (sicher).

A priori oder Laplace Wahrscheinlichkeit (WS) Wenn vor Durchführung eines Zufallsexperiments: Alle möglichen Ereignisse bekannt sind und jedes Ereignis mit der gleichen WS auftritt dann kann die WS für das Auftreten eines Ereignisses (A) im Vorhinein („a priori“) mittels der Formel von Laplace geschätzt werden. Relativer Anteil der „günstigen Fälle“ an allen möglichen Ereignissen.

Beispiel: Laplace-WS Wie groß ist die WS, aus einem Kartenspiel mit 32 Karten mit einem Versuch folgende Karte(n) zu ziehen: Ein Herzass 1/32 Einen König 4/32 = 1/8 Eine schwarze Karte 16/32 = 1/2

Laplace-WS grafisch

A posteriori oder Bernoulli-WS In er psychologischen Forschungspraxis ist a priori zumeist weder die Anzahl der möglichen Fälle bekannt, noch hat jeder Fall die gleiche Auftretens-wahrscheinlichkeit (→ viele psychologisch relevante Variablen sind normalverteilt). Daher schätzt man die Häufigkeit des Auftretens von (A) im Nachhinein („a posteriori)“ nach sehr vielen Durchgängen eines Zufallsexperiments mittels der Formel von Bernoulli. Grenzwert der relativen Häufigkeit des Eintretens der „günstigen Fälle“ bei sehr häufigem Durchführen eines Zufallsexperimentes.

Beispiel: Bernoulli-WS Geben Sie die Wahrscheinlichkeit dafür an, dass ein/e zufällig angesprochene/r Freiburger Psychologiestudent/in weiblich ist. sex Häufigkeit p w 58 m 20 Gesamt 78   0.74 0.26

Bernoulli-WS grafisch „nicht“ A, bzw. das Komplementärereignis zu A

Vp sex π(w) 1 1.00 2 0.50 3 0.33 4 5 0.60 6 7 0.57 8 0.63 9 0.66 10 0.70  Je größer N wird, desto genauer wird unsere Schätzung. Dies bezeichnet man als Gesetz der großen Zahl.

Additionstheorem Mit dem Additionstheorem wird die Wahrscheinlichkeit berechnet, dass entweder Ereignis A oder Ereignis B eintritt. Bei „disjunkten“ Ereignissen, die niemals gleichzeitig auftreten, werden die Einzelwahrscheinlichkeiten von A und B einfach addiert: Bei nicht-disjunkten Ereignissen, wird die WS für A ∩ B von A + B abgezogen:

Additionstheorem grafisch Disjunktes Ereignis Nicht-disjunktes Ereignis

Multiplikationstheorem Mit dem Multiplikationstheorem wird die Wahrscheinlichkeit berechnet, dass die Ereignisse A und B gleichzeitig eintreten. Bei unabhängigen Ereignissen werden die Einzelwahrscheinlichkeiten einfach multipliziert: Bei abhängigen Ereignissen wird folgende Formel verwendet: Bedingte Wahrscheinlichkeit

Multiplikationstheorem grafisch

Stochastische Unabhängigkeit Um zu wissen, welche Formel des Multiplikationstheorems ich anwenden soll, muss ich die Ereignisse A und B auf Abhängigkeit bzw. Unabhängigkeit prüfen. Zwei Ereignisse sind stochastisch unabhängig, wenn die Wahrscheinlichkeit für Ereignis A nicht vom Eintreten von Ereignis B beeinflusst wird. Mathematisch ist stochastische Unabhängigkeit folgendermaßen definiert: Die Formel bedeutet: Wenn A unabhängig ist von B, dann kann B eintreten oder nicht – A bleibt gleich wahrscheinlich. Ob man vom Blitz getroffen wird (A), unabhängig davon, ob man morgens gefrühstückt hat (B) oder nicht (nicht-B). Ob man in einen Autounfall gerät (A), ist wahrscheinlich statistisch unabhängig von der politischen Partei, die man wählt.

Disjunkt- und Unabhängigkeit Disjunkte Ereignisse sind grundsätzlich unabhängig. Der Umkehrschluss gilt jedoch nicht: Ereignisse können mit einer WS>0 gemeinsam auftreten und dennoch statistisch voneinander unabhängig sein.

Bedingte Wahrscheinlichkeit Die bedingte Wahrscheinlichkeit gibt an, wie wahrscheinlich ein Ereignis ist, wenn ein anderes, (statistisch abhängiges) Ereignis schon eingetreten ist. Man schreibt: Wahrscheinlichkeit, dass A und B gleichzeitig eintreten. Wahrscheinlichkeit, dass B eintritt. Beispiele: wie wahrscheinlich ist es, an einer bestimmten psychologischen Störung zu leiden (=A), gegeben man ist weiblich (=B)? wie wahrscheinlich ist es, die Statistik-Klausur zu bestehen (=A), gegeben dass man regelmäßig an den Tutorate teilnimmt und die Arbeitsblätter bearbeitet (=B)? Nehmen wir an, ca. 80% von Ihnen gehen ins Tutorat: p(B)=.75 Nehmen wir weiter an, am Ende des Semesters zähle ich durch, wer die Klausur bestanden hat UND im Tutorat war - einige haben die Klausur bestanden, ohne ins Tutorat zu gehen (andere haben vielleicht trotz Tutoratbesuchs nicht bestanden): p(A UND B) = .66 Dann ist für Tutoratsbesucher die WS, die Klausur zu bestehen, fast bei 90%! Wahrscheinlichkeit von „A“ unter der Bedingung „B“

Bedingte Wahrscheinlichkeit Wir stellen uns also die Frage, ob B die Wahrscheinlichkeit für das Auftreten von A verändert oder nicht. Treten A und B überzufällig häufig gemeinsam auf, liegt eine bedingte WS vor. Die bedingte WS ergibt sich aus dem Multiplikationstheorem für abhängige Ereignisse:

Hier liegt keine bedingte WS vor: Die Häufigkeit von A ist nicht abhängig vom Aufreten von B. Hier liegt eine bedingte WS vor: Die Häufigkeit von A ist abhängig vom Aufreten von B. Inhaltlich Fall1: Die WS eine Frau zu sein ist nicht beeinflusst von der Bedingung Hautfarbe. Fall2: Die WS für Regen ist beeinflusst vom Ereignis Sommer. A B A

Beispiel: Stochastische Unabhängigkeit Die WS zwangskrank und Mann zu sein liegt bei 0.6%. Die WS zwangskrank und Frau zu sein liegt bei 0.4%. Unsere Population ist chinesisch; sie besteht zu 60% aus Männer und 40% aus Frauen. Belege mathematisch, dass die „Ereignisse“ Geschlecht und Zwangserkrankung unabhängig sind.

Beispiel: Bedingte WS 10% der Bevölkerung in Deutschland sind arm (Ereignis A). 5% der Bevölkerung ist arm und leidet unter einer psychischen Störung (Ereignis B). Wie groß ist die WS für einen Armen (Bedingung) unter einer psychischen Störung (Ereignis) zu leiden?

Vorsicht! Die WS für A unter der Bedingung B ist ungleich der WS für B unter der Bedingung A: Im Beispiel haben wir errechnet, dass 50% der Armen (Bedingung) unter einer psychischen Störung (Ereignis) leidet: Die Frage, welcher relative Anteil der psychisch gestörten (Bedingung) arm (Ereignis) ist, haben wir damit nicht beantwortet. Können wir die Frage überhaupt klären? Nein, da uns die WS für p (B) fehlt:

Das Theorem von Bayes Das Theorem von Bayes erlaubt es, die bedingten Wahrscheinlichkeiten p(A|B) und p(B|A) in Beziehung zu setzen: bzw. Das Theorem von Bayes erlaubt uns also, aus einer bekannten bedingten WS, die WS für die „Gegenbedingung“ zu berechnen.

Herleitung Das Theorem von Bayes wird aus der bedingten Wahrscheinlichkeit hergeleitet: Nach Umstellung

Beispiel: Theorem von Bayes 12% der Bevölkerung ist psychisch gestört; p(A). 10% der Bevölkerung ist arm; p(B). 50% der Armen ist psychisch gestört; p(A|B). Welcher Anteil der psychisch gestörten ist arm; p(B|A)?

Arbeitsblatt 4, Aufgabe 2 Wert Häufigkeit 1 2 23 3 9 4 38 5 7 Gesamt Gegeben sei eine Häufigkeitsverteilung: Wert Häufigkeit 1 2 23 3 9 4 38 5 7 Gesamt 78 Geben Sie an, wie wahrscheinlich es ist, dass ein Wert von (a) genau 5, (b) größer als 3, und (c) von 2 bis 4 vorkommt.

Arbeitsblatt 4, Aufgabe 3 Definieren Sie stochastische Unabhängigkeit. Geben Sie auch die mathematische Formel an. Zwei Ereignisse sind stochastisch unabhängig, wenn die Wahrscheinlichkeit für Ereignis A nicht vom Eintreten von Ereignis B beeinflusst wird: p(A) = p(A | B)

Arbeitsblatt 4, Aufgabe 4 (Theorem von Bayes) In einer Schule werden Kinder mit einer Wahrscheinlichkeit von p = 0.05 als besonders begabt klassifiziert. Diese Gruppe setzt sich aus 60% Mädchen und 40% Jungen zusammen. Insgesamt besteht die Schülerschaft zu 45% aus Mädchen. Wie wahrscheinlich ist es für ein Mädchen, als besonders begabt klassifiziert zu werden?

Nach welcher bedingten WS ist hier gefragt? Wenn ich ein Mädchen bin, wie groß ist die WS begabt zu sein? Mit anderen Worten: Die WS für das Ereignis begabt zu sein unter der Bedingung weiblich. Welche bedingte WS ist hier bereits gegeben? Wenn ich ein Begabter bin, wie groß ist die WS ein Mädchen zu sein? Mit anderen Worten: Die WS für das Ereignis weiblich unter der Bedingung begabt. Was brauchen wir noch? Die Grundwahrscheinlichkeit für Ereignis 1 (begabt). Die Grundwahrscheinlichkeit für Ereignis 2 (weiblich).

Lösungsweg Die WS für Ereignis A (begabt zu sein) ist 0.05 Die WS für Ereignis B (ein Mädchen zu sein) ist in unserer Population 0.45 Die WS für einen Begabten weiblich zu sein beträgt 0.6

Theorem von Bayes: Weitere Beispiele I Die WS für ein Kind eine Gymnasialempfehlung zu erhalten beträgt für einen deutschen Grundschüler 40%. 90% aller Gymnasiasten kommen aus Familien mit überdurchschnittlich hohem sozioökonomischen Status. Mit anderen Worten: Wenn ich auf dem Gymnasium bin, ist mein Elternhaus mit 90% WS besser gestellt. Der Anteil der Familien mit überdurchschnittlichem sozioökonomischen Status an der Gesamtbevölkerung beträgt 50% (Operationalisierung: Median-Split). Aufgabe 1: Wenn ich ein Kind aus einem relativ reichen Elternhaus bin (obere 50%), wie groß ist die WS später auf ein Gymnasium zu gehen? Aufgabe 2: Wenn ich ein Kind aus einem relativ armen Elternhaus bin (untere 50%), wie groß ist dann die WS in Zukunft aufs Gymnasium zu gehen?

Lösungsweg 1 Die WS. für Ereignis A („reich“) ist 0.5 Die WS. für Ereignis B (Gymnasium) ist 0.4 Die WS für einen Gymnasiasten (Bedingung) „reich“ zu sein (Ereignis) ist 0.9 Gesucht ist nun die WS für einen „Reichen“ (Bedingung), ein Gymnasiast zu sein (Ereignis).

Lösungsweg 2 Die WS. für Ereignis A („arm“) 0.5 Die WS. für Ereignis B (Gymnasium) ist 0.4 Die WS für einen Gymnasiasten „reich“ zu sein ist 0.9 Demnach beträgt die inverse WS, nämlich die WS für einen Gymnasiasten „arm“ zu sein, 0.1 Gesucht ist hier also die WS für einen „Armen“ (Bedingung), ein Gymnasiast zu sein (Ereignis).

Theorem von Bayes: Weitere Beispiele II In einem Test für eine Krankheit erhalten 99% aller Kranken und 1% aller Gesunden ein positives Testergebnis: p(positives Ergebnis|krank) = .99 Grundwahrscheinlichkeit (Basisrate) der Krankheit in der Bevölkerung ist: p(Krank) = .001 Grundwahrscheinlichkeit für ein positives Ergebnis ist: p(positives Ergebnis) = .01 Wie groß ist die WS für einen positiv getesteten, tatsächlich krank zu sein?

Theorem von Bayes: Weitere Beispiele III Es zeigt sich, dass Gewaltopfer zu 80% Frauen sind: p(w | gewaltopfer) = .80 Die Grundwahrscheinlichkeit Opfer von Gewalt zu werden in der Bevölkerung sei: p(Gew.) = .03 Wie hoch ist das Risiko für einen Frau, Opfer von Gewalt zu werden?

Vielen Dank für eure Aufmerksamkeit!