Mittelwerte (ab Intervallskala)

Slides:



Advertisements
Ähnliche Präsentationen
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Advertisements

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.
Grundlagen der Wahrscheinlichkeitsrechnung - Verteilungen -
Gliederung Vertrauensintervalle Arten von Hypothesen
Gliederung Definition des Wahrscheinlichkeitsbegriffes
Gliederung Der Begriff der Stichprobe, Stichprobenfehler
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-23.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Kapitel 5 Stetigkeit.
Hypothesen testen: Grundidee
Statistische Methoden I
Konfidenzintervalle Intervallschätzung
M-L-Schätzer Erwartungswert
Bitte mein Manuskript (liegt im Bibliotheksgebäude aus) nicht nach Außerhalb tragen. Die Weitergabe an Dritte (d. h. an Personen, die nicht Hörer der Vorlesung.
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Statistische Methoden I WS 2007/2008 Donnerstag, 31. Januar 2008 und Freitag, 1. Februar 2008 Probeklausur - statt Vorlesungen -
Erwartungswert und Varianz I Der endliche Fall Erwartungswert Varianz.
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
II. Wahrscheinlichkeitstheorie
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Bedingte Wahrscheinlichkeiten
Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Tutorium
Wiederholung und Beispiele
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Binomialverteilung: Beispiel
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Deutsch als Zweitsprache: Experimentelle Methoden WS 2013/2014
Histogramm/empirische Verteilung Verteilungen
Chi Quadrat Test Tamara Katschnig.
STATISIK LV Nr.: 1375 SS März 2005.
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
Theorie der Stichprobe
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 1375 SS März 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
1 Stichprobenverfahren zur Qualitätssicherung Hilfestellung der Statistik in der Wirtschaftsprüfung.
Zusammengestellt von Mag. Raimund Hermann
1 (C) 2002, Hermann Knoll, HTW Chur, Fachhochschule Ostschweiz Wahrscheinlichkeitsverteilung Lernziele: Wahrscheinlichkeitsverteilung und der Wahrscheinlichkeitsdichte.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Einführung zur Fehlerrechnung
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
setzt Linearität des Zusammenhangs voraus
Der Binomialtest Man habe einen wahren Anteil P. Kann man aufgrund von p sagen, daß in der Population tatsächlich der Anteil P zugrunde liegt? [Beispiele]
Varianzanalyse und Eta²
Thema der Stunde I. Die Form der Stichprobenkennwerteverteilung
Die Binomialverteilung
Aufgabe 5 Gegeben sei folgende Graphik mit den zugehörigen Merkmalsdefinitionen. – Erstellen Sie die zugehörige Kontingenztabelle der absoluten Häufigkeiten.
 Präsentation transkript:

Mittelwerte (ab Intervallskala) Gliederung bisher: Häufigkeitsverteilungen (bei nominalskalierten Variablen) mit Prozenten bzw. Anteilen Mittelwerte (ab Intervallskala) Zusammenhänge zwischen 2 Variablen; Verfahren in Abhängigkeit vom Skalenniveau (z.B. Chi², Korrelation, T-Test) Problem: nur Aussagen über die Stichprobe

Schlüsse von Stichprobe auf Grundgesamtheit Gliederung Schlüsse von Stichprobe auf Grundgesamtheit (Mittelwerte, Anteile, Zusammenhänge) 1. Beispiel: Ein Anteilswert in der Stichprobe (7% FDP-Wähler) dient als Schätzung für den Anteil θ in der GG. 2. Beispiel: Ein Mittelwert in der Stichprobe (Alter: xquer = 37) dient als Schätzung für den Mittelwert  in der GG. 3. Beispiel: Ein Zusammenhang zwischen zwei Variablen (Chi² zwischen Geschlecht und Wahlabsicht) soll dahingehend überprüft werden, ob er auch in der GG angenommen werden kann.

Solche Aussagen macht man in folgender Weise: Gliederung Solche Aussagen macht man in folgender Weise: 1. Beispiel: Mit 95%iger Wahrscheinlichkeit werden zwischen 6 und 8% die FDP wählen. 2. Beispiel: Der Mittelwert des Alters in der Grundgesamtheit liegt mit 95%iger Wahrscheinlichkeit zwischen 35 und 39. 3. Beispiel: Mit 95%iger Wahrscheinlichkeit kann man ausschließen, dass Geschlecht und Wahlabsicht in keinem Zusammenhang stehen. daraus folgt: Wir brauchen Kenntnisse zu Stichprobenziehung und Wahrscheinlichkeitsrechnung!

Wahrscheinlichkeitsrechnung – kombinierte Ereignisse Gliederung Inhalte der Vorlesung Stichprobenziehung Wahrscheinlichkeitsrechnung – kombinierte Ereignisse Tabellen: z, Chi², T Konfidenzintervalle für Mittelwerte und Anteile Chi²-Test, T-Test, F-Test multiple Regression

Grundgesamtheit Personen (bzw. Haushalte, Zeitschriftenartikel, Orte…), auf die sich Aussagen beziehen sollen werden sachlich, räumlich und zeitlich definiert (z.B. Wahlberechtigte in Deutschland vor der Bundestagswahl 2005) Befragung aller: Totalerhebung (bei kleinen Grundgesamtheiten); in der Regel zu aufwändig Parameter: N, , σ, θ Meist wird nur ein Teil der Grundgesamtheit (GG) befragt (Stichprobe, Sp), von dem dann auf die GG geschlossen werden soll.

Leistungsfähigkeit von stichprobenartigen Befragungen

Stichprobe Man kann nur von der Sp auf die GG schließen, wenn die Sp repräsentativ ist, also ein verkleinertes genaues Abbild der GG darstellt. Beispiel: Eine Befragung über die Wahlabsicht am Siegfriedplatz würde möglicherweise 40% Zustimmung zu den Grünen ergeben. Nur Zufallsstichproben sind repräsentativ. Diese sind so definiert, dass jedes Element der GG die gleiche (bzw. zumindest eine bekannte) Wahrscheinlichkeit hat, in die Stichprobe zu gelangen. Parameter von Stichproben: xquer, s, p, n (manchmal auch N) Erster Schritt: Erstellung der Auswahlgesamtheit

Techniken der Stichprobenziehung Einfache Zufallsauswahl Aus allen Elementen der Auswahlgesamtheit werden so viele gezogen, wie für die Stichprobe gewünscht sind. Jedes Element hat die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen. Man braucht Listen, in denen die komplette Auswahlgesamtheit aufgeführt ist. Verfahren: Losen, Zufallszahlen

Techniken der Stichprobenziehung Systematische Zufallsauswahl Man braucht eine Liste, in der die komplette Auswahlgesamtheit aufgeführt ist. Nur das erste Element wird per Zufall bestimmt, anschließend wird jedes k-te Element gezogen. k = Stichprobenintervall = Auswahlgesamtheit / Stichprobengröße

Techniken der Stichprobenziehung Mehrstufige Zufallsauswahl Zunächst werden z.B. Stimmbezirke gezogen, dann Haushalte, dann Personen. Zum Ziehen der Haushalte: random route. Von einer zufälligen Startadresse wird eine Anweisung gegeben, wie z.B. „Gehen Sie bis zur Kreuzung, dann links, dann rechts und ermitteln Sie auf dem Weg jeden 6. Haushalt auf der linken Straßenseite“. Zum Ziehen der Personen: Schwedenschlüssel: wohnt eine Person im Haushalt, wird diese befragt, wohnen zwei Personen dort, wird eine Zahl zwischen 1 und 2 gezogen und entspr. die älteste oder zweitälteste Person befragt usw.

Techniken der Stichprobenziehung Geschichtete Stichprobe Es werden verschiedene Bevölkerungsteile unterschieden. Aus jeder Schicht werden getrennt Zufallsstichproben gezogen. Beispiele Ost/Westdeutsche; Homo/Heterosexuelle Dies macht man dann, wenn die Schichten unterschiedlich groß sind und man für jede Schicht eine genügende Fallzahl erreichen will, d.h. bei einer einfachen Zufallsauswahl wären Untergruppen mit so geringer Zahl vertreten, dass man über sie keine Aussagen machen kann. Daher überrepräsentiert man absichtlich kleine Bevölkerungsgruppen (dysproportionale Schichtung). Für Berechnungen mit der Gesamtstichprobe müssen daher Gewichtungsfaktoren eingesetzt werden.

Techniken der Stichprobenziehung Klumpenstichprobe Wie bei der mehrstufigen Zufallsauswahl geschieht der erste Auswahlschritt nicht gleich auf der Ebene der Untersuchungseinheit (z.B. Person), sondern auf höherer Ebene, diese wird als Klumpen bezeichnet (z.B. Stadtteil, Schulklasse, Zeitung). Dies Klumpen enthalten also jeweils mehrere Untersuchungseinheiten (Haushalte, Schüler, Zeitungsartikel). Untersucht werden alle Untersuchungseinheiten des Klumpens, also der ganze Klumpen. Problem: Erwischt man einen oder mehrere untypische Klumpen, ist die Stichprobe nicht mehr repräsentativ.

Techniken der Stichprobenziehung Quotenstichprobe (bewusste Auswahl) Weiß man im voraus, wie bestimmte Merkmale (Alter, Geschlecht, Schulabschluss) in der Grundgesamtheit verteilt sind, macht man einen Quotenplan, wie viele Personen welcher Art befragt werden sollen (z.B. 35 Frauen unter 40 Jahren mit Abitur), der proportional die Verhältnisse in der GG abbildet. Derartige Personen müssen dann befragt werden, es ist jedoch gleichgültig, welche Personen das sind, solange die Quotenvorgaben eingehalten werden. In vielen Lehrbüchern wird die Meinung vertreten, dass dies keine repräsentative Stichprobe ergibt; der Interviewer befragt vorwiegend Bekannte, die vermutlich bestimmte Eigenschaften haben, die sie von anderen unterscheiden (z.B. er befragt nur Sportler aus seinem Verein).

Techniken der Stichprobenziehung Anfallende bzw. Gelegenheitsstichprobe (willkürliche Auswahl) Ist nicht repräsentativ Darf nicht angewendet werden, um Anteile oder Mittelwerte in der Grundgesamtheit zu schätzen Wird jedoch (v.a. in der Psychologie) in der Regel angewendet, um Zusammenhänge zwischen Variablen zu ermitteln und auch auf Signifikanz zu testen, obwohl man dies streng genommen nicht darf. Beispiel: Studie in Statistik I: Zusammenhang zwischen Wahlabsicht und Geschlecht. Wird fast immer in Experimenten verwendet.

Ausschöpfung Die beste Stichprobe nutzt nichts, wenn viele Personen die Teilnahme an der Befragung verweigern. Stichprobenneutrale / unsystematische Ausfälle verzerren nicht das Ergebnis (falsche Adresse etc.) Systematische Ausfälle dagegen sind problematisch. Beispiele: Nichterreichbarkeit, Teilnahmeverweigerung. Man unterscheidet den Ausfall eines kompletten Interviews (unit nonresponse) und den Ausfall bei einzelnen Items (item nonresponse) Ausschöpfungsquote: der Anteil realisierter Befragungen an der bereinigten Gesamtstichprobe * (* = Gesamtstichprobe – stichprobenneutrale Ausfälle)

Beschäftigung mit diskreten Variablen (nur bestimmte Ausprägungen, z.B. Anzahl der Kinder) kontinuierlichen / stetigen Variablen (alle Ausprägungen, z.B. Alter, Größe) zunächst: diskrete Variablen

Wahrscheinlichkeit, eine 6 zu würfeln, ist bekannt. Grundidee Das Ziehen einer Zufallsstichprobe aus einer Grundgesamtheit entspricht einem Zufallsexperiment, vergleichbar mit 10 x Würfeln bei bekannter Wahrscheinlichkeit des Auftretens bestimmter Ziffern in der Grundgesamtheit. Wahrscheinlichkeit, eine 6 zu würfeln, ist bekannt. Davon ausgehend kann man berechnen, wie wahrscheinlich es ist, bei einer Stichprobe von Würfen ein bestimmtes Ergebnis zu erzielen. Ziel: der umgekehrte Schluss von der Stichprobe auf die Grundgesamtheit.

Wahrscheinlichkeit: günstige Ereignisse / alle denkbaren Ereignisse z.B. eine 6 würfeln p(6) = 1 / 6 = 0.166 (liegt immer zwischen 0 und 1)

Wahrscheinlichkeit, hintereinander 2 Sechsen zu würfeln p(6 und 6) = p (6) * p (6) = 1/6 * 1/6 = 1 /36 = 0.027

Wahrscheinlichkeit, eine gerade Zahl zu würfeln p (2 oder 4 oder 6) = p (2) + p (4) + p (6) = 1/6 + 1/6 + 1/6 = 3/6 = 0.5

Fall mit und ohne Zurücklegen eine Stichprobe ist „ohne Zurücklegen“, jede Person in der Stichprobe wird nicht noch einmal befragt Karten ziehen ist ohne Zurücklegen mehrfaches Würfeln ist „mit Zurücklegen“, eine schon gewürfelte Zahl kann erneut auftreten. Unsere Statistiken basieren auf Modellen „mit Zurücklegen“, obwohl die Datenerhebung „ohne Zurücklegen“ stattfindet. Fehler ist gering bei großen Grundgesamtheiten (Auswahlsatz kleiner als 5%).

Additionssatz (Vereinigungsmenge) allgemein: p (A oder B) = p (A) + p (B) – p (A und B) disjunkt (Ereignisse schließen einander aus): p (A oder B) = p (A) + p (B)

Multiplikationssatz (Schnittmenge) allgemein: p (A und B) = p (A) p (B  A) unabhängig: p (A und B) = p (A) p (B)

z.B. Die Wahrscheinlichkeit, eine 6 zu würfeln ist 16.6 Prozent. Bernoulli-Theorem Die Wahrscheinlichkeit entspricht der relativen Häufigkeit bei unendlichen Wiederholungen eines Zufallsexperiments z.B. Die Wahrscheinlichkeit, eine 6 zu würfeln ist 16.6 Prozent. Bei unendlichem Würfeln tritt die 6 in 16.6 Prozent der Würfe auf. Anmerkung: relative Häufigkeit ist die Häufigkeit des Auftretens geteilt durch die Anzahl der Versuche.

Dies simuliert das Ziehen einer Stichprobe! Der wahre Anteil in der Grundgesamtheit () entspricht beim Würfeln der Wahrscheinlichkeit eines Ereignisses p bei größer werdenden Stichproben immer mehr. (gilt eigentlich nur bei unendlich großen Grundgesamtheiten)

mehrere Stichproben gleichen Umfangs werden gezogen 2. Zufallsexperiment mehrere Stichproben gleichen Umfangs werden gezogen Die Anteile der Würfe „6“ variieren um 16.6 Prozent

Erweiterung auf 1000 Stichproben mit je 100 Würfen

(eine Wahrscheinlichkeitsfunktion) Binomialverteilung (eine Wahrscheinlichkeitsfunktion) Verteilungsmodell für diskrete Zufallsvariablen mit 2 Ausprägungen (hier 6 bzw. nicht 6) mit Zurücklegen Allgemeiner Fall: gibt an, mit welcher Wahrscheinlichkeit die Ausprägung a x-mal vorkommt Z.B. Wie groß ist die Wahrscheinlichkeit, dass von 10 Frauen in einer Stichprobe 3 Frauen sind, wenn der Frauenanteil in der GG 60% beträgt? Die Binomialverteilung ist abhängig von (charakterisiert durch) n und dem Anteil in der GG, Wertebereich 0 bis n.

Wir betrachten jetzt aber den speziellen Fall, dass mehrere Stichproben gezogen werden: Binomialverteilung geht bei großen Stichproben in eine Normalverteilung über; Faustregel n * θ * (1-θ) > 9

Erwartungswert und Varianz einer Binomialverteilung E (x) ist der Wert, der bei unendlich vielen Wiederholungen des Experiments im Durchschnitt für jede Stichprobe zu erwarten ist. Var (x) sagt aus, wie stark die Werte um den Erwartungswert schwanken. E (x) = n * p Var (x) = n * p * q, wobei q = 1-p

Im Würfelbeispiel

Achtung!! Wenn wir ein Würfelexperiment mit 100 Würfen 1000 mal wiederholen, ist n=100, nicht 1000. Die Anzahl der Wiederholungen ist irrelevant. Der Erwartungswert (hier 16.6) gilt für jede einzelne Stichprobe von 100 Würfen. Eine Binomialverteilung geht nur dann in eine Normalverteilung über, wenn es sich um verschiedene Stichproben handelt, nicht um einzelne Verteilungen, z.B. die Anzahl von Frauen bei einem Frauenanteil von 90% in der GG (vgl. Tafelbild)

Stetige Zufallsvariablen Beispiel: Es existiert eine Grundgesamtheit von Personen, die im Mittel 37.268 Jahre alt sind. Zufallsexperiment: Wir ziehen 1000 Stichproben mit je 1000 Personen

(eine Wahrscheinlichkeitsdichtefunktion) symmetrisch, eingipflig Normalverteilung (eine Wahrscheinlichkeitsdichtefunktion) symmetrisch, eingipflig Mittelwert, Modalwert und Median sind identisch nähert sich links und rechts asymptotisch der x-Achse an geht von minus unendlich bis plus unendlich je 50% Personen befinden sich links bzw. rechts vom Mittelwert Charakterisiert durch Mittelwert und Varianz

Im folgenden wird der Fall betrachtet, dass nicht eine Variable (z. B Im folgenden wird der Fall betrachtet, dass nicht eine Variable (z.B. die Intelligenz) normalverteilt ist, sondern die Mittelwerte einer Anzahl von Stichproben.

Mittelwert und Varianz einer Stichprobenmittelwerteverteilung Erwartungswert =  Varianz = ² / n Standardabweichung =  /  n diese nennt man auch Standardfehler des Mittelwerts  xquer Merke: Es handelt sich um die Verteilung der Stichprobenmittelwerte, nicht um einzelne Werte von Personen

Zentraler Grenzwertsatz Mittelwerte aus beliebigen Verteilungen verteilen sich mit zunehmendem Stichprobenumfang normal mit dem Mittelwert  und der Varianz ² / n Faustregel: ab N > 30 Merke: Das gilt auch für schiefe Verteilungen, Unterscheidung zwischen der Verteilung der einzelnen Werte und der Stichprobenmittelwerte!!

Standardnormalverteilung hat Mittelwert 0 und Standardabweichung 1 jede (Normal-) Verteilung von Stichprobenmittelwerten kann in eine Standardnormalverteilung umgewandelt werden. Fläche  = 1

Standardisierung im üblichen Fall

Standardisierung im Fall von Stichprobenmittelwerten σ xquer = σ / √n

Wahrscheinlichkeit von Stichprobenmittelwerten Möchte man berechnen, wie wahrscheinlich es ist, dass eine Stichprobe höchstens einen bestimmten Mittelwert erhält, steht also bei der Standardisierung σ / √ n im Nenner.

Eine Dichtefunktion ist damit die Ableitung einer Verteilungsfunktion. Begriffe Die Binomialverteilung ist eine Wahrscheinlichkeitsfunktion (diese gibt die Wahrscheinlichkeit für jede Ausprägung an) Die Normalverteilung ist eine Wahrscheinlichkeitsdichtefunktion (da bei stetigen Variablen die Wahrscheinlichkeit jedes Werts praktisch 0 ist) Eine Verteilungsfunktion ist eine kumulierte Wahrscheinlichkeits- oder Dichtefunktion. Sie gibt an, wie wahrscheinlich es ist, höchstens einen bestimmten Wert zu erhalten. Eine Dichtefunktion ist damit die Ableitung einer Verteilungsfunktion.

Tabellenwerke (z, T, Chi², F) beziehen sich auf Verteilungsfunktionen, auch wenn das in der folgenden Abbildung nicht so aussieht. Den Tabellen kann man entnehmen, wie wahrscheinlich es ist, dass eine Zufallsvariable höchstens einen bestimmten Wert annimmt. Inverse Verteilungsfunktion: Umgekehrte Fragestellung – Wahrscheinlichkeit ist gegeben, gesucht ist der Wert

Die z-Tabelle repräsentiert die Standardnormalverteilung. Die Wahrscheinlichkeit von Wertebereichen (z.B. z-Werte zwischen 0 und 1 zu erhalten) ermittelt man, indem man die Wahrscheinlichkeit einer Ausprägung bis 1 bzw. bis 0 nachschlägt und den letzteren Wert subtrahiert. Wahrscheinlichkeit, mindestens einen bestimmten Wert zu erzielen, ergibt sich aus 1- nachgeschlagener Wert. Ist eine Variable nur normalverteilt, muss man sie erst standardisisieren.

Für die Stichprobenmittelwerte

z.B. beim χ² - Unabhängigkeitstest χ² - Verteilung Verteilungsmodell für kontinuierliche Zufallsvariablen, und zwar für Summen (normalverteilter) quadrierter Zufallsvariablen, z.B. beim χ² - Unabhängigkeitstest Bekannt aus Statistik I ist der χ² - Wert (Maß für Zusammenhang zweier nominalskalierter Variablen), der annähernd χ² - verteilt ist, wenn keine erwartete Häufigkeit kleiner als 5 ist. Man kann ermitteln (Tabelle), wie wahrscheinlich es wäre, den erhaltenen χ² - Wert oder einen größeren zu bekommen, wenn der Zusammenhang in der GG Null ist.

Χ2 =

Verteilungsfunktion

χ² ist immer positiv, weil es sich um eine Summe quadrierter Werte handelt, reicht also von 0 bis unendlich. Der Graph sieht aus, als hätte der Wind einen Sandhaufen gegen die y-Achse geblasen, nähert sich aber mit steigenden Freiheitsgraden der Normalverteilung an. Die Verteilungsform ist ausschließlich abhängig von den Freiheitsgraden.

beim Konfidenzintervall: n-1 Freiheitsgrade Notation: df Anzahl frei variierbarer Daten bzw. Anzahl voneinander unabhängiger Informationen bei der Varianz: n-1 da die Summe der einfachen Abweichungen 0 ist, lässt sich der letzte Wert aus allen anderen berechnen. beim Konfidenzintervall: n-1 bei χ²: (r-1) * (c-1) z.B. hat eine 2*2-Tabelle einen Freiheitsgrad, da man alle anderen Werte erschließen kann, wenn man die Randhäufigkeiten kennt beim T-Test n1 + n2 - 2

Z.B. bei Konfidenzintervallen und Tests für Mittelwertunterschiede T-Verteilung Verteilungsmodell für kontinuierliche Zufallsvariablen, bei denen im Zähler eine normalverteilte, im Nenner eine χ² - verteilte Zufallsvariable steht Z.B. bei Konfidenzintervallen und Tests für Mittelwertunterschiede Fragestellungen: Zwischen welchen Werten liegt das Alter in der Grundgesamtheit mit 95% Wahrscheinlichkeit, wenn es in der Stichprobe 24 Jahre beträgt (σ unbekannt)? Unterscheiden sich Mädchen und Jungen signifikant in der Lesekompetenz?

geht von minus unendlich bis plus unendlich T-Verteilung geht von minus unendlich bis plus unendlich sieht aus wie eine Normalverteilung, ist aber breiter abhängig von den Freiheitsgraden Je weniger Freiheitsgrade (df), desto breiter ist die Dichtefunktion (ungenauere Schätzung) Ab 30 df kann man näherungsweise die Normalverteilung verwenden.

sieht ähnlich aus wie die χ² - Dichtefunktion F-Verteilung Verteilungsmodell für Zufallsvariablen aus einem Quotienten zweier χ² - verteilter Zufallsvariablen sieht ähnlich aus wie die χ² - Dichtefunktion reicht von 0 bis unendlich abhängig von Zähler - df und Nenner – df z.B. für Tests auf Varianzhomogenität (sind zwei Varianzen statistisch gleich oder unterschiedlich?) und für Varianzanalyse (unterscheiden sich CDU-, SPD- und Grüne-Wähler in ihrer Einstellung zum EU-Beitritt der Türkei?)

Schluss mit der grauen Theorie: Praxisteil

Punktschätzung: Wir schätzen genau den Stichprobenwert in der GG Schätzverfahren Wir schließen von der (repräsentativen) Stichprobe auf die Grundgesamtheit, z.B. einen Anteilswert (Anteil Frauen) oder einen Mittelwert (Alter) Punktschätzung: Wir schätzen genau den Stichprobenwert in der GG Intervallschätzung: Wie ermitteln einen Bereich, in dem der Wert der Grundgesamtheit mit 95% bzw. 99% Wahrscheinlichkeit liegt Die Irrtumswahrscheinlichkeit beträgt dann 5% bzw. 1% und wird mit α bezeichnet.

Interpretation eines Konfidenzintervalls Würde man unendlich viele Stichproben gleichen Umfangs ziehen, läge der wahre Wert der Grundgesamtheit in 5% der Fälle außerhalb des Konfidenzintervalls (unpraktisch, da man nur eine Stichprobe hat) Mit 95% Wahrscheinlichkeit liegt der wahre Wert der Grundgesamtheit innerhalb des Konfidenzintervalls (unpräzise, denn der Wert liegt entweder innerhalb oder außerhalb des Konfidenzintervalls)

gewünschte Genauigkeit der Schätzung (95% oder 99%) Konfidenzintervalle Die Breite des Konfidenzintervalls (Vertrauensintervalls) ist von mehreren Parametern abhängig: gewünschte Genauigkeit der Schätzung (95% oder 99%) Standardfehler der Stichprobenstatistik (Maß für die Streuung einer Stichprobenstatistik), der wiederum wird kleiner, je größer die Stichprobe ist

Standardfehler eines Stichprobenmittelwerts σ / √ n geschätzt aus der Stichprobe s / √ n (auch als σ Dach bezeichnet) Standardfehler eines Anteilswerts in der Stichprobe √ θ * (1 – θ) / n √ p * (1 – p) / n

Konfidenzintervall für Stichprobenmittelwerte Wollen wie mit 95% Genauigkeit schätzen, liegen α / 2, also 2.5% der Werte am linken Ende der Normalverteilung, und 2.5% am rechten. Aus der z-Tabelle kann man entnehmen, dass zwischen -1.96 und +1.96 95% der Werte liegen. Nachschlagen muss man nur z 1- α/2 der andere Wert ergibt sich durch das negative Vorzeichen

Konfidenzintervall für Stichprobenmittelwerte, σ bekannt

Beispiel (Seite zuvor) Eine Stichprobe von 1000 Befragten hat einen Altersdurchschnitt von xquer = 38.11 Jahren. Die Standardabweichung in der Grundgesamtheit beträgt σ = 22.46. In welchem Bereich liegt das Alter der GG mit 95% Wahrscheinlichkeit?

In 5% der Stichproben liegt μ nicht im Konfidenzintervall

Genauere Schätzung mit 99% Wahrscheinlichkeit

Konfidenzintervall für Stichprobenmittelwerte, σ unbekannt Hier muss man die Standardabweichung aus der Stichprobe schätzen. Wegen dieser zusätzlichen Ungenauigkeit verwendet man die (breitere) T-Verteilung. Beispiel (nächste Seite): In einer Stichprobe von 81 Personen beträgt das Durchschnittsalter 38.57 Jahre. Die Standardabweichung in der Stichprobe ist 20.7 Jahre. In welchem Bereich liegt das Alter in der Grundgesamtheit zu 95%? Nicht verwirren lassen durch die Varianzberechnung in Gehring und Weins. Wir hatten bei Stichproben schon immer n-1 im Nenner!

Bei sehr großen Stichproben nähert sich die T-Verteilung der Normalverteilung an und man darf die z-Tabelle benutzen. Zur Vermeidung von Verwirrung lassen wir das.

Zusammenfassung Konfidenzintervall für Mittelwerte Bei bekanntem σ in der Grundgesamtheit wird die z-Tabelle verwendet. Bei unbekanntem σ in der Grundgesamtheit wird σ durch die Standardabweichung s in der Stichprobe geschätzt. Aufgrund der zusätzlichen Ungenauigkeit wird die T-Verteilung verwendet. Allgemein hängt das KI ab von der gewünschten Genauigkeit (95 / 99%) und dem Standardfehler des Stichprobenmittelwerts.

Konfidenzintervall für Anteilswerte Damit schätzt man, in welchem Bereich ein Anteilswert (z.B. 7% FDP-Wähler in einer Stichprobe) mit 95% Wahrscheinlichkeit in der Grundgesamtheit auftritt. Solche Variablen sind binomialverteilt. Die Binomialverteilung geht in eine Normalverteilung über, wenn n hinreichend groß ist, Faustregel: wenn gilt N * p * (1-p) > 9 (hier ab n=139)

Konfidenzintervall für einen Anteilswert

Standardfehler und geschätzter Standardfehler für Anteilswerte

Eingesetzt in die Formel:

Beispiel (vorige Seite) In einer Stichprobe von 1250 Personen geben 7% an, FDP wählen zu wollen. Wie groß ist das 95% - Konfidenzintervall für den FDP-Wähleranteil in der Grundgesamtheit?