Stichproben LV: Methoden I LV-Leiterin: Dr. Regina Dittrich

Stichproben LV: Methoden I LV-Leiterin: Dr. Regina Dittrich
Vortragender: Martin Paier

Systematische Stichprobetechniken wurden erstmals in den 30er Jahren in den USA hauptsächlich in Wahl- und Umfrageforschung verwendet. (Literary Digest) George Gallup hingegen entwickelte eine Methode mit relativ kleinen Stichproben, die sog. Quotenstichprobe. Im Allgemeinen gilt das statistische Prinzip, dass größere Stichproben unter sonst gleichen Bedingungen genauer sind als kleinere Stichproben – dies trifft nicht zu, wenn die Stichprobe verzerrt ist. (Literary Digest) Sind große Stichproben selektiv, dann werden kleinere, unverzerrte Stichproben genauere Schätzungen liefern

Hauptprobleme der Stichproben-ziehung anhand von Beispielen
Befragung in der Fußgängerzone: keine Zufallsstichprobe aus der Bevölkerung Teil der angesprochenen Personen verweigert (non-Response) Zuschauer oder Leser geben ihre Meinung durch bestimmte Telefonnummern zum Ausdruck (TED) Nur aktive werden anrufen Patentbilanz in Japan ist viel höher, aber nicht unbedingt wegen dem Technologievorsprung, sondern weil die Patentanmeldung wesentlich billiger ist als in Europa. Totalerhebung der Bevölkerung ist viel zu zeitaufwendig und zu teuer.

Grundgesamtheit (Population)
Stichprobe (Sample) Erhebungseinheit: wer in die Stichprobe aufgenommen wird Erhebungsgesamtheit: umfasst Elemente, die eine von null verschiedene Chance haben, in die Stichprobe aufgenommen zu werden (survey population Gegensatz zur target population) Personen aus Heimen, Krankenhäusern, Gefängnissen etc. sind von vornhinein unberücksichtigt. Grundgesamtheit (Population) Explizite Vorschriften, wie Elemente der Grundgesamtheit ausgewählt werden.

3 Hauptgruppen von Stichprobenverfahren: (Stichprobenumfang N)
Wahrscheinlichkeitsauswahl Zufallsauswahl, Zufallsstichproben Bewusste Auswahl Quotenverfahren Willkürliche Auswahl Stichprobenziehung wird nicht mehr kontrolliert; z.B. bei psychologischen Experimenten, sog. Freiwillige Versuchkaninchen Das Auswahlverfahren der Stichprobentheorie dient dem Zweck, von Kennwerten der Stichprobe auf die unbekannten Kennwerte (Parameter) der Grundgesamtheit zu schließen. Ziel ist die Schätzung von Parametern der Population mittels der Stichprobeninformation. Zufallstichproben und Quotenstichproben werden als repräsentative Stichproben bezeichnet.

Arten Einfache Zufallsstichproben Die Auswahlwahrscheinlichkeit für alle Elemente der Grundgesamtheit identisch >null “Equal Probability SElection Method Die Auswahl erolgt direkt in einem einstufigen Auswahlvorgang Sind beide Kriterien erfüllt spricht man von der einfachen Zufallsauswahl SRS (Simple Random Sampling)

einfache Zufallsziehung von Stichprobenelementen
Listenauswahl Nur möglich, wenn Verzeichnisse sämtlicher Elemente der Grundgesamtheit existieren RDD-Methode (Random Digit-Dialing) Zufallsauswahl einer Stichprobe per Telefon. Vorsicht bei systematisch aufgebauten Nummern! Vorteil: es können auch Nummern verwendet werden, die nicht in Telefonbüchern stehen z.B. Geheimnummern oder neue Nummern Lotterieauswahl Gebietsauswahl Random-Route-Verfahren (Ausgangsadressen werden vorgegeben Adressrandom Schwedenschlüssel (kish-selection-grid) Zufallsauswahl innerhalb eines Haushaltes Aufgedruckte Kombination von Zufallsziffern auf dem Fragebogen

Schwedenschlüssel MUSTER
Haushalts-größe 1 2 3 4 5 6 7 8 Befragungsperson Auswahlprinzip Maximale Haushaltsgröße angenommen Zweiten Tabellenreihe zufallsgenerierte Zahlen Ermittlung wie viele Personen in dem jeweiligen Haushalt zur statistischen Population gehören, aus der die Stichprobe gezogen werden soll Nach Alter aufgelistet

mehrstufige Zufallsauswahl
Zufallsauswahl erstreckt sich auf mehreren Ebenen Beispiel: Gemeindestichprobe 1 Stufe: 50 Gemeinden werden zufällig ausgewählt 2 Stufe: durchschnittlich 40 Adressen/Gemeinde werden per Random ermittelt Typische Zufallsstichprobe eines nationalen Surveys ist dreistufig: 1 Stufe: Auswahl von Stimmbezirken 2 Stufe: Auswahl von Haushalten im Stimmbezirk per Random-Route 3 Stufe: Zufallsauswahl der zu fragenden Personen per Schwedenschlüssel Achtung: Auswahleinheiten auf den einzelnen Stufen meist ungleich groß d.h. Unterschiedliche Anzahl von Element der Grundgesamtheit. So wird man keine EPSEM Stichprobe erhalten. Horvitz-Thompson-Schätzung Es wird mit Haushaltsgröße gewichtet Die Gewichtung bedeutet praktisch, dass so getan wird, als ob eine Person aus einem Haushalt der Größe m im Datensatz m-mal enthalten ist.

Klumpenstichproben Klumpenauswahl (Cluster-Sample)
Spezialfall mehrstufiger Zufallsauswahl Klumpen/Cluster werden die auf der ersten Stufe ausgewählten Einheiten bezeichnet Sämtliche Klumpenelemente werden berücksichtigt Die Elemente eines Klumpens werden mit Wahrscheinlichkeit eins in die Stichprobe aufgenommen (im Gegensatz zu mehrstufigen Zufallsstichproben; da ist die Auswahlwahrscheinlichkeit auf jeder Ebene kleiner als eins) Fehlerintervall von Parameterschätzungen ist bei Klumpenstichproben größer als bei einfachen Zufallsstichproben

Schichtung Voraussetzung: Vorteil
Vorwissen, bezüglich der Merkmalsverteilung in der Population Möglichkeit, Elemente Proportionale Stichproben der Grundgesamtheit separat nach Schichten auszuwählen Für jede Erhebungseinheit muss die Schichtungszugehörigkeit bekannt sein Vorteil Fehlerintervall geringer als bei einfachen Zufallsstichproben -Proportionale Stichproben Umfang jeder Schicht-Stichprobe ist proportional zur Größe der Schicht liefern eine EPSEM-Stichprobe Fehlerintervall ist meist geringer als bei einer einfachen Zufallsauswahl Disproportionale Stichproben wenn aus Schichten unterschiedlicher Größe die jeweils absolut gleiche Anzahl von Elementen gezogen wird Präzision der Schätzung kann optimiert werden Je homogener die Elemente innerhalb der Schichten bzgl. des untersuchten Merkmals und je größer die Heterogenität zwischen den Schichten, desto ausgeprägter ist der Schichtungseffekt

Unterschied klumpen- und geschichtete Stichproben
Klumpenstichprobe einige Klumpen werden aus vielen ausgewählt je heterogener die Elemente in Klumpen, desto präziser die Schätzung Homogenität ist unerwünscht  extreme Merkmalsausprägungen würden auftreten wenn eine einfache Zufallsauswahl nicht möglich oder zu zeitaufwendig ist Verlust der Präzision nimmt man in Kauf Geschichtete Stichprobe Population wird vollständig in Schichten zerlegt aus jeder Schicht wird separat eine Zufallsstichprobe verwendet je homogener die Elemente in einer Schicht, desto präziser die Schätzung verbessert die Präzision der Schätzung gegenüber einfachen Zufallsstichproben

WAS ist eine Quotenauswahl?
Methode ist eine „bewusste Auswahl“ der Stichprobe nach bestimmten Regeln Quote = Merkmalsverteilung (z.B. 36 % männlich, 64 % weiblich) ZIEL = Zusammensetzung der Stichprobe soll nach den Merkmalen ein „Abbild“ der Grundgesamtheit darstellen

Quotenauswahl I Quoten gelten für eine gesamte Stichprobe, wobei z.B. jeder Interviewer für die Befragung eine Anweisung erhält = QUOTENANWEISUNG Legt fest, wie viele Personen mit welchen Merkmalen befragt werden müssen

Quotenauswahl II „Quotenmerkmale sind mit anderen (…) korreliert“
„Rechtfertigung“ für die Quotenauswahl als Methode (Böltken 1976, Scheuch 1974, Noelle 1963) „Quotenmerkmale sind mit anderen (…) korreliert“ Innerhalb der Quoten ist Zufallsauswahl möglich Quoten stellen ein proportionales Abbild von N dar

Problembereiche I Keine garantierte Korrelation mit anderen Variablen
Ähnliche Quoten bei unterschiedlichen Untersuchungen Korrelationsargument: jede interessierende Variable steht in Zusammenhang mit den „üblichen Quotenmerkmalen“ – nicht bewiesen

Problembereiche II Auswahl von zu befragenden Personen durch persönliche Interviewer (Freunde, Bekannte werden zuerst befragt) Zu strenge Quotenanweisungen führen oft zu „Quotenanpassungen“ Quoten vs. Random ?

Quoten aus speziellen Populationen
Problem: mit allgemeinen Befragungen werden spezielle Populationen kaum erreicht werden Ausnahme: Listenauswahl (nur in seltenen Fällen möglich) DAHER sind Sampling Methoden erforderlich Adressliste

Sampling Methoden I Capture – Recapture Methode I
Unter bestimmten Vorraussetzungen ist es möglich mittels dieser Methode „versteckte“ Populationen zu entdecken Stichprobe und Wiederholungsstichprobe – einzelne Fälle müssen gekennzeichnet werden, damit sie „wieder erkannt“ werden, keine Anonymität Voraussetzungen: zwei unabhängige Stichproben, Population bleibt dazwischen konstant

Sampling Methoden II 1. Capture – Recapture Methode II x = —— w
Wie viele Fälle der ersten Stichprobe sind in der Wiederholungsstichprobe enthalten? u……… Umfang Stichprobe I v………. Umfang Stichprobe II w……... Anzahl der Fälle die sowohl in STP I als auch STP II enthalten sind x…… geschätzte Größe der „verborgenen“ Population u * v x = —— w

Sampling Methoden III 2. Schneeballtechnik
Am Beispiel der „verborgenen“ Population der Homosexuellen (Dannecker/Reiche 1974) wurden Fragebögen an homosexuelle Freunde und Bekannte verteilt – diese verteilten wiederum Fragebögen im Bekannten- und Freundeskreis Nachteil: keine Wahrscheinlichkeitsauswahl, allenfalls Zufallsstichprobe

Sampling Methoden IV 3. Nominationstechnik
Personen aus einer bestimmten Population (z.B. Drogensüchtige) werden befragt und geben weitere Personen an, die dieser Gruppe angehören (anonym) Ebenso wie bei der Schneeballtechnik handelt es sich streng genommen um keine Zufallsstichprobe

Schätzung von Anteilswerten
p = p = p Anteilswert Schätzwert Hypothese Grundgesamtheit Stichprobe (p) Umkehrschluss Stichprobe Grundgesamtheit N n

  Fehlerintervall p(1-p) N p(1-p) N p(1-p) N Erwartungswert ( p )
Standardfehler I1,2 = Stichprobenschätzwert +/- z x Standardfehler I1,2 = p +/- z x Vertrauens- Normal- bereich verteilung Vertrauensbereich halbieren N x 4  p(1-p) N w  p(1-p) N p(1-p) N w

 Anwendungsbereich I1,2 = 0,06 +/- 1,96 (z) I1 = 0,045 = 4,5%
Partei y 5% Hürde bei 1000 Befragten 60 y ( 6% ) I1,2 = 0,06 +/- 1,96 (z) I1 = 0,045 = 4,5% I2 = 0,075 = 7,5% Für 100% Sicherheit über 5% halber Vertrauensbereich  0,06*0,

Fehlerintervall metrischer Variablen
I1,2 = Stichprobenschätzwert +/- t x Standardfehler bei Population Mittelwert nicht mehr normalverteilt I1,2 = x +/- t x bei Einkommensmittelwert Fehlerintervall berücksichtigt w sx N w

Zufallsstichproben in der Praxis
Zufallsstichprobe aus der Bevölkerung eines Landes kompliziert Auswege: Quotenstichprobe ADM-Design (Arbeitsgemeinschaft Deutscher Marktforschungsinstitute)

ADM-Design dreistufige Zufallsstichprobe mit Gebietsauswahl
Grundgesamtheit = Privathaushalte in Deutschland Ablauf: 1. Stufe: Stimmbezirke (= sampling points) mit Wahrscheinlichkeit proportional zur Größe ausgewählt 2. Stufe: Zufallsstichprobe von Adressen mittels Random-Route-Methode ermittelt 3. Stufe: zu befragende Personen mittels Schwedenschlüssel bestimmt

Fehlerquellen I Gesamtfehler (= total survey error) besteht aus:
Zufallsfehler der Stichprobe Systematischer Fehler bei Stichprobenauswahl Verzerrung nicht direkt durch Auswahlverfahren (= non sampling bias) Systematischer Fehler Elemente der Population gehen mit unterschiedlicher Wahrscheinlichkeit in Sample ein bei Bekanntheit der Wahrscheinlichkeit durch Gewichtung korrigierbar Systematischer Fehler durch Random Route Systematischer Fehler durch Schwedenschlüssel

Fehlerquellen II Verzerrung nicht direkt durch Auswahlverfahren
Messfehler Fehlerquellen im Interview Diskrepanzen zwischen Ziel- und Surveypopulation Non-Response Diskrepanzen (= Undercoverage) Zielpopulation ist umfassender als Surveypolulation Definition Grundgesamtheit: „Alle in Privathaushalten lebenden Personen, mind. 18 Jahre alt mit deutscher Staatsangehörigkeit“ nicht enthalten: Wohnungslose, Soldaten in Kasernen, Gefängnisinsassen, Heimbewohner, usw.) Bei speziellen Untersuchungen zur sozialen Schichtung, Alter, Armut kann sich Undercoverage auswirken

Fehlerquellen III Non-Response
ist Ausfall durch Verweigerung oder Nichterreichbarkeit Ausfallqoute: 100 – A (liegt bei 50 – 70%) Ausschöpfungsquote (A): A = x 100 Bereinigte Bruttostichprobe = Bruttostichprobe minus stichprobenneutrale Ausfälle Verweigerung ist stark vom Mafo-Institut abhängig Steigender Trend von Nichterreichbarkeit → ausgewertete Interviews keine Zufallsstichprobe aus der Bruttostichprobe → systematisch verzerrt Anzahl ausgewerteter Interviews bereinigte Bruttostichprobe

Fehlerquellen IV Mittelschicht Bias Replikative Umfrage
Kooperationsbereitschaft steigt mit Bildungsgrad Bereitschaft in Mittelschicht am größten Replikative Umfrage Veränderung in der Ausschöpfung problematisch für Interpretation der Ergebnisse Ausschöpfungsquote ist institutsabhängig → auch bei schlechter Arbeit das Institut nicht wechseln → Vergleichbarkeit der Ergebnisse

Möglichkeiten Ausfallquote zu senken
mehr Kontaktversuche ergänzende telefonische und schriftliche Befragung Entschädigung: Geld, Geschenke Daten für wissenschaftliche Auswertungen allgemein verfügbar (Allbus) Non-Response ist Problem bei Schätzung von Mittelwerten und Anteilswerten Bei Untersuchung von Zusammenhängen zwischen Variablen weniger Verzerrung

Problem Item-Non-Response
Antwort-Verweigerung bei einzelnen Fragen Kombination aus Unit –Non-Response und Item-Non-Response führt zu drastischer Senkung der Ausschöpfungsquote einzelner Fragen Ausschöpfungsquote der Umfrage ist Obergrenze für fragenspezifische Quote

Gewichtung Für Schätzung von Populationsparametern werden Rohdaten der Stichprobe oft gewichtet Arten: statistische Gewichtung (= Designgewicht) Nachgewichtung (= Redressement) Gewichtung auf Grund empirischer Hypothesen

Statistische Gewichtung
Nicht alle Elemente der Zufallsstichprobe haben die gleiche Chance in die Stichprobe zu gelangen Ist Wahrscheinlichkeit bekannt → Gewichtung Dadurch erhält man unverzerrte Schätzung Bsp.: Schwedenschlüssel

Nachgewichtung Verteilung der Stichprobe nachträglich an bekannte Verteilung der Grundgesamtheit angepasst (z.B. Geschlecht, Alter) Bsp.: Stichprobe: 30% Männer, 70% Frauen Population: Frauen zu Männer 53:47 → Gewichtung Männer: 47/30; Frauen: 53/70

Gewichtung auf Grund empirischer Hypothesen
üblich in Wahlforschung mittels Rückerinnerungsfrage (= Recallfrage) Interviewte wird nach Entscheidung bei letzter Wahl gefragt Vergleich mit Wahlergebnis, daraus Gewichtung konstruiert Hypothese ist nicht objektiv und unabhängig prüfbar

Repräsentative Stichprobe
Begriff ist kein Fachbegriff Stichprobe repräsentiert niemals alle Merkmale der Population Elemente der Population durch Vielzahl von Merkmalen charakterisierbar In Sozialforschung repräsentative Stichproben für Schätzung von Verteilungen Wenn-Dann Hypothesen als Allsatz ohne raum- zeitliche Begrenzung umfasst gesamte Menschheit → repräsentative Stichprobe unmöglich Design zur Prüfung von Hypothesen: Zufallsaufteilung auf Versuchs- und Kontrollgruppe

Wichtig in der Untersuchung anzugeben
Angabe der Stichprobentechnik (Zufall-, Quotenauswahl) bei Quotenauswahl: die Quotenmerkmale bei Zufallstichprobe: die Ausschöpfungsquote Anzahl der realisierten Interviews bei Surveystudien: die Erhebungsmethode (persönliche Befragung, Telefon) Gewichtungsverfahren genauen Fragetext mit Antwortkategorien

Vielen Dank für die Aufmerksamkeit!
Martin Paier

Stichproben LV: Methoden I LV-Leiterin: Dr. Regina Dittrich

Ähnliche Präsentationen

Präsentation zum Thema: "Stichproben LV: Methoden I LV-Leiterin: Dr. Regina Dittrich"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Stichproben LV: Methoden I LV-Leiterin: Dr. Regina Dittrich

Ähnliche Präsentationen

Präsentation zum Thema: "Stichproben LV: Methoden I LV-Leiterin: Dr. Regina Dittrich"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback