Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

15.05.2006 Stichproben LV:Methoden I LV-Leiterin: Dr. Regina Dittrich Vortragender: Martin Paier.

Ähnliche Präsentationen


Präsentation zum Thema: "15.05.2006 Stichproben LV:Methoden I LV-Leiterin: Dr. Regina Dittrich Vortragender: Martin Paier."—  Präsentation transkript:

1 15.05.2006 Stichproben LV:Methoden I LV-Leiterin: Dr. Regina Dittrich Vortragender: Martin Paier

2 15.05.2006 Systematische Stichprobetechniken wurden erstmals in den 30er Jahren in den USA hauptsächlich in Wahl- und Umfrageforschung verwendet. (Literary Digest) George Gallup hingegen entwickelte eine Methode mit relativ kleinen Stichproben, die sog. Quotenstichprobe. Im Allgemeinen gilt das statistische Prinzip, dass größere Stichproben unter sonst gleichen Bedingungen genauer sind als kleinere Stichproben – dies trifft nicht zu, wenn die Stichprobe verzerrt ist. (Literary Digest) Sind große Stichproben selektiv, dann werden kleinere, unverzerrte Stichproben genauere Schätzungen liefern

3 15.05.2006 Hauptprobleme der Stichproben- ziehung anhand von Beispielen Befragung in der Fußgängerzone : –keine Zufallsstichprobe aus der Bevölkerung –Teil der angesprochenen Personen verweigert (non-Response) Zuschauer oder Leser geben ihre Meinung durch bestimmte Telefonnummern zum Ausdruck (TED) –Nur aktive werden anrufen Patentbilanz in Japan ist viel höher, aber nicht unbedingt wegen dem Technologievorsprung, sondern weil die Patentanmeldung wesentlich billiger ist als in Europa.  Totalerhebung der Bevölkerung ist viel zu zeitaufwendig und zu teuer.

4 15.05.2006 Stichprobe (Sample) –Erhebungseinheit: wer in die Stichprobe aufgenommen wird –Erhebungsgesamtheit: umfasst Elemente, die eine von null verschiedene Chance haben, in die Stichprobe aufgenommen zu werden (survey population Gegensatz zur target population) Personen aus Heimen, Krankenhäusern, Gefängnissen etc. sind von vornhinein unberücksichtigt. Grundgesamtheit (Population) –Explizite Vorschriften, wie Elemente der Grundgesamtheit ausgewählt werden.

5 15.05.2006 3 Hauptgruppen von Stichprobenverfahren: (Stichprobenumfang N) Wahrscheinlichkeitsauswahl –Zufallsauswahl, Zufallsstichproben Bewusste Auswahl –Quotenverfahren Willkürliche Auswahl –Stichprobenziehung wird nicht mehr kontrolliert; z.B. bei psychologischen Experimenten, sog. Freiwillige Versuchkaninchen Das Auswahlverfahren der Stichprobentheorie dient dem Zweck, von Kennwerten der Stichprobe auf die unbekannten Kennwerte (Parameter) der Grundgesamtheit zu schließen. Ziel ist die Schätzung von Parametern der Population mittels der Stichprobeninformation. Zufallstichproben und Quotenstichproben werden als repräsentative Stichproben bezeichnet.

6 15.05.2006 Arten Einfache Zufallsstichproben –Die Auswahlwahrscheinlichkeit für alle Elemente der Grundgesamtheit identisch >null “Equal Probability SElection Method –Die Auswahl erolgt direkt in einem einstufigen Auswahlvorgang Sind beide Kriterien erfüllt spricht man von der einfachen Zufallsauswahl SRS (Simple Random Sampling)

7 15.05.2006 einfache Zufallsziehung von Stichprobenelementen Listenauswahl –Nur möglich, wenn Verzeichnisse sämtlicher Elemente der Grundgesamtheit existieren RDD-Methode (Random Digit-Dialing) –Zufallsauswahl einer Stichprobe per Telefon. Vorsicht bei systematisch aufgebauten Nummern! –Vorteil: es können auch Nummern verwendet werden, die nicht in Telefonbüchern stehen z.B. Geheimnummern oder neue Nummern Lotterieauswahl Gebietsauswahl –Random-Route-Verfahren (Ausgangsadressen werden vorgegeben –Adressrandom Schwedenschlüssel (kish-selection-grid) –Zufallsauswahl innerhalb eines Haushaltes –Aufgedruckte Kombination von Zufallsziffern auf dem Fragebogen

8 15.05.2006 Schwedenschlüssel MUSTER Haushalts- größe 12345678 Befragungs person 11242374 Auswahlprinzip –Maximale Haushaltsgröße angenommen –Zweiten Tabellenreihe zufallsgenerierte Zahlen –Ermittlung wie viele Personen in dem jeweiligen Haushalt zur statistischen Population gehören, aus der die Stichprobe gezogen werden soll –Nach Alter aufgelistet

9 15.05.2006 mehrstufige Zufallsauswahl Zufallsauswahl erstreckt sich auf mehreren Ebenen –Beispiel: Gemeindestichprobe 1 Stufe: 50 Gemeinden werden zufällig ausgewählt 2 Stufe: durchschnittlich 40 Adressen/Gemeinde werden per Random ermittelt –Typische Zufallsstichprobe eines nationalen Surveys ist dreistufig : 1 Stufe: Auswahl von Stimmbezirken 2 Stufe: Auswahl von Haushalten im Stimmbezirk per Random- Route 3 Stufe: Zufallsauswahl der zu fragenden Personen per Schwedenschlüssel Achtung: Auswahleinheiten auf den einzelnen Stufen meist ungleich groß d.h. Unterschiedliche Anzahl von Element der Grundgesamtheit. So wird man keine EPSEM Stichprobe erhalten. Horvitz-Thompson-Schätzung –Es wird mit Haushaltsgröße gewichtet Die Gewichtung bedeutet praktisch, dass so getan wird, als ob eine Person aus einem Haushalt der Größe m im Datensatz m- mal enthalten ist.

10 15.05.2006 Klumpenstichproben Klumpenauswahl (Cluster-Sample) –Spezialfall mehrstufiger Zufallsauswahl –Klumpen/Cluster werden die auf der ersten Stufe ausgewählten Einheiten bezeichnet –Sämtliche Klumpenelemente werden berücksichtigt –Die Elemente eines Klumpens werden mit Wahrscheinlichkeit eins in die Stichprobe aufgenommen (im Gegensatz zu mehrstufigen Zufallsstichproben; da ist die Auswahlwahrscheinlichkeit auf jeder Ebene kleiner als eins) –Fehlerintervall von Parameterschätzungen ist bei Klumpenstichproben größer als bei einfachen Zufallsstichproben

11 15.05.2006 Schichtung Voraussetzung: –Vorwissen, bezüglich der Merkmalsverteilung in der Population –Möglichkeit, Elemente Proportionale Stichproben –der Grundgesamtheit separat nach Schichten auszuwählen –Für jede Erhebungseinheit muss die Schichtungszugehörigkeit bekannt sein Vorteil –Fehlerintervall geringer als bei einfachen Zufallsstichproben -Proportionale Stichproben Umfang jeder Schicht-Stichprobe ist proportional zur Größe der Schicht liefern eine EPSEM-Stichprobe Fehlerintervall ist meist geringer als bei einer einfachen Zufallsauswahl –Disproportionale Stichproben wenn aus Schichten unterschiedlicher Größe die jeweils absolut gleiche Anzahl von Elementen gezogen wird Präzision der Schätzung kann optimiert werden Je homogener die Elemente innerhalb der Schichten bzgl. des untersuchten Merkmals und je größer die Heterogenität zwischen den Schichten, desto ausgeprägter ist der Schichtungseffekt

12 15.05.2006 Unterschied klumpen- und geschichtete Stichproben Klumpenstichprobe einige Klumpen werden aus vielen ausgewählt je heterogener die Elemente in Klumpen, desto präziser die Schätzung Homogenität ist unerwünscht  extreme Merkmalsausprägungen würden auftreten wenn eine einfache Zufallsauswahl nicht möglich oder zu zeitaufwendig ist  Verlust der Präzision nimmt man in Kauf Geschichtete Stichprobe Population wird vollständig in Schichten zerlegt aus jeder Schicht wird separat eine Zufallsstichprobe verwendet je homogener die Elemente in einer Schicht, desto präziser die Schätzung verbessert die Präzision der Schätzung gegenüber einfachen Zufallsstichproben

13 15.05.2006 WAS ist eine Quotenauswahl? Methode ist eine „bewusste Auswahl“ der Stichprobe nach bestimmten Regeln Quote = Merkmalsverteilung (z.B. 36 % männlich, 64 % weiblich) ZIEL = Zusammensetzung der Stichprobe soll nach den Merkmalen ein „Abbild“ der Grundgesamtheit darstellen

14 15.05.2006 Quotenauswahl I Quoten gelten für eine gesamte Stichprobe, wobei z.B. jeder Interviewer für die Befragung eine Anweisung erhält = QUOTENANWEISUNG Legt fest, wie viele Personen mit welchen Merkmalen befragt werden müssen

15 15.05.2006 Quotenauswahl II „Rechtfertigung“ für die Quotenauswahl als Methode (Böltken 1976, Scheuch 1974, Noelle 1963) „Quotenmerkmale sind mit anderen (…) korreliert“ Innerhalb der Quoten ist Zufallsauswahl möglich Quoten stellen ein proportionales Abbild von N dar

16 15.05.2006 Problembereiche I Keine garantierte Korrelation mit anderen Variablen Ähnliche Quoten bei unterschiedlichen Untersuchungen Korrelationsargument: jede interessierende Variable steht in Zusammenhang mit den „üblichen Quotenmerkmalen“ – nicht bewiesen

17 15.05.2006 Problembereiche II Auswahl von zu befragenden Personen durch persönliche Interviewer (Freunde, Bekannte werden zuerst befragt) Zu strenge Quotenanweisungen führen oft zu „Quotenanpassungen“ Quoten vs. Random ?

18 15.05.2006 Quoten aus speziellen Populationen Problem: mit allgemeinen Befragungen werden spezielle Populationen kaum erreicht werden Ausnahme: Listenauswahl (nur in seltenen Fällen möglich) DAHER sind Sampling Methoden erforderlich Adressliste

19 15.05.2006 Sampling Methoden I 1.Capture – Recapture Methode I Unter bestimmten Vorraussetzungen ist es möglich mittels dieser Methode „versteckte“ Populationen zu entdecken Stichprobe und Wiederholungsstichprobe – einzelne Fälle müssen gekennzeichnet werden, damit sie „wieder erkannt“ werden, keine Anonymität Voraussetzungen: zwei unabhängige Stichproben, Population bleibt dazwischen konstant

20 15.05.2006 Sampling Methoden II 1. Capture – Recapture Methode II Wie viele Fälle der ersten Stichprobe sind in der Wiederholungsstichprobe enthalten? u………Umfang Stichprobe I v……….Umfang Stichprobe II w……...Anzahl der Fälle die sowohl in STP I als auch STP II enthalten sind x……geschätzte Größe der „verborgenen“ Population u * v x = —— w

21 15.05.2006 Sampling Methoden III 2. Schneeballtechnik Am Beispiel der „verborgenen“ Population der Homosexuellen (Dannecker/Reiche 1974) wurden Fragebögen an homosexuelle Freunde und Bekannte verteilt – diese verteilten wiederum Fragebögen im Bekannten- und Freundeskreis Nachteil: keine Wahrscheinlichkeitsauswahl, allenfalls Zufallsstichprobe

22 15.05.2006 Sampling Methoden IV 3. Nominationstechnik Personen aus einer bestimmten Population (z.B. Drogensüchtige) werden befragt und geben weitere Personen an, die dieser Gruppe angehören (anonym) Ebenso wie bei der Schneeballtechnik handelt es sich streng genommen um keine Zufallsstichprobe

23 15.05.2006 Schätzung von Anteilswerten p =p = p Anteilswert Schätzwert Hypothese Grundgesamtheit Stichprobe (p) Umkehrschluss StichprobeGrundgesamtheit N n

24 15.05.2006 Fehlerintervall Erwartungswert ( p ) Standardfehler I 1,2 = Stichprobenschätzwert +/- z x Standardfehler I 1,2 = p +/- z x Vertrauens- Normal- bereich verteilung Vertrauensbereich halbieren N x 4  p(1-p) N  w w

25 15.05.2006 Anwendungsbereich Partei y 5% Hürde bei 1000 Befragten 60 y ( 6% ) I 1,2 = 0,06 +/- 1,96 (z) I 1 = 0,045 = 4,5% I 2 = 0,075 = 7,5% Für 100% Sicherheit über 5% halber Vertrauensbereich  0,06*0,94 1000

26 15.05.2006 Fehlerintervall metrischer Variablen I 1,2 = Stichprobenschätzwert +/- t x Standardfehler bei Population Mittelwert nicht mehr normalverteilt I 1,2 = x +/- t x bei Einkommensmittelwert Fehlerintervall berücksichtigt NN sxsx w w

27 15.05.2006 Zufallsstichproben in der Praxis Zufallsstichprobe aus der Bevölkerung eines Landes kompliziert Auswege: –Quotenstichprobe –ADM-Design (Arbeitsgemeinschaft Deutscher Marktforschungsinstitute)

28 15.05.2006 ADM-Design dreistufige Zufallsstichprobe mit Gebietsauswahl Grundgesamtheit = Privathaushalte in Deutschland Ablauf: –1. Stufe: Stimmbezirke (= sampling points) mit Wahrscheinlichkeit proportional zur Größe ausgewählt –2. Stufe: Zufallsstichprobe von Adressen mittels Random-Route-Methode ermittelt –3. Stufe: zu befragende Personen mittels Schwedenschlüssel bestimmt

29 15.05.2006 Fehlerquellen I Gesamtfehler (= total survey error) besteht aus: –Zufallsfehler der Stichprobe –Systematischer Fehler bei Stichprobenauswahl –Verzerrung nicht direkt durch Auswahlverfahren (= non sampling bias) Systematischer Fehler –Elemente der Population gehen mit unterschiedlicher Wahrscheinlichkeit in Sample ein –bei Bekanntheit der Wahrscheinlichkeit durch Gewichtung korrigierbar –Systematischer Fehler durch Random Route –Systematischer Fehler durch Schwedenschlüssel

30 15.05.2006 Fehlerquellen II Verzerrung nicht direkt durch Auswahlverfahren –Messfehler –Fehlerquellen im Interview –Diskrepanzen zwischen Ziel- und Surveypopulation –Non-Response Diskrepanzen (= Undercoverage) –Zielpopulation ist umfassender als Surveypolulation –Definition Grundgesamtheit: „Alle in Privathaushalten lebenden Personen, mind. 18 Jahre alt mit deutscher Staatsangehörigkeit“ –nicht enthalten: Wohnungslose, Soldaten in Kasernen, Gefängnisinsassen, Heimbewohner, usw.) –Bei speziellen Untersuchungen zur sozialen Schichtung, Alter, Armut kann sich Undercoverage auswirken

31 15.05.2006 Fehlerquellen III Non-Response –ist Ausfall durch Verweigerung oder Nichterreichbarkeit –Ausfallqoute: 100 – A (liegt bei 50 – 70%) –Ausschöpfungsquote (A): A = x 100 –Bereinigte Bruttostichprobe = Bruttostichprobe minus stichprobenneutrale Ausfälle –Verweigerung ist stark vom Mafo-Institut abhängig –Steigender Trend von Nichterreichbarkeit → ausgewertete Interviews keine Zufallsstichprobe aus der Bruttostichprobe → systematisch verzerrt Anzahl ausgewerteter Interviews bereinigte Bruttostichprobe

32 15.05.2006 Fehlerquellen IV Mittelschicht Bias –Kooperationsbereitschaft steigt mit Bildungsgrad –Bereitschaft in Mittelschicht am größten Replikative Umfrage –Veränderung in der Ausschöpfung problematisch für Interpretation der Ergebnisse –Ausschöpfungsquote ist institutsabhängig → auch bei schlechter Arbeit das Institut nicht wechseln → Vergleichbarkeit der Ergebnisse

33 15.05.2006 Möglichkeiten Ausfallquote zu senken mehr Kontaktversuche ergänzende telefonische und schriftliche Befragung Entschädigung: Geld, Geschenke Daten für wissenschaftliche Auswertungen allgemein verfügbar (Allbus) Non-Response ist Problem bei Schätzung von Mittelwerten und Anteilswerten Bei Untersuchung von Zusammenhängen zwischen Variablen weniger Verzerrung

34 15.05.2006 Problem Item-Non-Response Antwort-Verweigerung bei einzelnen Fragen Kombination aus Unit –Non-Response und Item- Non-Response führt zu drastischer Senkung der Ausschöpfungsquote einzelner Fragen Ausschöpfungsquote der Umfrage ist Obergrenze für fragenspezifische Quote

35 15.05.2006 Gewichtung Für Schätzung von Populationsparametern werden Rohdaten der Stichprobe oft gewichtet Arten: –statistische Gewichtung (= Designgewicht) –Nachgewichtung (= Redressement) –Gewichtung auf Grund empirischer Hypothesen

36 15.05.2006 Statistische Gewichtung Nicht alle Elemente der Zufallsstichprobe haben die gleiche Chance in die Stichprobe zu gelangen Ist Wahrscheinlichkeit bekannt → Gewichtung Dadurch erhält man unverzerrte Schätzung Bsp.: Schwedenschlüssel

37 15.05.2006 Nachgewichtung Verteilung der Stichprobe nachträglich an bekannte Verteilung der Grundgesamtheit angepasst (z.B. Geschlecht, Alter) –Bsp.: Stichprobe: 30% Männer, 70% Frauen Population: Frauen zu Männer 53:47 → Gewichtung Männer: 47/30; Frauen: 53/70

38 15.05.2006 Gewichtung auf Grund empirischer Hypothesen üblich in Wahlforschung mittels Rückerinnerungsfrage (= Recallfrage) –Interviewte wird nach Entscheidung bei letzter Wahl gefragt – Vergleich mit Wahlergebnis, daraus Gewichtung konstruiert Hypothese ist nicht objektiv und unabhängig prüfbar

39 15.05.2006 Repräsentative Stichprobe Begriff ist kein Fachbegriff Stichprobe repräsentiert niemals alle Merkmale der Population Elemente der Population durch Vielzahl von Merkmalen charakterisierbar In Sozialforschung repräsentative Stichproben für Schätzung von Verteilungen Wenn-Dann Hypothesen als Allsatz ohne raum- zeitliche Begrenzung umfasst gesamte Menschheit → repräsentative Stichprobe unmöglich Design zur Prüfung von Hypothesen: Zufallsaufteilung auf Versuchs- und Kontrollgruppe

40 15.05.2006 Wichtig in der Untersuchung anzugeben Angabe der Stichprobentechnik (Zufall-, Quotenauswahl) bei Quotenauswahl: die Quotenmerkmale bei Zufallstichprobe: die Ausschöpfungsquote Anzahl der realisierten Interviews bei Surveystudien: die Erhebungsmethode (persönliche Befragung, Telefon) Gewichtungsverfahren genauen Fragetext mit Antwortkategorien

41 15.05.2006 Vielen Dank für die Aufmerksamkeit! Martin Paier


Herunterladen ppt "15.05.2006 Stichproben LV:Methoden I LV-Leiterin: Dr. Regina Dittrich Vortragender: Martin Paier."

Ähnliche Präsentationen


Google-Anzeigen