Seminar: Datenerhebung

Slides:



Advertisements
Ähnliche Präsentationen
Forschungsstrategien Johannes Gutenberg Universität Mainz
Advertisements

Thema der Stunde I. Einführung in die Varianzanalyse:
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Der Binomialtest Man habe einen wahren Anteil P.
Hypothesen testen: Grundidee
Statistische Methoden I
Statistische Methoden II
Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.
Nachholung der Vorlesung vom Freitag
Konfidenzintervalle Intervallschätzung
Statistische Methoden II SS 2008 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Makarenkostraße (Kiste)
M-L-Schätzer Erwartungswert
Die Vorlesung Statistische Methoden II findet am (nächste Woche) wegen der Projektwoche nicht wegen der Projektwoche nicht statt.
TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)
Die Student- oder t-Verteilung
Konfidenzintervalle Intervallschätzung Jeder Beobachtung wird ein Intervall C( ) der reellen Zahlen zugeordnet Niveau Dabei ist die Wahrscheinlichkeit,
Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
Statistische Methoden I SS 2005
Kolmogorov-Smirnov-Test. A. N. Kolmogorov Geboren in Tambov, Russland. Begründer der modernen Wahrscheinlichkeitstheorie.
Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Achtung Vorlesung am nächsten Montag (21. Juni) Zeit: Uhr Ort: Kiste.
II. Wahrscheinlichkeitstheorie
Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird auf Montag, den 17. Mai verlegt! Zeit: 16 Uhr Ort: Kiste Nächste Woche!!!!
Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.
III. Induktive Statistik
Statistische Methoden II SS 2003
Extra-SPSS-Kurse Durchführung: Birte Holtfreter Termine Di Mi Mi Ort PC-Pool Loefflerstarße.
Approximative Konfidenzintervalle im Bernoulli-Fall II
Test auf Normalverteilung
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.
Achtung Vorlesung am Montag, den 21. Juni Zeit: Uhr Ort: Kiste.
Sportwissenschaftliche Forschungsmethoden SS Statistischer Test.
Tutorium
Tutorium
Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.
Vorlesung: ANOVA I
Eigenschaften der OLS-Schätzer
Multikollinearität Wann spricht man von Multikollinearität?
Seminar: Datenerhebung
Histogramm/empirische Verteilung Verteilungen
Einführung in die beurteilende Statistik
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Chi Quadrat Test Tamara Katschnig.
Ausgleichungsrechnung I
Seminar: Datenerhebung
Seminar: Datenerhebung
Seminar: Datenerhebung
Seminar: Datenerhebung
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) 3. Ausgaben ( ) Wiederholung Tabellen,
Seminar: Datenerhebung
Seminar: Datenerhebung
Einführung in SPSS/PASW. Inhaltsübersicht 1. Intro ( ) 2. Deskriptive Statistik ( ) (In Buch 1 Seite 85ff.) Kennwerte (Erwartungswert,
STATISIK LV Nr.: 1375 SS März 2005.
Wiederholung BSP 2.1.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 0028 SS Mai 2005.
STATISIK LV Nr.: 1852 WS 2005/ Dezember 2005.
STATISIK LV Nr.: 1375 SS März 2005.
Konfidenzintervall und Testen für den Mittelwert und Anteile
Mehr zum Testen von Hypothesen
Statistik Statistik I Seminar + Blockveranstaltung Statistik I
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
Empirische Sozialforschung am Beispiel der Limburger Nordstadt
Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig
Geoinformationssysteme
 Präsentation transkript:

Seminar: Datenerhebung Einführung in SPSS/PASW Seminar: Datenerhebung

Inhaltsübersicht Intro (02.11.2010) Deskriptive Statistik (09.11.2010) Ausgaben (16.11.2010) Grafik und Übungen (23.11.2010) Wiederholung (30.11.2010) Datentyp Datum (07.12.2010) Theorie 1 (14.12.2010) Theorie 2 (11.01.2011) Mathematische Statistik Konfidenz-Intervalle

Theorieblock

Inhalte des Theorieblocks Zufallsexperimente, Zufallsvariablen und Wahrscheinlichkeit Überblick über die Mathematische Statistik Berechnen eines Konfidenz-Intervalls

Inhalte des Theorieblocks Zufallsexperimente, Zufallsvariablen und Wahrscheinlichkeit Überblick über die Mathematische Statistik Berechnen eines Konfidenz-Intervalls

Ziehen von Rückschlüssen aus einer Stichprobe Historisch: Erste statistische Erhebungen in Preußen zur Zeit des Großen Kurfürsten (1620 – 1688) durchgeführt und Ergebnisse als Staatsgeheimnisse gehütet

Stichprobe vs. Grundgesamtheit Grundsätzlich gilt, daß die beobachteten Kennzahlen der Stichprobe nicht mit den entsprechenden (unbekannten) Kennzahlen der Grundgesamtheit übereinstimmen. Die mathematische Statistik stellt jedoch Verfahren zur Verfügung, um auf Grundlage der Stichprobe plausible Schätzungen für die Grundgesamtheit abzugeben oder um Tests über bestimmte Aussagen zu (unbekannten) Kennzahlen der Grundgesamtheit durchzuführen.

Der Tenor von Statistik Frage: Welche Aussage über eine unbekannte Kennzahl (wahrer Parameter) der Grundgesamtheit kann aufgrund der Beobachtung der korrespondierenden realisierten (empirischen, beobachteten, bekannten) Kennzahl der Stichprobe gemacht werden? Mittel: Entwicklung und Begründung von Verfahren zur Auswertung von zufallsabhängigen Beobachtungsdaten, mit denen sich "vernünftige" Entscheidungen bei ungewisser Sachlage treffen lassen

Konfidenzniveau Ein Verfahren hat eine Sicherheit (Erfolgswahrscheinlichkeit, Konfidenz- Niveau) von z.B. 0.95, wenn es im Mittel in 95 von 100 Durchführungen zu einer richtigen Entscheidung führt, und entsprechend eine Irrtumswahrscheinlichkeit von 0.05; d.h. Im Mittel führen 5 von 100 Durchführungen zu einer falschen Entscheidung.

Einschränken der gesuchten theoretischen Verteilung auf eine Klasse (parametrische Tests) Bei konkreten Problemen liegen oft genaue oder gewisse Kenntnisse hinsichtlich der "Rahmenbedingungen" eines Zufallsexperimentes vor (z.B. bei einer Lotterie: "n-malige Stichprobenentnahme ohne Zurücklegen von Kugeln"), so dass die Menge aller in Frage kommenden theoretischen Verteilungen auf eine Klasse von Verteilungen eingeschränkt werden kann.

Parametrische Tests Verteilungsannahme Zufallsvariablen Einschränkung auf eine Klasse von Verteilungen, die sich nur noch durch Kenngrößen wie Lage- oder Streumaße (z.B. Erwartungswert, Varianz) unterscheiden Zufallsvariablen Abhängig oder unabhängig? Meist werden sie als unabhängig vorausgesetzt

Statistische Fragestellungen Beispiel: Bei 100-maligem Würfeln mit den Augensummen x1,…,x100 interessiere der unbekannte Erwartungswert μ der gewürfelten Augenzahl. Bei einem „ausbalancierten“ Würfel liegt dieser bei 3.5 Punkt-Schätzung: Welcher Schätzwert T(x1,…,xn) kann für den Erwartungswert aus der Stichprobe S(x1,…,xn) abgeleitet werden? Konfidenz-Intervall-Schätzung Welcher Schätzwert für ein Intervall, das den unbekannten wahren Erwartungswert mit vorgegebener Sicherheit enthält, kann aus der Stichprobe abgeleitet werden? Hypothesentest Wie kann aufgrund der Stichprobe S(x1,…,xn) eine begründete Entscheidung gegeben werden, ob die Nullhypothese μ=3.5 akzeptiert werden kann? Wie groß sind die Fehler 1. und 2. Art (α&β)? 1. Art a (Annahme der Hypothese, obwohl sie falsch ist) und 2. Art b (Ablehnung der Hypothese, obwohl sie wahr ist)?

Entscheidungsregel Nach der Durchführung eines Hypothesentests trifft man eine Entscheidung über Ablehnung oder Annahme der Null-Hypothese. Die Entscheidung ist abhängig vom gewählten statistischen Verfahren und ist mit einer gewissen Wahrscheinlichkeit falsch (α-β)

Hypothesentest auf 1 Blick Null-Hypothese H Testgröße T Zum Überprüfen von H Kritischer Wert c Trennt Annahme- und Ablehnungsbreich von H. Legt damit die Entscheidungsregel fest Jedem c ist eindeutig ein α und ein entsprechendes Konfidenz-Niveau (1-α) zugeordnet.

Übungen Was halten Sie davon, den (unbekannten) Erwartungswert im obigen Beispiel des 100-fachen Würfelwurfes durch folgende Punktschätzer T(X1,...,Xn) zu schätzen: T1: Schätzwert ist Ergebnis des 1. Würfelwurfes T2: Schätzwert ist Mittelwert von 1. und letztem Würfelwurf T3: Schätzwert ist Median aller Würfelwürfe T4: Schätzwert ist 3.5, unabhängig davon, was gewürfelt wurde Hinweise: Die Aufgabe eines Statistikers besteht u.a. darin, möglichst effiziente Verfahren zu entwickeln, die bei „geringer“ Stichprobenanzahl möglichst „optimale“ Ergebnisse liefern. Als Anwender brauchen Sie sich nur ein „passendes“ Verfahren aussuchen und sich aufgrund Ihres Datenmaterials und eines vernünftigen Signifikanzniveaus a die Antwort (Annahme/Ablehung) von SPSS berechnen lassen. Wie würden Sie die Irrtumswahrscheinlichkeit α festlegen für einen genetischen Test ("genetischer Fingerabdruck"), der in einem Vergewaltigungs- und Mordprozeß zur Urteilsfindung herangezogen werden soll, für eine Marketing-Untersuchung, für den Nachweis der Wirksamkeit eines Medikamentes als Befürworter/Gegner des Medikamentes? Interpretieren Sie folgende statistische Grundweisheit für Konfidenz-Intervalle: "Sichere Aussagen sind unscharf, scharfe Aussagen sind unsicher.“ Hinweise: Welcher Zusammenhang besteht zwischen Irrtums-Wahrscheinlichkeit und Länge von des Konfidenz-Intervalls?

Inhalte des Theorieblocks Zufallsexperimente, Zufallsvariablen und Wahrscheinlichkeit Überblick über die Mathematische Statistik Berechnen eines Konfidenz-Intervalls

Der Vertrauensbereiche, das Konfidenz-Intervall Wir berechnen für eine metrische Variable einen Vertrauensbereich für den unbekannten Erwartungswert und interpretieren das gewonnene Ergebnis.

Interpretieren von Vertrauensbereichen Vertrauensbereich für den Erwartungswert Erwartungswert μ ist mit einer Sicherheit (Konfidenz-Niveau, 1 - α) von z.B. 95% und entsprechend einer Irrtumswahrscheinlichkeit α von 5% enthalten. Interpretation des Konfidenz-Niveaus Falls Sie das ausgewählte Verfahren 100-mal durchführen würden – was Sie aber aufgrund von Geld- und Zeitmangel nicht tun - erhalten Sie im Mittel 95-mal einen Vertrauensbereich, der den unbekannten Parameter tatsächlich enthält, allerdings auch 5-mal einen Vertrauensbereich, der ihn nicht enthält. Da Sie aber nur eine und nicht 100 Untersuchungen durchführen, kann Ihre aktuelle Untersuchung also zu den 5 von 100 Untersuchungen gehören, bei denen das Verfahren einen "falschen„ Vertrauensbereich liefert, also einen Vertrauensbereich, der den wahren Parameter μ nicht enthält. Bei einer Schätzung aufgrund einer Stichprobe bleibt also immer ein Risiko, das Sie nur mit einer Gesamterhebung (Stichprobe = Grundgesamtheit) ausschließen können.

Berechnen eines Vertrauensbereichs Öffnet hypertonie-01.sav Wählt Analysieren > Deskriptive Statistiken > Explorative Datenanalyse Variable Gewicht Einstellungen Statistiken > jetzt gewünschtes Konfidenz-Niveau festlegen (95%)

Kochrezept 8_1 Titel: Berechnen Sie das Konfidenzinterval für Variable X Ziele: Bestimmen des Konfidenzintervalls, um ein Gefühl dafür/ Gewißheit darüber zu bekommen, wie aussagekräftig mein gefundener Kennwert ist.

Konfidenzintervall Erwartungswert hypertonie-01 Der 95%-Vertrauensbereich für den unbekannten Erwartungswert lautet demnach: CI= [71.90, 75.68] oder anders formuliert: 71.90 < μ < 75.68. Dieser Vertrauensbereich enthält den unbekannten Erwartungswert μ mit einer Irrtumswahrscheinlichkeit von 5% - falls die Stichprobe die Grundgesamtheit angemessen repräsentiert.

Übungen Berechnen Sie einen 99%-Vertrauensbereich für den Erwartungswert von bz0 (Blutzucker) aus der SPSS Datendatei „hypertonie-01.sav“. Nennen Sie eine sinnvolle Grundgesamtheit. Halten Sie einen Rückschluß auf die Gesamtbevölkerung für sinnvoll? Führen Sie nun die Berechnung aus Übung 1 analog für die Irrtumswahrscheinlichkeiten a=1%, 3%, 10% und 20% durch und vergleichen Sie die Länge und Lage der Konfidenzintervalle (bestenfalls tabellarisch und grafisch). Erklären Sie, weshalb „große“ Konfidenz-Intervalle „sicher“ und „kleine“ entsprechend „unsicher“ sind.

Zurück zur Praxis Tests

Testen der Unabhängigkeit Chi-Quadrat-Test Ziel: Überprüfung der Unabhängigkeit von 2 kategorial-skalierten Variablen X und Y Basiert auf: r x s Kontingenztafel (r Kategorien von X und s Kategorien von Y) in der neben den berechneten zusätzlich die „erwarteten“ Häufigkeiten eingetragen werden.

Berechnen der Chi-Quadrat Testgröße: Beispiel (1/4) Im folgenden Beispiel untersuchen Sie aggregiertes Datenmaterial über die Religionszugehörigkeit von Braut und Bräutigam bei Eheschließungen in Köln im Jahr 1970 aus der SPSS Arbeitsdatei „heirat.sav“ Es soll die Null-Hypothese H überprüft werden, daß die Religionszugehörigkeit der Braut (X=braut) und die Religionszugehörigkeit des Bräutigams (Y=braeutigam) keinen Einfluß auf das Zustandekommen einer Eheschließung hat.

Berechnen der Chi-Quadrat Testgröße: Beispiel (2/4) Öffnet heirat.sav Wählt Daten > Fälle gewichten

Berechnen der Chi-Quadrat Testgröße: Beispiel (2/4) Wählt Analysieren > Deskriptive Statistiken > Kreuztabellen Variablen Braut, Bräutigam Einstellungen Statistiken > Chi-Quadrat ankreuzen Zellen > Erwartet, nicht standardisiert

Kochrezept 8_2 Titel: Chi-Quadrat-Test Ziel: Untersuchen/Prüfen Sie die Unabhängigkeit von 2 Variablen

Ein Blick in die Daten Ein erster unschuldiger Vergleich der tatsächlich beobachteten mit den erwarteten Häufigkeiten bei Unabhängigkeit zeigt, dass diese stark voneinander abweichen. Diese Vermutung läßt sich durch den Chi-Quadrat-Test nun auch statistisch absichern:

Übungen Untersuchen Sie für das Datenmaterial aus der Datendatei „strafe.sav“ (Untersuchung über die Art der Verurteilung von weißen und schwarzen Mördern in den USA) die Variablen „strafe“ (Urteil bei Mord (Zuchthaus oder Todesstrafe) und hautfarbe (Hautfarbe des Verurteilen) auf Unabhängigkeit. Die Gewichtung (Daten > Fälle gewichten …) erfolgt über die Variable anzahl. Messen Sie dieser Untersuchung politische Bedeutung zu? Überlegt, wie Ihr das Ergebnis aus dem eben zusammen behandelten Beispiel für die SPSS Arbeitsdatei „heirat.sav“ begründen könnt. Untersucht insbesondere, wo es auffallend zu „wenig“ und wo es auffallend zu „viele“ Eheschließungen gibt. Hinweise: Könnte das Ergebnis z.B. auf indirekte Zusammenhänge wie geografische oder soziale Gruppierungen zurückzuführen sein, die ihrerseits bei der Wahl des Ehepartners eine Rolle spielen?

Ausblick Berechnen von Korrelationskoeffizienten Lineare Regression Vergleichen von 2 Gruppenmittelwerten (t- Test) Vergleichen mehrerer Gruppenmittelwerte (Varianz-Analyse) Reduzieren der Variablenanzahl Exploratives Analysieren von Daten Cluster-Analyse

Vielen Dank für Eure Aufmerksamkeit