Grundgesamtheit – Stichprobe

Slides:



Advertisements
Ähnliche Präsentationen
T - Test Prüfung des Mittelwerteunterschieds bei abhängigen und unabhängigen Stichproben.
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Vom graphischen Differenzieren
Die Projektgruppe heißt Sie herzlichst willkommen
Normalverteilte Zufallsvariablen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Statistiken und Tabellen
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
Gliederung Vertrauensintervalle Arten von Hypothesen
Forschungsstatistik II
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2005 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-24.
Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-18.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Hypothesen testen: Grundidee
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Fragen Was wird mit der Alphafehler-Kumulierung bzw. –inflation bezeichnet? Wie hoch ist die Wahrscheinlichkeit bei einer Untersuchung mit 4 Gruppen einen.
Studienverlauf im Ausländerstudium
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Zerlegung von Quadraten und ????
Eigenschaften der OLS-Schätzer
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
Daten auswerten Boxplots
20:00.
So kannst du beide schnell berechnen.
Zusatzfolien zu B-Bäumen
Eine Einführung in die CD-ROM
Chi Quadrat Test Tamara Katschnig.
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
Wir üben die Malsätzchen
Überblick Statistik Deskriptive Statistik=beschreibende Statistik
Syntaxanalyse Bottom-Up und LR(0)
STATISIK LV Nr.: 1375 SS März 2005.
STATISIK LV Nr.: 0021 WS 2005/ Oktober 2005.
Addieren und Subtrahieren von Dezimalzahlen
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Eine lllustration der Herausforderungen des Stromsystems der Zukunft
Symmetrische Blockchiffren DES – der Data Encryption Standard
Retuschen.ppt Die folgende Schau zeigt die Möglichkeiten, mit PhotoDraw Digitalbilder zu retuschieren. Vergleichen Sie jeweils zwei Bildpaare durch fleissiges.
Szenisches Lernen Wie Theaterelemente den Unterricht bereichern
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Kamin- und Kachelöfen in Oberösterreich
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Regression Maria Morozova Lisa Ochsenhofer. Einführung Francis Galton 1886 Größe von Vater und Sohn Regression zum Mittelwert.
QUIPS 2011 Qualitätsverbesserung in der postoperativen Schmerztherapie.
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Gedankenlesen Durch Studien fand man heraus, dass Gedanken in einem gewissen Maße lesbar sind.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Die einfache/multiple lineare Regression
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
 Präsentation transkript:

Grundgesamtheit – Stichprobe Grundgesamtheit: z.B. alle schweizer WählerInnen Stichprobe: 1‘000 repräsentative WählerInnen

Stichproben Eine Forscherin entwickelt ein neues Medikament. Bei einem Test an 10 Personen, bewirkt der neue Stoff bei 7 Personen eine Verbesserung. Bei den traditionellen Medikamenten tritt eine positive Wirkung „nur“ bei 50% der Behandlungen ein. Weist die Untersuchung der Forscherin eine signifikante Messung auf oder ist sie zufällig?

Natürliche Streuung Wenn man 10 mal eine Münze wirft, dann müsste man der Wahrscheinlichkeit gemäss 5 mal „Zahl“ und 5 mal „Kopf“ werfen. Das ist aber unwahrscheinlich! Das Gleiche gilt bei Medikamenten, wenn bei 50% der Patienten eine Wirkung eintritt. Wenn man 10 Patienten das Medikament gibt, wirkt es nicht zwingend jedes Mal bei 5 und bei 5 nicht.

Ein Versuch

Aufgabe Öffnet den Datenset binomial_würfe.sav Berechnet die Anzahl Fälle >=70 und davon abgeleitet, wieviel Prozent das sind Macht das Gleiche für alle Fälle >=70 oder <=30

Eine kleine Rechnung Von unseren 50 Wurfserien sind 9 mit einem Wert >= 70 9/0.5 = 18 In 18% der Fälle liegt der Wert durch zufällige Streuung im Bereich >= 70

Eine kleine Rechnung II Von unseren 50 Wurfserien sind 19 mit einem Wert >= 70 oder <= 30 19/0.5 = 38 In 38% der Fälle liegt der Wert durch zufällige Streuung im Bereich >= 70 oder <= 30

Bedeutung Wenn in 38% der Fälle ein Wert zufällig >= 70 oder <= 30 sein kann, ist das neue Medikament weder besser noch schlechter als die bestehenden Medikamente, mit einer Heilungschance von 50%

Binomialtest Script S. 209 Stichprobengrösse Einmal Samplesize 10, einmal 40 (simul.sav)

Normalverteilung Fläche = 1

Beispiel von youtube www.youtube.com Key: normal distribution

Normalverteilung II Prob =.683 Prob = .954 Prob = .997

Werte können in einer Tabelle abgelesen werden Die schraffierte Fläche repräsentiert die Wahrscheinlichkeit eines Z-Wertes >= .5 Fläche = .3085 z = 0.5

Berechnen des z-Wertes Bsp. IQ (iq.sav) Z-Wert für 75: (75-99.19)/13.52 = -1.79

Aufgabe: Z-Werte Datensatz iq.sav Errechnet die neue Variable ziq gemäss der Formel

Stichproben Script S. 219 Beispiel cholest_stichproben.sav

P für Cholestrinwert <= 193 Z = 193-205/34.83 = -0.345 P nach Tabelle = 37%

Verteilung von 500 Stichprobenmittelwerten von Stichproben der Grösse 21

Standardabweichung der Stichprobenmittel = Standard-Fehler Std.Err.= Bsp: 35 / Wurzel(21) = 7.64

Anwendung Bei gegebenem Mittelwert und Standardabweichung der Grundgesamtheit kann man: die Wahrscheinlichkeit eines Z-Wertes für Stichproben finden

Z-Wert Mittelwert Stichprobe – Mittelwert Grundgesamtheit z = Standardabweichung Grundgesamtheit

193 – 205 z = = -1.57 Beispiel: Kontrolle Buch S. 223 21 CEOs wurden nach ihrem Cholesteringehalt untersucht, mit dem Ergebnis von 193 mg/dl. Wir wissen, dass in der Bevölkerung der Cholesteringehalt im Mittel 205 mg/dl beträgt, das mit einer Standardabweichung von 35 193 – 205 z = = -1.57 Kontrolle Buch S. 223

Was geschieht, wenn die Standardabweichung der Grundgesamtheit fehlt? Wir wissen vielleicht, dass die Beschäftigten in einem Land im Mittel 40 Stunden arbeiten, kennen aber die Standardaweichung nicht. Buch Norusis, S. 235 f.

T-Statistik Formel: t = Stichprobenmittel – Mittel der Grundgesamtheit s ist die Std.Abw. der Stichprobe Der ganze Teil ist die Std.Abw der Streuung aller möglichen Stichproben = Std.Err. der Stichprobenmittel

Die T-Statistik Basiert auf der t-Verteilung Die Verteilung verändert sich nach Anzahl n Um die richtige Verteilung zu finden, braucht es die Freiheitsgrade

Die Berechnung zum Beispiel ist im Buch auf S. 240 zu finden. T = (47-40)/0.49 = 14.3

T- Verteilung

Degrees of freedom (df) Die Anzahl von Stichprobenwerten, die frei variieren können Eine Restriktion 10 = 8 6 9 7 Freiheitsgrade = n - 1 ? 40

Ein t-Wert von 14.3? Was bedeutet dieser Wert bei 436 Freiheitsgraden? Kontrolle auf Tabelle

Vorgehen in SPSS S. 240 Script

Histogramm

Ist die Verteilung normal? Aufgrund des visuellen Eindrucks eher nicht Überprüfung mit Shapiro-Wilk‘s und Kolmogorov-Smirnov (K-S) Test -> Explore-Befehl Script S. 264

Zentraler Grenzwertsatz Genug grosse Stichproben (Faustregel > 30) streuen in ihren Mittelwerten approximativ normal. Dabei muss die Variable der Gesamtpopulation nicht normal verteilt sein.

Diskussion der Ergebnisse

Konfindenzintervalle I Aufgrund der hohen Signifikanz können wir davon ausgehen, dass die Hochschulabgänger mehr als 40 Stunden arbeiten. Aber: Wieviele Stunden arbeiten sie nun?

Konfidenzintervalle II Aufgrund unserer Daten könnten wir von 47 Stunden ausgehen. Das ist die beste Vermutung, die aus dem Mittel der Stichprobe abgeleitet ist. Aufgrund des Standardfehler wissen wir, dass die Stichproben eine Std.Abw. von .488 haben

Konfidenzintervalle III Im Beispiel haben wir ein 95%-iges Konfidenzintervall. Dh. 95% der Fälle liegen innerhalb von ca. 2 Std.Abw.

Konfidenzintervall IV Jetzt können wir rechnen: 2 x 0.48 = 0.96 Mittelwert von 47 – 0.96 = 46.04 Mittelwert von 47+ 0.96 = 47.96

Aufgaben Aufg. 2 S. 250 Aufg. Statistics Coach (brakes.sav)

T-Test mit abhängigen (gepaarten) Stichproben Ausgangslage: Typischwerweise vorher - nachher

Beispiel Marathonläufer: Ein Team erforschte, ob bei Langstreckenläufer der β-Endorphin-Werte Nach einem Lauf höher sind als vorher. β-Endorphin-Werte vorher nachher diff ________ ________ ________ 4.30 29.60 25.30 4.60 25.10 20.50 5.20 15.50 10.30 5.20 29.60 24.40 6.60 24.10 17.50 7.20 37.80 30.60 8.40 20.20 11.80 9.00 21.90 12.90 10.40 14.20 3.80 14.00 34.60 20.60 17.80 46.20 28.40 Gesamtergebnis Mittelwert 8.43 27.16 18.74 N 11 11 11

Lösungsansatz Wenn es keinen Unterschied gibt, dann müssen die Mittelwerte von vorher und nachher gleich sein, die Differenz demnach = 0 Wenn die Differenz stark von 0 abweicht, dann ist der Unterschied nicht mehr zufällig

Umsetzung mit SPSS T-Test mit einer Stichprobe T-Test mit gepaarten Stichproben

Aufgabe Ein Forschungsteam möchte wissen, ob eine Diät erfolgreich war und ob durch die Diät das Tryglyceride-Niveau bei den Partizipienten signifikant gesunken ist. Datensatz: dietstudy.sav

T-Test mit 2 unabhängigen Stichproben Gaby möchte untersuchen, ob ihre neue Behandlung eine Linderung für Stottern bringt Sie nimmt zwei Gruppen. Die eine bekommt ein Placebo, die andere Gruppe die neue Behandlung. Nach dem Experiment werden alle Testpersonen einem Test unterzogen. Die Stärke des Stotterns wird mit einem Wert 1 bis 10 vergeben, wobei 10 starkes Stottern bedeutet. Datensatz: stottern.sav

Erinnerung Standardfehler = Dies ist die geschätzte Standardabweichung von allen möglichen gleichen Stichproben, t errechnet sich dann:

Was heisst das für unabhängige Stichproben Wenn beide Gruppen den gleichen Mittelwert haben, ist die Differenz der Mittel = 0 Es wird nicht mehr der Standardfehler „des“ Mittelwertes errechnet sondern der Standardfehler der Mittelwert-Unterschiede

In einer Population mit einem Mittel von 0 streuen sich mögliche Stichproben. Eine Differenz von 2 ist gemäss der Darstellung sehr sehr selten.

Berechnung von t

SPSS-Output

Aufgabe Vergleich TV-Stunden - Internetgebrauch

Varianzanalyse (einfaktoriell) Vergleich von mehr als 2 Gruppen über eine numerische Variable

Ausgangslage Datensatz: gssft.sav

Frage und Hypothese Gibt es einen Unterschied zwischen den Ausbildungsgruppen bezüglich Arbeitszeit? Nullhypothese: Die Mittelwerte der einzelnen Gruppen unterscheiden sich nicht

Streuung innerhalb der Gruppen ist klein

Streuung zwischen den Gruppen ist klein

Resultat

F-Verteilung Die F-Verteilung wird nur zum Testen verwendet, etwa bei der Varianzanalyse, um festzustellen, ob die Grundgesamtheiten zweier Stichproben die gleiche Varianz haben. (http://de.wikipedia.org/wiki/F-Verteilung)

Bedingungen für ANOVA Unabhängigkeit der Gruppen Normalverteilung Varianzgleichheit Vgl. S. 307

Wie weiter Die Null-Hypothese, dass die Gruppen-Mittelwerte gleich sind, konnte verworfen werfen. Die Varianzanalyse sagt aber nichts darüber aus, wo die Unterschiede liegen -> Weitere Verfahren

Bonferroni-Methode Mit ihrer Hilfe wird die Alphafehler-Kumulierung bei multiplen Paarvergleichen neutralisiert.

Alpha-Fehler Je mehr Tests durchgeführt werden, desto "überhöhter" sind die üblichen Signifikanzangaben. Mit einem einzigen Test und einem Alpha von 0,05 ist die Wahrscheinlichkeit, die Null-Hypothese korrekterweise zu akzeptieren (1 - 0,05) = 0,95. Führen wir zwei (unabhängige) Tests durch, so wird diese Wahrscheinlichkeit deutlich reduziert: 0,95 x 0,95 = 0,90, was eine ebenso deutliche Änderung des entsprechenden Alpha-Werts von 0,05 auf 0,1 bedeutet. Diese Fehlerquelle ist allgemein als Alpha-Fehler-Kumulierung bekannt.

Alpha-Fehler Wie groß ist die Wahrscheinlichkeit, bei 2maligem Würfeln mindestens 1 mal "6" zu werfen? Wir können die günstigen und möglichen Fälle abzählen (kompliziert) oder so überlegen: Die Wahrscheinlichkeit für "0 mal 6" beträgt 5/6·5/6 = 25/36. "Mindestens 1 mal 6" ist das Gegenereignis dazu, also P(mind. 1mal 6) = 1 - P(0mal 6) = 1 - 25/36 = 11/36.

Inkonsistenzen

Resultate des Tests

Aufgabe Datensatz antisemitismus.sav

Im Folgenden soll mit Hilfe einer einfaktoriellen Varianzanalyse untersucht werden, ob die Reaktionen von Personen unterschiedlichen Bildungsniveaus auf diese Aussage signifikant voneinander verschieden sind. Hierzu werden die Befragten in Abhängigkeit von ihren höchsten Schulabschlüssen in Gruppen unterteilt. Der höchste von den Befragten erreichte Schulabschluß ist in der Variablen bildung angegeben.

Stichprobengrösse http://www.arnsberg.de/buergerpanel/bestimmung-stichprobengroesse.pdf

Mann-Whitney U-Test Test für zwei unabhängige Stichproben Alternative zum t-Test für unabhängige Stichproben

Formel

Beispiel U1 = 10.5-((4*5)/2) = .5

Output in SPSS

Wilcoxon-Test Vergleich von zwei abhängigen Stichproben Beispiel Alphasan – Betasan (Zöfel S. 231) Norusis S. 391

Kruskal und Wallis‘ H-Test

Lineare Regression Die Regressionsrechnung dient dazu, die Art des Zusammenhanges zw. 2 Variablen aufzuzeigen und Möglichkeiten anzubieten, den Wert einer (abhängigen) Variablen aus den Werten einer andern (unabhängigen) Variablen vorherzusagen.

Die „beste“ Gerade finden

Methode der kleinsten Quadratsumme (KQ-Summe)

Methode der kleinsten Quadratsumme II Hier werden die senkrechten Abstände der einzelnen Punkte von der Geraden bestimmt. Dabei werden diese quadriert um negative Vorzeichen zu eliminieren. Anschliessend wird die Summe der quadrierten Abstände berechnet und es wird die „am besten angepasste“ Gerade ausgewählt, bei der die Summe der quadrierten Abstände am kleinsten ist.

Regressionsgleichung y = a + bx a: Achsenabschnitt (Ordinatenabschnitt) b: Steigung (Regressionskoeffizient) Beispiel: life expectancy = 90-(0.70 * birthrate)

Berechnung in SPSS Achsenabschnitt Steigung

Werte vorhersagen y = a + bx predicted life expectency = 90+(-)(0.697 x birthrate) Beispiel: wie hoch ist die Lebenserwartung bei einer Geburtsrate von 11 (pro 1000) Predicted life expectency = 90-(.697 x 11) = 82.21 Jahre

Aufgabe Datensatz bank.de Erstellt eine Regression für die Variablen: Einstiegsgehalt (unabhängige Var) und Ausbildung (abhängige Var.) Berechnet das geschätzte Gehalt bei einer Ausbildungszeit von 10 Jahren

Hypothesen Test Bei unseren Daten handelt es sich um eine Stichprobe Wir wollen eine Aussage über die Grundgesamtheit machen H0 = der Regressionskoeffizient in der Grundgesamtheit ist Null

Erklärung Stichprobenmittel – Mittel der Grundgesamtheit t = s ist der Standardfehler des Regressionskoeffizienten (Steigung der Gerade) t = -.70/.05 = -14 N.B. die Freiheitsgrade wären Anzahl Fälle der abhängigen Variable - 2

Konfidenzintervalle

Vorhersage der Werte für die Grundgesamtheit Vorhersage der Mittelwerte Vorhersage einzelner Werte

Vorgehen in SPSS

Neue Variablen werden berechnet

Streudiagramm für die Mittel

Streudiagramm für einzelne Werte