Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Einführungskurs Statistik

Ähnliche Präsentationen


Präsentation zum Thema: "Einführungskurs Statistik"—  Präsentation transkript:

1 Einführungskurs Statistik
Modul 0008

2 Warum eigentlich Statistik?
Deskriptive Statistik Beschreiben der Daten Suchen nach Trends /Mustern Induktive Statistik Ziel: Verallgemeinerung der Ergebnisse Rückschlüsse auf Grundgesamtheit/Population durch Erhebung einer repräsentativen Stichprobe

3 Ablauf statistischer Untersuchungen

4 Ablauf statistischer Untersuchungen
Wieviele Proben benötige ich? Welche Stichprobeneinheit soll verwendet werden? Skalierung Welches räumliche Probennahmemuster soll verwendet werden? z.B. bei Beprobung einer Fläche Welches zeitlich Probennahmemuster soll verwendet werden? Adäquate Intervalle Relevanz, repräsentativität (Wiederholung, Reporoduzierbarkeit) Abhängigkeit von Fragestellung

5 Populationen und Stichproben
Definition Population Stichprobe Grundgesamt-heit Teilmenge einer Grundgesamt-heit Symbole griechisch latein Mittel m Standardab-weichung s

6 Stichproben Verbundene Stichproben Unverbundene Stichproben
z.B. wiederholte Messungen am gleichen Versuchsobjekt Stichprobe zu einem Zeitpunkt kann Einfluss auf Stichprobe eines anderen Zeitpunkts haben Unverbundene Stichproben Stichproben haben keinen Einfluss aufeinander z.B. unterschiedliche Populationen, Vergleich unterschiedlicher Individuen

7 Datentypen Informationsgehalt
Verhältnisdaten sind als Brüche darstellbar, echter Nullpunkt Informationsgehalt

8 Merkmale / Variablen Experimente werden normalerweise so gestaltet, um den Einfluss eines oder mehrerer Faktoren auf eine Variable zu untersuchen Feldarbeit kann nie vollständig kontrolliert werden: Verschiedene Faktoren können Einfluss auf Variable haben see “Nearly right or precisely wrong” by Randolph and Nuttall (1994)

9 Systematische Fehler/Trend (Bias)
Auftretender, meist störender systematischer Effekt mit einer Grundtendenz, der von den wahren Ergebnissen abweicht Schätzung von Fischpopulationen mit Netzen einer bestimmten Maschenweite: kleine Fische können immer entkommen Fangen von Säugetieren: manche Individuen sind “trap happy”, manche sind “trap shy” Vermeiden, diskutieren

10 Deskriptive Statistik
Eine Methode um Daten zusammenzufassen und darzustellen Heiko hat 2006 über Zecken gesammelt H.G. Andrewartha hat in 14 Jahren über Fransenflügler auf Rosen gezählt Große Datenmengen müssen zusammengefasst werden Eine numerische Darstellung wird für eine genaue Beschreibung der Daten benötigt Excel, SPSS, R, … Deskriptive Statistik für Protokoll (ZUSAMMENGEFASST, nicht ALLES)

11 Darstellung von Daten

12 Darstellung von Daten Histogramm Säulendiagramm Scatterplot Boxplot

13 Häufigkeitsverteilungen

14 Parameter einer Verteilung
Lagemaße Mittelwerte Median Modalwert Quantile Streuungsmaße Spannweite (Minimum bis Maximum) Varianz Standardabweichung Konfidenzintervall (e.g. a=5%=95%KI) Das Konfidenzintervall ist der Bereich, der bei unendlicher Wiederholung eines Zufallsexperiments mit einer gewissen Häufigkeit (dem Konfidenzniveau) die wahre Lage des Parameters einschließt

15 Zentrale Tendenz & Streuung

16 Lagemaße - Mittelwerte
Arithmetisches Mittel (am häufigsten verwendet) AM=1/nSxi Geometrisches Mittel (für logarithmierte Daten, z.B. Populationswachstum) Harmonisches Mittel (Mittelwert von Verhältnissen, z.B. Fahrzeit) AM>GM>HM

17 Weitere Lagemaße Median (der Wert, der bei einer Auflistung von Zahlenwerten in der Mitte steht) 4, 1, 37, 2, 1  Median = 2 (1, 1, 2, 4, 37) Modalwert (Dichtemittel) 2, 2, 3, 5, 5, 5, 9, 9, 15 Quantil, Quartil Die geordnete Reihe der Merkmalsausprägungen wird in gleichgroße Teile zerlegt Modalwert ist der Wert auf x-Achse, bei dem die Verteilungskurve ihr absolutes Maximum annimmt.

18 Streuungsmaße Spannweite Varianz Standardabweichung
Maximale Differenz zwischen zugrunde liegenden Daten Mindestens Ordinaldaten notwendig Varianz Mittlere quadratische Abweichung der einzelnen Datenwerte vom arithmetischen Mittelwert. Standardabweichung Als Standardabweichung bezeichnet man die Wurzel aus der Varianz. Dieses Streuungsmaß besitzt die selbe Einheit wie die Daten und der Mittelwert

19 1 2 3 4 380 350 354 376 356 360 344 358 362 342 368 352 372 338 366 374 382 364 351 348 Breite des Scutums von Haemaphysalis laporis palustris Larven von vier Kaninchen (mm)

20 Deskriptive Statistik
1 2 3 4 n 8 10 13 6 372,3 354,4 355,3 361,3 Standard-abweichung 7,36 11,91 8,91 15,26

21 Wahrscheinlichkeitsverteilung
Einige Verteilungen, die natürlich vorkommen Normalverteilung Poissonverteilung Binomialverteilung Negative Binomialverteilung Diskret = Wertebereich der Zufallsvariable auf eine endliche oder abzählbare Menge beschränkt Stetig = überabzählbar Wahrscheinlichkeit wie variable in population verteilt ist

22 Normalverteilung Häufigste Verteilung für stetige Variablen
Lagemaß: Mittelwert Streuungsmaß: Varianz Anforderung um parametrische Tests durchzuführen Bei einer Normalverteilung sind Mittelwert und Median gleich K-S

23 Poissonverteilung Einparametrige, diskrete statistische Verteilung
“Verteilung der seltenen Ereignisse Anzahl von Tieren, die auf einem km Straße getötet werden Anzahl der Personen aus 10 preussischen Armeen, die über den Zeitraum von 20 Jahren durch Pferdetritte getötet werden

24 Binomialverteilung Zweiparametrige, diskrete statistische Verteilung
Genau zwei Ausprägungsmöglichkeiten des Merkmals möglich: z.B. weiblich & männlich, verheiratet und ledig Frage: wie groß ist die Wahrscheinlichkeit dafür, dass das Ereignis E genau k-mal eintritt, wenn man Zufallsexperiment genau n-mal durchführt

25 Negative Binomialverteilung
Eine gruppierte (aggregierte) Verteilung, die oft verwendet wird um eine Überdispersion z.B. in Parasitenpopulationen anzugeben. Die Varianz ist normalerweise größer als der Mittelwert Bsp.: Anzahl von Zecken/ Igel auf 20 Igeln) Anzahl Darmwürmer pro Igel

26 Hypothesen und Testen von Hypothesen
Signifikanzniveau Konfidenzintervall Typ I - und Typ II - Fehler Ein- und zweiseitige Tests

27 Das Prinzip der Hypothesen
Die Nullhypothese (H0) sagt, dass es keine Unterschiede gibt Wird H0 abgelehnt, wird die Alternativhypothese H1 akzeptiert Statistische Tests untersuchen die Wahrscheinlichkeit ob einer der Hypothesen “richtig” oder “falsch” ist

28 Ablauf eines statistischen Tests
Aufstellen der Forschungsfrage Entwicklung eines Experiments zum testen der Hypothese Formulieren von H0 und H1: klares Verständnis für Erwartungen Entscheidung für einen geeigneten statistischen Test und Signifikanzniveau (normalerweise p < 0.05) Sammeln der Daten um Hypothese zu testen Kontrolle der Probenverteilung: wenn nötig alternativer Test oder Datentransformierung Testanalyse: Berechnung des p-Wertes Statistische Entscheidung p < 0,05 => Verwerfen der H0 und Annehmen der H1 p ≥ 0,05 Beibehalten der Nullhypothese (H0) Interpretation der Ergebnisse

29 Signifikanzniveau & Konfidenzintervall
=Irrtumswahrscheinlichkeit α α/2 = Nie 100% sicherheit, untersciedlich je nach disziplin und fragestellung zb 0,05 -> 5% darf falsch sein Ergebnis gilt für 95% der daten (hier:95%= Sicherheitswahrscheinlichkeit, alpha = irrtumswahrscheinlichkeit) je Achsenende alpha/2 (symmetrisch) I willkürlich

30 Konfidenzintervall & Co.
Konfidenzintervall: Der Bereich in dem der Parameter der Grundgesamtheit mit einer gewissen Wahrscheinlichkeit liegt Konfidenzintervalle lassen sich nur bestimmen wenn die Verteilung der Grundgesamtheit bekannt ist Ein Mittelwert ist wenig wert, wenn man nichts über die Verteilung der Daten weiß Standardabweichung (s) Maß für die Streuung der Werte einer Zufallsvariablen um ihren Erwartungswert Standardfehler (Streuungsmaß - (s/sqrt(n))) Durchschnittliche Abweichung des geschätzten Parameterwertes vom wahren Parameterwert

31 Testauswahl: Welche Kriterien nutzen wir?
Skalenniveau das für die Daten passt Sind die Daten verbunden oder unverbunden? Sind die Daten normalverteilt? Anzahl der untersuchten Variablen Anzahl der Vergleichsgruppen der Variablen Können eine oder mehrere Faktoren die Werte der Variable beeinflussen? (univariate oder multivariate Analyse)

32 Kreuztabelle tabellarische Darstellung der gemeinsamen Häufigkeitsverteilung zweier Variablen Eignet sich vor allem für kategorielle Daten 2 x 2 Tabelle m x n Tabelle z.B. Vergleich von Prävalenzen weiblich männlich Summe Produkt A Produkt B Summe

33 Frage 1 Trevor möchte wissen ob das Verhältnis der Anzahl von männlichen zu weiblichen Zecken, die er im Garten gesammelt hat, gleich ist.

34 2x2 Tabelle Variable I II Total + a b a+b - c d c+d a+c b+d

35 Männchen (m) Weibchen (f) Total Beobachtet (o) 42 38 80 Erwartet (e)
40 c2 1= (om-em)2/em + (of-ef)2/ef Freiheitsgrade (df) = Anzahl untersuchten Gruppen -1 c2 mit 1df ist signifikant wenn α=5% wenn größer als >3.84 c2 1= 0.2 nicht signifikant H0: anzahl m = anzahl w

36 Frage 2 Trevor möchte wissen ob das Verhältnis von männlichen zu weiblichen Zecken an zwei unterschiedlichen Fangtagen im März das Gleiche ist.

37 Männchen Weibchen Total 31. März 42 38 80 14. März 33 35 68 75 73 148
c21=n(lad-bcl-n/2)2/(a+b)(c+d)(a+c)(b+d) n/2 =Yates Korrektur für kleine Stichproben Eine alternative Methode bei kleinen Stichproben ist der Fisher’s exact test

38 nicht signifikant

39 Frage 3 Trevor möchte wissen ob das Verhältnis von Männchen zu Weibchen aus dem Garten im März das gleiche ist wie an zwei Sammeltagen im April.

40 n x m Tabelle Variable 1 2 Total A n11 n21 R1 B n12 n22 R2 C n13 n23

41 Männchen Weibchen Total 17. März 75 73 148 25. April 13 6 19 27. April
18 101 84 185 c22=4,64; p=0,098 df=(c-1)(r-1) Achtung: es gibt keinen signifikanten Unterschiede zwischen den Apriltagen. Vereinigt man die Daten der beiden Apriltage und vergleicht sie mit März  c21=4,54; p=0,032

42 SEHR WICHTIG! Plane dein Experiment von Anfang an immer mit den statistischen Tests im Hinterkopf Viele Daten werden gesammelt ohne die spätere statistische Auswertung zu berücksichtigen  oft nutzlos!

43 Typ 1 und Typ 2 Fehler Typ 1: wir lehnen H0 ab, obwohl sie wahr ist. Wenn a=0,05 dann lehnen wir H0 in 5% der Fälle ab, obwohl sie wahr ist. a, die Wahrscheinlichkeit, mit der wir H0 ablehnen, wird so definiert. Typ 2: wir akzeptieren H0 obwohl sie falsch ist. Die Wahrscheinlichkeit einen Typ 2 Fehler zu machen ist b. 1-b ist die Wahrscheinlichkeit H0 abzulehnen obwohl sie in Wirklichkeit richtig ist. Zb geringer stichprobenumfang

44

45

46 Ein- oder zweiseitige Tests

47 t-Test und andere tdf=1- 2/Standardfehler Vergleich von Mittelwerten
Zwei unabhängige Stichproben Gleiche Varianz (Mann-Whitney U-test) Ungleiche Varianz Abhängige Stichproben (Wilcoxon signed-ranks test) Transformationen * nicht-parametrische Tests Transformierte daten können verwendet werden

48 Freiheitsgrade Stichprobengröße kann die Verteilung der Daten beeinflussen Je mehr Individuen, desto eher sind die geschätzten Parameter nah an der Realität (Grundgesamtheit). Dieser Einfluss wird in der Statistik mit aufgenommen (df) Für eine Population ist df=n, für eine Stichprobe n-1

49 Frage Miriam möchte wissen, ob sich die Anzahl von Retikulozyten bei männlichen und weiblichen Igeln unterscheidet Eventuell saisonal abhängig  Mai 2007 für den Test Zwei Mittelwerte (Männchen, Weibchen) Stichproben sind unabhängig voneinander T-test

50 Oben: deskr. Statistik (Gruppenvariable 1 und 2)
Todsünde… Unten: Teststatistik Signifikanz unter 0,05: untere Sign. V. t-test Varianzen sind nicht gleich)

51 Die Annahmen des t-Tests
Beobachtungen müssen unabhängig voneinander sein Stichproben müssen zufälllig aus einer normal verteilten Population genommen werden (ggf. Transformation) Populationen haben (normalerweise) die gleiche Varianz (nicht zwingend notwendig) Variablen müssen mindestens intervallskaliert sein

52 Was machen, wenn die Daten nicht zum Test passen?
Parametrische Tests Annahme der Normalverteilung Die tatsächlichen Werte werden verwendet Nicht-parametrische Tests Keine bestimmte Verteilung wird angenommen Daten werden für den Test klassifiziert (verlieren damit an Information) Ranking statt tatsächliche werte

53 Parametrisch vs. nicht-parametrisch
Vorteile von parametrischen Tests Die wahre Verteilung der Daten wird in den Test mit einbezogen  vorhandene Informationen werden genutzt Vorhandene Tests können komplexe Interaktionen zwischen Variablen einschätzen Vorteile von nicht-parametrischen Tests Können verwendet werden wenn die Stichprobengröße gering ist Können für Daten verwendet werden, die nicht normalverteilt sind (auch nicht transformiert werden können) Können auch für nominale oder ordinale Daten verwendet werden

54 Nicht-parametrischer Test für zwei Stichproben
Mann-Whitney U-test Zwei unabhängige Stichproben Wilcoxon-Vorzeichen-Rang-Test Zwei abhängige Stichproben Beide verwenden klassifizierte Daten

55 Frage Miriam möchte wissen, ob die Anzahl von Retikulozyten sich bei männlichen und weiblichen Igeln unterscheiden Eventuell saisonal abhängig  Mai 2007 für den Test Zwei Mittelwerte (Männchen, Weibchen) Stichproben sind unabhängig voneinander

56

57 T-Test wdh zum vergleich
Nicht-Signifikanz hier wesentlich deutlicher

58 Varianzanalyse (ANOVA)
Einfach (Einfaktorielle) z.B. Hämoglobinkonzentration/Igel in drei verschiedenen Gruppen Mehrfaktoriell: mehr als eine unabhängige Variable Zwei oder mehr Faktoren können das Ergebnis eines Experiments beeinflussen: die Interaktionen zwischen den unabhängigen Faktoren können bestimmt werden z.B. Stichproben von 100 Bulinus Schnecken, die sich unter verschiedenen Temperatur- und pH- Bedingungen entwickelt haben Mehr als zwei gruppen

59 1 2 3 4 380 350 354 376 356 360 344 358 362 342 368 352 372 338 366 374 382 364 351 348 Breite des Scutums von Haemaphysalis laporis palustris Larven von 4 Kaninchen(mm)

60 Deskriptive Statistik
1 2 3 4 n 8 10 13 6 372,3 354,4 355,3 361,3 Standard-abweichung 7,36 11,91 8,91 15,26

61 ANOVA (Analysis of Variance)
Quelle der Abweichungen df Sums of squares Mean squares F P Zwischen Gruppen 3 1.807,7 602,6 5,26 0,004 Innerhalb der Gruppen 33 3.778,0 114,5 Total 36 5.585,7 Anova output Parametrischer test, vergleicht mittelwerte verschiedener gruppen P>0,05 -> sign unterschiede in scutumbreite

62 Interpretation Wir finden Unterschiede zwischen den Gruppen  aber wo?
Weitere Tests können dies überprüfen (Post-hoc Tests): Least significant difference (LSD) Tukey’s HSD

63 Wo sind die Unterschiede?
LSD und Tukey’s HSD zeigen beide: 1=4 aber 1> 2 und 3 2=3, 4 aber 2>1 3= 2,4 aber 3>1 4=1, 2, 3

64 Hintergrund Annahmen: wie für den t- Test
Abhängige (Zielvariable) und unabhängige Variablen (Einflussvariable/Faktor) Der Faktor beeinflusst die Zielvariable z.B. wie beeinflusst eine bestimmte Dosis eines Medikaments den Blutdruck?  Der Blutdruck hängt von der Dosis ab, aber nicht umgekehrt

65 Nicht-parametrische Tests für mehr als zwei Stichproben
Kruskal-Wallis Test Für k unabhängige Stichproben Friedman-Test Für k abhängige Daten Beide nutzen klassifizierte Daten

66 Korrelation Pearson Korrelation (r) Rangkorrelation nach Spearman (rs)
Verwendet tatsächlichen Werte Rangkorrelation nach Spearman (rs) Verwendet klassifizierte Daten Bestimmtheitsmaß (r2) Zwischen 0 und 1 Zusammenhang zwischen der abhängigen und den unabhängigen Variablen

67 Retikulozyten Retikulozyten Konz.
Zwei Arten um ret zu messen (2 wege um das selbe zu messen) Retikulozyten Konz.

68 Oben: sehr hohe Korr (r hoch, p hochsignifikant)
Unten auch Abhängigkeitsrichtung unbekannt (Korrelation versus regression)

69 Regression Linear Nicht-linear
Transformationen wie für den t-Test und die ANOVA Bsp.: Kurvenförmige Regression

70 ANCOVA Analysis of covariance - Kovarianzanalyse
Kombination zwischen ANOVA und Regression. Ziel ist es, die Auswirkung von in einem konkreten Experiment nicht relevanter, unabhängiger Faktoren (Kovariate/Kovariable) auf die abhängige Variable auszublenden und so einen möglichen Effekt einer interessierenden unabhängigen Variable auf die abhängige Variable statistisch eher nachweisen zu können z.B. Einfluss einer Krankheit (Kovariate) auf die Einnahme (abhängige Variable) dreier Medikamente (unabhängige Variable)

71

72

73 Fragen?


Herunterladen ppt "Einführungskurs Statistik"

Ähnliche Präsentationen


Google-Anzeigen