Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik.

Ähnliche Präsentationen


Präsentation zum Thema: "Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik."—  Präsentation transkript:

1 Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik

2 Kurze Geschichte der Statistik G. Achenwall (Göttingen ) Wissen, das ein Staatsmann besitzen sollte Datensammlung durch die Länder (statistische Ämter)

3 Meilensteine John Graunt ( ) entdeckte, dasmehr Knaben als Mädchen geboren wurden Adolphe Quetelet ( ) führte das Konzept des Durchschnittsmensc hen ein, dessen Gedanken und Taten mit dem Verhalten der Gesellschaft übereinstimmen

4 Bedeutung der Konstanz grosser Zahlen Neben dem blossen Sammeln von Daten gewinnen die Interpretation und das Ziehen von Schlussfolgerungen an Bedeutung.

5 Verknüpfung von Statistik und Wahrscheinlichkeitsrechnung Durch das Glücksspiel - Galileo Galilei soll herausgefunden haben, daß mit 3 Würfeln häufiger die Zahl 10 als die Zahl 9 gewürfelt wird (um 1600)

6 Weitere Meilensteine Karl Friedrich Gauß ( ) -Umlaufbahn von Ceres mit Methode der kleinsten Quadrate -Normalverteilung

7 Weitere Meilensteine Thomas Bayes ( ) A-priori Wahrscheinlichkeit A-posteriori Wahrscheinlichkeit

8 Weitere Meilensteine Karl Pearson ( ) Chi-Quadrat Ronald A. Fisher ( ) Varianz, Planung, Zufallsanordnung und Signifikanztests

9 Zwischenfazit Statistik sollte nicht nach Kochbuch durchgeführt werden. Hintergründe und Voraussetzungen der verschiedenen Methoden sind wichtiger als mathematische Formeln

10 Beschreibende Statistik Population und Stichprobe CAVE Selection BIAS

11 Statistisches Handwerkszeug 1. Therapiestudien 2. Diagnosestudien

12 Statistisches Handwerkszeug Therapiestudien: Zweck: Nachweis einer Wirksamkeit, Vergleich zweier therapeutischen Maßnahmen wichtig: messbare Outcomes z.B. Überlebenszeit, binäre Zielgrößen (geheilt/nicht geheilt) oder stetige Zielgrößen (FEV1) einzelne Messungen müssen voneinander unabhängig sein (Ergebnisse der Therapie bei einem Patienten unabhängig vom Ergebnis des anderen Patienten)

13 Binäre Zielgrößen Beispiel: Auftreten einer akuten Otitis media in bestimmter Hochrisikogruppe (Simoes 1996) Auftreten = negatives Ergebnis/Therapieversagen Vierfeldertafel: Therapieversagen Therapiejanein neuaba + b Standardcdc + d a + cb + da+b+c+d

14 Wahrscheinlichkeiten Therapieversagen Therapiejanein neuaba + b Standardcdc + d a + cb + da+b+c+d Wahrscheinlichkeit Pn für eine Otitis media bei einem Kind in Gruppe Neue/Experimentelle Therapie läßt sich schätzen durch: P e = a/(a + b) P s = c/(c + d)

15 Risikodifferenz Therapieversagen Therapiejanein neuaba + b Standardcdc + d a + cb + da+b+c+d RD = P e – P s RD = 0 bedeutet, dass Wahrscheinlichkeit in beiden Gruppen für Therapieversagen gleich groß ist. RD < 0 : experimentelle Gruppe/NeueTherapie besser

16 Relatives Risiko Verhältnis beider Wahrscheinlichkeiten RR = Pe : Ps bei Pe = Ps RR = 1 RR<1in experimenteller Gruppe bessere Prognose RR = (a/(a+b)) / (c/(c+d))

17 Odds-Ratio odds = chance (Sportwetten!) Bei Fall-Kontroll-Studien (hier kann ein Therapieversagen nicht geschätzt werden) Odds = P / 1 – PP = Wahrscheinlichkeit Beispiel: Odds von 3 : 1 = 75 % Eintritt und 25% gegen Eintritt des Ereignisses Odds-Ratio = Odds für den Eintritt eines Ereignisses in der exp.Gruppe Odds in der Kontrollgruppe Odds = 1 : Wahrscheinlichkeit eines Ereignisses in beiden Gruppen gleich RR<1in experimenteller Gruppe bessere Prognose

18 Number needed to treat (NNT) In EBM häufig gebraucht Wieviele Patienten muss ich behandeln, um im Vergleich zu einer anderen Therapie ein positives Ergebnis herbeizuführen Voraussetzung: experimentelle Gruppe besser! Pe < Ps NNT = 1/ARR = 1/RD ARR = Absolute Risikoreduktion

19 Vergleichende Maßzahlen Absolute Maßzahlen: RD (Risikodifferenz), ARR (Absolute Risikoreduktion) Relative M.: RR (Relatives Risiko), RRR (Relative Risikoreduktion), OR (Odds Ratio) Beispiel: RD 0,5 % bei Risiko von 1 auf 0,5% 0,005 : 0,01 = 0,5 RR bei Risiko von 48 auf 47,5% 47,5 : 48 = 0,99 RR

20 Stetige Zielgrößen Beispiel: Therapie Atemwegsobstruktion, Zielgröße: Änderung FEV1 Wichtig: Annahme über die zugrunde liegende Verteilung des Merkmals Wenn annähernd normalverteilt bzw. symmetrisch: Mittelwertdifferenz MD = xE – xS MD = 0 : beide Gruppen unterscheiden sich im Mittelwert nicht

21 Überlebenszeiten Zeit bis zum Eintritt des Todes Schätzung der Überlebenszeit in 2 Therapiegruppen mittels Kaplan-Meyer-Methode Vergleich zweier Gruppen mittels Log-Rank-Tests (sind die Unterschiede in beiden Gruppen signifikant??) Hazard-Funktion: Wahrscheinlichkeit, an einem bestimmten Zeitpunkt zu versterben Vergleichende Messzahlen: Differenz der Überlebenszeiten oder Hazard-Ratio HR > 1 : Risiko zu versterben in exp.Gruppe größer als in standard.Gruppe

22 Statistisches Handwerkszeug 1. Therapiestudien 2. Diagnosestudien

23 Statistisches Handwerkszeug 2. Diagnosestudien Zweck: Beurteilung einer (neuen) Maßnahme zur Diagnose einer Erkrankung Vorhersage der neuen Methode wird mit Goldstandard verglichen (=gegenwärtig zuverlässigste Methode) Binäre Outcomes: Krankheit erkannt oder nicht

24 Binäre Zielgrößen Beispiel: Röntgendiagnostik mit klinisch-neurologischer Beurteilung für Diagnose intrakranieller Verletzungen bei Kindern mit SHT (Lloyd 1997) Goldstandart: CCT Vierfeldertafel: Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv aba + b Testergebnis negativ cdc + d a + cb + dN

25 Prävalenz, Vortestwahrscheinlichkeit Vortestwahrscheinlichkeit = (a + c) / N Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv aba + b Testergebnis negativ cdc + d a + cb + dN

26 Sensitivität und Spezifität Sensitivität = a / (a + c) Wahrscheinlichkeit, dass ein Erkrankter durch eine diagnostische Methode auch als krank erkannt wird Spezifität = d / (b + d) Wahrscheinlichkeit, dass ein Gesunder durch eine diagnostische Methode auch als gesund erkannt wird Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv aba + b Testergebnis negativ cdc + d a + cb + dN

27 Wahrscheinlichkeitsverhältnis Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv aba + b Testergebnis negativ cdc + d a + cb + dN engl. likelihood ratio (LR): Verhältnis der Wahrscheinlichkeiten, dass bei einer erkrankten Person das entsprechende Testergebnis beobachtet wird im Vergleich dazu, dass es bei einer gesunden Person beobachtet wird. LR + = Sensitivität / (1 – Spezifität) wenn LR+ = 1: Wahrscheinlichkeiten bei positivem Test gleich groß je größer LR +, ums so verlässlicher das positive Testergebnis

28 Wahrscheinlichkeitsverhältnis Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv aba + b Testergebnis negativ cdc + d a + cb + dN LR - = (1 – Sensitivität) / Spezifität wenn LR- = 1: Wahrscheinlichkeiten bei negativem Test gleich groß je kleiner LR -, ums so verlässlicher das negative Testergebnis

29 Prädiktive Werte Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv aba + b Testergebnis negativ cdc + d a + cb + dN Positiver Prädiktiver Wert (PPW) Wahrscheinlichkeit, dass ein Patient bei positivem Testergebnis tatsächlich erkrankt ist PPW = a / (a + b) abhängig von Vortestwahrscheinlichkeit

30 Von Sox e.a. (Stanford University) entwickelt 211 eigene Patienten mit Angina pectoris standardisiert nach Angina pectoris Symptomen befragt Koronarangiographie logistische Regression Bsp. Angina pectoris-Score zur Diagnostik der KHK Nach SOX HC e.a. (1990) Am J Med 89:7-14

31 Angina pectoris-Score Nach SOX HC e.a. (1990) Am J Med 89:7-14 Attribut Exakter Koeffizient (n=211)Gerundeter Koeffizient ( (Score 0- 25) Alter über 60+ 2,85+ 3 Belastungsangina+ 4,26+ 4 Infarktverdacht in der Anmanese + 3,9+ 4 Belastungsabbruch wegen AP + 2,76+ 3 Nitratpositiv+ 1,93+ 2 Raucher (20 pack- years) + 3,93+ 4 Männliches Geschlecht+ 5,37+ 5 Maximale Punktzahl25

32 Angina pectoris-Score Nach SOX HC e.a. (1990) Am J Med 89:7-14 Attribut Exakter Koeffizient (n=211)Gerundeter Koeffizient ( (Score 0- 25) Alter über 60+ 2,85+ 3 Belastungsangina+ 4,26 Infarktverdacht in der Anmanese + 3,9 Belastungsabbruch wegen AP + 2,76 Nitratpositiv+ 1,93 Raucher (20 pack-years)+ 3,93+ 4 Männliches Geschlecht+ 5,37+ 5 Maximale Punktzahl

33 Prävalenz der KHK vor Anamnese (pretest probability nach Sox HC e.a. (1990) Am J Med 89:7-14) Kardiologische Universitätsklinik = ca 75 % (n=170, Stanford University + Palo Alto VA Medical Centre) Kardiologische Ambulanz = ca 33 % (n=404, Palo Alto Veterans Administration Medical Centre) Allgemeinmedizinische Ambulanz = ca 8 % (n=289, Kaiser-Permanente Medical Centre) Aussagekraft einer Standardisierten Anamnese nach Versorgungsbereichen

34 Wie lassen sich diese Unterschiede erklären???? Aussagekraft einer standardisierten Anamnese nach Versorgungsbereichen

35

36 Ätiologie des akuten Brustschmerzes (Erhardt e.a. (2002) Task force on the management of chest pain. Eur Heart Journ 23: ) ÄtiologieAllgemein- praxis (in%) Notfall- Zentrale (in%) Rettungs- dienst (in%) Notfallauf- nahme (in%) Kardial muskulo- skelettal pulmonal4445 gastro- intestinal 5636 psychiatrisch11558 and.Ursachen

37 Wenn ein/e Arzt/Ärztin bei einem Patienten eine typische Symptomatik feststellt, dann weisen die klinischen Befunde mit einer quantifizierbaren Wahrscheinlichkeit auf das Vorliegen einer definitiven Erkrankung hin, die von der Prävalenz dieser Erkrankung unter allen Patienten dieses Arztes abhängt, welche die gleiche Symptomatik haben. in allgemeinärztlichen Praxen andere Verhältnisse als in spezialisierten Ambulanzen Folgerungen (I) Nach SOX HC e.a. (1990) Am J Med 89:7-14

38 Die Nachtestwahrscheinlichkeit lässt sich mit Hilfe des Bayes-Theorems erklären und errechnen. Dafür muss neben der Sensitivität und Spezifität eines Testes zwingend auch die Vortestwahrscheinlichkeit (Prävalenz) bekannt sein. praxisepidemiologische Studien erforderlich Folgerungen (II) Nach SOX HC e.a. (1990) Am J Med 89:7-14

39 Thomas Bayes

40 Bayes-Theorems Berechnung der Nachtestwahrscheinlichkeit PPW (+) = se · p se · p + (1 – sp) ( 1 – p) PPW (+) = positiver prädiktiver Wert (Nachtestwahrscheinlichkeit) se =Sensitivität sp = Spezifität p =Prävalenz Folgerungen (II) Nach SOX HC e.a. (1990) Am J Med 89:7-14

41

42 Statistischer Test Mit statistischen Tests kann man prüfen, ob sich die beobachteten Daten durch zufallsbedingte Abweichungen erklären lassen – weichen nur zufällig von Null ab = Nullhypothese Oder ob die erhobenen Daten für die Vermutung, dass es einen wahren Effekt gibt, sprechen = Alternativhypothese.

43 P – Wert, Signifikanz P-Wert gibt die Wahrscheinlichkeit an, die vorliegenden Studienergebnisse zu beobachten, wenn die Nullhypothese zutrifft. Ein Testergebnis heißt statistisch signifikant, wenn der p-Wert unterhalb des vorgegebenen Fehlers 1.Art (meist 0,05) liegt (p< ) Signifikant bedeutet, dass das Ergebnis nicht durch den Zufall allein erklärbar ist (Vorbehalt Fehler der 1.Art).

44 Prinzipielle Vorgehensweise Formulierung der Hypothesen Wahl des Signifikanzniveaus (üblich =5%) Wahl des Testverfahrens Durchführen des Tests und Entscheidung

45 Auswahl der Testverfahren Merkmalsart: qualitativ/quantitativ Verteilungstyp : parametrisch (Normalverteilung), nicht-parametrisch (verteilungsunabhängig) Anzahl der Stichproben (1, 2, >2) Unabhängige oder abhängige Stichproben

46 Weitere Fragestellungen und die entsprechenden Analysen Wodurch kann man zwei Gruppen am besten unterscheiden? unter Verwendung verschiedener Variablen Diskriminanzanalyse Durch welche Variablen lassen sich Probanden in sich unter- scheidende Gruppen einteilen? Clusteranalyse Welche Struktur hat ein Fragebogen und wie gut ist diese? Faktorenanalyse Reliabilitätsanalyse: Interne Konsistenz; Trennschärfe…

47 So geht es immer los! – Deskriptive Statistik das Datenniveau ist entscheidend!!! SkalaDatenErfassung Nominalalternativ => kategorial => 2 Mengen/Klassen mehr als 2 Mengen/Klassen OrdinalordinalOrdnen von Kategorien Rangreihen Intervall Verhältnis metrischMessen

48 Als nächstes folgend die Kennwerte! Alternative / Kategoriale Daten: Mittelwert:Modalwert Streuungswerte: relativer Infogehalt Ordinale Daten: Mittelwert:Median Streuungswerte: Quartile Metrische Daten: Mittelwert:arithmetisches Mittel Streuungswerte: Standardabweichung

49 Die weitere Auswertung hängt von der Fragestellung ab! Die häufigsten Fragen betreffen: UnterschiedeZusammenhänge zwischen Gruppen zwischen Variablen => Unterschiedstests=> Korrelationen => Regression

50 Einordnung der Unterschiedstests abhängig vom Datenniveau abhängige oder unabhängige Stichproben abhängig von Anzahl der Gruppen

51 Unterschiedstests für Nominale Daten zwei abhängige Stichproben: Chi- Quadrat – Test von Mc Nemar zwei unabhängige Stichproben: Chi – Quadrat – Test nach Pearson > zwei abhängige Stichproben Unterschied zwischen den Häufigkeiten der Merkmals- ausprägung?: Binomial – Test Unterschied zwischen erwarteten und beobachteten Häufigkeiten?:Chi – Quadrat – Einzeltest > zwei unabhängige Stichproben: Chi – Quadrat – Test

52 Unterschiedstests für Ordinale Daten oder Metrische Daten ohne Normalverteilung zwei abhängige Stichproben: Wilcoxon – Test zwei unabhängige Stichproben: Mann-Whitney U – Test > zwei abhängige Stichproben:Friedman- Test > zwei unabhängige Stichproben: H - Test nach Kruskal-Wallis

53 Unterschiedstest für Metrische Daten mit Normalverteilung zwei abhängige Stichproben:t- Test bei abhängigen Stichproben zwei unabhängige Stichproben: t- Test bei unabhän- gigen Stichproben > zwei abhängige Stichproben: einfaktorielle Varianz- analyse mit Meßwieder- holung > zwei unabhängige Stichproben: einfaktorielle Varianz- analyse + Post hoc – Test

54 Einordnung von Korrelationen Korrelationskoeffizient (r); Signifikanz (p) ausgehend von linearem Zusammenhang!!! Richtung der Beziehung:+...positiv vs. -...negativ Stärke des Zusammenhanges (- 1 bis + 1) Bis 0,2sehr geringer Zusammenhang Bis 0,5geringer Zusammenhang Bis 0,7mittlerer Zusammenhang Bis 0,9hoher Zusammenhang Über 0,9sehr hoher Zusammenhang Scheinkorrelation!!!=> Partielle Korrelation

55 Verschiedene Korrelationskoeffizienten Nominale Daten Korrelationskoeffizinent nach Spearman (bei Kreuztabellen) bei dichotomer vs. ordinaler Variable Chi – Quadrat – Test + Assoziationsmaße für Nominalskalierte Variablen=> z.B. Kontingenzkoeffizient Ordinale Daten oder metrische Daten ohne Normalverteilung Korrelationskoeffizienten nach Spearman Korrelationskoeffizienten nach Kendall (gut bei Ausreißern) Metrische Daten + Normalverteilung Korrelationskoeffizient nach Pearson

56 Regressionsanalyse immer erst nach Korrelation!!! Variablenauswahl:theoriegeleitet neue Fragestellungen unterschiedliche Methoden:Einschluss Vorwärts Rückwärts Schrittweise Hierarchische Regression entscheidend:R 2 …Bestimmtheitsmass Beta…Betagewichte (z-transformiert) B…Koeffizienten für Gleichung

57 Beispiel für Darstellung einer linearen Regression Psychische Lebensqualität Fehl-anpassung SAD Vermeidung SAD -1,18*,36*,69* -,32* R 2 =,67 Anzahl Schocks Übererregung IES-R

58 Beispiel für die Darstellung einer hierarchischen Regression Körperliche LQPsychische LQ BlockRi2Ri2 R2R2 Ri2Ri2 R2R2 1. Demographische Variablen,00 2. Medizinische Variablen,06,04 3. Angst/Depressivität,19,25,30,34 4. Anpassungsstörung,24,49,31,65 5. Posttraum.Belast. (IES-R),06,55,08,73 6. Posttraum.Belast. (PTSS),00,56,01,74 7. Herzangst,00,56,00,74 R i 2 … Inkrement von R 2 R 2 … kumuliertes Bestimmtheitsmaß

59 Vielen Dank für Eure Aufmerksamkeit! Noch Fragen zur Statistik?!


Herunterladen ppt "Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik."

Ähnliche Präsentationen


Google-Anzeigen