Präsentation herunterladen
1
Von der Fragestellung zu den eigenen Ergebnissen – Einführung in die Statistik Antje & Dominik
2
Kurze Geschichte der Statistik
G. Achenwall (Göttingen ) „Wissen, das ein Staatsmann besitzen sollte“ Datensammlung durch die Länder (statistische Ämter)
3
Meilensteine John Graunt ( ) entdeckte, dasmehr Knaben als Mädchen geboren wurden Adolphe Quetelet ( ) führte das Konzept des Durchschnittsmenschen ein, dessen Gedanken und Taten mit dem Verhalten der Gesellschaft übereinstimmen
4
Bedeutung der Konstanz grosser Zahlen
Neben dem blossen Sammeln von Daten gewinnen die Interpretation und das Ziehen von Schlussfolgerungen an Bedeutung.
5
Verknüpfung von Statistik und Wahrscheinlichkeitsrechnung
Durch das Glücksspiel - Galileo Galilei soll herausgefunden haben, daß mit 3 Würfeln häufiger die Zahl „10“ als die Zahl „9“ gewürfelt wird (um 1600)
6
Weitere Meilensteine Karl Friedrich Gauß (1777-1855)
-Umlaufbahn von „Ceres“ mit Methode der kleinsten Quadrate -Normalverteilung
7
Weitere Meilensteine Thomas Bayes (1702-1763)
A-priori Wahrscheinlichkeit A-posteriori Wahrscheinlichkeit
8
Weitere Meilensteine Karl Pearson (1857-1936) Chi-Quadrat
Ronald A. Fisher ( ) Varianz, Planung, Zufallsanordnung und Signifikanztests
9
Zwischenfazit Statistik sollte nicht nach „Kochbuch“ durchgeführt werden. Hintergründe und Voraussetzungen der verschiedenen Methoden sind wichtiger als mathematische Formeln
10
Beschreibende Statistik
Population und Stichprobe CAVE Selection BIAS
11
„Statistisches Handwerkszeug“
1. Therapiestudien 2. Diagnosestudien
12
„Statistisches Handwerkszeug“
Therapiestudien: Zweck: Nachweis einer Wirksamkeit, Vergleich zweier therapeutischen Maßnahmen wichtig: messbare „Outcomes“ z.B. Überlebenszeit, binäre Zielgrößen (geheilt/nicht geheilt) oder stetige Zielgrößen (FEV1) einzelne Messungen müssen voneinander unabhängig sein (Ergebnisse der Therapie bei einem Patienten unabhängig vom Ergebnis des anderen Patienten)
13
Binäre Zielgrößen Beispiel: Auftreten einer akuten Otitis media in bestimmter Hochrisikogruppe (Simoes 1996) Auftreten = negatives Ergebnis/Therapieversagen Vierfeldertafel: Therapieversagen Therapie ja nein neu a b a + b Standard c d c + d a + c b + d a+b+c+d
14
Wahrscheinlichkeiten
Therapieversagen Therapie ja nein neu a b a + b Standard c d c + d a + c b + d a+b+c+d Wahrscheinlichkeit Pn für eine Otitis media bei einem Kind in Gruppe „Neue/Experimentelle Therapie“ läßt sich schätzen durch: Pe = a/(a + b) Ps = c/(c + d)
15
Risikodifferenz RD = Pe – Ps
Therapieversagen Therapie ja nein neu a b a + b Standard c d c + d a + c b + d a+b+c+d RD = Pe – Ps RD = 0 bedeutet, dass Wahrscheinlichkeit in beiden Gruppen für Therapieversagen gleich groß ist. RD < 0 : experimentelle Gruppe/“NeueTherapie“ besser
16
Relatives Risiko Verhältnis beider Wahrscheinlichkeiten RR = Pe : Ps
bei Pe = Ps RR = 1 RR<1 in experimenteller Gruppe bessere Prognose RR = (a/(a+b)) / (c/(c+d))
17
Odds-Ratio odds = chance (Sportwetten!)
Bei Fall-Kontroll-Studien (hier kann ein Therapieversagen nicht geschätzt werden) Odds = P / 1 – P P = Wahrscheinlichkeit Beispiel: Odds von 3 : 1 = 75 % Eintritt und 25% gegen Eintritt des Ereignisses Odds-Ratio = Odds für den Eintritt eines Ereignisses in der exp.Gruppe Odds in der Kontrollgruppe Odds = 1 : Wahrscheinlichkeit eines Ereignisses in beiden Gruppen gleich RR<1 in experimenteller Gruppe bessere Prognose
18
Number needed to treat (NNT)
In EBM häufig gebraucht Wieviele Patienten muss ich behandeln, um im Vergleich zu einer anderen Therapie ein positives Ergebnis herbeizuführen Voraussetzung: experimentelle Gruppe besser! Pe < Ps NNT = 1/ARR = 1/RD ARR = Absolute Risikoreduktion
19
Vergleichende Maßzahlen
Absolute Maßzahlen: RD (Risikodifferenz), ARR (Absolute Risikoreduktion) Relative M.: RR (Relatives Risiko), RRR (Relative Risikoreduktion), OR (Odds Ratio) Beispiel: RD 0,5 % → bei Risiko von 1 auf 0,5% 0,005 : 0,01 = 0,5 RR → bei Risiko von 48 auf 47,5% 47,5 : 48 = 0,99 RR
20
Stetige Zielgrößen Beispiel: Therapie Atemwegsobstruktion, Zielgröße: Änderung FEV1 Wichtig: Annahme über die zugrunde liegende Verteilung des Merkmals Wenn annähernd normalverteilt bzw. symmetrisch: Mittelwertdifferenz MD = xE – xS MD = 0 : beide Gruppen unterscheiden sich im Mittelwert nicht
21
Überlebenszeiten Zeit bis zum Eintritt des Todes
Schätzung der Überlebenszeit in 2 Therapiegruppen mittels Kaplan-Meyer-Methode Vergleich zweier Gruppen mittels Log-Rank-Tests (sind die Unterschiede in beiden Gruppen signifikant??) Hazard-Funktion: Wahrscheinlichkeit, an einem bestimmten Zeitpunkt zu versterben Vergleichende Messzahlen: Differenz der Überlebenszeiten oder Hazard-Ratio HR > 1 : Risiko zu versterben in exp.Gruppe größer als in standard.Gruppe
22
„Statistisches Handwerkszeug“
1. Therapiestudien 2. Diagnosestudien
23
„Statistisches Handwerkszeug“
2. Diagnosestudien Zweck: Beurteilung einer (neuen) Maßnahme zur Diagnose einer Erkrankung Vorhersage der neuen Methode wird mit Goldstandard verglichen (=gegenwärtig zuverlässigste Methode) Binäre Outcomes: Krankheit erkannt oder nicht
24
Binäre Zielgrößen Goldstandart: CCT
Beispiel: Röntgendiagnostik mit klinisch-neurologischer Beurteilung für Diagnose intrakranieller Verletzungen bei Kindern mit SHT (Lloyd 1997) Goldstandart: CCT Vierfeldertafel: Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv a b a + b Testergebnis negativ c d c + d a + c b + d N
25
Prävalenz, Vortestwahrscheinlichkeit
Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv a b a + b Testergebnis negativ c d c + d a + c b + d N Vortestwahrscheinlichkeit = (a + c) / N
26
Sensitivität und Spezifität
Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv a b a + b Testergebnis negativ c d c + d a + c b + d N Sensitivität = a / (a + c) Wahrscheinlichkeit, dass ein Erkrankter durch eine diagnostische Methode auch als krank erkannt wird Spezifität = d / (b + d) Wahrscheinlichkeit, dass ein Gesunder durch eine diagnostische Methode auch als gesund erkannt wird
27
Wahrscheinlichkeitsverhältnis
Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv a b a + b Testergebnis negativ c d c + d a + c b + d N engl. likelihood ratio (LR): Verhältnis der Wahrscheinlichkeiten, dass bei einer erkrankten Person das entsprechende Testergebnis beobachtet wird im Vergleich dazu, dass es bei einer gesunden Person beobachtet wird. LR + = Sensitivität / (1 – Spezifität) wenn LR+ = 1: Wahrscheinlichkeiten bei positivem Test gleich groß je größer LR +, ums so verlässlicher das positive Testergebnis
28
Wahrscheinlichkeitsverhältnis
Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv a b a + b Testergebnis negativ c d c + d a + c b + d N LR - = (1 – Sensitivität) / Spezifität wenn LR- = 1: Wahrscheinlichkeiten bei negativem Test gleich groß je kleiner LR -, ums so verlässlicher das negative Testergebnis
29
Prädiktive Werte Positiver Prädiktiver Wert (PPW)
Krankheit liegt vor Krankheit liegt nicht vor Testergebnis positiv a b a + b Testergebnis negativ c d c + d a + c b + d N Positiver Prädiktiver Wert (PPW) Wahrscheinlichkeit, dass ein Patient bei positivem Testergebnis tatsächlich erkrankt ist PPW = a / (a + b) abhängig von Vortestwahrscheinlichkeit
30
Bsp. Angina pectoris-Score zur Diagnostik der KHK
Nach SOX HC e.a. (1990) Am J Med 89:7-14 Von Sox e.a. (Stanford University) entwickelt 211 eigene Patienten mit Angina pectoris standardisiert nach Angina pectoris Symptomen befragt → Koronarangiographie → logistische Regression
31
Angina pectoris-Score
Nach SOX HC e.a. (1990) Am J Med 89:7-14 Attribut Exakter Koeffizient (n=211) Gerundeter Koeffizient ( (Score 0-25) Alter über 60 + 2,85 + 3 Belastungsangina + 4,26 + 4 Infarktverdacht in der Anmanese + 3,9 Belastungsabbruch wegen AP + 2,76 Nitratpositiv + 1,93 + 2 Raucher (20 pack-years) + 3,93 Männliches Geschlecht + 5,37 + 5 Maximale Punktzahl 25
32
Angina pectoris-Score
Nach SOX HC e.a. (1990) Am J Med 89:7-14 Attribut Exakter Koeffizient (n=211) Gerundeter Koeffizient ( (Score 0-25) Alter über 60 + 2,85 + 3 Belastungsangina + 4,26 Infarktverdacht in der Anmanese + 3,9 Belastungsabbruch wegen AP + 2,76 Nitratpositiv + 1,93 Raucher (20 pack-years) + 3,93 + 4 Männliches Geschlecht + 5,37 + 5 Maximale Punktzahl 25 + 4 + 4 13 + 3 + 2
33
Aussagekraft einer Standardisierten Anamnese nach Versorgungsbereichen
Prävalenz der KHK vor Anamnese (pretest probability nach Sox HC e.a. (1990) Am J Med 89:7-14) Kardiologische Universitätsklinik = ca 75 % (n=170, Stanford University + Palo Alto VA Medical Centre) Kardiologische Ambulanz = ca 33 % (n=404, Palo Alto Veterans Administration Medical Centre) Allgemeinmedizinische Ambulanz = ca 8 % (n=289, Kaiser-Permanente Medical Centre)
34
Aussagekraft einer standardisierten Anamnese nach Versorgungsbereichen
Wie lassen sich diese Unterschiede erklären????
36
Ätiologie des akuten Brustschmerzes
(Erhardt e.a. (2002) Task force on the management of chest pain. Eur Heart Journ 23: ) Ätiologie Allgemein-praxis (in%) Notfall-Zentrale (in%) Rettungs-dienst (in%) Notfallauf-nahme (in%) Kardial 20 60 69 45 muskulo-skelettal 43 6 5 14 pulmonal 4 gastro-intestinal 3 psychiatrisch 11 8 and.Ursachen 16 19 18 26
37
Folgerungen (I) Nach SOX HC e.a. (1990) Am J Med 89:7-14 Wenn ein/e Arzt/Ärztin bei einem Patienten eine typische Symptomatik feststellt, dann weisen die klinischen Befunde mit einer quantifizierbaren Wahrscheinlichkeit auf das Vorliegen einer definitiven Erkrankung hin, die von der Prävalenz dieser Erkrankung unter allen Patienten dieses Arztes abhängt, welche die gleiche Symptomatik haben. →in allgemeinärztlichen Praxen andere Verhältnisse als in spezialisierten Ambulanzen
38
Folgerungen (II) Nach SOX HC e.a. (1990) Am J Med 89:7-14 Die Nachtestwahrscheinlichkeit lässt sich mit Hilfe des Bayes-Theorems erklären und errechnen. Dafür muss neben der Sensitivität und Spezifität eines Testes zwingend auch die Vortestwahrscheinlichkeit (Prävalenz) bekannt sein. →praxisepidemiologische Studien erforderlich
39
Thomas Bayes
40
Folgerungen (II) Bayes-Theorems
Nach SOX HC e.a. (1990) Am J Med 89:7-14 Bayes-Theorems Berechnung der Nachtestwahrscheinlichkeit PPW (+) = se · p se · p + (1 – sp) ( 1 – p) PPW (+) = positiver prädiktiver Wert (Nachtestwahrscheinlichkeit) se = Sensitivität sp = Spezifität p = Prävalenz
42
Statistischer Test Mit statistischen Tests kann man prüfen, ob sich die beobachteten Daten durch zufallsbedingte Abweichungen erklären lassen – weichen nur zufällig von Null ab = Nullhypothese Oder ob die erhobenen Daten für die Vermutung, dass es einen wahren Effekt gibt, sprechen = Alternativhypothese.
43
P – Wert, Signifikanz P-Wert gibt die Wahrscheinlichkeit an, die vorliegenden Studienergebnisse zu beobachten, wenn die Nullhypothese zutrifft. Ein Testergebnis heißt statistisch signifikant, wenn der p-Wert unterhalb des vorgegebenen Fehlers 1.Art (meist 0,05) liegt (p< ) Signifikant bedeutet, dass das Ergebnis nicht durch den Zufall allein erklärbar ist (Vorbehalt Fehler der 1.Art).
44
Prinzipielle Vorgehensweise
Formulierung der Hypothesen Wahl des Signifikanzniveaus (üblich =5%) Wahl des Testverfahrens Durchführen des Tests und Entscheidung
45
Auswahl der Testverfahren
Merkmalsart: qualitativ/quantitativ Verteilungstyp: parametrisch (Normalverteilung), nicht-parametrisch (verteilungsunabhängig) Anzahl der Stichproben (1, 2, >2) Unabhängige oder abhängige Stichproben
46
Weitere Fragestellungen und die entsprechenden Analysen
Wodurch kann man zwei Gruppen am besten unterscheiden? unter Verwendung verschiedener Variablen Diskriminanzanalyse Durch welche Variablen lassen sich Probanden in sich unter-scheidende Gruppen einteilen? Clusteranalyse Welche Struktur hat ein Fragebogen und wie gut ist diese? Faktorenanalyse Reliabilitätsanalyse: Interne Konsistenz; Trennschärfe…
47
So geht es immer los! – Deskriptive Statistik
das Datenniveau ist entscheidend!!! Skala Daten Erfassung Nominal alternativ => kategorial => 2 Mengen/Klassen mehr als 2 Mengen/Klassen Ordinal ordinal Ordnen von Kategorien Rangreihen Intervall Verhältnis metrisch Messen
48
Als nächstes folgend die Kennwerte!
Alternative / Kategoriale Daten: Mittelwert: Modalwert Streuungswerte: relativer Infogehalt Ordinale Daten: Mittelwert: Median Streuungswerte: Quartile Metrische Daten: Mittelwert: arithmetisches Mittel Streuungswerte: Standardabweichung
49
Die weitere Auswertung hängt von der Fragestellung ab!
Die häufigsten Fragen betreffen: Unterschiede Zusammenhänge zwischen Gruppen zwischen Variablen => Unterschiedstests => Korrelationen => Regression
50
Einordnung der Unterschiedstests
abhängig vom Datenniveau abhängige oder unabhängige Stichproben abhängig von Anzahl der Gruppen
51
Unterschiedstests für Nominale Daten
zwei abhängige Stichproben: Chi- Quadrat – Test von Mc Nemar zwei unabhängige Stichproben: Chi – Quadrat – Test nach Pearson > zwei abhängige Stichproben Unterschied zwischen den Häufigkeiten der Merkmals-ausprägung?: Binomial – Test Unterschied zwischen erwarteten und beobachteten Häufigkeiten?: Chi – Quadrat – Einzeltest > zwei unabhängige Stichproben: Chi – Quadrat – Test
52
Unterschiedstests für Ordinale Daten oder Metrische Daten ohne Normalverteilung
zwei abhängige Stichproben: Wilcoxon – Test zwei unabhängige Stichproben: Mann-Whitney U – Test > zwei abhängige Stichproben: Friedman- Test > zwei unabhängige Stichproben: H - Test nach Kruskal-Wallis
53
Unterschiedstest für Metrische Daten mit Normalverteilung
zwei abhängige Stichproben: t- Test bei abhängigen Stichproben zwei unabhängige Stichproben: t- Test bei unabhän gigen Stichproben > zwei abhängige Stichproben: einfaktorielle Varianz analyse mit Meßwieder holung > zwei unabhängige Stichproben: einfaktorielle Varianz analyse Post hoc – Test
54
Einordnung von Korrelationen
Korrelationskoeffizient (r); Signifikanz (p) ausgehend von linearem Zusammenhang!!! Richtung der Beziehung: +...positiv vs. -...negativ Stärke des Zusammenhanges (- 1 bis + 1) Bis 0,2 sehr geringer Zusammenhang Bis 0,5 geringer Zusammenhang Bis 0,7 mittlerer Zusammenhang Bis 0,9 hoher Zusammenhang Über 0,9 sehr hoher Zusammenhang Scheinkorrelation!!! => Partielle Korrelation
55
Verschiedene Korrelationskoeffizienten
Nominale Daten Korrelationskoeffizinent nach Spearman (bei Kreuztabellen) bei dichotomer vs. ordinaler Variable Chi – Quadrat – Test + Assoziationsmaße für Nominalskalierte Variablen => z.B. Kontingenzkoeffizient Ordinale Daten oder metrische Daten ohne Normalverteilung Korrelationskoeffizienten nach Spearman Korrelationskoeffizienten nach Kendall (gut bei Ausreißern) Metrische Daten + Normalverteilung Korrelationskoeffizient nach Pearson
56
Regressionsanalyse immer erst nach Korrelation!!!
Variablenauswahl: theoriegeleitet neue Fragestellungen unterschiedliche Methoden: Einschluss Vorwärts Rückwärts Schrittweise Hierarchische Regression entscheidend: R2…Bestimmtheitsmass Beta…Betagewichte (z-transformiert) B…Koeffizienten für Gleichung
57
Beispiel für Darstellung einer linearen Regression
Psychische Lebensqualität Fehl-anpassung SAD Vermeidung -1,18* ,36* ,69* -,32* R2 = ,67 Anzahl Schocks ÜbererregungIES-R
58
Beispiel für die Darstellung einer hierarchischen Regression
Körperliche LQ Psychische LQ Block Ri2 R2 1. Demographische Variablen ,00 2. Medizinische Variablen ,06 ,04 3. Angst/Depressivität ,19 ,25 ,30 ,34 4. Anpassungsstörung ,24 ,49 ,31 ,65 5. Posttraum.Belast. (IES-R) ,55 ,08 ,73 6. Posttraum.Belast. (PTSS) ,56 ,01 ,74 7. Herzangst Ri2 … Inkrement von R2 R2… kumuliertes Bestimmtheitsmaß
59
Vielen Dank für Eure Aufmerksamkeit! Noch Fragen zur Statistik?!
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.