Beurteilung von Testverfahren

Slides:

Advertisements

Ähnliche Präsentationen

Stochastik und Markovketten

Advertisements

Julia Antoniuk Jessica Gottschalk Susana de Miguel

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

1 Wiederholungsstunde Tests, Testauswahl. 2 Im folgenden finden Sie Fragestellungen aus der biometrischen Praxis. Geben Sie eine sachgerechte graphische.

Maschinelles Lernen Präsenzübung.

„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,

U. Fiedler, R. Kranz, A. Manseck, M. Wirth

Nachweis von prostataspezifischen Transkripten in regionären Lymphknoten von Patienten mit Prostatakarzinom U. Fiedler, A. Manseck, R. Kranz, M. Wirth.

Theorie psychometrischer Tests, III

Lautbildungstest für Vorschulkinder

Gliederung Vertrauensintervalle Arten von Hypothesen

Zentrum Psychosoziale Medizin

Hypothesen testen: Grundidee

Medizinische Psychologie

Bedingte Wahrscheinlichkeiten und diagnostische Tests II

CAMPUS INNENSTADT DR. VON HAUNERSCHES KINDERSPITAL

Diagnostische Statistik

Errungenschaften der letzten 200 Jahre

Betriebsärztlich-Orthopädische Untersuchung

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Vorlesung: Biometrie für Studierende der Veterinärmedizin Helmut Küchenhoff 1 Zusammenfassung zur Vorlesung Begriff der biologischen Variabilität.

Vorlesung Biometrie für Studierende der Veterinärmedizin

Vorlesung Biometrie für Studierende der Veterinärmedizin Zur Kommunikation von Wahrscheinlichkeiten Relative Häufigkeiten sind grundsätzlich.

Zur Kommunikation von Wahrscheinlichkeiten

Wiederholung und Beispiele

Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Vorlesung: ANOVA I

Eigenschaften der OLS-Schätzer

Probleme der Modellspezifikation

Histogramm/empirische Verteilung Verteilungen

Variation und Validität der Empfehlungen zum Darmkrebs-Screening

Ergebnisse der totalen Aponeurektomie bei 61 Patienten mit Morbus Dupuytren: eine retrospektive klinische Studie. Astrid Högemann 1; Ulrich Wolfhard 2;

QS- Dekubitusprophylaxe Klinikstatistik 2007 BAQ

Raucher-Spirometrie-Screening-Projekt 2004/2005

Studiendesing The Journal of Urology, Volume 176, Issue 1, July 2006, Pages Untersucht wird die Sensitivität des FISH Assay UroVysion™ zur frühen.

Wenn der Schein trügt… Dr. rer. biol. hum. Ute Wiedemann

Cluster 3 – Psychische Erkrankungen und Pension (inkl. Begutachtungen)

Kathrin Grummich1, Katrin Jensen2 Christoph M Seiler1 Markus K Diener1

PTE ÁOK Pszichiátriai Klinika

Grippeimpfung im Alter Gibt es valide Daten?

Einführung in die klinische Medizin

Rahmenbedingungen der Behandlung

Stellenwert der Anamnese im diagnostischen Prozeß

Streifzug durch die Epidemiologie

MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

Patientenbefragung Wien1 Patientenbefragung Wien April 2004 OGM Österreichische Gesellschaft für Marketing ; Fax - 26

Plötzlicher Herztod – Definition (I)

Statistik Gerd Gigerenzer: Das Einmaleins der Skepsis. Über den richtigen Umgang mit Zahlen und Risiken. Berlin: Berlin Verlag 2002.

Die Professionalität maximieren Modul 6. Inhalt Die Aufgaben Die Rollen Die Kollaboration zwischen Mitarbeitern Die Kommunikation zwischen den Mitarbeitern.

Pilotprojekt PainDETECT 2008 in Österreich Teilnehmer: Patienten der Dres. Bitzan*, Breban*, Prof. Likar, Mittermayer*, Prenn* und Zahornitzky* * Universitätslehrgang.

HIV-Infektion in der Schwangerschaft

Toxoplasmose Julia Walochnik Medizinisch Universität Wien

Hörsysteme: Je früher, desto besser

Früherkennung von Lungenkrebs – neue Ansätze

Einfache Krankheitsrisiko-Statistik

Praxis für Nierenerkrankungen und Diabetes Bochum

Gegenstand der Psychologie

Arzt-Patienten-Beziehung

Statistiken je nach Messniveau

Mathematik Q1 -Stochastik. Die Immunschwächekrankheit AIDS wird durch das HI-Virus, welches 1993 entdeckt wurde, verursacht. Die Krankheit gilt bis heute.

Prostatakarzinom.

Zervixkarzinom Screening Diagnostik Therapie – ein Update

Methoden epidemiologischer Forschung

Geoinformationssysteme

Klaus M. Peters Orthopädie und Osteologie, Dr. Becker Rhein-Sieg-Klinik, Nümbrecht Klinisches Schwerpunktzentrum DVO Abschlussveranstaltung, ,

Testtheorie (Vorlesung 14: ) Testtheorie allgemein:  Ziele und Inhalte der Testtheorie:  Beurteilung der Eigenschaften von Tests  Speziell: Güte.

Urologische Klinik und Poliklinik – Universitätsmedizin Mainz

Präsentation transkript:

Beurteilung von Testverfahren Freie und Hansestadt Hamburg Behörde f. Wissenschaft u. Gesundheit Amt f. Gesundheit u. Verbraucherschutz Zentrum für Psychosoziale Medizin Universitätsprofessur für Arbeitsmedizin Block IV, QB Epidemiologie/ Med. Biometrie/ Med. Informatik, Vorlesung Biometrie, 1. Trimester 2006/07, Universitätsklinikum Hamburg-Eppendorf Beurteilung von Testverfahren Priv.-Doz. Dr. rer. nat. Ute Latza, MPH Leiterin der Betrieblichen Epidemiologie Ordinariat und Zentralinstitut für Arbeitsmedizin (ZfA) 30. November 2006, S18/HS

Was erwartet Sie hier? Diagnostische Tests Validität Spezifität Sensitivität Prädiktiver Wert Reliabilität Screening-Test Prä-/Posttest-Wahrscheinlichkeit (Likelihood Ratio)

Fragestellungen: Klinische Epidemiologie Normalität Güte diagnostische Testverfahren Therapeutische Effektivität Verlauf und Prognose von Krankheiten Nebenwirkungen Prävention in der klinischen Praxis (Screeningverfahren)

Diagnostische Testverfahren Fragestellung: In wieweit kann ich als Arzt/Ärztin mit einem Testverfahren eine kurierbare Läsionen feststellen und keine Patienten fälschlicherweise als positiv diagnostizieren? Zur Beurteilung eines Tests benötigt man einen sogenannten Goldstandard (= externe Informationsquelle über den wahren Gesundheitszustand eines Individuums) Problem: Fehlende Standards für einige Erkrankungen Zur Beurteilung werden Studien durchgeführt

Hypothetisches Beispiel für dichotome Ergebnisse: Wie gut war der Test? In einer Hühnerzucht mit 1000 Hühnern sind 100 Hühner mit der Vogelgrippe infiziert. Wir wollen herausbekommen, welches Huhn erkrankt und welches gesund ist. Dafür steht uns ein neuer ELISA-Test zur Verfügung. Die Ergebnisse sind wie folgt: Ergebnis Test negativ Test positiv Gesamt Gesund 800 100 900 Krank 20 80 Summe 820 180 1000 Wie genau konnten die Erkrankten korrekt als krank identifiziert werden? 80 / 100 = 0,8  80 % Wie genau konnte der Test die Gesunden als nicht erkrankt erkennen? 800 / 900  89 %

Diagnostischer Test: Validität bei dichotomen Ergebnissen Test negativ Test positiv Gesamt Gesund a korrekt negativ b falsch positiv a + b Krank c falsch negativ d korrekt positiv c + d Summe a + c b + d

Diagnostischer Test: Validität Fragestellung: Liegt eine Krankheit vor oder nicht? Tests sind oft Laboruntersuchungen Validität (Güte) eines Tests Wird bestimmt durch die richtige Zuordnung eines Person im Hinblick auf die Krankheit (Sensitivität und die Spezifität) Sensitivität (Empfindlichkeit) gibt an, in wieweit Kranke korrekt als positiv erkannt werden: d / (c + d) Spezifität gibt an, in wieweit Gesunde korrekt als negativ erkannt werden: a / (a + b)

Test bei kontinuierlichen Variablen: Beispiel Diabetes-Test I Diabetiker Nicht-Diabetiker ☻ ☻ ☺ hoch Blut- zucker niedrig ☻ ☺ ☻ ☻ Diabetiker Nicht-Diabetiker 20 20 Sensitivität: 5 / 20  25 % Spezifität: 18 /20  90 % ☻ ☻ ☺ ☺ ☻ ☻ ☺ 5 2 15 18 + - ☻ ☺ ☺ ☺ ☻ ☻ ☺ ☺ ☻ ☺ ☻ ☺ ☻ ☻ ☺ ☺ ☻ ☺ ☻ ☺ ☺ ☻ ☻ ☺ ☺ ☺ In Anlehnung an Gordis 2001

Test bei kontinuierlichen Variablen: Beispiel Diabetes-Test II Diabetiker Nicht-Diabetiker ☻ ☻ ☺ hoch Blut- zucker niedrig ☻ ☺ ☻ ☻ Diabetiker Nicht-Diabetiker 20 20 Sensitivität: 17 / 20  85 % Spezifität: 6 / 20  30 % ☻ ☻ ☺ ☺ ☻ ☻ ☺ 17 14 3 6 + - ☻ ☺ ☺ ☺ ☻ ☻ ☺ ☺ ☻ ☺ ☻ ☺ ☻ ☻ ☺ ☺ ☻ ☺ ☻ ☺ ☺ ☻ ☻ ☺ ☺ ☺ In Anlehnung an Gordis 2001

Beispiel Diabetes-Test: Realität Keine vertikale Trennlinie zwischen den Gruppen Diabetiker und Nicht-Diabetiker Wenn Grenzwert zu hoch: Personen mit darunter gelegenen Blutzuckerwerten werden beruhigt nach Hause geschickt ohne weitere Untersuchungen Wenn Grenzwert zu niedrig: Viele Folgeuntersuchungen ☻ ☻ ☺ hoch Blut- zucker niedrig ☻ ☺ ☻ ☻ ☺ ☺ ☻ ☻ ☺ ☺ ☺ ☻ ☺ ☻ ☻ ☻ ☺ ☺ ☻ ☺ ☻ ☺ ☺ ☻ ☺ ☺ ☻ ☻ ☻ ☻ ☻ ☺ ☺ ☺ ☻ ☺ ☺ In Anlehnung an Gordis 2001

Verteilung von Blutzucker-Konzentrationen bei Diabetikern und Nicht-Diabetikern Aus Gordis 2001 (From Blumberg. Evaluationg health screening procedures. Operations Res 1957;5:351-60

Idealer Test Sensitiv und spezifisch Einfach und kostengünstig Sicher und akzeptabel Zuverlässig

Verwendung mehrerer Tests: Sequentielle Testung Zuerst weniger teurer, weniger invasiver und leicht anwendbarer Test: Sensitivität: 350 / 500  70 % Spezifität: 7600 / 9500  80 % Bei positiven Ergebnissen: Aufwändiger, invasiver Test mit höherer Sensitivität und Spezifität: Sensitivität: 315 / 350  90 % Spezifität: 1710 / 1900  90 % Tester-gebnis Diabetes Kein Diabetes Gesamt + 350 1900 2250 - 150 7600 7750 Summe 500 9500 10000 Tester-gebnis Diabetes Kein Diabetes Gesamt + 315 190 505 - 35 1710 1745 Summe 350 1900 2250 Netto-Sensitivität: 315 / 500  63 % Netto Spezifität: (7600 + 1710) / 9500  98 % In Anlehnung an Gordis 2001

Sensitivität und Spezifität Sensitivität und Spezifität sind abhängig vom verwendeten Testverfahren und des gesetzten Grenzwerts Wichtig: Sensitivität und Spezifität hängen zusammen Wenn die Sensitivität verbessert wird, verschlechtert sich die Spezifität ROC (receiver operator characteristic curve): graphische Darstellung der Güte eines Tests, zur Bestimmung eines geeigneten Grenzwertes eingesetzt Ausweg: Besseres Testverfahren (falls vorhanden)

Hypothetisches Beispiel für dichotome Ergebnisse II Test negativ Test positiv Gesamt Gesund 800 100 900 Krank 20 80 Summe 820 180 1000 Welcher Anteil der Hühner mit positivem Testergebnis ist wirklich erkrankt? 80 / 180  44 % Wie hoch ist die Wahrscheinlichkeit eines Huhnes nicht erkrankt zu sein, wenn das Ergebnis negativ ist? 800 / 820  98 %

Weiteres Kriterium: Prädiktiver Wert Test negativ Test positiv Gesamt Gesund a korrekt negativ b falsch positiv a + b Krank c falsch negativ d korrekt positiv c + d Summe a + c b + d

Prädiktive Werte Positiver prädiktiver Wert (Vorhersagewert): Welcher Anteil der Personen mit einem positiven Testergebnis ist wirklich krank? Zahl der richtig Positiven dividiert durch Zahl der echt und falsch Positiven: d / (b + d) Negativer prädiktiver Wert Wie hoch ist die Wahrscheinlichkeit einer Person nicht erkrankt zu sein, wenn das Testergebnis negativ ist? Zahl der richtig Negativen dividiert durch Zahl der echt und falsch Negativen: a / (a + c) Wichtig: Der positive und der negative prädiktive Wert hängen von der Spezifität und der Sensitivität des Test und von der Häufigkeit der Erkrankung ab

Beziehung zwischen positivem prädiktivem Wert und Krankheitsprävalenz Beispiel: Sensitivität 99 %, Spezifität 95 % Krankheitsprävalenz 1 %: Prädiktiver Wert: 99 / 594  17 % Krankheitsprävalenz 5 %: Prädiktiver Wert: 495 / 970  51 % Tester-gebnis Krank Gesund Gesamt + 99 495 594 - 1 9405 9406 Summe 100 9900 10000 Tester-gebnis Krank Gesund Gesamt + 495 475 970 - 5 9025 9303 Summe 500 9500 10000 In Anlehnung an Gordis 2001

Beziehung zwischen prädiktivem Wert und Krankheitsprävalenz Je höher die Prävalenz, desto höher der positive prädiktive Wert Deshalb Screening am aussichtsreichsten in Hoch-risikogruppe Reihenuntersuchung in Bevölkerung im Hinblick auf seltene Erkrankung: Finanziell und ethisch nicht vertretbar In Anlehnung an Gordis 2001 (From Mausner J.S., Kramer S. (1985): Epidemiology. An Introductory Text)

Beziehung zwischen positivem prädiktivem Wert und Spezifität Beispiel: Prävalenz 10 %, Sensitivität 100 % Tester-gebnis Krank Gesund Gesamt + 1000 2700 3700 - 6300 Summe 9000 10000 Spezifität 70 %: Prädiktiver Wert: 1000 / 3700  27 % Spezifität 95 %: Prädiktiver Wert: 1000 / 1450  69 % Fazit hier: Je höher die Spezifität, desto höher der prädiktive Wert Spezifität hat größeren Einfluss auf prädiktiven Wert als Sensitivität (Grund: seltene Erkrankung, d.h. viele Gesunde) Tester-gebnis Krank Gesund Gesamt + 1000 450 1450 - 8550 Summe 9000 10000 In Anlehnung an Gordis 2001

Reliabilität eines Tests Ist der Test reliabel (zuverlässig) und wiederholbar? Abweichungen durch Variabilität bei einer Testperson (intraindividuelle Variabilität) Variabilität zwischen den Untersuchern (Untersucher-Variabilität)

Beziehung zwischen Validität und Reliabilität Reliable, nicht valide Testergebnisse Valide, nicht reliable Testergebnisse Valide, reliable Testergebnisse In Anlehnung an Gordis 2001

Screening Test Screening Tests unterscheiden zwischen gesunden und möglicherweise erkrankten Menschen In der Regel keine Diagnose, sondern Nachuntersuchungen erforderlich Anforderungen an Screeningtest prinzipiell wie an diagnostischen Test (z.B. funktionstüchtiges Testverfahren) Höhere Anforderungen betr. Sicherheit eines Screeningtests (Beispiel Koloskopie: Problem der Darmperforation wiegt schwerer bei Gesunden als bei möglicherweise Erkrankten) Kosten Akzeptanz der Betroffenen Psychologische Folgen müssen bedacht werden

Screening-Programm: Voraussetzungen Schwere Krankheit, z.B. Zervixkarzinom Hohe Prävalenz des vorklinischen Stadiums Bekannter Krankheitsverlauf (Problem: z.B. Prostata-karzinom) Lange Vorlaufzeit (Lead Time: Zeitraum zwischen Diagnose der Krankheit durch Screening und Zeitpunkt der Diagnose durch erste Symptome; Problem) Effektive, akzeptable und sichere Behandlung muss möglich sein (Problem z.B. Prostatakarzinom) Beispiel Evaluation: Verbessert das Prostatakarzinom-screening die Überlebenszeit?

Likelihood Ratios Baysianischer Ansatz zur Beurteilung der Güte eines diagnostischen Tests Frage: Wissen wir nach dem Test mehr als vor dem Test? Bei einem dichotomen Testergebnis gibt es zwei Likelihood Ratios Berechnung: Ratio der Posttest Odds (Posttestwahrscheinlichkeit für das Vorliegen einer Erkrankung) und Prätest Odds (Prätestwahrscheinlichkeit für das Vorliegen einer Erkrankung) Alternative: LRpositiv = Sensitivität / (1 - Spezifität) LRnegativ = (1 - Sensitivität) / Spezifität

Zusammenfassung: Beurteilung von diagnostischen bzw. Screening Tests Die Güte (Validität) wird bestimmt durch Sensitivität (Anteil der Erkrankten, die im Test positiv sind) Spezifität (Anteil der Gesunden, die im Test negativ sind) Wenn in einem Testverfahren die Spezifität gesteigert wird, verschlechtert sich die Sensitivität und umgekehrt Weiteres Beurteilungskriterium: Prädiktive Werte Positiver: Anteil mit positivem Testergebnis, die krank Negativer: Anteil mit negativem Testergebnis, die gesund Abhängig von Inzidenz/Prävalenz, Sensitivität & Spezifität Screening-Test: Besondere Voraussetzungen

Hinweise: Transfer und Literatur Q1 Prävention, Gesundheitsförderung: Themenbereich 4 Medizinische Biometrie und Epidemiologie Alle klinischen Fächer (in denen Screening und/oder Diagnose eine Rolle spielen) z.B. Gynäkologie (Schwanger-schaftstest), Kinderheilkunde (Screening-Tests), Anästhesiologie (Blutgruppentest), … Theoretische Fächer z.B. Ethik in der Medizin (genetische Tests) Literatur Skriptum und Glossar Medizinische Biometrie, UKE. 4.6 Sensitivität und Spezifität (4.5. Bedingte Wahrscheinlichkeit, Bayessche Formel) Gordis (2001). Epidemiologie. Kap. 4: Einschätzung der Validität und Reliabilität von diagnostischen Screening-Tests Weitere Fragen: latza@uke.uni-hamburg.de