Semantische Aufwertung der elektronischen Patientenakte durch wissensbasiertes Text-Mining Priv. Doz. Dr. med. Stefan Schulz Abteilung Medizinische Informatik.

Slides:



Advertisements
Ähnliche Präsentationen
Praxisrelevante Änderungen in den Deutschen Kodierrichtlinien 2005
Advertisements

Maschinelle Lernverfahren für IE und TM 1 Topic Detection.
FH-Kurs Wissensmanagement
Unterstützen Klinikinformationssysteme Forschung und Lehre ?
ELearning – The Next Five Years AIFB Rudi Studer Learning Lab Lower Saxony Institute AIFB, University of Karlsruhe
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
DEPARTMENT FÜR INFORMATIK
Doris Kocher, PH Freiburg
Maschinelle Übersetzung I
Grammatikentwicklung
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
Grundkurs Linguistik Programm der Vorlesung Oktober
“Perspektiven der Klassifikationsentwicklung“
Bettina Busse, Albrecht Zaiß Universitätsklinikum Freiburg
Automatische Verarbeitung medizinischer Sprache
CBT Generierung diagnostischer Trainingsfälle aus Arztbriefen Christian Betz, Alexander Hörnlein, Frank Puppe, Martin Schuhmann, Universität Würzburg,
-> Sprachpsychologie -> Blickbewegungen
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Die Naturgesetze der Sprache
Medizinische Informatik 2. Daten-Information-Wissen
Projektgruppe Vernetzte Arztbriefschreibung
Telematikplattform für Medizinische Forschungsnetze (TMF) e.V. Clinical Metadata Repository 4th German CDISC User Group Berlin, Thursday, 19 February 2009.
Software-Technik „Zielorientierte Bereitstellung und systematische Verwendung von Prinzipien, Methoden und Werkzeugen für die arbeitsteilige, ingenieurmäßige.
Medizinische Dokumentenrecherche mit MorphoSaurus
Arbeitsgruppe Medizinische Informatik Stefan Schulz.
Neue Therapiemöglichkeiten beim Typ 2 Diabetes
Die Querschnittstudie
Thesen zur Positionierung der Medizinischen Informatik in Deutschland Stefan Schulz, Freiburg.
Niklas: Was möchte ___________ (your) Schwester denn zum Geburtstag?
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
Stefan Schulz Abteilung Medizinische Informatik
Universität StuttgartInstitut für Wasserbau, Lehrstuhl für Hydrologie und Geohydrologie Copulas (1) András Bárdossy IWS Universität Stuttgart.
Philippe Blanchard Hans-Jürgen Eikmeyer Barbara Job Alexander Mehler Sprachliche Netzwerke texttechnologische Repräsentation computerlinguistische Synthese.
Pfad Akt.Nr.: xxxx/xxxxx/xxxx Analyse Medizinischer Freitexte Lukas Faulstich, ID GmbH & Co. KGaA Projekttreffen ByMedConnect | München,
© Copyright SEMCARE Consortium Kurzpräsentation für Vollversammlung MUG-IMI, Stefan Schulz, Markus Kreuzthaler Semantic Data Platform.
Wiss-Stadt Zentrum der Medizinischen Informatik, Klinikum der J.W.Goethe-Universität, © W.Giere 2001 Patient, Arzt und Wissenschaft Neue Möglichkeiten.
Semantic Interoperability for Health Network of Excellence 7. März 2012 Stefan Schulz, Catalina Martínez-Costa Institut für Medizinische Informatik, Statistik.
Informationsmodell: ISO 13606
KIT – die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) The dependence of convection-related parameters on surface and.
J. Neymeyer, T. Wülfing, W. Abdul-Wahab Al-Ansari, A. Apostolidis, S
Time and Dates. Telling time To ask: What time it is? Wie spät ist es? Wie viel Uhr ist es?
Die Fragen Wörter Wer? Was? Wann?.
Der Ökologische Fußabdruck Methode, Ausblick, Forschungsbedarf
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Standortbestimmung und Perspektiven der Medizinischen Informatik als Wissenschaftliche Disziplin Stefan Schulz Arbeitsgruppe Medizinische Informatik.
Semantik und Wissensrepräsentation Einleitung   Sprachliches Wissen vs. Weltwissen   Voraussetzungen für Sprachverstehen.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Roxolid ® Die neue „DNS“ von Implantatmaterialien.
Nuklearmedizinsche Klinik und Poliklinik Klinikum rechts der Isar Technische Universität München Image reconstruction, MR-based attenuation correction,
Fall 1 55-year-old man is referred for mild lymphadenopathy and lymphocytosis found during routine medical examination Befunde: Patient hat 2-3 cm bilaterale.
Magnetenzephalogramm, MEG
Neue Methoden der Bildgebung Nuklearmedizin
Das cN+/pN+ Prostatakarzinom - Sicht des Radioonkologen -
Strukturen 4A.1 LEKTION 4A 4A.1-1© 2014 by Vista Higher Learning, Inc. All rights reserved. Das Plusquamperfekt Startblock Use the Plusquamperfekt tense.
Prof. Peter Mustermann | Institut xxxxx | Seite 1 Dr. Lothar Naumann | Institute of Radiation Physics | Timing RPC for prompt gamma.
Pascal Brunner Uniklinik RWTH Aachen Institut für Medizinische Informatik Integration von ImageJ- und Matlab- Servern in das Electronic Data Capture klinischer.
Comprehensive Information Base (CIB) – ein Prototyp zur semantischen Datenintegration Stefan Arts
Klinik und Poliklinik für Augenheilkunde Morphology, Accuracy, and Histology of Corneal Flap Cuts Using a 200 kHz Femtosecond Laser Augenklinik, Klinikum.
Linde AG : Transparent data enable efficient plant engineering
Van der Meer AJ, Feld JJ, Hofer H J. Hepatol Oct 22
Expressing dates auf deutsch…
LOST and FOUND: Fremdkörper im Becken
Process and Impact of Re-Inspection in NRW
present perfect FOR & SINCE
Tamoxifentherapie und CYP2D6-Bestimmung KONTRA
 Präsentation transkript:

Semantische Aufwertung der elektronischen Patientenakte durch wissensbasiertes Text-Mining Priv. Doz. Dr. med. Stefan Schulz Abteilung Medizinische Informatik http://www.imbi.uni-freiburg.de/medinf/ stschulz@uni-freiburg.de

Elektronische Patientenakte Natürliche Sprache Strukturierte Daten If we look at how content is presented in the HER, so we have these two

Natürliche Sprache

Natürliche Sprache Structured Data … unverzichtbar für Dokumentation und Kommunikation Krankenversorgung Wissenschaft Arzt-Patient Wissensvermittlung Natürliche Sprache Structured Data

Natürliche Sprache nur für das Universitätsklinikum Freiburg (p.a.) 280.000 Arztbriefe 140.000 Radiologiebefunde 55.000 Pathologiebefunde 40.000 Operationsberichte 70.000 sonstige Texte Natürliche Sprache 600.000

Strukturierte Daten

Strukturierte Daten …unverzichtbar für Klassierung und Abstraktion: Kodierung von Diagnosen und Prozeduren, DRGs Leistungsabrechnung Qualitätssicherung Controlling Medizinische Forschung Gesundheitsberichterstattung (Register) Strukturierte Daten

Epidemiologie (Morbidität, Mortalität)

Pauschalierte Entgeltsysteme

…erfordern medizinische Terminologiesysteme ICD OPS 301 DRG ICF LOINC SNOMED etc., etc. Strukturierte Daten

Natürliche Sprache Strukturierte Daten

+ - + - Qualität Kosten Natürliche Sprache Strukturierte Daten Datenerfassung Natürliche Sprache + - Strukturierte Daten + Qualität Kosten -

Erfassung strukturierter Daten: Abhängigkeit: Datenmenge – Datenqualität - Motivation Goldstandard Datenqualität Hohe Motivation Geringe Motivation Keinerlei Motivation Datenmenge

+ - Qualität Kosten - + Natürliche Sprache Strukturierte Daten Datenauswertung Natürliche Sprache Strukturierte Daten + - + Qualität Kosten -

Beispiele Datenauswertung „Ich brauche die Arztbriefe der Patienten mit den Merkmalen A und B, die von Dr. C mit D behandelt wurden“

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz „Wir möchten Kostenprofile unterschiedlicher Patientengruppen miteinander vergleichen“

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling „Wie haben sich bestimmte Qualitätsindikatoren in meiner Abteilung entwickelt?“

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling Qualitätssicherung

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling Qualitätssicherung „Ich brauche verlässliche Daten aus klinischen Registern“

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling Qualitätssicherung Klinische Epidemiologie

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling Qualitätssicherung Klinische Epidemiologie „Ich möchte Patienten für eine Studie rekrutieren“

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling Qualitätssicherung Klinische Epidemiologie Klinische Forschung

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling Qualitätssicherung Klinische Epidemiologie Klinische Forschung Ich will Phänotypdaten, um meine Hypothesen zu belegen

Beispiele Datenauswertung Dokumentenrecherche am Medizinischen Arbeitsplatz Medizinisches Controlling Qualitätssicherung Klinische Epidemiologie Klinische Forschung Biomedizinische Grundlagenforschung

Auswertungsproblem Routinemäßig erhobene strukturierte Daten (ICD, OPS): unzureichend zu grob - unsicherer Qualität !

Ziel: Überbrückung Natürliche Sprache Strukturierte Daten

Methode: Text Mining Natürliche Sprache Strukturierte Daten

Text Mining: Im Wesentlichen zwei Hauptszenarien Informationsextraktion: Automatische Extraktion von für eine Fragestellung relevanter Fakten in unstrukturierten Texten Dokumentenretrieval: gezieltes Suchen nach relevanten Dokumenten in großen Dokumentenkollektionen

Text Mining: Im Wesentlichen zwei Hauptszenarien Informationsextraktion: Automatische Extraktion von für eine Fragestellung relevanter Fakten in unstrukturierten Texten Dokumentenretrieval: gezieltes Suchen nach relevanten Dokumenten in großen Dokumentenkollektionen

Anwendungsbeispiel Informationsextraktion: Tumordokumentation shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a left anterior mediastinal mass . Based on these findings, the patient was diagnosed with a mediastinal tumor accompanied by AMoL. First, in June 1991, the patient was treated with DCMP therapy: daunorubicin (DNR) (25 mg/m2, days 1, 2, 3, 4, 6 and 8), cytosine arabinoside (Ara-C) (100 mg/m2, days 1-9), 6MP-riboside (6-MP) (70 mg/m2, days 1-9) and prednisolone (PSL) (20 mg/m2, days 1-9), followed by five courses of consolidation chemotherapy [1, DCMP; 2, ID-Ara-C:adriacin (ADR), vincristine (VCR), Ara-C, PSL; 3, DCMP; 4, ID-Ara-C; 5, A-triple V: Ara-C, VP-16, VCR, vinblastine (VBL)]. After induction chemotherapy, a hematological examination and bone marrow findings had improved to normal, and complete remission was attained. Chest CT scan after chemotherapy in November 1991 revealed regression of the mediastinal tumor . An invasive thymic tumor was suspected and surgery was undertaken in January 1992. The tumor (50 × 45 × 45 mm), located mainly in the anterior mediastinum, was strongly adhered to the adjacent tissues. Resection of the tumor included the left upper lobe of the lung, the phrenic nerve and pericardium. The histological finding was that the tumor cells have large, vesicular nuclei and prominent nucleoli, but keratinazation was unclear . The results of immunohistochemical finding of anti-TdT was negative. From these findings, we diagnosed poorly or moderately differentiated squamous cell carcinoma of the thymus. The postoperative course was uneventful. The patient underwent radiation therapy of the mediastinum and left hilum at doses of 4000 cGy delivered over 4 weeks. She was discharged in March 1992. After the first AMoL remission, the patient suffered a relapse six times and was repeatedly admitted for chemotherapy. During these periods, chest X-ray and CT revealed no recurrence of the mediastinal tumor. During her tenth admission, the patient developed pneumonia during chemotherapy and died in October 1996. No autopsy was performed. Tumorregister - Template Datum Erstdiagnose Primärloka- lisation Grading Staging Morphologie Datum Ersttherapie Chemotherapie Bestrahlung

Text Mining: Im Wesentlichen zwei Hauptszenarien Informationsextraktion: Automatische Extraktion von für eine Fragestellung relevanter Fakten in unstrukturierten Texten Dokumentenretrieval: gezieltes Suchen nach relevanten Dokumenten in großen Dokumentenkollektionen

Anwendungsbeispiel Dokumentenrecherche: Prototyp Hautklinik Freiburg

Werkzeuge (I): Natürlichsprachliche Systeme Natürliche Sprache Strukturierte Daten

Natürlichsprachliche Systeme – Forschungs-gegenstand der Computerlinguistik Grundprinzipien: Analyse der Struktur von geschriebenem Text (Syntax) Analyse der Bedeutung (Semantik) Abbildung auf sprachunabhängige Bedeutungseinheiten (Einträge in Ontologien / Terminologiesystemen) Methodische Paradigmen: Symbolisch: Grammatiken als komplexe Axiomen- und Regelsysteme Probabilistisch: sprachliche Regularitäten werden basierend auf Echtdaten mit Methoden des Machine Learning gelernt Problematik: Vieldeutigkeit sprachlicher Äußerungen Limitiere Verfügbarkeit von Ressourcen (Grammatiken, Lexika, Ontologien, annotierte Korpora) Inhärente Komplexität sprachverarbeitender Algorithmen Derzeitiger Forschungs- und Anwendungs-schwerpunkt: Bio-Text Mining (Faktenextraktion aus Literaturabstracts)

Werkzeuge (II): Terminologiesysteme, Ontologien Natürliche Sprache Strukturierte Daten

Derzeitiger Forschungs- und Anwendungs-schwerpunkt: Ontologien / Terminologiesysteme: Interdisziplinärer Forschungsgegenstand Grundprinzip: Beschreibung der Eigenschaften (konkreter) Gegenstände und Prozesse eines Sachgebiets und deren Zusammenhänge Methodische Paradigmen: Logikbasiert: Verwendung formaler Sprachen, Axiomensystem Berechenbarkeit: Neue Zusammenhänge maschinell folgerbar. Problematik: Konsensfindung bez. Termbedeutungen Handhabung großer Ontologien Beispiel: SNOMED CT I,w,S. auch ICD, OPS, MeSH,… Open Biological Ontologies Derzeitiger Forschungs- und Anwendungs-schwerpunkt: Bio-Ontologien (Cell, cell component, molecular function, biological process, gene / protein sequence, chemicals of biological interest, mouse anatomy, mouse development, zebrafish, C. elegans, drosophila, …)

Beispiel: ontologisches Schließen durch Wissensbasierung Eine offene Tibiaschaftfraktur ist eine Fraktur des Unterschenkels, weil Tibiaschaft Teil des Schienbeins, welches Teil von Unterschenkel eine offene Verletzung, weil allen Frakturen Verletzungen sind eine den Bewegungsapparat betreffende Verletzung, da Tibia Teil von Bewegungsapparat und Fraktur eine Art von Verletzung eine Verletzung die zur Funktionseinschränkung führt, da Stabilität der u. Extremität abhängig von Stabilität der Tibia und Schaftfrakturen immer die Knochenstabilität beeinträchtigen Ein Infektionsrisiko, da (2.) und offene Verletzungen immer infektionsgefährdet und

Kombination: Natürlichsprachliche Systeme – Ontologien ”Sprachverstehen” Weitgehende Erhaltung der Information syntaktische Repräsentation semantische Repräsentation (Instanziierung einer Ontologie) Bisher Laborprototypen vorbehalten und nicht in ausreichendem Maße in Realdomänen skalierbar wurde In einem vom Partikel Magenschleimhaut eine Antrumtyp erfasst subject verbpart pobject spec ppadjunct ppatt Hahn & Schulz, IJMI 2000

Kombination: Natürlichsprachliche Systeme – Ontologien ”Morphosemantische Indexierung” Starke Abstraktion syntaktische Repräsentation semantische Repräsentation High TSH values suggest the diagnosis of primary hypo-thyroidism ... #up tsh #value #suggest #diagnost #primar #hypo #thyre Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... #up tsh #value #permit #diagnost #primar #thyre #hypo #function Marko & Schulz 2005

MorphoSaurus: semantisches medizinisches Dokumentenretrieval 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 0,6 0,7 0,8 0,9 1 Recall Precision D – D – Wortbasierter Index D – D – Subwort- Synonymkl. 0,55 0,65 Hahn, Schulz et al., RIAO 2004

Medizinischer Arbeitsplatz: Recherche in elektronischen Patientendokumenten („med. Google“) Ausblick: Die semantisch angereicherte elektronische Patientendokumentation Manuell validierte Diagnosen- und Prozeduren-kodierung Kodier- Arbeitsplatz Quelle: Befund- berichte, Arztbriefe (freier Text) Text-Mining- Engine Automatische Vorkodierungen Controlling- Arbeitsplatz / Falldaten - Data-Warehouse Standardisierte Falldokumentationen als automatische Instanziierung einer Ontologie (z.B. SNOMED CT) Wort- Index morpho-semantischer Index  Manuell validierte Spezial-kodierungen

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung Goldstandard Datenqualität 20?? 2010 Hohe Motivation 2007 Geringe Motivation Keinerlei Motivation Datenmenge

Herausforderung für medizinische Sprachverarbeitung Sehr große Textmengen Hohe Anforderungen an Datenschutz Lexikalische Produktivität Ambiguität Lexikalisch: Bruch (Hernie) vs. Bruch (Fraktur) Syntaktisch: z.B. Anbindung von PPs “[es wurde] [ Magenschleimhaut vom Antrumtyp ] [erfasst]” “[es wurde] [ Magenschleimhaut] [vom Antrumtyp erfasst]” Semantisch, z.B. Skopus von Quantoren, Negationen, Koordinationen, Gradaussagen Jede Probe wies einen erhöhten PH-Wert auf Komplexität, Berechenbarkeit, z.B. Dependenzgrammatiken: NP-vollständig Prädikatenlogik höherer Ordnung, Modallogiken: unentscheidbar Kombination mit medizinischen Terminologiesystem Integration von symbolischen und stochastischen Ansätzen

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung Goldstandard Datenqualität Hohe Motivation Geringe Motivation Keinerlei Motivation Datenmenge

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung Goldstandard Datenqualität Hohe Motivation 2005 Geringe Motivation Keinerlei Motivation Datenmenge

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung Goldstandard Datenqualität 20?? 200? Hohe Motivation 2005 Geringe Motivation Keinerlei Motivation Datenmenge

Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg http://www.imbi.uni-freiburg.de stschulz@uni-freiburg.de

ICD DRG $301 L4