Stefan Schulz Medizinische Universität Graz

Slides:



Advertisements
Ähnliche Präsentationen
Cadastre for the 21st Century – The German Way
Advertisements

Installation des Add-In SOLVERSTAT
Langzeitarchivierung und Metadaten. NAA Preservation Strategy Link: ml.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
The Project is partly funded by the European Commission eTEN Programme euromuse.net training for use of Harmonise euromuse.net Das Harmonise-Interface.
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
DEUTSCHLAND UND DIE MEDIEN
Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin
Arbeitsgruppe Medizinische Informatik Stefan Schulz.
DEUTSCHE VERBEN I. REGULAR VERBS.
© Copyright SEMCARE Consortium Kurzpräsentation für Vollversammlung MUG-IMI, Stefan Schulz, Markus Kreuzthaler Semantic Data Platform.
Semantic Interoperability for Health Network of Excellence 7. März 2012 Stefan Schulz, Catalina Martínez-Costa Institut für Medizinische Informatik, Statistik.
Informationsmodell: ISO 13606
Entwicklungsstand von SNOMED CT Internationale Anwendungen
AP3 – Informationsmodell ByMedConnect Archetypen Hans Demski Helmholtz Zentrum München Arbeitsgruppe MEDIS Institut für Medizinsche und Biologische Bildgebung.
Modals of the past…. Erste Stuffe: Take the original form of the modal verb and remove all umlauts. können = konnen wollen = wollen.
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
GATE/Annie Zara Kanaeva, November 2002, Information Extraction.
Freitag den Aufgabe bis Montag den 2.3. LB 7.1 F, I, G oder J (G/J: Aufsatz, 150 Wörter) QUIZ sep. verbs Guten Morgen!
The perfect tense Vital for a good grade!!. There are 2 parts to the perfect tense 1)The correct part of haben (or sein) 2) + the past participle.
Standortbestimmung und Perspektiven der Medizinischen Informatik als Wissenschaftliche Disziplin Stefan Schulz Arbeitsgruppe Medizinische Informatik.
Synergien zwischen Bioinformatik und Medizinischer Informatik ?
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Nuklearmedizinsche Klinik und Poliklinik Klinikum rechts der Isar Technische Universität München Image reconstruction, MR-based attenuation correction,
KLIMA SUCHT SCHUTZ EINE KAMPAGNE GEFÖRDERT VOM BUNDESUMWELTMINISTERIUM Co2 online.
Strengthening and Support to European enterprise- and research cooperations Charlotte Schlicke Steinbeis-Europa-Zentrum der Steinbeis Innovation gGmbH.
Gregor Graf Oracle Portal (Part of the Oracle Application Server 9i) Gregor Graf (2001,2002)
Rotkäppchen: Wie sieht sie aus? Richtig oder falsch?
Text complexity in and for literary studies. foundations.
“Cambridge English: First“ an der PSI Das Cambridge English: First, auch bekannt als First Certificate in English (FCE) ist ein Sprachzertifikat der Universität.
WEB QUEST „WebQuests are designed to use learners' time well, to focus on using information rather than looking for it, and to support learners' thinking.
Money rules the medicine?! A presentation by Jan Peter Hoffmann European healthcare systems in comparison.
Ralf Möller, Institut für Informationssysteme, Universität zu Lübeck 1.
"Pat. mit rez. HWI und VUR" Die Herausforderung medizinischer Terminologie und Semantik Stefan Schulz, Institut für Medizinische Informatik, Statistik.
Was ist eigentlich… Big Data?
Interrogatives and Verbs
Text Mining deutscher medizinischer Texte
Die Zukunft The future tense.
Auswahl von XMPP als OS4ES Kommunikationsprotokoll
GlucoTab® sichere Insulindosierung im Krankenhaus
Volume 1, Chapter 8.
Agenda Winter Term 2016/17 (Stay tuned for changes | Check data and room carefully) # Date Lecture Topic 01 18/10/16 VL 1: Innovation and Technology Management:
Technische und soziale forschungsinfrastrukturen für die humanities das beispiel dagaare – english – cantonese dictionary eveline wandl-vogt1, adams bodomo2,
EbM Kongress 2011  24. – 26. März 2011  TU Berlin
Spracherkennung mit dynamisch geladenen, spezifischen Akustikmodellen
Aspect-Oriented Programming: Fad or the Future
Students have revised SEIN and HABEN for homework
CERN – TUD – GSI Webmeeting
Stefan Schulz Medizinische Universität Graz
Konzepte von Terminologie-Datenbanken
7th German CDISC User Group Basel, 11. März 2010
Stefan Schulz Medizinische Universität Graz
Die Bedeutung von Ontologien für die Integration medizinischer Daten
Wozu SNOMED CT zur Datenintegration in MIRACUM?
Interface-Terminologien und Referenzterminologien Stefan Schulz Medizinische Universität Graz Josef Ingenerf Universität zu Lübeck.
or column width (2 columns), 73cm (2/3, all for A0)
Stefan Schulz Medizinische Universität Graz purl.org/steschu
PI Infrastruktur in der Max-Planck-Gesellschaft
Was hast du am Wochenende gemacht?
Past Tense.
Einsatzmatrix 2.0.
OFFICE 365 FOCUS SESSION SHAREPOINT ONLINE 101:LERNE DIE BASICS 19. März 2018 Höhr-Grenzhausen.
Integrating Knowledge Discovery into Knowledge Management
Qualitative Inhaltsanalyse*
DevOps Michael Minh Pham.
Niedersächsisches Ministerium
- moodle – a internet based learning platform
Terminologie-Extraktion
Hack2Sol – Powered by SAP
 Präsentation transkript:

Stefan Schulz Medizinische Universität Graz Workshop „Datenqualität“ TMF, Berlin, 03.05.2018 Natural Language Processing und Ontologie-Mapping Möglichkeiten und Grenzen bezüglich der Datenqualität Stefan Schulz Medizinische Universität Graz purl.org/steschu

Kontext: CBmed Graz - Projekt "Digital biomarkers for precision medicine" CBmed - Center for Biomarker Research in Medicine www.cbmed.at

NLP und Ontologie-Mapping: Prozesse, Ressourcen, Daten Vokabular Informationsmodell Dokumenten- qualität maschinelle Annotation Klinische Dokumente Standardisierte Daten (Kodes in Kontext) manuelle Annotation Annotations- Guidelines

Dokumentenqualität Adip. Pat. mit DM Typ2 Adipöse Patientin mit Diabetes Mellitus Typ 2 St. p. TE eines exulc. sek.knot. SSM li US dors. Level IV Zustand nach Totalexzision eines exulzerierenden, sekundär knotigen, superfiziell spreitenden Melanoms, Dorsalseite des linken Unterschenkels, Level 4 2,4 mm Tumor DM 2,4 mm Tumordurchmesser Sentinnel LK ing. li. tumorfr. Sentinel-Lymphknoten linke Leiste tumorfrei Gepl. NTx bei term. NINS Geplante Nierentransplantation bei terminaler Niereninsuffizienz Euthyorx 75 1-0-0 Euthyrox (Levothyroxin-Na 75g) 1-0-0 Zeitdruck, Sprachökonomie: Abkürzungen, Schreibfehler, Transkriptionsfehler, Lücken, Redundanzen, mangelnde Korrekturen Texteingabe in KIS-Systemen ohne aktuellen "Komfort" (Schreibkorrektur, Auto-Vervollständigung, Wortvorhersage, Spracherkennung) Verbesserung der Dokumentenqualität eher durch Technologien als durch Veränderung der "Dokumentationskultur"

Dokumentenqualität Adip. Pat. mit DM Typ2 Adipöse Patientin mit Diabetes Mellitus Typ 2 St. p. TE eines exulc. sek.knot. SSM li US dors. Level IV Zustand nach Totalexzision eines exulzerierenden, sekundär knotigen, superfiziell spreitenden Melanoms, Dorsalseite des linken Unterschenkels, Level 4 2,4 mm Tumor DM 2,4 mm Tumordurchmesser Sentinnel LK ing. li. tumorfr. Sentinel-Lymphknoten linke Leiste tumorfrei Gepl. NTx bei term. NINS Geplante Nierentransplantation bei terminaler Niereninsuffizienz Euthyorx 75 1-0-0 Euthyrox (Levothyroxin-Na 75g) 1-0-0 Zeitdruck, Sprachökonomie: Abkürzungen, Schreibfehler, Transkriptionsfehler, Unvollständigkeit, Redundanz, mangelnde Korrekturen Texteingabe in KIS-Systemen ohne zeitgemäßen"Komfort" (Schreibkorrektur, Auto-Vervollständigung, Wortvorhersage, Spracherkennung) Verbesserung der Dokumentenqualität eher durch Technologien als durch Veränderung der "Dokumentationskultur"

#LetDoctorsBeDoctors "Innovation all around – but it ain't in healthcare, Internet and apps for you, but we get ancient software" Zeitdruck, Sprachökonomie: Abkürzungen, Schreibfehler, Transkriptionsfehler, Lücken, Redundanzen, mangelnde Korrekturen Texteingabe in KIS-Systemen ohne aktuellen "Komfort" (Schreibkorrektur, Auto-Vervollständigung, Wortvorhersage, Spracherkennung) Verbesserung der Dokumentenqualität eher durch Technologien als durch Veränderung der "Dokumentationskultur" #LetDoctorsBeDoctors EHR State of Mind | #LetDoctorsBeDoctors | ZDoggMD.com

Qualität Ontologie / Vokabular Domänenabdeckung Definitionen Ontologie Vokabular Informationsmodell Sprachumfang (Klinikjargon) maschinelle Annotation Klinische Dokumente Standardisierte Daten (Kodes in Kontext) manuelle Annotation Annotations- Guidelines

"SNOMED CT als europäische Referenzterminologie?" H2020: Assessing SNOMED CT for Large Scale eHealth Deployments in the EU Konzeptuelle Abdeckung "SNOMED CT als europäische Referenzterminologie?" Manuelle Annotation klinischer Texte (Parallelkorpus) mit SNOMED CT vs. UMLS-Extrakt Messung: Konzeptuelle Abdeckung Abbildung des Wortschatzes Unterschiede SNOMED CT Schwedisch – Englisch Schwedisch: ein (Vorzugs-)Term pro Konzept Englisch: durchschnittlich 2,3 Terme pro Konzept (Vorzugsterme, Synonyme)

"SNOMED CT als europäische Referenzterminologie?" H2020: Assessing SNOMED CT for Large Scale eHealth Deployments in the EU Konzeptuelle Abdeckung "SNOMED CT als europäische Referenzterminologie?" Manuelle Annotation klinischer Texte (Parallelkorpus) mit SNOMED CT vs. UMLS-Extrakt Messung: Konzeptuelle Abdeckung Abbildung des Wortschatzes Unterschiede SNOMED CT Schwedisch – Englisch Schwedisch: ein (Vorzugs-)Term pro Konzept Englisch: durchschnittlich 2,3 Terme Vorzugs- und Interface-Terme Wortschatz ASSESS-CT Recommendations: http://assess-ct.eu/fileadmin/assess_ct/final_brochure/assessct_final_brochure.pdf

Interface-Vokabulars: Relevanz Termhäufigkeiten in Kardiologie-Korpus (30.000 Arztbriefe – Quelle: KAGes - Steiermärkische Krankenanstalten GmbH) Vorzugsterm (ICD, OPS) Anzahl Interface-Term Aortenklappenstenose 3749 Aortenstenose 3126 Hirninfarkt 7 Schlaganfall 65 Elektrokardiogramm EKG 12208 Koronare Herzerkrankung 331 KHK 18455 Nicht-ST-Hebungsinfarkt 498 NSTEMI 3839 Magnetresonanztomographie 2 NMR 17

MUG-GIT: Deutsches Interface-Vokabular für SNOMED CT, derzeit ca MUG-GIT: Deutsches Interface-Vokabular für SNOMED CT, derzeit ca. 2,3 Mio Terme Rules Char Token translation Rules trans - rule acquisition lations Reference Clinical corpus (DE) corpus (DE) Chunker rule untranslated exec New tokens Token Translatable SCT trans - descriptions (EN) lations POS n - grams (EN) tags filter concepts with identical terms across translations n - gram Human curation translations • correct most frequent mis - n - grams (DE) translations • remove wrong Non - Translatable Phrase translations SCT descriptions generation All SCT descriptions (EN) • check POS tags rules • normalise adjectives • add synonyms Term reassembling heuristics Human Validation Raw full terms Curated ngram (DE) • dependent on use cases translations(DE) • e.g. input for official translation • e.g. starting point for crowdsourcing process for interface term generation • lexicon for NLP approaches  Schulz S. Building an experimental German user interface terminology linked to SNOMED CT. Proc. SNOMED Expo 2017, Bratislava

Automatisch generierte deutsche SNOMED CT - Interface-Terme • Kann vom Autor für Validierungszwecke zur Verfügung gestellt werden

Qualität Annotations-Guidelines Ontologie Vokabular Informationsmodell maschinelle Annotation Klinische Dokumente Standardisierte Daten (Kodes in Kontext) manuelle Annotation Annotations- Guidelines Präferenzheuristiken Kompositionsregeln Abgrenzung Ontologie vs. Informationsmodell Referenzannotationen

Nichtübereinstimmung bei manueller Annotation Inter-Annotator Agreement in manuellen Annotationsexperimenten (strikte Übereinstimmung): SNOMED 37%, UMLS: 36% (Krippendorff's Alpha ) Tokens Annotator #1 Annotator #2 Gold standard 'Lymphoma" 'Malignant lymphoma (disorder)' 'Malignant lymphoma - category (morphologic abnormality)' 'Malignant lymphoma (disorder)' Tokens Annotator #1 Annotator #2 Gold standard "Former smoker" 'In the past (qualifier value)' 'History of (contextual qualifier) (qualifier value)' 'Ex-smoker (finding)' 'Smoker (finding)' Tokens Annotator #1 Annotator #2 Gold standard "Former smoker" 'In the past (qualifier value)' 'History of (contextual qualifier) (qualifier value)' 'Ex-smoker (finding)' 'Smoker (finding)' Miñarro-Giménez JA, Martínez-Costa C, Schulz S. Qualitative assessment of annotations using SNOMED CT. ODLS 2016, Halle/Saale

Nichtübereinstimmung bei manueller Annotation Inter-Annotator Agreement in manuellen Annotationsexperimenten (strikte Übereinstimmung): SNOMED 37%, UMLS: 36% (Krippendorff's Alpha ) Tokens Annotator #1 Annotator #2 Gold standard 'Lymphoma" 'Malignant lymphoma (disorder)' 'Malignant lymphoma - category (morphologic abnormality)' 'Malignant lymphoma (disorder)' Tokens Annotator #1 Annotator #2 Gold standard "Former smoker" 'In the past (qualifier value)' 'History of (contextual qualifier) (qualifier value)' 'Ex-smoker (finding)' 'Smoker (finding)' Tokens Annotator #1 Annotator #2 Gold standard "Former smoker" 'In the past (qualifier value)' 'History of (contextual qualifier) (qualifier value)' 'Ex-smoker (finding)' 'Smoker (finding)' Miñarro-Giménez JA, Martínez-Costa C, Schulz S. Qualitative assessment of annotations using SNOMED CT. ODLS 2016, Halle/Saale

Annotations- Guidelines Qualität NLP Ontologie Vokabular Informationsmodell Leistungsbeschreibungen Kompetenzkriterien Benchmarks maschinelle Annotation Klinische Dokumente Standardisierte Daten (Kodes in Kontext) manuelle Annotation Annotations- Guidelines

NLP- Software – wichtige Qualitätskriterien Fuzzy matching Schreibfehler, Flexionen, Derivationen, Komposita "Eutyorx", "Gastritiden", "Prozacunverträglichkeit" Kontexterkennung Negation: "kein Anhalt für Rezidiv" Zeit: "NTx 3/2007" Sicherheit: "Appendizitisverdacht" Dokumentenabschnitte: Familienanamnese, Labor Koordinationen: "Fraktur von Elle und Speiche". "Krea und Harnstoff erhöht" Disambiguierung "DM": "Diabetes mellitus" vs. "Durchmesser" Auflösung nichtlekikalisierter Kurzformen: "sek. knot. Anaphernauflösung

Qualität NLP - Dokumentenvorverarbeitung Füllen lexikalischer Lücken I.e.L: Auflösen von nicht lexikalisierten Kurzformen Ontologie Vokabular Informationsmodell NLP Klinische Dokumente Standardisierte Daten (Kodes in Kontext) Vorver- arbeitung Dokumente Nachbe- arbeitung Kodes manuelle Annotation Annotations- Guidelines

Dokumentenvorverarbeitung Beispiel: Auflösung von Abkürzungen und Akronymen N-gram-Modelle "dilat. Kardiomyopathie, hochgr. red. EF" Neuronale Netze ? Web mining N-gram-Modell aus 30.000 Arztbriefen 1035 dilat. Kardiomyopathie 1442 dilatative Kardiomyopathie 7 hochgr. red. EF 4 hochgradig reduzierte EF Oleynik M, Kreuzthaler M, Schulz S. Unsupervised Abbreviation Expansion in Clinical Narratives. Stud Health Technol Inform. 2017;245:539-543.

Qualität NLP – Kode-Nachbearbeitung Verbesserung Abdeckung und Einheitlichkeit Postkoordination Erkennen Referenzen und Relationen Ontologie Vokabular Informationsmodell NLP Klinische Dokumente Standardisierte Daten (Kodes in Kontext) Vorver- arbeitung Dokumente Nachbe- arbeitung von Kodes manuelle Annotation Annotations- Guidelines

Beispiel Postkoordination SNOMED CT Präkoordination "Verbrennung 2. Grades eines einzelnen Fingers" 211908006 |Deep partial thickness burn of a single finger (disorder)|  <<< 29673001 |Second degree burn of single finger, not thumb (disorder)| : { 116676008 |Associated morphology| = 262588000 |Deep partial thickness burn (morphologic abnormality)|,363698007 |Finding site| = 56213003 |Skin of finger (body structure)| } Postkoordination "Verbrennung 2. Grades der Rückseite des rechten Zeigefingers" <<< 29673001 |Second degree burn of single finger, not thumb (disorder)| : { 116676008 |Associated morphology| = 262588000 |Deep partial thickness burn (morphologic abnormality)|,363698007 |Finding site| = 37314006 | Skin structure of dorsal surface of index finger (body structure) |, 272741003 |Laterality| = 24028007 |Right (qualifier value)| }

Beispiel Nachbearbeitung: Code Refinement (z. B Beispiel Nachbearbeitung: Code Refinement (z.B. Auflösung anaphorischer Referenzen) Textfragment Direkte Codes (SNOMED CT) Inferierte Codes (SNOMED CT) Resektat nach Whipple: Ein noch nicht eröffnetes Resektat, bestehend aus einem distalen Magen, … 65801008 |Excision (procedure)| 69695003 |Stomach structure (body structure)| 53442002 |Gastrectomy (procedure)| Die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten weißliches, teilweise nodulär konfiguriertes Gewebe. 414781009 |Mucous membrane structure (body structure)| 85756007 |Body tissue structure (body structure)| 78653002 |Gastric mucous membrane structure (body structure)| 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose 38848004 |Duodenal structure (body structure)| 415582006 |Stenosis (morphologic abnormality)| 73120006 |Stenosis of duodenum (disorder)|

Möglichkeiten und Grenzen Ziel: interoperable semantische Repräsentation hoher Qualität Klinische Texte: manueller Goldstandard problematisch, bzgl. der "richtigen" Kodierung mit großen Terminologiesystemen SNOMED CT: Konzeptuelle Abdeckung gut, besonders bei Nutzung von Postkoordination Ausreichendes lexikalisches Matching erfordert Investition in Interface-Terminologien  Crowdsourcing, Use-Case getrieben Mehrdeutige Akronyme und nichtlexikalisierte Abkürzungen: Lernen von großen klinischen Korpora vielversprechend Nachbearbeitung / Interpretation von Annotationssequenzen:  Forschungsbedarf (Überführung von Sequenzen in Graphen) Nutzung bestehender Informations-Templates (z.B. HL7 FIHR)

Stefan Schulz Medizinische Universität Graz Workshop „Datenqualität“ TMF, Berlin, 03.05.2018 Natural Language Processing und Ontologie-Mapping Möglichkeiten und Grenzen bezüglich der Datenqualität Fragen? Kontakt: stefan.schulz@medunigraz.at Stefan Schulz Medizinische Universität Graz purl.org/steschu Acknowledgements: CBmed GmbH SAP AG KAGes GmbH FFG Austria