Text Mining deutscher medizinischer Texte

Slides:



Advertisements
Ähnliche Präsentationen
GESIS Bernd Hermes, Heiko Hellweg, Dr. Maximilian Stempfhuber Informationszentrum Sozialwissenschaften, Bonn Unterstützung kooperativer Verfahren beim.
Advertisements

Peter Marwedel TU Dortmund, Informatik 12
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Die Referenzterminologie "SNOMED CT" und ihre Anwendungen
UML Begleitdokumentation des Projekts
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
ELearning-Innovationen für den modernen Fremdsprachenunterricht STZ Sprachlernmedien The BACKBONE project has been funded with support by the EU Lifelong.
Don`t make me think! A Common Sense Approach to Web Usability
The Project is partly funded by the European Commission eTEN Programme euromuse.net training for use of Harmonise euromuse.net Das Harmonise-Interface.
Automatic composition of UI mashups Vortrag zum Seminar Webengineering 2011 Michael Reißner.
| DC-IAP/SVC3 | © Bosch Rexroth Pneumatics GmbH This document, as well as the data, specifications and other information set forth in.
Dariusz Parys Developer Evangelist Microsoft Deutschland GmbH Christian Weyer Solutions Architect thinktecture.
Arbeitsgruppe Medizinische Informatik Stefan Schulz.
Deutsch Zwei
Deutsch Zwei Guten Tag! Heute ist FREITAG!!!!!! Die Sinnfrage: Wie fühlst du dich?? Die Ziele: You will discuss what you do/dont.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
DEUTSCHE VERBEN I. REGULAR VERBS.
Launch ON Global.vi System ID object name classname Services to suscribe Observer Control Ref vi-path Service name Step 1 : Objects register to the Global.vi´s,
Normal Word Order Peter schwimmt. Inverted Word Order Schwimmt Peter?
© Copyright SEMCARE Consortium Kurzpräsentation für Vollversammlung MUG-IMI, Stefan Schulz, Markus Kreuzthaler Semantic Data Platform.
Semantic Interoperability for Health Network of Excellence 7. März 2012 Stefan Schulz, Catalina Martínez-Costa Institut für Medizinische Informatik, Statistik.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
IBMI - Medis Meeting ByMedConnect AP2 Anwendungsszenarien und Datenelemente - Datensatz Neuherberg,
Entwicklungsstand von SNOMED CT Internationale Anwendungen
Lexit.at Michael Hausenblas Semantische Darstellung und Abfrage von Rechtsnormen – IRIS 2004 Semantische Darstellung und Abfrage von Rechtsnormen am Beispiel.
Standortbestimmung und Perspektiven der Medizinischen Informatik als Wissenschaftliche Disziplin Stefan Schulz Arbeitsgruppe Medizinische Informatik.
Physik multimedial Lehr- und Lernmodule für das Studium der Physik als Nebenfach Julika Mimkes: Links to e-learning content for.
Gregor Graf Oracle Portal (Part of the Oracle Application Server 9i) Gregor Graf (2001,2002)
WILLKOMMEN. By the end of today’s lesson You will know where to find some important information in the text book You will know what is expected of you.
Here‘s what we‘ll do... Talk to the person sitting in front of you. Introduce each other, and ask each other questions concerning the information on your.
Technische Universität München, Informatik XI Angewandte Informatik / Kooperative Systeme Verteilte Anwendungen: Entwurf Dr. Wolfgang Wörndl
GBIF NODES Committee Meeting Kopenhagen, Dänemark 4. Oktober 2009 Das GBIF Integrated Publishing Toolkit Alberto GONZÁLEZ-TALAVÁN Programme Officer für.
WebServices Vortrag zur Diplomarbeit WebServices Analyse und Einsatz von Thomas Graf FH Regensburg
"Pat. mit rez. HWI und VUR" Die Herausforderung medizinischer Terminologie und Semantik Stefan Schulz, Institut für Medizinische Informatik, Statistik.
Interrogatives and Verbs
Software Configuration Manager (f/m)
MarThes – Standardisierter Thesaurus mariner Begriffe
Volume 1, Chapter 8.
Metadaten als Grundlage der MDI-DE
Deutsche Wörterbücher Part 2
Azure Countdown Wenn der Freund und Helfer Freunde und Helfer braucht: Sichere Content-Upload-Plattform für Bürger.
Scientific Reasoning in Medical Education
Jakarta Struts Quasi-Standard für JSP-basierte Entwicklung: Jakarta Struts Key Features von Struts: Implementierung des Action-Command-Pattern („Model.
Deutsch 1 Die Familie Frau Spampinato
Aspect-Oriented Programming: Fad or the Future
Synonyms are two or more words belonging to the same part of speech and possessing one or more identical or nearly identical denotational meanings, interchangeable.
Developing Quality in Mathematics Education II
IETF 80 Prague DISPATCH WG
Chancen und Risken für KMU bei EU Förderungen
AAA – Abdominales Aorten Aneurysma –
Stefan Schulz Medizinische Universität Graz
ESciDoc Eine wissenschaftliche Informations-, Kommunikations- und Publikationsplattform für die Forschung M. Dreyer.
Ontologien als Standards
Konzepte von Terminologie-Datenbanken
Stefan Schulz Medizinische Universität Graz
Wozu SNOMED CT zur Datenintegration in MIRACUM?
Interface-Terminologien und Referenzterminologien Stefan Schulz Medizinische Universität Graz Josef Ingenerf Universität zu Lübeck.
eSciDoc eScience Infrastruktur fuer digitale Assets
ESciDoc München, 4. Juli 2007.
Stefan Schulz Medizinische Universität Graz purl.org/steschu
You need to use your mouse to see this presentation
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
M. Dreyer Göttingen, 12. Sept. 2007
Vergleich von Terminologie-Datenbanksystemen
INDICATIVE ROADMAP CO-CREATION OUTREACH TRAINING MID 2020
Enhancement Request Use Plane References in Sketch-Mode as Centerlines Ebenenereferenzen als Mittellinen im Skizzierer nutzbar machen Pro/Engineer Part.
Terminologie-Extraktion
You need to use your mouse to see this presentation
 Präsentation transkript:

Text Mining deutscher medizinischer Texte i:DSem Workshop, 14.7.2017 @ Humboldt Universität zu Berlin 2017 Die Notwendigkeit der Unterscheidung zwischen Interface-Terminologien und Referenzterminologien Stefan Schulz Medical University of Graz (Austria) purl.org/steschu steschu@gmail.com

"Wie geeignet ist SNOMED CT als europäische Referenzterminologie?" H2020: Assessing SNOMED CT for Large Scale eHealth Deployments in the EU Concept coverage "Wie geeignet ist SNOMED CT als europäische Referenzterminologie?" Manuelle Annotation klinischer Texte (Parallelkorpus) mit SNOMED CT vs. UMLS-Extrakt Messung: konzeptuelle Abdeckung Term-Abdeckung Unterschiede SNOMED CT Schwedisch – Englisch Schwedisch: ein (Vorzugs-)Term pro Konzept Englisch: durchschnittlich 2,3 Terme pro Konzept (Vorzugsterme, Synonyme) Term coverage

Beispiel: Terme in PubMed [tiab] Vorzugsterm (SNOMED CT) Anzahl Synonym Primary malignant neoplasm of lung Lung cancer Bronchial carcinoma 120682 3452 Cerebrovascular accident 3819 Stroke 191559 Block dissection of cervical lymph nodes  1 Neck dissection 7512 Electrocardiographic procedure Electrocardiogram ECG 33670 55120 Backache 3489 Back pain 38132 Capillary blood specimens 32 Capillary blood samples 574

Beispiel: Terme in Kardiologie-Arztbriefen Vorzugsterm (ICD, OPS) Anzahl Synonym Aortenklappenstenose 3749 Aortenstenose 3126 Hirninfarkt 7 Schlaganfall 65 Elektrokardiogramm EKG 12208 Koronare Herzerkrankung 331 KHK 18455 Nicht-ST-Hebungsinfarkt 498 NSTEMI 3839 Magnetresonanztomographie 2 NMR 17

Zwei Aspekte von Terminologien Normativ   Codes + Labels (Namen) bezeichnen wohldefinierte Gegenstände eines Diskursbereichs. "sprechende“ Labels, z.B. "Primary malignant neoplasm of lung (disorder)". Erklärende Texte (scope notes) zur zusätzlichen Präzisierung der Repräsentationseinheit ("Konzept") Bedeutung durch formale Beschreibungen expliziert:  formale Ontologie Deskriptiv Tatsächlicher Sprachgebrauch: Lexikon Erweiterung zu einem Thesaurus durch semantische Relationen (Synonymie, Hypernymie,…) Gängige Terminologiesysteme decken diese beiden Aspekte in unterschiedlichen Maß und meist unsystematisch ab bla…bla…

SNOMED CT als Terminologie Label (Fully Specified Name) Code (Concept ID) (…) Interface terms (Synonyme) Text definition

SNOMED CT als formale Ontologie Logische Axiome (DL) Code (Concept ID) Taxonomie (is-a-Hierarchie)

Interface-Terme  Interface-Terminologie Interface terms (Synonyme) http://browser.ihtsdotools.org

H2020: Assessing SNOMED CT for Large Scale eHealth Deployments in the EU "SNOMED CT should be part of an ecosystem of terminologies, including international aggregation terminologies (e.g., the WHO Family of Classifications), and user interface terminologies, which address multilingualism in Europe and clinical communication with multidisciplinary professional language and lay language" AT: aggregation terminology, RT: reference terminology http://assess-ct.eu/fileadmin/assess_ct/final_brochure/assessct_final_brochure.pdf

Unterscheidung Referenzterminologie - Interfaceterminologie Referenzterminologien: Primär sprachunanbhängige Repräsentationseinheiten (Konzepte): Eigenschaften der Objekte, die von diesen denotiert werden Maximal eindeutige Labels, unterstützt durch textliche und / oder formale (ontologische) Definitionen Interfaceterminologien: Sammlungen von sprachlichen Ausdrücken, die in schriftlicher und mündlicher Kommunikation verwendet werden. Fundierung durch Verknüpfung zu Referenzterminologien Interfaceterme sind häufig ambig. Ihre Bedeutung hängt ab von Sprachbenutzern, Sprachregister, sowie thematischen, dialektalen und zeitlichen Kontexten Separate Erstellung / Pflege von Referenzterminologien und Interfaceterminologien http://assess-ct.eu/fileadmin/assess_ct/final_brochure/assessct_final_brochure.pdf

Bedeutung für manuelle Annotation und klinisches Text Mining Interface-Terme kommen vor: als Synonyme in Referenzterminologien als separate Interface-Terminologie, gemappt auf Referenzterminologie Terminologie-Lokalisierung via Label-Übersetzung hoher Aufwand (Erfahrungen Dänemark + Schweden) schlechte Benutzerakzeptanz* geringer Recall beim Text Mining Besser: Akquisition von Interface-Termen und Verlinkung mit Inhalten der Referenzterminologie Hypothese: Bottom-up / Crowdsourcing Durchgängiges Problem: Ambiguitäten, Kurzformen *Højen AR et al. SNOMED CT adoption in Denmark--why is it so hard? Stud Health Technol Inform. 2014;205:226-230

MUG-GIT: Erstellung einer deutschen Interface-terminologie für SNOMED CT (I) MUG-GIT (Medical University of Graz – German Interface Terminology) zur maschinellen Annotation deutscher Kliniktexte semantische Extrakte für Projekt IICCAB* limitierte Ressourcen, inkrementelles Vorgehen Modularisierung (Zerlegung in N-Gramme, meist NPs und PPs), Editieren eines abgeleiteten Kernvokabular, motiviert durch hoch repetitive Teilphrasen, z.B. "Magnetic resonance imaging" in 627 SNOMED -Termen "second degree burn" in 166 SNOMED-Termen Priorisierung nach Häufigkeit: Manuelle Revision der NP-Liste Anreicherung durch Terme aus anderen deutschen Terminologien und klinischen Corpora *Schulz S. Innovative Nutzung von Informationen für klinische Versorgung und Biomarkerforschung. http://goo.gl/wHMedz

MUG-GIT: Erstellung einer deutschen Interface-terminologie für SNOMED CT (II) Rules Char Token translation Rules trans - rule acquisition lations Reference Clinical corpus (DE) corpus (DE) Chunker rule untranslated exec New tokens Token Translatable SCT trans - descriptions (EN) lations POS n - grams (EN) tags filter concepts with identical terms across translations n - gram Human curation translations • correct most frequent mis - n - grams (DE) translations • remove wrong Non - Translatable Phrase translations SCT descriptions generation All SCT descriptions (EN) • check POS tags rules • normalise adjectives • add synonyms Term reassembling heuristics Raw full terms Curated ngram (DE) Human Validation translations(DE) • dependent on use cases • e.g. input for official translation • e.g. starting point for crowdsourcing process for interface term generation • lexicon for NLP approaches

MUG-GIT: Erstellung einer deutschen Interface-terminologie für SNOMED CT (III) Inkaufnahme "schlechter" Übersetzungen und ausufernde Permutationen bei langen SNOMED-CT-Termen Kernvokabular: gepflegt durch zwei Medizinstudentinnen unter Aufsicht Richtlinien, z.B. keine Schreibvarianten (c/k/z - Problem), Akronyme nur im Kontext (kein Eintrag für "CT", aber für "Schädel-CT"), keine Übersetzung unvollständiger N-Gramme, Umgang mit elliptischen Ausdrücken ("Verstopfung") Derzeitiger Stand: 1,87 Millionen Interface-Terme Automatisch generiert aus einem Kernvokabular mit deutschen 92,500 N-Grammen, verknüpft mit 85,400 englischen N-Grammen Benchmark: MEDLINE extrahierter Parallelkorpus, bestehend aus Publikationstiteln in deutscher [tt] und englischer Sprache [ti]. Aktuelle Term-Abdeckung 33,1% für Deutsch gegenüber 55,4%

ngram - Kernvokabular

Automatische generierte Interfaceterminologie

Ko-operative Entwicklung einer deutschen Interface-Terminologie Günstige Rahmenbedingungen Datenintegration / Sekundärnutzung / semantische Suche: Thema in geförderten Großprojekten (D: BMBF-MI, A: CBmed, ELGA) Wachsendes Interesse an internationalen Terminologien (SNOMED CT, LOINC, RadLex…) und Ontologien (GO, HPO, …) Synergieeffekte vs. Ressourcenverschwendung Idee: Crowdsourcing-Plattform für Entwicklung deutschsprachigen Interface-Terminologien: GIT-CP

Erste Spezifikationen für GIT-CP Web-basierte Croudsourcing-Plattform Registrierung als User  Commitment zu Kooperation Zentrales Datenelement: Mapping Interface Term – Externer Code "DM" - 81827009 |Diameter (qualifier value) Wichtige Attribute: Ersteller, Erstellungsart, Datum, klinisches Fachgebiet, Nutzergruppe Max Muster, manuell, 20170803, Dermatologie Graz, Ärzte Beispielannotation, z.B. "ein 3 cm im DM haltender Tumor" Validierung / Kommentierung durch andere User John Doe, 20180912,  "Beispiel unverständlich – zusätzliche Beispiele!"

GIT-CP – Offene Fragen Technisch Rechtlich / Organisatorisch Versionierung (GIT – Zielsysteme) Schnittstellen zu lokalen Annotationsplatformen Intelligente Tools (z.B. recommender services) Rechtlich / Organisatorisch Koordination Nachhaltige Finanzierung Qualitätssicherung Eigentumsrechte Verwertung Datenschutz

Fazit Text Mining deutscher medizinischer Texte benötigt Interfaceterminologien, die den alltäglichen Sprachgebrauch abbilden Die Verlinkung von Interfaceterminologien mit Referenzterminologien hat Priorität gegenüber der Übersetzung von Referenzterminologien Terminologiemanagement Referenzterminologien: top-down, zentralisiert Interfaceterminologien: bottom-up, dezentral Zeit ist reif für die kooperative, verteilte Erstellung einer medizinischen Interfaceterminologie für den deutschsprachigen Raum