"Pat. mit rez. HWI u. VUR" - Herausforderungen medizinischer Sprache, Terminologie und Semantik Stefan Schulz Institute für Medizinische Informatik, Statistik.

Slides:



Advertisements
Ähnliche Präsentationen
Art der Arbeit (Projekt-/Studien-/Diplomarbeit/
Advertisements

Verbs Used Impersonally With Dative Deutsch I/II Fr. Spampinato.
On a Buzzword: Hierachical Structure David Parnas.
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
Vorlesung: Einführung in der Bioinformatik
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
How to use this powerpoint by yourself…
Don`t make me think! A Common Sense Approach to Web Usability
You need to use your mouse to see this presentation © Heidi Behrens.
You need to use your mouse to see this presentation © Heidi Behrens.
CALPER Publications From Handouts to Pedagogical Materials.
Arbeitsgruppe Medizinische Informatik Stefan Schulz.
Universität StuttgartInstitut für Wasserbau, Lehrstuhl für Hydrologie und Geohydrologie Copulas (1) András Bárdossy IWS Universität Stuttgart.
Semantic Interoperability for Health Network of Excellence 7. März 2012 Stefan Schulz, Catalina Martínez-Costa Institut für Medizinische Informatik, Statistik.
Der Supermarkt: Eine beispielhafte Erklärung für die fünf untersten Schichten des Semantic Web Protocol Stack Nicola Henze.
Der formelle Imperativ – the Imperative
 Every part in a sentence has a grammatical function. Some common functions are: - Subject - Verb - Direct object / accusative object - Indirect object.
Typische Fehler bei der Ontologie-Entwicklung
Fetal Neurosurgery Babak Babapour, M.D., PhD Sami Hussein, M.D., PhD
Die Fragen Wörter Wer? Was? Wann?.
Synchronization: Multiversion Concurrency Control
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Arbeiten in einem agilen Team mit VS & TFS 11
Synergien zwischen Bioinformatik und Medizinischer Informatik ?
Rules of Play - Game Design Fundamentals by Katie Salen and Eric Zimmerman Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung.
What is a “CASE”? in English: pronouns, certain interrogatives
Physik multimedial Lehr- und Lernmodule für das Studium der Physik als Nebenfach Julika Mimkes: Links to e-learning content for.
1/15 Thursday, 21 June 2007 Werner Sudendorf, Jürgen Keiper Deutsche Kinemathek – Museum für Film und Fernsehen Werner Sudendorf, Jürgen Keiper Reconstructing.
Gregor Graf Oracle Portal (Part of the Oracle Application Server 9i) Gregor Graf (2001,2002)
© Crown copyright 2011, Department for Education These materials have been designed to be reproduced for internal circulation, research and teaching or.
Kapitel 2 Grammar INDEX 1.Subjects & Verbs 2.Conjugation of Verbs 3.Subject Verb Agreement 4.Person and Number 5.Present Tense 6.Word Order: Position of.
Memorisation techniques
Kapitel 8 Grammar INDEX 1.Command Forms: The Du-Command Form & Ihr- Command 2.Sentences & Clauses.
Kapitel 5: Einkaufen Sprache. Alles klar Look over and know all of the Wortschatz on Seite 171 and 172. Look over the illustration found on Seite 145.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Die Vergangenheit Das Perfekt unregelmäßige Verben.
Ralf Möller, Institut für Informationssysteme, Universität zu Lübeck 1.
"Pat. mit rez. HWI und VUR" Die Herausforderung medizinischer Terminologie und Semantik Stefan Schulz, Institut für Medizinische Informatik, Statistik.
Pizza mit Schlagobers? Ontologien und nachhaltiges Wissensmanagement Stefan Schulz Institut für Medizinische Informatik, Statistik.
LLP DE-COMENIUS-CMP Dieses Projekt wurde mit Unterstützung der Europäischen Kommission finanziert. Die Verantwortung für den Inhalt dieser.
Interrogatives and Verbs
Integration of Medical data
Azure Active Directory und Azure Active Directory Domain Services
Van der Meer AJ, Feld JJ, Hofer H J. Hepatol Oct 22
Scientific Reasoning in Medical Education
Jetzt machen Venues aufmachen!!! Geh zu
The dynamic ultrasound
Investitionen sichern - wachse mit Forms in die neue Welt
Jetzt machen Venues aufmachen!!! Geh zu
University for Health Sciences, Medical Informatics and Technology
Aspect-Oriented Programming: Fad or the Future
Process and Impact of Re-Inspection in NRW
Synonyms are two or more words belonging to the same part of speech and possessing one or more identical or nearly identical denotational meanings, interchangeable.
Cape Cod-Seminar Dr. Bernd Schmid July 2013
Agenda 1. Wo waren wir stehen geblieben. 2. Vorstellungsrunde 3
Metadata - Catalogues and Digitised works
IT QM Part2 Lecture 7 PSE GSC
Stefan Schulz Medizinische Universität Graz
THE PERFECT TENSE IN GERMAN
Stefan Schulz Medizinische Universität Graz
Wozu SNOMED CT zur Datenintegration in MIRACUM?
Ferrite Material Modeling (1) : Kicker principle
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
„Förderwolke“ A Cloud-based exchange platform for the qualitative enhancement and improvement of inclusive education Dipl. Reha-Päd. Hanna Linke scientific.
OFFICE 365 FOCUS SESSION SHAREPOINT ONLINE 101:LERNE DIE BASICS 19. März 2018 Höhr-Grenzhausen.
Integrating Knowledge Discovery into Knowledge Management
School supplies.
Die tiere Share: Introduce the session and PDSA.
 Präsentation transkript:

"Pat. mit rez. HWI u. VUR" - Herausforderungen medizinischer Sprache, Terminologie und Semantik Stefan Schulz Institute für Medizinische Informatik, Statistik und Dokumentation Medizinische Universität Graz stefan.schulz@medunigraz.at

Natürliche Sprache in der Medizin

Natürliche Sprache in der Medizin Wichtigster Träger klinischer Information Natürliche Form der Kommunikation Problem der Produktion kodierter Information Aufwand, Tooling geringere Präzision des Ausdrucks redundante Dokumentation fehlende Motivation Kliniker fehlender Nutzen für Kliniker geringe Dokumentationsqualität

Phänomene klinischer Texte Sprachökonomie Telegrammstil, Ellipsen, Kurzformen, Ambiguität Fachvokabular: Hybrid Deutsch / Englisch / Latein Produktivität: Kompositabildung, ad-hoc-Abkürzungen Textproduktion und -revision unter Zeitdruck: Textdiktat: Verständnis- und Transkriptionsfehler Texteingabe: Tippfehler pragmatische Einstellung zu Fehlern und Sprachvarianten Textproduktion durch Nicht-Muttersprachler

Vesicoureteral reflux Harnwegsinfekt ? Hinterwandinfarkt? Sprachökonomie rezent? rezidivierend? Pat. mit rez. HWI und VUR Vesicoureteral reflux Harnwegsinfekt ? Hinterwandinfarkt?

Synonyme, Schreibvarianten Colon-Ca Kolon-Ca Kolon-karzinom Colon-carcinom Colon-Karzinom Kolonkrebs Dickdarm-krebs Dickdarm-Ca Malignom des Kolon Dickdarm-karzinom Bösartige Neubildung am Dickdarm Bösartiger Dickdarm-tumor maligne Neoplasie des Dickdarms Karzinom des Dickdarms maligne NPL des Colon

Schreib-, Tipp-, Transkriptionsfehler Simvastatin Sinvastatin Simvastastin Simvastain Simvastad Simbastatin Simavstatin Simavastatin Simastatin Symvastatin Simvastation Simvaststin Simvatatin Simvatin Simvatstain Simvstatin

Triviales Retrieval durch Stringmatching "Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend aus einem distalen Magen mit einer kleinen Kurvaturlänge von 9,5 cm und einer großen Kurvaturlänge von 13,5 cm, sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden. Der distale Anteil des Ductus pankreaticus ist leicht erweitert und von der Papilla vateri aus 4,5 cm weit sondierbar, wobei er hier in einer peripankreatischen Narbenzone abbricht. Eine Gallengangsmündung läßt sich makroskopisch nicht abgrenzen. Die berichtete Duodenumstenose liegt 2,5 cm oral der Papilla vateri und steht mit der beschriebenen Narbenzone in direktem Zusammenhang. Dokument wird gefunden mit den Suchwörtern: "Whipple", "Magen", "Pylorus" Keine Treffer für: "Pankreatikoduodenectomie", "Resektion", "Duodenum", "Zwölffingerdarm", "Pankreas", "Bauchspeicheldrüse", "Gallengang", "Pankreasgang", "Ductus pancreaticus", "Papille", "Magenresektion"

Ziel: Abbildung auf standardisierte Bedeutung Code (SNOMED CT) Wert Kontext 254730000 |Superficial spreading malignant melanoma of skin 392521001 |History of 301889008 |Excision of malignant skin tumor 47224004 |Skin of posterior surface of lower leg7771000 |Left 81827009 |Diameter 258673006 |millimeter 2.41 258403002 |Lymph node level IV 94339008 |Secondary malignant neoplasm of inguinal lymph nodes 15240007 |Current 2667000 |Absent St. p. TE eines exulc. sek.knot.SSM (C43.5) li US dors. 5/11 Level IV 2,4 mm Tumordurchm. Sentinnel LK ing. li. tumorfrei

Aspekte von Sprache, Terminologie und Semantik

Aspekte von Sprache, Terminologie und Semantik Morphologie Abkürzungen Komposita Terminologie, Ontologie Standards Formalismen Kontext Repräsentation von Information vs. Repräsentation von Realität

Abkürzungen systol. Funktion und eine red. Rechtsventrikelfunktion tablettenpflichtigem Diab.mell. II. Der Pat. Hr. Meier die thorax chirurg. Vorstellung. f. mikro- und makrovask. Komplikationen Einnahme von Concor. Regelm. Internistische Kons. AST, KÖF Linksseitig RGs St.p. PTCA und RCA Stent Stenose der der A. Subklavia 0 A. Digimerck verabreicht großer li Ventrikel m. leichter postero septal path way keine path Veränderungen lexikalisiert Punkt + Substring - ad hoc Punkt + Substring + Akronym Akronym Plural zwei Tokens Punkt + Substring + ad hoc Punkt - Substring + Kreuzthaler M, Schulz S. Detection of sentence boundaries and abbreviations in clinical narratives. BMC Med Inform Decis Mak. 2015;15 Suppl 2:S4

Abkürzungen einer Infektion mit Hepatitis A. ausgeprägte Stenose der A. auf Streptokokken vom Typ A. akuter Mangel an Vitamin A. Symptomatik haben wir 1 A. nach Verlegung auf Station 6 A. ein Adenokarzinom o. n. A. Ausschluss von Hämophilie A. Hierbei sind keine weiteren Subclavia, die eine Indikation Nicht ausgeschlossen ist, dass Wir empfehlen Substitution Digimerck verabreicht, um die Wir bedauern, ihnen keine diagnostiziert worden. Dabei Die Koagulopathie konnte bis

Abkürzung? Satzende? einer Infektion mit Hepatitis A. ausgeprägte Stenose der A. auf Streptokokken vom Typ A. akuter Mangel an Vitamin A. Symptomatik haben wir 1 A. nach Verlegung auf Station 6 A. ein Adenokarzinom o. n. A. Ausschluss von Hämophilie A. Hierbei sind keine weiteren Subclavia, die eine Indikation Nicht ausgeschlossen ist, dass Wir empfehlen Substitution Digimerck verabreicht, um die Wir bedauern, ihnen keine diagnostiziert worden. Dabei Die Koagulopathie konnte bis

Abkürzung? Satzende? einer Infektion mit Hepatitis A. ausgeprägte Stenose der A. auf Streptokokken vom Typ A. akuter Mangel an Vitamin A. Symptomatik haben wir 1 A. nach Verlegung auf Station 6 A. ein Adenokarzinom o. n. A. Ausschluss von Hämophilie A. Hierbei sind keine weiteren Subclavia, die eine Indikation Nicht ausgeschlossen ist, dass Wir empfehlen Substitution Digimerck verabreicht, um die Wir bedauern, ihnen keine diagnostiziert worden. Dabei Die Koagulopathie konnte bis

Abkürzung? Satzende? Klassifikationsproblem Featureextraktion Punkt ist Teil des linken Tokens, kein Satzende Punkt ist Teil des linken Tokens, Satzende Punkt ist nicht Teil des linken Tokens  Satzende Featureextraktion Wortlänge Wortklasse Korpus Regeln Dictionary Verteilung

Abkürzungserkennung Klassifikation mittels SVN F1-Werte nach Methode (kumulativ) Baseline Regeln Statistik Scaling Corpus Länge Wortklasse Training 0.62 0.60 0.71 0.86 0.88 0.95 0.97 Test 0.83 0.96 0.93 Kreuzthaler M, Schulz S. Detection of sentence boundaries and abbreviations in clinical narratives. BMC Med Inform Decis Mak. 2015;15 Suppl 2:S4

Abkürzungsauflösung n C – Referenzcorpus B – Token - Bigrammliste aus C, nach absteigender Häufigkeit : B := [#, tk, tl] 1 a – "Punkt" Abkürzung (Input) For each bi in B if a == tki: b := tli; exit; a' := left(a, length(a) -1) For each bj in B if left(tkj, length(a')) == a' AND tki != a' and tlj == b output tkj; exit n "infiltr." "infiltr." "Gewebe" "infiltr" "infiltriertes" "Gewebe" "infiltriertes"

Dekomposition Ad-hoc-Komposita: Cholangiopankreatikographie Hausstaubmilbenphobie Phenylbutylpiperadinderivate Laryngotracheobronchoskopie hypothalamikohypophyseales Erscheinungsbild Phosphoethanolaminurie Chorionzottenbiopsietermin Hyperviskositätssyndrom

Dekomposition Ad-hoc-Komposita: Chol angio pankreat iko graph ie Hausstaub milb en phob ie Phenyl butyl piperadin derivate Laryng o trache o bronch o skop ie hypo thalamik o hypo phys eal es Erscheinung s bild Phosph o ethanol amin urie Chorion zotten biopsie termin Hyper viskosität s syndrom

Morphosemantik Galle Bauchspei-cheldrüse Ad-hoc-Komposita: Chol angio pankreat iko graph ie Hausstaub milb en phob ie Phenyl butyl piperadin derivate Laryng o trache o bronch o skop ie hypo thalamik o hypo phys eal es Erscheinung s bild Phosph o ethanol amin urie Chorion zotten biopsie termin Hyper viskosität s syndrom Gefäß Bild- gebung Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medical document retrieval. Int J Med Inform. 2000 Sep;58-59:87-99 Daumke P, Schulz S, Müller ML, Dzeyk W, Prinzen L, Pacheco EJ, Cancian PS, Nohama P, Markó K. Subword-based semantic retrieval of clinical and bibliographic documents. Methods Inf Med. 2010;49(2):141-7

Morphosemantische Analyse 0,65 D – D – Wortbasierter Index 0,6 D – D – Subwort- Synonymklassen 0,55 0,5 0,45 0,4 0,35 Morphosemantischer Parser Wortgrammatik als Endlicher Automat Output 1: Morpheme / Subwords (ohne Semantik) Output 2: Subwort-Äquivalenzklassen (mit Semantik), z.B. #heart = {"herz", "cor", "card"}DE 0,3 0,25 Precision 0,2 5,500 German documents 0,15 25 German topics 0,1 0,05  Terminologie / Ontologie 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medical document retrieval. Int J Med Inform. 2000 Sep;58-59:87-99 Daumke P, Schulz S, Müller ML, Dzeyk W, Prinzen L, Pacheco EJ, Cancian PS, Nohama P, Markó K. Subword-based semantic retrieval of clinical and bibliographic documents. Methods Inf Med. 2010;49(2):141-7 Recall

Terminologie und Ontologie

Terminologie und Ontologie Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand

Terminologie-Ökosystem (ASSESS CT) Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand Interface- Terminogien ~ Thesauren z.B. MeSH

Terminologie-Ökosystem (ASSESS CT) Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand Referenz- terminologien/ Ontologien z.B. SNOMED CT Reference Terminology / Ontologie RT1 RT2 RT3 Interface- Terminogien ~ Thesauren z.B. MeSH

Terminologie-Ökosystem (ASSESS CT) Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand AT3 Referenz- terminologien/ Ontologien z.B. SNOMED CT RT4 Reference Terminology / Ontologie AT2 Aggregations- terminologien/ Klassifikations- systeme z.B. ICD-10 RT1 AT1 RT2 AT4 RT3 Interface- Terminologien ~ Thesauren z.B. MeSH

"Ca" "Kalzium" "Calcium" "Ca" "Krebs" "Karzinom" Interfaceterminologie beschreibt Sprache einer Domäne beschreibt die Gegenstände einer Domäne Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand Interfaceterminologie Ontologie "Ca" "Kalzium" "Calcium" [chemistry] 5540006 Calcium (substance) "Ca" "Krebs" "Karzinom" 68453008 Carcinoma (morphologic abnormality) [oncology]

SNOMED CT SNOMED CT: weltgrößte Medizinontologie ca. 300 000 Konzepte ca. 1,3 Millionen Tripel Kompositioneller Ansatz, basierend auf Beschreibungslogik EL++ Schulz S, Cornet R, Spackman K. Consolidating SNOMED CT's ontological commitment. Appl. Ontology, 2011 (6) 1, 1-11. Schulz S, Jansen L. Formal ontologies in biomedical knowledge representation. Yearb Med Inform. 2013;8:132-46.

Semiautomatische Erstellung einer Interface-terminologie für SNOMED CT Schulz S. Using language technology for SNOMED CT localization? SNOMED CT Expo, Montevideo 2015

Ontologie und Informationskontext

Ontologie und Informationskontext … es besteht Verdacht auf Herzinsuffizienz verursacht durch die ischämische Herzerkrankung Diagnosis Diagnose Organversagen Heart Failure Organ Herz Status Status Verdacht Suspected x Ursache ischämische Herzerkrankung Ja Nein k.A. Cause gemein-same formale Repräsen-tation ? Ischaemic heart disease V.a. Herzinsuff. ischäm. Genese Sospetto scompenso cardiaco a causa di ischemia DIAGNOSIS Suspected heart failure caused by ischaemic heart disease

Beispiel: formale Modellierung Drei unterschiedliche Repräsentation derselben Information Drei unterschiedliche Informationsmodelle SNOMED CT + BTL2 als gemeinsame Ontologie Organ Failure Diagnosis Organ Heart Status Suspected Caused by ischaemic heart disease Yes No Unknown Diagnosis Suspected heart failure caused by ischaemic heart disease x Heart Failure Cause Ischaemic heart disease Schulz S et al. An Ontological Analysis of Reference in Health Record Statements. 2014. S. 289-302. Martínez-Costa C, Cornet R, Karlsson D, Schulz S, Kalra D. Semantic enrichment of clinical models towards semantic interoperability. The heart failure summary use case. J Am Med Inform Assoc. 2015 May;22(3):565-76.

Ontologische "Typisierung" von Informationsentitäten The yellow comments represent what is each element of the form about. Together to the yellow comments, the corresponding representation in OWL DL according to the ontology previously presented is provided. The full definition of each form is only given by a combination of all the annotations,

Ontologische "Typisierung" von Informationsentitäten In this case we only will have to Description logics annotations: - is a Diagnoisis - is...

Ontologische "Typisierung" von Informationsentitäten Finally, these would be the comments and annotations for the third form...

Ontologische "Typisierung" von Informationsentitäten If we create now the three diagnosis instances, annotated by the OWL DL representations of each form (combinations of DL expressions) Diagnosis instances, e.g. the real clinical data as embedded into an information model are annotated by OWL-DL (T-Box) expressions.

Alle drei Informationsinstanzen gefunden DL-Klassifikation (FACT++ Reasoner) Anfrage The check for semantic equivalence can then be performed by e DL reasoner completely at the T-Box level. Queries could then be formulated as DL queries as the one shown in which we see how the three instances of diagnosis are found independently of the granularity in which the query is performed We are aware that in a system that supports comprehensive querying (including query by a series of metadata such as author, time, etc.) the DL query can only be part of a whole picture in which also other querying approaches are required. Alle drei Informationsinstanzen gefunden

Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz

Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz

Ressourcen für maschinelle Analyse geschriebener Sprache Terminologien / Lexika Fachtermini und deren Beziehungen, z.B. Synonyme: "SSMM" = "Superficially spreading malignant melanoma" Ontologien Axiomatische Beschreibungen, z.B. MitralValve subClassof partOf some Heart Grammatik / Regelwerke z.B. Wortbildungsregeln: "-itis" = Entzündung, "-ektomie": chirurgische Entfernung Textkorpora (z.B. Kliniktexte, Veröffentlichungen, Web) Annotierte Korpora: Wörter <-> Wortklassen, Textpassagen <-> Kontext (z.B. Diagnose, Familienanamnese, Labor, Medikation) Nicht annotierte Korpora: z.B. Worthäufigkeiten, Wortkollokationen Training probabilistischer Modelle Termiologiestandards: - SNOMED CT - LOINC Interface-Terminologien (anwendernah) Ressourcen für deutsche Sprache: unzureichend

Ausblick Gering strukturierte Texte in der elektronischen Krankenakte: oft einzige Informationsquelle oft verlässlicher und nachhaltiger als strukturierte Inhalte bisher wenige erschlossene "Goldmine" Liefert wertvolle Daten für Personalisierte Medizin Entscheidungsunterstützung Klinische Forschung ("phenotyping") Vorhersage Breites Spektrum an semantischen / linguistischen Ressourcen erforderlich Diese Ressourcen müssen auf die deutsche Medizinsprache zugeschnitten werden: beträchtlicher Aufwand Anlehnung an internationale Standards sinnvoll. Wichtigstes Beispiel: SNOMED CT als umfassende klinische Ontologie

Kontakt Stefan Schulz (Univ. Prof. Dr. med.) Institut für Medizinische Informatik, Statistik und Dokumentation stefan.schulz@medunigraz.at

Character of this lecture Introductory lecture for seminar on clinical data integration Educational goals: To understand the rationale for clinical data integration across disciplines, users and institutions To distinguish between structural and semantic criteria of clinical data To understand the role of biomedical informatics and international standardization in clinical data integration To be sensitized regarding ethical aspects of clinical data integration

Die Lehrprobe soll grundlegende Arten von medizinisch relevanten Daten (einschließlich klinischer Versorgungsdaten, medizinischer Bilddaten und Omics-Daten) erläutern. Darauf aufbauend soll erläutert werden, wie diese Daten unter Beachtung von regulatorischen und Sicherheitsaspekten semantisch integriert und analysiert werden können. Die Lehrprobe sollte auf Englisch gehalten werden, da auch die Lehre im Masterstudiengang „Medical Informatics“ in Englisch gehalten wird

Six examples of clinical data Clinical narrative Drug prescription Lab report Coded disorders and procedures Medical image Extract of gene sequence

IHTSDO: International Health Standards Development Organisation http://www.ihtsdo.org/

SNOMED CT as terminology Code + Fully Specified Name Synonyms

SNOMED CT as ontology Multiple subclass hierarchies (is-a) Ontology axioms: C1 – Rel – C2 triples interpreted as: (FOL) x: instanceOf (x, C1)  y: instanceOf (C2)  Rel (x, y) (DL) C1 subclassOf Rel some C2 Relations (OWL object properties ): e.g. Associated morphology Associated procedure Finding site

Open Biomedical Ontology (OBO) Foundry Suite of orthogonal interoperable reference ontologies in the biomedical domain http://www.obofoundry.org/

Open Biomedical Ontology (OBO) Foundry RELATION TO TIME GRANULARITY CONTINUANT OCCURRENT INDEPENDENT DEPENDENT ORGAN AND ORGANISM Organism (NCBI Taxonomy) Anatomical Entity (FMA, CARO) Organ Function (FMP, CPRO) Phenotypic Quality (PaTO) Biological Process (GO) CELL AND CELLULAR COMPONENT Cell (CL) Cellular Component (FMA, GO) Cellular Function MOLECULE Molecule (ChEBI, SO, RnaO, PrO) Molecular Function Molecular Process

Upper Level Ontologies Strict categorization through limited set of top classes and relations Example: BioTopLite Classes Relations Disposition Function Immaterial object Information object Material object Process Quality Role Temporal region Value region at some time includes has part has boundary has granular part has component part is bearer of causes has realization precedes has condition projects onto has participant has agent has patient has outcome is life of is referred to at time represents Stefan Schulz & Martin Boeker. "BioTopLite: An Upper Level Ontology for the Life Sciences Evolution, Design and Application." GI-Jahrestagung. 2013.

3. Contribute to develop existing standards / specifications Join communities that use common terminology / ontology specifications Contribute to development / maintenance Ontologies objective descriptions of a domain and not as application-specific knowledge bases (scientific realism*) Only express what is universally true Examples SNOMED CT OBO Foundry Upper-level ontologies (BFO, DOLCE, BioTop) Barry Smith (2004) Beyond Concepts: Ontology as Reality Representation. A. Varzi and l. Vieu, Proc. of FOIS 2004.

Adaptation of existing standards / specifications Create extensions of existing semantic resources Additional subclasses, interface terms Address specific use cases / contexts Add additional upper-level orderings, e.g. "Indication", "Phenotype", "Clinical Problem", orthogonal to existing top-level Refine ambiguous classes like Animal, Tree, Heart animal (biological) vs. animal (legal) tree (morphology) vs. tree (taxonomic) vs. tree (2nd growth) heart (anatomical) vs. heart (surgical)

Conclusion Semantic resources for Life Sciences: Large number, large heterogeneity (context, quality, formalisms) How to make best use of them? Linked Data / "little semantics" large-scale re-use only where low precision is tolerable Else: Building on a limited number of high-quality terminology standards / specification efforts, join communities, custom additions / refinements Refrain from building "yet another" ontology Value semantic interoperability

Thank you Stefan Schulz (Univ.-Prof. Dr. med.) Institut für Medizinische Informatik, Statistik und Dokumentation Medizinische Universität Graz, Auenbruggerplatz 2/V 8036 Graz (Austria) http://www.medunigraz.at/imi http://g.co/maps/aqedt 0043 316 385 16939 0043 316 385 13201 http://purl.org/steschu mailto:stefan.schulz@medunigraz.at Skype: stschulz

Universalien Individuen Symbole Aspekte des Wissens ❺ ❻ ❹ ❷ ❸ ❶ Hunde können Tollwut übertragen Hunde sind Wirbeltiere ❺ ❻ Individuen "Hund" und "perro" sind Synonyme Marley ist ein Hund Symbole ❹ Instantiierung ❷ Denotation "Hund" ist ein Substantiv Marley lebt in Florida ❸ Denotation ❶

Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen

❷ Relation Individuum - Universale Adriana Peterova Sigmund Jähn Anton Schrader Henriette Hirschfeld-Tiburtius Alois Alzheimer Friedrich Schmiedl

❷ Relation Individuum - Universale Sigmund Jähn { Klassenbildende Eigenschaften Lebender Mensch Technische Ausbildung Mindestens ein Aufenthalt im Weltraum Klasse: Astronaut

Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen

❸ Sprachliches Wissen: http://wordnetweb.princeton.edu/

❹ Thesaurus

Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen

Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen

❺ Taxonomien Homo Sapiens subclassOf Primate Primate subclassOf Vertebrate Class: Vertebrate Class: Primate Ziggy   Anton  Class: Homo S. Adriana  Washoe  Friedrich  Koko  Bobo 

Übung: Taxonomie - Clinical Medicine - - Oncology - - - Cancer - - - - Lung - - - - Breast - - - - Prostate - - - - Colon - Geography - - Countries - - - BRIC Countries - - - - Brazil - - - - Russia - - - - India - - - - China

Übung: Korrektur - Clinical Medicine - - Oncology - - - Cancer - - - - Lung - - - - Breast - - - - Prostate - - - - Colon - Clinical Disease - - Oncologic Disease - - - Cancer - - - - Lung Cancer - - - - Breast Cancer - - - - Prostate Cancer - - - - Colon Cancer

Übung: Übung: Korrektur - Geography - - Countries - - - BRIC Countries - - - - Brazil - - - - Russia - - - - India - - - - China - Geographical Entity - - Country - - - BRIC Country (Members: Brazil, Russia, India, China)

❺ Partitionen Homo Sapiens subclassOf not (Chimpanzee) Class: Primate Class: Homo S. Class: Chimpanzee.

❺ Aristotelische Definitionen Viral Hepatitis equivalentTo Viral Infection and locatedIn some Liver Class: Viral Infection Class: Viral Hepatitis Class: Liver locatedIn Notwendige und hinreichende Bedingungen

❻ Kontingentes Wissen Vioxx® lindert Schmerzen Vioxx® verursacht Herzinfarkt Vioxx® ist Mittel der Wahl bei rheumatischer Arthritis (2002) Vioxx® ist als Arzneimittel verboten (2005) Vögel können fliegen Pinguine sind Vögel Pinguine können nicht fliegen Rauchen verursacht Lungenkrebs Helmut Schmidt raucht seit 85 Jahren Helmut Schmidt hat keinen Lungenkrebs Österreich ist kein Erdbebengebiet 1972 schweres Erdbeben in Seebenstein Seebenstein liegt in NÖ NÖ liegt in Österreich

Welches Wissen ist nachhaltig ? Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen

Vorteile von SNOMED CT Standardisierte Beschreibung medizinischer Sachverhalte Präziseres Wiederfinden von Krankheitsfällen "Diabetiker mit Parkinson, die keine Dopaminagonisten einnehmen und als Fahrzeuglenker bei einem Unfall verletzt wurden Automatisierte Entscheidungsunterstützung Automatische Wissensakquisition aus PatientInnendaten

Andere biomedizinischen Ontologien Ontologien in der Wissenschaft Andere biomedizinischen Ontologien ChEBI: Chemische Entitäten GO (Gene Ontology) Cell Component Molecular Function Biological Process FMA: Foundational Model of Anatomy

Beispiel Gene Ontology

Gesellschaftliche Aspekte Nachhaltige Wissensinhalte Inhalte, die sich nicht verändern, und daher als stabiles Fundament für Wissenskonstruktionen dienen Wissensquellen, die allgemein zugänglich sind Wissensinhalte, die durch Partikularinteressen abgeschirmt sind, stehen der nachhaltigen Nutzung im Weg

Beispiel terminologische / ontologische Standards SNOMED CT: Internationaler Standard, verwaltet von gemeinnütziger NGO (IHTSDO) Routinenutzung lizenzpflichtig Affiliate Licence Mitgliedschaft (auf nationaler Ebene) Österreich ca. 200.000 €/Jahr Österreich ist bisher kein Mitglied, Einführung fraglich

Beispiel Industriestandards

Diskussion Vorteile genormter Ontologien und Terminologien: Stabile Benennungen Logische Begriffsdefinitionen, präziser als sprachliche Definitionen Genaue Abgrenzung "fließender" Begriffe "Schokoladenpizza": Kuchen oder Pizza? 13-jähriger: Kind oder Jugendlicher Interoperabilität über Disziplinen und Sprachen hinweg Widersprüche können maschinell aufgedeckt werden Plädoyer: Genormte Ontologien und Terminologien als Gemeingut zu behandeln

Six examples of clinical data Hydroxyzin 25 mg 1-0-1 Cinacalcet Tabletten 35 mg 1 x 1 Fluoxetin 10 mg 1-1-1 Magnesium FT 150 mg 1-0-1 Nitroglycerin retard 2,5 mg Kps. 0-1-1 Nitroglycerin-Pumpspray bei Bedarf Amantadine 1-1-0 Allopurinol 300 mg jeden 2. Tag eine ½ Tablette (zuletzt am 30.11.2009) Mefenaminsäure 500mg bis 3xtgl. bei Schmerzen unter gleichzeitiger Einnahme eines Magenschutzes z.B. Pantoprazol 40mg.

ICD codes structured and coded shared models of meaning lab data local data models implicit meaning semi-structured tags unstructured

Implicit meaning Local metadata Global metadata Structured data semi-structured data structuring tags or markers more flexible less predefinition unstructured data content only no predefinition

Clinical data by Structure data models predefined attributes and values data model structured data semi- unstructured data structuring tags or markers more flexible less predefinition content only no predefinition

Clinical data by Semantics 10 mg 1-1-1 150 mg 1-0-1 25 mg 1-0-1 81 kg 1,69m 125/80, 76/min GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACCA RegEx: "\d{1,4}\ ?mg\ +[01]-[01]" ICD-10-2016: D22.5: Melanocytic nevi of trunk male = 1 female = 2 other = 3 unknown = 4 Hidden Implicit Local Global locally defined metadata / ontologies globaly defined metadata / ontologies standards signals no symbolic meaning symbolic meaning common sense

Clinical data by Semantics structured data semi- unstructured data 10 mg 1-1-1 150 mg 1-0-1 25 mg 1-0-1 RegEx: "\d{1,4}\ ?mg\ +[01]-[01]" Hidden Implicit Local Global locally defined metadata / ontologies globaly defined metadata / ontologies standards signals no symbolic meaning symbolic meaning common sense

Clinical data by Semantics structured data semi- unstructured data