"Pat. mit rez. HWI u. VUR" - Herausforderungen medizinischer Sprache, Terminologie und Semantik Stefan Schulz Institute für Medizinische Informatik, Statistik und Dokumentation Medizinische Universität Graz stefan.schulz@medunigraz.at
Natürliche Sprache in der Medizin
Natürliche Sprache in der Medizin Wichtigster Träger klinischer Information Natürliche Form der Kommunikation Problem der Produktion kodierter Information Aufwand, Tooling geringere Präzision des Ausdrucks redundante Dokumentation fehlende Motivation Kliniker fehlender Nutzen für Kliniker geringe Dokumentationsqualität
Phänomene klinischer Texte Sprachökonomie Telegrammstil, Ellipsen, Kurzformen, Ambiguität Fachvokabular: Hybrid Deutsch / Englisch / Latein Produktivität: Kompositabildung, ad-hoc-Abkürzungen Textproduktion und -revision unter Zeitdruck: Textdiktat: Verständnis- und Transkriptionsfehler Texteingabe: Tippfehler pragmatische Einstellung zu Fehlern und Sprachvarianten Textproduktion durch Nicht-Muttersprachler
Vesicoureteral reflux Harnwegsinfekt ? Hinterwandinfarkt? Sprachökonomie rezent? rezidivierend? Pat. mit rez. HWI und VUR Vesicoureteral reflux Harnwegsinfekt ? Hinterwandinfarkt?
Synonyme, Schreibvarianten Colon-Ca Kolon-Ca Kolon-karzinom Colon-carcinom Colon-Karzinom Kolonkrebs Dickdarm-krebs Dickdarm-Ca Malignom des Kolon Dickdarm-karzinom Bösartige Neubildung am Dickdarm Bösartiger Dickdarm-tumor maligne Neoplasie des Dickdarms Karzinom des Dickdarms maligne NPL des Colon
Schreib-, Tipp-, Transkriptionsfehler Simvastatin Sinvastatin Simvastastin Simvastain Simvastad Simbastatin Simavstatin Simavastatin Simastatin Symvastatin Simvastation Simvaststin Simvatatin Simvatin Simvatstain Simvstatin
Triviales Retrieval durch Stringmatching "Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend aus einem distalen Magen mit einer kleinen Kurvaturlänge von 9,5 cm und einer großen Kurvaturlänge von 13,5 cm, sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden. Der distale Anteil des Ductus pankreaticus ist leicht erweitert und von der Papilla vateri aus 4,5 cm weit sondierbar, wobei er hier in einer peripankreatischen Narbenzone abbricht. Eine Gallengangsmündung läßt sich makroskopisch nicht abgrenzen. Die berichtete Duodenumstenose liegt 2,5 cm oral der Papilla vateri und steht mit der beschriebenen Narbenzone in direktem Zusammenhang. Dokument wird gefunden mit den Suchwörtern: "Whipple", "Magen", "Pylorus" Keine Treffer für: "Pankreatikoduodenectomie", "Resektion", "Duodenum", "Zwölffingerdarm", "Pankreas", "Bauchspeicheldrüse", "Gallengang", "Pankreasgang", "Ductus pancreaticus", "Papille", "Magenresektion"
Ziel: Abbildung auf standardisierte Bedeutung Code (SNOMED CT) Wert Kontext 254730000 |Superficial spreading malignant melanoma of skin 392521001 |History of 301889008 |Excision of malignant skin tumor 47224004 |Skin of posterior surface of lower leg7771000 |Left 81827009 |Diameter 258673006 |millimeter 2.41 258403002 |Lymph node level IV 94339008 |Secondary malignant neoplasm of inguinal lymph nodes 15240007 |Current 2667000 |Absent St. p. TE eines exulc. sek.knot.SSM (C43.5) li US dors. 5/11 Level IV 2,4 mm Tumordurchm. Sentinnel LK ing. li. tumorfrei
Aspekte von Sprache, Terminologie und Semantik
Aspekte von Sprache, Terminologie und Semantik Morphologie Abkürzungen Komposita Terminologie, Ontologie Standards Formalismen Kontext Repräsentation von Information vs. Repräsentation von Realität
Abkürzungen systol. Funktion und eine red. Rechtsventrikelfunktion tablettenpflichtigem Diab.mell. II. Der Pat. Hr. Meier die thorax chirurg. Vorstellung. f. mikro- und makrovask. Komplikationen Einnahme von Concor. Regelm. Internistische Kons. AST, KÖF Linksseitig RGs St.p. PTCA und RCA Stent Stenose der der A. Subklavia 0 A. Digimerck verabreicht großer li Ventrikel m. leichter postero septal path way keine path Veränderungen lexikalisiert Punkt + Substring - ad hoc Punkt + Substring + Akronym Akronym Plural zwei Tokens Punkt + Substring + ad hoc Punkt - Substring + Kreuzthaler M, Schulz S. Detection of sentence boundaries and abbreviations in clinical narratives. BMC Med Inform Decis Mak. 2015;15 Suppl 2:S4
Abkürzungen einer Infektion mit Hepatitis A. ausgeprägte Stenose der A. auf Streptokokken vom Typ A. akuter Mangel an Vitamin A. Symptomatik haben wir 1 A. nach Verlegung auf Station 6 A. ein Adenokarzinom o. n. A. Ausschluss von Hämophilie A. Hierbei sind keine weiteren Subclavia, die eine Indikation Nicht ausgeschlossen ist, dass Wir empfehlen Substitution Digimerck verabreicht, um die Wir bedauern, ihnen keine diagnostiziert worden. Dabei Die Koagulopathie konnte bis
Abkürzung? Satzende? einer Infektion mit Hepatitis A. ausgeprägte Stenose der A. auf Streptokokken vom Typ A. akuter Mangel an Vitamin A. Symptomatik haben wir 1 A. nach Verlegung auf Station 6 A. ein Adenokarzinom o. n. A. Ausschluss von Hämophilie A. Hierbei sind keine weiteren Subclavia, die eine Indikation Nicht ausgeschlossen ist, dass Wir empfehlen Substitution Digimerck verabreicht, um die Wir bedauern, ihnen keine diagnostiziert worden. Dabei Die Koagulopathie konnte bis
Abkürzung? Satzende? einer Infektion mit Hepatitis A. ausgeprägte Stenose der A. auf Streptokokken vom Typ A. akuter Mangel an Vitamin A. Symptomatik haben wir 1 A. nach Verlegung auf Station 6 A. ein Adenokarzinom o. n. A. Ausschluss von Hämophilie A. Hierbei sind keine weiteren Subclavia, die eine Indikation Nicht ausgeschlossen ist, dass Wir empfehlen Substitution Digimerck verabreicht, um die Wir bedauern, ihnen keine diagnostiziert worden. Dabei Die Koagulopathie konnte bis
Abkürzung? Satzende? Klassifikationsproblem Featureextraktion Punkt ist Teil des linken Tokens, kein Satzende Punkt ist Teil des linken Tokens, Satzende Punkt ist nicht Teil des linken Tokens Satzende Featureextraktion Wortlänge Wortklasse Korpus Regeln Dictionary Verteilung
Abkürzungserkennung Klassifikation mittels SVN F1-Werte nach Methode (kumulativ) Baseline Regeln Statistik Scaling Corpus Länge Wortklasse Training 0.62 0.60 0.71 0.86 0.88 0.95 0.97 Test 0.83 0.96 0.93 Kreuzthaler M, Schulz S. Detection of sentence boundaries and abbreviations in clinical narratives. BMC Med Inform Decis Mak. 2015;15 Suppl 2:S4
Abkürzungsauflösung n C – Referenzcorpus B – Token - Bigrammliste aus C, nach absteigender Häufigkeit : B := [#, tk, tl] 1 a – "Punkt" Abkürzung (Input) For each bi in B if a == tki: b := tli; exit; a' := left(a, length(a) -1) For each bj in B if left(tkj, length(a')) == a' AND tki != a' and tlj == b output tkj; exit n "infiltr." "infiltr." "Gewebe" "infiltr" "infiltriertes" "Gewebe" "infiltriertes"
Dekomposition Ad-hoc-Komposita: Cholangiopankreatikographie Hausstaubmilbenphobie Phenylbutylpiperadinderivate Laryngotracheobronchoskopie hypothalamikohypophyseales Erscheinungsbild Phosphoethanolaminurie Chorionzottenbiopsietermin Hyperviskositätssyndrom
Dekomposition Ad-hoc-Komposita: Chol angio pankreat iko graph ie Hausstaub milb en phob ie Phenyl butyl piperadin derivate Laryng o trache o bronch o skop ie hypo thalamik o hypo phys eal es Erscheinung s bild Phosph o ethanol amin urie Chorion zotten biopsie termin Hyper viskosität s syndrom
Morphosemantik Galle Bauchspei-cheldrüse Ad-hoc-Komposita: Chol angio pankreat iko graph ie Hausstaub milb en phob ie Phenyl butyl piperadin derivate Laryng o trache o bronch o skop ie hypo thalamik o hypo phys eal es Erscheinung s bild Phosph o ethanol amin urie Chorion zotten biopsie termin Hyper viskosität s syndrom Gefäß Bild- gebung Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medical document retrieval. Int J Med Inform. 2000 Sep;58-59:87-99 Daumke P, Schulz S, Müller ML, Dzeyk W, Prinzen L, Pacheco EJ, Cancian PS, Nohama P, Markó K. Subword-based semantic retrieval of clinical and bibliographic documents. Methods Inf Med. 2010;49(2):141-7
Morphosemantische Analyse 0,65 D – D – Wortbasierter Index 0,6 D – D – Subwort- Synonymklassen 0,55 0,5 0,45 0,4 0,35 Morphosemantischer Parser Wortgrammatik als Endlicher Automat Output 1: Morpheme / Subwords (ohne Semantik) Output 2: Subwort-Äquivalenzklassen (mit Semantik), z.B. #heart = {"herz", "cor", "card"}DE 0,3 0,25 Precision 0,2 5,500 German documents 0,15 25 German topics 0,1 0,05 Terminologie / Ontologie 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Schulz S, Hahn U. Morpheme-based, cross-lingual indexing for medical document retrieval. Int J Med Inform. 2000 Sep;58-59:87-99 Daumke P, Schulz S, Müller ML, Dzeyk W, Prinzen L, Pacheco EJ, Cancian PS, Nohama P, Markó K. Subword-based semantic retrieval of clinical and bibliographic documents. Methods Inf Med. 2010;49(2):141-7 Recall
Terminologie und Ontologie
Terminologie und Ontologie Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand
Terminologie-Ökosystem (ASSESS CT) Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand Interface- Terminogien ~ Thesauren z.B. MeSH
Terminologie-Ökosystem (ASSESS CT) Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand Referenz- terminologien/ Ontologien z.B. SNOMED CT Reference Terminology / Ontologie RT1 RT2 RT3 Interface- Terminogien ~ Thesauren z.B. MeSH
Terminologie-Ökosystem (ASSESS CT) Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand AT3 Referenz- terminologien/ Ontologien z.B. SNOMED CT RT4 Reference Terminology / Ontologie AT2 Aggregations- terminologien/ Klassifikations- systeme z.B. ICD-10 RT1 AT1 RT2 AT4 RT3 Interface- Terminologien ~ Thesauren z.B. MeSH
"Ca" "Kalzium" "Calcium" "Ca" "Krebs" "Karzinom" Interfaceterminologie beschreibt Sprache einer Domäne beschreibt die Gegenstände einer Domäne Erweiterung erworbenes Escherichia coli externes Extrakt fähiges Faktor Färbung fetales Fistel Fixierung Flugzeug Flüssigkeit Form fremdes Fremdkörper Führung Galle Gang Gas Gebärmutter- Gebärmutterhals Gehirn gemeinsames gesamtes geschlossenes Geschwür Gesehenes Gesicht Gesundheit großes Gruppenantikörper gutartiges Hämoglobin Handgelenk Harn- Hepatitis Hernie Herz hohes Hohlraum Hormon Hüfte Hund I IgE IgE - Antikörper II Immunglobulin Impfstoff Implantat in in der Lage zu inferiores Infusion internes intervertebrales intrakranielles Kammer Kanal kardiales Katheter keines Kern Kind Klappe kleines Knie Knöchel Knoten Knoten Kolon kombiniertes Komplikation Kontrast Kontrolle Konzept Koronar- Koronararterie Lappen Laser Lebensmittel Leber Lenden- Linse Lippe lokales Lunge Luxation Lymphknoten Lymphknoten Lymphom Lymphozyt M Magen Magen- Magen- Darm- magnetisches Management männliches Maßstab mediales medizinisches Membran mittleres ml Injektionslösung multiples Mund Nadel Naht Nase Nasen- neonatales niedriges Niere Nieren- oberes oberes oberflächliches Oberschenkel- offenes offenes Ohr Operation Ort passives Patient peripheres perkutanes Pferd Phalanx Plasma Platzwunde positives primäres primäres Probe Probe Protein Prothese proximales Prozess Pulver r Rand Interfaceterminologie Ontologie "Ca" "Kalzium" "Calcium" [chemistry] 5540006 Calcium (substance) "Ca" "Krebs" "Karzinom" 68453008 Carcinoma (morphologic abnormality) [oncology]
SNOMED CT SNOMED CT: weltgrößte Medizinontologie ca. 300 000 Konzepte ca. 1,3 Millionen Tripel Kompositioneller Ansatz, basierend auf Beschreibungslogik EL++ Schulz S, Cornet R, Spackman K. Consolidating SNOMED CT's ontological commitment. Appl. Ontology, 2011 (6) 1, 1-11. Schulz S, Jansen L. Formal ontologies in biomedical knowledge representation. Yearb Med Inform. 2013;8:132-46.
Semiautomatische Erstellung einer Interface-terminologie für SNOMED CT Schulz S. Using language technology for SNOMED CT localization? SNOMED CT Expo, Montevideo 2015
Ontologie und Informationskontext
Ontologie und Informationskontext … es besteht Verdacht auf Herzinsuffizienz verursacht durch die ischämische Herzerkrankung Diagnosis Diagnose Organversagen Heart Failure Organ Herz Status Status Verdacht Suspected x Ursache ischämische Herzerkrankung Ja Nein k.A. Cause gemein-same formale Repräsen-tation ? Ischaemic heart disease V.a. Herzinsuff. ischäm. Genese Sospetto scompenso cardiaco a causa di ischemia DIAGNOSIS Suspected heart failure caused by ischaemic heart disease
Beispiel: formale Modellierung Drei unterschiedliche Repräsentation derselben Information Drei unterschiedliche Informationsmodelle SNOMED CT + BTL2 als gemeinsame Ontologie Organ Failure Diagnosis Organ Heart Status Suspected Caused by ischaemic heart disease Yes No Unknown Diagnosis Suspected heart failure caused by ischaemic heart disease x Heart Failure Cause Ischaemic heart disease Schulz S et al. An Ontological Analysis of Reference in Health Record Statements. 2014. S. 289-302. Martínez-Costa C, Cornet R, Karlsson D, Schulz S, Kalra D. Semantic enrichment of clinical models towards semantic interoperability. The heart failure summary use case. J Am Med Inform Assoc. 2015 May;22(3):565-76.
Ontologische "Typisierung" von Informationsentitäten The yellow comments represent what is each element of the form about. Together to the yellow comments, the corresponding representation in OWL DL according to the ontology previously presented is provided. The full definition of each form is only given by a combination of all the annotations,
Ontologische "Typisierung" von Informationsentitäten In this case we only will have to Description logics annotations: - is a Diagnoisis - is...
Ontologische "Typisierung" von Informationsentitäten Finally, these would be the comments and annotations for the third form...
Ontologische "Typisierung" von Informationsentitäten If we create now the three diagnosis instances, annotated by the OWL DL representations of each form (combinations of DL expressions) Diagnosis instances, e.g. the real clinical data as embedded into an information model are annotated by OWL-DL (T-Box) expressions.
Alle drei Informationsinstanzen gefunden DL-Klassifikation (FACT++ Reasoner) Anfrage The check for semantic equivalence can then be performed by e DL reasoner completely at the T-Box level. Queries could then be formulated as DL queries as the one shown in which we see how the three instances of diagnosis are found independently of the granularity in which the query is performed We are aware that in a system that supports comprehensive querying (including query by a series of metadata such as author, time, etc.) the DL query can only be part of a whole picture in which also other querying approaches are required. Alle drei Informationsinstanzen gefunden
Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz
Implementierung semantischer Technologien in Cbmed – Biomarker Research, Graz
Ressourcen für maschinelle Analyse geschriebener Sprache Terminologien / Lexika Fachtermini und deren Beziehungen, z.B. Synonyme: "SSMM" = "Superficially spreading malignant melanoma" Ontologien Axiomatische Beschreibungen, z.B. MitralValve subClassof partOf some Heart Grammatik / Regelwerke z.B. Wortbildungsregeln: "-itis" = Entzündung, "-ektomie": chirurgische Entfernung Textkorpora (z.B. Kliniktexte, Veröffentlichungen, Web) Annotierte Korpora: Wörter <-> Wortklassen, Textpassagen <-> Kontext (z.B. Diagnose, Familienanamnese, Labor, Medikation) Nicht annotierte Korpora: z.B. Worthäufigkeiten, Wortkollokationen Training probabilistischer Modelle Termiologiestandards: - SNOMED CT - LOINC Interface-Terminologien (anwendernah) Ressourcen für deutsche Sprache: unzureichend
Ausblick Gering strukturierte Texte in der elektronischen Krankenakte: oft einzige Informationsquelle oft verlässlicher und nachhaltiger als strukturierte Inhalte bisher wenige erschlossene "Goldmine" Liefert wertvolle Daten für Personalisierte Medizin Entscheidungsunterstützung Klinische Forschung ("phenotyping") Vorhersage Breites Spektrum an semantischen / linguistischen Ressourcen erforderlich Diese Ressourcen müssen auf die deutsche Medizinsprache zugeschnitten werden: beträchtlicher Aufwand Anlehnung an internationale Standards sinnvoll. Wichtigstes Beispiel: SNOMED CT als umfassende klinische Ontologie
Kontakt Stefan Schulz (Univ. Prof. Dr. med.) Institut für Medizinische Informatik, Statistik und Dokumentation stefan.schulz@medunigraz.at
Character of this lecture Introductory lecture for seminar on clinical data integration Educational goals: To understand the rationale for clinical data integration across disciplines, users and institutions To distinguish between structural and semantic criteria of clinical data To understand the role of biomedical informatics and international standardization in clinical data integration To be sensitized regarding ethical aspects of clinical data integration
Die Lehrprobe soll grundlegende Arten von medizinisch relevanten Daten (einschließlich klinischer Versorgungsdaten, medizinischer Bilddaten und Omics-Daten) erläutern. Darauf aufbauend soll erläutert werden, wie diese Daten unter Beachtung von regulatorischen und Sicherheitsaspekten semantisch integriert und analysiert werden können. Die Lehrprobe sollte auf Englisch gehalten werden, da auch die Lehre im Masterstudiengang „Medical Informatics“ in Englisch gehalten wird
Six examples of clinical data Clinical narrative Drug prescription Lab report Coded disorders and procedures Medical image Extract of gene sequence
IHTSDO: International Health Standards Development Organisation http://www.ihtsdo.org/
SNOMED CT as terminology Code + Fully Specified Name Synonyms
SNOMED CT as ontology Multiple subclass hierarchies (is-a) Ontology axioms: C1 – Rel – C2 triples interpreted as: (FOL) x: instanceOf (x, C1) y: instanceOf (C2) Rel (x, y) (DL) C1 subclassOf Rel some C2 Relations (OWL object properties ): e.g. Associated morphology Associated procedure Finding site
Open Biomedical Ontology (OBO) Foundry Suite of orthogonal interoperable reference ontologies in the biomedical domain http://www.obofoundry.org/
Open Biomedical Ontology (OBO) Foundry RELATION TO TIME GRANULARITY CONTINUANT OCCURRENT INDEPENDENT DEPENDENT ORGAN AND ORGANISM Organism (NCBI Taxonomy) Anatomical Entity (FMA, CARO) Organ Function (FMP, CPRO) Phenotypic Quality (PaTO) Biological Process (GO) CELL AND CELLULAR COMPONENT Cell (CL) Cellular Component (FMA, GO) Cellular Function MOLECULE Molecule (ChEBI, SO, RnaO, PrO) Molecular Function Molecular Process
Upper Level Ontologies Strict categorization through limited set of top classes and relations Example: BioTopLite Classes Relations Disposition Function Immaterial object Information object Material object Process Quality Role Temporal region Value region at some time includes has part has boundary has granular part has component part is bearer of causes has realization precedes has condition projects onto has participant has agent has patient has outcome is life of is referred to at time represents Stefan Schulz & Martin Boeker. "BioTopLite: An Upper Level Ontology for the Life Sciences Evolution, Design and Application." GI-Jahrestagung. 2013.
3. Contribute to develop existing standards / specifications Join communities that use common terminology / ontology specifications Contribute to development / maintenance Ontologies objective descriptions of a domain and not as application-specific knowledge bases (scientific realism*) Only express what is universally true Examples SNOMED CT OBO Foundry Upper-level ontologies (BFO, DOLCE, BioTop) Barry Smith (2004) Beyond Concepts: Ontology as Reality Representation. A. Varzi and l. Vieu, Proc. of FOIS 2004.
Adaptation of existing standards / specifications Create extensions of existing semantic resources Additional subclasses, interface terms Address specific use cases / contexts Add additional upper-level orderings, e.g. "Indication", "Phenotype", "Clinical Problem", orthogonal to existing top-level Refine ambiguous classes like Animal, Tree, Heart animal (biological) vs. animal (legal) tree (morphology) vs. tree (taxonomic) vs. tree (2nd growth) heart (anatomical) vs. heart (surgical)
Conclusion Semantic resources for Life Sciences: Large number, large heterogeneity (context, quality, formalisms) How to make best use of them? Linked Data / "little semantics" large-scale re-use only where low precision is tolerable Else: Building on a limited number of high-quality terminology standards / specification efforts, join communities, custom additions / refinements Refrain from building "yet another" ontology Value semantic interoperability
Thank you Stefan Schulz (Univ.-Prof. Dr. med.) Institut für Medizinische Informatik, Statistik und Dokumentation Medizinische Universität Graz, Auenbruggerplatz 2/V 8036 Graz (Austria) http://www.medunigraz.at/imi http://g.co/maps/aqedt 0043 316 385 16939 0043 316 385 13201 http://purl.org/steschu mailto:stefan.schulz@medunigraz.at Skype: stschulz
Universalien Individuen Symbole Aspekte des Wissens ❺ ❻ ❹ ❷ ❸ ❶ Hunde können Tollwut übertragen Hunde sind Wirbeltiere ❺ ❻ Individuen "Hund" und "perro" sind Synonyme Marley ist ein Hund Symbole ❹ Instantiierung ❷ Denotation "Hund" ist ein Substantiv Marley lebt in Florida ❸ Denotation ❶
Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen
❷ Relation Individuum - Universale Adriana Peterova Sigmund Jähn Anton Schrader Henriette Hirschfeld-Tiburtius Alois Alzheimer Friedrich Schmiedl
❷ Relation Individuum - Universale Sigmund Jähn { Klassenbildende Eigenschaften Lebender Mensch Technische Ausbildung Mindestens ein Aufenthalt im Weltraum Klasse: Astronaut
Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen
❸ Sprachliches Wissen: http://wordnetweb.princeton.edu/
❹ Thesaurus
Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen
Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen
❺ Taxonomien Homo Sapiens subclassOf Primate Primate subclassOf Vertebrate Class: Vertebrate Class: Primate Ziggy Anton Class: Homo S. Adriana Washoe Friedrich Koko Bobo
Übung: Taxonomie - Clinical Medicine - - Oncology - - - Cancer - - - - Lung - - - - Breast - - - - Prostate - - - - Colon - Geography - - Countries - - - BRIC Countries - - - - Brazil - - - - Russia - - - - India - - - - China
Übung: Korrektur - Clinical Medicine - - Oncology - - - Cancer - - - - Lung - - - - Breast - - - - Prostate - - - - Colon - Clinical Disease - - Oncologic Disease - - - Cancer - - - - Lung Cancer - - - - Breast Cancer - - - - Prostate Cancer - - - - Colon Cancer
Übung: Übung: Korrektur - Geography - - Countries - - - BRIC Countries - - - - Brazil - - - - Russia - - - - India - - - - China - Geographical Entity - - Country - - - BRIC Country (Members: Brazil, Russia, India, China)
❺ Partitionen Homo Sapiens subclassOf not (Chimpanzee) Class: Primate Class: Homo S. Class: Chimpanzee.
❺ Aristotelische Definitionen Viral Hepatitis equivalentTo Viral Infection and locatedIn some Liver Class: Viral Infection Class: Viral Hepatitis Class: Liver locatedIn Notwendige und hinreichende Bedingungen
❻ Kontingentes Wissen Vioxx® lindert Schmerzen Vioxx® verursacht Herzinfarkt Vioxx® ist Mittel der Wahl bei rheumatischer Arthritis (2002) Vioxx® ist als Arzneimittel verboten (2005) Vögel können fliegen Pinguine sind Vögel Pinguine können nicht fliegen Rauchen verursacht Lungenkrebs Helmut Schmidt raucht seit 85 Jahren Helmut Schmidt hat keinen Lungenkrebs Österreich ist kein Erdbebengebiet 1972 schweres Erdbeben in Seebenstein Seebenstein liegt in NÖ NÖ liegt in Österreich
Welches Wissen ist nachhaltig ? Ontologisches Wissen: Was ausnahmslos als wahr betrachtet wird Kontingentes Wissen: Was typisch, wahrscheinlich oder möglich ist Sprachliches Wissen: Aussagen über Aufbau und Bedeutung sprachlicher Zeichen Faktenwissen: Aussagen über konkrete Dinge und ihre Beziehungen
Vorteile von SNOMED CT Standardisierte Beschreibung medizinischer Sachverhalte Präziseres Wiederfinden von Krankheitsfällen "Diabetiker mit Parkinson, die keine Dopaminagonisten einnehmen und als Fahrzeuglenker bei einem Unfall verletzt wurden Automatisierte Entscheidungsunterstützung Automatische Wissensakquisition aus PatientInnendaten
Andere biomedizinischen Ontologien Ontologien in der Wissenschaft Andere biomedizinischen Ontologien ChEBI: Chemische Entitäten GO (Gene Ontology) Cell Component Molecular Function Biological Process FMA: Foundational Model of Anatomy
Beispiel Gene Ontology
Gesellschaftliche Aspekte Nachhaltige Wissensinhalte Inhalte, die sich nicht verändern, und daher als stabiles Fundament für Wissenskonstruktionen dienen Wissensquellen, die allgemein zugänglich sind Wissensinhalte, die durch Partikularinteressen abgeschirmt sind, stehen der nachhaltigen Nutzung im Weg
Beispiel terminologische / ontologische Standards SNOMED CT: Internationaler Standard, verwaltet von gemeinnütziger NGO (IHTSDO) Routinenutzung lizenzpflichtig Affiliate Licence Mitgliedschaft (auf nationaler Ebene) Österreich ca. 200.000 €/Jahr Österreich ist bisher kein Mitglied, Einführung fraglich
Beispiel Industriestandards
Diskussion Vorteile genormter Ontologien und Terminologien: Stabile Benennungen Logische Begriffsdefinitionen, präziser als sprachliche Definitionen Genaue Abgrenzung "fließender" Begriffe "Schokoladenpizza": Kuchen oder Pizza? 13-jähriger: Kind oder Jugendlicher Interoperabilität über Disziplinen und Sprachen hinweg Widersprüche können maschinell aufgedeckt werden Plädoyer: Genormte Ontologien und Terminologien als Gemeingut zu behandeln
Six examples of clinical data Hydroxyzin 25 mg 1-0-1 Cinacalcet Tabletten 35 mg 1 x 1 Fluoxetin 10 mg 1-1-1 Magnesium FT 150 mg 1-0-1 Nitroglycerin retard 2,5 mg Kps. 0-1-1 Nitroglycerin-Pumpspray bei Bedarf Amantadine 1-1-0 Allopurinol 300 mg jeden 2. Tag eine ½ Tablette (zuletzt am 30.11.2009) Mefenaminsäure 500mg bis 3xtgl. bei Schmerzen unter gleichzeitiger Einnahme eines Magenschutzes z.B. Pantoprazol 40mg.
ICD codes structured and coded shared models of meaning lab data local data models implicit meaning semi-structured tags unstructured
Implicit meaning Local metadata Global metadata Structured data semi-structured data structuring tags or markers more flexible less predefinition unstructured data content only no predefinition
Clinical data by Structure data models predefined attributes and values data model structured data semi- unstructured data structuring tags or markers more flexible less predefinition content only no predefinition
Clinical data by Semantics 10 mg 1-1-1 150 mg 1-0-1 25 mg 1-0-1 81 kg 1,69m 125/80, 76/min GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACCA RegEx: "\d{1,4}\ ?mg\ +[01]-[01]" ICD-10-2016: D22.5: Melanocytic nevi of trunk male = 1 female = 2 other = 3 unknown = 4 Hidden Implicit Local Global locally defined metadata / ontologies globaly defined metadata / ontologies standards signals no symbolic meaning symbolic meaning common sense
Clinical data by Semantics structured data semi- unstructured data 10 mg 1-1-1 150 mg 1-0-1 25 mg 1-0-1 RegEx: "\d{1,4}\ ?mg\ +[01]-[01]" Hidden Implicit Local Global locally defined metadata / ontologies globaly defined metadata / ontologies standards signals no symbolic meaning symbolic meaning common sense
Clinical data by Semantics structured data semi- unstructured data