Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Sabine Eggen Geändert vor über 11 Jahren
1
Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte
Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
2
Elektronische Patientenakte
Natürliche Sprache Strukturierte Daten If we look at how content is presented in the HER, so we have these two
3
Natürliche Sprache
7
Natürliche Sprache Structured Data … unverzichtbar für
Kommunikation zwischen Mitarbeitern des Gesundheitswesens Klinische Dokumentation Wissenschaftliche Kommunikation Wissenschaftliches Publikationswesen Vermittlung kanonischen Wissens an Fachleute, Studierende und Laien Natürliche Sprache Structured Data
8
Natürliche Sprache nur für das Universitätsklinikum Freiburg (p.a.)
Arztbriefe Radiologiebefunde Pathologiebefunde Operationsberichte sonstige Texte Natürliche Sprache
9
Strukturierte Daten
10
Strukturierte Daten …unverzichtbar für
Kodierung von Diagnosen und Prozeduren, DRGs Krankheitsspezifische Register Qualitätssicherung, Controlling Klinische und epidemiologische Studien Gesundheitsbericht- erstattung Dokumentenindexierung und Retrieval etc. Strukturierte Daten
11
Epidemiologie (Morbidität, Mortalität)
12
Krebsregister
13
Pauschalierte Entgeltsysteme
15
…erfordern medizinische Terminologiesysteme
ICD OPS 301 SNOMED LOINC MeSH etc., etc. Strukturierte Daten
16
Natürliche Sprache Strukturierte Daten
17
+ - + - Qualität Kosten Natürliche Sprache Strukturierte Daten
Erfassung von Daten : Natürliche Sprache + - Strukturierte Daten + Qualität Kosten -
19
Abhängigkeit: Datenmenge – Datenqualität - Motivation
Goldstandard Datenqualität Hohe Motivation Geringe Motivation Keinerlei Motivation Datenmenge
20
+ - Qualität Kosten - + Natürliche Sprache Strukturierte Daten
Auswertung von Daten Natürliche Sprache Strukturierte Daten + - + Qualität Kosten -
21
Natürliche Sprache Strukturierte Daten
22
Automatische Verarbeitung medizinischer Sprache
Natürliche Sprache Strukturierte Daten
23
Auffälligkeiten der Medizinsprache
Sprachmix: Deutsch / English / Lateinisch Unterschiedliche Sprachebenen: Ärzte- vs. Laiensprache „Pankreas“, „Pneumonie“, „Sectio vs. Bauchspeicheldrüse“, „Lungenentzündung“, „Kaiserschnitt“ Griechisch/Lateinische Wordstämme, Lateinische Flexionen: „Thyreoglobulin“, „Ulzera“, „E.coli“, „Kolibakterien“ Hohe lexikalische Produktivität: Komposita: „Bypassoperation“, „Kaliumüberdosierung“ Eponyme: „Parkinsonsche Erkrankung“, „M. Alzheimer“ Akronyme, Wortneubildungen: „SARS“, „AIDS“, „ARDS“, „5-FU“, „HWI“, „ „psbAI“, „GGDEF“, „WDWN“ Paragrammatikalität / Jargon: „Kein Anhalt für Malignität“. „Cor, Pulmo o.B“. Agrammatikalität (Diktier-, Schreibfehler): „Diarhoe“, „Appendectomie“, „HWS Syndrom“, „Hinterwndinfarkt“ Extragrammatikalität: „Gewebe wurde lymphoztyär infiltriert“
24
Typische Anwendungsszenarien (I)
Ich brauche relevante Dokumente zu einer klinischen Fragestellung Ich brauche relevate Fakten zu meinem Problem Ich brauche den passenden Code Ich möchte mir ansehen, wie ähnliche Fälle behandelt worden sind. Ich möchte mehr über meine Krankheit wissen
25
Typische Anwendungsszenarien (II)
Ich muss ein Formular ausfüllen, obwohl die Daten längst im System sind Ich möchte Patientendaten für Lehrzwecke aufbereiten Ich muss fremdsprachige Texte durchsuchen Ich hätte gerne konkrete Phänotypdaten, um meine Hypothesen zu belegen Ich will in meinen Patientenakten suchen
26
Im Wesentlichen zwei Hauptszenarien
Text Retrieval: gezieltes Suchen nach Informationen in einem oder mehreren großen Informationssammlungen. Text Mining: Technologien, die es ermöglichen, relevante und „neue“ Information in unstrukturierten Texten automatisch zu erkennen und zu extrahieren
27
Zwei Textanalyse-Paradigmen
Text Retrieval Text Mining
29
Text Retrieval
30
Text / Information Retrieval
31
Medizinische Terminologies: Schlechte Retrievalergebnisse
Trefferhäufigkeit bei Google - Anfgragen Schreibvarianten, Flexionen, Synonyme Kolonkarzinom 2070 1780 Colonkarzinom Coloncarcinom Colon-Ca Kolon-Ca Dickdarmkrebs Dickdarmkarzinom Dickdarmcarcinom Kolonkarzinoms Kolonkarzinome Kolonkarzinomen 248 111 203 66 4000 288 275 265 135 73 169 46 3610 175 139 166 Anzahl der Treffer Anzahl der ausschließlichen Treffer
32
Beispiel: Sprachübergreifendes Dokumentenretrieval: MorphoSaurus
Subwort-Lexikon: Organisiert Subwörter in mehreren Sprachen Subwort-Thesaurus: Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) Zerlegungsalgorithmus: Extraktion von Subwörtern und Zuweisung von Äquivalenzklassen Morphosaurus In unserem System benutzen wir sprachspezifische Lexika, welche – grob gesagt- Wortstämme und Affixe verwalten. Die Einträge im Lexikon sind oberhalb der Ebene von Morphemen und unterhalb der Ebene von Wörtern angesiedelt, weshalb wir von „Subwörtern“ sprechen. Zur Zeit existieren Lexika für Deutsch, Englisch und Portugiesisch. Subwörter werden in einem Subwort-Thesaurus organisiert, welcher synonyme Lexikoneinträge innerhalb einer Sprache, aber auch sprachübergreifend, zu Äquivalenzklassen gruppiert. Desweiteren haben wir einen Segmentierungsalgorithmus implementiert, welcher Eingabewörter in Subwörter zerlegt und entsprechend des Thesaurus Äquivalenzklassen zuweist. Alle drei Komponenten zusammen bilden das Morphosaurus System – ein Akronym für Morpheme und Thesaurus. Äquivalenzklassen nennen wir entsprechend Morphosaurus-Identifier - oder kurz – MIDs. KLICK Morphosaurus- Identifier (MID)
33
MID
34
MorphoSaurus: Sprachübergreifendes med
MorphoSaurus: Sprachübergreifendes med. Dokumentenretrieval (Deutsch / Englisch) Hahn, Schulz et al., RIAO 2004
35
Text Mining: Anwendungsszenario I
36
Text Mining: Anwendungsszenario I
shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count /µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin ( ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a left anterior mediastinal mass . Based on these findings, the patient was diagnosed with a mediastinal tumor accompanied by AMoL. First, in June 1991, the patient was treated with DCMP therapy: daunorubicin (DNR) (25 mg/m2, days 1, 2, 3, 4, 6 and 8), cytosine arabinoside (Ara-C) (100 mg/m2, days 1-9), 6MP-riboside (6-MP) (70 mg/m2, days 1-9) and prednisolone (PSL) (20 mg/m2, days 1-9), followed by five courses of consolidation chemotherapy [1, DCMP; 2, ID-Ara-C:adriacin (ADR), vincristine (VCR), Ara-C, PSL; 3, DCMP; 4, ID-Ara-C; 5, A-triple V: Ara-C, VP-16, VCR, vinblastine (VBL)]. After induction chemotherapy, a hematological examination and bone marrow findings had improved to normal, and complete remission was attained. Chest CT scan after chemotherapy in November 1991 revealed regression of the mediastinal tumor . An invasive thymic tumor was suspected and surgery was undertaken in January The tumor (50 × 45 × 45 mm), located mainly in the anterior mediastinum, was strongly adhered to the adjacent tissues. Resection of the tumor included the left upper lobe of the lung, the phrenic nerve and pericardium. The histological finding was that the tumor cells have large, vesicular nuclei and prominent nucleoli, but keratinazation was unclear . The results of immunohistochemical finding of anti-TdT was negative. From these findings, we diagnosed poorly or moderately differentiated squamous cell carcinoma of the thymus. The postoperative course was uneventful. The patient underwent radiation therapy of the mediastinum and left hilum at doses of 4000 cGy delivered over 4 weeks. She was discharged in March After the first AMoL remission, the patient suffered a relapse six times and was repeatedly admitted for chemotherapy. During these periods, chest X-ray and CT revealed no recurrence of the mediastinal tumor. During her tenth admission, the patient developed pneumonia during chemotherapy and died in October No autopsy was performed. Tumorregister - Template Datum Erstdiagnose Primärloka- lisation Grading Staging Morphologie Datum Ersttherapie Chemotherapie Bestrahlung
37
Text Mining: Anwendungsszenario II
Milde und Schwere Verlaufsformen: Epidermolysis bullosa simplex (EBS), Epidermolysis bullosa dystrophica (EBD) Risikoabschätzung von Tumorentstehung durch Genotyp-Phänotyp-Korrelationen bei Epidermolysis bullosa dystrophica Epidermolysis bullosa: Gruppe von genetischen Hautkrankheiten mit Mutationen in Genen für Strukturproteine der dermo-epidermalen Basalmembranzone. Inzidenz: 1 / Geburten. Minimale Traumata führen zu Blasenbildung an Haut und hautnahen Schleim-häuten, Abheilung der dadurch entstandenen Wunden führt oft zur Narben-bildung und ggf. zu Verwachsungen, die auch Kontrakturen bedingen können.
38
Text Mining: Anwendungsszenario II
EB dystrophica (EBD) mehr als 300 unterschiedliche Mutationen des Kollagen VII Gens publiziert und/oder in den Mutations-Datenbanken, mehrere Hundert weitere, noch nicht bekannte Mutationen. Ziel des Text Minings: Verbesserung der Prognosestellung — Auffinden bislang unentdeckter Korrelationen zwischen Art und Lokalisation der Genmutation und des klinischen Langzeitverlaufs sowie der Erkennung maligner Entartungen Abgleichen der Daten in der Literatur, in Mutations-Datenbanken, in eigenen Laborbefunden etc. in internen und externen klinischen Dokumenten
39
Methoden, Werkzeuge und Ressourcen automatischer Sprachverarbeitung
40
Architektur eines Biomedizinischen Textanalyse-Kernsystems
ended Ending Pregnancy P-patient E-patient Pregnancy Mother infection pregnancy E-agent P-co-patient Infection Baby a severe the IF ... Pregnancy & inf. THEN ... mortal danger I-degree end + edPastTense severe * The baby survived Syntactic Processor Morphological Processor Semantic Interpreter Inference Engine Lexikon Grammatik Regelbasis Domänen ontologie POS-annotierte Korpora, Treebanks, Proposition Banks
41
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer)
42
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger
43
Ausgeprägt multiple Oberschenkelhämatome beidseits .
ADJD ADJA NN ADV ST
44
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser
46
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien
47
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln
49
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition)
50
Named Entity (NE) Tagging
Nach Rücksprache mit dem Hepatologen Prof. <NE>Leber</NE> haben wir der Patientin die nochmalige Kontrolle der Hepatitis-Serologie im Dezember 2004 nahegelegt. Von der von Frau <NE>Lüdenscheid</NE> gewünschten Nachsorge in der <NE>Schwarzwaldklinik</NE> haben wir ihr strikt abgeraten. Mit freundlichen, kollegialen Grüßen Prof. Dr. <NE>Baum</NE>, Dr. <NE>Herz</NE>
51
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert)
52
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert) Machine learning – Verfahren, e.g. SVM
53
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert) Machine learning – Verfahren, e.g. SVM Evaluationsstandards
54
Methoden, Werkzeuge und Ressourcen
Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Grammatiken, Ontologien Semantische Interpretationsregeln Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert) Machine learning – Verfahren, e.g. SVM Evaluationsstandards
55
Paradigmenwechsel in der Computerlinguistik
Regelbasiert, KI Stochastisch, ML
56
Herausforderung für medizinische Sprachverarbeitung
Sehr große Textmengen Hohe Anforderungen an Datenschutz Lexikalische Produktivität Ambiguität Lexikalisch: Bruch (Hernie) vs. Bruch (Fraktur) Syntaktisch: z.B. Anbindung von PPs “[es wurde] [ Magenschleimhaut vom Antrumtyp ] [erfasst]” “[es wurde] [ Magenschleimhaut] [vom Antrumtyp erfasst]” Semantisch, z.B. Skopus von Quantoren, Negationen, Koordinationen, Gradaussagen Jede Probe wies einen erhöhten PH-Wert auf Komplexität, Berechenbarkeit, z.B. Dependenzgrammatiken: NP-vollständig Prädikatenlogik höherer Ordnung, Modallogiken: unentscheidbar Kombination mit medizinischen Terminologiesystem Integration von symbolischen und stochastischen Ansätzen
57
Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung
Goldstandard Datenqualität Hohe Motivation Geringe Motivation Keinerlei Motivation Datenmenge
58
Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung
Goldstandard Datenqualität Hohe Motivation 2005 Geringe Motivation Keinerlei Motivation Datenmenge
59
Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung
Goldstandard Datenqualität 20?? 200? Hohe Motivation 2005 Geringe Motivation Keinerlei Motivation Datenmenge
60
Aktivitäten MI Freiburg
EU 6th Framework : Network of Excellence “SemanticMining” (Semantic Interoperability and Data Mining in Biomedicine): – 2006, 25 Partner Gründung: AMIA Working Group Group KR-SIG “Formal (Bio)medical Knowledge Representation”, 2003 Veranstalter: Workshop KR-MED 2004 in Whistler/Canada, Juni 2004 Initiative BioTem (Zentrum für biomedizinisches Text Mining) Veranstalter: Konferenz SMBM 2005 (Semantic Mining in Biomedicine), in Cambridge UK, April 2005 Veranstalter: GMDS 2005 in Freiburg
61
Natürlichsprachliche Systeme als Mehrwert für die Elektronische Krankenakte
Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg
Ähnliche Präsentationen
© 2025 SlidePlayer.org Inc.
All rights reserved.