Automatische Verarbeitung medizinischer Sprache

Slides:



Advertisements
Ähnliche Präsentationen
Pop Jazz C B A Jazz C A Lehrstuhl für Künstliche Intelligenz
Advertisements

Maschinelle Lernverfahren für IE und TM 1 Topic Detection.
Unterstützen Klinikinformationssysteme Forschung und Lehre ?
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
DEPARTMENT FÜR INFORMATIK
study of medicine no obligatory training content in almost all medical schools (universities) in Germany elective subject for medical students during.
Nachweis von prostataspezifischen Transkripten in regionären Lymphknoten von Patienten mit Prostatakarzinom U. Fiedler, A. Manseck, R. Kranz, M. Wirth.
Doris Kocher, PH Freiburg
- eine seltene Differenzialdiagnose
Bewegungskorrektur von 3D-PET/CT-Daten mit optischen Fluss-Verfahren
Grundkurs Linguistik Programm der Vorlesung Oktober
HAW-Hamburg Artem Khvat Artem Khvat Project Ferienclub HAW-Hamburg Masters SO 05/06.
Stefan Schulz, Susanne Hanser, Rüdiger Klar
Qualitätssicherung der stationären Versorgung mit Routinedaten
Bettina Busse, Albrecht Zaiß Universitätsklinikum Freiburg
Stumme Ischämie beim Diabetiker: Behandeln? Wenn Ja, wie?
Diplomarbeitsvortrag Ontologien, Information Extraction und Information Retrieval – eine Synthese Marcus Heidmann in Zusammenarbeit mit AIFB &
Entitäten Extraktion Einführung
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Knowledge Discovery mit Wordnet und Alembic Workbench
Stammzell-Transplantationen in Düsseldorf
Leitlinien zum Einsatz von Coxiben
Medizinische Informatik 2. Daten-Information-Wissen
Projektgruppe Vernetzte Arztbriefschreibung
Prof. Dr. med. Annette Hasenburg Dr. med. Maximilian Klar, MPH
Diagnostik und Risikostratifizierung im kardiovaskulären Kontinuum (und darüberhinaus) - Wie einfach darf es sein Martin Hülsmann.
Arbeitsgruppe Medizinische Informatik Stefan Schulz.
Neue Therapiemöglichkeiten beim Typ 2 Diabetes
Journal Club 9. Juni 2008 Dr. med. Hans Muster.
Thesen zur Positionierung der Medizinischen Informatik in Deutschland Stefan Schulz, Freiburg.
Deutsch Eins
Feedback from WWW )18-22 mai )sheraton hotel and towers congress center, new york city, USA 3)keine teilnehmerliste, meine schätzung: ca.
Plötzlicher Herztod – Definition (I)
Integration existierender digitaler Bibliotheken in Lernumgebungen LEBONED (Learning Environment Based On Non Educational Digital Libraries) Dipl.-Inform.
Stefan Schulz Abteilung Medizinische Informatik
Universität StuttgartInstitut für Wasserbau, Lehrstuhl für Hydrologie und Geohydrologie Copulas (1) András Bárdossy IWS Universität Stuttgart.
Pfad Akt.Nr.: xxxx/xxxxx/xxxx Analyse Medizinischer Freitexte Lukas Faulstich, ID GmbH & Co. KGaA Projekttreffen ByMedConnect | München,
© Copyright SEMCARE Consortium Kurzpräsentation für Vollversammlung MUG-IMI, Stefan Schulz, Markus Kreuzthaler Semantic Data Platform.
Semantic Interoperability for Health Network of Excellence 7. März 2012 Stefan Schulz, Catalina Martínez-Costa Institut für Medizinische Informatik, Statistik.
Praxis für Nierenerkrankungen und Diabetes Bochum
September 29th 2008 Dr. Bernhard Schmidt Lehrstuhl für Allgemeine Pädagogik und Bildungsforschung der LMU Perception of Age, Expectations of Retirement.
How effective are heart valve transplants from organ donors of years of age K. Grosse 1, R. Meyer 2, C. Wesslau 3, D. Bösebeck 1, R. Hetzer 2, G.
KIT – die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) The dependence of convection-related parameters on surface and.
Artelon Überblick Small Bone Innovations Deutschland GmbH Dirk Dembski
J. Neymeyer, T. Wülfing, W. Abdul-Wahab Al-Ansari, A. Apostolidis, S
Time and Dates. Telling time To ask: What time it is? Wie spät ist es? Wie viel Uhr ist es?
GATE/Annie Zara Kanaeva, November 2002, Information Extraction.
Standortbestimmung und Perspektiven der Medizinischen Informatik als Wissenschaftliche Disziplin Stefan Schulz Arbeitsgruppe Medizinische Informatik.
Semantische Aufwertung der elektronischen Patientenakte durch wissensbasiertes Text-Mining Priv. Doz. Dr. med. Stefan Schulz Abteilung Medizinische Informatik.
Nuklearmedizinsche Klinik und Poliklinik Klinikum rechts der Isar Technische Universität München Image reconstruction, MR-based attenuation correction,
Adjektive + Komparativ
Montag den 8. Juni Lernziel:- To launch a project and receive results.
Indikationen zur Protonen-Strahlentherapie bei ZNS Tumoren
Kapitel 7 Grammar INDEX 1.Comparison 2.Adjectives 3.Adjective Endings Following Ein-Words.
Kapitel 9 Grammar INDEX 1.Formal Sie- Command 2.There Is/There Are 3.Negation: Nicht/Klein.
Prof. Peter Mustermann | Institut xxxxx | Seite 1 Dr. Lothar Naumann | Institute of Radiation Physics | Timing RPC for prompt gamma.
MEDLINE MEDLINE = MEDLARS online = Medical Literature Analysis Retrieval System.
Klinik und Poliklinik für Augenheilkunde Morphology, Accuracy, and Histology of Corneal Flap Cuts Using a 200 kHz Femtosecond Laser Augenklinik, Klinikum.
Interrogatives and Verbs
Volume 1, Chapter 9.
Van der Meer AJ, Feld JJ, Hofer H J. Hepatol Oct 22
St. Elisabeth Krankenhaus
Expressing dates auf deutsch…
LOST and FOUND: Fremdkörper im Becken
Process and Impact of Re-Inspection in NRW
Der Kalender L3 GERMAN PRIMARY 5.
Kapitel 5 INDEX Possessive Adjectives Grammar.
PP 1.3 das Wetter und die Kleidung
Kapitel 4-Stufe 1 Wortschatz-Deutsch R.
DDKI Digitale Dokumentation Kommunaler Infrastruktur Dipl.- Ing. Hugo Fuchs Görzer Allee Klagenfurt Austria Tel: +43 (0)
 Präsentation transkript:

Automatische Verarbeitung medizinischer Sprache Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg Automatische Verarbeitung medizinischer Sprache

Natürliche Sprache Strukturierte Daten Medizinische Inhalte If we look at how content is presented in the HER, so we have these two

Natürliche Sprache

Natürliche Sprache Structured Data … unverzichtbar für Kommunikation zwischen Mitarbeitern des Gesundheitswesens Wissenschaftliche Kommunikation Klinische Dokumentation Wissenschaftliches Publikationswesen Vermittlung kanonischen Fachwissens an Fachleute, Studierende und Laien Natürliche Sprache Structured Data

Strukturierte Daten …unverzichtbar für Kodierung von Diagnosen und Prozeduren, DRGs Klinische und epidemiologische Studien Gesundheitsbericht- erstattung Krankheitsspezifische Register Qualitätssicherung, Controlling Dokumentenindexierung und Retrieval etc. Strukturierte Daten

…erfordern medizinische Terminologiesysteme Strukturierte Daten ICD OPS 301 SNOMED LOINC MeSH etc., etc.

Natürliche Sprache Strukturierte Daten

Schwerpunkt: Erfassung von Daten Natürliche Sprache + - Strukturierte Daten + Qualität Kosten -

Abhängigkeit: Datenmenge – Datenqualität - Motivation Goldstandard Datenqualität Hohe Motivation Geringe Motivation Keinerlei Motivation Datenmenge

Schwerpunkt: Auswertung von Daten Natürliche Sprache Strukturierte Daten + - Qualität Kosten + -

Natürliche Sprache Strukturierte Daten

Automatische Verarbeitung medizinischer Sprache Natürliche Sprache Strukturierte Daten

Automatische Verarbeitung medizinischer Sprache Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg Automatische Verarbeitung medizinischer Sprache

Automatische Verarbeitung medizinischer Sprache speech content Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg Automatische Verarbeitung medizinischer Sprache

Automatische Verarbeitung medizinischer Sprache speech content Stefan Schulz Abteilung Medizinische Informatik Universitätsklinikum Freiburg Automatische Verarbeitung medizinischer Sprache

Auffälligkeiten der Medizinsprache Sprachmix: Deutsch / English / Lateinisch Unterschiedliche Sprachebenen: Ärzte- vs. Laiensprache Griechisch/Lateinische Wordstämme, Lateinische Flexionen: Thyreoglobulin, Ulzera, E.coli, Kolibakterien Hohe lexikalische Produktivität: Komposita: Bypassoperation, Kaliumüberdosierung Eponyme: Parkinsonsche Erkrankung, M. Alzheimer Akronyme, Wortneubildungen: SARS, AIDS, ARDS, 5-FU, HWI, psbAI, GGDEF, WDWN Paragrammatikalität / Jargon: Kein Anhalt für Malignität. (Unvollständiger Satz) Agrammatikalität (Diktier-, Schreibfehler) Extragrammatikalität: Gewebe wurde lymphoztyär infiltriert

Zwei Hauptszenarien der medizinischen Textanalyse Information Retrieval: gezieltes Suchen nach Informationen in einer oder mehreren großen Informationssammlungen. Text Mining: Technologien, die es ermöglichen, relevante und „neue“ Information in unstrukturierten Texten automatisch zu erkennen und zu extrahieren

IR vs. TM Information Retrieval

IR vs. TM Information Retrieval Text Mining

Information Retrieval

Beispiel: Sprachübergreifendes Dokumentenretrieval: MorphoSaurus Subwort-Lexikon: Organisiert bedeutungstragende Wortstämme und Affixe in mehreren Sprachen Subwort-Thesaurus: Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) Zerlegungsalgorithmus: Extraktion von Subwörtern und Zuweisung von Bedeutungsklassen Morphosaurus In unserem System benutzen wir sprachspezifische Lexika, welche – grob gesagt- Wortstämme und Affixe verwalten. Die Einträge im Lexikon sind oberhalb der Ebene von Morphemen und unterhalb der Ebene von Wörtern angesiedelt, weshalb wir von „Subwörtern“ sprechen. Zur Zeit existieren Lexika für Deutsch, Englisch und Portugiesisch. Subwörter werden in einem Subwort-Thesaurus organisiert, welcher synonyme Lexikoneinträge innerhalb einer Sprache, aber auch sprachübergreifend, zu Äquivalenzklassen gruppiert. Desweiteren haben wir einen Segmentierungsalgorithmus implementiert, welcher Eingabewörter in Subwörter zerlegt und entsprechend des Thesaurus Äquivalenzklassen zuweist. Alle drei Komponenten zusammen bilden das Morphosaurus System – ein Akronym für Morpheme und Thesaurus. Äquivalenzklassen nennen wir entsprechend Morphosaurus-Identifier - oder kurz – MIDs. KLICK Morphosaurus- Identifier (MID)

MID

MorphoSaurus: Sprachübergreifendes med MorphoSaurus: Sprachübergreifendes med. Dokumentenretrieval (Deutsch / Englisch) Hahn, Schulz et al., RIAO 2004

Text Mining

HL7 KIS Administrative Daten Text-Mining- System (klinikintern) num. Daten (Labor) KIS Stammdaten Administrative Daten Freitexte Arztbriefe, Befundberichte, OP-Berichte, Arzneiverordnungen 459300402 GGT ALAT ASAT 2004-09-02 12 2,5 3,4 2004-09-03 13 1,9 1,8 2004-09-03 13 0,6 0,7 Text-Mining- System (klinikintern) HL7 sich wahrscheinlich im Stadium der Ausheilung der Hepatitis-B-Virusinfektion. Nach Rücksprache mit dem Hepatologen Prof. Leber haben wir der Patientin die nochmalige Kontrolle der Hepatitis- Serologie im Dezember 2004 nahegelegt. Von der von Frau Lüdenscheid gewünschten Nachsorge in der Schwarzwaldklinik haben wir ihr strikt abgeraten. mit freundlichen, kollegialen Grüßen Prof. Dr. Baum, Dr. Herz ID: 459300402 Lüdenscheid, Iris * 12.12.1961 79138 Waldkirch AOK Südl. Oberrhein 459300402 Falldaten manuell kodierte Diagnosen+ Prozeduren sich wahrscheinlich im Stadium der Ausheilung der Hepatitis-B-Virusinfektion. Nach Rücksprache mit dem Hepatologen Prof. Hagedorn haben wir der Patientin die nochmalige Kontrolle der Hepatitis- Serologie im Dezember 2004 nahegelegt. Von der von Frau Schindler gewünschten Nachsorge in der Nordseeklinik haben wir ihr strikt abgeraten. mit freundlichen, kollegialen Grüßen Prof. Dr. Klaus, Dr. Fuchs num. Daten (Labor) B16.9 F32.0 K70.0 Freitexte Arztbriefe, Befundberichte, OP-Berichte, Arzneiverordnungen ID: 333400112 Schindler, Elisabeth * 13.01.1959 33733 Bielefeld AOK Westfalen-Lippe Falldaten 2004-09-02 12 2,5 3,4 2004-09-03 13 1,9 1,8 2004-09-03 13 0,6 0,7 GGT ALAT ASAT (semi)automatische Pseudonymisierung Stammdaten 333400112 B16.9 F32.0 K70.0 Text-Mining- System (klinikextern)

Text Mining: Anwendungsszenario I shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a left anterior mediastinal mass . Based on these findings, the patient was diagnosed with a mediastinal tumor accompanied by AMoL. First, in June 1991, the patient was treated with DCMP therapy: daunorubicin (DNR) (25 mg/m2, days 1, 2, 3, 4, 6 and 8), cytosine arabinoside (Ara-C) (100 mg/m2, days 1-9), 6MP-riboside (6-MP) (70 mg/m2, days 1-9) and prednisolone (PSL) (20 mg/m2, days 1-9), followed by five courses of consolidation chemotherapy [1, DCMP; 2, ID-Ara-C:adriacin (ADR), vincristine (VCR), Ara-C, PSL; 3, DCMP; 4, ID-Ara-C; 5, A-triple V: Ara-C, VP-16, VCR, vinblastine (VBL)]. After induction chemotherapy, a hematological examination and bone marrow findings had improved to normal, and complete remission was attained. Chest CT scan after chemotherapy in November 1991 revealed regression of the mediastinal tumor . An invasive thymic tumor was suspected and surgery was undertaken in January 1992. The tumor (50 × 45 × 45 mm), located mainly in the anterior mediastinum, was strongly adhered to the adjacent tissues. Resection of the tumor included the left upper lobe of the lung, the phrenic nerve and pericardium. The histological finding was that the tumor cells have large, vesicular nuclei and prominent nucleoli, but keratinazation was unclear . The results of immunohistochemical finding of anti-TdT was negative. From these findings, we diagnosed poorly or moderately differentiated squamous cell carcinoma of the thymus. The postoperative course was uneventful. The patient underwent radiation therapy of the mediastinum and left hilum at doses of 4000 cGy delivered over 4 weeks. She was discharged in March 1992. After the first AMoL remission, the patient suffered a relapse six times and was repeatedly admitted for chemotherapy. During these periods, chest X-ray and CT revealed no recurrence of the mediastinal tumor. During her tenth admission, the patient developed pneumonia during chemotherapy and died in October 1996. No autopsy was performed. Tumorregister - Template Datum Erstdiagnose Primärloka- lisation Grading Staging Morphologie Datum Ersttherapie Chemotherapie Bestrahlung

Text Mining: Anwendungsszenario II Milde und Schwere Verlaufsformen: EB simplex (EBS), EB dystrophica (EBD) Risikoabschätzung von Tumorentstehung durch Genotyp-Phänotyp-Korrelationen bei Epidermolysis bullosa dystrophica Epidermolysis bullosa: Gruppe von genetischen Hautkrankheiten mit Mutationen in Genen für Strukturproteine der dermo-epidermalen Basalmembranzone. Inzidenz: 1 / 100.000 Geburten. Minimale Traumata führen zu Blasenbildung an Haut und hautnahen Schleim-häuten, Abheilung der dadurch entstandenen Wunden führt oft zur Narben-bildung und ggf. zu Verwachsungen, die auch Kontrakturen bedingen können.

Text Mining: Anwendungsszenario II EB dystrophica (EBD) mehr als 300 unterschiedliche Mutationen des Kollagen VII-Gens publiziert und/oder in den Mutations-Datenbanken, mehrere Hundert weitere, noch nicht bekannte Mutationen. Ziel des Text Minings: Verbesserung der Prognosestellung — Auffinden bislang unentdeckter Korrelationen zwischen Art und Lokalisation der Genmutation und des klinischen Langzeitverlaufs sowie der Erkennung maligner Entartungen Abgleichen der Daten in der Literatur, in Mutations-Datenbanken, in eigenen Laborbefunden etc. in internen und externen klinischen Dokumenten

Architektur eines Biomedizinischen Textanalyse-Kernsystems

Architektur eines Biomedizinischen Textanalyse-Kernsystems „A severe infection ended the pregnancy“ ended Ending #pregnancy P-patient E-patient Pregnancy #mother infection pregnancy E-agent P-co-patient Infection #baby a severe the IF ... #oregnancy & #inf. THEN ... #mortal danger I-degree end + edPastTense severe * The baby survived Syntax Prozessor Morphologie Prozessor Semantik Interpreter Inferenz maschine Lexikon Grammatik Regelbasis Domänen ontologie POS-annotierte Korpora, Treebanks, Proposition Banks

Methoden, Werkzeuge und Ressourcen Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Endliche Automaten, Grammatiken, Ontologien Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert) Machine learning – Verfahren, e.g. SVM Evaluationsstandards

Methoden, Werkzeuge und Ressourcen Morphologiewerkzeuge (Stemmer) POS (part-of-speech) Tagger Chunker (NP), (shallow) Parser Lexika, Endliche Automaten, Grammatiken, Ontologien Namenserkenner (NE recognition) Große Textkorpora (annotiert, nichtannotiert) Machine learning – Verfahren, e.g. SVM Evaluationsstandards

Paradigmenwechsel in der Computerlinguistik Regelbasiert, KI Stochastisch, ML

Herausforderung für medizinische Sprachverarbeitung Ambiguität Lexikalisch: Bruch (Hernie) vs. Bruch (Fraktur) Syntaktisch: z.B. Anbindung von PPs extraction [of the transplant [with a scalpel] ] [extraction] {of the transplant} [with a scalpel] Semantisch, z.B. Skopus von Quantoren, Negationen, Koordinationen, Gradaussagen each sample showed an increased Ph value Komplexität, Berechenbarkeit, z.B. Dependenzgrammatiken: NP-complete Prädikatenlogik höherer Ordnung, Modallogik: unentscheidbar Kombination mit Ontologien und medizinischen Terminologiesystem Kombination von symbolischen und stochastischen Ansätzen

Ausblick: Menschliche vs. Maschinelle Sprachverarbeitung Goldstandard Datenqualität 20?? 200? Hohe Motivation 2005 Geringe Motivation Keinerlei Motivation Datenmenge

Aktivitäten MI Freiburg EU 6th Framework : Network of Excellence “SemanticMining” (Semantic Interoperability and Data Mining in Biomedicine): 2004 – 2006, 25 Partner www.semanticmining.org Gründung: AMIA Working Group Group KR-SIG “Formal (Bio)medical Knowledge Representation”, 2003 Veranstalter: Workshop KR-MED 2004 in Whistler/Canada, Juni 2004 Initiative BioTem (Zentrum für biomedizinisches Text Mining) Veranstalter: Konferenz SMBM 2005 (Semantic Mining in Biomedicine), in Cambridge UK, April 2005 Wichtiger Partner: Udo Hahn, Computerlinguistik Universität Jena (bis 2004 in Freiburg)