Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Medizinische Dokumentenrecherche mit MorphoSaurus Sprachübergreifend und benutzerfreundlich durch semantische Indexierung Kornél Markó, Philipp Daumke.

Ähnliche Präsentationen


Präsentation zum Thema: "Medizinische Dokumentenrecherche mit MorphoSaurus Sprachübergreifend und benutzerfreundlich durch semantische Indexierung Kornél Markó, Philipp Daumke."—  Präsentation transkript:

1 Medizinische Dokumentenrecherche mit MorphoSaurus Sprachübergreifend und benutzerfreundlich durch semantische Indexierung Kornél Markó, Philipp Daumke Medizinische Informatik, Universitätsklinikum Freiburg

2 Übersicht 1.Kurze Vorstellung der Medizinischen Informatik in Freiburg 2.Ebenen der Suche (Laien, Experten, Sprachen) 3.Vorstellung der Technologie 4.Evaluation 5.Anwendungen SOMED-Studie ICD-Suche 6.Perspektiven / Einsatzmöglichkeiten im DIMDI Zeitbedarf ca. 60 Minuten

3 MI in Freiburg Medizinische Informatik Direktor Prof. Dr. Klar Wissenschaftliche Schwerpunkte –Patientenbezogene Dienste: MIRA-Plus (KIS) –Patientenunabhängige Auskunfts- und Wissensdienste: InfoServer –Grundlagen zur Modellierung medizinischer Konzepte mittels terminologischer Logik –Begriffliche Ordnungssysteme in der Medizin –Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten –MorphoSaurus / Text-Retrieval / Cross-Language Retrieval

4 MorphoSaurus - Entwicklung 1998: Entwicklung der ersten Version im Rahmen einer Promotion (Medizin) Seit 2000: Kooperation mit der Catholic University of Paraná, Brasilien (BMBF-Förderungen) Seit 2003: DFG-Projekt morphologisches Indexieren Seit 2004: EU Network of Excellence Semantic Mining (WP multi-lingual lexicon, ontologies, text mining)

5 MorphoSaurus

6 Suchmaschine Einsprachige Textrecherche

7 Triviale Suche: Laien hoher Blutdruck

8 Triviale Suche: Laien hoher Blutdruck Suchmaschine: Abgleich von Zeichenketten

9 Triviale Suche: Laien hoher Blutdruck Suchmaschine: Abgleich von Zeichenketten

10 Triviale Suche: Laien hoher Blutdruck Suchmaschine: Abgleich von Zeichenketten

11 Triviale Suche: Laien hoher Blutdruck Suchmaschine: Abgleich von Zeichenketten

12 Triviale Suche: Experten Risiken bei Bluthochdruck

13 Triviale Suche: Experten Risiken bei Bluthochdruck Suchmaschine: Abgleich von Zeichenketten

14 Triviale Suche: Experten Suchmaschine: Abgleich von Zeichenketten Risiken bei Bluthochdruck

15 Triviale Suche: Experten Suchmaschine: Abgleich von Zeichenketten Risiken bei Bluthochdruck

16 Triviale Suche: Experten Risiken bei Bluthochdruck Suchmaschine: Abgleich von Zeichenketten

17 Morphologie der Wörter Linguistische Phänomene erschweren die medizinische Textrecherche ! –Flexion: Erkrankungen, Bluthochdrucks, Risiken –Derivation: Krankheit, diastolisch, leukozytär –Komposition: Gemeinde|krank|en|pflege|station|en –Akronyme: AIDS, SARS, OECD –Orthografische Varianten: Kolonkarzinom, Colonkarzinom, Ösophagus, Oesophagus, ulzerierend, ulcerierend –Synonyme: Bluthochdruck – Hypertonie, Prophylaxe – Vorbeugung –Eigennamen: Aspirin, ASS,...

18 Triviale Suche: Experten II Korrelation von Hypertonie und Läsion der Weißen Substanz

19 Triviale Suche: Experten II Korrelation von Hypertonie und Läsion der Weißen Substanz Correlation of high blood pressure and lesion of the white substance

20 Triviale Suche: Experten II Korrelation von Hypertonie und Läsion der Weißen Substanz Suchmaschine Correlation of high blood pressure and lesion of the white substance

21 Triviale Suche: Experten II Korrelation von Hypertonie und Läsion der Weißen Substanz Suchmaschine Correlation of high blood pressure and lesion of the white substance

22 Triviale Suche: Experten II Korrelation von Hypertonie und Läsion der Weißen Substanz Suchmaschine Correlation of high blood pressure and lesion of the white substance

23 Triviale Suche: Experten II Korrelation von Hypertonie und Läsion der Weißen Substanz Suchmaschine Correlation of high blood pressure and lesion of the white substance

24 Mehrsprachige Textrecherche Suchmaschine

25 Ansätze B Übersetzung der Dokumente A B A Übersetzung in eine Interlingua A B IL Übersetzung der Benutzeranfrage B A

26 Lösungsansatz Subwörter sind atomare konzeptuelle oder linguistische Einheiten: –Stämme: verletz, entzünd, magen, schleimhaut –Präfixe: ab-, an-, anti-, ge-, hervor-, hyper- –Suffixe: -abel, -bar, -haft, -ion, -itis –Infixe: -o-, -s- Synonyme Subwörter werden (sprachübergreifend) in Äquivalenzklassen gruppiert: #derma = { derm, cutis, skin, haut, kutis, pele, cutis, piel, … } #inflamm = { inflam, -itic, -itis, entzuend, -itis, -itisch, inflam, flog, inflam, flog, -iolitis,... } Empirische Kriterien: –hypertonie = {#hyper #tens #blood}

27 Ressourcen Subwort-Lexikon: –Organisiert Subwörter (atomare Bedeutungseinheiten) in mehreren Sprachen Subwort-Thesaurus: –Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) Zerlegungsalgorithmus: –Extraktion von Subwörtern und Zuweisung von Äquivalenzklassen MorphoSaurus

28 Subwort: Lexikon & Thesaurus Subwort Lexikon: gastr stomach magen ventric chamber hepat,hepar liver leber -itis, inflamm, entzünd nephr ren kidney niere Subwort Thesaurus: Gruppierung von synonymen Subwörtern zu Äquivalenzklassen #GASTR #CHAMBER #HEPAR #NEPHR #INFLAMM

29 Beispiel high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung #up tsh #value #suggest #diagnost #primar #hypo #thyre Interlingua #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung

30 Beispiel high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung #up tsh #value #suggest #diagnost #primar #hypo #thyre Interlingua #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung

31 Suche mit MorphoSaurus

32

33 Korrelation von Hypertonie und Läsion der Weißen Substanz

34 Suche mit MorphoSaurus Korrelation von Hypertonie und Läsion der Weißen Substanz #correl #hyper #tens #lesion #whit #matter

35 Suche mit MorphoSaurus Korrelation von Hypertonie und Läsion der Weißen Substanz #correl #hyper #tens #lesion #whit #matter Suchmaschine: Abgleich von Zeichenketten

36 Suche mit MorphoSaurus Korrelation von Hypertonie und Läsion der Weißen Substanz Suchmaschine: Abgleich von Zeichenketten #correl #hyper #tens #lesion #whit #matter

37 Studie

38 Studie: Google

39

40 Studie: PubMed

41

42 Studie: DIMDI

43

44 Studie: MorphoSaurus

45

46 Sprachübergreifende Suche

47 Evaluation

48 Evaluationsszenarien Baseline: einsprachige Textrecherche –Englische Benutzeranfragen –Englische Texte Übersetzung der Benutzeranfrage –Google Übersetzer –Mehrsprachiges Medizinlexikon aus UMLS MorphoSaurus –Interlingua-Repräsentation der Anfragen und der Dokumente

49 Experimente OHSUMED-Corpus (Hersh et al., 1994) –Untermenge von MEDLINE –~233,000 englische Dokumente –106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche und Portugiesische –Relevanz der Dokumente manuell markiert Suchmaschine: –Open-Source der Apache-Foundation: Lucene –http://lucene.apache.org/

50 Resultate Baseline MorphoSaurus Übersetzung der Anfrage DeutschPortugiesisch Top ,1 0,2 00,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

51 Resultate Baseline MorphoSaurus Übersetzung der Anfrage DeutschPortugiesisch Top ,1 0,2 00,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 68% der Baseline 54% der Baseline

52 Resultate Baseline MorphoSaurus Übersetzung der Anfrage DeutschPortugiesisch Top ,1 0,2 00,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 68% der Baseline 54% der Baseline 93% der Baseline 62% der Baseline

53 Innovatives und erfolgreiches Suchverfahren –Komposita – Suche –Synonym – Suche –Sprachübergreifende Suche (EN, DE, PT, FR, SP, SV) –Ergebnisse nach Relevanz sortiert Sprachübergreifende Suche –erreicht bis zu 93% gegenüber einsprachiger Suche (Meth Inf Med, 2005) Semantische Indexierung und Suche –ist einsetzbar mit allen Suchmaschinen Einfache Pflege (Kostenersparnis) –Pflege des Subwortlexikons im Vergleich zur Pflege eines Vollformensynonymlexikons überschaubar SOMED Prototyp: –http://morphine.coling.uni-freiburg.de/somed/search.php Zusammenfassung

54 Anwendungen

55 Proof-of-Concept: SOMED Dokumente (543MB XML) wurden –nach Sprachen kategorisiert (TextCat): ~3000/Minute = 2 Stunden –mit MorphoSaurus bearbeitet ~3000/Minute = 2 Stunden 1.7 GB XML (nur für Highlighting der Treffer) Suchmaschine: Lucene ~9000/Minute = 40 Minuten 940 MB für 2 Indices (Original + MorphoSaurus) 340 MB für 1 Index (MorphoSaurus)

56 Proof-of-Concept: SOMED Dekomposition der Suchanfragen Darmkrebsrisikoreduzierung #enteral #neoplas #malign #risk #reduc Formulierung der Suchanfrage 1. Suche mit UND 2. Falls keine Treffer: Suche mit ODER Es wurden 2 Indizes erstellt: #enteral AND #neoplas AND #malign AND #risk AND #reduc OR (original:darmkrebsrisikoreduzierung) Besseres Ranking, gleiche Ergebnismenge, höherer Speicherbedarf

57 Proof-of-Concept: SOMED

58 Diagnosenkodierung nach ICD Suche in 15,278 ICD-Codes Erste Tests durch Uniklinik Freiburg erfolgreich, vor allem im Vergleich zu –ICD-Browser des Zentralinstituts für die kassenärztliche Versorgung in der BRD (http://www.zi-berlin.de/)http://www.zi-berlin.de/ –Kodierbrowser der Uniklinik Münster (http://drg.uni- muenster.de/de/webgroup/m.brdiagnosen.php)http://drg.uni- muenster.de/de/webgroup/m.brdiagnosen.php Anwendbar auf andere Klassifikationen: OPS, …

59 Universitätsklinikum Münster

60 Zentralinstitut Berlin (3M)

61 MorphoSaurus ICD-Suche

62 ICD verbunden mit MEDLINE

63

64 Forschungsbezogene Nutzung Texte in klinischen DB (Uniklinik Freiburg) Sprachübergreifende Suche im Web (HON) Suche in Bilddatenbanken (mit Uni Münster) Mapping von Terminologien (Ukl Freiburg)

65 MorphoSaurus - Zukunft Projekte, in denen MorphoSaurus zum Einsatz kommt: 2006: ZBMED: Integration in MedPilot 2 Jahre 2006: EU BOOTStrep (Bootstrapping of Ontologies and Terminologies Strategic Research Project) 3 Jahre (Integrated Biomedical Informatics for the Management of Cerebral Aneurysm) 4 Jahre

66

67 MorphoEdit WEB

68 Suchmaschinen-Indices Liest Dokumente ein und generiert einen Index mit gewichteten Indextermen (für Ranking). –Wort x kommt in Dokumenten ID1,ID2,ID6,… vor Normalerweise sind Indexterme Wörter der Dokumentenkollektion MorphoSaurus: Äquivalenzklassen bilden Indexterme

69 Lucene: Indexerstellung Indexterm (Original) ID Bluthochdruck #1 Hypertonie #1 Erhöhung #1 Blutdruckes #1 Erhöhten #1 Blutdruckwerte #1 Blutdruckmessung #1 Indexterm (MorphoSaurus) ID #blood #1 #high #1 #tense #1 #value #1 #measure #1

70 Lucene: Indexerstellung Indexterm (Original) ID Bluthochdruck #1 Hypertonie #1 #2 Erhöhung #1 Blutdruckes #1 Erhöhten #1 Blutdruckwerte #1 Blutdruckmessung #1 Hypertension #2 Blutdruck #2 Risiko #2 Hypertonikers #2 Belastungsblutdruck #2 Ruheblutdruck #2 Risikofaktor #2 Risiko #2 Risikofaktoren #2 Risikoevaluation #2 Indexterm (MorphoSaurus) ID #blood #1 #2 #high #1 #2 #tense #1 #2 #value #1 #measure #1 #risk #2 #factor #2 #eval #2


Herunterladen ppt "Medizinische Dokumentenrecherche mit MorphoSaurus Sprachübergreifend und benutzerfreundlich durch semantische Indexierung Kornél Markó, Philipp Daumke."

Ähnliche Präsentationen


Google-Anzeigen