Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung.

Ähnliche Präsentationen


Präsentation zum Thema: "Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung."—  Präsentation transkript:

1 Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik Hermann-Paul-Centrum für Linguistik

2 Medizinische Informatik in Freiburg Medizinische Informatik Direktor Prof. Dr. Klar Wissenschaftliche Schwerpunkte –Patientenbezogene Dienste: Krankenhausinformationssystem –Patientenunabhängige Auskunfts- und Wissensdienste –Grundlagen zur Modellierung medizinischer Konzepte –Begriffliche Ordnungssysteme in der Medizin –Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten –Text-Retrieval / Cross-Language Retrieval

3 Dokumentenrecherche Medizinische Suchmaschinen –Unterschiedliche Dokumentenarten –Mehrsprachigkeit –Diverse Nutzergruppen –Hohe sprachliche Variabilität –Dokumentenumfang

4 Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz- Ranking Termhäufigkeiten bei der Lexikonvalidierung

5 Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz- Ranking Termhäufigkeiten bei der Lexikonvalidierung

6 Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

7 Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

8 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

9 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

10 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

11 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

12 Problem Variabilität fachsprachlicher Ausdrücke beeinträchtigt Rechercheergebnis Maschinelle Indexierung (z.B. Web- Suchmaschinen) semantisch blind Manuelle Indexierung (z.B. MEDLINE) aufwendig Morphosaurus-Ansatz: lexikonbasierte automatische semantische Indexierung

13 #GASTR #CHAMBER #HEPAR #NEPHR #INFLAMM Subwort Lexikon: Subwort Thesaurus: Gruppierung von synonymen Subwörtern gastr stomach Magen ventric chamber hepat, hepar liver leber -itis, inflamm, entzünd nephr- ren- kidney niere Semantische Indexierung durch MORPHO S AURUS

14 High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... Semantische Indexierung durch MORPHO S AURUS

15 High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung Semantische Indexierung durch MORPHO S AURUS

16 high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung Semantische Indexierung durch MORPHO S AURUS

17 high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung #up tsh #value #suggest #diagnost #primar #hypo #thyre #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung Semantische Indexierung durch MORPHO S AURUS Interlingua (Semantische Deskriptoren)

18 high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung #up tsh #value #suggest #diagnost #primar #hypo #thyre Interlingua (Semantische Deskriptoren) #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung Semantische Indexierung durch MORPHO S AURUS

19 Sprachübergreifende Suche mit MORPHOSAURUS

20

21 Korrelation von Hypertonie und Läsion der Weißen Substanz… Sprachübergreifende Suche mit MORPHOSAURUS

22 Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter Sprachübergreifende Suche mit MORPHOSAURUS

23 Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter Sprachübergreifende Suche mit MORPHOSAURUS

24 Todesursachenstatistik Statistik Todesursache Statistik Todesursachen Benutzerfreundlichkeit

25 Todesursachenstatistik Statistik Todesursache Statistik Todesursachen Benutzerfreundlichkeit

26 Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

27 Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

28 Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz- Ranking Termhäufigkeiten bei der Lexikonvalidierung

29 Mehrdeutigkeit Quellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet) Bruch -> {#fraktur, #hernie} Ohne Weltwissen nicht interpretierbar:Bruch des Kleinfingers, Bruch in der Leiste Alternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

30 Corpusstatistik w = 4

31 Corpusstatistik [#fraktur #finger] = 3 w = 4

32 Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1

33 Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1 [#unterbrech #kontin.] = 1.

34 Disambiguierung Ambiguität von Bruch des Fingers: [{ #fraktur,#hernie} #finger] [#fraktur #finger] = 3 [#hernie #finger] = 0 -> mit Bruch ist Fraktur gemeint…

35 Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz- Ranking Termhäufigkeiten bei der Lexikonvalidierung

36 Anfrage: Statistik Todesursache Welches Dokument passt am besten zur Anfrage? Termhäufigkeiten zum Relevanz-Ranking

37 TF/IDF: Term-Frequenz/Inverse Dokument- Frequenz Prinzip: statistische Ermittlung der Wichtigkeit von einzelnen Wörtern Prämisse: Wörter, welche in einem Dokument häufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts Termhäufigkeiten zum Relevanz-Ranking

38 Inverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten: –Todesursache kommt in 100 Dokumenten vor. IDF(Todesursache)=: 100/ = –Statistik kommt in 1000 Dokumenten vor. IDF(Statistik) = 1000/ =0.001 Termfrequenz anhand von Dokument 1 –Todesursache kommt 3mal vor, Statistik 1mal und insgesamt beinhaltet das Dokument 100 Wörter. –TF(Todesursache) = 3/100 = 0.03 –TF(Statistik) = 1/100 = 0.01 Termfrequenz anhand von Dokument 2 –Todesursache kommt 2mal vor, Statistik 7mal und insgesamt hat das Dokument 300 Wörter. –TF(Todesursache) = 2/300 = –TF(Statistik) = 7/300 = Das Ranking ergibt sich aus dem Verrechnen von TF und IDF: –Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000 –Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610 Dokument 1 erhält ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist! Termhäufigkeiten zum Relevanz-Ranking

39 Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz- Ranking Termhäufigkeiten bei der Lexikonvalidierung

40 Vergleichbare Korpora in unterschiedlichen Spachen Diabetes mellitus tipo 1 (ya no debe usarse el término Diabetes Insulino dependiente) Característicamente se da en la época temprana de la vida y se debe a un deficit absoluto de insulina, dado por la destrucción de las células beta del páncreas por procesos autoinmunes ó idiopáticos. Sólo cerca de 1 entre cada 20 personas diabéticas tiene diabetes tipo 1, la cual se presenta más frecuentemente en jóvenes y niños. Este tipo de diabetes se conocía como diabetes mellitus insulinodependiente o diabetes juvenil. En ella, las células beta del páncreas no producen insulina o apenas producen. En los primeros años de la enfermedad suelen quedar reservas pancreáticas que permiten una secreción mínima de insulina (este período se denomina luna de miel). Diabetes Typ 1 Bei diesem Krankheitstyp zerstört das körpereigene Immunsystem selbst im Rahmen einer Entzündungsreaktion die insulinproduzierenden Betazellen in der Bauchspeicheldrüse. Diese Entzündungsreaktion setzt wahrscheinlich bereits in frühester Kindheit ein. Die daraus folgende Zerstörung der insulinproduzierenden Betazellen führt nach und nach zu einem zunehmenden Insulinmangel. Erst wenn ca Prozent der Beta- Zellen zerstört sind manifestiert sich ein Typ-1-Diabetes. In der Anfangsphase der Erkrankung ist also durchaus noch eine kleine Insulinrestproduktion vorhanden. Type 1 diabetes mellitus Type 1 diabetes mellitus formerly known as insulin- dependent diabetes (IDDM), childhood diabetes, is characterized by loss of the insulin-producing beta cells of the islets of Langerhans of the pancreas leading to a deficiency of insulin. It should be noted that there is no known preventative measure that can be taken against type 1 diabetes. Most people affected by type 1 diabetes are otherwise healthy and of a healthy weight when onset occurs. Diet and exercise cannot reverse or prevent type 1 diabetes. Sensitivity and responsiveness to insulin are usually normal, especially in the early stages. kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ), childreniijxjza diabetesiiiryxa, featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa. noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,to madikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa. mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira. phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza. {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra. primariiiyiya percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} diabetesiiiryxa. iniiiqija incipientiiiwqwa phasiiiykwa. diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa, dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriq zqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os. justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum, la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija Sprache 1 Sprache 2 Sprache 3

41 kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ), childreniijxjza diabetesiiiryxa, featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa. noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,to madikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa. mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira. phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza. {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra. primariiiyiya percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} diabetesiiiryxa. iniiiqija incipientiiiwqwa phasiiiykwa. diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa, dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriq zqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os. justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum, la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija Häufigkeit semantischer Deskriptoren

42 MIDMIDCodf1f2SaSdS Peopleriixypa ,14661,00000,7155 Fromiwiixxa ,10791,00000,7026 Icasikprrr ,06971,00000,6899 Lttroriiyira ,07710,99400,6884 Mostiizrpwa ,06421,00000,6881 Enteikywjw ,04771,00000,6826 Icakiirwy ,04491,00000,6816 Sometimerijixja ,03941,00000,6798 Pressureiiipkza ,04230,99780,6793 MIDMIDCodf1f2SaSdS zpippxra ,05900,99940,6859 keinemrikzrp ,03101,00000,6770 barriqrqp ,01761,00000,6725 eingesetztijiikr ,01671,00000,6722 ipippry ,01651,00000,6722 dispensatrijiyya ,01451,00000,6715 langerrikzzwa ,01341,00000,6711 siterijjrka ,01171,00000,6706 Portugiesisch/ Englisch Deutsch / Englisch

43 Zusammenfassung

44 Vielen Dank! Kontakt: Medizinische Informatik

45 Proof-of-Concepts I Deutsche Zentralbibliothek für Medizin (ZBMed), Köln: –Bibliographische Suche über einsprachige Dokumente Deutsches Institut für Medizinische Dokumentation und Klassifikation (DIMDI), Köln: –Bibliographische Suche über mehrsprachige Dokumente Health on the Net Foundation (HON), Genf: –Studie mit 5,000 Dokumenten Hautklinik Freiburg: –Google-Suche für patientenbezogene Daten (EPA)

46 Proof-of-Concepts II Hautklinik Freiburg:

47 Proof-of-Concepts III ICD Kodierbrowser: –Suche in 15,278 ICD-Codes

48 Evaluation OHSUMED-Corpus (Hersh et al., 1994) –Untermenge von MEDLINE –~300,000 englische Dokumente –106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche, Portugiesische, Spanische, Französische und Schwedische –Relevanz der Dokumente manuell markiert

49 121% 111% 99% 84% 79% Evaluation

50 Probabilistische Methoden in der Anwendung und Pflege eines medizinischen Dokumentenrecherchesystems Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik Hermann-Paul-Centrum für Linguistik

51 Medizinische Informatik in Freiburg Medizinische Informatik Direktor Prof. Dr. Klar Wissenschaftliche Schwerpunkte –Patientenbezogene Dienste: Krankenhausinformationssystem –Patientenunabhängige Auskunfts- und Wissensdienste –Grundlagen zur Modellierung medizinischer Konzepte –Begriffliche Ordnungssysteme in der Medizin –Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten –Text-Retrieval / Cross-Language Retrieval

52 Textrecherche Medizinische Suchmaschinen –Unterschiedliche Dokumentenarten –Mehrsprachigkeit –Diverse Nutzergruppen –Hohe sprachliche Variabilität –Dokumentenumfang

53 Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

54 Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

55 Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

56 Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

57 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

58 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

59 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

60 Konventionelle Suchtechnologien Anstieg der Cholestase- parameter

61 Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz…

62 Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… Correlation of high blood pressure and lesion of the white substance

63 Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… Correlation of high blood pressure and lesion of the white substance

64 Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… Correlation of high blood pressure and lesion of the white substance

65 Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… Correlation of high blood pressure and lesion of the white substance

66 Linguistische Phänomene erschweren die medizinische Textrecherche! – Flexion : Erkrankungen, Bluthochdrucks, Risiken – Derivation : Krankheit, diastolisch, leukozytär – Komposition : Gemeinde|krank|en|pflege|station|en – Akronyme : AIDS, SARS, OECD – Orthografische Varianten : Kolonkarzinom, Colonkarzinom, Ösophagus, Oesophagus, ulzerierend, ulcerierend – Synonyme : Bluthochdruck – Hypertonie, Prophylaxe – Vorbeugung – Eigennamen : Aspirin, ASS,... Wortbildung

67 MORPHO S AURUS Lösungen Subwörter sind atomare konzeptuelle oder linguistische Einheiten: –Stämme: verletz, entzünd, magen, schleimhaut –Präfixe: ab-, an-, anti-, ge-, hervor-, hyper- –Suffixe: -abel, -bar, -haft, -ion, -itis –Infixe: -o-, -s- Synonyme Subwörter werden (sprachübergreifend) in Äquivalenzklassen gruppiert: #derma = { derm, cutis, skin, haut, kutis, pele, cutis, piel, … } #inflamm = { inflam, -itic, -itis, entzuend, -itis, -itisch, inflam, flog, inflam, flog, -iolitis,... } Empirische Kriterien: –hypertonie = {#hyper #tens #blood}

68 MORPHO S AURUS Ressourcen Subwort-Lexikon : –Organisiert Subwörter (atomare Bedeutungseinheiten) in mehreren Sprachen Subwort-Thesaurus : –Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) Segmentierungsalgorithmus : –Extraktion von Subwörtern und Zuweisung von Äquivalenzklassen

69 MORPHO S AURUS Ressourcen Subwort-Lexikon : –Organisiert Subwörter (atomare Bedeutungseinheiten) in mehreren Sprachen Subwort-Thesaurus : –Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) Segmentierungsalgorithmus : –Extraktion von Subwörtern und Zuweisung von Äquivalenzklassen MORPHO S AURUS (www.morphosaurus.net)

70 #GASTR #CHAMBER #HEPAR #NEPHR #INFLAMM Subwort Lexikon: Subwort Thesaurus: Gruppierung von synonymen Subwörtern gastr stomach Magen ventric chamber hepat,hepar liver leber -itis, inflamm, entzünd nephr- ren kidney niere MORPHO S AURUS : Lexikon & Thesaurus

71 Beispiel High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion...

72 Beispiel High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung

73 Beispiel high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung

74 Beispiel high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung #up tsh #value #suggest #diagnost #primar #hypo #thyre Interlingua #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung

75 Beispiel high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon High TSH values suggest the diagnosis of primary hypo- thyroidism... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion... high tsh values suggest the diagnosis of primary hypo- thyroidism... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion... Orthografische Regeln Orthografische Normalisierung #up tsh #value #suggest #diagnost #primar #hypo #thyre Interlingua #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung

76 Suche mit MORPHO S AURUS

77

78 Korrelation von Hypertonie und Läsion der Weißen Substanz…

79 Suche mit MORPHO S AURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

80 Suche mit MORPHO S AURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

81 Todesursachenstatistik Statistik Todesursache Statistik Todesursachen Benutzerfreundlichkeit

82 Todesursachenstatistik Statistik Todesursache Statistik Todesursachen Benutzerfreundlichkeit

83 Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

84 Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

85 Mehrdeutigkeit Quellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet) Bruch -> {#fraktur, #hernie} Ohne Weltwissen nicht interpretierbar:Bruch des Fingers, Bruch in der Leiste Alternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

86 Corpusstatistik w = 4

87 Corpusstatistik [#fraktur #finger] = 3 w = 4

88 Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1

89 Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1 [#unterbrech #kontin.] = 1.

90 Disambiguierung Ambiguität von Bruch des Fingers: [{ #fraktur,#hernie} #finger] [#fraktur #finger] = 3 [#hernie #finger] = 0 -> mit Bruch ist Fraktur gemeint…

91 Relevanzkriterien zum Ranking Anfrage: Statistik Todesursache Welches Dokument passt am besten zur Anfrage?

92 Modell mit Termhäufigkeiten TF/IDF: Term-Frequenz/Inverse Dokument- Frequenz Prinzip: statistische Ermittlung der Wichtigkeit von einzelnen Wörtern Prämisse: Wörter, welche in einem Dokument häufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts

93 Beispiel Inverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten: –Todesursache kommt in 100 Dokumenten vor. IDF(Todesursache)=: 100/ = –Statistik kommt in 1000 Dokumenten vor. IDF(Statistik) = 1000/ =0.001 Dokument 1 –Todesursache kommt 3mal vor, Statistik 1mal und insgesamt beinhaltet das Dokument 100 Wörter. –TF(Todesursache) = 3/100 = 0.03 –TF(Statistik) = 1/100 = 0.01 Dokument 2 –Todesursache kommt 2mal vor, Statistik 7mal und insgesamt hat das Dokument 300 Wörter. –TF(Todesursache) = 2/300 = –TF(Statistik) = 7/300 = Das Ranking ergibt sich aus dem Verrechnen von TF und IDF: –Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000 –Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610 Dokument 1 erhält ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist!

94 Zusammenfassung

95 Vielen Dank! Kontakt: Medizinische Informatik

96 Proof-of-Concepts I Deutsche Zentralbibliothek für Medizin (ZBMed), Köln: –Bibliographische Suche über einsprachige Dokumente Deutsches Institut für Medizinische Dokumentation und Klassifikation (DIMDI), Köln: –Bibliographische Suche über mehrsprachige Dokumente Health on the Net Foundation (HON), Genf: –Studie mit 5,000 Dokumenten Hautklinik Freiburg: –Google-Suche für patientenbezogene Daten (EPA)

97 Proof-of-Concepts II Hautklinik Freiburg:

98 Proof-of-Concepts III ICD Kodierbrowser: –Suche in 15,278 ICD-Codes

99 Evaluation OHSUMED-Corpus (Hersh et al., 1994) –Untermenge von MEDLINE –~300,000 englische Dokumente –106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche, Portugiesische, Spanische, Französische und Schwedische –Relevanz der Dokumente manuell markiert

100 121% 111% 99% 84% 79% Evaluation


Herunterladen ppt "Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung."

Ähnliche Präsentationen


Google-Anzeigen