Hermann-Paul-Centrum für Linguistik

Slides:



Advertisements
Ähnliche Präsentationen
Die Hattie Studie und erfolgreicher Unterricht
Advertisements

Erhöhte Blutzuckerwerte (Diabetes mellitus)
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
RDF R ESOURCE D ESCRIPTION F RAMEWORK Referentin: Claudia Langer.
CIDOC-CRM Universität zu Köln Historisch-kulturwissenschaftliche Informationsverarbeitung AM 2 Dozent: Prof. Dr. Manfred Thaller Referent: Nelson Marambio.
Wir machen´s richtig!!! Vorteile desSpanienaustauschs.
Information Retrieval Modelle: Vektor-Modell
Semantisch gestützte Suche im Internet
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Indexierung - Verschlagwortung
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Wortschatz in der Oberstufe
MedPilot Virtuelle Fachbibliothek Medizin
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
Entitäten Extraktion Einführung
Entitäten Extraktion Wichtige Schritte Petra Maier WS 05/06.
Die Hattie Studie und erfolgreicher Unterricht
Komponenten eines Information Retrieval Systems
9. Information Retrieval und Medizinische Literaturdatenbanken
1000 Km bis zum Meer. “1000 Km to the sea” Luxuslärm
Paradigmenwechsel in der medizinischen Wissensvermittlung
Don`t make me think! A Common Sense Approach to Web Usability
Die zehn häufigsten Todesursachen
Logistische Regression
10.1 Recherche: Lernenden-Ebene
MRT Diffusionstensor (DTI)- und BOLD-Bildgebung zur Beurteilung
Erfindervon Fuzzy Logic
Medizinische Dokumentenrecherche mit MorphoSaurus
Abteilung für automatische Sprachverarbeitung
XML (Extensible Markup Language)
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Initiativen für Mehrsprachigkeit - Initiatives en faveur du plurilinguisme - Initiatives for plurilingualism Workshop – Atelier 2006 EFSZ – CELV - ECML.
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Diabetes.
Universität StuttgartInstitut für Wasserbau, Lehrstuhl für Hydrologie und Geohydrologie Copulas (1) András Bárdossy IWS Universität Stuttgart.
Christian Schindelhauer Wintersemester 2006/07 5. Vorlesung
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Information Retrieval, Vektorraummodell
Pfad Akt.Nr.: xxxx/xxxxx/xxxx Analyse Medizinischer Freitexte Lukas Faulstich, ID GmbH & Co. KGaA Projekttreffen ByMedConnect | München,
Morphosaurus Statusreport Mai Grundidee Semantische Indexierung von medizinischern Dokumenten Verbesserung des Dokumentenretrievals Unterstützung.
Einfache Krankheitsrisiko-Statistik
Praxis für Nierenerkrankungen und Diabetes Bochum
KickOff - Meeting EPA-Navi Navigation in der elektronischen Patientienakte Teilnehmer: KaGES : Markus Pedevilla, Averbis GmbH: Philipp Daumke, MUG-IMI:
Steiermark Bürofachkraft für den medizinischen Bereich Einführung in die medizinische Terminologie © Dr. Michael Adomeit.
„Wenn du den Fluss Halys überschreitest, wirst du
Konjugier,,sein”! ichwir du ihr er, sie,essie, Sie.
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Wiederholung/Zusammenfassung
Wiederholung/Zusammenfassung
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
Inhaltserschliessung ein Beispiel A Bibliographic Search by Computer Updating plasma-physics data was a chance to experiment with information and programs.
1 Linked Open Data Klaus Tochtermann ZBW – Leibniz Information Centre for Economics Hamburg/Kiel Christian-Albrechts-University Kiel Sept. 7, 2011.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Rules of Play - Game Design Fundamentals by Katie Salen and Eric Zimmerman Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Konzept Hilfsmittel für Wörterlernen Simplistischer Seitenaufbau à la Google Multimedia – und mehrsprachige Suche Unterstützung für 42 Sprachen Ergebnisse.
Gregor Graf Oracle Portal (Part of the Oracle Application Server 9i) Gregor Graf (2001,2002)
10.3 Lektion 10 Geschichte und Gesellschaft STRUKTUREN © and ® 2012 Vista Higher Learning, Inc Der Konjunktiv I and indirect speech —Ich komme.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Institut für Betriebswirtschaftslehre Globalisierung und Multinationale Unternehmen Teil I: Die Globalisierung als Herausforderung für Weltwirtschaft,
Eisheilige -Eisheiligen, auch Eismänner oder gestrenge Herren genannt -zu den Eisheiligen gehören: 1.Mamertus – 11. Mai Mamertus 2.Pankratius – 12. Mai.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Fitness. An english presentation.
Globalisierung und Multinationale Unternehmen Teil I: Die Globalisierung als Herausforderung für Weltwirtschaft, multinationale Unternehmen und verantwortliches.
Corpus-based Error Detection in a Multilingual Medical Thesaurus
Calorimetry as an efficiency factor for biogas plants?
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Hermann-Paul-Centrum für Linguistik Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik

Medizinische Informatik in Freiburg Medizinische Informatik Direktor Prof. Dr. Klar Wissenschaftliche Schwerpunkte Patientenbezogene Dienste: Krankenhausinformationssystem Patientenunabhängige Auskunfts- und Wissensdienste Grundlagen zur Modellierung medizinischer Konzepte Begriffliche Ordnungssysteme in der Medizin Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten Text-Retrieval / Cross-Language Retrieval

Medizinische Suchmaschinen Dokumentenrecherche Medizinische Suchmaschinen Unterschiedliche Dokumentenarten Mehrsprachigkeit Diverse Nutzergruppen Hohe sprachliche Variabilität Dokumentenumfang

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz-Ranking Termhäufigkeiten bei der Lexikonvalidierung

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz-Ranking Termhäufigkeiten bei der Lexikonvalidierung

Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Problem Variabilität fachsprachlicher Ausdrücke beeinträchtigt Rechercheergebnis Maschinelle Indexierung (z.B. Web-Suchmaschinen) semantisch „blind“ Manuelle Indexierung (z.B. MEDLINE) aufwendig Morphosaurus-Ansatz: lexikonbasierte automatische semantische Indexierung

Semantische Indexierung durch MORPHOSAURUS Subwort Lexikon: Subwort Thesaurus: Gruppierung von synonymen Subwörtern gastr stomach Magen ventric chamber hepat, hepar liver leber -itis, inflamm, entzünd nephr- ren- kidney niere #GASTR #CHAMBER #HEPAR #INFLAMM Hier noch ein kurzer Überblick über die Beschaffenheit der Ressourcen, die wir verwenden: Im Lexikon wird eine Liste von Subwörtern verwaltet. Diese werden im Thesaurus zu Äquivalenzklassen gruppiert und erhalten einen eindeutigen Bezeichne. KLICK #NEPHR

Semantische Indexierung durch MORPHOSAURUS High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

Semantische Indexierung durch MORPHOSAURUS High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung

Semantische Indexierung durch MORPHOSAURUS High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon

Semantische Indexierung durch MORPHOSAURUS High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon Interlingua (Semantische Deskriptoren) #up tsh #value #suggest #diagnost #primar #hypo #thyre #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung

Semantische Indexierung durch MORPHOSAURUS High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon Interlingua (Semantische Deskriptoren) #up tsh #value #suggest #diagnost #primar #hypo #thyre Semantische Normalisierung #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus

Sprachübergreifende Suche mit MORPHOSAURUS

Sprachübergreifende Suche mit MORPHOSAURUS

Sprachübergreifende Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz…

#correl #hyper #tens #lesion #whit #matter Sprachübergreifende Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

#correl #hyper #tens #lesion #whit #matter Sprachübergreifende Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

Benutzerfreundlichkeit Todesursachenstatistik Statistik Todesursache Statistik Todesursachen

Benutzerfreundlichkeit Todesursachenstatistik Statistik Todesursache Statistik Todesursachen

Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz-Ranking Termhäufigkeiten bei der Lexikonvalidierung

Mehrdeutigkeit Quellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet) „Bruch“ -> {#fraktur, #hernie} Ohne Weltwissen nicht interpretierbar: „Bruch des Kleinfingers“, „Bruch in der Leiste“ Alternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

Corpusstatistik w = 4

Corpusstatistik [#fraktur #finger] = 3 w = 4

[#finger #unterbrech] = 1 Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1

Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1 [#unterbrech #kontin.] = 1 .

Disambiguierung Ambiguität von „Bruch des Fingers“: [{ #fraktur,#hernie} #finger] [#fraktur #finger] = 3 [#hernie #finger] = 0 -> mit „Bruch“ ist „Fraktur“ gemeint…

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz-Ranking Termhäufigkeiten bei der Lexikonvalidierung

Termhäufigkeiten zum Relevanz-Ranking Anfrage: „Statistik Todesursache“ Welches Dokument passt am besten zur Anfrage?

Termhäufigkeiten zum Relevanz-Ranking TF/IDF: Term-Frequenz/Inverse Dokument-Frequenz Prinzip: statistische Ermittlung der „Wichtigkeit“ von einzelnen Wörtern Prämisse: Wörter, welche in einem Dokument häufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts

Termhäufigkeiten zum Relevanz-Ranking Inverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten: „Todesursache“ kommt in 100 Dokumenten vor. IDF(Todesursache)=: 100/1000000=0.0001 „Statistik“ kommt in 1000 Dokumenten vor. IDF(Statistik) = 1000/1000000=0.001 Termfrequenz anhand von Dokument 1 „Todesursache kommt 3mal vor, „Statistik“ 1mal und insgesamt beinhaltet das Dokument 100 Wörter. TF(Todesursache) = 3/100 = 0.03 TF(Statistik) = 1/100 = 0.01 Termfrequenz anhand von Dokument 2 „Todesursache“ kommt 2mal vor, „Statistik“ 7mal und insgesamt hat das Dokument 300 Wörter. TF(Todesursache) = 2/300 = 0.007 TF(Statistik) = 7/300 = 0.023 Das Ranking ergibt sich aus dem Verrechnen von TF und IDF: Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000 Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610 Dokument 1 erhält ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist!

Nutzung von Termhäufigkeiten bei der medizinischen Dokumentenrecherche Kontext: Semantische Indexierung Termhäufigkeiten zur lexikalischer Disambiguierung Termhäufigkeiten zum Relevanz-Ranking Termhäufigkeiten bei der Lexikonvalidierung

Vergleichbare Korpora in unterschiedlichen Spachen Sprache 1 Sprache 2 Sprache 3 Diabetes mellitus tipo 1 (ya no debe usarse el término Diabetes Insulino dependiente) Característicamente se da en la época temprana de la vida y se debe a un deficit absoluto de insulina, dado por la destrucción de las células beta del páncreas por procesos autoinmunes ó idiopáticos. Sólo cerca de 1 entre cada 20 personas diabéticas tiene diabetes tipo 1, la cual se presenta más frecuentemente en jóvenes y niños. Este tipo de diabetes se conocía como diabetes mellitus insulinodependiente o diabetes juvenil. En ella, las células beta del páncreas no producen insulina o apenas producen. En los primeros años de la enfermedad suelen quedar reservas pancreáticas que permiten una secreción mínima de insulina (este período se denomina luna de miel). Diabetes Typ 1 Bei diesem Krankheitstyp zerstört das körpereigene Immunsystem selbst im Rahmen einer Entzündungsreaktion die insulinproduzierenden Betazellen in der Bauchspeicheldrüse. Diese Entzündungsreaktion setzt wahrscheinlich bereits in frühester Kindheit ein. Die daraus folgende Zerstörung der insulinproduzierenden Betazellen führt nach und nach zu einem zunehmenden Insulinmangel. Erst wenn ca. 80-90 Prozent der Beta-Zellen zerstört sind manifestiert sich ein Typ-1-Diabetes. In der Anfangsphase der Erkrankung ist also durchaus noch eine kleine Insulinrestproduktion vorhanden. Type 1 diabetes mellitus Type 1 diabetes mellitus — formerly known as insulin-dependent diabetes (IDDM), childhood diabetes, is characterized by loss of the insulin-producing beta cells of the islets of Langerhans of the pancreas leading to a deficiency of insulin. It should be noted that there is no known preventative measure that can be taken against type 1 diabetes. Most people affected by type 1 diabetes are otherwise healthy and of a healthy weight when onset occurs. Diet and exercise cannot reverse or prevent type 1 diabetes. Sensitivity and responsiveness to insulin are usually normal, especially in the early stages. kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa — formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ) , childreniijxjza diabetesiiiryxa , featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa . noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,tomadikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa . mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa , dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriqzqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os . justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum , la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira . phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza . {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra . primariiiyiya 80 - 90 percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} - 1 - diabetesiiiryxa . iniiiqija incipientiiiwqwa phasiiiykwa .

Häufigkeit semantischer Deskriptoren diabetesiiiryxa candiwijixa {kindiiqzyqa,guyijwpkka, speciesippjxwa} hum ( ya nooneiiirxqa debe usediiqkyxa el stoppiijqwpa diabetesiiiryxa insuliniiqwrwa {referriiiijqa,addictiiiiqka} ) featuriikqjra se da iniiiqija la epoca precociijijra la vida se debe a un deficit absolutiiiikpa insuliniiqwrwa , dado viaijpiwpa la nooneiiirxqa changiiiiwqa las cellulrijzyqa beta del pancreas viaijpiwpa {vorgangripiqx,techniqueiikqpja,decursipqyxp,lawsuitriqzqxa} selfiijrria imunipyqpza opippwqa idio pathiiiyiia os . justijqjjqa cerca hum entre cada dois zero someoneiijpyxa diabetesiiiryxa tiene diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} hum , la cual se showijpiqqa morerijyqpa frequentriqjwia iniiiqija diabetesiiiryxa {kindiiqzyqa,guyijwpkka,speciesippjxwa} 1 pathiiiyiia {kindiiqzyqa,guyijwpkka,speciesippjxwa} destriiprwqa somaliijxxza selfiijrria imunipyqpza systemiiqipra iniiiqija frameiijizqa phlogistiiixxka reactiizwrxa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa iniiiqija pancreatiiqxira . phlogistiiixxka reactiizwrxa sitijwwkya likeliijrkjka iniiiqija precociijijra esteriiiykra childreniijxjza . {aftereffectiiizypa,followiiipqza} destriiprwqa insuliniiqwrwa productiiiyjya betaiiipxya cellulrijzyqa ledijzjrka reariiipjxa reariiipjxa highgrade_extent_or_weightrikxxka insuliniiqwrwa deficriprzra . primariiiyiya 80 - 90 percentipjwwka beta - cellulrijzyqa destriiprwqa manifestiikpixa {kindiiqzyqa,guyijwpkka,speciesippjxwa} - 1 - diabetesiiiryxa . iniiiqija incipientiiiwqwa phasiiiykwa . kindiiqzyqa 1 diabetesiiiryxa candiwijixa kindiiqzyqa 1 diabetesiiiryxa candiwijixa — formeriiijyxa knowledgiiiprqa insuliniiqwrwa - {referriiiijqa,addictiiiiqka} diabetesiiiryxa ( iddm ) , childreniijxjza diabetesiiiryxa , featuriikqjra lostiiqpxka insuliniiqwrwa - productiiiyjya betaiiipxya cellulrijzyqa isletiijrjka langerhansiikirxa pancreatiiqxira {plumbiiiqjya,leaderijqirpa,ledijzjrka,deriviiirxka} deficriprzra insuliniiqwrwa . noted nooneiiirxqa knowledgiiiprqa precautiiipyya {activitiiiizpa,mensurationiixwika} {kannerikyik,couldiiiiiya,lataijwipz} {beveragiiipjia,extractiiiywra,gripiijkipa,genommiikryi,tomadikqypz} againstiiijyra kindiiqzyqa 1 diabetesiiiryxa . mostiizrpwa {nationiikzrya,someoneiijpyxa} {loveiikjwwa,infestatiiipqwa} kindiiqzyqa 1 diabetesiiiryxa healthiijjiwa 1000 100 10 1

Portugiesisch/ Englisch MID MIDCod f1 f2 Sa Sd S Peopleriixypa 500783 6352 0,1466 1,0000 0,7155 Fromiwiixxa 060077 4676 0,1079 0,7026 Icasikprrr 023555 3022 0,0697 0,6899 Lttroriiyira 500805 10 3331 0,0771 0,9940 0,6884 Mostiizrpwa 009536 2783 0,0642 0,6881 Enteikywjw 028616 2069 0,0477 0,6826 Icakiirwy 200568 1945 0,0449 0,6816 Sometimerijixja 501071 1708 0,0394 0,6798 Pressureiiipkza 000329 1833 2 0,0423 0,9978 0,6793 Portugiesisch/ Englisch MID MIDCod f1 f2 Sa Sd S zpippxra 303375 1 3428 0,0590 0,9994 0,6859 keinemrikzrp 502953 1803 0,0310 1,0000 0,6770 barriqrqp 504543 1021 0,0176 0,6725 eingesetztijiikr 010025 972 0,0167 0,6722 ipippry 303358 956 0,0165 dispensatrijiyya 501088 845 0,0145 0,6715 langerrikzzwa 502996 780 0,0134 0,6711 siterijjrka 501152 681 0,0117 0,6706 Deutsch / Englisch

Zusammenfassung

Vielen Dank! Kontakt: stschulz@uni-freiburg.de Medizinische Informatik

Proof-of-Concepts I Deutsche Zentralbibliothek für Medizin (ZBMed), Köln: Bibliographische Suche über 300.000 einsprachige Dokumente Deutsches Institut für Medizinische Dokumentation und Klassifikation (DIMDI), Köln: Bibliographische Suche über 600.000 mehrsprachige Dokumente Health on the Net Foundation (HON), Genf: Studie mit 5,000 Dokumenten Hautklinik Freiburg: „Google“-Suche für patientenbezogene Daten (EPA)

Proof-of-Concepts II Hautklinik Freiburg:

Proof-of-Concepts III ICD Kodierbrowser: Suche in 15,278 ICD-Codes

OHSUMED-Corpus (Hersh et al., 1994) Evaluation OHSUMED-Corpus (Hersh et al., 1994) Untermenge von MEDLINE ~300,000 englische Dokumente 106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche, Portugiesische, Spanische, Französische und Schwedische Relevanz der Dokumente manuell markiert

Evaluation 121% 111% 99% 84% 79% 79%

Hermann-Paul-Centrum für Linguistik Probabilistische Methoden in der Anwendung und Pflege eines medizinischen Dokumentenrecherchesystems Stefan Schulz, Kornél Markó, Rüdiger Klar Universitätsklinikum Freiburg Abteilung Medizinische Informatik

Medizinische Informatik in Freiburg Medizinische Informatik Direktor Prof. Dr. Klar Wissenschaftliche Schwerpunkte Patientenbezogene Dienste: Krankenhausinformationssystem Patientenunabhängige Auskunfts- und Wissensdienste Grundlagen zur Modellierung medizinischer Konzepte Begriffliche Ordnungssysteme in der Medizin Konzepte zur Integration von Elektronischer Patientenakte und medizinischen Wissensdiensten Text-Retrieval / Cross-Language Retrieval

Medizinische Suchmaschinen Textrecherche Medizinische Suchmaschinen Unterschiedliche Dokumentenarten Mehrsprachigkeit Diverse Nutzergruppen Hohe sprachliche Variabilität Dokumentenumfang

Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

Konventionelle Suchtechnologien Todesursachenstatistik Statistik Todesursachen Statistik Todesursache

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Anstieg der Cholestase-parameter Konventionelle Suchtechnologien Anstieg der Cholestase-parameter

Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz…

Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… “Correlation of high blood pressure and lesion of the white substance”

Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… “Correlation of high blood pressure and lesion of the white substance”

Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… “Correlation of high blood pressure and lesion of the white substance”

Konventionelle Suchtechnologien Korrelation von Hypertonie und Läsion der Weißen Substanz… “Correlation of high blood pressure and lesion of the white substance”

Wortbildung Linguistische Phänomene erschweren die medizinische Textrecherche! Flexion: Erkrankungen, Bluthochdrucks, Risiken Derivation: Krankheit, diastolisch, leukozytär Komposition: Gemeinde|krank|en|pflege|station|en Akronyme: AIDS, SARS, OECD Orthografische Varianten: Kolonkarzinom, Colonkarzinom, Ösophagus, Oesophagus, ulzerierend, ulcerierend Synonyme: Bluthochdruck – Hypertonie, Prophylaxe – Vorbeugung Eigennamen: Aspirin, ASS, ...

MORPHOSAURUS Lösungen Subwörter sind atomare konzeptuelle oder linguistische Einheiten: Stämme: verletz, entzünd, magen, schleimhaut Präfixe: ab-, an-, anti-, ge-, hervor-, hyper- Suffixe: -abel, -bar, -haft, -ion, -itis Infixe: -o-, -s- Synonyme Subwörter werden (sprachübergreifend) in Äquivalenzklassen gruppiert: #derma = { derm, cutis, skin, haut, kutis, pele, cutis, piel, … } #inflamm = { inflam, -itic, -itis, entzuend, -itis, -itisch, inflam, flog, inflam, flog, -iolitis, ... } Empirische Kriterien: hypertonie = {#hyper #tens #blood}

MORPHOSAURUS Ressourcen Subwort-Lexikon: Organisiert Subwörter (atomare Bedeutungseinheiten) in mehreren Sprachen Subwort-Thesaurus: Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) Segmentierungsalgorithmus: Extraktion von Subwörtern und Zuweisung von Äquivalenzklassen

MORPHOSAURUS Ressourcen (www.morphosaurus.net) Subwort-Lexikon: Organisiert Subwörter (atomare Bedeutungseinheiten) in mehreren Sprachen Subwort-Thesaurus: Gruppiert synonyme Lexikoneinträge (auch sprachübergreifend) Segmentierungsalgorithmus: Extraktion von Subwörtern und Zuweisung von Äquivalenzklassen

MORPHOSAURUS : Lexikon & Thesaurus Subwort Lexikon: Subwort Thesaurus: Gruppierung von synonymen Subwörtern gastr stomach Magen ventric chamber hepat,hepar liver leber -itis, inflamm, entzünd nephr- ren kidney niere #GASTR #CHAMBER #HEPAR #INFLAMM Hier noch ein kurzer Überblick über die Beschaffenheit der Ressourcen, die wir verwenden: Im Lexikon wird eine Liste von Subwörtern verwaltet. Diese werden im Thesaurus zu Äquivalenzklassen gruppiert und erhalten einen eindeutigen Bezeichne. KLICK #NEPHR

Beispiel High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ...

Beispiel Original Normalisierung Orthografische Regeln High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung

Zerlegungsalgorithmus Beispiel High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon

Zerlegungsalgorithmus Beispiel High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon #up tsh #value #suggest #diagnost #primar #hypo #thyre Interlingua #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus Semantische Normalisierung

Zerlegungsalgorithmus Beispiel High TSH values suggest the diagnosis of primary hypo-thyroidism ... Original Erhöhte TSH-Werte erlauben die Diagnose einer primären Schilddrüsenunterfunktion ... high tsh values suggest the diagnosis of primary hypo-thyroidism ... erhoehte tsh werte erlauben die diagnose einer primaeren schilddruesenunterfunktion ... Orthografische Regeln Normalisierung high tsh value s suggest the diagnos is of primar y hypo thyroid ism er hoeh te tsh wert e erlaub en die diagnos e einer primaer en schilddruese n unter funktion Zerlegungsalgorithmus Subwort-Lexikon Interlingua #up tsh #value #suggest #diagnost #primar #hypo #thyre Semantische Normalisierung #up tsh #value #permit #diagnost #primar #thyre #hypo #function Subwort- Thesaurus

Suche mit MORPHOSAURUS

Suche mit MORPHOSAURUS

Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz…

#correl #hyper #tens #lesion #whit #matter Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

#correl #hyper #tens #lesion #whit #matter Suche mit MORPHOSAURUS Korrelation von Hypertonie und Läsion der Weißen Substanz… #correl #hyper #tens #lesion #whit #matter

Benutzerfreundlichkeit Todesursachenstatistik Statistik Todesursache Statistik Todesursachen

Benutzerfreundlichkeit Todesursachenstatistik Statistik Todesursache Statistik Todesursachen

Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

Mehrsprachigkeit Behandlung Hirnhautentzündung automatic all

Mehrdeutigkeit Quellen von Mehrdeutigkeiten sind lexikalische Ressourcen (vgl. WordNet) „Bruch“ -> {#fraktur, #hernie} Ohne Weltwissen nicht interpretierbar: „Bruch des Fingers“, „Bruch in der Leiste“ Alternative: Kontextinformationen und Wortstatistiken zur Disambiguierung

Corpusstatistik w = 4

Corpusstatistik [#fraktur #finger] = 3 w = 4

[#finger #unterbrech] = 1 Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1

Corpusstatistik [#fraktur #finger] = 3 [#finger #unterbrech] = 1 [#unterbrech #kontin.] = 1 .

Disambiguierung Ambiguität von „Bruch des Fingers“: [{ #fraktur,#hernie} #finger] [#fraktur #finger] = 3 [#hernie #finger] = 0 -> mit „Bruch“ ist „Fraktur“ gemeint…

Relevanzkriterien zum Ranking Anfrage: „Statistik Todesursache“ Welches Dokument passt am besten zur Anfrage?

Modell mit Termhäufigkeiten TF/IDF: Term-Frequenz/Inverse Dokument-Frequenz Prinzip: statistische Ermittlung der „Wichtigkeit“ von einzelnen Wörtern Prämisse: Wörter, welche in einem Dokument häufig, in anderen aber sehr selten sind, sind gute Deskriptoren des Dokumenteninhalts

Beispiel Inverse Dokument-Frequenz anhand einer Kollektion von 1 Mio Dokumenten: „Todesursache“ kommt in 100 Dokumenten vor. IDF(Todesursache)=: 100/1000000=0.0001 „Statistik“ kommt in 1000 Dokumenten vor. IDF(Statistik) = 1000/1000000=0.001 Dokument 1 „Todesursache kommt 3mal vor, „Statistik“ 1mal und insgesamt beinhaltet das Dokument 100 Wörter. TF(Todesursache) = 3/100 = 0.03 TF(Statistik) = 1/100 = 0.01 Dokument 2 „Todesursache“ kommt 2mal vor, „Statistik“ 7mal und insgesamt hat das Dokument 300 Wörter. TF(Todesursache) = 2/300 = 0.007 TF(Statistik) = 7/300 = 0.023 Das Ranking ergibt sich aus dem Verrechnen von TF und IDF: Dokument 1: (0.03/0.0001) * (0.01/0.001) = 300 * 10 = 3000 Dokument 2: (0.007/0.0001) * (0.023/0.001) = 70 * 23 = 1610 Dokument 1 erhält ein besseres Ranking, obwohl Dokument 2 insgesamt mehr Treffer aufweist!

Zusammenfassung

Vielen Dank! Kontakt: Medizinische Informatik

Proof-of-Concepts I Deutsche Zentralbibliothek für Medizin (ZBMed), Köln: Bibliographische Suche über 300.000 einsprachige Dokumente Deutsches Institut für Medizinische Dokumentation und Klassifikation (DIMDI), Köln: Bibliographische Suche über 600.000 mehrsprachige Dokumente Health on the Net Foundation (HON), Genf: Studie mit 5,000 Dokumenten Hautklinik Freiburg: „Google“-Suche für patientenbezogene Daten (EPA)

Proof-of-Concepts II Hautklinik Freiburg:

Proof-of-Concepts III ICD Kodierbrowser: Suche in 15,278 ICD-Codes

OHSUMED-Corpus (Hersh et al., 1994) Evaluation OHSUMED-Corpus (Hersh et al., 1994) Untermenge von MEDLINE ~300,000 englische Dokumente 106 englische Benutzeranfragen, von Experten übersetzt ins Deutsche, Portugiesische, Spanische, Französische und Schwedische Relevanz der Dokumente manuell markiert

Evaluation 121% 111% 99% 84% 79% 79%