9. Information Retrieval und Medizinische Literaturdatenbanken Wintersemester 2010/11 Dozent: Univ.-Prof. Dr. med. Stefan Schulz
? Dokumentenretrieval Anfrage (Query) Sucher- gebnisse Kollektion von Dokumenten (Dokumentationseinheiten)
Problem 1: eindeutige Formulierung der Suchanfrage
Mehrdeutige Begriffe Ein Patient kennt das Wort "Ventrikel" nicht und gibt das Wort in eine Suchmaschine ein Wo liegt das Problem?
Ventrikel
Zwei Sprachphänomene, die die Textrecherche erschweren Synoymie: Ein Gegenstand lässt sich durch unterschiedliche sprachliche Zeichen ausdrücken Homonymie (Ambiguität) : Unterschiedliche Gegenstände werden mit demselben sprachlichen Ausdruck belegt
Relevante Dokumente
Suchanfrage
Relevante Dokumente Suchanfrage
Relevante Dokumente Suchanfrage Suchmaschine
Relevante Dokumente Suchanfrage
Eine Suchanfrage… Teilt den Dokumentenraum in Relevante Nicht relevante Dokumente Eine Suchmaschine (IR-System) Findet relevante, aber auch nichtrelevante Verfehlt relevante, schließt nichtrelevante aus
Gefundene Dokumente Nichtgefundene Dokumente Relevante Dokumente Nichtrelevante Dokumente
Precision (Genauigkeit): Anteil der relevanten an den gefundenen Dokumenten Gefundene Dokumente Nichtgefundene Dokumente Relevante Dokumente Nichtrelevante Dokumente
Recall (Ausbeute, Sensitivität): Anteil der gefundenen relevanten an allen relevanten Dokumenten Gefundene Dokumente Nichtgefundene Dokumente Relevante Dokumente Nichtrelevante Dokumente
Übung zu Precision / Recall Ein Lehrbuch enthält Krankheitsbeschreibungen zu : Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis. Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant betrachtet. Wie ist die Precision, wie der Recall dieser Methode ? Gegeben eine große (n > 1000) Dokumentenkollektion, was ist einfacher zu messen, Precision oder Recall ?
Übung zu Precision / Recall Ein Lehrbuch enthält Krankheitsbeschreibungen zu : Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis. Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant betrachtet. Wie ist die Precision, wie der Recall dieser Methode ? Gegeben eine große (n > 1000) Dokumentenkollektion, was ist einfacher zu messen, Precision oder Recall ?
Indexierung Feststellen und Kennzeichnen des Inhalts einer Dokumentationseinheit mit Hilfe sogenannter Deskriptoren Zuordnung von Deskriptoren zu Dokumentationseinheiten: Indexieren Manuelles Indexieren: Zuweisung von Deskriptoren aus einem vorgegebenen Vokabular durch Experten
Manuelles Indexieren Beispiel:MEDLINE Fachkräfte weisen jedem Dokument Deskriptoren aus einem Indexierungsvokabular zu. Indexierungsvokabular: MeSH (Medical Subject Headings) Multihierarchisches Schlagwortsystem
Automatisches Indexieren Beispiel: GOOGLE "Crawler" bewegen sich automatisch / zufallsgesteuert durch das World Wide Web und erstellen / aktualisieren Index Indexierungsvokabular: sämtliche Textwörter minus Stoppwörter
Suchmaschinen Gleichen Anfrage ab mit (asynchron erstelltem) Index Auswahl und Verknüpfung der Indexterms bedingt die Dokumentenselektion Schilddrüsen- krankheiten Radioaktivität Schilddrüsen- krankheiten Radioaktivität
Suchmaschinen Gleichen Anfrage ab mit (asynchron erstelltem) Index Auswahl und Verknüpfung der Indexterms bedingt die Dokumentenselektion OR AND
Anfragesyntax Vorsicht: Jede Suchmaschine hat ihre eigene Syntax Typische Operatoren Boolesche Operatoren: AND OR NOT Trunkierung, z.B. magen* Phrasen: "sick sinus syndrome" Synonyme: ~Kidney (z.B. Google, aber Vorsicht! )
Medline-Datenbank Inhalt: Bibliographische Angaben zu biomedizinischen Publikation in (ausgewählten) wissenschaftlichen Fachzeitschriften und Sammelbänden. Anbieter: National Library of Medicine (USA) 5300 Journals 37 Sprachen Referenzen von 1949 bis heute 2000 – 4000 neue Referenzen täglich
PubMed Suchoberfläche Anbieter: National Library of Medicine Freier Zugang zur Medline Datenbank http://pubmed.gov
x 1000 http://www.ncbi.nlm.nih.gov/About/tools/restable_stat_pubmed.html
~ 5.300 Medline Journals Umfang in PubMed Aktualität Am 21.09.2010 Medline in process Supplied by Publisher, Other: nicht oder unvollständig verschlagwortet nicht mit MeSH suchbar 20.185.853 Zitate Oldmedline wird sukzessive in Medline integriert Medline: Verschlagwortung nach einigen Tagen bis zu einigen Monaten ~ 5.300 Medline Journals
MEDLINE - Datenbankeintrag
MEDLINE - Datenbankeintrag
Medical Subject Headings (MeSH) Ca. 25.000 MeSH-Deskriptoren 160.000 Entry Terms (Synonyme und spezifischere Terms) 76 Subheadings (“Qualifier”) “Therapy”, “Prevention and Control” Definitionen Indexierungszeitraum http://www.nlm.nih.gov/pubs/factsheets/mesh.html
MeSH Poly-hierarchische Struktur (ein Term kann mehrere Eltern haben)
Welche Wörter sollen in einer Textwortsuche verwendet werden? Prävention von Ösophagus-varizen-blutungen
2. Efficacy of prophylactic sclerotherapy for prevention of Suche nach Primärprophylaxe von Ösophagusvarizenblutungen 1. Beta-blocker plus nitrate for primary prophylaxis of variceal bleeding. 2. Efficacy of prophylactic sclerotherapy for prevention of a first variceal hemorrhage. 3. Beta-blockers for the prevention of variceal haemorrhage in patients with cirrhosis. 4. Primary prevention of bleeding from esophageal varices.
Prevention of variceal bleeding (Textwortsuche) Hemorrhage(s) Haemorrhage(s) Variceal Varices Varix Prophylaxis Prevention
Prevention of variceal bleeding (Textwortsuche, Trunkierung) Hemorrhag* Haemorrhag* Varic* Prohyla* Prevent*
Prevention of variceal bleeding (Textwortsuche, log. Operatoren) (bleed* OR hemorrhag* OR haemorrhag*) AND varic* AND (prophyla* OR prevent*) Bleed* Hemorrhag* Haemorrhag* Varic* Prophyla* Prevent* OR AND OR
Medline-Zitat (Bei PubMed: www.pubmed.gov) MeSH/subheading (=qualifier) * Hauptaspekt des Artikels
MeSH=Medical Subject Headings Thesaurus (kontrolliertes Vokabular), erstellt von der National Library of Medicine (NLM) - ca. 25.000 Begriffe (mit Verweisen und Synonymen) - polyhierarchische Struktur („Tree“ structure) Suche nach allen Unterbegriffen in einem Schritt mit „Explode“ (interne OR-Verbindung)
Vor- und Nachteile der Suche mit MeSH Vorteile: Synonyme und versch. Schreibweisen werden automatisch berücksichtigt. Bei hierarchischem Aufbau Suche nach Ober- und Unterbegriffen in einem Schritt. Inhaltliche Zusammenhänge sind suchbar durch MeSH/Subheading-Kombination. Bsp.: Gastrointestinal Hemorrhage/prevention & control Artikel durch Fachpersonal verschlagwortet vergebenes Schlagwort ist Gegenstand der Arbeit. Nachteile: Uneinheitliche Verschlagwortung (Indexierung) Zutreffendes wird nicht gefunden. Aktuelle, noch nicht verschlagwortete Artikel werden nicht gefunden (Komponente Premedline). Für neue Substanznamen oder neue medizinische Terme existiert noch kein MeSH.
Suche einschränken
Suche weiter einschränken
Search history
Automatic term mapping Naive Suche Automatischer Abgleich mit Indexen MeSH, Journal, Author
Expansion von Trunkierungen
Suchstrategien
Evtl. weitere Aspekte Aspekt 1 Aspekt 2 Suchfilter Frage in Blöcke zerlegen (PICO) Evtl. weitere Aspekte Aspekt 1 Aspekt 2 Suchfilter MeSH-Term(s) Explode: erweitern Subheadings: eingrenzen MeSH-Term(s) Explode: erweitern Subheadings: eingrenzen z.B. Cochrane highly sensitive search filter for randomized controlled trials. Suchbegriffe finden Textwörter (verwandte Begriffe, Synonyme, Trunkierung) Textwörter (verwandte Begriffe, Synonyme, Trunkierung) Begriffe kombinieren OR OR Aspekte kombinieren AND AND