Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen Kolloquium 21. November 2006
Das Sprachproblem im Retrieval Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten werden?
Das Sprachproblem im Information Retrieval Dialekte und Kontext Der Search Term Recommender 3 Forschungsfragen Experimentelles Web Interface Gliederung
Sucher Autor Ideenraum Frage Text Such- anfrage Treffer! Abgleich zwischen Autor und IR System Indexierung Abgleich zwischen Sucher und IR System Anfrageformulierung Dokument Information Retrieval = Eine Übung im Sprachabgleich
Sucher Such- anfrage Dokument Treffer! Information Retrieval Eine “gute” Suchanfrage beschreibt sowohl: die Frage des Suchers (Informationsbedarf) als auch die relevanten Dokumente in Bezug auf die Anfrage ?
Semiotik: Unendliche Semiose Informationswissenschaft: Indexierungskonsistenz Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend. Das Sprachproblem
Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern? Sprachphilosophie (Wittgenstein) Sprache wird eindeutiger in: speziellen Kontexten und Dialekten Dialekte und Kontext
Lösungsansatz für die Suchwortauswahl: ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft ( Fachsprache) unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)
Search Term Recommender = Hilfe zur Suchwortauswahl Such- anfrage Fach / Spezialisierung Meinten Sie… Fachbegriff / Deskriptor Dokumente Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung
Search Term Recommender
Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation) Automatische Klassifikation Terminologie Mapping (Crosskonkordanzen) Search Term Recommender: Anwendungsgebiete
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern Testkollektion: Inspec Dokumente Deskriptoren / Dokument6,99 Begriffe Inspec Deskriptoren8.447
Medizin und Gesundheitswesen Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter Testkollektion: Medline Ohsumed Dokumente MESH Schlagwörter / Dokument3,11 Begriffe MESH Schlagwörter12.140
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
Domainterminologie (Fachsprache) Publikationsquelle Bibliometrische Analyse Analyse sozialer Netzwerke Fachklassifikation Bestimmung von Dokumenten aus einem Fachbereich
Inspec Testkollektion oberste Kategorien in der Inspec Klassifikation 3 Spezialisierungen: Physics, Electrical & Electronic Engineering, Computers & Control Ohsumed Testkollektion Zeitschriften nach Fachgebiet geordnet (Medline Journal Descriptors) 33 Spezialisierungen: z.B. Anesthesiology, Dentistry, Endocrinology, Hematology, Nutrition, Radiology Identifizierung eines Fachbereiches
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
Unterschiede in der Fachsprache (Überlappung von Begriffen) Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren) Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte) Unterschiede in der Sprache
Inspec Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%
Ohsumed Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
Vorschlagen von Deskriptoren für Dokumente Testfall: Automatische Klassifikation Titel STR Titel Deskriptor 1 Deskriptor 2 Anfrage Spezieller STR für Fachbereich Allgemeiner STR für gesamte Datenbank Vergleich: Titel Deskriptor 1 Deskriptor 2 Titel Deskriptor 1 Deskriptor 2 Wer schlägt bessere Deskriptoren vor?
Titel: “A search for clusters of protostars in Orion cloud cores” Testfall: Automatische Klassifikation Ursprüngliche Deskriptoren Fachbereich Search Term Recommender Allgemeiner Search Term Recommender 1.Infrared sources (astronomical) 2.Interstellar molecular clouds 3.Pre-main- sequence stars 4.Star associations 1.Clouds 2.Clusters of galaxies 3.Interstellar molecular clouds 4.Star clusters 5.Pre-main-sequence stars 1.Search problems 2.Clouds 3.Atomic clusters 4.Clusters of galaxies 5.Interstellar molecular clouds Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote2/4 = 0,51/4 = 0,25 Precision: Genauigkeit2/5 = 0,41/5 = 0,20
Inspec STR Testdokumente: Fachbereiche: 3 Erste 3 Vorschläge: Recall: +13,6% Precision: +11,2%
Ohsumed STR Erste 3 Vorschläge : Recall: +26% Precision: +25,6% Testdokumente: Fachbereiche: 33
Inspec /inspec/inspec.html Ohsumed /ohsumed/ohsumed.html Experimentelle Web Interfaces
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? –Inspec: Fachklassifikation –Ohsumed: Journal Fachbereich 2.Sind Fachsprachen wirklich unterschiedlich? –Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort Überlappung 30% –Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort Überlappung 30% 3.Macht ein Fachsprachenfokus die Suche effizienter? –Inspec Fachbereiche: 10% Verbesserung über allg. STR –Ohsumed Fachbereiche: 25% Verbesserung über allg. STR Zusammenfassung
Verminderung des Sprachproblems im Retrieval Search Term Recommender: See also: FIDDLES 50% Discount! Danke!