Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Käthe Sommer Geändert vor über 9 Jahren
1
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen Kolloquium 21. November 2006
2
Das Sprachproblem im Retrieval Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten werden?
3
Das Sprachproblem im Information Retrieval Dialekte und Kontext Der Search Term Recommender 3 Forschungsfragen Experimentelles Web Interface Gliederung
4
Sucher Autor Ideenraum Frage Text Such- anfrage Treffer! Abgleich zwischen Autor und IR System Indexierung Abgleich zwischen Sucher und IR System Anfrageformulierung Dokument Information Retrieval = Eine Übung im Sprachabgleich
5
Sucher Such- anfrage Dokument Treffer! Information Retrieval Eine “gute” Suchanfrage beschreibt sowohl: die Frage des Suchers (Informationsbedarf) als auch die relevanten Dokumente in Bezug auf die Anfrage ?
6
Semiotik: Unendliche Semiose Informationswissenschaft: Indexierungskonsistenz Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend. Das Sprachproblem
7
Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern? Sprachphilosophie (Wittgenstein) Sprache wird eindeutiger in: speziellen Kontexten und Dialekten Dialekte und Kontext
8
Lösungsansatz für die Suchwortauswahl: ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft ( Fachsprache) unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)
9
Search Term Recommender = Hilfe zur Suchwortauswahl Such- anfrage Fach / Spezialisierung Meinten Sie… Fachbegriff / Deskriptor Dokumente Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung
10
Search Term Recommender
11
Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation) Automatische Klassifikation Terminologie Mapping (Crosskonkordanzen) Search Term Recommender: Anwendungsgebiete
12
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
13
Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern Testkollektion: Inspec Dokumente427.340 Deskriptoren / Dokument6,99 Begriffe60.601 Inspec Deskriptoren8.447
14
Medizin und Gesundheitswesen Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter Testkollektion: Medline Ohsumed Dokumente168.463 MESH Schlagwörter / Dokument3,11 Begriffe39.762 MESH Schlagwörter12.140
15
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
16
Domainterminologie (Fachsprache) Publikationsquelle Bibliometrische Analyse Analyse sozialer Netzwerke Fachklassifikation Bestimmung von Dokumenten aus einem Fachbereich
17
Inspec Testkollektion oberste Kategorien in der Inspec Klassifikation 3 Spezialisierungen: Physics, Electrical & Electronic Engineering, Computers & Control Ohsumed Testkollektion Zeitschriften nach Fachgebiet geordnet (Medline Journal Descriptors) 33 Spezialisierungen: z.B. Anesthesiology, Dentistry, Endocrinology, Hematology, Nutrition, Radiology Identifizierung eines Fachbereiches
18
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
19
Unterschiede in der Fachsprache (Überlappung von Begriffen) Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren) Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte) Unterschiede in der Sprache
20
Inspec Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: 60.601 Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%
21
Ohsumed Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: 11.663 Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%
22
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser? 2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen
23
Vorschlagen von Deskriptoren für Dokumente Testfall: Automatische Klassifikation Titel STR Titel Deskriptor 1 Deskriptor 2 Anfrage Spezieller STR für Fachbereich Allgemeiner STR für gesamte Datenbank Vergleich: Titel Deskriptor 1 Deskriptor 2 Titel Deskriptor 1 Deskriptor 2 Wer schlägt bessere Deskriptoren vor?
24
Titel: “A search for clusters of protostars in Orion cloud cores” Testfall: Automatische Klassifikation Ursprüngliche Deskriptoren Fachbereich Search Term Recommender Allgemeiner Search Term Recommender 1.Infrared sources (astronomical) 2.Interstellar molecular clouds 3.Pre-main- sequence stars 4.Star associations 1.Clouds 2.Clusters of galaxies 3.Interstellar molecular clouds 4.Star clusters 5.Pre-main-sequence stars 1.Search problems 2.Clouds 3.Atomic clusters 4.Clusters of galaxies 5.Interstellar molecular clouds Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote2/4 = 0,51/4 = 0,25 Precision: Genauigkeit2/5 = 0,41/5 = 0,20
25
Inspec STR Testdokumente: 42.735 Fachbereiche: 3 Erste 3 Vorschläge: Recall: +13,6% Precision: +11,2%
26
Ohsumed STR Erste 3 Vorschläge : Recall: +26% Precision: +25,6% Testdokumente: 18.733 Fachbereiche: 33
27
Inspec http://metadata.sims.berkeley.edu/str /inspec/inspec.html Ohsumed http://metadata.sims.berkeley.edu/str /ohsumed/ohsumed.html Experimentelle Web Interfaces
28
1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? –Inspec: Fachklassifikation –Ohsumed: Journal Fachbereich 2.Sind Fachsprachen wirklich unterschiedlich? –Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort Überlappung 30% –Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort Überlappung 30% 3.Macht ein Fachsprachenfokus die Suche effizienter? –Inspec Fachbereiche: 10% Verbesserung über allg. STR –Ohsumed Fachbereiche: 25% Verbesserung über allg. STR Zusammenfassung
29
Verminderung des Sprachproblems im Retrieval Search Term Recommender: See also: FIDDLES 50% Discount! Danke! vivienp@sims.berkeley.edu
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.