Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.

Ähnliche Präsentationen


Präsentation zum Thema: "Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen."—  Präsentation transkript:

1 Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen Kolloquium 21. November 2006

2 Das Sprachproblem im Retrieval Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten werden?

3 Das Sprachproblem im Information Retrieval Dialekte und Kontext Der Search Term Recommender 3 Forschungsfragen Experimentelles Web Interface Gliederung

4 Sucher Autor Ideenraum Frage Text Such- anfrage Treffer! Abgleich zwischen Autor und IR System  Indexierung Abgleich zwischen Sucher und IR System  Anfrageformulierung Dokument Information Retrieval = Eine Übung im Sprachabgleich

5 Sucher Such- anfrage Dokument Treffer! Information Retrieval Eine “gute” Suchanfrage beschreibt sowohl: die Frage des Suchers (Informationsbedarf) als auch die relevanten Dokumente in Bezug auf die Anfrage ?

6 Semiotik:  Unendliche Semiose Informationswissenschaft:  Indexierungskonsistenz  Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend. Das Sprachproblem

7 Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern? Sprachphilosophie (Wittgenstein) Sprache wird eindeutiger in: speziellen Kontexten und Dialekten Dialekte und Kontext

8 Lösungsansatz für die Suchwortauswahl: ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft (  Fachsprache) unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)

9 Search Term Recommender = Hilfe zur Suchwortauswahl Such- anfrage Fach / Spezialisierung Meinten Sie… Fachbegriff / Deskriptor Dokumente Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung

10 Search Term Recommender

11 Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation) Automatische Klassifikation Terminologie Mapping (Crosskonkordanzen) Search Term Recommender: Anwendungsgebiete

12 1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

13 Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern Testkollektion: Inspec Dokumente427.340 Deskriptoren / Dokument6,99 Begriffe60.601 Inspec Deskriptoren8.447

14 Medizin und Gesundheitswesen Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter Testkollektion: Medline Ohsumed Dokumente168.463 MESH Schlagwörter / Dokument3,11 Begriffe39.762 MESH Schlagwörter12.140

15 1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

16 Domainterminologie (Fachsprache) Publikationsquelle Bibliometrische Analyse Analyse sozialer Netzwerke Fachklassifikation Bestimmung von Dokumenten aus einem Fachbereich

17 Inspec Testkollektion oberste Kategorien in der Inspec Klassifikation 3 Spezialisierungen: Physics, Electrical & Electronic Engineering, Computers & Control Ohsumed Testkollektion Zeitschriften nach Fachgebiet geordnet (Medline Journal Descriptors) 33 Spezialisierungen: z.B. Anesthesiology, Dentistry, Endocrinology, Hematology, Nutrition, Radiology Identifizierung eines Fachbereiches

18 1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

19  Unterschiede in der Fachsprache (Überlappung von Begriffen)  Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren)  Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte) Unterschiede in der Sprache

20 Inspec Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: 60.601 Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%

21 Ohsumed Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: 11.663 Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%

22 1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

23 Vorschlagen von Deskriptoren für Dokumente Testfall: Automatische Klassifikation Titel STR Titel Deskriptor 1 Deskriptor 2 Anfrage Spezieller STR für Fachbereich Allgemeiner STR für gesamte Datenbank Vergleich: Titel Deskriptor 1 Deskriptor 2 Titel Deskriptor 1 Deskriptor 2 Wer schlägt bessere Deskriptoren vor?

24 Titel: “A search for clusters of protostars in Orion cloud cores” Testfall: Automatische Klassifikation Ursprüngliche Deskriptoren Fachbereich Search Term Recommender Allgemeiner Search Term Recommender 1.Infrared sources (astronomical) 2.Interstellar molecular clouds 3.Pre-main- sequence stars 4.Star associations 1.Clouds 2.Clusters of galaxies 3.Interstellar molecular clouds 4.Star clusters 5.Pre-main-sequence stars 1.Search problems 2.Clouds 3.Atomic clusters 4.Clusters of galaxies 5.Interstellar molecular clouds Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote2/4 = 0,51/4 = 0,25 Precision: Genauigkeit2/5 = 0,41/5 = 0,20

25 Inspec STR Testdokumente: 42.735 Fachbereiche: 3 Erste 3 Vorschläge: Recall: +13,6% Precision: +11,2%

26 Ohsumed STR Erste 3 Vorschläge : Recall: +26% Precision: +25,6% Testdokumente: 18.733 Fachbereiche: 33

27 Inspec http://metadata.sims.berkeley.edu/str /inspec/inspec.html Ohsumed http://metadata.sims.berkeley.edu/str /ohsumed/ohsumed.html Experimentelle Web Interfaces

28 1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? –Inspec: Fachklassifikation –Ohsumed: Journal Fachbereich 2.Sind Fachsprachen wirklich unterschiedlich? –Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort Überlappung 30% –Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort Überlappung 30% 3.Macht ein Fachsprachenfokus die Suche effizienter? –Inspec Fachbereiche: 10% Verbesserung über allg. STR –Ohsumed Fachbereiche: 25% Verbesserung über allg. STR Zusammenfassung

29 Verminderung des Sprachproblems im Retrieval Search Term Recommender: See also: FIDDLES 50% Discount! Danke! vivienp@sims.berkeley.edu


Herunterladen ppt "Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen."

Ähnliche Präsentationen


Google-Anzeigen