Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.

Slides:



Advertisements
Ähnliche Präsentationen
Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Advertisements

Kohonennetze für Information Retrieval mit User Feedback
Ein einführendes Tutorial
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Recherchieren im Internet:. Überblick über den Suchraum Kataloge Suchmaschinen Datenbanken Metasucher.
IuK2003, Osnabrück Th. Severiens, ViFaPhys Virtuelle Fachbibliothek Physik Ein kooperatives Dienstleistungsangebot für die Physik.
Einführung in die Informationswissenschaft
DIPF - IZ Bildung - InfoWeb Weiterbildung (IWWB) - Marc Rittberger © DIPF Informationsqualität von Weiterbildungsdatenbanken des InfoWeb Weiterbildung.
Bibliothekskurs Sozialwissenschaften
Projekt von Rechenzentrum und Universitätsbibliothek Erste Inhalte: Linguistik-Server Essen (LINSE), Semesterapparate Physik Ziel: Bereitstellung einer.
Auswertung der Interviews
Daffodil Such-/ Agentensystem zur Literaturrecherche in Digitalen Bibliotheken Prototypen PIANO, 2000 zielt auf strategische Unterstützung während Informationssuchprozesses.
„Philosopher‘s Index“ by OvidSP
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Datenbanken Eine große Sammlung von elektronisch gespeicherten Daten, die mittels Computer abfragbar sind. Elektronische Bibliothekskataloge (OPAC) sind.
Integrierte Übersetzungsprozesse
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
ExKurs B_ERICvarianten 1/10 Dr. Barbara Hoffmann LiteraturKompetenz Varianten der gleichen Datenbank: ERIC Seit 1966 besteht die vom Education.
Bibliographische Datenbanken
Spree SoSe 2011 Qualität einer Erschließung Relevanz- und Vollständigkeitsrate Zur Erinnerung: Zweck der Erschließung von Dokumenten/Texten ist nicht in.
Qualitätskriterien zur Beurteilung von Dokumentationen
Indexierung - Verschlagwortung
IndexierungsqualitätEinstieg
Fortgeschrittene Methoden der Wissensorganisation
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft.
Entitäten Extraktion Einführung
2 Beispiele von Wissensorganisation 2.0 del.icio.us und BibSonomy vorgestellt von Sylvia Fabricius-Wiese 08. April 2008.
ProQuest Business Databases
Einführung zur Literaturrecherche in der Sportwissenschaft Bibliothekskataloge und Datenbanken Herbstsemester 2013 Gabriela Scherrer
Der Einsatz des Linksolvers in der ThULB – verbesserter Service für den Bibliotheksnutzer.
Komponenten eines Information Retrieval Systems
Entwurf und Realisierung einer digitalen Bibliothek zur Verwaltung von Notenhandschriften Dipl.-Ing. Temenushka Ignatova Datenbank- und Informationssysteme,
9. Information Retrieval und Medizinische Literaturdatenbanken
Im Internet geht alles schneller, aber es dauert länger
Suchstrategie und erste Recherchen
SS 2011 Workshop Recherche Hepperger. Workshop Recherche – SS 2011 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige Literatur.
WS 2009/10 Workshop Bakk Hepperger. Workshop Bakk – WS 2009/10 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige Literatur Sammelwerke.
SS 2010 Information Systems 1 Hepperger. Information Systems 1 – SS 2010 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige Literatur.
WS 2010/11 Recherchestrategien Hepperger. Recherchestrategien – WS 2010/11 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige.
WS 2009/10 Workshop Diplomanden Hepperger. Workshop Diplomanden – WS 2009/10 Wissenschaftliche Publikationsformen Monographien – selbständige Literatur.
SS 2012 Einführung Bibliothek IWM Hepperger. Einführung Bibliothek IWM – SS 2012 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige.
SS 2012 Workshop Diplomanden Hepperger. Workshop Diplomanden – SS 2012 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige Literatur.
SS 2010 Workshop Diplomanden Hepperger. Workshop Diplomanden – SS 2010 Wissenschaftliche Publikationsformen Monographien – selbständige Literatur Sammelwerke.
Übersicht Grundlegende Begriffe Recherchestrategie
SS 2010 Workshop Bakk Hepperger. Workshop Bakk – SS 2010 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige Literatur Sammelwerke.
SS 2011 Einführung Bibliothek Hepperger. Einführung Bibliothek – SS 2011 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige Literatur.
SS 2010 Recherchestrategien Hepperger. Recherchestrategien – SS 2010 Klassische Wissenschaftliche Publikationsformen Monographien – selbständige Literatur.
Abteilung für automatische Sprachverarbeitung
Der SLUB Katalog und die Semantische Suche Ralf Talkenberger, SLUB / 21. März 2012.
Eine kurze Einführung.  Software zur Erstellung eines Dokumenten- servers  Dient zur Aufbewahrung von allen Typen von digitalen Inhalten (Texte, Bilder,
„Wenn du den Fluss Halys überschreitest, wirst du
Terminologie Wortschatz der Fachsprache
Page Seminar IM - Ablauf EIN Thema auswählen Zumindest 3 Artikel (fast sicher englischsprachig) aus guten Journals heraus suchen.
MareNet Marine Research Institutions & Documents Worldwide Ein elektronischer Informationsdienst für die Meeresforschung Michael Hohlfeld, Institute for.
GEO-LEO GEO - Library Experts Online Suchen und browsen im Informationsressourcen zum System Erde und dem All Mag. Sonja Hasslehner-Wimmer.
92. Deutscher Bibliothekartag
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Fachportale Eine Einführung anhand 2 Beispiele: Fachportal Pädagogik Medpilot.
Ziel und Stellenwert der Literaturrecherche 1.Was suchen? Sie kennen die verschiedenen Quellen für die erfolgreiche Literaturrecherche 2.Wo suchen? Sie.
Semesterprojekt Präsentation Thema 1 Test-Arten
Formale Methoden Semesterprojekt Präsentation Thema 1 Test-Arten Fernstudium Master WI, MWI 10F Jan te Kock,
Kolloquium für Bachelor- und Masterarbeitskandidaten/innen -TU Dortmund WS 15/16 Marcus Schmidt.
MEDLINE MEDLINE = MEDLARS online = Medical Literature Analysis Retrieval System.
1. Betreuer: Prof. Dr. Jörg Striegnitz 2. Betreuer: Dr. Martin Schindler Kontextsensitive Autocompletion für Klassendiagramme in der UML/P Florian Leppers.
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
Konzepte von Terminologie-Datenbanken
 Präsentation transkript:

Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen Kolloquium 21. November 2006

Das Sprachproblem im Retrieval Wie kann jemand, der nach Violinen sucht, darauf aufmerksam gemacht werden, daß auch Geigen angeboten werden?

Das Sprachproblem im Information Retrieval Dialekte und Kontext Der Search Term Recommender 3 Forschungsfragen Experimentelles Web Interface Gliederung

Sucher Autor Ideenraum Frage Text Such- anfrage Treffer! Abgleich zwischen Autor und IR System  Indexierung Abgleich zwischen Sucher und IR System  Anfrageformulierung Dokument Information Retrieval = Eine Übung im Sprachabgleich

Sucher Such- anfrage Dokument Treffer! Information Retrieval Eine “gute” Suchanfrage beschreibt sowohl: die Frage des Suchers (Informationsbedarf) als auch die relevanten Dokumente in Bezug auf die Anfrage ?

Semiotik:  Unendliche Semiose Informationswissenschaft:  Indexierungskonsistenz  Die Suchwortauswahl ist für den Erfolg eines Retrievalvorgangs ausschlaggebend. Das Sprachproblem

Wie kann man die Mehrdeutigkeit der Sprache (Ambiguität) für die Suchwortauswahl verringern? Sprachphilosophie (Wittgenstein) Sprache wird eindeutiger in: speziellen Kontexten und Dialekten Dialekte und Kontext

Lösungsansatz für die Suchwortauswahl: ausgehend vom Dialekt und Kontext einer spezialisierten Gemeinschaft (  Fachsprache) unter Berücksichtigung der Indexierungssprache (für den Sprachabgleich im Retrieval)

Search Term Recommender = Hilfe zur Suchwortauswahl Such- anfrage Fach / Spezialisierung Meinten Sie… Fachbegriff / Deskriptor Dokumente Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung Fach / Spezialisierung

Search Term Recommender

Unterstützung bei der Suchwortauswahl (Anfrageerweiterung & Reformulation) Automatische Klassifikation Terminologie Mapping (Crosskonkordanzen) Search Term Recommender: Anwendungsgebiete

1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

Physik, Elektronik & Elektrotechnik, Computer- und Automatisierungstechnik Dokument: Autor, Titel, Quelle, Publikationsjahr, Abstract, Inspec Thesaurus Deskriptoren, Inspec Klassifikationsnummern Testkollektion: Inspec Dokumente Deskriptoren / Dokument6,99 Begriffe Inspec Deskriptoren8.447

Medizin und Gesundheitswesen Dokument: Autor, Titel, Quelle, Publikationsjahr, Publikationstyp, Abstract, MESH Schlagwörter Testkollektion: Medline Ohsumed Dokumente MESH Schlagwörter / Dokument3,11 Begriffe MESH Schlagwörter12.140

1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

Domainterminologie (Fachsprache) Publikationsquelle Bibliometrische Analyse Analyse sozialer Netzwerke Fachklassifikation Bestimmung von Dokumenten aus einem Fachbereich

Inspec Testkollektion oberste Kategorien in der Inspec Klassifikation 3 Spezialisierungen: Physics, Electrical & Electronic Engineering, Computers & Control Ohsumed Testkollektion Zeitschriften nach Fachgebiet geordnet (Medline Journal Descriptors) 33 Spezialisierungen: z.B. Anesthesiology, Dentistry, Endocrinology, Hematology, Nutrition, Radiology Identifizierung eines Fachbereiches

1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

 Unterschiede in der Fachsprache (Überlappung von Begriffen)  Unterschiede in der Indexierungssprache (Überlappung von Deskriptoren)  Unterschiede in den Suchwortvorschlägen des Search Term Recommenders (Überlappung der vorgeschlagenen Suchworte) Unterschiede in der Sprache

Inspec Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: Überlappung der Deskriptoren: 87% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%

Ohsumed Fachsprachen (Überlappung der Begriffe) Analysierte Begriffe: Überlappung der Deskriptoren: 32% (in 2 oder 3 Fachbereichen) Überlappung der vorgeschlagenen Suchworte: 30%

1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? 2.Sind Fachsprachen wirklich unterschiedlich? 3.Ist ein Fachsprachenfokus wirklich besser?  2 bibliographische Datenbanken im Test: Inspec Medline (Ohsumed Kollektion) Search Term Recommender - Forschungsfragen

Vorschlagen von Deskriptoren für Dokumente Testfall: Automatische Klassifikation Titel STR Titel Deskriptor 1 Deskriptor 2 Anfrage Spezieller STR für Fachbereich Allgemeiner STR für gesamte Datenbank Vergleich: Titel Deskriptor 1 Deskriptor 2 Titel Deskriptor 1 Deskriptor 2 Wer schlägt bessere Deskriptoren vor?

Titel: “A search for clusters of protostars in Orion cloud cores” Testfall: Automatische Klassifikation Ursprüngliche Deskriptoren Fachbereich Search Term Recommender Allgemeiner Search Term Recommender 1.Infrared sources (astronomical) 2.Interstellar molecular clouds 3.Pre-main- sequence stars 4.Star associations 1.Clouds 2.Clusters of galaxies 3.Interstellar molecular clouds 4.Star clusters 5.Pre-main-sequence stars 1.Search problems 2.Clouds 3.Atomic clusters 4.Clusters of galaxies 5.Interstellar molecular clouds Evaluation bei 5 vorgeschlagenen Deskriptoren: Recall: Trefferquote2/4 = 0,51/4 = 0,25 Precision: Genauigkeit2/5 = 0,41/5 = 0,20

Inspec STR Testdokumente: Fachbereiche: 3 Erste 3 Vorschläge: Recall: +13,6% Precision: +11,2%

Ohsumed STR Erste 3 Vorschläge : Recall: +26% Precision: +25,6% Testdokumente: Fachbereiche: 33

Inspec /inspec/inspec.html Ohsumed /ohsumed/ohsumed.html Experimentelle Web Interfaces

1.Wie können Fachbereiche und Fachsprachen in einer Informationskollektion identifiziert werden? –Inspec: Fachklassifikation –Ohsumed: Journal Fachbereich 2.Sind Fachsprachen wirklich unterschiedlich? –Inspec Fachbereiche: Begriff Überlappung 50%, Suchwort Überlappung 30% –Ohsumed Fachbereiche: Begriff Überlappung 30%, Suchwort Überlappung 30% 3.Macht ein Fachsprachenfokus die Suche effizienter? –Inspec Fachbereiche: 10% Verbesserung über allg. STR –Ohsumed Fachbereiche: 25% Verbesserung über allg. STR Zusammenfassung

Verminderung des Sprachproblems im Retrieval Search Term Recommender: See also: FIDDLES 50% Discount! Danke!