Semantische Heterogenität bei datenbankübergreifenden Recherchen

Slides:



Advertisements
Ähnliche Präsentationen
Probleme der Integration und Heterogenität bei der Recherche textueller Dokumente vascoda - infoconnex - SOWIPORT September 2004, Hamburg Jürgen Krause.
Advertisements

Zentrales Verzeichnis Digitalisierter Drucke
Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Kohonennetze für Information Retrieval mit User Feedback
Zugänge zum Wissen der Berufsbildungsforschung
Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Entwurf eines Bibliothekssystems
Dr. P. Schirmbacher Humboldt-Universität zu Berlin Kooperationsformen von Bibliotheken, Medienzentren und Rechenzentren an Hochschulen Gliederung:
Library of Labs Co-funded by the Community programme eContentplus Library of Labs WP 4: Metadaten Definition Universitätsbibliothek Stuttgart (UBS)
Virtuelle Fachbibliothek Romanischer Kulturkreis
UB/TIB 2 Das innovative Kompetenz- und Servicezentrum für Literatur- und Informationsversorgung UNIVERSITÄTSBIBLIOTHEK HANNOVER UND TECHNISCHE.
© ZPID – Universität Trier – Mitglied der Leibniz-Gemeinschaft Jutta von Maurice – IuK Das Psychologische Datenarchiv PsychData Stand: März 2003.
IuK 2003 Ansätze zur TeX-to-MathML Konvertierung - Semantik durch fachspezifische Usepackages Prof. Dr. Günter Törner Sebastian Pokutta Universität Duisburg-Essen.
Natascha Schumann TU Darmstadt IuK-Konferenz, März 2003
Zum Stand und den Perspektiven des Kompetenznetzwerks Neue Dienste, Standardisierung, Metadaten (bmb+f) Rudi Schmiede Infrastrukturen für innovative Digital.
Der Informationsverbund Pädagogik Sozialwissenschaften Psychologie
GESIS Bernd Hermes, Heiko Hellweg, Dr. Maximilian Stempfhuber Informationszentrum Sozialwissenschaften, Bonn Unterstützung kooperativer Verfahren beim.
PADLR Submodul Modular Content Archives Ein Content Browser für Lehr- materialien aus der Elektrotechnik Dipl.-Ing. Mark Painter Institut für Nachrichtentechnik.
Bernd Preuss ZPID, Universität Trier
Ein Projekt des Ibero-Amerikanischen Institutes Berlin, des Institutes für Iberoamerika-Kunde Hamburg, der Staats- und Universitätsbibliothek Bremen und.
Pfade durch den Informationsdschungel – Die Virtuelle Fachbibliothek Ibero-Amerika / Spanien / Portugal Gefördert durch Partner von.
Die Elektronische Zeitschriftenbibliothek
Inhaltlich orientierter Zugriff auf unstrukturierte Daten
Auswertung der Interviews
Literaturverwaltung und Wissensorganisation
Suchen und Finden von WWW-Dokumenten Internet-Tutorium WS 99/00 Plenum am :
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
QBE in MS Access formulieren
Neue Datenbanktechnologien und –anwendungen
Der Umgang mit qualitativ erhobenen Daten: Strategien der Datenanalyse
1 KM-Modul: Knowledge Wizard Personalisierte Verknüpfung von Wissensprozessen und Geschäftsprozessen auf Basis von Metainformationen Dr. Marc Diefenbruch.
WIESEL – Integration von Wissensmanagement und E-Learning auf der Basis von Semantic Web Technologien Matthias Rust, XML-Tage 2004, Berlin WIESEL Integration.
Access 2000 Datenbanken.
Indexierung - Verschlagwortung
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Fortgeschrittene Methoden der Wissensorganisation
Theorie soziotechnischer Systeme – 12 Thomas Herrmann Informatik und Gesellschaft FB Informatik Universität Dortmund iundg.cs.uni-dortmund.de.
Zum Stand der Crosskonkordanzen in vascoda
Überlegungen zur Architektur eines Fachinformations-Netzwerkes am Beispiel des CeGIM Mehrwert ist es nicht nur, Daten von ihren Quellen zu den Nutzern.
Arbeitsgruppe Dokumentenrepositorium Integration von Open Data Universitätsbibliothek.
Plenum UB Bochum Integration von Literaturdaten aus Open Data Universitätsbibliothek Bochum.
Arbeitsstand und Arbeitsbedarf Bibliotheken
Gottfried Vossen 5. Auflage 2008 Datenmodelle, Datenbanksprachen und Datenbankmanagementsysteme Kapitel 14: Datenintegration.
Normdaten und Metadaten Die Idee eines Internationalen Authority File Christel Hengel Die Deutsche Bibliothek META-LIB-Workshop, 22. Oktober 2002, Die.
Zur Rolle der Universitätsbibliotheken im Kontext der digitalen Weltbibliothek Vortrag auf der 37. Jahrestagung der Gesellschaft für Informatik am
Geo-Informations-Systeme
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Orientierungswoche Master of Education Bildungswissenschaften WS 2011/2012.
Digitale Bibliothek Allgemeiner Teil. 2 Über die Präsentation In der folgenden Präsentation erfahren Sie, welche digitalen Ressourcen Ihnen die Universitätsbibliothek.
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Offsite –Optimierung bzw. wo Sie noch gefunden werden
Jahrestagung der ASpB - München
Bericht der Gruppe Avatare Universität zu Köln BA Medienkulturwissenschaft/Medieninformatik Historisch-Kulturwissenschaftliche Informationsverarbeitung.
Structured Query Language
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
Wiss-Stadt Zentrum der Medizinischen Informatik, Klinikum der J.W.Goethe-Universität, © W.Giere 2001 Patient, Arzt und Wissenschaft Neue Möglichkeiten.
Virtuelle Lehre im Angebot der Universitätsbibliothek DFN-Projekt META-AKAD Metadatenzugang für akademisches Lehr- und Lernmaterial Referentin : Barbara.
„Wenn du den Fluss Halys überschreitest, wirst du
XML Die “E-Lance Economy” oder die “Digital Economy” stellt neue Anforderungen an Funktionalität im Netz. XML wurde vom World Wide Web Consortium (W3C)
Grundlagen und Bewertungskriterien für unterschiedliche Assessments
Text Encoding Initiative Universität zu Köln Daten- und Metadatenstandards Seminarleitung: Patrick Sahle Seminarleitung: Patrick Sahle Referentin: Anna.
Methoden der Sozialwissenschaften
Ergebnisbericht zum Thema Bedarf an Fremdsprachen im Bereich Tourismus erstellt nach 82 extensiven Interviews, durchgeführt in sieben europäischen Ländern.
Die Übersetzung von “Diskursdialekten” für die Suche: Das Mapping zwischen Fachsprachen und Indexierungssprachen Vivien Petras Vortrag im Berliner Bibliothekswissenschaftlichen.
Dreamteam: Web 2.0 und der Katalog Anne Christensen und Thomas Hapke GBV-Verbundkonferenz
1 Zahlreiche Transformationen - Achtung Hochspannung Meike Klettke.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
Digital Repository Auffindbare Publikationen. Was sind Repositorien ? Als Repositorium bezeichnet man eine Struktur in der Dokumente Organisiert abgelegt.
 Präsentation transkript:

Semantische Heterogenität bei datenbankübergreifenden Recherchen Probleme der Integration digitaler Bibliothekssysteme: Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn Zentrum für Psychologische Information und Dokumentation (ZPID) der Universität Trier

Szenario: Information Retrieval Information Retrieval = Text Retrieval Internet: retrieval in riesiger + ständig wachsender Textmenge GOOGLE = ca. 2.ooo.ooo.ooo web pages pro Tag ca. 1oo.ooo.ooo Anfragen Standard: Volltext-Suche (+Boole) optimiert durch individuelle Heuristiken Output: unpräzise + umfangreich Texte ohne Struktur  Output ohne Struktur keine semantische Aufbereitung W3C: Ontology Inference Layer (OIL) attention & performance... GO! Tim Berners-Lee: Ontology Inference Layer = Semantik ins Web! 2.620.000

Information Retrieval: Meta-Daten Normal-User kann (will?) explorieren Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision Semantik  effiziente Suche Fach-Datenbanken als Spezialisierung mit Meta-Daten Minimum: Titel, Autor, Quelle, etc. Standards entwickeln sich: DCI, RDF ... Vorteil: Thesaurus erschlossene Datenbasis indiziert über kontrolliertes Fachvokabular Klassifikation und Relationen Fach-Datenbank (Meta-Daten) 12

Information Retrieval: Thesauri Nachteil: Kenntnis der jeweiligen Erschließung / Indizierung unumgänglich akzeptabel für einen Thesaurus inakzeptabel für mehrere Datenbanken zur Zeit (traditionell) getrennte DB nach wissenschaftlicher Disziplin nach Organisation nach Verwertungsprinzip Internet fördert / provoziert aber unifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert User sollte nicht erst Datenbanken aufspüren müssen, sondern schnell hochwertige Informationen finden können. Fach-Datenbank A (Meta-Daten A) Fach-Datenbank B (Meta-Daten B) Fach-Datenbank C (Meta-Daten C)

Thesauri im Internet unser Ansatz: Kommunikation aller relevanten (oder selegierten) Datenbanken im Hintergrund Aufbereitung der User-Query für die verschiedenen DBMS (zB. via XML) dabei semantischer Transfer zwischen den verschiedenen Thesauri Brave New World: ein Such-Portal und eine Anfrage gegen jede gewünschte Datenbasis Fach-Datenbank C (Meta-Daten C) Fach-Datenbank B (Meta-Daten B) Fach-Datenbank A (Meta-Daten A) 62

Informations-Verbund BSP Deutsches Institut für Internationale Pädagogische Forschung (DIPF) ca. 5oo.ooo Literaturnachweise ab 1980 'Thesaurus' mit ca. 6o.ooo Termen Informationszentrum Sozialwissenschaften (IZ) ca. 250 000 Literaturnachweise ab 1945 Thesaurus mit ca. 11.ooo Termen Zentrum für Psychologische Information und Dokumentation (ZPID) ca. 170 000 Literaturnachweise ab 1977 Thesaurus mit ca. 7.ooo Termen Universitätsbibliothek Erlangen-Nürnberg (UB Erlangen) Universitäts- und Stadtbibliothek Köln (USB Köln) Saarländische Universitäts- und Landesbibliothek (SULB) Fach-Datenbanken 1..n (Meta-Daten)

BSP: Heterogene Systeme Probleme Ähnliche Semantik, unterschiedliche Benennung Aufgeschlossenheit / Offenheit Klinikum / Krankenhaus ... Ähnliche Benennungen, unterschiedliche Semantik Verband, Bank ... interne Differenzierungen Prä- / Postkoordination Jugend - Arbeitslosigkeit Mimik Angst Frustration Psyche Gesicht Gesichtsausdruck Gesichtsmuskeln Gesichtszüge Kommunikationsfertigkeiten Nonverbale Kommunikation Angst Angststörungen Angstverarbeitung Erfolgsangst Kastrationsangst Leistungsangst Furcht Frustration Leistungsmotivation Misserfolg ...? ?? TB TC TA

BSP: Heterogene Systeme bloße Term-Weitergabe an andere Datenbanken wäre inadäquat Verfehlung des wirklichen Suchziels nutzlose Vergrößerung der Treffermenge analog bei Mehrsprachigkeit bloßes Übersetzen reicht nicht aus Sprach- bzw. Kultur-spezifische Semantik muß auch hier berücksichtigt werden Child discipline Cognition Double bind interaction Mind Perception Sensation ?? TB TC TA

Heterogenität: Lösungsansätze Intellektuelle Verfahren Von Fachleuten erstellte Module ("Konkordanzen"), die uni- oder bi-direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden kostenintensiv in Aufbau und Wartung Quantitativ-Statistische Verfahren Co-Occurence Analysis, Cond. Prob. Neural Networks umfangreiche Datenbasis notwendig prinzipiell wartungsarm, aber Datenbasis-abhängig Scheinkorrelationen intellektuelle Überarbeitung unverzichtbar: semi-automatische Verfahren Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Konk. AB Relation ... Thesaurus A  Output Term B Input Layer Hidden Layer

Heterogenität: Intellektuelle Zuordnung Equivalent ( männlichkeit = männlichkeit ) Related ( lernprozess ^ lernen ) Broader Term mensch > menschliche natur Narrower Term lernerfolg < lernen jeweils auch AND / OR - verknüpft jeweils dreistufige Relevanz hoch, mittel, gering SWD relation relevance ZPID

Heterogenität: Statistik Voraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000) Parallel-Korpora / Parallel-Verschlagwortung Ergebnis: Korrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B eingesetzt ebenfalls als Gewichts-Vektoren für die automatische Interpretation als Konkordanz-Tabelle Thes. A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Dokumente Doc 1 Doc 2 Doc 3 ... Doc n Conditional Probability Neural Networks

Probleme automatischer Verfahren keine Spezifizierung der Relationsart nicht geeignet zur 1:1 - Abbildung, Ergebnisse sind von der Art n:m (Zuordnung 'Semantischer Räume') abhängig vom Input-Material Parallel-Korpus ist meist nicht repräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete führt zu Scheinkorrelationen Testkonstruktion – Ausländer Gesundheit - Altern Berufliche Reintegration – Rückenschmerzen Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren kein Problem für P(w|x) Neural Networks lernen hier kaum aƒ

Ansatz: Konkordanzen Bidirektionale Konkordanzen zwischen allen ZPID relation relevance SWD Bidirektionale Konkordanzen zwischen allen beteiligten Thesauri Thes. A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Dokumente Doc 1 Doc 2 Doc 3 ... Doc n

Probleme bei Konkordanzen Thesauri werden permanent verändert / erweitert / umstrukturiert Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Konk. AB Relation ... Verschlagwortung ist permanente intellektuelle Arbeit

Semantische Heterogenität bei datenbankübergreifenden Recherchen Vielen Dank für Ihre Aufmerksamkeit! Semantische Heterogenität bei datenbankübergreifenden Recherchen Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Konk. AB Relation ...