Semantische Heterogenität bei datenbankübergreifenden Recherchen Probleme der Integration digitaler Bibliothekssysteme: Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn Zentrum für Psychologische Information und Dokumentation (ZPID) der Universität Trier
Szenario: Information Retrieval Information Retrieval = Text Retrieval Internet: retrieval in riesiger + ständig wachsender Textmenge GOOGLE = ca. 2.ooo.ooo.ooo web pages pro Tag ca. 1oo.ooo.ooo Anfragen Standard: Volltext-Suche (+Boole) optimiert durch individuelle Heuristiken Output: unpräzise + umfangreich Texte ohne Struktur Output ohne Struktur keine semantische Aufbereitung W3C: Ontology Inference Layer (OIL) attention & performance... GO! Tim Berners-Lee: Ontology Inference Layer = Semantik ins Web! 2.620.000
Information Retrieval: Meta-Daten Normal-User kann (will?) explorieren Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision Semantik effiziente Suche Fach-Datenbanken als Spezialisierung mit Meta-Daten Minimum: Titel, Autor, Quelle, etc. Standards entwickeln sich: DCI, RDF ... Vorteil: Thesaurus erschlossene Datenbasis indiziert über kontrolliertes Fachvokabular Klassifikation und Relationen Fach-Datenbank (Meta-Daten) 12
Information Retrieval: Thesauri Nachteil: Kenntnis der jeweiligen Erschließung / Indizierung unumgänglich akzeptabel für einen Thesaurus inakzeptabel für mehrere Datenbanken zur Zeit (traditionell) getrennte DB nach wissenschaftlicher Disziplin nach Organisation nach Verwertungsprinzip Internet fördert / provoziert aber unifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert User sollte nicht erst Datenbanken aufspüren müssen, sondern schnell hochwertige Informationen finden können. Fach-Datenbank A (Meta-Daten A) Fach-Datenbank B (Meta-Daten B) Fach-Datenbank C (Meta-Daten C)
Thesauri im Internet unser Ansatz: Kommunikation aller relevanten (oder selegierten) Datenbanken im Hintergrund Aufbereitung der User-Query für die verschiedenen DBMS (zB. via XML) dabei semantischer Transfer zwischen den verschiedenen Thesauri Brave New World: ein Such-Portal und eine Anfrage gegen jede gewünschte Datenbasis Fach-Datenbank C (Meta-Daten C) Fach-Datenbank B (Meta-Daten B) Fach-Datenbank A (Meta-Daten A) 62
Informations-Verbund BSP Deutsches Institut für Internationale Pädagogische Forschung (DIPF) ca. 5oo.ooo Literaturnachweise ab 1980 'Thesaurus' mit ca. 6o.ooo Termen Informationszentrum Sozialwissenschaften (IZ) ca. 250 000 Literaturnachweise ab 1945 Thesaurus mit ca. 11.ooo Termen Zentrum für Psychologische Information und Dokumentation (ZPID) ca. 170 000 Literaturnachweise ab 1977 Thesaurus mit ca. 7.ooo Termen Universitätsbibliothek Erlangen-Nürnberg (UB Erlangen) Universitäts- und Stadtbibliothek Köln (USB Köln) Saarländische Universitäts- und Landesbibliothek (SULB) Fach-Datenbanken 1..n (Meta-Daten)
BSP: Heterogene Systeme Probleme Ähnliche Semantik, unterschiedliche Benennung Aufgeschlossenheit / Offenheit Klinikum / Krankenhaus ... Ähnliche Benennungen, unterschiedliche Semantik Verband, Bank ... interne Differenzierungen Prä- / Postkoordination Jugend - Arbeitslosigkeit Mimik Angst Frustration Psyche Gesicht Gesichtsausdruck Gesichtsmuskeln Gesichtszüge Kommunikationsfertigkeiten Nonverbale Kommunikation Angst Angststörungen Angstverarbeitung Erfolgsangst Kastrationsangst Leistungsangst Furcht Frustration Leistungsmotivation Misserfolg ...? ?? TB TC TA
BSP: Heterogene Systeme bloße Term-Weitergabe an andere Datenbanken wäre inadäquat Verfehlung des wirklichen Suchziels nutzlose Vergrößerung der Treffermenge analog bei Mehrsprachigkeit bloßes Übersetzen reicht nicht aus Sprach- bzw. Kultur-spezifische Semantik muß auch hier berücksichtigt werden Child discipline Cognition Double bind interaction Mind Perception Sensation ?? TB TC TA
Heterogenität: Lösungsansätze Intellektuelle Verfahren Von Fachleuten erstellte Module ("Konkordanzen"), die uni- oder bi-direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden kostenintensiv in Aufbau und Wartung Quantitativ-Statistische Verfahren Co-Occurence Analysis, Cond. Prob. Neural Networks umfangreiche Datenbasis notwendig prinzipiell wartungsarm, aber Datenbasis-abhängig Scheinkorrelationen intellektuelle Überarbeitung unverzichtbar: semi-automatische Verfahren Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Konk. AB Relation ... Thesaurus A Output Term B Input Layer Hidden Layer
Heterogenität: Intellektuelle Zuordnung Equivalent ( männlichkeit = männlichkeit ) Related ( lernprozess ^ lernen ) Broader Term mensch > menschliche natur Narrower Term lernerfolg < lernen jeweils auch AND / OR - verknüpft jeweils dreistufige Relevanz hoch, mittel, gering SWD relation relevance ZPID
Heterogenität: Statistik Voraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000) Parallel-Korpora / Parallel-Verschlagwortung Ergebnis: Korrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B eingesetzt ebenfalls als Gewichts-Vektoren für die automatische Interpretation als Konkordanz-Tabelle Thes. A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Dokumente Doc 1 Doc 2 Doc 3 ... Doc n Conditional Probability Neural Networks
Probleme automatischer Verfahren keine Spezifizierung der Relationsart nicht geeignet zur 1:1 - Abbildung, Ergebnisse sind von der Art n:m (Zuordnung 'Semantischer Räume') abhängig vom Input-Material Parallel-Korpus ist meist nicht repräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete führt zu Scheinkorrelationen Testkonstruktion – Ausländer Gesundheit - Altern Berufliche Reintegration – Rückenschmerzen Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren kein Problem für P(w|x) Neural Networks lernen hier kaum aƒ
Ansatz: Konkordanzen Bidirektionale Konkordanzen zwischen allen ZPID relation relevance SWD Bidirektionale Konkordanzen zwischen allen beteiligten Thesauri Thes. A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Dokumente Doc 1 Doc 2 Doc 3 ... Doc n
Probleme bei Konkordanzen Thesauri werden permanent verändert / erweitert / umstrukturiert Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Konk. AB Relation ... Verschlagwortung ist permanente intellektuelle Arbeit
Semantische Heterogenität bei datenbankübergreifenden Recherchen Vielen Dank für Ihre Aufmerksamkeit! Semantische Heterogenität bei datenbankübergreifenden Recherchen Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Konk. AB Relation ...