Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Semantische Heterogenität bei datenbankübergreifenden Recherchen

Ähnliche Präsentationen


Präsentation zum Thema: "Semantische Heterogenität bei datenbankübergreifenden Recherchen"—  Präsentation transkript:

1 Semantische Heterogenität bei datenbankübergreifenden Recherchen
Probleme der Integration digitaler Bibliothekssysteme: Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn Zentrum für Psychologische Information und Dokumentation (ZPID) der Universität Trier

2 Szenario: Information Retrieval
Information Retrieval = Text Retrieval Internet: retrieval in riesiger + ständig wachsender Textmenge GOOGLE = ca. 2.ooo.ooo.ooo web pages pro Tag ca. 1oo.ooo.ooo Anfragen Standard: Volltext-Suche (+Boole) optimiert durch individuelle Heuristiken Output: unpräzise + umfangreich Texte ohne Struktur  Output ohne Struktur keine semantische Aufbereitung W3C: Ontology Inference Layer (OIL) attention & performance... GO! Tim Berners-Lee: Ontology Inference Layer = Semantik ins Web!

3 Information Retrieval: Meta-Daten
Normal-User kann (will?) explorieren Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision Semantik  effiziente Suche Fach-Datenbanken als Spezialisierung mit Meta-Daten Minimum: Titel, Autor, Quelle, etc. Standards entwickeln sich: DCI, RDF ... Vorteil: Thesaurus erschlossene Datenbasis indiziert über kontrolliertes Fachvokabular Klassifikation und Relationen Fach-Datenbank (Meta-Daten) 12

4 Information Retrieval: Thesauri
Nachteil: Kenntnis der jeweiligen Erschließung / Indizierung unumgänglich akzeptabel für einen Thesaurus inakzeptabel für mehrere Datenbanken zur Zeit (traditionell) getrennte DB nach wissenschaftlicher Disziplin nach Organisation nach Verwertungsprinzip Internet fördert / provoziert aber unifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert User sollte nicht erst Datenbanken aufspüren müssen, sondern schnell hochwertige Informationen finden können. Fach-Datenbank A (Meta-Daten A) Fach-Datenbank B (Meta-Daten B) Fach-Datenbank C (Meta-Daten C)

5 Thesauri im Internet unser Ansatz: Kommunikation aller relevanten (oder selegierten) Datenbanken im Hintergrund Aufbereitung der User-Query für die verschiedenen DBMS (zB. via XML) dabei semantischer Transfer zwischen den verschiedenen Thesauri Brave New World: ein Such-Portal und eine Anfrage gegen jede gewünschte Datenbasis Fach-Datenbank C (Meta-Daten C) Fach-Datenbank B (Meta-Daten B) Fach-Datenbank A (Meta-Daten A) 62

6 Informations-Verbund BSP
Deutsches Institut für Internationale Pädagogische Forschung (DIPF) ca. 5oo.ooo Literaturnachweise ab 1980 'Thesaurus' mit ca. 6o.ooo Termen Informationszentrum Sozialwissenschaften (IZ) ca Literaturnachweise ab 1945 Thesaurus mit ca. 11.ooo Termen Zentrum für Psychologische Information und Dokumentation (ZPID) ca Literaturnachweise ab 1977 Thesaurus mit ca. 7.ooo Termen Universitätsbibliothek Erlangen-Nürnberg (UB Erlangen) Universitäts- und Stadtbibliothek Köln (USB Köln) Saarländische Universitäts- und Landesbibliothek (SULB) Fach-Datenbanken 1..n (Meta-Daten)

7 BSP: Heterogene Systeme
Probleme Ähnliche Semantik, unterschiedliche Benennung Aufgeschlossenheit / Offenheit Klinikum / Krankenhaus ... Ähnliche Benennungen, unterschiedliche Semantik Verband, Bank ... interne Differenzierungen Prä- / Postkoordination Jugend - Arbeitslosigkeit Mimik Angst Frustration Psyche Gesicht Gesichtsausdruck Gesichtsmuskeln Gesichtszüge Kommunikationsfertigkeiten Nonverbale Kommunikation Angst Angststörungen Angstverarbeitung Erfolgsangst Kastrationsangst Leistungsangst Furcht Frustration Leistungsmotivation Misserfolg ...? ?? TB TC TA

8 BSP: Heterogene Systeme
bloße Term-Weitergabe an andere Datenbanken wäre inadäquat Verfehlung des wirklichen Suchziels nutzlose Vergrößerung der Treffermenge analog bei Mehrsprachigkeit bloßes Übersetzen reicht nicht aus Sprach- bzw. Kultur-spezifische Semantik muß auch hier berücksichtigt werden Child discipline Cognition Double bind interaction Mind Perception Sensation ?? TB TC TA

9 Heterogenität: Lösungsansätze
Intellektuelle Verfahren Von Fachleuten erstellte Module ("Konkordanzen"), die uni- oder bi-direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden kostenintensiv in Aufbau und Wartung Quantitativ-Statistische Verfahren Co-Occurence Analysis, Cond. Prob. Neural Networks umfangreiche Datenbasis notwendig prinzipiell wartungsarm, aber Datenbasis-abhängig Scheinkorrelationen intellektuelle Überarbeitung unverzichtbar: semi-automatische Verfahren Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b Term b Term b3 ... Konk. AB Relation ... Thesaurus A Output Term B Input Layer Hidden Layer

10 Heterogenität: Intellektuelle Zuordnung
Equivalent ( männlichkeit = männlichkeit ) Related ( lernprozess ^ lernen ) Broader Term mensch > menschliche natur Narrower Term lernerfolg < lernen jeweils auch AND / OR - verknüpft jeweils dreistufige Relevanz hoch, mittel, gering SWD relation relevance ZPID

11 Heterogenität: Statistik
Voraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000) Parallel-Korpora / Parallel-Verschlagwortung Ergebnis: Korrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B eingesetzt ebenfalls als Gewichts-Vektoren für die automatische Interpretation als Konkordanz-Tabelle Thes. A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Dokumente Doc 1 Doc 2 Doc 3 ... Doc n Conditional Probability Neural Networks

12 Probleme automatischer Verfahren
keine Spezifizierung der Relationsart nicht geeignet zur 1:1 - Abbildung, Ergebnisse sind von der Art n:m (Zuordnung 'Semantischer Räume') abhängig vom Input-Material Parallel-Korpus ist meist nicht repräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete führt zu Scheinkorrelationen Testkonstruktion – Ausländer Gesundheit - Altern Berufliche Reintegration – Rückenschmerzen Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren kein Problem für P(w|x) Neural Networks lernen hier kaum

13 Ansatz: Konkordanzen Bidirektionale Konkordanzen zwischen allen
ZPID relation relevance SWD Bidirektionale Konkordanzen zwischen allen beteiligten Thesauri Thes. A Term a1 Term a2 Term a3 ... Thes. B Term b1 Term b2 Term b3 ... Dokumente Doc 1 Doc 2 Doc 3 ... Doc n

14 Probleme bei Konkordanzen
Thesauri werden permanent verändert / erweitert / umstrukturiert Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b Term b Term b3 ... Konk. AB Relation ... Verschlagwortung ist permanente intellektuelle Arbeit

15 Semantische Heterogenität bei datenbankübergreifenden Recherchen
Vielen Dank für Ihre Aufmerksamkeit! Semantische Heterogenität bei datenbankübergreifenden Recherchen Thesaurus A Term a1 Term a2 Term a3 ... Thes. B Term b Term b Term b3 ... Konk. AB Relation ...


Herunterladen ppt "Semantische Heterogenität bei datenbankübergreifenden Recherchen"

Ähnliche Präsentationen


Google-Anzeigen