Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn.

Ähnliche Präsentationen


Präsentation zum Thema: "ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn."—  Präsentation transkript:

1 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn Zentrum für Psychologische Information ZPIDTrier und Dokumentation (ZPID) der Universität Trier Probleme der Integration digitaler Bibliothekssysteme:

2 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Text Retrieval Information Retrieval = Text Retrieval Internet: Internet: retrieval in riesiger + ständig wachsender Textmenge GOOGLE GOOGLE = ca. 2.ooo.ooo.ooo web pages pro Tag ca. 1oo.ooo.ooo Anfragen Standard: Volltext-Suche (+Boole) Heuristiken optimiert durch individuelle Heuristiken Output: Output: unpräzise + umfangreich TexteOutput Texte ohne Struktur Output ohne Struktur semantische keine semantische Aufbereitung Ontology Inference Layer W3C: Ontology Inference Layer (OIL) Szenario: Information Retrieval attention & attention &performance... GO!

3 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Information Retrieval: Meta-Daten Normal Normal-User kann (will?) explorieren Professioneller Professioneller (e.g. Wissenschafts-) User braucht maximale Präzision Semantikeffiziente Semantik effiziente Suche Fach Meta-Daten Fach-Datenbanken als Spezialisierung mit Meta-Daten Minimum: Titel, Autor, Quelle, etc. Standards entwickeln sich: DCI, RDF... Thesaurus Vorteil: Thesaurus erschlossene erschlossene Datenbasis kontrolliertes indiziert über kontrolliertes Fachvokabular und Klassifikation und Relationen Fach-Datenbank Meta-Daten (Meta-Daten) 12

4 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Erschließung Nachteil: Kenntnis der jeweiligen Erschließung / Indizierung unumgänglich einen akzeptabel für einen Thesaurus mehrere inakzeptabel für mehrere Datenbanken zur Zeit (traditionell) getrennte DB nach wissenschaftlicher Disziplin nach Organisation nach Verwertungsprinzip Internet unifizierten Internet fördert / provoziert aber unifizierten Zugriff: Komplikationen werden heute nicht mehr akzeptiert User sollte nicht erst Datenbanken Datenbanken aufspüren müssen, Informationenfinden können. sondern schnell hochwertige Informationen finden können. Fach-Datenbank A Meta-Daten A (Meta-Daten A) Information Retrieval: Thesauri Fach-Datenbank B Meta-Daten B (Meta-Daten B) Fach-Datenbank C Meta-Daten C (Meta-Daten C)

5 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Fach-Datenbank C Meta-Daten C (Meta-Daten C) Thesauri im Internet Fach-Datenbank B Meta-Daten B (Meta-Daten B) unser AnsatzKommunikation Hintergrund unser Ansatz: Kommunikation aller relevanten (oder selegierten) Datenbanken im Hintergrund Aufbereitung Aufbereitung der User-Query für die verschiedenen DBMS (zB. via XML) dabei semantischer Transfer dabei semantischer Transfer zwischen den verschiedenen Thesauri Brave New World Brave New World: ein ein Such-Portal und eine eine Anfrage gegen jede jede gewünschte Datenbasis 62 Fach-Datenbank A Meta-Daten A (Meta-Daten A)

6 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Informations-Verbund BSP Fach-Datenbanken 1..n Meta-Daten (Meta-Daten) Zentrum für Psychologische Information und Dokumentation Zentrum für Psychologische Information und Dokumentation (ZPID) ca Literaturnachweise ab 1977 Thesaurus Thesaurus mit ca. 7.ooo Termen Universitätsbibliothek Erlangen-Nürnberg Universitätsbibliothek Erlangen-Nürnberg (UB Erlangen) Universitäts- und Stadtbibliothek Köln Universitäts- und Stadtbibliothek Köln (USB Köln) Saarländische Universitäts- und Landesbibliothek Saarländische Universitäts- und Landesbibliothek (SULB) Deutsches Institut für Internationale Pädagogische Forschung Deutsches Institut für Internationale Pädagogische Forschung (DIPF) ca. 5oo.ooo Literaturnachweise ab 1980 'Thesaurus' 'Thesaurus' mit ca. 6o.ooo Termen Informationszentrum Sozialwissenschaften Informationszentrum Sozialwissenschaften (IZ) ca Literaturnachweise ab 1945 Thesaurus Thesaurus mit ca. 11.ooo Termen

7 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 BSP: Heterogene Systeme Mimik Angst Frustration Psyche Probleme Ähnliche Semantik, unterschiedliche Benennung Aufgeschlossenheit / Offenheit Klinikum / Krankenhaus... Ähnliche Benennungen, unterschiedliche Semantik Verband, Bank... interne Differenzierungen Prä- / Postkoordination Jugend - Arbeitslosigkeit Gesicht Gesichtsausdruck Gesichtsmuskeln Gesichtszüge Kommunikationsfertigkeiten Nonverbale Kommunikation Angst Angststörungen Angstverarbeitung Erfolgsangst Kastrationsangst Leistungsangst Furcht Frustration Leistungsmotivation Misserfolg...? TBTB TATA TCTC ??

8 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 BSP: Heterogene Systeme Term-Weitergabe bloße Term-Weitergabe an andere Datenbanken wäre inadäquat Verfehlung Verfehlung des wirklichen Suchziels Vergrößerung nutzlose Vergrößerung der Treffermenge Mehrsprachigkeit analog bei Mehrsprachigkeit bloßes Übersetzen reicht nicht aus Sprach- bzw. Kultur- spezifische Semantik muß auch hier berücksichtigt werden Child discipline Cognition Double bind interaction Mind Perception Sensation TBTB TATA TCTC ??

9 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Heterogenität: Lösungsansätze Intellektuelle Verfahren Intellektuelle Verfahren Konkordanzen Von Fachleuten erstellte Module ("Konkordanzen"), die uni- oder bi- direktional jeweils zwei Thesauri (1:1 oder n:m) aufeinander abbilden kostenintensiv in Aufbau und Wartung Quantitativ-Statistische Verfahren Quantitativ-Statistische Verfahren Co-Occurence Analysis, Cond. Prob. Neural Networks umfangreiche Datenbasis notwendig prinzipiell prinzipiell wartungsarm, aber Datenbasis-abhängig Scheinkorrelationen semi-automatische intellektuelle Überarbeitung unverzichtbar: semi-automatische Verfahren Thesaurus A Term a1 Term a2 Term a3... Thes. B Term b1 Term b2 Term b3... Konk. AB Relation... Hidden Layer Output Term B Input Layer Thesaurus A

10 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Heterogenität: Intellektuelle Zuordnung Broader Term mensch > menschliche natur Narrower Term lernerfolg < lernen jeweils auch AND / OR - verknüpft jeweils dreistufige Relevanz hoch, mittel, gering SWD relation relevance ZPID Equivalent ( männlichkeit = männlichkeit ) Related ( lernprozess ^ lernen )

11 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Heterogenität: Statistik Thes. A Term a1 Term a2 Term a3... Thes. B Term b1 Term b2 Term b3... Dokumente Doc 1 Doc 2 Doc 3... Doc n Conditional Probability Neural Networks Voraussetzung Voraussetzung: umfangreiche Datenbasis, die Beziehungen zwischen Thesauri ermöglicht (>50.000) Parallel-Korpora / Parallel- Verschlagwortung Parallel-Korpora / Parallel- Verschlagwortung Korrelationsmatrix Ergebnis: Korrelationsmatrix zwischen den Termen aus Thesaurus A und Thesaurus B Gewichts- Vektoren eingesetzt ebenfalls als Gewichts- Vektoren für die automatische Interpretation als Konkordanz-Tabelle

12 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Probleme automatischer Verfahren Relationsart keine Spezifizierung der Relationsart 1:1 - Abbildung n:m nicht geeignet zur 1:1 - Abbildung, Ergebnisse sind von der Art n:m (Zuordnung 'Semantischer Räume') Input abhängig vom Input-Material repräsentativ Parallel-Korpus ist meist nicht repräsentativ, sondern eher kleine Schnittmenge der Wissensgebiete Scheinkorrelationen führt zu Scheinkorrelationen Testkonstruktion – Ausländer Testkonstruktion – Ausländer Gesundheit - Altern Gesundheit - Altern Berufliche Reintegration – Rückenschmerzen Berufliche Reintegration – Rückenschmerzen Kombinationen, die im Material selten sind, können trotzdem hochrelevante Beziehungen repräsentieren P(w|x) kein Problem für P(w|x) Neural Networks Neural Networks lernen hier kaum aƒaƒ

13 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Ansatz: Konkordanzen ZPID relation relevance SWD Thes. A Term a1 Term a2 Term a3... Thes. B Term b1 Term b2 Term b3... Dokumente Doc 1 Doc 2 Doc 3... Doc n Bidirektionale Konkordanzen zwischen allen beteiligten Thesauri

14 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Thesaurus A Term a1 Term a2 Term a3... Thes. B Term b1 Term b2 Term b3... Konk. AB Relation... Probleme bei Konkordanzen Verschlagwortung ist permanente intellektuelle Arbeit Thesauri werden permanent verändert / erweitert / umstrukturiert

15 ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Thesaurus A Term a1 Term a2 Term a3... Thes. B Term b1 Term b2 Term b3... Konk. AB Relation... Semantische Heterogenität bei datenbankübergreifenden Recherchen Vielen Dank für Ihre Aufmerksamkeit!


Herunterladen ppt "ZPID Universität Trier Mitglied in der WGL 9. Kongreß der IuK / Osnabrück 2oo3 Semantische Heterogenität bei datenbankübergreifenden Recherchen Klaus Hahn."

Ähnliche Präsentationen


Google-Anzeigen