Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)

Slides:



Advertisements
Ähnliche Präsentationen
Private Netze Neben öffentlichen GSM-Netzen etabliert sich für die europäischen Eisenbahnen eine neue digitale Zugfunkgeneration, die auf dem GSM-Standard.
Advertisements

V - Modell Anwendung auf große Projekte
Das duale Zahlensystem
Wasserfall-Ansätze zur Bildsegmentierung
Kapitel 4 Datenstrukturen
Bibliothekskurs Sozialwissenschaften
Daffodil Such-/ Agentensystem zur Literaturrecherche in Digitalen Bibliotheken Prototypen PIANO, 2000 zielt auf strategische Unterstützung während Informationssuchprozesses.
Support.ebsco.com Die EBSCOhost-Ergebnisliste Lernprogramm.
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Formale Sprachen – Mächtigkeit von Maschinenmodellen
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/12 Informationsretrieval Suche mit und nach Attributen und Merkmalen, die bedeutend für die.
Lernen als Informationsverarbeitung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/10 Grafische Anfragesprachen Geeignet sind grafische Anfragesprachen für Nutzer, die keine.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Klassifikationen Klassifikationen dienen dazu, Themen oder Objekte systematisch zu ordnen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/10
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/7
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Machine Learning (ML) Der erste Teil dieser Definition ist auch eine Beschreibung von Machine.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
QBE in MS Access formulieren
Klassendiagramm Verwandte Begriffe: class, Typ, Objektfabrik
Abhängigkeitsbeziehung
UML im Überblick – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/22
Schritte zu Datenmodellierung
Das UMTS Kernnetz Dipl. Ing. Ulrich Borchert Fach: Mobile Computing HS Merseburg (FH)
Vorlesung Informatik 3 Einführung in die Theoretische Informatik (06 – Reduktion endlicher Automaten) Prof. Dr. Th. Ottmann.
HTML - Eine erste Annäherung
Mathematische und logische Grundlagen der Linguistik
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
How to? Tipps und Tricks für die Thesauruserstellung
How to? Tipps und Tricks für die Thesauruserstellung
Indexierung - Verschlagwortung
Die Dokumenttradition
Hörbilderbuch Ein Baustein zur Medienbildung
Grundschutztools
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
Einführung zur Literaturrecherche in der Sportwissenschaft Bibliothekskataloge und Datenbanken Herbstsemester 2013 Gabriela Scherrer
§10 Vektorraum. Definition und Beispiele
für regelmäßig wiederkehrende
§24 Affine Koordinatensysteme
Smart features Subtypen und Domänen Subtypen und Domänen.
Spezifik des fachbezogenen Sprachunterrichts Anita Emse, Lektorin der Fachhochschule Turiba.
Suchstrategie und erste Recherchen
§23 Basiswechsel und allgemeine lineare Gruppe
Lexikalische Semantik
Ein Vortrag von Elisa Beyer und Melanie Erker
GEMET – Thesaurus in der WSV
Schulungsunterlagen der AG RDA
Kursarbeit Informatik
Vortrag: Frames & Javascript.
Informatik Formale Sprachen 1.2 Grammatiken formaler Sprachen
Informatik Technische Informatik Praktische Informatik Theoretische
Die Management-Tools von Z&H COACH beinhalten zentrale Hilfsmittel für ein Management-System. Sorgfältig angewendet führen diese Tools Ihr Unternehmen.
Willkommen bei der Präsentation von interessanten Eigenschaften der Wörterbücher Lingea Lexicon. Unter den Seiten können Sie mit Hilfe von Tasten und Maus.
Fachwortschatz. Terminologie.
ExKurs ErschliessZ 1/12 Dr. Barbara Hoffmann LiteraturKompetenz Erschließen: Textzitate Bei der Lektüre wissenschaftlicher Texte sollten Sie.
Hörbilderbuch Ein Baustein zur Medienbildung
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
HG13_ Herzgen, Jung & Lorkowski1 Java Programmierung BlueJ Workshop.
Lexikalische Semantik
Umweltmanagementinformationssysteme (Übung) WS 07/08 Sven Lindenhahn Arbeitsgruppe MIS Seite 1 Umweltmanagementinformationssysteme (Übung) 2.
Greenstone. Theoretischer Teil Entstehung: Entwickelt vom New Zealand Digital Library Project an der Universität von Waikato Kooperation mit der UNESCO.
Schritt für Schritt-Anleitung
1.Definition, Zielsetzung 2.IST – Analyse 3.Standardisierung / Strukturierung / Schnittstellen 4.Pilotprojekt / Institutsvergleich 5.Möglichkeiten / Nutzen.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Konzepte von Terminologie-Datenbanken
 Präsentation transkript:

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri) das sprachliche oder terminologische Gegenstück zu hierarchischen Klassifikationssystemen. Während Klassifikationen Themen oder Objekte inhaltlich ordnen, erfassen Thesauren Wörter, Terme und Ausdrücke eines Sachgebietes und beschreiben die Beziehungen zwischen ihnen. Thesauren haben vor allem zwei Funktionen: Sie definieren ein kontrolliertes Vokabular. Sie stellen Beziehungen (Relationen) zwischen den Termen dieses Vokabulars her.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg2/8 Mit Thesauren lassen sich eine Vielzahl von weiteren Beziehungen zwischen Wörtern darstellen. Nach DIN1463 ist ein Thesaurus eine geordnete Zusammenstellung von Begriffen mit ihren (natürlich-sprachlichen) Beziehungen. Unterscheidungen sollten zwischen allgemeinen Thesauren und Thesauren für IR Systeme bestehen. Ein allgemeiner Thesaurus listet zu jedem Wort, neben einer kurzen Definition des Begriffes, verschiedene Relationen zu Gruppen von anderen Wörtern auf: Synonyme (Wörter mit gleicher Bedeutung) Antonyme (Wörter mit gegensätzlicher Bedeutung) Verwandte Wörter Oberbegriffe speziellere Begriffe Bei mehrdeutigen Wörtern werden diese Gruppen für jede Bedeutung einzeln ausgelistet.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg3/8 Ein Beispiel für einen allgemeinen Thesaurus ist Rogets Thesaurus von 1852, in dem die Wörter der englischen Sprache nach den Ideen, die ausdrücken sortiert sind. Die allgemeinen Thesauren dienen Kreativität, Vielfalt aber auch Präzision bei der Wortwahl zu unterstützen oder vorzutäuschen.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg4/8 Thesauren in IR Systemen (Th-IRSys) Im Gegensatz zu den allgemeinen Thesauren stehen bei den Th-IRSys die Beschreibung eines Wissensgebietes und die möglichst eindeutige Auszeichnung der Dokumente einer Sammlung zu diesem Gebiet im Vordergrund. Kernstück eines Th-IRSys ist ein kontrolliertes Vokabular (Problematik der Synonymie und Polysemie). Im Kernbestand werden zur Indexierung nur zugelassene Ausdrücke und sorgfältig ausgewählte Terme aufgenommen. Die Ausdrücke im Vokabular werden Deskribtoren genannt. Zu jedem Deskribtor kann eine Menge von Synonymen angegeben werden. Diese Synonyme haben in der Fachsprache eine gleiche oder ähnliche Bedeutung, werden aber in der Indexierung nicht aufgenommen. Die Definition der Synonymmengen legt die Detailgenauigkeit eines Thesaurus fest.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg5/8 Zugangsweisen für Thesauren in IR Systemen (Th-IRSys) Typischerweise gibt es zwei Zugangsweisen für Th-IRSys. 1.Alphabetische Liste der Deskribtoren In dieser Liste sind auch die Terme aus den Synonymmengen aufgenommen. Mit Hilfe dieser Liste kann auf dem Deskribtor und den dazugehörigen Synonymen verwiesen werden. Bestehen Deskribtoren oder Ausdrücke aus mehreren Wörtern, gibt es den so genannten Rotated Index, in dem sie unter jedem der einzelnen Wörter, aus denen sie zusammengesetzt sind, alphabetisch verzeichnet sind.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg6/8 2. Oberbegriffs- und Unterbegriffsrelationen Hier sind Th-IRSys hierarchisch gegliedert. Zu jedem Term ist ein Oberbegriff und eine Reihe spezifischer Begriffe angegeben, wenn diese im Thesaurus existieren. Durch diese Relationen kann ein Thesaurus – wie eine Klassifikation – als hierarchischer Graph gesehen werden. Sind die Ober- und Unterbegriffe streng definiert, kann ein Baum entstehen.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg7/8 Konstruktion eines Thesaurus Vorwiegend werden Thesauren per Hand vom Menschen erstellt. Dabei handelt es sich meist um mehrere Personen einer Institution, die mit dem Fachgebiet vertraut sind. Manuelle Thesauren sind in ihrer Entwicklung aufwendig, teuer und langsam. In letzter Zeit wurde versucht, Thesauren automatisch auf der Basis großer Textsammlungen zu erstellen. Solche automatisch erstellten Thesauren sind billig, schnell und stärker auf eine Domäne zugeschnitten. Vorgehensweise zur Erstellung von Thesauren Bezugsrahmen wird eingegrenzt (Festlegung der Thematik, Spezifität, Sprachstil) Auswahl der Quellen (aktuelle Literatur, vorhandene Thesauren, Lehrbücher usw.)

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg8/8 Terminologische Kontrolle des Vokabulars (Beseitigung der Unschärfen der natürlichen Sprache) Aufteilung der Terme in die Synonymmengen. Es werden dazu verschiedene Kontrollläufe unterschieden: Synonymkontrolle: Zusammenfassen von unterschiedlichen Schreibweisen, Abkürzungen, Vollformen, verschiedener Sprachstile, Fremdwörter usw. Polysemkontrolle unterscheidet Wörter mit gleicher Schreibweise aber unterschiedlicher Bedeutung. Zerlegungskontrolle werden Komposita gegebenenfalls in ihre Bestandteile zerlegt (ist unter Unständen notwendig, um ihre Spezifität eines Begriffes zu erhalten). Begriffliche Kontrolle