Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007.

Ähnliche Präsentationen


Präsentation zum Thema: "Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007."—  Präsentation transkript:

1 Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007

2 Etymologie Thesaurus The|sau|rus der; -, Plur....ren u....ri : 1. Titel wissenschaftlicher Sammelwerke, bes. großer Wörterbücher der alten Sprachen. 2. alphabetisch u. systematisch geordnete Sammlung von Wörtern eines bestimmten [Fach]bereichs. 3. (in der Antike) kleineres Gebäude in einem Heiligtum zur Aufbewahrung von kostbaren Weihgaben. Duden, Das große Fremdwörterbuch Erster Thesaurus Synonymwörterbuch von P.M. Roget 1852: Thesaurus of English Words and Phrases Gemeinsamkeiten mit heutigem Thesaurus: Wie finde ich den richtigen Ausdruck? Hierarchische und assoziative Beziehungen Synonyme

3 Thesaurus nach DIN 1463 Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. Er ist durch folgende Merkmale gekennzeichnet: a)Begriffe und Bezeichnungen werden eindeutig aufeinander bezogen (terminologische Kontrolle), indem – Synonyme möglichst vollständig erfasst werden, – Homonyme und Polyseme besonders gekennzeichnet werden, – für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt b)Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt.

4 Thesaurus-Normen Deutsches Institut für Normung e.V. DIN 1463 Teil 1: Erstellung und Weiterentwicklung von Thesauri – Einsprachige Thesauri, 1988 DIN 1463 Teil 2: Erstellung und Weiterentwicklung von Thesauri – Mehrsprachige Thesauri, 1993 International Organization for Standardization ISO 2788: Guidelines for the establishment and development of monolingual thesauri, 1986 (E) ISO 5964: Guidelines for the establishment and development of multilingual thesauri, 1985 (E) Thesaurus: The vocabulary of a controlled indexing language, formally organized so that the a priori relationships between concepts (for example as "broader" and "narrower") are made explicit. ANSI/NISO Z American National Standards Institute/ National Information Standards Organization: Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabulary A controlled vocabulary arranged in a known order and structured so that the various relationships among terms are displayed clearly and identified by standardized relationship indicators. Relationship indicators should be employed reciprocally.

5 Begriffsklärung Begriffe sind gedankliche Abbildungen von Gegenständen. Sachen, Vorgängen, Ideen, usw. Sie können nicht direkt zwischen Personen ausgetauscht werden, deshalb wird jedem Begriff eine Benennung zugeordnet. Eine Benennung ist also ein Name, eine Bezeichnung, eine Kennzeichnung eines Begriffs. In der Dokumentation redet man einfach von Wörtern (englisch: terms), Thesauruswörtern, Thesauruseingängen oder Eingängen. Äquivalenzklasse: Zusammenfassung eng verwandter Begriffe, zwischen denen ein Ordnungssystem nicht unterscheiden kann. (Beispiel: Araberpferd, Berberpferd, Brauner, Fohlen, Hengst, Lippizaner, Islandpony, Kaltblut, Ross, Schimmel usw.) Vorzugsbenennung (Deskriptor): Jede Äquivalenzklasse erhält eine Vorzugs- benennung, die alle in einer Äquivalenzklasse zusammengefassten Begriffe repräsentiert (Beispiel: Pferd). Sie dienen als Gebrauchsvokabular, das für Indexierung und Retrieval zugelassen ist. Nicht-Vorzugsbenennung (Nicht-Deskriptor): Alle anderen Elemente der Äquivalenzklasse haben den Status von Nicht- Vorzugsbenennungen. Sie sind Bestandteil des Zugangsvokabulars, die selbst nicht für Indexierung und Recherche verwendet werden, aber auf den entsprechenden Deskriptor verweisen.

6 1.1 Systembezug (nach DIN 1463) Sachgebiet klar abgrenzen (mit Schwerpunkten und Randgebieten) Stand der dokumentarischen Erarbeitung des Sachgebiets Umfang des Thesaurus abschätzen: Vokabularumfang, Zahl der Äquivalenzklassen und Nicht-Deskriptoren (abhängig von der inhaltlichen Breite des Gebiets und vom Zuwachs an Dokumenteneinheiten) Spezifität: Welchen Grad an Genauigkeit oder Allgemeinheit sollen die Begriffe erreichen? (abhängig von der Größe des Gebiets) Art der Dokumentationseinheiten klären Anzahl der jährlich zu bearbeitenden Dokumentationseinheiten abschätzen Art und Anzahl der Suchfragen abschätzen Sprachstil: mehr wissenschaftlich oder auch für Nicht-Fachleute Schwerpunkt des Ordnungssystems alphabetisch oder systematisch

7 1.2 Wörtersammlung und Bezeichnungs- kontrolle Potentielle Benutzer und Fachleute Nationale und internationale Fachwörterbücher und Normen Aktuelle Fachliteratur Terminologische Abhandlungen oder Bezeichnungslisten Existierende Thesauri oder klassifikatorische Systeme Nomenklaturen Register zu Fachzeitschriften Sachwortverzeichnisse von Lehrbüchern, Handbüchern und Standardwerken Referatedienste Ergebnisse experimentellen Indexierens von Dokumenten Freitextsuche, Suchfragen und Bedarfsmeldungen von Benutzern Geeignete Quellen zur Vokabularsammlung (nach DIN 1463):

8 1.2 Wörtersammlung und Bezeichnungs- kontrolle Entwurf einer Grobklassifikation, der die Bezeichnungen zugeordnet werden Erfassung jedes Elements nach einem einheitlichen Schema: Bezeichnung, Quellen, Zuordnung zur Grobklassifikation, Status (Deskriptor oder Nicht-Deskriptor), evtl. Definitionen, formale Anpassungen (Vereinheitlichung von Singular/Plural, Auflösung von Abkürzungen) Aufnahme von Deskriptoren-Kandidaten, die vorläufig aufgenommen werden und dann die Kontrollen durchlaufen Zusätzlich alphabetische Sortierung Häufigkeit ihres Vorkommens in der Literatur Häufigkeit ihres Vorkommens in Suchfragen Verwandtschaft mit bereits akzeptierten Deskriptoren Übereinstimmung mit aktueller Terminologie Wirksamkeit bzgl. des Bedeutungsumfangs Eignung der Wörter als Deskriptoren prüfen Vorgehen

9 1.3 Terminologische Kontrolle Synonymproblem und -kontrolle Schreibweisenvarianten: Grafik – Graphik Kurzform und Vollform: Bus – Omnibus Abkürzungen und Volltext: VW – Volkswagen Regionale oder zeitliche Sprachunterschiede: Vesperbrot – Jause, Samstag – Sonnabend Fremdsprachliche Ausdrücke: Gehweg - Trottoir Allgemein- und fachsprachliche Unterschiede: Leberentzündung – Hepatitis Begriffe mit feinem Bedeutungsunterschied: Pferd – Gaul, Frau – Weib, Dauer – Zeit Erscheinungen des gleichen Phänomens: Rauhheit – Glätte Gegensätze: Spannungsabhängigkeit – Spannungsunabhängigkeit Gleichsetzung von Ober- und Unterbegriff: Nachschlagewerk – Lexikon Zuordnung von Namen: Senat von Berlin – Landesregierung Begriffe, die im Wesentlichen übereinstimmen, aber nicht ganz identisch sind: Rad – Fahrrad, Holland – Niederlande Zwei oder mehr Bezeichnungen repräsentieren die gleiche begriffliche Einheit. Problem der Synonymie kann dazu führen, dass für die Suchfrage relevante Dokumente nicht gefunden werden, wenn der Deskriptor z.B. als Karzinom indexiert und unter Krebs gesucht wird. Vollsynonyme Quasisynonyme Teilsynonyme

10 1.3.1 Synonymproblem und -kontrolle Zusammenfassung der Benennungen zu Äquivalenzklassen und Wahl einer Vorzugsbenennung (Deskriptor), alle anderen Bezeichnungen/Synonyme gelten dann als Nicht-Vorzugsbenennungen (Nicht-Deskriptoren) und verweisen auf die Vorzugsbenennung. Äquivalenzverweis von der Nicht-Vorzugsbenennung zur Vorzugsbenennung, z.B. Araberpferd Pferd und Pferd Araberpferd bilden ein Verweispaar (man kann also nach beiden Begriffen suchen und nicht nur nach dem Deskriptor) Alle Benennungen bilden eine eigene Äquivalenzklasse und sind gleichberechtigt in Indexierung und Retrieval. Systematisches Anordnen, so dass die sachlich verwandten Begriffe erkennbar werden Beschränkung auf fachsprachliche Ausdrücke Synonymbrücken (implizite Äquivalenzklassen), d.h. ein Verzeichnis, welche Benennungen synonym sind Kontrolle der Synonymie durch:

11 1.3.2 Polysemproblem und -kontrolle Homophone: Lehre – Leere, Mohr – Moor Echte Homographen (ehemals gemeinsame Sprachentwicklung): Tenor – Tenor Unechte Homographen (nicht mehr erkennbare gemeinsame Sprachentwicklung): Stift – Bleistift oder Altersheim Allgemeinsprachlich: Tau – Tau Allgemein- und Fachsprache: Masse allgemeinsprachlich oder in der Physik Zwischen benachbarten Fachgebieten oder innerhalb von Fachgebieten Allgemeinwörter (Wörter mit unspezifischer Bedeutung), die in Verbindung mit anderen Wörtern die unterschiedlichsten Bedeutungen haben können: Anlage – Erbanlage/ Parkanlage, System – Nervensystem/ Verteidigungssystem Eine natürlichsprachliche Bezeichnung repräsentiert mehr als eine begriffliche Einheit. Das Problem der Polysemie kann dazu führen, dass zu viele und unrelevante Dokumentationseinheiten selektiert werden. Homonyme Polyseme (unterscheiden sich weder in Schreib- noch Sprechweise)

12 1.3.2 Polysemproblem und -kontrolle Thematische Begrenzung der Dokumentation (der Kontext klärt die Bedeutung) Systematisches Anordnen, so dass die sachlich verwandten Begriffe erkennbar werden Sichtbarmachen der hierarchischen Begriffsstrukturen Zufügen von spezifizierenden Zusätzen (Qualifikatoren), z.B. Morphologie (Biologie), Morphologie (Sprachwissenschaft) Beibehaltung nur eines Bedeutungsteil und Ausschluss der anderen Ersetzung der verschiedenen Bedeutungsteile durch Synonyme, z.B. Boxen: Boxsport – Stereoboxen Kontrolle der Polysemie durch:

13 1.3.3 Zerlegungsproblem und -kontrolle Zur Vermeidung von überlangen Komposita und adjektivischen Phrasen werden komplexe Termini nicht in ihrer vollständigen Form in den Thesaurus aufgenommen, sondern eine festgelegte Kombination von bereits im Thesaurus vorhandenen Deskriptoren. Semantische Zerlegung eines Begriffs in Begriffskomponenten (nicht in Wortteile), so dass die Kombination der zerlegten Bestandteile wieder den Begriff des zusammengesetzten Wortes ergibt (es soll eine semantische Zerlegung stattfinden, keine morphologische). Vorteil:Ohne die Anzahl der Äquivalenzklassen zu erhöhen, wird durch die Kombination bereits vorhandener Deskriptoren eine Bereicherung des Zugriffsvokabulars erreicht. Probleme: - Entstehung falscher Kombinationen bei der Rückübersetzung der zerlegten Teile - Kompliziertere Thesaurusstruktur - Bei jeder Suche von nur einem der Teile werden auch alle anderen indexierten Dokumente mitgefunden.

14 1.3.4 Begriffliche Kontrolle Nach der terminologischen Kontrolle (der Bildung von isolierten Äquivalenzklassen) werden nun bei der begrifflichen Kontrolle Beziehungen zwischen den Begriffen gebildet, aus denen dann ein semantisches Netz über den gesamten Thesaurus entsteht. Auf diese Weise sollen alternative und möglicherweise treffendere Begriffe gefunden werden, die zu besseren Ergebnissen bei Indexierung und Retrieval führen. impliziter (gelernter, erfahrener) und expliziter (in Lexika, Wörterbüchern dargestellte) Bedeutung natürlichsprachlicher und dokumentationssprachlicher Bedeutung fachsprachlicher und dokumentationssprachlicher Bedeutung Definitionen (natürlichsprachliche Bedeutungsdarstellung) Erläuterungen (dokumentationssprachliche Bedeutungsdarstellung, z.B. wenn Benennungen in verschiedenen Fachbereichen gebräuchlich sind) Äquivalenzbeziehungen Assoziative Begriffsbeziehungen Sichtbarmachen der Bedeutungsverschiebungen für den Benutzer zwischen Zur begrifflichen Kontrolle dienen

15 1.3.5 Orientierungsfunktion Ordnen des Thesaurus nach Bezeichnungen, d.h. alphabetisch oder nach begrifflichen Einheiten, d.h. systematisch. Beide Formen sind komplementär, d.h. es sollte trotzdem ein Register in der nicht gewählten Form angelegt werden. Der systematische Teil muss übersichtlich sein und eignet sich daher nicht für eine große Anzahl an Begriffen. Thesauren mit mehr als 100 Seiten oder mehr als 1000 Deskriptoren sollten alphabetisch angeordnet sein. Anordnung der Deskriptoren nach Grobordnung zur schnellen Orientierung oder nach Feinordnung, die alle Äquivalenzklassen zueinander in Beziehung setzt. Meist monohierarchische Anordnung dargestellt durch Notation oder Einrückungen Innerhalb der Äquivalenzklassen werden die Einträge dann wieder alphabetisch geordnet Systematischer Teil eines Thesaurus:

16 2 Thesaurusstruktur Alle Elemente der Äquivalenzklasse werden gleich behandelt und können für Indexierung und Retrieval genutzt werden. Die Äquivalenzklasse wird von einer Begriffsnummer repräsentiert, die das Bindeglied zwischen den verschiedenen Bezeichnungen bildet. Vorteil:- Verwendung aller Bezeichnungen für die Suche, - schnelle Änderungen möglich Nachteil:- sprachnormierender Charakter geht verloren - Fehlinterpretationen passieren leichter Jede Äquivalenzklasse erhält eine Vorzugsbenennung (Deskriptor), die alle in einer Äquivalenzklasse zusammengefassten Begriffe repräsentiert. Alle anderen Elemente der Äquivalenzklasse haben den Status von Nicht- Vorzugsbenennungen. (Sie sind Bestandteil des Zugangsvokabulars und verweisen auf den entsprechenden Deskriptor.) Thesaurus ohne Vorzugsbenennung Thesaurus mit Vorzugsbenennung

17 2.1 Deskriptoren Namen und Quasi-Namen sollten im Thesaurus wie Benennungen behandelt werden und bei einer Grobordnung als eigene Grobgruppen zusammengefasst werden. Allgemeinbegriffe für eine Klasse von Gegenständen (materiell oder nichtmateriell) Individualbegriffe für individuelle Einheiten wie Personen, Institutionen usw. (Namen) Begriffe von Objektklassen, z.B. Nomenklaturen wie Tiere, Pflanzen, chemische Verbindungen, Anatomie, Artikelnamen usw. (Quasi-Namen) Arten von Deskriptoren Allgemeinwörter zu allgemein, um für sich allein stehend konkrete Sachverhalte zu beschreiben, z.B. Analyse, Planung, System usw. schwer zu definieren, oft Bezeichnungen großer Fachgebiete wie Biologie, Chemie usw. Ohne sie müsste man jedoch zu viele Deskriptoren schaffen, um die verschiedenen Aspekte eines Deskriptors umfassend darzustellen. Man schafft deshalb eine Grobgruppe Allgemeinwörter, in die alle Wörter eingeordnet werden, die nicht zum Fachvokabular gehören, die man aber für die inhaltliche Erschließung braucht. Sie werden innerhalb der Gruppe alphabetisch geordnet.

18 2.1 Deskriptoren genau und präzise: möglichst genaue Beschreibung der gesamten Äquivalenzklasse eindeutig: Verwechslungen ausgeschlossen gebräuchlich: Auszählen der Worthäufigkeiten prägnant: kurz, leicht verständlich und gut merkbar angemessene Sprachebene unkomplizierter Zeichenvorrat Anforderungen an Deskriptoren Nicht-Deskriptoren Termini, die nicht den Anforderungen an Deskriptoren entsprechen und somit nicht als Repräsentant einer Äquivalenzklasse verwendet werden, sondern nur als Zugangsvokabulars, das auf den entsprechenden Deskriptor verweist. z.B.Synonyme, Quasi-Synonyme, Formvarianten (invertierte Formen), Vollformen, fremdsprachliche Äquivalente, Polyseme zu großen Allgemeinheitsgrads, komplexe Benennungen, die semantisch zerlegt wurden Formale Kriterien sind weniger streng: auch nicht-substantivische, invertierte oder Plural-Formen sind zugelassen

19 2.1 Deskriptoren Substantivische Form, d.h. nur in Ausnahmefällen Adjektivphrasen, Adjektive (z.B. sozial, international) und Verben Nominativ Singular, d.h. Plural nur falls der Singular nicht gebräuchlich oder nicht vorhanden ist Natürliche Wortfolge (z.B. alphabetisches Register) oder Aufnahme der invertierten Form als Synonym (z.B. Register, alphabetisches) Kurzform falls die Bedeutung allgemein bekannt ist (z.B. Pkw), die Vollform wird als Nicht-Deskriptor ausgewiesen. Aufnahme der fremdsprachlichen Benennung falls keine eigensprachlichen vorhanden Schreibweise: Groß- und Kleinschreibung, Auflösung von Umlauten in internationalen Systemen, großzügiges Setzen von Bindestrichen bei mehrgliedrigen Benennungen Transliteration: im Falle eines anderen Alphabets Anwendung der Transliterations- empfehlungen der International Organization for Standardization (ISO) Zeichenvorrat: möglichst wenig Satzzeichen, nur runde Klammern und Bindestriche, Punkte nur für Abkürzungen, keine Kommata, Semikola oder Apostrophe, nur arabische Ziffern, extra Regeln für die Behandlung von hoch oder tief gesetzten Zeichen definieren Formale Kriterien für Deskriptoren (nach DIN 1463)

20 2.4 Relationen zwischen Deskriptoren Äquivalenzrelationen Hierarchische Relationen BS – Benutze SynonymU/USE – Use synonym BF – Benutzt für UF – Used for BK – Benutze Kombination KB – Kombinationsbegriff OB – OberbegriffBT – Broader term UB – UnterbegriffNT – Narrower term OA – Oberbegriff/BTG – Broader term (generic) Abstraktionsrelation UA – Unterbegriff/NTG – Narrower term (generic) Abstraktionsrelation SP – Verbandsbegriff BTP – Broader term (partitive) TP – TeilbegriffNTP – Narrower term (partitive) SB – SpitzenbegriffTT – Top term Unerlässliches Kriterium für einen Thesaurus. Darstellung durch folgende Standardkürzeln nach DIN 1463 und ISO 2788: Assoziationsrelationen VB – Verwandter BegriffRT – Related term

21 2.4.1 Äquivalenzrelationen Darstellung der begrifflichen Relationen innerhalb der Äquivalenzklassen in der Form von Verweispaaren, d.h. zu jedem Verweis muss es einen Rückverweis geben: Nicht-Deskriptor Deskriptor SonnabendBSSamstag Benutze Synonym gibt an, zu welcher Äquivalenzklasse die Benennung gehört. Deskriptor Nicht-Deskriptor SamstagBFSonnabend Benutzt für gibt an, welche Benennungen zu dieser Äquivalenzklasse gehören. Möglichkeit der Definition eigener Kürzel für weitere Synonym-Kategorien: Quasi-Synonyme (weil diese Äquivalenzklassen öfter wieder aufgelöst werden müssen, wenn Deskriptoren stäker differenziert werden sollen.) Rechtschreibsynonyme (Fotografie Photographie) Abkürzungen Fremdsprachliche Synonyme Deskriptoren anderer Dokumentationssprachen

22 2.4.1 Äquivalenzrelationen Sonderfall bei Polysemen: Verweis auf mehrere Deskriptoren, die je nach Kontext unterschiedlich zu benutzen sind. MorphologieBSMorphologie (Biologe) oder BSMorphologie (Sprachwissenschaft) Bei semantischer Zerlegung: Verweis von einem unzerlegten Nicht-Deskriptor auf mindestens zwei Deskriptoren. BKBenutze Kombination KBKombinationsbegriff Luftgekühlter ElektromotorBKLuftkühlung + Elektromotor LuftkühlungKBLuftgekühlter Elektromotor ElektromotorKBLuftgekühlter Elektromotor Ersetzen eines allgemeinen Begriffs durch einen spezifischeren Unterbegriff: BSUBenutze spezifischen Unterbegriff BFOBenutzt für spezifischen Oberbegriff NaturwissenschaftBSUBiologie Chemie Physik BiologieBFONaturwissenschaft

23 2.4.2 Hierarchische Relationen Generische Relation (Abstraktionsrelation) In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen der untergeordnete Begriff (Unterbegriff) alle Merkmale des übergeordneten Begriffs (Oberbegriff) besitzt und zusätzlich mindestens ein weiteres spezifizierendes Merkmal. BaumUBBaumstammUnterbegriff Baumstamm OBBaumOberbegriff ObstbaumUASteinobstbaumUnterbegriff Abstraktionsrelation SteinobstbaumOAObstbaumOberbegriff Abstraktionsrelation Partitive Relation (Bestandsrelation) In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen der übergeordnete (weitere) Begriff (Verbandsbegriff) einem Ganzen entspricht und der untergeordnete (engere) Begriff (Teilbegriff) einen der Bestandteile dieses Ganzen repräsentiert. BaumTPBaumstammTeilbegriff BaumstammSPBaumVerbandsbegriff Die meisten Thesauri fassen beide Relationen einfach in der Beziehungsart OB und UB zusammen.

24 2.4.3 Assoziative Relationen Nach DIN 1436: Eine Assoziationsrelation ist eine zwischen Begriffen bzw. ihren Bezeichnungen als wichtig erscheinende Relation, die weder eindeutig hierarchischer Natur ist, noch als äquivalent angesehen werden kann. Unspezifische Zusammenfassung von allem, was irgendwie mit dem Ausgangsbegriff zu tun hat. Sinn ist die Schaffung von Querbeziehungen zu anderen evtl. geeigneten Deskriptoren und alternativen Einstiegsmöglichkeiten außerhalb des hierarchischen Thesaurusgefüges. ObstVBObstbaumVerwandter Begriff ObstbaumVBObstbaum Gerichtete Beziehungen: Genetische Beziehungen (Vater/Sohn) Vorgänger-Nachfolger-Beziehungen Urheber-Verursacher-Beziehungen Materialbeziehungen (Holz/Tisch) Kausalbeziehungen (Lehren/Lernen) Zeitlicher Zusammenhang Ungerichtete Beziehungen: Gegensatz (Härte/Weichheit) Gleichordnung (Dieselmotor/Ottomotor) Ähnlichkeit (Form: Kugel/Ball, Herkunft: Rohseide/Kunstseide) Gemeinsamkeiten

25 3 Thesaurus-Hauptteil 3.1 Deskriptorensatz Ordnungsmerkmale Zuteilung einer Begriffsnummer zum Deskriptorensatz Einführung einer Notation (Identifikationskennzeichen eines Deskriptors bei größeren Thesauri) Benennung Deskriptor (BF) Nicht-Deskriptor (BS/BK) Homonym-Zusätze Übersetzungen z.B. englisch z.B. französisch andere Sprachen Begriffsbeziehungen Synonyme (BS) Quasi-Synonyme (BS/BK) Vorzugsbenennung bzw. Kombination von Einzeldeskriptoren (BK) Oberbegriffe (OB) Unterbegriffe (UB) Zusammenfassung der verschiedenen Relationen und sonstiger Angaben zur Äquivalenzklasse im Deskriptorensatz. Für jede Benennung ist eine derartige Wortkarte auszufüllen.

26 3.1 Deskriptorensatz Begriffsbeziehungen Oberbegriffe (Abstraktionsrelation) (OB) Unterbegriffe (Abstraktionsrelation) (UB) Oberbegriffe (Partitive Relation) (SP) Unterbegriffe (Partitive Relation) (TP) Verwandte Begriffe (assoziative Relation) (VB) Zusätzliche Informationen Definition mit Quellenangabe Zusätze und Erläuterungen (Scope Notes) Fundstelle der Benennung Häufigkeitsangaben Angaben zur Konkordanz mit anderen Systemen Bearbeitungsvermerke Bearbeiter Einführungs- oder Änderungsdatum Überarbeitungsvermerke Fortsetzung

27 3.2 Thesaurus-Manual Benennung, Erläuterung und Abgrenzung des Sachgebiets Angaben für welchen Benutzerkreis und Verwendungszweck der Thesaurus erstellt wurde Ordnungsprinzip und Regeln nach denen der Thesaurus erstellt wurde Erläuterung aller auftretenden Wort- und Verweistypen anhand von Beispielen Angabe der Methoden und Quellen bei der Auswahl und Normierung der Deskriptoren Aufbau der Notation erläutern, falls vorhanden Verzeichnis der Abkürzungen Allgemeine Anleitung für den Gebrauch des Thesaurus (wie man beim Indexieren und Formulieren der Suchfragen vorgehen muss) Statistische Angaben über den Thesaurus selbst (Anzahl der Deskriptoren, Nicht- Deskriptoren und Verweispaare) Erstellungsdatum des Thesaurus und beabsichtigtes Weiterentwicklungsdatum sowie Angaben, wer wann welche Revision durchgeführt hat Angaben zu Bezugsquelle, Copyright und Dateiformat Nach DIN 1463 sollte die Benutzerversion folgendes enthalten (extra Manuale für Thesaurus-Bearbeiter und professionelle Benutzer wie z.B. Indexierer):

28 3.3 Thesaurus-Hauptteil Alphabetische Anordnung der Deskriptoren Geeignet für größere Thesauri mit umfangreichen Begriffssätzen Für Thesauri mit Vorzugsbenennung Vorteile:- Neueinfügungen sind leichter zu organisieren - Alphabetische Suchvorgänge führen schneller zum Ziel Systematische Anordnung der Deskriptoren Geeignet für kleinere Thesauri und Thesauri mit weniger Angaben zu den Deskriptoren Zwei Varianten: - Grobsystematische Anordnung: Zusammenfassung der Deskriptoren nach Hauptgruppen und innerhalb der Hauptgruppen alphabetisch - Feinsystematische Anordnung: klassifikatorische Einordnung jedes Deskriptors Vorteile:- Schnellere Übersicht möglich (Visualisierung durch Beziehungsgraphen wie Liniendiagramme, Gruppendiagramme, Flächendiagramme, Koordinatendiagramme) - Systematische Suchprozeduren gehen schneller Teil des Thesaurus, der alle Angaben zu einem Begriffssatz enthält. Es gibt zwei Möglichkeiten die Deskriptoren zu ordnen. Sinnvoll ist die Vergabe laufender Deskriptorennummern, einer Notation oder beides.

29 3.3 Thesaurus-Hauptteil Systematische Anordnung im Hauptteil wird erschwert, weil Deskriptorensätze mehrfach erscheinen und viele Verweise nötig sind. Keine expliziten Vorschriften in der DIN-Norm dazu vorhanden. Gute Reihenfolge bei mehreren Über- und Unterordnungen: generisch partitiv verwandt sonstige Thesauri sind meist polyhierarchisch strukturiert, d.h. ein Begriff kann mehrere Oberbegriffe bzw. mehrere Unterteilungsgesichtspunkte haben. Polyhierarchien

30 4 Erstellung eines Thesaurus 4.1 Arbeitsablauf Systemkonzipierungsphase Systemkonzept des Thesaurus wird erarbeitet Quellen und bereits existierende Dokumentationssprachen müssen betrachtet werden Entwurf der Thesaurus-Konzeption Sammelphase Quellen für die Wörtersammlung bestimmen Kriterien für die Auswahl der Wörter festlegen Erfassungsschema festlegen Alphabetische Sortierung der Wörter Bewertungsphase Vereinigung gleicher Benennungen Bildung von Äquivalenzklassen Aussonderung fachlich nicht-relevanter Benennungen Kontrollphase Terminologiekontrolle: Ausscheiden zu allgemeiner Benennungen, Entscheidung über Vorzugsbenennungen, Differenzierung von Polysemen Kürzeste und prägnanteste Darstellung in DIN 1463:

31 4 Erstellung eines Thesaurus 4.1 Arbeitsablauf Strukturierungsphase Festlegen der Begriffsbeziehungen Semantische Zerlegung und Spezifizierung von Allgemeinwörtern Wörter auf Konsistenz und Vollständigkeit prüfen Bedeutungsunklarheiten beseitigen Testphase Testversion des Thesaurus erarbeiten Erprobung durch Indexierungs- und Retrievaltests Validierungsphase Testergebnisse zusammenstellen und auswerten Entscheidungen und Änderungen planen Praxisphase Einsatz des Thesaurus in der Praxis Sammlung von Kommentaren Fortschreibung Berücksichtigung der Praxiserfahrungen, der freien Indexierung und der weiteren Entwicklung des Thesaurus Fortsetzung:

32 4.2 Organisation der Thesaurus-Arbeit Fachwissen Linguistische Kenntnisse Thesauruswissen und -erfahrung Wissen über die zu indexierenden Quellen Wissen über potentielle Nutzer EDV-Kenntnisse Kombiniertes Sach- und Sprachwissen bei fremdsprachlichen Arbeiten Permanenter Stab für: Erstellung von Richtlinien und Arbeitsunterlagen, Verwaltungsaufgaben, Kontakte Externe Experten für die fachlichen Arbeiten: Deskriptorenauswahl, Bildung von Äquivalenzklassen (Schulung der Experten in thesaurustechnischen Fragen) Entscheidungsgremium, Redaktionskommission: Entscheidung fachlicher und methodischer Streitfragen Gutachter für Spezialprobleme Teamarbeit Voraussetzungen

33 4.2 Organisation der Thesaurus-Arbeit 1.Auswahl einer ausreichenden Anzahl an Dokumenten, die einen repräsentativen Querschnitt des Fachgebiets darstellen, indexieren und einspeichern 2.Echte oder simulierte Suchfragen formulieren und Probespeicher danach durchsuchen. 3.Man sollte bei einigen Suchfragen wissen, welche Dokumente gefunden werden müssten. 4.Einarbeitung der Ergebnisse und Erfahrungen Queckliste (folgende Fragen sollen geklärt werden): Anwendungstests Entsprechen Struktur und Umfang des Thesaurus den praktischen Erfordernissen? Ist die Terminologie angemessen (Fachsprache – Umgangssprache)? Sind die Deskriptoren zur Indexierung und zum Retrieval geeignet? Kann ausreichend tief verschlagwortet werden? Gibt es mehr Einträge zum Kerngebiet des Thesaurus und weniger zu den Randgebieten? Ist der Thesaurus erweiterungsfähig? Sind die dargestellten Begriffsbeziehungen richtig und ausreichend? Sind die Darstellungsformen benutzerfreundlich?

34 4.2 Organisation der Thesaurus-Arbeit Thesaurus-Pflege In regelmäßigen Abständen durchführen Laufende Beobachtung: aktueller Stand der Forschung, fachsprachliche Entwicklung, Indexierungsverhalten, Benutzerverhalten Gebrauch eines Kandidatenvokabulars zwischen den Revisionen Überprüfung des Wortguts: - Löschung unbenutzter Deskriptoren - Erweiterung häufig benutzter Deskriptoren - Ergänzung fehlender Deskriptoren - Löschung von veraltetem Zugangsvokabular - Ergänzung fehlender Relationen - Entfernung von Überhierarchisierungen Vorteile von Thesaurus-Software: - Automatische Erzeugung der reziproken Einträge - Verhinderung von Doubletten - Verhinderung logischer/struktureller Fehler (Plausibilitätskontrolle) - Direkte Ausführung einer Korrektur in allen betroffenen Deskriptorensätzen

35 4.2 Organisation der Thesaurus-Arbeit Thesaurus-Typen Druck und Anzeigepflicht Merkmal Thesaurusform (alphabetisch oder systematisch) Merkmal Thesaurusinhalt (Fachgebiet, bestimmte Aufgabe, Dachthesaurus, Hilfsthesaurus) Merkmal Deskriptoren (Benennungsthesaurus, Nummernthesaurus, Bildzeichenthesaurus, Mischthesaurus) Merkmal Relation (einfach strukturierter Thesaurus, komplex strukturierter Thesaurus) Merkmal Sprache (mehrsprachige Thesauri) DIN 1463 enthält keine Empfehlungen zum Druck von Thesauri. DIN 1463 sieht vor, die Fertigstellung eines Thesaurus der zuständigen Sammelstelle und anderen Fachinformationszentren und Informationsdiensten zu melden sowie für eine möglichst breite Publikation zu sorgen. Vorschlag vom Komitee Terminologie und Sprachfragen der DGD (Deutsche Gesellschaft für Dokumentation) heute DGI (Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis), um die Vielfalt zu systematisieren.

36 Literatur American National Standards Institute/ National Information Standards Organization: Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabulary. ANSI/NISO Z Buder, M.; Regfeld, W.; Seeger, T; Strauch, D. (Hrsg.): Ein Handbuch zur Einführung in die fachliche Dokumentationsarbeit. Begründet von Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H., 4. völlig neu gefasste Ausgabe München Duden, Das große Fremdwörterbuch: Herkunft und Bedeutung der Fremdwörter, hrsg. vom Wissenschaftlichen Rat der Dudenredaktion. Mannheim Gaus, Wilhelm: Dokumentations- und Ordnungslehre. Theorie und Praxis des Information Retrieval, 4.Aufl. Berlin Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H.: Grundlagen der praktischen Information und Dokumentation. Eine Einführung. 2. Aufl. München Ockenfeld, Marlies: Vom Stichwort zum Thesaurus. Fraunhofer-Institut für Integrierte Publikations- und Informationssysteme IPSI. Darmstadt Wersig, Gernot: Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München 1978.


Herunterladen ppt "Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar Projektorientiertes wissenschaftliches Arbeiten CIS, SS 2007."

Ähnliche Präsentationen


Google-Anzeigen