Was ist ein Thesaurus und wie wird er erstellt?

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Gestaltung eines Posters (Schrift: Punkt 70).
Polynomial Root Isolation
Gliederung der Ausführungen: Einleitung, Hauptteil, Schluss
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
8 Behandlung von Begriffen 8.1 Grundlagen aus Logik und Psychologie
Bibliothekskurs Sozialwissenschaften
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Versuch einer Definition Was ist Evaluation!?
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
QBE in MS Access formulieren
Philosophie der Logik nach Frege I
HTML - Eine erste Annäherung
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Beispiele für Ausdrucksalgebren
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Was ist ein Thesaurus? Wozu wird ein Thesaurus benutzt?
How to? Tipps und Tricks für die Thesauruserstellung
Terminologie und Thesauri
Spree SoSe 2009 Feedback Thesaurus Feedback Thesaurus Einstieg Frau Spree Schöne Ergebnisse – bei strengster Bewertung: 1,01,31,72,02,32,73,03,74,
How to? Tipps und Tricks für die Thesauruserstellung
Qualitätskriterien zur Beurteilung von Dokumentationen
1 Indexierung - Begriffszerlegung Alphabete Seminar I-Prax: Inhaltserschließung visueller Medien, Spree WS 2005/2006 Begriffszerlegung – wo gibt.
Indexierung - Verschlagwortung
Spree SoSe 2010 Feedback Thesaurus / Facettenklassifikation Feedback Thesaurus / Facettenklassifikation Einstieg Frau Spree Schöne Ergebnisse – bei strengster.
-LABORPRAKTIKUM- SOMMERSEMESTER 2005
Einführung in das wissenschaftliche Schreiben
Grundlagen zu Thesaurus Petra Maier CIS, SS 07. Thesaurus und verwandte Begriffe Folksonomy Glossar Kontrolliertes Vokabular Ontologie Taxonomie, Klassifikationsschema.
Kakuro Regeln und Strategien
Erweitertes Personalauswahlverfahren
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering SS 2009Folie 1 Objektmodellierung Objekte und Klassen Ein Objekt ist ein Exemplar.
Spezifikation von Anforderungen
Prof. Dr. Gerhard Schmidt pres. by H.-J. Steffens Software Engineering WS 2006 / 2007Folie 1 Agile Vorgehensweisen Hintergrund –in den letzten Jahren hat.
Externe Bewertung in IB-Biologie
Synergieeffekte durch softwaregestützte Prozessmodelle
Workshop 2 Praktische Instrumente für den Gemeinsamen europäischen Referenzrahmen Dirk Klein:
Spezifik des fachbezogenen Sprachunterrichts Anita Emse, Lektorin der Fachhochschule Turiba.
Theorien, Methoden, Modelle und Praxis
GIS - Seminar Wintersemester 2000/2001
Copyright 2011 Bernd Brügge, Christian Herzog Grundlagen der Programmierung TUM Wintersemester 2011/12 Kapitel 11, Folie 1 2 Dr. Christian Herzog Technische.
Java für Fortgeschrittene
Wie schreibe ich eine Diplom- bzw. Masterarbeit ?
Klassifikation und Thesaurus Hilfsmittel der Wirtschaftsdokumentation
Abteilung für automatische Sprachverarbeitung
Paradigmenwechsel in der Unternehmensmodellierung Prof. Dr. Wolfgang Voigt Dipl.-Ing. Päd. Alexander Huwaldt UML Extrakt UML Seminar, Chemnitz
BBS-Schulung 2014: Harmonisierte Regelungen und Formulare
Anhand der Bildergalerie Phoca Gallery v
Die ersten Schritte bei der Entdeckung der Statistik
Schulungsunterlagen der AG RDA
Terminologische Kontrolle durch Thesauri
TECHNIKEN WISSENSCHAFTLICHEN ARBEITENS
Fachwortschatz. Terminologie.
Operatoren-Zuordnung
Inhalt Einordnung und Funktion der lexikalische Analyse Grundlagen
Umweltmanagementinformationssysteme (Übung) WS 07/08 Sven Lindenhahn Arbeitsgruppe MIS Seite 1 Umweltmanagementinformationssysteme (Übung) 2.
Dokumenten-Erstellung mit MS Word
Dagmar Much Empirische Erhebung Bildungsträger und Bildungsplaner.
Präsentation Phasenmodelle.
1 Wie findet man Literatur? Drei kumulative Suchstrategien [Lahnsteiner, Jura 2011, 580 (583f.)]: 1. Von Primär- zu Sekundärquelle: Die zentrale Primärquelle.
Wie findet man Literatur?
1 Wie findet man Literatur? Drei kumulative Suchstrategien [Lahnsteiner, Jura 2011, 580 (583f.)]: 1. Von Primär- zu Sekundärquelle: Die zentrale Primärquelle.
1 Prozesse im Studiengangsmanagement Kontext: Neues Abschlussziel erstellen Neues Studienfach erstellen.
1 Prozesse im Studiengangsmanagement Kontext: Neues Abschlussziel erstellen Neues Studienfach erstellen.
Operatoren Ein Operator zeigt an, welchen Teilbereich und in welcher Tiefe der Sachverhalt dargestellt werden soll. Je nachdem, welcher Operator verwendet.
1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
Die Fachsprache im Chemieunterricht
Thesauruskürzel WS 2009/10 Spree / ISD1 Deutsch Englisch
 Präsentation transkript:

Was ist ein Thesaurus und wie wird er erstellt? Elke Pürzer, 31. Mai 2007 Proseminar „Projektorientiertes wissenschaftliches Arbeiten“ CIS, SS 2007

Etymologie „Thesaurus“ The|sau|rus der; -, Plur. ...ren u. ...ri < über lat. thesaurus aus gr. thēsaurós „Schatz(kammer)“, eigentl. „Ort zum Einsammeln und Aufbewahren“, zu tithénai, vgl. These>: 1. Titel wissenschaftlicher Sammelwerke, bes. großer Wörterbücher der alten Sprachen. 2. alphabetisch u. systematisch geordnete Sammlung von Wörtern eines bestimmten [Fach]bereichs. 3. (in der Antike) kleineres Gebäude in einem Heiligtum zur Aufbewahrung von kostbaren Weihgaben. Duden, Das große Fremdwörterbuch Erster Thesaurus Synonymwörterbuch von P.M. Roget 1852: „Thesaurus of English Words and Phrases“ Gemeinsamkeiten mit heutigem Thesaurus: Wie finde ich den richtigen Ausdruck? Hierarchische und assoziative Beziehungen Synonyme

Thesaurus nach DIN 1463 Ein Thesaurus im Bereich der Information und Dokumentation ist eine geordnete Zusammenstellung von Begriffen und ihren (vorwiegend natürlichsprachigen) Bezeichnungen, die in einem Dokumentationsgebiet zum Indexieren, Speichern und Wiederauffinden dient. Er ist durch folgende Merkmale gekennzeichnet: a) Begriffe und Bezeichnungen werden eindeutig aufeinander bezogen („terminologische Kontrolle“), indem – Synonyme möglichst vollständig erfasst werden, – Homonyme und Polyseme besonders gekennzeichnet werden, – für jeden Begriff eine Bezeichnung (Vorzugsbenennung, Begriffsnummer oder Notation) festgelegt wird, die den Begriff eindeutig vertritt b) Beziehungen zwischen Begriffen (repräsentiert durch ihre Bezeichnungen) werden dargestellt.

Thesaurus-Normen Deutsches Institut für Normung e.V. DIN 1463 Teil 1: Erstellung und Weiterentwicklung von Thesauri – Einsprachige Thesauri, 1988 DIN 1463 Teil 2: Erstellung und Weiterentwicklung von Thesauri – Mehrsprachige Thesauri, 1993 International Organization for Standardization ISO 2788: Guidelines for the establishment and development of monolingual thesauri, 1986 (E) ISO 5964: Guidelines for the establishment and development of multilingual thesauri, 1985 (E) Thesaurus: The vocabulary of a controlled indexing language, formally organized so that the a priori relationships between concepts (for example as "broader" and "narrower") are made explicit. ANSI/NISO Z39.19-2005 American National Standards Institute/ National Information Standards Organization: Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabulary A controlled vocabulary arranged in a known order and structured so that the various relationships among terms are displayed clearly and identified by standardized relationship indicators. Relationship indicators should be employed reciprocally.

Begriffsklärung Begriffe sind gedankliche Abbildungen von Gegenständen. Sachen, Vorgängen, Ideen, usw. Sie können nicht direkt zwischen Personen ausgetauscht werden, deshalb wird jedem Begriff eine Benennung zugeordnet. Eine Benennung ist also ein Name, eine Bezeichnung, eine Kennzeichnung eines Begriffs. In der Dokumentation redet man einfach von Wörtern (englisch: terms), Thesauruswörtern, Thesauruseingängen oder Eingängen. Äquivalenzklasse: Zusammenfassung eng verwandter Begriffe, zwischen denen ein Ordnungssystem nicht unterscheiden kann. (Beispiel: Araberpferd, Berberpferd, Brauner, Fohlen, Hengst, Lippizaner, Islandpony, Kaltblut, Ross, Schimmel usw.) Vorzugsbenennung (Deskriptor): Jede Äquivalenzklasse erhält eine Vorzugs-benennung, die alle in einer Äquivalenzklasse zusammengefassten Begriffe repräsentiert (Beispiel: Pferd). Sie dienen als Gebrauchsvokabular, das für Indexierung und Retrieval zugelassen ist. Nicht-Vorzugsbenennung (Nicht-Deskriptor): Alle anderen Elemente der Äquivalenzklasse haben den Status von Nicht-Vorzugsbenennungen. Sie sind Bestandteil des Zugangsvokabulars, die selbst nicht für Indexierung und Recherche verwendet werden, aber auf den entsprechenden Deskriptor verweisen.

1.1 Systembezug (nach DIN 1463) Sachgebiet klar abgrenzen (mit Schwerpunkten und Randgebieten) Stand der dokumentarischen Erarbeitung des Sachgebiets Umfang des Thesaurus abschätzen: Vokabularumfang, Zahl der Äquivalenzklassen und Nicht-Deskriptoren (abhängig von der inhaltlichen Breite des Gebiets und vom Zuwachs an Dokumenteneinheiten) Spezifität: Welchen Grad an Genauigkeit oder Allgemeinheit sollen die Begriffe erreichen? (abhängig von der Größe des Gebiets) Art der Dokumentationseinheiten klären Anzahl der jährlich zu bearbeitenden Dokumentationseinheiten abschätzen Art und Anzahl der Suchfragen abschätzen Sprachstil: mehr wissenschaftlich oder auch für Nicht-Fachleute Schwerpunkt des Ordnungssystems alphabetisch oder systematisch

1.2 Wörtersammlung und Bezeichnungs-kontrolle Geeignete Quellen zur Vokabularsammlung (nach DIN 1463): Potentielle Benutzer und Fachleute Nationale und internationale Fachwörterbücher und Normen Aktuelle Fachliteratur Terminologische Abhandlungen oder Bezeichnungslisten Existierende Thesauri oder klassifikatorische Systeme Nomenklaturen Register zu Fachzeitschriften Sachwortverzeichnisse von Lehrbüchern, Handbüchern und Standardwerken Referatedienste Ergebnisse experimentellen Indexierens von Dokumenten Freitextsuche, Suchfragen und Bedarfsmeldungen von Benutzern

1.2 Wörtersammlung und Bezeichnungs-kontrolle Eignung der Wörter als Deskriptoren prüfen Häufigkeit ihres Vorkommens in der Literatur Häufigkeit ihres Vorkommens in Suchfragen Verwandtschaft mit bereits akzeptierten Deskriptoren Übereinstimmung mit aktueller Terminologie Wirksamkeit bzgl. des Bedeutungsumfangs Vorgehen Entwurf einer Grobklassifikation, der die Bezeichnungen zugeordnet werden Erfassung jedes Elements nach einem einheitlichen Schema: Bezeichnung, Quellen, Zuordnung zur Grobklassifikation, Status (Deskriptor oder Nicht-Deskriptor), evtl. Definitionen, formale Anpassungen (Vereinheitlichung von Singular/Plural, Auflösung von Abkürzungen) Aufnahme von Deskriptoren-Kandidaten, die vorläufig aufgenommen werden und dann die Kontrollen durchlaufen Zusätzlich alphabetische Sortierung

1.3 Terminologische Kontrolle 1.3.1 Synonymproblem und -kontrolle Zwei oder mehr Bezeichnungen repräsentieren die gleiche begriffliche Einheit. Problem der Synonymie kann dazu führen, dass für die Suchfrage relevante Dokumente nicht gefunden werden, wenn der Deskriptor z.B. als „Karzinom“ indexiert und unter „Krebs“ gesucht wird. Vollsynonyme Schreibweisenvarianten: Grafik – Graphik Kurzform und Vollform: Bus – Omnibus Abkürzungen und Volltext: VW – Volkswagen Regionale oder zeitliche Sprachunterschiede: Vesperbrot – Jause, Samstag – Sonnabend Fremdsprachliche Ausdrücke: Gehweg - Trottoir Allgemein- und fachsprachliche Unterschiede: Leberentzündung – Hepatitis Begriffe mit feinem Bedeutungsunterschied: Pferd – Gaul, Frau – Weib, Dauer – Zeit Erscheinungen des gleichen Phänomens: Rauhheit – Glätte Gegensätze: Spannungsabhängigkeit – Spannungsunabhängigkeit Gleichsetzung von Ober- und Unterbegriff: Nachschlagewerk – Lexikon Zuordnung von Namen: Senat von Berlin – Landesregierung Begriffe, die im Wesentlichen übereinstimmen, aber nicht ganz identisch sind: Rad – Fahrrad, Holland – Niederlande Quasisynonyme Teilsynonyme

1.3.1 Synonymproblem und -kontrolle Kontrolle der Synonymie durch: Zusammenfassung der Benennungen zu Äquivalenzklassen und Wahl einer Vorzugsbenennung (Deskriptor), alle anderen Bezeichnungen/Synonyme gelten dann als Nicht-Vorzugsbenennungen (Nicht-Deskriptoren) und verweisen auf die Vorzugsbenennung. Äquivalenzverweis von der Nicht-Vorzugsbenennung zur Vorzugsbenennung, z.B. Araberpferd  Pferd und Pferd  Araberpferd bilden ein Verweispaar (man kann also nach beiden Begriffen suchen und nicht nur nach dem Deskriptor) Alle Benennungen bilden eine eigene Äquivalenzklasse und sind gleichberechtigt in Indexierung und Retrieval. Systematisches Anordnen, so dass die sachlich verwandten Begriffe erkennbar werden Beschränkung auf fachsprachliche Ausdrücke Synonymbrücken (implizite Äquivalenzklassen), d.h. ein Verzeichnis, welche Benennungen synonym sind

1.3.2 Polysemproblem und -kontrolle Eine natürlichsprachliche Bezeichnung repräsentiert mehr als eine begriffliche Einheit. Das Problem der Polysemie kann dazu führen, dass zu viele und unrelevante Dokumentationseinheiten selektiert werden. Homonyme Homophone: Lehre – Leere, Mohr – Moor Echte Homographen (ehemals gemeinsame Sprachentwicklung): Tenor – Tenor Unechte Homographen (nicht mehr erkennbare gemeinsame Sprachentwicklung): Stift – Bleistift oder Altersheim Allgemeinsprachlich: Tau – Tau Allgemein- und Fachsprache: „Masse“ allgemeinsprachlich oder in der Physik Zwischen benachbarten Fachgebieten oder innerhalb von Fachgebieten Allgemeinwörter (Wörter mit unspezifischer Bedeutung), die in Verbindung mit anderen Wörtern die unterschiedlichsten Bedeutungen haben können: Anlage – Erbanlage/ Parkanlage, System – Nervensystem/ Verteidigungssystem Polyseme (unterscheiden sich weder in Schreib- noch Sprechweise)

1.3.2 Polysemproblem und -kontrolle Kontrolle der Polysemie durch: Thematische Begrenzung der Dokumentation (der Kontext klärt die Bedeutung) Systematisches Anordnen, so dass die sachlich verwandten Begriffe erkennbar werden Sichtbarmachen der hierarchischen Begriffsstrukturen Zufügen von spezifizierenden Zusätzen (Qualifikatoren), z.B. Morphologie (Biologie), Morphologie (Sprachwissenschaft) Beibehaltung nur eines Bedeutungsteil und Ausschluss der anderen Ersetzung der verschiedenen Bedeutungsteile durch Synonyme, z.B. Boxen: Boxsport – Stereoboxen

1.3.3 Zerlegungsproblem und -kontrolle Zur Vermeidung von überlangen Komposita und adjektivischen Phrasen werden komplexe Termini nicht in ihrer vollständigen Form in den Thesaurus aufgenommen, sondern eine festgelegte Kombination von bereits im Thesaurus vorhandenen Deskriptoren.  Semantische Zerlegung eines Begriffs in Begriffskomponenten (nicht in Wortteile), so dass die Kombination der zerlegten Bestandteile wieder den Begriff des zusammengesetzten Wortes ergibt (es soll eine semantische Zerlegung stattfinden, keine morphologische). Vorteil: Ohne die Anzahl der Äquivalenzklassen zu erhöhen, wird durch die Kombination bereits vorhandener Deskriptoren eine Bereicherung des Zugriffsvokabulars erreicht. Probleme: - Entstehung falscher Kombinationen bei der „Rückübersetzung“ der zerlegten Teile - Kompliziertere Thesaurusstruktur - Bei jeder Suche von nur einem der Teile werden auch alle anderen indexierten Dokumente mitgefunden.

1.3.4 Begriffliche Kontrolle Nach der terminologischen Kontrolle (der Bildung von isolierten Äquivalenzklassen) werden nun bei der begrifflichen Kontrolle Beziehungen zwischen den Begriffen gebildet, aus denen dann ein semantisches Netz über den gesamten Thesaurus entsteht. Auf diese Weise sollen alternative und möglicherweise treffendere Begriffe gefunden werden, die zu besseren Ergebnissen bei Indexierung und Retrieval führen. Sichtbarmachen der Bedeutungsverschiebungen für den Benutzer zwischen impliziter (gelernter, erfahrener) und expliziter (in Lexika, Wörterbüchern dargestellte) Bedeutung natürlichsprachlicher und dokumentationssprachlicher Bedeutung fachsprachlicher und dokumentationssprachlicher Bedeutung Definitionen (natürlichsprachliche Bedeutungsdarstellung) Erläuterungen (dokumentationssprachliche Bedeutungsdarstellung, z.B. wenn Benennungen in verschiedenen Fachbereichen gebräuchlich sind) Äquivalenzbeziehungen Assoziative Begriffsbeziehungen Zur begrifflichen Kontrolle dienen

1.3.5 Orientierungsfunktion Ordnen des Thesaurus nach Bezeichnungen, d.h. alphabetisch oder nach begrifflichen Einheiten, d.h. systematisch. Beide Formen sind komplementär, d.h. es sollte trotzdem ein Register in der nicht gewählten Form angelegt werden. Der systematische Teil muss übersichtlich sein und eignet sich daher nicht für eine große Anzahl an Begriffen. Thesauren mit mehr als 100 Seiten oder mehr als 1000 Deskriptoren sollten alphabetisch angeordnet sein. Systematischer Teil eines Thesaurus: Anordnung der Deskriptoren nach Grobordnung zur schnellen Orientierung oder nach Feinordnung, die alle Äquivalenzklassen zueinander in Beziehung setzt. Meist monohierarchische Anordnung dargestellt durch Notation oder Einrückungen Innerhalb der Äquivalenzklassen werden die Einträge dann wieder alphabetisch geordnet

2 Thesaurusstruktur Thesaurus ohne Vorzugsbenennung Alle Elemente der Äquivalenzklasse werden gleich behandelt und können für Indexierung und Retrieval genutzt werden. Die Äquivalenzklasse wird von einer Begriffsnummer repräsentiert, die das Bindeglied zwischen den verschiedenen Bezeichnungen bildet. Vorteil: - Verwendung aller Bezeichnungen für die Suche, - schnelle Änderungen möglich Nachteil: - sprachnormierender Charakter geht verloren - Fehlinterpretationen passieren leichter Thesaurus mit Vorzugsbenennung Jede Äquivalenzklasse erhält eine Vorzugsbenennung (Deskriptor), die alle in einer Äquivalenzklasse zusammengefassten Begriffe repräsentiert. Alle anderen Elemente der Äquivalenzklasse haben den Status von Nicht-Vorzugsbenennungen. (Sie sind Bestandteil des Zugangsvokabulars und verweisen auf den entsprechenden Deskriptor.)

2.1 Deskriptoren Arten von Deskriptoren Allgemeinbegriffe für eine Klasse von Gegenständen (materiell oder nichtmateriell) Individualbegriffe für individuelle Einheiten wie Personen, Institutionen usw. (Namen) Begriffe von Objektklassen, z.B. Nomenklaturen wie Tiere, Pflanzen, chemische Verbindungen, Anatomie, Artikelnamen usw. (Quasi-Namen) Namen und Quasi-Namen sollten im Thesaurus wie Benennungen behandelt werden und bei einer Grobordnung als eigene Grobgruppen zusammengefasst werden. Allgemeinwörter zu allgemein, um für sich allein stehend konkrete Sachverhalte zu beschreiben, z.B. Analyse, Planung, System usw. schwer zu definieren, oft Bezeichnungen großer Fachgebiete wie Biologie, Chemie usw. Ohne sie müsste man jedoch zu viele Deskriptoren schaffen, um die verschiedenen Aspekte eines Deskriptors umfassend darzustellen. Man schafft deshalb eine Grobgruppe „Allgemeinwörter“, in die alle Wörter eingeordnet werden, die nicht zum Fachvokabular gehören, die man aber für die inhaltliche Erschließung braucht. Sie werden innerhalb der Gruppe alphabetisch geordnet.

2.1 Deskriptoren Anforderungen an Deskriptoren genau und präzise: möglichst genaue Beschreibung der gesamten Äquivalenzklasse eindeutig: Verwechslungen ausgeschlossen gebräuchlich: Auszählen der Worthäufigkeiten prägnant: kurz, leicht verständlich und gut merkbar angemessene Sprachebene unkomplizierter Zeichenvorrat Nicht-Deskriptoren Termini, die nicht den Anforderungen an Deskriptoren entsprechen und somit nicht als Repräsentant einer Äquivalenzklasse verwendet werden, sondern nur als Zugangsvokabulars, das auf den entsprechenden Deskriptor verweist. z.B. Synonyme, Quasi-Synonyme, Formvarianten (invertierte Formen), Vollformen, fremdsprachliche Äquivalente, Polyseme zu großen Allgemeinheitsgrads, komplexe Benennungen, die semantisch zerlegt wurden Formale Kriterien sind weniger streng: auch nicht-substantivische, invertierte oder Plural-Formen sind zugelassen

2.1 Deskriptoren Formale Kriterien für Deskriptoren (nach DIN 1463) Substantivische Form, d.h. nur in Ausnahmefällen Adjektivphrasen, Adjektive (z.B. sozial, international) und Verben Nominativ Singular, d.h. Plural nur falls der Singular nicht gebräuchlich oder nicht vorhanden ist Natürliche Wortfolge (z.B. alphabetisches Register) oder Aufnahme der invertierten Form als Synonym (z.B. Register, alphabetisches) Kurzform falls die Bedeutung allgemein bekannt ist (z.B. Pkw), die Vollform wird als Nicht-Deskriptor ausgewiesen. Aufnahme der fremdsprachlichen Benennung falls keine eigensprachlichen vorhanden Schreibweise: Groß- und Kleinschreibung, Auflösung von Umlauten in internationalen Systemen, großzügiges Setzen von Bindestrichen bei mehrgliedrigen Benennungen Transliteration: im Falle eines anderen Alphabets Anwendung der Transliterations-empfehlungen der International Organization for Standardization (ISO) Zeichenvorrat: möglichst wenig Satzzeichen, nur runde Klammern und Bindestriche, Punkte nur für Abkürzungen, keine Kommata, Semikola oder Apostrophe, nur arabische Ziffern, extra Regeln für die Behandlung von hoch oder tief gesetzten Zeichen definieren

2.4 Relationen zwischen Deskriptoren Unerlässliches Kriterium für einen Thesaurus. Darstellung durch folgende Standardkürzeln nach DIN 1463 und ISO 2788: Äquivalenzrelationen BS – Benutze Synonym U/USE – Use synonym BF – Benutzt für UF – Used for BK – Benutze Kombination KB – Kombinationsbegriff Hierarchische Relationen OB – Oberbegriff BT – Broader term UB – Unterbegriff NT – Narrower term OA – Oberbegriff/ BTG – Broader term (generic) Abstraktionsrelation UA – Unterbegriff/ NTG – Narrower term (generic) SP – Verbandsbegriff BTP – Broader term (partitive) TP – Teilbegriff NTP – Narrower term (partitive) SB – Spitzenbegriff TT – Top term Assoziationsrelationen VB – Verwandter Begriff RT – Related term

2.4.1 Äquivalenzrelationen Darstellung der begrifflichen Relationen innerhalb der Äquivalenzklassen in der Form von Verweispaaren, d.h. zu jedem Verweis muss es einen Rückverweis geben: Nicht-Deskriptor  Deskriptor Sonnabend BS Samstag „Benutze Synonym“ gibt an, zu welcher Äquivalenzklasse die Benennung gehört. Deskriptor  Nicht-Deskriptor Samstag BF Sonnabend „Benutzt für“ gibt an, welche Benennungen zu dieser Äquivalenzklasse gehören. Möglichkeit der Definition eigener Kürzel für weitere Synonym-Kategorien: Quasi-Synonyme (weil diese Äquivalenzklassen öfter wieder aufgelöst werden müssen, wenn Deskriptoren stäker differenziert werden sollen.) Rechtschreibsynonyme (Fotografie ─ Photographie) Abkürzungen Fremdsprachliche Synonyme Deskriptoren anderer Dokumentationssprachen

2.4.1 Äquivalenzrelationen Sonderfall bei Polysemen: Verweis auf mehrere Deskriptoren, die je nach Kontext unterschiedlich zu benutzen sind. Morphologie BS Morphologie (Biologe) oder BS Morphologie (Sprachwissenschaft) Bei semantischer Zerlegung: Verweis von einem unzerlegten Nicht-Deskriptor auf mindestens zwei Deskriptoren. BK „Benutze Kombination“ KB „Kombinationsbegriff“ Luftgekühlter Elektromotor BK Luftkühlung + Elektromotor Luftkühlung KB Luftgekühlter Elektromotor Elektromotor KB Luftgekühlter Elektromotor Ersetzen eines allgemeinen Begriffs durch einen spezifischeren Unterbegriff: BSU „Benutze spezifischen Unterbegriff“ BFO „Benutzt für spezifischen Oberbegriff“ Naturwissenschaft BSU Biologie Chemie Physik Biologie BFO Naturwissenschaft

2.4.2 Hierarchische Relationen Generische Relation (Abstraktionsrelation) In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen der untergeordnete Begriff (Unterbegriff) alle Merkmale des übergeordneten Begriffs (Oberbegriff) besitzt und zusätzlich mindestens ein weiteres spezifizierendes Merkmal. Baum UB Baumstamm „Unterbegriff“ Baumstamm OB Baum „Oberbegriff“ Obstbaum UA Steinobstbaum „Unterbegriff Abstraktionsrelation“ Steinobstbaum OA Obstbaum „Oberbegriff Abstraktionsrelation“ Partitive Relation (Bestandsrelation) In DIN 1436 definiert als eine hierarchische Relation zwischen zwei Begriffen, von denen der übergeordnete (weitere) Begriff (Verbandsbegriff) einem Ganzen entspricht und der untergeordnete (engere) Begriff (Teilbegriff) einen der Bestandteile dieses Ganzen repräsentiert. Baum TP Baumstamm „Teilbegriff“ Baumstamm SP Baum „Verbandsbegriff“ Die meisten Thesauri fassen beide Relationen einfach in der Beziehungsart OB und UB zusammen.

2.4.3 Assoziative Relationen Nach DIN 1436: Eine Assoziationsrelation ist eine zwischen Begriffen bzw. ihren Bezeichnungen als wichtig erscheinende Relation, die weder eindeutig hierarchischer Natur ist, noch als äquivalent angesehen werden kann. Unspezifische Zusammenfassung von allem, was irgendwie mit dem Ausgangsbegriff zu tun hat. Sinn ist die Schaffung von Querbeziehungen zu anderen evtl. geeigneten Deskriptoren und alternativen Einstiegsmöglichkeiten außerhalb des hierarchischen Thesaurusgefüges. Obst VB Obstbaum „Verwandter Begriff“ Obstbaum VB Obstbaum Gerichtete Beziehungen: Genetische Beziehungen (Vater/Sohn) Vorgänger-Nachfolger-Beziehungen Urheber-Verursacher-Beziehungen Materialbeziehungen (Holz/Tisch) Kausalbeziehungen (Lehren/Lernen) Zeitlicher Zusammenhang Ungerichtete Beziehungen: Gegensatz (Härte/Weichheit) Gleichordnung (Dieselmotor/Ottomotor) Ähnlichkeit (Form: Kugel/Ball, Herkunft: Rohseide/Kunstseide) Gemeinsamkeiten

3 Thesaurus-Hauptteil 3.1 Deskriptorensatz Zusammenfassung der verschiedenen Relationen und sonstiger Angaben zur Äquivalenzklasse im Deskriptorensatz. Für jede Benennung ist eine derartige „Wortkarte“ auszufüllen. Ordnungsmerkmale Zuteilung einer Begriffsnummer zum Deskriptorensatz Einführung einer Notation (Identifikationskennzeichen eines Deskriptors bei größeren Thesauri) Benennung Deskriptor (BF) Nicht-Deskriptor (BS/BK) Homonym-Zusätze Übersetzungen z.B. englisch z.B. französisch andere Sprachen Begriffsbeziehungen Synonyme (BS) Quasi-Synonyme (BS/BK) Vorzugsbenennung bzw. Kombination von Einzeldeskriptoren (BK) Oberbegriffe (OB) Unterbegriffe (UB)

3.1 Deskriptorensatz Fortsetzung Begriffsbeziehungen Oberbegriffe (Abstraktionsrelation) (OB) Unterbegriffe (Abstraktionsrelation) (UB) Oberbegriffe (Partitive Relation) (SP) Unterbegriffe (Partitive Relation) (TP) Verwandte Begriffe (assoziative Relation) (VB) Zusätzliche Informationen Definition mit Quellenangabe Zusätze und Erläuterungen (Scope Notes) Fundstelle der Benennung Häufigkeitsangaben Angaben zur Konkordanz mit anderen Systemen Bearbeitungsvermerke Bearbeiter Einführungs- oder Änderungsdatum Überarbeitungsvermerke

3.2 Thesaurus-Manual Nach DIN 1463 sollte die Benutzerversion folgendes enthalten (extra Manuale für Thesaurus-Bearbeiter und professionelle Benutzer wie z.B. Indexierer): Benennung, Erläuterung und Abgrenzung des Sachgebiets Angaben für welchen Benutzerkreis und Verwendungszweck der Thesaurus erstellt wurde Ordnungsprinzip und Regeln nach denen der Thesaurus erstellt wurde Erläuterung aller auftretenden Wort- und Verweistypen anhand von Beispielen Angabe der Methoden und Quellen bei der Auswahl und Normierung der Deskriptoren Aufbau der Notation erläutern, falls vorhanden Verzeichnis der Abkürzungen Allgemeine Anleitung für den Gebrauch des Thesaurus (wie man beim Indexieren und Formulieren der Suchfragen vorgehen muss) Statistische Angaben über den Thesaurus selbst (Anzahl der Deskriptoren, Nicht- Deskriptoren und Verweispaare) Erstellungsdatum des Thesaurus und beabsichtigtes Weiterentwicklungsdatum sowie Angaben, wer wann welche Revision durchgeführt hat Angaben zu Bezugsquelle, Copyright und Dateiformat

3.3 Thesaurus-Hauptteil Alphabetische Anordnung der Deskriptoren Teil des Thesaurus, der alle Angaben zu einem Begriffssatz enthält. Es gibt zwei Möglichkeiten die Deskriptoren zu ordnen. Sinnvoll ist die Vergabe laufender Deskriptorennummern, einer Notation oder beides. Alphabetische Anordnung der Deskriptoren Geeignet für größere Thesauri mit umfangreichen Begriffssätzen Für Thesauri mit Vorzugsbenennung Vorteile: - Neueinfügungen sind leichter zu organisieren - Alphabetische Suchvorgänge führen schneller zum Ziel Systematische Anordnung der Deskriptoren Geeignet für kleinere Thesauri und Thesauri mit weniger Angaben zu den Deskriptoren Zwei Varianten: - Grobsystematische Anordnung: Zusammenfassung der Deskriptoren nach Hauptgruppen und innerhalb der Hauptgruppen alphabetisch - Feinsystematische Anordnung: klassifikatorische Einordnung jedes Deskriptors Vorteile: - Schnellere Übersicht möglich (Visualisierung durch Beziehungsgraphen wie Liniendiagramme, Gruppendiagramme, Flächendiagramme, Koordinatendiagramme) - Systematische Suchprozeduren gehen schneller

3.3 Thesaurus-Hauptteil Polyhierarchien Thesauri sind meist polyhierarchisch strukturiert, d.h. ein Begriff kann mehrere Oberbegriffe bzw. mehrere Unterteilungsgesichtspunkte haben. Systematische Anordnung im Hauptteil wird erschwert, weil Deskriptorensätze mehrfach erscheinen und viele Verweise nötig sind. Keine expliziten Vorschriften in der DIN-Norm dazu vorhanden. Gute Reihenfolge bei mehreren Über- und Unterordnungen: generisch  partitiv  verwandt  sonstige

4 Erstellung eines Thesaurus 4.1 Arbeitsablauf Kürzeste und prägnanteste Darstellung in DIN 1463: Systemkonzipierungsphase Systemkonzept des Thesaurus wird erarbeitet Quellen und bereits existierende Dokumentationssprachen müssen betrachtet werden Entwurf der Thesaurus-Konzeption Sammelphase Quellen für die Wörtersammlung bestimmen Kriterien für die Auswahl der Wörter festlegen Erfassungsschema festlegen Alphabetische Sortierung der Wörter Bewertungsphase Vereinigung gleicher Benennungen Bildung von Äquivalenzklassen Aussonderung fachlich nicht-relevanter Benennungen Kontrollphase Terminologiekontrolle: Ausscheiden zu allgemeiner Benennungen, Entscheidung über Vorzugsbenennungen, Differenzierung von Polysemen

4 Erstellung eines Thesaurus 4.1 Arbeitsablauf Fortsetzung: Strukturierungsphase Festlegen der Begriffsbeziehungen Semantische Zerlegung und Spezifizierung von Allgemeinwörtern Wörter auf Konsistenz und Vollständigkeit prüfen Bedeutungsunklarheiten beseitigen Testphase Testversion des Thesaurus erarbeiten Erprobung durch Indexierungs- und Retrievaltests Validierungsphase Testergebnisse zusammenstellen und auswerten Entscheidungen und Änderungen planen Praxisphase Einsatz des Thesaurus in der Praxis Sammlung von Kommentaren Fortschreibung Berücksichtigung der Praxiserfahrungen, der freien Indexierung und der weiteren Entwicklung des Thesaurus

4.2 Organisation der Thesaurus-Arbeit Voraussetzungen Fachwissen Linguistische Kenntnisse Thesauruswissen und -erfahrung Wissen über die zu indexierenden Quellen Wissen über potentielle Nutzer EDV-Kenntnisse Kombiniertes Sach- und Sprachwissen bei fremdsprachlichen Arbeiten Permanenter Stab für: Erstellung von Richtlinien und Arbeitsunterlagen, Verwaltungsaufgaben, Kontakte Externe Experten für die fachlichen Arbeiten: Deskriptorenauswahl, Bildung von Äquivalenzklassen (Schulung der Experten in thesaurustechnischen Fragen) Entscheidungsgremium, Redaktionskommission: Entscheidung fachlicher und methodischer Streitfragen Gutachter für Spezialprobleme Teamarbeit

4.2 Organisation der Thesaurus-Arbeit Anwendungstests Auswahl einer ausreichenden Anzahl an Dokumenten, die einen repräsentativen Querschnitt des Fachgebiets darstellen, indexieren und einspeichern Echte oder simulierte Suchfragen formulieren und Probespeicher danach durchsuchen. Man sollte bei einigen Suchfragen wissen, welche Dokumente gefunden werden müssten. Einarbeitung der Ergebnisse und Erfahrungen Queckliste (folgende Fragen sollen geklärt werden): Entsprechen Struktur und Umfang des Thesaurus den praktischen Erfordernissen? Ist die Terminologie angemessen (Fachsprache – Umgangssprache)? Sind die Deskriptoren zur Indexierung und zum Retrieval geeignet? Kann ausreichend tief verschlagwortet werden? Gibt es mehr Einträge zum Kerngebiet des Thesaurus und weniger zu den Randgebieten? Ist der Thesaurus erweiterungsfähig? Sind die dargestellten Begriffsbeziehungen richtig und ausreichend? Sind die Darstellungsformen benutzerfreundlich?

4.2 Organisation der Thesaurus-Arbeit Thesaurus-Pflege In regelmäßigen Abständen durchführen Laufende Beobachtung: aktueller Stand der Forschung, fachsprachliche Entwicklung, Indexierungsverhalten, Benutzerverhalten Gebrauch eines Kandidatenvokabulars zwischen den Revisionen Überprüfung des Wortguts: - Löschung unbenutzter Deskriptoren - Erweiterung häufig benutzter Deskriptoren - Ergänzung fehlender Deskriptoren - Löschung von veraltetem Zugangsvokabular - Ergänzung fehlender Relationen - Entfernung von Überhierarchisierungen Vorteile von Thesaurus-Software: - Automatische Erzeugung der reziproken Einträge - Verhinderung von Doubletten - Verhinderung logischer/struktureller Fehler (Plausibilitätskontrolle) - Direkte Ausführung einer Korrektur in allen betroffenen Deskriptorensätzen

4.2 Organisation der Thesaurus-Arbeit Druck und Anzeigepflicht DIN 1463 enthält keine Empfehlungen zum Druck von Thesauri. DIN 1463 sieht vor, die Fertigstellung eines Thesaurus der zuständigen Sammelstelle und anderen Fachinformationszentren und Informationsdiensten zu melden sowie für eine möglichst breite Publikation zu sorgen. Thesaurus-Typen Vorschlag vom Komitee Terminologie und Sprachfragen der DGD (Deutsche Gesellschaft für Dokumentation) heute DGI (Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis), um die Vielfalt zu systematisieren. Merkmal Thesaurusform (alphabetisch oder systematisch) Merkmal Thesaurusinhalt (Fachgebiet, bestimmte Aufgabe, Dachthesaurus, Hilfsthesaurus) Merkmal Deskriptoren (Benennungsthesaurus, Nummernthesaurus, Bildzeichenthesaurus, Mischthesaurus) Merkmal Relation (einfach strukturierter Thesaurus, komplex strukturierter Thesaurus) Merkmal Sprache (mehrsprachige Thesauri)

Literatur American National Standards Institute/ National Information Standards Organization: Guidelines for the Construction, Format, and Management of Monolingual Controlled Vocabulary. ANSI/NISO Z39.19-2005. Buder, M.; Regfeld, W.; Seeger, T; Strauch, D. (Hrsg.): Ein Handbuch zur Einführung in die fachliche Dokumentationsarbeit. Begründet von Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H., 4. völlig neu gefasste Ausgabe München 1997. Duden, Das große Fremdwörterbuch: Herkunft und Bedeutung der Fremdwörter, hrsg. vom Wissenschaftlichen Rat der Dudenredaktion. Mannheim 2000. Gaus, Wilhelm: Dokumentations- und Ordnungslehre. Theorie und Praxis des Information Retrieval, 4.Aufl. Berlin 2003. Laisiepen, K.; Lutterbeck, E.; Meyer-Uhlenried, K.-H.: Grundlagen der praktischen Information und Dokumentation. Eine Einführung. 2. Aufl. München 1980. Ockenfeld, Marlies: Vom Stichwort zum Thesaurus. Fraunhofer-Institut für Integrierte Publikations- und Informationssysteme IPSI. Darmstadt 2007. Wersig, Gernot: Thesaurus-Leitfaden. Eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. München 1978.