Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Hinrich Latsha Geändert vor über 10 Jahren
1
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System von Dokumentenklassen eingeordnet. Es gibt beispielsweise die Dezimalklassifikation und die Facettenklassifikation. Indizierung Ist im Bereich von Texten besser als Indexierung bekannt. Hier sind Deskribtoren Worte eines Textes oder Worte über einen Text.
2
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg2/4 Automatische Verfahren Stichwortverfahren Standardverfahren bei der automatischen Deskribtion Es wird dabei wie folgt vorgegangen: Es wird die Häufigkeit aller Worte in einem Text bestimmt. Die häufigsten Worte werden gestrichen, da Worte wie der, die, das, eine, oder, und usw. keine Relevanz von Dokumenten bringen. Oft werden die seltensten Worte gestrichen, da diese eine Indexstruktur nur aufblähen. Die verbleibenden Worte werden in den Index übernommen.
3
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg3/4 Morphologische Reduktion Bei der morphologischen Reduktion oder Stammformreduktion wird ein linguistischer Index angelegt, der auch die Flexionsformen von Worten speichert. Dies sind die Deklinationen von Substantiven und Adjektiven, die Konjugation von Verben und die Komposition von Worten. Als Dekribtor wird nur die Grundform (das Lexem und das Hauptmorphem) gespeichert, davon getrennt weitere Flexionsformen (Morpheme). Eine Flexionsklasse beschreibt eine Menge von gültigen Morphemen. Das Wörterbuch von Lexemen wird in diese Flexionsklasse zerlegt und die Deskribtoren jeweils einer Flexionsklasse zugeordnet.
4
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg4/4 Inhaltserschließung Bei diesen Verfahren werden statt statistischer Informationen und Informationen über Wortstämme weitere syntaktische und semantische Analysen durchgeführt. So kann man beispielsweise einen bereits automatisch erstellten Index mit einer Assoziationsmatrix mit vorher für bestimmte Themengebiete festgelegten Bezugswörtern in Beziehung bringen. Danach werden die Korrelationen gewichtet und ein Gesamtwert für einen Text ermittelt. Klassifizierung Hierzu werden Ähnlichkeitsmaße definiert und Cluster von Textdokumenten gebildet, deren Elemente einen bestimmten Ähnlichkeitsgrad aufweisen. Das Klassifikationssystem (die Cluster) bildet sich dynamisch.
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.