Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

g²HANDEL Auftragsverwaltung für Handelsvertretungen
Private Netze Neben öffentlichen GSM-Netzen etabliert sich für die europäischen Eisenbahnen eine neue digitale Zugfunkgeneration, die auf dem GSM-Standard.
Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
Eine dynamische Menge, die diese Operationen unterstützt,
„Ansicht Arbeitsbereich“ ist die nutzerspezifische Ansicht, in der alle Dokumente aufgelistet sind, die dem angemeldeten Benutzer zugeordnet sind. D.h.
Seminar Textmining WS 06/07 Themen Übung 9 Multilingualität Weitere Termine: 13.7.Symbolfolgen und PageRank Findlinks mitstreiter gesucht!
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
der Universität Oldenburg
Übung zu Einführung in die LDV I
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
FH-Hof Extensible Markup Language Richard Göbel. FH-Hof Extensible Markup Language XML XML ist universeller Ansatz für die Strukturierung von Zeichenketten.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/12 Informationsretrieval Suche mit und nach Attributen und Merkmalen, die bedeutend für die.
Lernen als Informationsverarbeitung
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/10 Grafische Anfragesprachen Geeignet sind grafische Anfragesprachen für Nutzer, die keine.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/9 Data Mining Ist die Wissensgewinnung aus Datensammlungen (Knowledge Discovery in Database).
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Klassifikationen Klassifikationen dienen dazu, Themen oder Objekte systematisch zu ordnen.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/10
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/8 Thesauren In gewisser Weise bilden Thesauren (Singular Thesaurus, Plural auch Thesauri)
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/7
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Machine Learning (ML) Der erste Teil dieser Definition ist auch eine Beschreibung von Machine.
QBE in MS Access formulieren
Klassendiagramm Verwandte Begriffe: class, Typ, Objektfabrik
Abhängigkeitsbeziehung
UML im Überblick – Dipl. Ing. Ulrich Borchert / FH Merseburg 1/22
1 Ein Computermodell zur Bestimmung von Begriffstypen Christof Rumpf Heinrich-Heine-Universität Tag der Forschung
Substantive Verben Adjektive
Semantisch gestützte Suche im Internet
Was ist Lemmatisierung und wie wird sie maschinell durchgeführt?
NPGrammar NPGrammar. Nominalphrasenextraktion.
Optimierung von Volltextindices
Optimierung von Volltextindices
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
Was versteht man unter XML Schema?
Morphologiesystem MORPHY Für Deutsche Sprache:
Titelmasterformat durch Klicken bearbeiten Formatvorlage des Untertitelmasters durch Klicken bearbeiten Die formalen Sprachen bei ETAP Teil II.
Komponenten eines Information Retrieval Systems
Sharpdesk Überblick Desktop Composer Suche Imaging      
Hyperlinks und Anker Links notieren
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
VERBALSUFFIXE IN ERZÄHLUNGEN AUS DEM GRAZER OPUS VON IVO ANDRIĆ Diplomarbeit Ekmečić Vanja Begutachter: O.Univ.-Prof. Mag. Dr. phil. Branko Tošović Institut.
Diplomarbeit Magdalena Kaiser Karl-Franzens Universität Graz Mai 2010
Paradigmenwechsel in der Unternehmensmodellierung Prof. Dr. Wolfgang Voigt Dipl.-Ing. Päd. Alexander Huwaldt UML Extrakt UML Seminar, Chemnitz
Wortbildung: Grundlagen, Klassen von Affixen
Anhand der Bildergalerie Phoca Gallery v
Die ‚neue‘ Rechtschreibung mit Beispielen
Medienneutrale Datenbanken
Übung zu Einführung in die LDV I
Jahrestagung der ASpB - München
Die Lateinische Sprache
Stadtratswahl am 7. Juni 2009 Wie werden Stimmen zu Sitzen? Hinweise zum Berechnungsverfahren.
Ortung mit GSM Dipl. Ing. Ulrich Borchert Fach: Mobile Computing HS Merseburg (FH)
Paul, Morten, Yannick Blue J. Entwicklungsumgebung  versteht Java Programmcode  Für die Entwicklung eigener Software  Durch die Programmierung.
Informatik Technische Informatik Praktische Informatik Theoretische
Theoretischer Hintergrund Systematische Wortschatzarbeit –
Fachwortschatz. Terminologie.
Gegenstand der Lexikologie. Geschichte der Lexikologie.
IB+IA Anfänger Structura limbii Sommersemester 2015 Dr. Ileana-Maria Ratcu.
Merkmale und Merkmalstrukturen
Lexikalische Semantik
Tanja Eder Slawische Korpuslinguistik Prof. Tosovic, SS 2006 Lexikalische Datenbanken WordNet – RussNet EuroWordNet und Global WordNet Association.
Clusteranalyse Tamara Katschnig.
DABay – Neuerung im Modul Bescheide
VO#1: Lexikologie als sprachwissenschaftliche Disziplin Lexikologie, Matej-Bel-Univeristät in Banská Bystrica, Z. Tuhárska.
Rechtschreibstrategien
 Präsentation transkript:

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System von Dokumentenklassen eingeordnet. Es gibt beispielsweise die Dezimalklassifikation und die Facettenklassifikation. Indizierung Ist im Bereich von Texten besser als Indexierung bekannt. Hier sind Deskribtoren Worte eines Textes oder Worte über einen Text.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg2/4 Automatische Verfahren Stichwortverfahren Standardverfahren bei der automatischen Deskribtion Es wird dabei wie folgt vorgegangen: Es wird die Häufigkeit aller Worte in einem Text bestimmt. Die häufigsten Worte werden gestrichen, da Worte wie der, die, das, eine, oder, und usw. keine Relevanz von Dokumenten bringen. Oft werden die seltensten Worte gestrichen, da diese eine Indexstruktur nur aufblähen. Die verbleibenden Worte werden in den Index übernommen.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg3/4 Morphologische Reduktion Bei der morphologischen Reduktion oder Stammformreduktion wird ein linguistischer Index angelegt, der auch die Flexionsformen von Worten speichert. Dies sind die Deklinationen von Substantiven und Adjektiven, die Konjugation von Verben und die Komposition von Worten. Als Dekribtor wird nur die Grundform (das Lexem und das Hauptmorphem) gespeichert, davon getrennt weitere Flexionsformen (Morpheme). Eine Flexionsklasse beschreibt eine Menge von gültigen Morphemen. Das Wörterbuch von Lexemen wird in diese Flexionsklasse zerlegt und die Deskribtoren jeweils einer Flexionsklasse zugeordnet.

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg4/4 Inhaltserschließung Bei diesen Verfahren werden statt statistischer Informationen und Informationen über Wortstämme weitere syntaktische und semantische Analysen durchgeführt. So kann man beispielsweise einen bereits automatisch erstellten Index mit einer Assoziationsmatrix mit vorher für bestimmte Themengebiete festgelegten Bezugswörtern in Beziehung bringen. Danach werden die Korrelationen gewichtet und ein Gesamtwert für einen Text ermittelt. Klassifizierung Hierzu werden Ähnlichkeitsmaße definiert und Cluster von Textdokumenten gebildet, deren Elemente einen bestimmten Ähnlichkeitsgrad aufweisen. Das Klassifikationssystem (die Cluster) bildet sich dynamisch.