Komponenten eines Information Retrieval Systems

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)
Kohonennetze für Information Retrieval mit User Feedback
Vorlesung Compilertechnik Sommersemester 2008
Eine dynamische Menge, die diese Operationen unterstützt,
Statistische Aspekte der PSG
Webseiten, die gefunden werden Dr. Eduard Heindl, Heindl Internet AG Tübingen.
Information - syntaktisch
Suche in Texten (Stringsuche )
Seminar Textmining WS 06/07 Themen Übung 11 unsupervised vs. supervised Symbolfolgen, Kunstsprachen Page Rank.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Imperative Programmierung
Konzeption und Realisierung eines Text- Analysesystems zur Automatisierung der Bewerberauswahl von diesem Datenformat jede beliebige Anwendung adaptieren.
Wissensmanagement mit semantischen Netzen – Analyse und Vergleich verschiedener Softwarelösungen Autor: Holger Wilhelm Referentin: Prof. Dr. Uta Störl.
Spielbäume Richard Göbel.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Effizienz: Indexstrukturen
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Datenbanken vs. Markup Manfred Thaller WS 2009/2010 Humanities Computing Linda Scholz.
Warentest Kartennutzung und Kartenkritik. Wie gut ist eine thematische Karte? Ansatz zur Kartenkritik: vom Nutzer und dessen Aufgaben ausgehend orthogonal.
1 Automatische Klassifikation von Nomen nach Begriffstyp Christof Rumpf Heinrich-Heine-Universität
Information Retrieval Modelle: Vektor-Modell
Wahl des Themas Präzisieren der Formale Eingrenzung Fragestellung
Beispiele für Ausdrucksalgebren
Grammatik als Deduktionssystem
Grundlegende Analysen & Zwischendarstellungen
Seminar: Architekturbeschreibungssprachen
Semantisch gestützte Suche im Internet
Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.
Qualitätskriterien zur Beurteilung von Dokumentationen
Indexierung - Verschlagwortung
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Spree SoSe 2010 Optimierung von Volltextinvertierung durch den Einsatz von Indexierungswörterbüchern Artikelstrecke ab BUTTERBLUME im Deutschen Wörterbuch.
FH-Hof Analyse des R-Baums - Teil 1 Richard Göbel.
Kontrollfragen zu Kapitel 12
Entitäten Extraktion Einführung
Kakuro Regeln und Strategien
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Eignung von Grammatik-basiertem Layout für grafische Programmiersprachen Seminar Layout-Algorithmen für Graphen Institut für Informatik Christian-Albrechts.
Knowledge Discovery mit Wordnet und Alembic Workbench
1 Knowledge Discovery mit Wordnet und Alembic Workbench (Julia Faion) (Markus Reiter)
Project Perseus Der volle Projektname lautet Perseus Digital Library Project. Das Projekt begann in 1985 als Experiment zur Digitalisierung von Bibliotheken.
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
§3 Allgemeine lineare Gleichungssysteme
Wahrscheinlichkeitsrechnung
Übung zu Einführung in die LDV I
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
Information Retrieval, Vektorraummodell
Von Unternehmen und Unternehmern
Statistik – Regression - Korrelation
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
setzt Linearität des Zusammenhangs voraus
Lexikalische Semantik
Stochastische Modelle in der Biologie (C. Bandt 2004) Die Folien sind nur Übersicht, Einzelheiten in der Vorlesung 1. Irrfahrten mit Endzuständen Definition:
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Information - syntaktisch
HEURISTIKEN.
Gliederung der Vorlesung
Arten von Suchwerkzeugen
Binärbäume.
Statistik I Statistik I Statistische Grundbegriffe
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Vo#1:Semantik als Wissenschaft Semantik I Matej-Bel-Universität in Banská Bystrica Zuzana Tuhárska.
- Seite 1 TIME INTELLIGENCE ® by Titel.
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Automatische Indexierung mit besonderer Berücksichtigung der Deutschen Sprache Komponenten eines Information Retrieval Systems Informationserschließung Abfragesprache Informationsaufbereitung und -ausgabe Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Indexierung und Information Retrieval Systeme Die Indexierung von Dokumenten ist eine zentrale Operation in einem Informationssystem Ermittlung von Deskriptoren, die den Inhalt eines Dokumentes repräsentieren Es ermöglicht die Suche nach Dokumenten die für den Benutzers relevant sind das Verknüpfung der Dokumente, die thematisch zusammengehören die Relevanzbestimmung der einzelnen Dokumente Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Qualität des Indexierungsprozesses Die Güte des Indexierungsprozesses bestimmt die Effektivität des Informationssystems bei der Recherche Recall Verhältnis der Anzahl der vom System aufgrund der Suchanfrage gefundenen Dokumente zu allen hinsichtlich des Suchbegriffes relevanten Dokumenten Maß für die Vollständigkeit des Suchergebnisses Precision Maß für die Genauigkeit der Suche dargestellt als Anteil der relevanten Dokumente, die aufgrund der Suchanfrage gefunden wurden Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Automatische Indexierung Dokumentenorientierter Ansatz Gewinnung der Deskriptoren aus dem Titel, aus einer Zusammenfassung oder aber aus dem Volltext des Dokumentes selbst Automatische Schlagwortvergabe Volltextinvertierung Begriffsorientierter Ansatz Gewinnung der Deskriptoren aufgrund eines verbindlichen, kontrollierten Indexierungsvokabulars (=eine Art Wörterbuch) Automatische Deskriptorenvergabe Automatische Notationsvergabe Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Verfahren der automatischen Indexierung Statistisches Verfahren Bedeutung der einzelnen Begriffe hängt eng mit der Häufigkeit des Auftretens im Dokument zusammen Probabilistisches Verfahren Bestimmung der Relevanzwahrscheinlichkeit steht im Mittelpunkt der Untersuchungen Linguistisches Verfahren Deskriptoren werden mit Hilfe einer morphologischen, syntaktischen und semantischen Analyse der Dokumente gewonnen. Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Statistische Verfahren WDF (i) = [ld(Freq(i,j) + 1) + 1] / ld L Bei der Informationsstatistik geht es darum, Wörter in Texten zu zählen und entsprechend deren Relevanz zu gewichten. Die Gewichtung erfolgt anhand mehrerer Faktoren: Einfache Zählungen von Worthäufigkeiten Dokumentspezifische Wortgewichtung WDF (i) = [ld(Freq(i,j) + 1) + 1] / ld L Position im Text Inverse Dokumentenhäufigkeit IDF(i) = (log2 N/n) + 1 Wortabstand Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Statistische Modelle im Überblick Modell von Luhn - Ermittlung von Worthäufigkeiten Ermittlung der absoluten Häufigkeit jedes einzelnen Begriffes für jedes Dokument Ermittlung der Häufigkeit eines Begriffes in der gesamten Dokumentensammlung Eliminierung aller Begriffe, die öfters als der obere Schwellenwert und seltener als der untere Schwellenwert vorkommen Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Statistische Modelle im Überblick Modell von Sparck Jones - Inverse Dokumentenhäufigkeit Bedeutsamkeit eines Begriffes ist proportional zur Häufigkeit des Begriffes im Dokument, jedoch umgekehrt proportional zur Gesamtanzahl der Dokumente der gesamten Datenbasis, in denen der Begriff vorkommt Der Schwerpunkt der Gewichtung wird auf die Begriffe gelegt, die im Dokument selbst relativ oft vorkommen, die aber gleichzeitig in relativ wenigen Dokumenten der gesamten Datenbasis zu finden sind Gewährleistet die Abgrenzung und Unterscheidung der einzelnen Dokumente voneinander Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Statistische Modelle im Überblick Modell von Dennis - Signalwert und Balast Signalwert Ist umso größer, je seltener der Begriff im Dokument vorkommt Verringert die Unsicherheit über den Inhalt des Dokumentes Ballast Erreicht sein Maximum, wenn der Begriff in jedem Dokument gleich oft vorkommt und sein Minimum, wenn er nur in genau einem Dokument vorkommt Je geringer der Wert des Ballast ist, desto eher ist der Term als Deskriptor dazu geeignet, die einzelnen Dokumente voneinander zu unterscheiden Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Statistische Modelle im Überblick Modell von Salton - Diskriminanzwert Der Diskriminanzwert bringt zum Ausdruck, inwieweit ein Begriff ein Dokument von einem anderen Dokument unterscheiden kann Positive Diskriminanzwerte stehen für Begriffe von mittlerer Frequenz. Diese Begriffe sollten bei der Indexierung bevorzugt werden. Negative Diskriminanzwerte ergeben sich für Begriffe mit sehr hoher Frequenz. Sie sollten nicht zur Indexierung benutzt werden. Indifferente Diskriminanzwerte nahe 0 stehen für Niedrigfrequenzbegriffe. Sie beeinflussen die Ähnlichkeit zweier Dokumente nicht und können daher zur Indexierung verwendet werden oder auch nicht. Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Probabilistische Verfahren Im Mittelpunkt steht Bestimmung der Relevanzwahrscheinlichkeit, die auch mit dem persönlichen Nutzen des Benutzers verglichen werden kann. Das 2-Poisson-Modell Geht davon aus, daß die Relevanz eines Suchbegriffes in einem Dokument von der relativen Ausführlichkeit der Themenbehandlung im Dokument abhängig ist. Das Utility-Theorie-Modell Hauptziel ist die Erreichung des maximalen Nutzens für den Benutzer des Retrieval Systems. Ein Deskriptor wird einem Dokument genau dann zugeteilt, wenn der davon insgesamt zu erwartende Nutzen größer ist als der einer Nicht-Zuteilung. Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Probabilistische Verfahren Das "unified model" Die Dokumente durch ungewichtete Deskriptoren indexiert. Es wird davon ausgegangen, daß sich die Wahrscheinlichkeit der Relevanz eines Dokumentes bei einem gegebenen Suchbegriff feststellen läßt. Sie basiert auf dem Vorhandensein bzw. dem Fehlen des Suchbegriffes im Dokument. Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Linguistische Verfahren Linguistische Verfahren bestehen in der Regel aus drei aufeinander aufbauenden Schritten, die notwendig sind, um für die Indexierung ausreichende Ergebnisse zu erhalten Morphologischen Analyse Findet auf der Wortebene statt Syntaktischen Analyse Findet auf der Satzebene statt Semantischen Analyse Findet auf der Ebene des gesamten Dokumentes statt Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Morphologische Analyse Findet auf der Wortebene statt und hat die Aufgabe, nicht sinntragende Wörter zu eliminieren, grammatikalische Flexionsformen auf eine Grundform zu bringen, aus mehreren Termen bestehende Phrasen zu erkennen und Pronomina den Nomen zuzuordnen, um so Unabhängigkeit von der aktuellen Erscheinungsform eines Wortes im Text zu erzielen Voraussetzung ist die Isolation einzelner Wörter bzw. Zeichenfolgen! Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Morphologische Analyse Stoppwörter Elimination von nicht bedeutungstragenden Wörtern durch Wortfrequenzanalyse Rauschmaß Flexionsformengenerierung Anlegen eines Wörterbuches, mit allen grammatisch möglichen Formen aller Wörter Lemmatisierung bzw. Wortstammbildung Ermittlung der grammatischen Grund- oder Stammform durch die Rückführung der konkreten Wortform auf einen Wörterbucheintrag Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Morphologische Analyse Phrasenerkennung Durch Abgleich mit Listen bzw. Analyse gemeinsamen Auftretens in den Dokumenten Synonyme Unterschiedliche Bezeichnungen für den selben Begriff Kompositazerlegung Zerlegen von Mehrwortbegriffen in einzelne Grundformen Derivation Zusammenfassen von verschiedenen Wortklassen oder Derivaten mit der selben Grundform Bindestrichergänzung Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Syntaktische Analyse Phrasenstrukturgrammatiken Findet auf der Satzebene statt und baut auf den Satzkontext eines einzelnen Wortes und auf dessen syntaktischen Merkmalen auf. Phrasenstrukturgrammatiken Baut auf Ersetzungsregeln auf, wobei zwischen terminalen und nichtterminalen Elementen und kontextfreien und kontextsensitiven Grammatiken unterschieden wird. Nichtterminalen Elemente können unabhängig vom Kontext durch terminale Elemente ersetzt werden. Terminale Elemente können nicht ersetzt werden. Transformationsgrammatiken Baut ebenfalls auf Ersetzungsregeln auf. Die Regeln sind jedoch im Unterschied zu Phrasenstrukturgrammatiken vom Kontext abhängig. Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Syntaktische Analyse Übergangsnetzwerkgrammatiken Die Grammatik wird als ein Netzwerk von Knoten (=Zustände) und Kanten (=Übergang von einem Zustand in einem anderen) dargestellt. Kommt es zu Mehrdeutigkeiten in den Knotenbeziehungen - von einem bestimmten Zustand aus sind mehrere Übergänge zu anderen Zuständen möglich - wird eine Rangfolge der möglichen Wege hinsichtlich ihrer Wahrscheinlichkeit aufgestellt und der Weg mit der höchsten Wahrscheinlichkeit verfolgt. Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Semantische Analyse Findet auf der Ebene des gesamten Dokumentes statt Es wird versucht, sinntragende Zusammenhänge im Dokument zu erkennen, um den gesamten Text in bedeutungsabhängige Einheiten zerlegen zu können Möglichkeiten der Verwendung semantischer Informationen in der Sprachanalyse derzeit aufgrund großem Aufwand noch sehr begrenzt Automatische Indexierung Seminar aus Informationswirtschaft WS00/01

Schlußfolgerungen und Ausblick Systeme automatischer Indexierung deutschsprachiger Texte sind in der kommerziellen Informationswirtschaft noch relativ selten im Einsatz, was auf die zahlreichen Ausnahmen der deutschen Sprache zurückzuführen ist Weder der alleinige Einsatz der manuellen Indexierung noch der alleinige Einsatz eines automatischen Indexierungsverfahrens führt derzeit zu einem befriedigenden Ergebnis Besonders im Hinblick auf die immer größer werdende Informationsflut wird es notwendig sein, Tools zur automatischen Indexierung laufend weiterzuentwickeln und zu verbessern Automatische Indexierung Seminar aus Informationswirtschaft WS00/01