Information Retrieval, Vektorraummodell

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.
Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,
13. Transformationen mit Matrizen
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07
INFORMATION RETRIEVAL (IR)
Seminar „Extrapolationsmethoden für zufällige Felder“
3.1 3 Implementierungstechniken 3.1 Kompression von invertierten Dateien Warum? Parameter des Index: N = Anzahl Dokumente n = Anzahl Terme f t = Dokumentfrequenz.
Maschinelle Übersetzung I
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Risikoanalyse in der Kerntechnik
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.
Informationsgewinnung mit Agenten
Vorlesung Informatik 2 Algorithmen und Datenstrukturen Halbzeit: Was haben wir bisher gelernt? Prof. Th. Ottmann.
Information Retrieval Modelle: Vektor-Modell
Information Retrieval
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Query Reformulation Seminar Multimedia-Datenbanken Sommersemester 2002 Marcus Denecke.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Christian Schindelhauer
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Materialien zu Übung 9 Bälle in Körbe Ranged.
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
ISWeb - Information Systems & Semantic Web Marcin Grzegorzek 3.3 Relevance Feedback Bewertung von Ergebnisdokumenten Auswertung.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Qualität von Web-Suchmaschinen Search Engine Stragies Munich 2005 Dirk Lewandowski Heinrich-Heine-Universität Düsseldorf, Abt. Informationswissenschaft.
§14 Basis und Dimension  (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
§11 Skalarprodukt. Euklidische Räume
Spezifikations- und Selektionsmethoden für Daten und Dienste
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen und automatische Textklassifikation
Maschinelles Lernen und automatische Textklassifikation
Entitäten Extraktion Einführung
Nützlichkeit statistischer Phrasen in der Textklassifikation
Komponenten eines Information Retrieval Systems
Zeit, Ort und Weg Geschwindigkeit Beschleunigung
Identifikation der geographischen Lage von Zeitungsartikeln (GIR) Masterarbeit von Tobias Brunner Betreuung: Dr. R. S. Purves.
Erhard Künzel für Info 9. Klasse: Digitale Schule Bayern© Erhard Künzel.
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Adaptive Systeme-2 Grundlagen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Christian Scheideler Institut für Informatik Universität Paderborn
Zeit, Ort, Weg und Geschwindigkeit
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt
Kapitel 9 Analyse der Modellstruktur Hackl, Einführung in die Ökonometrie 2 Rekursive OLS-Schätzung Spezifiziertes Modell: y = X + u y, u:
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Datenbank des Deutschen Patent- und Markenamtes
Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Christian Schindelhauer Wintersemester 2006/07 6. Vorlesung
Textklassifikation und Informationsextraktion
Modellbasierte Software- Entwicklung eingebetteter Systeme Prof. Dr. Holger Schlingloff Institut für Informatik der Humboldt Universität und Fraunhofer.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Information Retrieval Methoden, die dazu dienen, unstrukturierte Daten zu beschreiben, zu speichern und später nach inhaltlichen Kriterien wieder aufzufinden.
5.1 5 Retrieval auf Bildern (.... in a nutshell)  Bedeutung.... ... im Zusammenhang mit Information Retrieval ... für Anwendungen Medizin: "Finde ähnliche.
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
2 Grundlagen des Information Retrieval
Geoinformationssysteme
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Information Retrieval, Vektorraummodell Tobias Scheffer Uwe Dick Peter Haider Paul Prasse

Information Retrieval Konstruktion von Systemen, die die Informationsbedürfnisse der Benutzer befriedigen. Repräsentation, Speicherung, Zugriff auf Dokumente. Informationsbedürfnis kann, muss aber nicht durch Anfrage ausgedrückt werden. Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). 2

Schlüsselwort-Modell Dokument repräsentiert durch Schlüsselwörter. Schlüsselwörter unterschiedlich speziell und relevant, unterschiedliche Gewichte. K = {k1, …, kt} sind Index-Terme. Dokument dJ = (w1,J, …, wt,J) wi,J=0, wenn ki nicht in dJ vorkommt, wi,J=gi(dJ) sonst. beliebige Funktion; berücksichtigt, ob und wie oft das Wort vorkommt Tags? Also nicht textbasiert? 3

Boolesches Modell Dokumente: beschrieben durch Vorkommen von Schlüsselwörtern. Suchanfrage sind Boolesche Ausdrücke. Ergebnisse der Suchanfrage werden durch Mengenoperationen bestimmt. Binäre Entscheidungen, kein Ranking der Ergebnisse. Dokument dJ = (w1,J, …, wt,J), für Schlüsselwörter. wi,J=0, wenn ki nicht in dJ vorkommt, wi,J=1 sonst. 4

Ranking oder binäre Entscheidungen Boolsches Modell gibt alle Dokumente zurück, die der Anfrage genügen. Keine Reihenfolge. Gefühlt „mehr Kontrolle“ für den Nutzer Score-Bewertungen implizieren Ranking Schlechtes Ranking bedeutet schlechte Performance 5

Vektorraummodell Bag-of-Words: Vektorraummodell: Nur die Menge der Wörter wird berücksichtigt. Keine Berücksichtigung der Wortreihenfolge. Vektorraummodell: Jeder Text = Punkt in hochdimensionalem Raum. Raum hat eine Dimension für jedes Wort der Sprache. Variante: nur Wortstämme berücksichtigen, „Stop-Wörter“ entfernen. 6

Vorverarbeitung Stemming: Nur Wortstämme verwenden Auch: bin, bist, sind, … -> sein Lemmatizing: Wie Stemming, nur unter Zuhilfenahme von Parseinformationen. Normalisierung: z.B im Englischen: anti-discriminatory und antidiscriminatory. Auch Synonymauflösung: Auto, Wagen Stopwords: der, die, das, von, … 7

Vektorraum-Modell Text wird repräsentiert durch Punkt im hochdimensionalen Raum, Wortreihenfolge bleibt unberücksichtigt, Wortstammbildung, „inverse document frequency“. 8

Vektorraum-Modell: TFIDF-Repräsentation Termfrequenz eines Wortes in einem Text = # Vorkommen des Wortes im Text. Problem: Einige Wörter sind weniger relevant (und, oder, nicht, wenn, …) Lösung: Inverse Dokumentenfrequenz 9

Vektorraum-Modell Problem: Lange Texte haben lange Vektoren, führt zu Verzerrungen beim Ähnlichkeitsmaß. Lösung: Normieren Repräsentation eines Textes: 10

TFIDF Alternative Definitionen für Termfrequenz, Dokumentfrequenz und Normalisierung Auszug aus Manning, et.al.: Introduction to Information Retrieval: http://nlp.stanford.edu/IR-book/ 11

Vektorraum-Modell Ähnlichkeit zwischen Text dJ und und Anfrage q: Cosinus des Winkels zwischen den Vektoren. Ähnlichkeit: Zwischen 0 und 1. 12

Probabilistisches Modell Binary independence retrieval (BIR) model. Dokument dJ = (w1,J, …, wt,J), für Schlüsselwörter. wi,J=0, wenn ki nicht in dJ vorkommt, wi,J=1 sonst. R ist die Menge der relevanten Dokumente. Gesucht: Schätzer für P(R | dJ): P(Dokument ist relevant). Ähnlichkeit: Odds-Ratio 13

Probabilistisches Modell Bayes‘ Regel: P(R) ist konstant (für alle Dokumente gleich) Annahme: Die Terme des Dokuments sind unabhängig: 14

Probabilistisches Modell Dann folgt für sim: : Wahrscheinlichkeit für Anfrageterm ki in relevanten Texten. : Wahrscheinlichkeit dafür, dass Anfrageterm ki in relevantem Text nicht auftritt. 15

Probabilistisches Modell Annahme: Wörter, die in der Anfrage q nicht auftauchen, haben gleiche Wahrscheinlichkeit in relevanten wie nicht relevanten Dokumenten vorzukommen. Logarithmiert und leicht umgeformt: 16

Probabilistisches Modell Problem: P(ki | R) ist nicht bekannt. Muss irgendwie von Hand eingestellt oder aus Daten gelernt werden. 17

Fragen? 18