Information Retrieval Modelle: Vektor-Modell

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Stefan Lohrum Konrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB)

Anzahl der ausgefüllten und eingesandten Fragebögen: 211

Univariate Statistik M. Kresken.

Elementare Grundlagen der Vektorrechnung

Ähnlichkeitsmaße für Vektoren

Streuungsmaß 3: absolute Abweichung vom Mittelwert

Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.

Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.

Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.

Seminar Textmining WS 06/07

Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.

3. Kapitel: Komplexität und Komplexitätsklassen

Seminar „Extrapolationsmethoden für zufällige Felder“

3.1 3 Implementierungstechniken 3.1 Kompression von invertierten Dateien Warum? Parameter des Index: N = Anzahl Dokumente n = Anzahl Terme f t = Dokumentfrequenz.

Verifizieren versus Berechnen

Anfrage-Optimierung und -Bearbeitung in Verteilten DBMS

Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Information Retrieval auf Texten An ihre Grenzen stoßen relationale Datenbanken bei der.

Logische Vektoren in R Jonathan Harrington.

Forschungsstatistik I

WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.

Mathematische Grundlagen

Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.

Mathematische Grundlagen

, , , (1: ) Retrieval und Ranking von Dokumenten Kursfolien Karin Haenelt.

Bau effizienter und effektiver Metasuchmaschinen

Information Retrieval

Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.

Query Reformulation Seminar Multimedia-Datenbanken Sommersemester 2002 Marcus Denecke.

MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.

Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.

Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.

Automatisches Clustering und automatische Klassifikation

Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Relevanz Ranking Bisher:

Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse

Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.

3 Prinzipien des Information Retrieval

Grundschutztools

§11 Skalarprodukt. Euklidische Räume

Spezifikations- und Selektionsmethoden für Daten und Dienste

Vorlesung: Biometrie für Studierende der Veterinärmedizin

Machine Learning KNN und andere (Kap. 8).

Wiederholung: Einfache Regressionsgleichung

Kurzformaufgaben Mit welcher Zahl geht die Zahlenreihe ...5, 4, 8, 7, 14… weiter? 13 28 15 9.

Wie Google Webseiten bewertet

Arbeit, Energie.

Vektoren Grundbegriffe für das Information Retrieval

Vorbereitung zur Reife- und Diplomprüfung Statistik

Aufgabenzettel V Statistik I

Polynome und schnelle Fourier-Transformation

Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt

STATISIK LV Nr.: 0028 SS Mai 2005.

Kapitel 13 Zeitreihen und Zeitreihen-Modelle

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt

Analyseprodukte numerischer Modelle

Using latent semantic analysis to find different names for the same entity in free text Präsentation und Diskussion des Papers Im Rahmen des PS Web-Information.

Physik für Mediziner und Zahmediziner

Information Retrieval, Vektorraummodell

Information Retrieval Modelle: Probabilistische Modelle Kursfolien

Unscharfe Anfragen in Multimedia- Datenbanksystemen Seminar Multimedia-Datenbanken WS 2001/2002 Silvana Runow.

Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)

2 Grundlagen des Information Retrieval

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Einführung: Statistische Verfahren der automatischen Indexierung

Herleitung der Formel zur Berechnung von Winkeln zwischen 2 Vektoren

Präsentation transkript:

Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012

Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Grundkomponenten des Information Retrieval der Modelldefinition Doku- mente D1 D Reprä- sentation Analyse Doku- mente D2 R(qk,dm) Ähnlichkeit: - Matching - Ranking Anfrage Q Reprä- sentation D2  D1 Analyse © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Information-Retrieval-Modell: Definition Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm)) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Boolesches Modell und Vektormodell Dokument- und Anfrage-Repräsentation Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) Dokumentvektor: (1,1,0) Anfragevektor: (1,1,0) 1 1 1 1 Frequenz (Vektormodell) Dokumentvektor: (4,8,0) Anfragevektor: (3,6,0) 4 8 3 6 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Boolesches Modell und Vektormodell Illustration der Dokumentvektoren durch geometrische Interpretation Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) 1 1 Frequenz (Vektormodell) 2 4 Öl Preis © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Boolesches Modell und Vektormodell Vergleich D, Q Repräsentation Termvorkommen Termfrequenz F Framework Boolesche Algebra Vektoralgebra R Ranking – Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor Wahrheitswert der konjunktiven Verknüpfung von D und Q Ähnlichkeitsmaß für Vektoren D und Q Ergebnis - Passt / passt nicht zur Anfrage - Menge Numerische Ähnlichkeitswerte geordnete Liste © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Ziele Berücksichtigung partieller Übereinstimmung zwischen Anfragetermen und Dokumenttermen durch nicht-binäre Werte für Termgewichtung Berechnung der Ähnlichkeit zwischen Anfragetermen und Dokumenttermen Sortierung von Dokumenten nach Grad der Ähnlichkeit Präzisere Beantwortung der Anfrage als Boolesches Modell (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Dokument- und Query-Vektoren: Definition wi,m Gewicht für des Terms i in Dokument m; positiv, nicht binär wi,k Gewicht des Terms i in Query k x Anzahl der Index-Terme im System Dokument-Vektor Query-Vektor (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Termgewichtungen einfache Häufigkeit berücksichtigt Dokumentlänge nicht ergibt keine normalisierten Termvektoren nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll verwendbar tf: normalisierte Termfrequenz (Term-Frequenz) berücksichtigt Dokumentlänge ergibt normalisierte Termvektoren tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) berücksichtigt die Häufigkeitsverteilung von Termen im Corpus Terme, die in vielen Dokumenten vorkommen haben möglicherweise wenig Unterscheidungswert werden abgewertet © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Termgewichtungen: tf, idf tf Termfrequenz-Faktor Bedeutung: relative Anzahl der Vorkommen von Term ti in Dokument dm Zweck: soll besagen, wie gut ein Term den Inhalt eines Dokuments beschreibt idf inverse Dokument-Frequenz Sinn: Terme, die in vielen Dokumenten vorkommen, sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter Dokumente Beispiel: (Baeza-Yates/Ribeiro-Neto, 1999,29) d2 ein Brot 200 150 50 d1 und Bier 100 bei ungewichteter Anfrage „ein, Brot. und, ein, Bier“ würden hier die Vorkommen von „ein“ und „und“ über die Ähnlichkeit entscheiden © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Termgewichtungen: tf, idf normalisierte Termfrequenz inverse Termgewichtung mit tf-Formel Dokumentfrequenz tf-idf-Formel mit dieser Formel erhält man für alle Terme Gewichte mit den Werten 0 ≤ wi,m ≤ 1 N Gesamtzahl der Dokumente im System ti Indexterm ni Anzahl der Dokumente, in denen Term ti vorkommt freqi,m Anzahl der Erwähnungen von Term ti in Dokument dm maxl freql,m Frequenz des höchstfrequenten Terms in Dok. dm tfi,m normalisierte Frequenz von Term ti in Dokument dm idfi inverse Dokumentfrequenz von Term i © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Gesamtzahl der Dokumente im System: N=2048 Index-Terme: „Öl“ in 128 Dokumenten „Mexiko“ in 16 Dokumenten „Raffinerie“ in 1024 Dokumenten Beispiel-Dokument: Öl M. R. 4 8 10 Termfreq normalisierte Termfreq tf 0.4 0.8 1.0 inverse Dokfreq idf 4 7 1 tf-idf- Gewichtg. 1.6 5.6 1.0 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Termgewichtungen – inverse Dokumentfrequenz Termgwicht Dok.- Frequenz des Terms © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Termgewichtungen – Erläuterungen des Beispiels Der signifikanteste Term für das Beispieldokument ist „Mexiko“, da „Mexiko“ außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt Der am häufigsten im Beispieldokument vorkommende Term „Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente vorkommt (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Rankingfunktion Berechnung der Ähnlichkeit zwischen Anfrage und Dokument nach einem Ähnlichkeitsmaß zwischen Vektoren Am häufigsten verwendetes Ähnlichkeitsmaß: Cosinus des Winkels zwischen zwei Vektoren Andere Ähnlichkeitsmaße Dice-Koeffizient, Jaccard-Koeffizient, Overlap-Koeffizient Euklidische Distanz … © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Ranking-Funktion: Cosinus-Formel Berechnung der Ähnlichkeit zweier Vektoren nach dem Cosinus des Winkels zwischen den beiden Vektoren Winkel: Aussage über den Grad der Gemeinsamkeit der Richtung der Vektoren (Richtung: ~ Thema im IR) Cosinus: Aussage über einen Winkel mit Wertebereich von -1 bis +1 (bei Vektoren mit positiven Zahlen von 0 bis +1) Cosinus besser geeignet für Ranking-Angabe als Winkel b a a Wertebereich -1 <= cos <= 1 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Ranking-Funktion: Cosinus-Formel Ähnlichkeit von Dokument dm und Anfrage q Anmerkung: der Operator steht grundsätzlich für die eindeutige positive Lösung x2 = a © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Cosinus-Formel: Berechnungsbeispiel 4 8 d1 3 6 d2 1 2 q d1 q d2 q © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Cosinus-Formel: Ableitung (1) Skalarprodukt geometrische Formel (2) Skalarprodukt arithmetische Formel (3) Umformung von (1) (4) Einsetzen von (2) in (3) a b © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Ein Beispiel Term 1 Öl Term 2 Preis Term 3 Alaska Dokumentvektor1: (4,8,0) Dokumentvektor2: (3,6,0) Queryvektor: (1,2,0) 4 8 3 6 1 2 (vgl. Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Kommentar zum Beispiel Ähnlichkeitsmaß: Cosinus-Formel Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind, sind die Vektoren orthogonal und der Cosinus-Wert ist 0 Die Länge der Vektoren bleibt unberücksichtigt Daher ist die Formel verschiedentlich weiterentwickelt worden (Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Vorteile Termgewichtungsschema verbessert Retrievalergebnisse Strategie der partiellen Übereinstimmung ermöglicht Retrieval von Dokumenten, die der Retrievalanfrage nahe kommen Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der Ähnlichkeit (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Nachteile Annahme der Unabhängigkeit der Index-Terme Fall 1: Ist in der Praxis ein Vorteil Viele Abhängigkeiten sind lokal Lokale Eigenschaften würden Gesamtauswertung negativ beeinflussen Fall 2: Ist problematisch Beispiel: Dokument mit zwei Schwerpunkten: „Öl in Mexiko“ und „Kohle in Pennsylvania“ hohe Werte für Anfrage: „Kohle in Mexiko“ (Baeza-Yates/Ribeiro-Neto, 1999,30) (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vektormodell Bedeutung Mindestens genauso gut wie andere Modelle Möglicherweise besser Einfach Schnell (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Christian Roth Anand Mishra Versionen: 25.10.2012, 25.10.2009, 13.10.2008, 20.12.2006, 24.10.2006,20.10.2006,26.10.2001 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Ferber, Reginald (2003) Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

Copyright © Karin Haenelt, 2006 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell. Kursfolien. 25.10.2009 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_Vektor.pdf graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt, Germany © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012