Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012
Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Grundkomponenten des Information Retrieval der Modelldefinition Doku- mente D1 D Reprä- sentation Analyse Doku- mente D2 R(qk,dm) Ähnlichkeit: - Matching - Ranking Anfrage Q Reprä- sentation D2 D1 Analyse © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Information-Retrieval-Modell: Definition Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm)) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Boolesches Modell und Vektormodell Dokument- und Anfrage-Repräsentation Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) Dokumentvektor: (1,1,0) Anfragevektor: (1,1,0) 1 1 1 1 Frequenz (Vektormodell) Dokumentvektor: (4,8,0) Anfragevektor: (3,6,0) 4 8 3 6 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Boolesches Modell und Vektormodell Illustration der Dokumentvektoren durch geometrische Interpretation Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) 1 1 Frequenz (Vektormodell) 2 4 Öl Preis © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Boolesches Modell und Vektormodell Vergleich D, Q Repräsentation Termvorkommen Termfrequenz F Framework Boolesche Algebra Vektoralgebra R Ranking – Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor Wahrheitswert der konjunktiven Verknüpfung von D und Q Ähnlichkeitsmaß für Vektoren D und Q Ergebnis - Passt / passt nicht zur Anfrage - Menge Numerische Ähnlichkeitswerte geordnete Liste © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Ziele Berücksichtigung partieller Übereinstimmung zwischen Anfragetermen und Dokumenttermen durch nicht-binäre Werte für Termgewichtung Berechnung der Ähnlichkeit zwischen Anfragetermen und Dokumenttermen Sortierung von Dokumenten nach Grad der Ähnlichkeit Präzisere Beantwortung der Anfrage als Boolesches Modell (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Dokument- und Query-Vektoren: Definition wi,m Gewicht für des Terms i in Dokument m; positiv, nicht binär wi,k Gewicht des Terms i in Query k x Anzahl der Index-Terme im System Dokument-Vektor Query-Vektor (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Termgewichtungen einfache Häufigkeit berücksichtigt Dokumentlänge nicht ergibt keine normalisierten Termvektoren nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll verwendbar tf: normalisierte Termfrequenz (Term-Frequenz) berücksichtigt Dokumentlänge ergibt normalisierte Termvektoren tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) berücksichtigt die Häufigkeitsverteilung von Termen im Corpus Terme, die in vielen Dokumenten vorkommen haben möglicherweise wenig Unterscheidungswert werden abgewertet © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Termgewichtungen: tf, idf tf Termfrequenz-Faktor Bedeutung: relative Anzahl der Vorkommen von Term ti in Dokument dm Zweck: soll besagen, wie gut ein Term den Inhalt eines Dokuments beschreibt idf inverse Dokument-Frequenz Sinn: Terme, die in vielen Dokumenten vorkommen, sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter Dokumente Beispiel: (Baeza-Yates/Ribeiro-Neto, 1999,29) d2 ein Brot 200 150 50 d1 und Bier 100 bei ungewichteter Anfrage „ein, Brot. und, ein, Bier“ würden hier die Vorkommen von „ein“ und „und“ über die Ähnlichkeit entscheiden © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Termgewichtungen: tf, idf normalisierte Termfrequenz inverse Termgewichtung mit tf-Formel Dokumentfrequenz tf-idf-Formel mit dieser Formel erhält man für alle Terme Gewichte mit den Werten 0 ≤ wi,m ≤ 1 N Gesamtzahl der Dokumente im System ti Indexterm ni Anzahl der Dokumente, in denen Term ti vorkommt freqi,m Anzahl der Erwähnungen von Term ti in Dokument dm maxl freql,m Frequenz des höchstfrequenten Terms in Dok. dm tfi,m normalisierte Frequenz von Term ti in Dokument dm idfi inverse Dokumentfrequenz von Term i © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Gesamtzahl der Dokumente im System: N=2048 Index-Terme: „Öl“ in 128 Dokumenten „Mexiko“ in 16 Dokumenten „Raffinerie“ in 1024 Dokumenten Beispiel-Dokument: Öl M. R. 4 8 10 Termfreq normalisierte Termfreq tf 0.4 0.8 1.0 inverse Dokfreq idf 4 7 1 tf-idf- Gewichtg. 1.6 5.6 1.0 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Termgewichtungen – inverse Dokumentfrequenz Termgwicht Dok.- Frequenz des Terms © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Termgewichtungen – Erläuterungen des Beispiels Der signifikanteste Term für das Beispieldokument ist „Mexiko“, da „Mexiko“ außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt Der am häufigsten im Beispieldokument vorkommende Term „Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente vorkommt (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Rankingfunktion Berechnung der Ähnlichkeit zwischen Anfrage und Dokument nach einem Ähnlichkeitsmaß zwischen Vektoren Am häufigsten verwendetes Ähnlichkeitsmaß: Cosinus des Winkels zwischen zwei Vektoren Andere Ähnlichkeitsmaße Dice-Koeffizient, Jaccard-Koeffizient, Overlap-Koeffizient Euklidische Distanz … © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Ranking-Funktion: Cosinus-Formel Berechnung der Ähnlichkeit zweier Vektoren nach dem Cosinus des Winkels zwischen den beiden Vektoren Winkel: Aussage über den Grad der Gemeinsamkeit der Richtung der Vektoren (Richtung: ~ Thema im IR) Cosinus: Aussage über einen Winkel mit Wertebereich von -1 bis +1 (bei Vektoren mit positiven Zahlen von 0 bis +1) Cosinus besser geeignet für Ranking-Angabe als Winkel b a a Wertebereich -1 <= cos <= 1 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Ranking-Funktion: Cosinus-Formel Ähnlichkeit von Dokument dm und Anfrage q Anmerkung: der Operator steht grundsätzlich für die eindeutige positive Lösung x2 = a © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Cosinus-Formel: Berechnungsbeispiel 4 8 d1 3 6 d2 1 2 q d1 q d2 q © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Cosinus-Formel: Ableitung (1) Skalarprodukt geometrische Formel (2) Skalarprodukt arithmetische Formel (3) Umformung von (1) (4) Einsetzen von (2) in (3) a b © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Ein Beispiel Term 1 Öl Term 2 Preis Term 3 Alaska Dokumentvektor1: (4,8,0) Dokumentvektor2: (3,6,0) Queryvektor: (1,2,0) 4 8 3 6 1 2 (vgl. Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Kommentar zum Beispiel Ähnlichkeitsmaß: Cosinus-Formel Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind, sind die Vektoren orthogonal und der Cosinus-Wert ist 0 Die Länge der Vektoren bleibt unberücksichtigt Daher ist die Formel verschiedentlich weiterentwickelt worden (Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Vorteile Termgewichtungsschema verbessert Retrievalergebnisse Strategie der partiellen Übereinstimmung ermöglicht Retrieval von Dokumenten, die der Retrievalanfrage nahe kommen Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der Ähnlichkeit (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Nachteile Annahme der Unabhängigkeit der Index-Terme Fall 1: Ist in der Praxis ein Vorteil Viele Abhängigkeiten sind lokal Lokale Eigenschaften würden Gesamtauswertung negativ beeinflussen Fall 2: Ist problematisch Beispiel: Dokument mit zwei Schwerpunkten: „Öl in Mexiko“ und „Kohle in Pennsylvania“ hohe Werte für Anfrage: „Kohle in Mexiko“ (Baeza-Yates/Ribeiro-Neto, 1999,30) (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vektormodell Bedeutung Mindestens genauso gut wie andere Modelle Möglicherweise besser Einfach Schnell (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Christian Roth Anand Mishra Versionen: 25.10.2012, 25.10.2009, 13.10.2008, 20.12.2006, 24.10.2006,20.10.2006,26.10.2001 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Ferber, Reginald (2003) Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012
Copyright © Karin Haenelt, 2006 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell. Kursfolien. 25.10.2009 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_Vektor.pdf graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt, Germany © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012