Information Retrieval Modelle: Vektor-Modell

Name: Information Retrieval Modelle: Vektor-Modell
Uploaded: 2017-12-27T21:40:27+00:00
Duration: PTM21S3
Channel: Gudrun Monninger
Description: Information Retrieval Modelle: Vektor-Modell

Information Retrieval Modelle: Vektor-Modell
Karin Haenelt

Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition
Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell,

Grundkomponenten des Information Retrieval
der Modelldefinition Doku- mente D1 D Reprä- sentation Analyse Doku- mente D2 R(qk,dm) Ähnlichkeit: - Matching - Ranking Anfrage Q Reprä- sentation D2  D1 Analyse © Karin Haenelt, IR-Modelle: Vektor-Modell,

Information-Retrieval-Modell: Definition
Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm)) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Boolesches Modell und Vektormodell Dokument- und Anfrage-Repräsentation
Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) Dokumentvektor: (1,1,0) Anfragevektor: (1,1,0) 1 1 1 1 Frequenz (Vektormodell) Dokumentvektor: (4,8,0) Anfragevektor: (3,6,0) 4 8 3 6 © Karin Haenelt, IR-Modelle: Vektor-Modell,

Boolesches Modell und Vektormodell Illustration der Dokumentvektoren durch geometrische Interpretation Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) 1 1 Frequenz (Vektormodell) 2 4 Öl Preis © Karin Haenelt, IR-Modelle: Vektor-Modell,

Boolesches Modell und Vektormodell Vergleich
D, Q Repräsentation Termvorkommen Termfrequenz F Framework Boolesche Algebra Vektoralgebra R Ranking – Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor Wahrheitswert der konjunktiven Verknüpfung von D und Q Ähnlichkeitsmaß für Vektoren D und Q Ergebnis - Passt / passt nicht zur Anfrage - Menge Numerische Ähnlichkeitswerte geordnete Liste © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Ziele Berücksichtigung partieller Übereinstimmung zwischen Anfragetermen und Dokumenttermen durch nicht-binäre Werte für Termgewichtung Berechnung der Ähnlichkeit zwischen Anfragetermen und Dokumenttermen Sortierung von Dokumenten nach Grad der Ähnlichkeit Präzisere Beantwortung der Anfrage als Boolesches Modell (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Dokument- und Query-Vektoren: Definition
wi,m Gewicht für des Terms i in Dokument m; positiv, nicht binär wi,k Gewicht des Terms i in Query k x Anzahl der Index-Terme im System Dokument-Vektor Query-Vektor (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Termgewichtungen
einfache Häufigkeit berücksichtigt Dokumentlänge nicht ergibt keine normalisierten Termvektoren nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll verwendbar tf: normalisierte Termfrequenz (Term-Frequenz) berücksichtigt Dokumentlänge ergibt normalisierte Termvektoren tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) berücksichtigt die Häufigkeitsverteilung von Termen im Corpus Terme, die in vielen Dokumenten vorkommen haben möglicherweise wenig Unterscheidungswert werden abgewertet © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Termgewichtungen: tf, idf
tf Termfrequenz-Faktor Bedeutung: relative Anzahl der Vorkommen von Term ti in Dokument dm Zweck: soll besagen, wie gut ein Term den Inhalt eines Dokuments beschreibt idf inverse Dokument-Frequenz Sinn: Terme, die in vielen Dokumenten vorkommen, sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter Dokumente Beispiel: (Baeza-Yates/Ribeiro-Neto, 1999,29) d2 ein Brot 200 150 50 d1 und Bier 100 bei ungewichteter Anfrage „ein, Brot. und, ein, Bier“ würden hier die Vorkommen von „ein“ und „und“ über die Ähnlichkeit entscheiden © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Termgewichtungen: tf, idf
normalisierte Termfrequenz inverse Termgewichtung mit tf-Formel Dokumentfrequenz tf-idf-Formel mit dieser Formel erhält man für alle Terme Gewichte mit den Werten 0 ≤ wi,m ≤ 1 N Gesamtzahl der Dokumente im System ti Indexterm ni Anzahl der Dokumente, in denen Term ti vorkommt freqi,m Anzahl der Erwähnungen von Term ti in Dokument dm maxl freql,m Frequenz des höchstfrequenten Terms in Dok. dm tfi,m normalisierte Frequenz von Term ti in Dokument dm idfi inverse Dokumentfrequenz von Term i © Karin Haenelt, IR-Modelle: Vektor-Modell,

Gesamtzahl der Dokumente im System: N=2048
Index-Terme: „Öl“ in Dokumenten „Mexiko“ in Dokumenten „Raffinerie“ in Dokumenten Beispiel-Dokument: Öl M. R. 4 8 10 Termfreq normalisierte Termfreq tf 0.4 0.8 1.0 inverse Dokfreq idf 4 7 1 tf-idf- Gewichtg. 1.6 5.6 1.0 © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Termgewichtungen – inverse Dokumentfrequenz
Termgwicht Dok.- Frequenz des Terms © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Termgewichtungen – Erläuterungen des Beispiels
Der signifikanteste Term für das Beispieldokument ist „Mexiko“, da „Mexiko“ außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt Der am häufigsten im Beispieldokument vorkommende Term „Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente vorkommt (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Rankingfunktion
Berechnung der Ähnlichkeit zwischen Anfrage und Dokument nach einem Ähnlichkeitsmaß zwischen Vektoren Am häufigsten verwendetes Ähnlichkeitsmaß: Cosinus des Winkels zwischen zwei Vektoren Andere Ähnlichkeitsmaße Dice-Koeffizient, Jaccard-Koeffizient, Overlap-Koeffizient Euklidische Distanz … © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Ranking-Funktion: Cosinus-Formel
Berechnung der Ähnlichkeit zweier Vektoren nach dem Cosinus des Winkels zwischen den beiden Vektoren Winkel: Aussage über den Grad der Gemeinsamkeit der Richtung der Vektoren (Richtung: ~ Thema im IR) Cosinus: Aussage über einen Winkel mit Wertebereich von -1 bis +1 (bei Vektoren mit positiven Zahlen von 0 bis +1) Cosinus besser geeignet für Ranking-Angabe als Winkel b a a Wertebereich -1 <= cos <= 1 © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Ranking-Funktion: Cosinus-Formel
Ähnlichkeit von Dokument dm und Anfrage q Anmerkung: der Operator steht grundsätzlich für die eindeutige positive Lösung x2 = a © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Cosinus-Formel: Berechnungsbeispiel
4 8 d1 3 6 d2 1 2 q d1 q d2 q © Karin Haenelt, IR-Modelle: Vektor-Modell,

Cosinus-Formel: Ableitung
(1) Skalarprodukt geometrische Formel (2) Skalarprodukt arithmetische Formel (3) Umformung von (1) (4) Einsetzen von (2) in (3) a b © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Ein Beispiel
Term 1 Öl Term 2 Preis Term 3 Alaska Dokumentvektor1: (4,8,0) Dokumentvektor2: (3,6,0) Queryvektor: (1,2,0) 4 8 3 6 1 2 (vgl. Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Kommentar zum Beispiel
Ähnlichkeitsmaß: Cosinus-Formel Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind, sind die Vektoren orthogonal und der Cosinus-Wert ist 0 Die Länge der Vektoren bleibt unberücksichtigt Daher ist die Formel verschiedentlich weiterentwickelt worden (Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Vorteile
Termgewichtungsschema verbessert Retrievalergebnisse Strategie der partiellen Übereinstimmung ermöglicht Retrieval von Dokumenten, die der Retrievalanfrage nahe kommen Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der Ähnlichkeit (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Nachteile
Annahme der Unabhängigkeit der Index-Terme Fall 1: Ist in der Praxis ein Vorteil Viele Abhängigkeiten sind lokal Lokale Eigenschaften würden Gesamtauswertung negativ beeinflussen Fall 2: Ist problematisch Beispiel: Dokument mit zwei Schwerpunkten: „Öl in Mexiko“ und „Kohle in Pennsylvania“ hohe Werte für Anfrage: „Kohle in Mexiko“ (Baeza-Yates/Ribeiro-Neto, 1999,30) (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vektormodell Bedeutung
Mindestens genauso gut wie andere Modelle Möglicherweise besser Einfach Schnell (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell,

Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Christian Roth Anand Mishra Versionen: , , , , , , © Karin Haenelt, IR-Modelle: Vektor-Modell,

Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Ferber, Reginald (2003) Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, © Karin Haenelt, IR-Modelle: Vektor-Modell,

Copyright © Karin Haenelt, 2006 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell. Kursfolien ( ) graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt, Germany © Karin Haenelt, IR-Modelle: Vektor-Modell,

Information Retrieval Modelle: Vektor-Modell

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval Modelle: Vektor-Modell"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Information Retrieval Modelle: Vektor-Modell

Ähnliche Präsentationen

Präsentation zum Thema: "Information Retrieval Modelle: Vektor-Modell"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback