Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012."—  Präsentation transkript:

1 1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt

2 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell,

3 Grundkomponenten des Information Retrieval 3 Doku- mente D 1 Anfrage Analyse Reprä- sentation Reprä- sentation Ähnlichkeit: - Matching - Ranking Doku- mente D 2 D 2 D 1 D R(q k,d m ) Q Komponenten der Modelldefinition © Karin Haenelt, IR-Modelle: Vektor-Modell,

4 Information-Retrieval-Modell: Definition Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(q k,d m )) 4© Karin Haenelt, IR-Modelle: Vektor-Modell,

5 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells 5© Karin Haenelt, IR-Modelle: Vektor-Modell,

6 Boolesches Modell und Vektormodell Dokument- und Anfrage-Repräsentation 6 Dokumentvektor:(1,1,0) Anfragevektor:(1,1,0) Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) Dokumentvektor:(4,8,0) Anfragevektor:(3,6,0) Frequenz (Vektormodell) © Karin Haenelt, IR-Modelle: Vektor-Modell,

7 Boolesches Modell und Vektormodell Illustration der Dokumentvektoren durch geometrische Interpretation 7 Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) Frequenz (Vektormodell) Öl Preis © Karin Haenelt, IR-Modelle: Vektor-Modell,

8 Boolesches Modell und Vektormodell Vergleich Boolesches ModellVektormodell D, QRepräsentationTermvorkommenTermfrequenz FFrameworkBoolesche AlgebraVektoralgebra RRanking – Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor Wahrheitswert der konjunktiven Verknüpfung von D und Q Ähnlichkeitsmaß für Vektoren D und Q Ergebnis- Passt / passt nicht zur Anfrage - Menge -Numerische Ähnlichkeitswerte - geordnete Liste 8© Karin Haenelt, IR-Modelle: Vektor-Modell,

9 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells 9© Karin Haenelt, IR-Modelle: Vektor-Modell,

10 Vektormodell Ziele Berücksichtigung partieller Übereinstimmung zwischen Anfragetermen und Dokumenttermen durch nicht-binäre Werte für Termgewichtung Berechnung der Ähnlichkeit zwischen Anfragetermen und Dokumenttermen Sortierung von Dokumenten nach Grad der Ähnlichkeit Präzisere Beantwortung der Anfrage als Boolesches Modell 10 (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell,

11 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells 11© Karin Haenelt, IR-Modelle: Vektor-Modell,

12 Vektormodell Dokument- und Query-Vektoren: Definition w i,m Gewicht für des Terms i in Dokument m; positiv, nicht binär w i,k Gewicht des Terms i in Query k xAnzahl der Index-Terme im System Dokument-Vektor Query-Vektor 12 (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell,

13 Vektormodell Termgewichtungen einfache Häufigkeit berücksichtigt Dokumentlänge nicht ergibt keine normalisierten Termvektoren nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll verwendbar tf: normalisierte Termfrequenz (Term-Frequenz) berücksichtigt Dokumentlänge ergibt normalisierte Termvektoren tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) berücksichtigt die Häufigkeitsverteilung von Termen im Corpus Terme, die in vielen Dokumenten vorkommen haben möglicherweise wenig Unterscheidungswert werden abgewertet 13© Karin Haenelt, IR-Modelle: Vektor-Modell,

14 Vektormodell Termgewichtungen: tf, idf tfTermfrequenz-Faktor Bedeutung:relative Anzahl der Vorkommen von Term t i in Dokument d m Zweck:soll besagen, wie gut ein Term den Inhalt eines Dokuments beschreibt idfinverse Dokument-Frequenz Sinn:Terme, die in vielen Dokumenten vorkommen, sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter Dokumente Beispiel: 14 (Baeza-Yates/Ribeiro-Neto, 1999,29) d2d2 einBrot d1d1 undBier bei ungewichteter Anfrage ein, Brot. und, ein, Bier würden hier die Vorkommen von ein und und über die Ähnlichkeit entscheiden © Karin Haenelt, IR-Modelle: Vektor-Modell,

15 inverse Dokumentfrequenz Vektormodell Termgewichtungen: tf, idf 15 N Gesamtzahl der Dokumente im System t i Indexterm n i Anzahl der Dokumente, in denen Term t i vorkommt freq i,m Anzahl der Erwähnungen von Term t i in Dokument d m max l freq l,m Frequenz des höchstfrequenten Terms in Dok. d m tf i,m normalisierte Frequenz von Term t i in Dokument d m idf i inverse Dokumentfrequenz von Term i Termgewichtung mitnormalisierte Termfrequenz tf-Formel tf-idf-Formel mit dieser Formel erhält man für alle Terme Gewichte mit den Werten 0 w i,m 1 © Karin Haenelt, IR-Modelle: Vektor-Modell,

16 16 normalisierte Termfreq tf inverse Dokfreq idf tf-idf- Gewichtg. Termfreq Gesamtzahl der Dokumente im System: N=2048 Index-Terme:Ölin 128 Dokumenten Mexiko in 16 Dokumenten Raffineriein 1024 Dokumenten Beispiel-Dokument: ÖlM.R. © Karin Haenelt, IR-Modelle: Vektor-Modell,

17 Vektormodell Termgewichtungen – inverse Dokumentfrequenz 17 Termgwicht Dok.- Frequenz des Terms © Karin Haenelt, IR-Modelle: Vektor-Modell,

18 Vektormodell Termgewichtungen – Erläuterungen des Beispiels Der signifikanteste Term für das Beispieldokument ist Mexiko, da Mexiko außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt Der am häufigsten im Beispieldokument vorkommende Term Raffinerie ist weniger signifikant, da er in 50% der Dokumente vorkommt 18 (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell,

19 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells 19© Karin Haenelt, IR-Modelle: Vektor-Modell,

20 Vektormodell Rankingfunktion Berechnung der Ähnlichkeit zwischen Anfrage und Dokument nach einem Ähnlichkeitsmaß zwischen Vektoren Am häufigsten verwendetes Ähnlichkeitsmaß: Cosinus des Winkels zwischen zwei Vektoren Andere Ähnlichkeitsmaße Dice-Koeffizient, Jaccard-Koeffizient, Overlap-Koeffizient Euklidische Distanz … 20© Karin Haenelt, IR-Modelle: Vektor-Modell,

21 Vektormodell Ranking-Funktion: Cosinus-Formel Berechnung der Ähnlichkeit zweier Vektoren nach dem Cosinus des Winkels zwischen den beiden Vektoren 21 Winkel: Aussage über den Grad der Gemeinsamkeit der Richtung der Vektoren (Richtung: ~ Thema im IR) Cosinus: Aussage über einen Winkel mit Wertebereich von -1 bis +1 (bei Vektoren mit positiven Zahlen von 0 bis +1) Cosinus besser geeignet für Ranking-Angabe als Winkel a b Wertebereich -1 <= cos <= 1 © Karin Haenelt, IR-Modelle: Vektor-Modell,

22 Vektormodell Ranking-Funktion: Cosinus-Formel Ähnlichkeit von Dokument d m und Anfrage q 22 Anmerkung: der Operator steht grundsätzlich für die eindeutige positive Lösung x 2 = a © Karin Haenelt, IR-Modelle: Vektor-Modell,

23 Vektormodell Cosinus-Formel: Berechnungsbeispiel 23 t2t2 t3t d1d1 d2d2 q t1t1 d1d1 q d2d2 q © Karin Haenelt, IR-Modelle: Vektor-Modell,

24 Cosinus-Formel: Ableitung 24 (1) Skalarprodukt geometrische Formel (2) Skalarprodukt arithmetische Formel (3) Umformung von (1) (4) Einsetzen von (2) in (3) a b © Karin Haenelt, IR-Modelle: Vektor-Modell,

25 Vektormodell Ein Beispiel 25 Dokumentvektor 1 :(4,8,0) Dokumentvektor 2 :(3,6,0) Queryvektor:(1,2,0) Term 1 Öl Term 2 Preis Term 3 Alaska (vgl. Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell,

26 Vektormodell Kommentar zum Beispiel Ähnlichkeitsmaß: Cosinus-Formel Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind, sind die Vektoren orthogonal und der Cosinus-Wert ist 0 Die Länge der Vektoren bleibt unberücksichtigt Daher ist die Formel verschiedentlich weiterentwickelt worden 26 (Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell,

27 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells 27© Karin Haenelt, IR-Modelle: Vektor-Modell,

28 Vektormodell Vorteile Termgewichtungsschema verbessert Retrievalergebnisse Strategie der partiellen Übereinstimmung ermöglicht Retrieval von Dokumenten, die der Retrievalanfrage nahe kommen Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der Ähnlichkeit 28 (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell,

29 Vektormodell Nachteile Annahme der Unabhängigkeit der Index-Terme Fall 1: Ist in der Praxis ein Vorteil Viele Abhängigkeiten sind lokal Lokale Eigenschaften würden Gesamtauswertung negativ beeinflussen Fall 2: Ist problematisch Beispiel: Dokument mit zwei Schwerpunkten: Öl in Mexiko undKohle in Pennsylvania hohe Werte für Anfrage: Kohle in Mexiko 29 (Baeza-Yates/Ribeiro-Neto, 1999,30) (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell,

30 Vektormodell Bedeutung Mindestens genauso gut wie andere Modelle Möglicherweise besser Einfach Schnell 30 (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell,

31 Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Christian Roth Anand Mishra 31 Versionen: , , , , , , © Karin Haenelt, IR-Modelle: Vektor-Modell,

32 Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Ferber, Reginald (2003) Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, © Karin Haenelt, IR-Modelle: Vektor-Modell,

33 Copyright © Karin Haenelt, 2006 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63, etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below.Urheberrecht Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell. Kursfolien ( ) graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt, Germany 33© Karin Haenelt, IR-Modelle: Vektor-Modell,


Herunterladen ppt "1 Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012."

Ähnliche Präsentationen


Google-Anzeigen