Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014.

Ähnliche Präsentationen


Präsentation zum Thema: "Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014."—  Präsentation transkript:

1 Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM)
Karin Haenelt

2 Abkürzungen © Karin Haenelt, Generalisiertes Vektorraummodell,

3 Vektorraummodell Annahme: Indexterme sind voneinander unabhängig
Formale Darstellung der Annahme der Unabhängigkeit Darstellung der Terme durch Termvektoren (Dimensionen sind Terme) Kennzeichnung der Abhängigkeiten: falls Term j von Term i abhängig ist andernfalls Annahme des Vektorraummodells: kii = 1 kij = 0 ; ij © Karin Haenelt, Generalisiertes Vektorraummodell,

4 Vektorraummodell Annahme: Indexterme sind voneinander unabhängig
Definition: Sei ein Vektor zum Indexterm ki. Die Annahme der Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der Vektoren linear unabhängig ist und eine Basis für den betrachteten Unterraum bildet. Die Dimension dieses Raumes entspricht der Anzahl t der Indexterme in der Dokumentsammlung. Zumeist Annahme der paarweisen Orthogonalität zwischen Indextermen, so dass für jedes Paar und gilt: Baeza-Yates/Ribeiro-Neto, 1999, 41 © Karin Haenelt, Generalisiertes Vektorraummodell,

5 Vektorraummodell Dokument-Term-Vektoren
Dokumentrepräsentationen sind Linearkombinationen von Termvektoren sei { } die Menge der Termvektoren, 1 ≤ i ≤ t sei n die Anzahl der Dokumente in einer Kollektion, 1 ≤ j ≤ n sei dj ein Dokument der Kollektion dann gibt es für jedes dj in der Kollektion eine Linearkombination von Termvektoren, die dj repräsentiert Beispiel Linearkombination Tupel-Schreibweise © Karin Haenelt, Generalisiertes Vektorraummodell,

6 Vektorraummodell Beispiel: Ranking-Ergebnis für Beispieldokumente
© Karin Haenelt, Generalisiertes Vektorraummodell,

7 Generalisiertes Vektorraummodell
S. K. M. Wong, Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S Indexterme können abhängig sein © Karin Haenelt, Generalisiertes Vektorraummodell,

8 Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig
Formale Darstellung der Annahme der Abhängigkeit Termvektoren sind keine orthogonalen Vektoren bilden nicht die Basis des Vektorraumes sind aus kleineren Komponenten zusammengesetzt, die jeweils aus einer Kollektion hergeleitet werden orthonormale Basis des Generalisierten Vektorraumes: Modellierung der Term-Kookkurrenzen durch Minterme Einführung einer Menge paarweise orthogonaler Vektoren , die den Mintermen zugeordnet werden die Menge dieser paarweise orthogonalen Vektoren bildet die orthonormaliserte Basis des Generalisierten Vektorraumes Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell,

9 Generalisiertes Vektorraummodell Modellierung von Term-Kookkurrenzmustern durch Minterme
Dokumente, die Term 1 und Term 2 enthalten Dokumente, die alle Terme enthalten wenn in einer Dokumentkollektion Dokumente enthalten sind, deren Termkookkurrenz einem Minterm mini entspricht, gilt der Minterm mini als aktiv. © Karin Haenelt, Generalisiertes Vektorraummodell,

10 Generalisiertes Vektorraummodell Mintermen mini, Vektoren vi und Zuordnung der Vektoren vi zu den Mintermen mini Minterme modellieren Termkookkurrenzmuster Vektoren vi, orthonormale Basis des Vektorraumes © Karin Haenelt, Generalisiertes Vektorraummodell,

11 Minterm Definition Definition: Sei (B,+,,,0,1) eine Boolesche Algebra. Seien x1, x2, …, xn n Variablen. Eine Konjunktion (Produkt) der Form y1y2 …  yn mit yi = xi oder xi für 1 ≤ i ≤ n heißt Minterm in n Variablen x1, x2, … ,xn. ∎ n Variablen erzeugen 2n Minterme. Beispiel für drei Variablen Minterme erfüllen die folgenden Bedingungen mini  minj = 0 für i  j Minterme modellieren Termkookkurrenzmuster © Karin Haenelt, Generalisiertes Vektorraummodell,

12 Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig
Definition: Sei die Menge der Indexterme einer Kollektion, sei wi,j das einem Term-Dokumentpaar [ki,dj] zugeordnete Gewicht. Wenn die Gewichte alle binär sind, können alle möglichen Term-Kookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge von 2t Mintermen repräsentiert werden mit min1 = (0,0,…,0), min2 = (1,0,…,0), …, min2t = (1,1, …, ). Sei gi(mini) eine Funktion, die das Gewicht {0,1} des Indexterms ki im Minterm minj liefert. Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell,

13 Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig
Definition: ist die folgende Menge von Vektoren und jeder Vektor ist dem entsprechenden Minterm mini zugeordnet. Es gilt Die Vektoren sind paarweise othogonal. Die Menge der Vektoren bildet die orthonormale Basis des Generalsierten Vektorraummodells Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell,

14 Generalisiertes Vektorraummodell Berechnung des Termkookkurrenzfaktors cir
Gewicht {0,1} von Term l in Dokument j = Termokkurrenz von Term l in Dokument j Termokkurrenzmuster von Dokument j Gewicht {0,1} von Term l in Minterm minr Termokkurrenzmuster von Minterm minr Termokkurrenzmuster von Dokument j entspricht Minterm minr © Karin Haenelt, Generalisiertes Vektorraummodell,

15 Generalisiertes Vektorraummodell Bestimmung des Termvektors ki zu Term ki
Baeza-Yates/Ribeiro-Neto, 1999, 43 © Karin Haenelt, Generalisiertes Vektorraummodell,

16 Generalisiertes Vektorraummodell Beispiel
Wong, Ziarko, Wong, 1985 V: 6 © Karin Haenelt, Generalisiertes Vektorraummodell,

17 Generalisiertes Vektorraummodell Beispiel – Berechnung des Termkookkurrenzfaktors ci,r
Wong, Ziarko, Wong, 1985 V: 6 © Karin Haenelt, Generalisiertes Vektorraummodell,

18 Generalisiertes Vektorraummodell Beispiel: Berechnung des Termvektors ki zu Term ki
Wong, Ziarko, Wong, 1985 V: 6 © Karin Haenelt, Generalisiertes Vektorraummodell,

19 Generalisiertes Vektorraummodell Ranking
kombiniert die Gewichte des Standard-Vektorraummodells wi,j (Term-Dokument-Gewicht) mit dem Termkorrelationsfaktor ci,r Umrechnung der Vektoren des klassischen Vektorraummodells und in Vektoren des Generalisierten Vektorraummodells mit Formel Anwendung der Rankingfunktion auf diese Vektoren mit Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell Baeza-Yates/Ribeiro-Neto, 1999, 43 © Karin Haenelt, Generalisiertes Vektorraummodell,

20 Generalisiertes Vektorraummodell Beispiel – Umrechnung der Dokumentvektoren
© Karin Haenelt, Generalisiertes Vektorraummodell,

21 Generalisiertes Vektorraummodell Bedeutung
unklar, in welchen Fällen das Generalisierte Vektorraummodell bessere Ergebnisse liefert als das Standard-Vektormodell erheblich höherer Rechenaufwand als für das Standard-Vektorraummodell Anzahl der aktiven Minterme kann proportional zur Anzahl der Dokumente in der Kollektion werden alle aktiven Minterme müssen bei der Berechnung der ki-Vektoren berücksichtigt werden (maximale Anzahl = Anzahl der Dokumente in der Kollektion) Einführung einer Formalisierung, die theoretisch interessant ist Baeza-Yates/Ribeiro-Neto, 1999, 44 © Karin Haenelt, Generalisiertes Vektorraummodell,

22 Literatur Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985V). Generalized Vector Spaces Model in Information Retrieval. Vortragsfolien SIGIR Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010). Modern Information Retrieval. Essex: Addison Wesley Longman Limited. © Karin Haenelt, Generalisiertes Vektorraummodell,


Herunterladen ppt "Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014."

Ähnliche Präsentationen


Google-Anzeigen