Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014.

Ähnliche Präsentationen


Präsentation zum Thema: "Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014."—  Präsentation transkript:

1 Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM) Karin Haenelt

2 Abkürzungen 2 © Karin Haenelt, Generalisiertes Vektorraummodell,

3 Vektorraummodell Annahme: Indexterme sind voneinander unabhängig Formale Darstellung der Annahme der Unabhängigkeit Darstellung der Terme durch Termvektoren (Dimensionen sind Terme) Kennzeichnung der Abhängigkeiten: falls Term j von Term i abhängig ist andernfalls Annahme des Vektorraummodells: k ii = 1 k ij = 0 ; i j 3 © Karin Haenelt, Generalisiertes Vektorraummodell,

4 Vektorraummodell Annahme: Indexterme sind voneinander unabhängig Definition: Sei ein Vektor zum Indexterm k i. Die Annahme der Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der Vektoren linear unabhängig ist und eine Basis für den betrachteten Unterraum bildet. Die Dimension dieses Raumes entspricht der Anzahl t der Indexterme in der Dokumentsammlung. Zumeist Annahme der paarweisen Orthogonalität zwischen Indextermen, so dass für jedes Paar und gilt: 4 Baeza-Yates/Ribeiro-Neto, 1999, 41 © Karin Haenelt, Generalisiertes Vektorraummodell,

5 Vektorraummodell Dokument-Term-Vektoren Dokumentrepräsentationen sind Linearkombinationen von Termvektoren sei { } die Menge der Termvektoren, 1 i t sei n die Anzahl der Dokumente in einer Kollektion, 1 j n sei d j ein Dokument der Kollektion dann gibt es für jedes d j in der Kollektion eine Linearkombination von Termvektoren, die d j repräsentiert Beispiel Linearkombination Tupel-Schreibweise 5 © Karin Haenelt, Generalisiertes Vektorraummodell,

6 Vektorraummodell Beispiel: Ranking-Ergebnis für Beispieldokumente 6 © Karin Haenelt, Generalisiertes Vektorraummodell,

7 Generalisiertes Vektorraummodell S. K. M. Wong, Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S Indexterme können abhängig sein 7 © Karin Haenelt, Generalisiertes Vektorraummodell,

8 Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig Formale Darstellung der Annahme der Abhängigkeit Termvektoren sind keine orthogonalen Vektoren bilden nicht die Basis des Vektorraumes sind aus kleineren Komponenten zusammengesetzt, die jeweils aus einer Kollektion hergeleitet werden orthonormale Basis des Generalisierten Vektorraumes: Modellierung der Term-Kookkurrenzen durch Minterme Einführung einer Menge paarweise orthogonaler Vektoren, die den Mintermen zugeordnet werden die Menge dieser paarweise orthogonalen Vektoren bildet die orthonormaliserte Basis des Generalisierten Vektorraumes 8 Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell,

9 Generalisiertes Vektorraummodell Modellierung von Term-Kookkurrenzmustern durch Minterme 9 © Karin Haenelt, Generalisiertes Vektorraummodell, Dokumente, die alle Terme enthalten Dokumente, die Term 1 und Term 2 enthalten … … wenn in einer Dokumentkollektion Dokumente enthalten sind, deren Termkookkurrenz einem Minterm min i entspricht, gilt der Minterm min i als aktiv.

10 Generalisiertes Vektorraummodell Mintermen min i, Vektoren v i und Zuordnung der Vektoren v i zu den Mintermen min i 10 © Karin Haenelt, Generalisiertes Vektorraummodell, Minterme modellieren Termkookkurrenzmuster Vektoren v i, orthonormale Basis des Vektorraumes

11 Minterm Definition Definition: Sei (B,+,,,0,1) eine Boolesche Algebra. Seien x 1, x 2, …, x n n Variablen. Eine Konjunktion (Produkt) der Form y 1 y 2 … y n mit y i = x i oder x i für 1 i n heißt Minterm in n Variablen x 1, x 2, …,x n. n Variablen erzeugen 2 n Minterme. Beispiel für drei Variablen Minterme erfüllen die folgenden Bedingungen min i min j = 0 für i j 11 © Karin Haenelt, Generalisiertes Vektorraummodell, Minterme modellieren Termkookkurrenzmuster

12 Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig Definition: Sei die Menge der Indexterme einer Kollektion, sei w i,j das einem Term-Dokumentpaar [k i,d j ] zugeordnete Gewicht. Wenn die Gewichte alle binär sind, können alle möglichen Term- Kookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge von 2 t Mintermen repräsentiert werden mit min 1 = (0,0,…,0), min 2 = (1,0,…,0), …, min 2 t = (1,1, …, ). Sei g i (min i ) eine Funktion, die das Gewicht {0,1} des Indexterms k i im Minterm min j liefert. 12 Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell,

13 Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig Definition: ist die folgende Menge von Vektoren und jeder Vektor ist dem entsprechenden Minterm min i zugeordnet. Es gilt. Die Vektoren sind paarweise othogonal. Die Menge der Vektoren bildet die orthonormale Basis des Generalsierten Vektorraummodells 13 Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell,

14 Generalisiertes Vektorraummodell Berechnung des Termkookkurrenzfaktors c ir l 14 © Karin Haenelt, Generalisiertes Vektorraummodell, Gewicht {0,1} von Term l in Dokument j = Termokkurrenz von Term l in Dokument j Termokkurrenzmuster von Dokument j Gewicht {0,1} von Term l in Minterm min r Termokkurrenzmuster von Minterm min r Termokkurrenzmuster von Dokument j entspricht Minterm min r

15 Generalisiertes Vektorraummodell Bestimmung des Termvektors k i zu Term k i l 15 © Karin Haenelt, Generalisiertes Vektorraummodell, Baeza-Yates/Ribeiro-Neto, 1999, 43

16 Generalisiertes Vektorraummodell Beispiel 16 Wong, Ziarko, Wong, 1985 V: 6 © Karin Haenelt, Generalisiertes Vektorraummodell,

17 Generalisiertes Vektorraummodell Beispiel – Berechnung des Termkookkurrenzfaktors c i,r 17 © Karin Haenelt, Generalisiertes Vektorraummodell, Wong, Ziarko, Wong, 1985 V: 6

18 Generalisiertes Vektorraummodell Beispiel: Berechnung des Termvektors k i zu Term k i 18 © Karin Haenelt, Generalisiertes Vektorraummodell, Wong, Ziarko, Wong, 1985 V: 6

19 Generalisiertes Vektorraummodell Ranking kombiniert die Gewichte des Standard-Vektorraummodells w i,j (Term- Dokument-Gewicht) mit dem Termkorrelationsfaktor c i,r Umrechnung der Vektoren des klassischen Vektorraummodells und in Vektoren des Generalisierten Vektorraummodells mit Formel Anwendung der Rankingfunktion auf diese Vektoren mit Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell 19 Baeza-Yates/Ribeiro-Neto, 1999, 43 © Karin Haenelt, Generalisiertes Vektorraummodell,

20 Generalisiertes Vektorraummodell Beispiel – Umrechnung der Dokumentvektoren 20 © Karin Haenelt, Generalisiertes Vektorraummodell,

21 Generalisiertes Vektorraummodell Bedeutung unklar, in welchen Fällen das Generalisierte Vektorraummodell bessere Ergebnisse liefert als das Standard-Vektormodell erheblich höherer Rechenaufwand als für das Standard- Vektorraummodell Anzahl der aktiven Minterme kann proportional zur Anzahl der Dokumente in der Kollektion werden alle aktiven Minterme müssen bei der Berechnung der k i - Vektoren berücksichtigt werden (maximale Anzahl = Anzahl der Dokumente in der Kollektion) Einführung einer Formalisierung, die theoretisch interessant ist 21 Baeza-Yates/Ribeiro-Neto, 1999, 44 © Karin Haenelt, Generalisiertes Vektorraummodell,

22 Literatur Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985V). Generalized Vector Spaces Model in Information Retrieval. Vortragsfolien SIGIR InformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Mo del%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf InformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Mo del%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010). Modern Information Retrieval. Essex: Addison Wesley Longman Limited. 22 © Karin Haenelt, Generalisiertes Vektorraummodell,


Herunterladen ppt "Generalisiertes Vektorraummodell ( Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014."

Ähnliche Präsentationen


Google-Anzeigen