Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014.

Slides:



Advertisements
Ähnliche Präsentationen
Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.
Advertisements

Elementare Grundlagen der Vektorrechnung
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Seminar Textmining WS 06/07
Default Logiken Zhao Li
Seminar „Extrapolationsmethoden für zufällige Felder“
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Verifizieren versus Berechnen
Numerik partieller Differentialgleichungen
Algorithmentheorie 04 –Hashing
Dynamische Programmierung (2) Matrixkettenprodukt
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
Pattern sensitivity Campbell & Robson (1968).
Reguläre Sprachen Karin Haenelt.
Information Retrieval Modelle: Vektor-Modell
Grundbegriffe der Wahrscheinlichkeitstheorie
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Mathematische Grundlagen
Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.
Mathematische Grundlagen
Christian Schindelhauer
Wir suchen ‘ mit m = m    ‘ c  ‘ mod 26
Spree SoSe 2011 Clustering – Wie Maschinen die Ähnlichkeit von Dokumenten erkennen.
Quaternionen Eugenia Schwamberger.
§14 Basis und Dimension (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
§ 28 Multilineare und Alternierende Abbildungen
§14 Basis und Dimension  (14.1) Definition: V sei wieder ein K-Vektorraum. Eine Menge B von Vektoren aus V heißt Basis von V, wenn B ist Erzeugendensystem.
§11 Skalarprodukt. Euklidische Räume
Tutorium
Spezifikations- und Selektionsmethoden für Daten und Dienste
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Wahrscheinlichkeitsrechnung
Matrix-Algebra Grundlagen 1. Matrizen und Vektoren
§17 Produkte und Quotienten von Vektorräumen
§24 Affine Koordinatensysteme
Beschreibung der energetischen Zustände der Elektronen
Vektoren Grundbegriffe für das Information Retrieval
Lineare Algebra Komplizierte technologische Abläufe können übersichtlich mit Matrizen dargestellt werden. Prof. Dr. E. Larek
Zeit: 13h-15h Datum: Raum: IFW B42
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Folie 1 §15 Lineare Abbildungen (15.1) Definition: Eine Abbildung f zwischen K-Vektorräumen V und W ist linear (oder ein Vektorraumhomomorphismus), wenn.
Folie 1 § 28 Multilineare und Alternierende Abbildungen (28.1) Definition: V und W seien wieder ein K-Vektorräume. Eine Abbildung von V nach W stets linear.
§23 Basiswechsel und allgemeine lineare Gruppe
Fuzzymengen – Was ist das?
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt
Kapitel 16 Ökonometrische Modelle
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Beispiele: KFG 2.Teil Beispiel 1: Sei G eine Grammatik mit den folgenden Regeln: S  Ac | Bd A  aAb | ab B  aBbb | abb Definieren Sie.
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Information Retrieval, Vektorraummodell
Stetige Kleinste-Quadrate-Approximation
Analyse der Laufzeit von Algorithmen
Institut für Softwarewissenschaft – Universität WienP.Brezany 1 Beispiele (Frist: ) Beispiel 1: Sei  = {a, b} ein Alphabet und Q = {q 0, q 1 } eine.
Tupelkalkül: Notation (1)
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Folie 1 §21 Das Produkt von Matrizen (21.1) Definition: Für eine (m,n)-Matrix A und eine (n,s)-Matrix B ist das (Matrizen-) Produkt AB definiert als (21.2)
Testtheorie (Vorlesung 4: ) Wiederholung/Zusammenfassung
Anwendung der Ellipsoidmethode in der Kombinatorischen Optimierung
Evaluierung von Information Retrieval Systemen Minimal Test Collection (MTC)- Verfahren Karin Haenelt / /
Graphische Datenverarbeitung
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
Lineare Algebra II (MAVT)
§23 Basiswechsel und allgemeine lineare Gruppe
Kapitel I. Vorspann zum Begriff Vektorraum
 Präsentation transkript:

Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt 15.1.2014

Abkürzungen © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Vektorraummodell Annahme: Indexterme sind voneinander unabhängig Formale Darstellung der Annahme der Unabhängigkeit Darstellung der Terme durch Termvektoren (Dimensionen sind Terme) Kennzeichnung der Abhängigkeiten: falls Term j von Term i abhängig ist andernfalls Annahme des Vektorraummodells: kii = 1 kij = 0 ; ij © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Vektorraummodell Annahme: Indexterme sind voneinander unabhängig Definition: Sei ein Vektor zum Indexterm ki. Die Annahme der Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der Vektoren linear unabhängig ist und eine Basis für den betrachteten Unterraum bildet. Die Dimension dieses Raumes entspricht der Anzahl t der Indexterme in der Dokumentsammlung. Zumeist Annahme der paarweisen Orthogonalität zwischen Indextermen, so dass für jedes Paar und gilt: Baeza-Yates/Ribeiro-Neto, 1999, 41 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Vektorraummodell Dokument-Term-Vektoren Dokumentrepräsentationen sind Linearkombinationen von Termvektoren sei { } die Menge der Termvektoren, 1 ≤ i ≤ t sei n die Anzahl der Dokumente in einer Kollektion, 1 ≤ j ≤ n sei dj ein Dokument der Kollektion dann gibt es für jedes dj in der Kollektion eine Linearkombination von Termvektoren, die dj repräsentiert Beispiel Linearkombination Tupel-Schreibweise © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Vektorraummodell Beispiel: Ranking-Ergebnis für Beispieldokumente © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell S. K. M. Wong, Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25 Indexterme können abhängig sein © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig Formale Darstellung der Annahme der Abhängigkeit Termvektoren sind keine orthogonalen Vektoren bilden nicht die Basis des Vektorraumes sind aus kleineren Komponenten zusammengesetzt, die jeweils aus einer Kollektion hergeleitet werden orthonormale Basis des Generalisierten Vektorraumes: Modellierung der Term-Kookkurrenzen durch Minterme Einführung einer Menge paarweise orthogonaler Vektoren , die den Mintermen zugeordnet werden die Menge dieser paarweise orthogonalen Vektoren bildet die orthonormaliserte Basis des Generalisierten Vektorraumes Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Modellierung von Term-Kookkurrenzmustern durch Minterme … Dokumente, die Term 1 und Term 2 enthalten … Dokumente, die alle Terme enthalten wenn in einer Dokumentkollektion Dokumente enthalten sind, deren Termkookkurrenz einem Minterm mini entspricht, gilt der Minterm mini als aktiv. © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Mintermen mini, Vektoren vi und Zuordnung der Vektoren vi zu den Mintermen mini Minterme modellieren Termkookkurrenzmuster Vektoren vi, orthonormale Basis des Vektorraumes © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Minterm Definition Definition: Sei (B,+,,,0,1) eine Boolesche Algebra. Seien x1, x2, …, xn n Variablen. Eine Konjunktion (Produkt) der Form y1y2 …  yn mit yi = xi oder xi für 1 ≤ i ≤ n heißt Minterm in n Variablen x1, x2, … ,xn. ∎ n Variablen erzeugen 2n Minterme. Beispiel für drei Variablen Minterme erfüllen die folgenden Bedingungen mini  minj = 0 für i  j Minterme modellieren Termkookkurrenzmuster © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig Definition: Sei die Menge der Indexterme einer Kollektion, sei wi,j das einem Term-Dokumentpaar [ki,dj] zugeordnete Gewicht. Wenn die Gewichte alle binär sind, können alle möglichen Term-Kookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge von 2t Mintermen repräsentiert werden mit min1 = (0,0,…,0), min2 = (1,0,…,0), …, min2t = (1,1, …, ). Sei gi(mini) eine Funktion, die das Gewicht {0,1} des Indexterms ki im Minterm minj liefert. Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Annahme: Indexterme sind voneinander abhängig Definition: ist die folgende Menge von Vektoren und jeder Vektor ist dem entsprechenden Minterm mini zugeordnet. Es gilt . Die Vektoren sind paarweise othogonal. Die Menge der Vektoren bildet die orthonormale Basis des Generalsierten Vektorraummodells Baeza-Yates/Ribeiro-Neto, 1999, 42 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Berechnung des Termkookkurrenzfaktors cir Gewicht {0,1} von Term l in Dokument j = Termokkurrenz von Term l in Dokument j Termokkurrenzmuster von Dokument j Gewicht {0,1} von Term l in Minterm minr Termokkurrenzmuster von Minterm minr Termokkurrenzmuster von Dokument j entspricht Minterm minr © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Bestimmung des Termvektors ki zu Term ki Baeza-Yates/Ribeiro-Neto, 1999, 43 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Beispiel Wong, Ziarko, Wong, 1985 V: 6 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Beispiel – Berechnung des Termkookkurrenzfaktors ci,r Wong, Ziarko, Wong, 1985 V: 6 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Beispiel: Berechnung des Termvektors ki zu Term ki Wong, Ziarko, Wong, 1985 V: 6 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Ranking kombiniert die Gewichte des Standard-Vektorraummodells wi,j (Term-Dokument-Gewicht) mit dem Termkorrelationsfaktor ci,r Umrechnung der Vektoren des klassischen Vektorraummodells und in Vektoren des Generalisierten Vektorraummodells mit Formel Anwendung der Rankingfunktion auf diese Vektoren mit Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell Baeza-Yates/Ribeiro-Neto, 1999, 43 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Beispiel – Umrechnung der Dokumentvektoren © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Generalisiertes Vektorraummodell Bedeutung unklar, in welchen Fällen das Generalisierte Vektorraummodell bessere Ergebnisse liefert als das Standard-Vektormodell erheblich höherer Rechenaufwand als für das Standard-Vektorraummodell Anzahl der aktiven Minterme kann proportional zur Anzahl der Dokumente in der Kollektion werden alle aktiven Minterme müssen bei der Berechnung der ki-Vektoren berücksichtigt werden (maximale Anzahl = Anzahl der Dokumente in der Kollektion) Einführung einer Formalisierung, die theoretisch interessant ist Baeza-Yates/Ribeiro-Neto, 1999, 44 © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014

Literatur Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. S. 18-25 Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985V). Generalized Vector Spaces Model in Information Retrieval. Vortragsfolien SIGIR 1985. http://berlin.csie.ntnu.edu.tw/PastCourses/2003F-InformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Model%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010). Modern Information Retrieval. Essex: Addison Wesley Longman Limited. © Karin Haenelt, Generalisiertes Vektorraummodell, 15.1.2014