Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012

Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle Boolesches Modell, Vektormodell, Probabilistisches Modell Komponenten Anfragen Dokumentrepräsentation Dokumentenanalyse / Vorverarbeitung Index Rankingfunktionen 2

Information Retrieval Traditionelles Konzept Auffinden von Dokumenten, die für eine Suchanfrage relevant sind Ranking von Dokumenten 3

Grundkomponenten des Information Retrieval 4 Doku- mente D 1 Anfrage Analyse Reprä- sentation (Index) Reprä- sentation Ähnlichkeit: - Matching - Ranking Doku- mente D 2 D 2 D 1

Grundkomponenten des Information Retrieval 5 Doku- mente D 1 Anfrage Analyse Reprä- sentation (Index) Reprä- sentation Ähnlichkeit: - Matching - Ranking Doku- mente D 2 D 2 D 1 D R(q k,d m ) Q Komponenten der Modelldefinition

Information Retrieval Modell Zweck Ein Information Retrieval Modell bestimmt wie Dokumente repräsentiert werden (D) wie Anfragen repräsentiert werden (Q) wie die Relevanz eines Dokuments für eine Anfrage bestimmt wird ( R(q k,d m ) ) 6© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

7 Information Retrieval-Modell Definition (Baeza-Yates/Ribeiro-Neto, 1999,21) DDokumentrepräsentationen Menge logischer Sichten auf Dokumente QQueries Menge logischer Sichten auf Informationswünsche FFramework / Modellierungsrahmen für Dokumentrepräsentationen, Queries und Beziehungen zwischen D und Q R(q k,d m )Ranking-Funktion ordnet Query q k Q und Dokument d m D einen Wert zu definiert Reihenfolge der Dokumente bezüglich Query q k Ein Information Retrieval-Modell ist ein Quadrupel [D,Q,F,R(q k,d m )] © Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

8 Taxonomie der klassischen Modelle Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semant.Index. Neural Networks Probabilistic Inference Network Belief Network Classic Models Boolean Vector Probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Browsing Flat Structure guided Hypertext Retrieval Ad hoc Filtering Browsing Flat Structure guided Hypertext U s e r T a s k (Baeza-Yates/Ribeiro-Neto, 1999,21) © Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Anfragen Schlüsselwörter Phrasen Dokumente Fragen Operatoren (Boolesche Operatoren) 9© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Dokumentrepräsentation Dokumentvektoren Klassisches Information Retrieval: Repräsentation der Inhalte von Dokumenten durch Angabe einer Menge von Wörtern (Indexterme), die in den Dokumenten vorkommen (bag of words- Modell) und Zuordnung von Termgewichten Darstellung als Vektoren 10 © Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012 binär:(1,1,0) Termfrequenz:(4,3,0) Term 1 Öl Term 2 Preis Term 3 Alaska 1 4 1 3 0 0 Beispiele: Dokumentvektoren bin-Dok 1 tf- Dok 1

Dokumentrepräsentation Dokumentvektoren: Definition geordnete Menge von Werten für Wortvorkommen, die konjunktiv verknüpft werden 11 © Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012 binär:(1,1,0) Termfrequenz:(4,3,0) Term 1 Öl Term 2 Preis Term 3 Alaska 1 4 1 3 0 0 Beispiele: Dokumentvektoren bin-Dok 1 tf- Dok 1

Dokumentrepräsentation Termvektor: Definition Sei Dk eine Dokumentkollektion Sei V = {t 1, t 2, …, t |V| } die Menge der unterschiedlichen Wörter/Terme in der Kollektion. V heißt das Vokabular. Ein Gewicht w ij > 0 wird jedem Term t i eines Dokument d j Dk zugewiesen. Das Gewicht eines Terms, der nicht im Dokument d j vorkommt, gilt w ij = 0 Dann ist ein Termvektor d j = (w 1j, w 2j, …, w |V|j ). 12© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Dokumentrepräsentation Indextermvektoren: Annahmen Annahme: wechselseitige Unabhängigkeit der Indexterme starke Vereinfachung ermöglicht einfachere Berechnung der Gewichtung eines Index- Terms ermöglicht schnelle Berechnung der Rangfolge (Ranking) von Dokumenten (Baeza-Yates/Ribeiro-Neto, 1999,25) © Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Dokumentanalyse / Vorverarbeitung Indextermextraktion Stoppwortentfernung Stemming Berechnung von Termgewichten … 14© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Dokumentanalyse / Vorverarbeitung Auswahl der Indexterme Ziel: effiziente Auswahl von (Dokument-)Worten zur Anzeige von Themen Varianten Volltext: alle Wörter verwendet Auswahl nach Wortarten Nominaals wichtige Indikatoren betrachtet Adjektive,als weniger nützlich betrachtet Adverbien, Verknüpfungen Präpositionen, als Stoppwörter aussortiert Konjunktionen, Artikel (Baeza-Yates/Ribeiro-Neto, 1999,24) © Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Dokumentrepräsentation Relevanz Index-Terme können unterschiedlich relevant sein zur Beschreibung des Inhalts von Dokumenten Wörter, die in allen Dokumenten vorkommen nur in wenigen Dokumenten vorkommen sind unterschiedlich signifikant (Baeza-Yates/Ribeiro-Neto, 1999,24) © Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Dokumentanalyse / Vorverarbeitung Stoppwortentfernung Wörter werden im IR nicht interpretiert hochfrequente Wörter erscheinen daher aus Sicht des IR als bedeutungslos und nutzlos der, die, das, von, und, … (vgl. to be or not to be) ca. 400 – 500 Wörter / Sprache ca. 20-30% eines Textes zusätzlich anwendungsspezifische Terme Ziel der Stoppwortentfernung Reduktion des Index Beschleunigung des Suchprozesses 17© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Index Datenstrukturen für die Termvektoren sequentielle Speicherung und Suche der Indexterme ist ineffizient gebräuchliche Datenstruktur: invertierter Index ein invertierter Index einer Dokumentkollektion ist eine Datenstruktur, die der Repräsentation jedes Terms eine Liste aller Dokumente hinzufügt, in denen der Term vorkommt erfordert konstante Zeit zum Auffinden eines Anfrageterms ermöglicht einfache Suche nach multiplen Termen 18© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012 (Liu 2011,232)

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) sequentiell 19© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012 KeywordHitsLink Index File information3retrieval2 Links Postings File.. Doc #. 3 5 15. 5. Documents File Doc. # 5 Doc. # 15 … (Harmann, Fox, Baeza-Yates, Lee 1992, 29)

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) Vokabular-Trie mit invertiertem Index 20© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012 (Liu 2011,236)

Index Trie - Erläuterung Ein Trie ist ein Präfixbaum, der im Information Retrieval zur Repräsentation und Suche von Zeichenketten verwendet wird 21© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Index Invertierte Datei - Implementierungsvarianten Vorteile gegenüber direkter Speicherung von Dokumentvektoren geringerer Speicherplatzbedarf (da die meisten Term- Vektoren dünn besetzt sind – sparse Matrix) schneller Zugriff Implementierungsvarianten Baumstruktur / Trie Hashtabelle / Trie / endlicher Automat sortiertes Array (abgeleitet aus Baumstruktur) Hauptspeicher vs. Festplatte Rechnerfarm Kompression 22© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Rankingfunktionen inhaltsbasiert: Ähnlichkeitsberechnungen zwischen Anfragetermen und Dokumentvektoren Boolesches Modell: Mengenoperationen Vektormodell: Ähnlichkeitsbegriffe für Vektoren: Vektoroperationen der linearen Algebra Probabilistisches Modell: Wahrscheinlichkeitsrechnung, Bayes-Theoreme hyperlinkbasiert (HITS, PageRank) profilbasiert (Standort, Cookies, Soziale Netzwerke, Klickverhalten, …) 23© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Heidelberg: Springer Verlag. Ferber, Reginald (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 http://www.darmstadt.gmd.de/~ferber/vorlesung/book_1.html http://www.darmstadt.gmd.de/~ferber/vorlesung/book_1.html Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Manning, Christopher, Prabhakar Raghavan, Hinrich Schütze (2007). Introduction to Information Retrieval. Cambridge University Press. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146 24© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Copyright © 2001-2012 Karin Haenelt All rights reserved. No part of these slides may be reproduced in any form by any electronic or nonelectronic means (including photocopying, recording, or information storage and retrieval) without permission in writing from the author. Bibliographic data. Karin Haenelt, Information Retrieval Modelles. Kursfolien. 21.10.2012 (1. Fassung 26.10.2001) + URL Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.). Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author. Versionen 21.10.2012, 17.6.2010, 26.10.2003, 26.10.2001 25© Karin Haenelt, Information Retrieval Modelle. Einführung. 21.10.2012

Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Ähnliche Präsentationen

Präsentation zum Thema: "Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Ähnliche Präsentationen

Präsentation zum Thema: "Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback