Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Ähnliche Präsentationen


Präsentation zum Thema: "Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012."—  Präsentation transkript:

1 Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt

2 Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle Boolesches Modell, Vektormodell, Probabilistisches Modell Komponenten Anfragen Dokumentrepräsentation Dokumentenanalyse / Vorverarbeitung Index Rankingfunktionen 2

3 Information Retrieval Traditionelles Konzept Auffinden von Dokumenten, die für eine Suchanfrage relevant sind Ranking von Dokumenten 3

4 Grundkomponenten des Information Retrieval 4 Doku- mente D 1 Anfrage Analyse Reprä- sentation (Index) Reprä- sentation Ähnlichkeit: - Matching - Ranking Doku- mente D 2 D 2 D 1

5 Grundkomponenten des Information Retrieval 5 Doku- mente D 1 Anfrage Analyse Reprä- sentation (Index) Reprä- sentation Ähnlichkeit: - Matching - Ranking Doku- mente D 2 D 2 D 1 D R(q k,d m ) Q Komponenten der Modelldefinition

6 Information Retrieval Modell Zweck Ein Information Retrieval Modell bestimmt wie Dokumente repräsentiert werden (D) wie Anfragen repräsentiert werden (Q) wie die Relevanz eines Dokuments für eine Anfrage bestimmt wird ( R(q k,d m ) ) 6© Karin Haenelt, Information Retrieval Modelle. Einführung

7 7 Information Retrieval-Modell Definition (Baeza-Yates/Ribeiro-Neto, 1999,21) DDokumentrepräsentationen Menge logischer Sichten auf Dokumente QQueries Menge logischer Sichten auf Informationswünsche FFramework / Modellierungsrahmen für Dokumentrepräsentationen, Queries und Beziehungen zwischen D und Q R(q k,d m )Ranking-Funktion ordnet Query q k Q und Dokument d m D einen Wert zu definiert Reihenfolge der Dokumente bezüglich Query q k Ein Information Retrieval-Modell ist ein Quadrupel [D,Q,F,R(q k,d m )] © Karin Haenelt, Information Retrieval Modelle. Einführung

8 8 Taxonomie der klassischen Modelle Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semant.Index. Neural Networks Probabilistic Inference Network Belief Network Classic Models Boolean Vector Probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Browsing Flat Structure guided Hypertext Retrieval Ad hoc Filtering Browsing Flat Structure guided Hypertext U s e r T a s k (Baeza-Yates/Ribeiro-Neto, 1999,21) © Karin Haenelt, Information Retrieval Modelle. Einführung

9 Anfragen Schlüsselwörter Phrasen Dokumente Fragen Operatoren (Boolesche Operatoren) 9© Karin Haenelt, Information Retrieval Modelle. Einführung

10 Dokumentrepräsentation Dokumentvektoren Klassisches Information Retrieval: Repräsentation der Inhalte von Dokumenten durch Angabe einer Menge von Wörtern (Indexterme), die in den Dokumenten vorkommen (bag of words- Modell) und Zuordnung von Termgewichten Darstellung als Vektoren 10 © Karin Haenelt, Information Retrieval Modelle. Einführung binär:(1,1,0) Termfrequenz:(4,3,0) Term 1 Öl Term 2 Preis Term 3 Alaska Beispiele: Dokumentvektoren bin-Dok 1 tf- Dok 1

11 Dokumentrepräsentation Dokumentvektoren: Definition geordnete Menge von Werten für Wortvorkommen, die konjunktiv verknüpft werden 11 © Karin Haenelt, Information Retrieval Modelle. Einführung binär:(1,1,0) Termfrequenz:(4,3,0) Term 1 Öl Term 2 Preis Term 3 Alaska Beispiele: Dokumentvektoren bin-Dok 1 tf- Dok 1

12 Dokumentrepräsentation Termvektor: Definition Sei Dk eine Dokumentkollektion Sei V = {t 1, t 2, …, t |V| } die Menge der unterschiedlichen Wörter/Terme in der Kollektion. V heißt das Vokabular. Ein Gewicht w ij > 0 wird jedem Term t i eines Dokument d j Dk zugewiesen. Das Gewicht eines Terms, der nicht im Dokument d j vorkommt, gilt w ij = 0 Dann ist ein Termvektor d j = (w 1j, w 2j, …, w |V|j ). 12© Karin Haenelt, Information Retrieval Modelle. Einführung

13 Dokumentrepräsentation Indextermvektoren: Annahmen Annahme: wechselseitige Unabhängigkeit der Indexterme starke Vereinfachung ermöglicht einfachere Berechnung der Gewichtung eines Index- Terms ermöglicht schnelle Berechnung der Rangfolge (Ranking) von Dokumenten (Baeza-Yates/Ribeiro-Neto, 1999,25) © Karin Haenelt, Information Retrieval Modelle. Einführung

14 Dokumentanalyse / Vorverarbeitung Indextermextraktion Stoppwortentfernung Stemming Berechnung von Termgewichten … 14© Karin Haenelt, Information Retrieval Modelle. Einführung

15 Dokumentanalyse / Vorverarbeitung Auswahl der Indexterme Ziel: effiziente Auswahl von (Dokument-)Worten zur Anzeige von Themen Varianten Volltext: alle Wörter verwendet Auswahl nach Wortarten Nominaals wichtige Indikatoren betrachtet Adjektive,als weniger nützlich betrachtet Adverbien, Verknüpfungen Präpositionen, als Stoppwörter aussortiert Konjunktionen, Artikel (Baeza-Yates/Ribeiro-Neto, 1999,24) © Karin Haenelt, Information Retrieval Modelle. Einführung

16 Dokumentrepräsentation Relevanz Index-Terme können unterschiedlich relevant sein zur Beschreibung des Inhalts von Dokumenten Wörter, die in allen Dokumenten vorkommen nur in wenigen Dokumenten vorkommen sind unterschiedlich signifikant (Baeza-Yates/Ribeiro-Neto, 1999,24) © Karin Haenelt, Information Retrieval Modelle. Einführung

17 Dokumentanalyse / Vorverarbeitung Stoppwortentfernung Wörter werden im IR nicht interpretiert hochfrequente Wörter erscheinen daher aus Sicht des IR als bedeutungslos und nutzlos der, die, das, von, und, … (vgl. to be or not to be) ca. 400 – 500 Wörter / Sprache ca % eines Textes zusätzlich anwendungsspezifische Terme Ziel der Stoppwortentfernung Reduktion des Index Beschleunigung des Suchprozesses 17© Karin Haenelt, Information Retrieval Modelle. Einführung

18 Index Datenstrukturen für die Termvektoren sequentielle Speicherung und Suche der Indexterme ist ineffizient gebräuchliche Datenstruktur: invertierter Index ein invertierter Index einer Dokumentkollektion ist eine Datenstruktur, die der Repräsentation jedes Terms eine Liste aller Dokumente hinzufügt, in denen der Term vorkommt erfordert konstante Zeit zum Auffinden eines Anfrageterms ermöglicht einfache Suche nach multiplen Termen 18© Karin Haenelt, Information Retrieval Modelle. Einführung (Liu 2011,232)

19 Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) sequentiell 19© Karin Haenelt, Information Retrieval Modelle. Einführung KeywordHitsLink Index File information3retrieval2 Links Postings File.. Doc # Documents File Doc. # 5 Doc. # 15 … (Harmann, Fox, Baeza-Yates, Lee 1992, 29)

20 Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) Vokabular-Trie mit invertiertem Index 20© Karin Haenelt, Information Retrieval Modelle. Einführung (Liu 2011,236)

21 Index Trie - Erläuterung Ein Trie ist ein Präfixbaum, der im Information Retrieval zur Repräsentation und Suche von Zeichenketten verwendet wird 21© Karin Haenelt, Information Retrieval Modelle. Einführung

22 Index Invertierte Datei - Implementierungsvarianten Vorteile gegenüber direkter Speicherung von Dokumentvektoren geringerer Speicherplatzbedarf (da die meisten Term- Vektoren dünn besetzt sind – sparse Matrix) schneller Zugriff Implementierungsvarianten Baumstruktur / Trie Hashtabelle / Trie / endlicher Automat sortiertes Array (abgeleitet aus Baumstruktur) Hauptspeicher vs. Festplatte Rechnerfarm Kompression 22© Karin Haenelt, Information Retrieval Modelle. Einführung

23 Rankingfunktionen inhaltsbasiert: Ähnlichkeitsberechnungen zwischen Anfragetermen und Dokumentvektoren Boolesches Modell: Mengenoperationen Vektormodell: Ähnlichkeitsbegriffe für Vektoren: Vektoroperationen der linearen Algebra Probabilistisches Modell: Wahrscheinlichkeitsrechnung, Bayes-Theoreme hyperlinkbasiert (HITS, PageRank) profilbasiert (Standort, Cookies, Soziale Netzwerke, Klickverhalten, …) 23© Karin Haenelt, Information Retrieval Modelle. Einführung

24 Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Heidelberg: Springer Verlag. Ferber, Reginald (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Manning, Christopher, Prabhakar Raghavan, Hinrich Schütze (2007). Introduction to Information Retrieval. Cambridge University Press. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, © Karin Haenelt, Information Retrieval Modelle. Einführung

25 Copyright © Karin Haenelt All rights reserved. No part of these slides may be reproduced in any form by any electronic or nonelectronic means (including photocopying, recording, or information storage and retrieval) without permission in writing from the author. Bibliographic data. Karin Haenelt, Information Retrieval Modelles. Kursfolien (1. Fassung ) + URL Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.). Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author. Versionen , , , © Karin Haenelt, Information Retrieval Modelle. Einführung


Herunterladen ppt "Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012."

Ähnliche Präsentationen


Google-Anzeigen