Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt 21.10.2012.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmentheorie 08 – Dynamische Programmierung (1)
Advertisements

Information Retrieval in XML-Dokumenten
Intelligente Anwendungen im Internet
Statistische Aspekte der PSG
Ähnlichkeitsmaße für Vektoren
Webseitenranking für Suchanfragen anhand von Linkgraphen
Google Larry Page Sergej Brin 7. Sept Google Inc. PageRank – Citation Index – Qualität der Suchergebnisse Wider die Lügen im Hyperraum – Ranking.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07
3.1 3 Implementierungstechniken 3.1 Kompression von invertierten Dateien Warum? Parameter des Index: N = Anzahl Dokumente n = Anzahl Terme f t = Dokumentfrequenz.
Verifizieren versus Berechnen
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Suche in Texten: Suffix-Bäume
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
WS Prof. Dr. Th. Ottmann Algorithmentheorie 09 - Suche in Texten Suffix - Bäume.
Endliche Automaten Einführung in den Themenbereich
Reguläre Sprachen Karin Haenelt.
Information Retrieval Modelle: Vektor-Modell
Grundbegriffe der Wahrscheinlichkeitstheorie
1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt
Endliche Automaten Überführung regulärer Ausdrücke in endliche Automaten Karin Haenelt
© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.
Parsing regulärer Ausdrücke
Mathematische Grundlagen
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.
© Karin Haenelt 2005, Endliche Automaten: Alphabet, Zeichenreihe, Sprache, Endliche Automaten Grundlagen: Alphabet, Zeichenreihe, Sprache.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
MMQL – Multimedia Query Language Eine Anfragesprache für Multimedia-Ähnlichkeitsanfragen Christian Mantei.
Wie funktionieren Suchmaschinen?
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
Wie Google Webseiten bewertet
Proseminar an der TU München Martin Levihn
Diskrete Mathematik II
Präsentation C Tutorium von Daniel J. Nowak Folie 1 C Tutorium.
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Template v5 October 12, Copyright © Infor. All Rights Reserved.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Trust and context using the RDF- Source related Storage System (RDF‑S3) and easy RQL (eRQL) Karsten Tolle und Fabian Wleklinski.
Information Retrieval, Vektorraummodell
Information Retrieval Modelle: Probabilistische Modelle Kursfolien
Einfaches Erstellen von Präsentationen aus Einzelfolien heraus.
Stephanie Müller, Rechtswissenschaftliches Institut, Universität Zürich, Rämistrasse 74/17, 8001 Zürich, Criminal liability.
Literary Machines, zusammengestellt für ::COLLABOR:: von H. Mittendorfer Literary MACHINES 1980 bis 1987, by Theodor Holm NELSON ISBN
Niko Zenker1 Besondere Aspekte in Multimedia-Datenbanken Methoden zur iterativen Anfrageverfeinerung (Relevanz Feedback)
Accessible content is available upon request. Meine Daten – Deine Daten Dennis Hobmaier, Sr. TSP, MCSE
Statistiken beschreiben
Technische Universität München Institute of Aeronautical Engineering Prof. Dr.-Ing. Horst Baier Presentation of the Institute (December 2009)
Sven Koerber-Abe, 2016 Grammatik: Artikel (Zusammenfassung) Grammatik: Artikel (Zusammenfassung)
(Name of presenter) (Short title of presentation).
Giraffe - Giraffa camelopardalis Netzgiraffen (Giraffa camelopardalis reticulata) im Tiergarten Nürnberg. Fotograf: Jochen Ackermann. Mit freundlicher.
Your Logo Presentation Title Presentation Subtitle.
Perfekt-Quiz Sven Koerber-Abe, 2014.
This is a placeholder text
FREE ICONS POWERPOINT TEMPLATE.
Wegbeschreibung Sven Koerber-Abe, 2015.
Uhrzeit Sven Koerber-Abe, 2014.
Grammatik: Perfekt Sven Koerber-Abe, 2014.
Grammatik: waren / hatten
Wiederholungs- übungen 2. Halbjahr
Dativ Sven Koerber-Abe, 2015.
Hypertext 2015/2016.
Thema Kraftfeld-Analyse
Grammatik: Perfekt Sven Koerber-Abe, 2014.
WIE DER APOSTEL LEBE DEINE BERUFUNG!
Grammatik: Position Sven Koerber-Abe, 2013.
 Präsentation transkript:

Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt

Themen Information Retrieval Konzepte Grundkomponenten Information Retrieval Modell Definition Die klassischen Modelle Boolesches Modell, Vektormodell, Probabilistisches Modell Komponenten Anfragen Dokumentrepräsentation Dokumentenanalyse / Vorverarbeitung Index Rankingfunktionen 2

Information Retrieval Traditionelles Konzept Auffinden von Dokumenten, die für eine Suchanfrage relevant sind Ranking von Dokumenten 3

Grundkomponenten des Information Retrieval 4 Doku- mente D 1 Anfrage Analyse Reprä- sentation (Index) Reprä- sentation Ähnlichkeit: - Matching - Ranking Doku- mente D 2 D 2 D 1

Grundkomponenten des Information Retrieval 5 Doku- mente D 1 Anfrage Analyse Reprä- sentation (Index) Reprä- sentation Ähnlichkeit: - Matching - Ranking Doku- mente D 2 D 2 D 1 D R(q k,d m ) Q Komponenten der Modelldefinition

Information Retrieval Modell Zweck Ein Information Retrieval Modell bestimmt wie Dokumente repräsentiert werden (D) wie Anfragen repräsentiert werden (Q) wie die Relevanz eines Dokuments für eine Anfrage bestimmt wird ( R(q k,d m ) ) 6© Karin Haenelt, Information Retrieval Modelle. Einführung

7 Information Retrieval-Modell Definition (Baeza-Yates/Ribeiro-Neto, 1999,21) DDokumentrepräsentationen Menge logischer Sichten auf Dokumente QQueries Menge logischer Sichten auf Informationswünsche FFramework / Modellierungsrahmen für Dokumentrepräsentationen, Queries und Beziehungen zwischen D und Q R(q k,d m )Ranking-Funktion ordnet Query q k Q und Dokument d m D einen Wert zu definiert Reihenfolge der Dokumente bezüglich Query q k Ein Information Retrieval-Modell ist ein Quadrupel [D,Q,F,R(q k,d m )] © Karin Haenelt, Information Retrieval Modelle. Einführung

8 Taxonomie der klassischen Modelle Set Theoretic Fuzzy Extended Boolean Algebraic Generalized Vector Lat. Semant.Index. Neural Networks Probabilistic Inference Network Belief Network Classic Models Boolean Vector Probabilistic Structured Models Non-Overlapping Lists Proximal Nodes Browsing Flat Structure guided Hypertext Retrieval Ad hoc Filtering Browsing Flat Structure guided Hypertext U s e r T a s k (Baeza-Yates/Ribeiro-Neto, 1999,21) © Karin Haenelt, Information Retrieval Modelle. Einführung

Anfragen Schlüsselwörter Phrasen Dokumente Fragen Operatoren (Boolesche Operatoren) 9© Karin Haenelt, Information Retrieval Modelle. Einführung

Dokumentrepräsentation Dokumentvektoren Klassisches Information Retrieval: Repräsentation der Inhalte von Dokumenten durch Angabe einer Menge von Wörtern (Indexterme), die in den Dokumenten vorkommen (bag of words- Modell) und Zuordnung von Termgewichten Darstellung als Vektoren 10 © Karin Haenelt, Information Retrieval Modelle. Einführung binär:(1,1,0) Termfrequenz:(4,3,0) Term 1 Öl Term 2 Preis Term 3 Alaska Beispiele: Dokumentvektoren bin-Dok 1 tf- Dok 1

Dokumentrepräsentation Dokumentvektoren: Definition geordnete Menge von Werten für Wortvorkommen, die konjunktiv verknüpft werden 11 © Karin Haenelt, Information Retrieval Modelle. Einführung binär:(1,1,0) Termfrequenz:(4,3,0) Term 1 Öl Term 2 Preis Term 3 Alaska Beispiele: Dokumentvektoren bin-Dok 1 tf- Dok 1

Dokumentrepräsentation Termvektor: Definition Sei Dk eine Dokumentkollektion Sei V = {t 1, t 2, …, t |V| } die Menge der unterschiedlichen Wörter/Terme in der Kollektion. V heißt das Vokabular. Ein Gewicht w ij > 0 wird jedem Term t i eines Dokument d j Dk zugewiesen. Das Gewicht eines Terms, der nicht im Dokument d j vorkommt, gilt w ij = 0 Dann ist ein Termvektor d j = (w 1j, w 2j, …, w |V|j ). 12© Karin Haenelt, Information Retrieval Modelle. Einführung

Dokumentrepräsentation Indextermvektoren: Annahmen Annahme: wechselseitige Unabhängigkeit der Indexterme starke Vereinfachung ermöglicht einfachere Berechnung der Gewichtung eines Index- Terms ermöglicht schnelle Berechnung der Rangfolge (Ranking) von Dokumenten (Baeza-Yates/Ribeiro-Neto, 1999,25) © Karin Haenelt, Information Retrieval Modelle. Einführung

Dokumentanalyse / Vorverarbeitung Indextermextraktion Stoppwortentfernung Stemming Berechnung von Termgewichten … 14© Karin Haenelt, Information Retrieval Modelle. Einführung

Dokumentanalyse / Vorverarbeitung Auswahl der Indexterme Ziel: effiziente Auswahl von (Dokument-)Worten zur Anzeige von Themen Varianten Volltext: alle Wörter verwendet Auswahl nach Wortarten Nominaals wichtige Indikatoren betrachtet Adjektive,als weniger nützlich betrachtet Adverbien, Verknüpfungen Präpositionen, als Stoppwörter aussortiert Konjunktionen, Artikel (Baeza-Yates/Ribeiro-Neto, 1999,24) © Karin Haenelt, Information Retrieval Modelle. Einführung

Dokumentrepräsentation Relevanz Index-Terme können unterschiedlich relevant sein zur Beschreibung des Inhalts von Dokumenten Wörter, die in allen Dokumenten vorkommen nur in wenigen Dokumenten vorkommen sind unterschiedlich signifikant (Baeza-Yates/Ribeiro-Neto, 1999,24) © Karin Haenelt, Information Retrieval Modelle. Einführung

Dokumentanalyse / Vorverarbeitung Stoppwortentfernung Wörter werden im IR nicht interpretiert hochfrequente Wörter erscheinen daher aus Sicht des IR als bedeutungslos und nutzlos der, die, das, von, und, … (vgl. to be or not to be) ca. 400 – 500 Wörter / Sprache ca % eines Textes zusätzlich anwendungsspezifische Terme Ziel der Stoppwortentfernung Reduktion des Index Beschleunigung des Suchprozesses 17© Karin Haenelt, Information Retrieval Modelle. Einführung

Index Datenstrukturen für die Termvektoren sequentielle Speicherung und Suche der Indexterme ist ineffizient gebräuchliche Datenstruktur: invertierter Index ein invertierter Index einer Dokumentkollektion ist eine Datenstruktur, die der Repräsentation jedes Terms eine Liste aller Dokumente hinzufügt, in denen der Term vorkommt erfordert konstante Zeit zum Auffinden eines Anfrageterms ermöglicht einfache Suche nach multiplen Termen 18© Karin Haenelt, Information Retrieval Modelle. Einführung (Liu 2011,232)

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) sequentiell 19© Karin Haenelt, Information Retrieval Modelle. Einführung KeywordHitsLink Index File information3retrieval2 Links Postings File.. Doc # Documents File Doc. # 5 Doc. # 15 … (Harmann, Fox, Baeza-Yates, Lee 1992, 29)

Index - Datenstrukturen für die Termvektoren Invertierte Datei (inverted file) Vokabular-Trie mit invertiertem Index 20© Karin Haenelt, Information Retrieval Modelle. Einführung (Liu 2011,236)

Index Trie - Erläuterung Ein Trie ist ein Präfixbaum, der im Information Retrieval zur Repräsentation und Suche von Zeichenketten verwendet wird 21© Karin Haenelt, Information Retrieval Modelle. Einführung

Index Invertierte Datei - Implementierungsvarianten Vorteile gegenüber direkter Speicherung von Dokumentvektoren geringerer Speicherplatzbedarf (da die meisten Term- Vektoren dünn besetzt sind – sparse Matrix) schneller Zugriff Implementierungsvarianten Baumstruktur / Trie Hashtabelle / Trie / endlicher Automat sortiertes Array (abgeleitet aus Baumstruktur) Hauptspeicher vs. Festplatte Rechnerfarm Kompression 22© Karin Haenelt, Information Retrieval Modelle. Einführung

Rankingfunktionen inhaltsbasiert: Ähnlichkeitsberechnungen zwischen Anfragetermen und Dokumentvektoren Boolesches Modell: Mengenoperationen Vektormodell: Ähnlichkeitsbegriffe für Vektoren: Vektoroperationen der linearen Algebra Probabilistisches Modell: Wahrscheinlichkeitsrechnung, Bayes-Theoreme hyperlinkbasiert (HITS, PageRank) profilbasiert (Standort, Cookies, Soziale Netzwerke, Klickverhalten, …) 23© Karin Haenelt, Information Retrieval Modelle. Einführung

Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Bing Liu (2011). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Heidelberg: Springer Verlag. Ferber, Reginald (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/ Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Manning, Christopher, Prabhakar Raghavan, Hinrich Schütze (2007). Introduction to Information Retrieval. Cambridge University Press. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, © Karin Haenelt, Information Retrieval Modelle. Einführung

Copyright © Karin Haenelt All rights reserved. No part of these slides may be reproduced in any form by any electronic or nonelectronic means (including photocopying, recording, or information storage and retrieval) without permission in writing from the author. Bibliographic data. Karin Haenelt, Information Retrieval Modelles. Kursfolien (1. Fassung ) + URL Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.). Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author. Versionen , , , © Karin Haenelt, Information Retrieval Modelle. Einführung