Information Retrieval Modelle: Probabilistische Modelle Kursfolien

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Ähnlichkeitsmaße für Vektoren
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Normalverteilte Zufallsvariablen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Webseitenranking für Suchanfragen anhand von Linkgraphen
Telefonnummer.
Seminar Textmining WS 06/07 Aufgaben V Bemerkung zu clustering Probabilistic IR Indexierung von Dokumenten Thesauri.
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07
Seminar Textmining WS 06/07 Aufgaben IV Postings Datei Clustering Probabilistisches Information Retrieval.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
„Netzwerk Medizin und Geschlecht“ an der Medizinischen Hochschule Hannover Projektleitung: Dr. phil. Bärbel Miemietz Projektkoordination: Larissa Burruano,
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Entwicklung eines Online-Evaluationssystems
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Reguläre Sprachen Karin Haenelt.
Information Retrieval Modelle: Vektor-Modell
1 Endliche Automaten in der Sprachtechnologie Einführung Karin Haenelt
© Karin Haenelt 2006, Operationen auf Akzeptoren und Transduktoren, ( ) 1 Operationen auf endlichen Akzeptoren und Transduktoren.
Erweiterte Fassung Karin Haenelt, IR-Evaluierung Evaluierung von Information Retrieval Systemen Kursfolien Karin Haenelt.
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Differentielles Paar UIN rds gm UIN
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Relevanz Ranking Bisher:
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Prof. Dr. Günter Gerhardinger Soziale Arbeit mit Einzelnen und Familien Übersicht über die Lehrveranstaltung Grundlegende Bestimmungsfaktoren der Praxis.
20:00.
Die Geschichte von Rudi
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
Eine Einführung in die CD-ROM
GBI Genios Wiso wiso bietet Ihnen das umfassendste Angebot deutsch- und englischsprachiger Literatur für die Wirtschafts- und Sozialwissenschaften. Wir.
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
Where Europe does business Lück, JDZB | Seite © GfW NRW 252 a.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Klassische Information Retrieval Modelle Einführung Kursfolien Karin Haenelt
Addieren und Subtrahieren von Dezimalzahlen
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Generalisiertes Vektorraummodell (Generalized Vector Space Model, GSVM) Karin Haenelt
Geometrische Aufgaben
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Information Retrieval, Vektorraummodell
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
AGOF facts & figures: Branchenpotenziale im Internet Q2 2014: Parfum & Kosmetik Basis: internet facts / mobile facts 2014-I.
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
 Präsentation transkript:

Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion RobertsonSparckJones (RSV) Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Probabilistische Retrievalmodelle Ziel Schätzung der Wahrscheinlichkeit, dass ein Dokument dm für eine Anfrage qk relevant ist Erster Ansatz: Maron und Kuhns (1960) Das klassische probabilistische Retrievalmodell ist das Binary Independence Retrieval (BIR) Modell (Robertson/Sparck Jones, 1976) Dokumentvektoren mit binären Werten (Term kommt vor, kommt nicht vor) Annahme der Unabhängigkeit der einzelnen Terme Weiterentwicklungen: Einbeziehung der Termfrequenzen © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Darstellungen Originalartikel Stephen E. Robertson und Karen Spärck Jones (1976). Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf Beschreibungen Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003. http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Aussortieren unerwünschter Werbe-Mails Lösungsschritte Relevance Feedback eine Person markiert E-Mails in einem Lerncorpus relevante Mails und nicht-relevante Mails ( = unerwünschte Werbe-Mails) Gewichtungsfunktion als Lernaufgabe (Lerncorpus) das System berechnet Termgewichte für die einzelnen Terme je nach ihrer Verteilung in relevanten und nicht-relevanten Mails Klassifikation (Anwendungscorpus) das System berechnet die Wahrscheinlichkeit der Relevanz neuer E-Mails auf der Basis der Termgewichte © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Lösungsschritt: Relevance Feedback R.Feedback 1 d1 d2 d3 d4 d5 d6 d7 d8 2 3 rel=4 reli nrel=4 nreli Relevanz- Angaben reli relevante Dokumente mit Term i rel relevante Dokumente nreli nicht-relevante Dokumente mit Term i nrel nicht-relevante Dokumente Ferber, 1998:120 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Lösungsschritt: Gewichtungsfunktion (1) R.Feedback 1 d1 d2 d3 d4 d5 d6 d7 d8 2 3 rel=4 reli nrel=4 nreli Term- Gewicht Ferber, 1998:120 3 1 3 9 3 3 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Lösungsschritt: Gewichtungsfunktion (2) R.Feedback Berechnung des Termgewichts für Term t1 d1 1 … d2 1 … Formel für Termgewicht nach probabilist. Modell d3 … d4 … d5 … d6 … d7 1 … d8 … Einsetzen der Werte aus Relevance Feedback reli 2 … rel=4 nreli 1 … nrel=4 Term- Gewicht 3 … © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Lösungsschritt: Klassifikation Neue E-Mails und ihr Retrievalstatuswert t1 t2 t3 t4 t5 t6 Retrievalstatuswert d09 1 1 1 log(3)+log(1)+log(3)=0.95 d10 1 1 log(1)+log(9)=0.95 d11 1 1 1 1 1 4log(3)+log(9)=2.86 d12 1 1 log(3)+log(3)=0.95 Berechnete Termgewichte Term- Gewicht 3 1 3 9 3 3 Ferber, 1998:121 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Theorie (1) Das Modell ist formal hergeleitet nach Prinzipien der Wahrscheinlichkeitstheorie Die Theorie beschreibt, wie Vorkommenswahrscheinlichkeiten einzelner Terme in relevanten und nicht-relevanten Dokumenten zu einer Gesamtschätzung der Relevanz eines Dokuments (Retrievalstatuswert eines Dokuments – RSV) kombiniert werden Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Theorie (2) Vorkommenswahrscheinlichkeiten der Terme und das Verfahren der Relevanzschätzung eines Dokuments bilden eine theoretische Einheit: Termgewichtung und Ähnlichkeitsfunktion sind gemeinsam im Rahmen der Wahrscheinlichkeitstheorie bestimmt können nicht unabhängig voneinander gewählt werden Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Theorie (3) sie können in einer Funktion implementiert werden sie lassen sich aus praktischen Gründen der Systemmodularität zerlegen in eine Termgewichtungsfunktion wti eine Ähnlichkeitsfunktion sim(dm,qk) wobei sim(dm,qk) den Retrievalstatuswert eines Dokuments (RSV) unter Verwendung der Termgewichte wti berechnet - sim(dm,qk) = RSV Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Model Definition wi,m  {0,1} Variablen der Index-Term- wi,k  {0,1} Gewichtung sind binär T = {t1,..,tx} Menge der Index-Terme x Anzahl der Index-Terme im System X = {1,...,x} Menge d. Kennungen der I-Terme Query-Vektor Dokument-Vektor © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Model Definition R Menge der relevanten Dokumente (bekannt oder anfangs geschätzt !!!) R Komplementmenge zu R Menge der nicht-relevanten Dokumente P(R|qk,dm) Wahrscheinlichkeit der Relevanz, wenn eine Anfrage qk und ein Dokument dm gegeben sind P(R|qk,dm) Wahrscheinlichkeit der Irrelevanz, wenn eine Anfrage qk und ein Dokument dm gegeben sind © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (1) Ziel Bestimmung von P(R|qk,dm) Ziel: Schätzung der Wahrscheinlichkeit, dass ein spezifisches Dokument dm für eine Anfrage qk (genauer: für eine Suchsituation si mit einer Anfrage qk, also eine Instanz einer Anfrage qk) Relevanz (R) hat Grundannahme„Cluster-Hypothese“ Terme sind in relevanten und nicht relevanten Dokumenten unterschiedlich verteilt © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (2) (1) Einsetzung von Dokumentrepräsentationen um P(R|qk,dm) zu schätzen, müssten zu allen Anfragen Dokumente mit Relevanzbestimmungen vorliegen kaum realistisch daher Berechnung nicht für einzelne Dokumente, sondern für Termmengen (i.e. Dokumentvektoren) [1] © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (3) (2) Umformung nach Bayes-Regeln P(A|B) = P(AB)/P(B) P(AB) = P(A)⋅P(B|A) = P(B)⋅P(A|B) P(A|B) = P(AB)/P(B) [2.1] P(AB) = P(A)⋅P(B|A) P(AB) = P(A)⋅P(B|A) [2.2] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (4) (2) Umformung nach Bayes-Regeln P(A|B) = P(AB)/P(B) P(AB) = P(A)⋅P(B|A) = P(B)⋅P(A|B) [2.3] [2.4] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (5) (3) Quote (Odds) statt Wahrscheinlichkeiten Weitere Darstellungsmöglichkeit für die Chance, dass ein Ereignis auftritt: Quote (Odds) eines Ereignisses O(Y) < 1 für Wahrscheinlichkeiten < 0.5 O(Y) > 1 für Wahrscheinlichkeiten > 0.5 Liefert dieselbe Rangreihe für Ereignisse wie Wahrscheinlichkeit; erlaubt z.T. einfacheres Rechnen Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (6) (3) Quote (Odds) statt Wahrscheinlichkeiten [2.4] [3.1] [2.4] [3.2] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (7) (4) Annahme der Unabhängigkeit der Terme (Diese Annahme über Dokumente ist sehr vereinfachend) Sind A und B unabhängig, so gilt P(AB) = P(A)⋅P(B) Auf der Basis der Annahme der Unabhängigkeit der Terme wird die Wahrscheinlichkeit des Dokumentvektors dargestellt durch das Produkt der Wahrscheinlichkeiten der Einzelterme [3.2] [4] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (8) (5) Aufspaltung des Produkts nach dem Vorkommen der Terme ti d q [5] + + - + +/- - Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (9) (6) Weitere vereinfachende Annahme Es wird - nicht immer zutreffend - angenommen, dass alle Terme, die nicht in der Anfrage auftreten, mit derselben Wahrscheinlichkeit in relevanten und irrelevanten Dokumenten auftreten d.h. [5] dritter Faktor Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (10) (6) Weitere vereinfachende Annahme So ergibt sich folgende vereinfachte Formel [6] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (11) (7) Komplementäre Umformung der Wahrscheinlichkeit [7] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (12) (8) Vereinfachung der Schreibweise [8] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (13) (9) Herausarbeitung der dokumentabhängigen Faktoren [9.1] [8] multipliziert mit 1 1 Geeignete Aufspaltung des Faktors [9.2] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (14) (10) Ausblendung der nicht dokument-abhängigen Faktoren nur die Faktoren, die für die Rangfolge der Dokumente relevant sind, werden weiter betrachtet [9.2] [10] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(dm,qk) (15) (11) Anwendung eines Logarithmus zur logarithmischen Skalierung der Ergebnisse zur Vermeidung mehrfacher Rundungsfehler auf dem Rechner [10] Retrievalstatuswert eines Dokuments (retrieval status value) [11] RSV = Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion : Grundlagen (1) Um aus Formel [11] den Retrievalstatuswert eines Dokuments berechnen zu können, werden die Parameter der Summanden ri und ni gebraucht Term i im relevanten Dokument Term i im nicht-relevanten Dokument Zwei Vorgehensweisen: Parameterschätzung durch interaktives Relevance Feedback automatische rekursive Verfeinerung im Suchprozess © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion : Grundlagen (2) im Unterschied zum Booleschen Modell und zum Vektormodell werden probabilistische Termgewichte nicht anfrage-unabhängig auf der Dokumentbasis bestimmt sondern anfragespezifisch berechnet nach der Relevanz der Dokumente für eine Anfrage auf der Basis der Verteilung in relevanten und nicht-relevanten Dokumenten jede Anfrage ist ein Anfrage-Ereignis: stellen verschiedene Leute dieselbe Anfrage, so sind verschiedene Relevanzbeurteilungen der Dokumente möglich (in der Praxis werden allerdings auch Mittelwerte über die Beurteilungen der Anfrage-Ereignisse gebildet) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion Parameterschätzung durch Relevance Feedback (1) Basis der Parameterschätzung Es wurden bereits Dokumente ausgewählt Benutzende unterteilen Dokumente in „relevant“ und „nicht-relevant“ © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion Parameterschätzung durch Relevance Feedback (2) Beobachtungsbasis rel Anzahl der als relevant beurteilten Dokumente reli Anzahl der relevanten Dokumente mit Term ti nrel Anzahl der nicht-relevanten Dokumente nreli Anzahl der nicht-relevanten Dokumente mit Term ti Schätzwerte Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion Parameterschätzung durch Relevance Feedback (3) Einsetzung der Schätzwerte in Formel [11] Retrievalstatuswert eines Dokuments Termgewicht [11] RSV = wti = Retrievalstatuswert eines Dokuments [12] RSV = © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Lösungsschritt: Relevance Feedback R.Feedback 1 d1 d2 d3 d4 d5 d6 d7 d8 2 3 rel=4 reli nrel=4 nreli Relevanz- Angaben reli relevante Dokumente mit Term i rel relevante Dokumente nreli nicht-relevante Dokumente mit Term i nrel nicht-relevante Dokumente Ferber, 1998:120 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Lösungsschritt: Gewichtungsfunktion (2) R.Feedback Berechnung des Termgewichts für Term t1 d1 1 … d2 1 … Formel für Termgewicht nach probabilist. Modell d3 … d4 … d5 … d6 … d7 1 … d8 … Einsetzen der Werte aus Relevance Feedback reli 2 … rel=4 nreli 1 … nrel=4 Term- Gewicht 3 … © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Beispiel: Lösungsschritt: Klassifikation Neue E-Mails und ihr Retrievalstatuswert t1 t2 t3 t4 t5 t6 Retrievalstatuswert d09 1 1 1 log(3)+log(1)+log(3)=0.95 d10 1 1 log(1)+log(9)=0.95 d11 1 1 1 1 1 4log(3)+log(9)=2.86 d12 1 1 log(3)+log(3)=0.95 Berechnete Termgewichte Term- Gewicht 3 1 3 9 3 3 Ferber, 1998:121 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion rekursive Parameterschätzung im Suchprozess Prinzip Anfangsschätzung Rekursion Ranking auf der Basis der Schätzung der Termgewichte Verwendung eines Schwellenwertes Annahme der Relevanz für alle Dokumente deren RSV über dem Schwellenwert liegt Ermittlung der Termverteilungen in den Dokumenten und Erzeugung neuer Termgewichte N Gesamtzahl der Dokumente im System ti Indexterm ni Anzahl der Dokumente, in denen Term ti vorkommt Baeza-Yates/Ribeiro-Neto, 1999,33 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion rekursive Parameterschätzung im Suchprozess Formeln für die rekursive Verfeinerung Annahme (a) P(ti|R,q) kann an Hand der Verteilung der Index-Terme ti in den bisher ausgewählten Dokumenten approximiert werden Annahme (b) P(ti|-R,q) kann unter der Annahme approximiert werden, dass alle nicht ausgewählten Dokumente nicht relevant sind Baeza-Yates/Ribeiro-Neto, 1999,33 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Binary Independence Retrieval Model Termgewichtungsfunktion rekursive Parameterschätzung im Suchprozess Parameterkorrektur Die Formeln bereiten Probleme bei kleinen Werten von rel und reli (z.B. rel = 1 und reli = 0) Korrekturwerte © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi Bedeutung probabilistisches Retrievalsystem probabilistische Termgewichtungsfunktionen für binäre Dokumentvektoren BM1 (Best Match) theoretische Fundierung: Robertson/Sparck Jones, 1976 Erweiterung: Parameter für Dokumentlänge und Termfrequenz in Anfrage und Dokument BM11, BM15, BM25 (auch kollektiv als Familie von Gewichtungsfunktionen Okapi BM25 genannt) theoretische Fundierung: Robertson/Walker, 1994 BM25F Robertson/Zaragoza/Taylor, 2004 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi Historie Okapi 1982-1988: ursprünglich eine Familie bibliographischer Retrievalsysteme, entwickelt unter Förderung der British Library an der Polytechnic of Central London (heute: University of Westminster) 1992-1997: City University, London 1998 ff: weitergeführt von Microsoft Research Laboratory in Cambridge und eingebunden in die Keenbow-Evaluierungsumgebung für Retrievalsysteme (Robertson, Walker, 2000) neue Experimente mit neuen Systemen (z.B. Indizes mit paralleler Architektur) und mehreren Gewichtungsfunktionen (z.B. BM25, BM25F; PageRank) (Craswell, Fetterly, Najork, Robertson, Yilmaz, 2009) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi Suchtechniken Gewichtung von Suchtermen Match-Funktion: Übereinstimmungswert eines Dokuments ist die Summe der Gewichtung der zwischen der Suchanfrage und Dokument übereinstimmenden Terme Relevance Feedback Query Expansion Robertson, Walker, Hancock-Beaulieu, Gull, Lau, 1992 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen Notation © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen Basis: Robertson/Sparck Jones-Formel Formel von Robertson / Sparck Jones (1976) RSJ Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM1 / IDF Formel der Experimente für TREC-1 ist die Robertson-Sparck Jones-Formel (RSJ) ohne Relevanzangaben, d.h. (R = r = 0) in dieser Form entspricht die Formel der inversen Kollektionsgewichtung (idf) entspricht der Annahme P(t|relevant)=0.5 BM1 Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 Motivation Binary Independence Model ursprünglich für Katalogeinträge und abstracts gleicher Länge entwickelt Modell für freie Volltext-Kollektionen sollte berücksichtigen Termfrequenz Dokumentlänge Anfrage-Länge (Anfrage kann ein Beispieldokument sein) BM 25 Okapi-Gewichtung theoretische Fundierung entwickelt von Stephen E. Robertson und S. Walker (1994) benannt nach dem System Okapi, in dem es erstmals verwendet wurde © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 Grundform allgemeinere Formen z.B. ohne qtf) speziellere Varianten (z.B. BM11, BM15) Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 einfache Gewichtungs- Funktion (RSJ oder IDF) Dokumentterm- frequenz- Faktor Anfrageterm- frequenz- Faktor Dokumentlängen-Normierungs-Faktor Robertson/Walker (2000), Sparck Jones/Roberston/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 Termfrequenzfaktor Robertson/Walker (1994) entwickeln eine komplexe Formel, die auf Überlegungen zu folgenden Eigenschaften beruht Verteilung 1: für jedes Thema gilt: es gibt Dokumente, die das Thema behandeln, und solche, die es nicht behandeln Verteilung 2: für jeden Term gilt: er kann in einem Dokument mit dem Thema, das mit dem Term assoziiert wird, vorkommen oder nicht Verteilung 1 und Verteilung 2 sind beides Poisson-Verteilungen Eliteness eines Terms: Term steht in Zusammenhang mit dem mit dem Term assoziierten Thema ( oder ) Sparck Jones/Roberston/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 Termfrequenzfaktor Die Formel ist komplex algebraisch und bezüglich Interpretation und Abschätzung Robertson/Walker (1994) untersuchen das Verhalten der Formel und schlagen eine einfachere Formel mit einem ähnlichen Verhalten vor Sparck Jones/Roberston/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 Termfrequenzfaktor Eigenschaften ist 0 bei Termfrequenz = 0 wächst monoton mit tfi hat eine asymptotische Grenze (d.h. zusätzliche Vorkommen von t erhöhen das Gewicht, aber es gibt ein Limit des Erhöhungswertes) k1: Modellierungsparameter zur Anpassung an Corpora bestimmt, wie sehr das Gewicht wtfi auf eine Erhöhung von tfi reagiert mit k=0 ist wtfi identisch mit wi (einfache Termpräsenz) TREC-Erfahrung: Werte zwischen 1.2 und 2 sind effektiv Sparck Jones/Roberston/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Okapi-Gewichtungsfunktionen BM25 Dokumentlängennormierungsfaktor Annahme: Wortreichtum entsteht eher durch erweiterte Ausführungen als durch Wiederholungen von Aussagen sollte also nicht einfach wegdividiert werden einfache Version berücksichtigt Annahme nicht erweiterte Version mit b = 1 ergibt sich einfache Version Werte b < 1 reduzieren den Dokumentlängennormierungsfaktor TREC-Erfahrungen: ein Wert b = 0.75 ist gut Sparck Jones/Robertson/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010; korr.1.11.2014

Okapi-Gewichtungsfunktionen BM25 BM25F berücksichtigt zusätzlich die Stelle des Vorkommens (Feld) (Titel, 1. Satz, …) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Synopse: Vektormodell und probabilistisches Modell © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010; korr. 1.11.2014

Synopse Vektormodell und probabilistisches Modell probabilistische Termgewichtungsschemata können auch im Vektormodell verwendet werden Verknüpfung der Vektoren  im Vektormodell: verschiedene Möglichkeiten der Vektorähnlichkeit im probabilistischen Modell: festgelegt durch die Theorie (Wahrscheinlichkeit mehrerer Ereignisse – hier: Termvorkommen) nicht-logarithmische Form: Skalarprodukt logarithmische Form: Summe probabilistische Gewichtung und Verknüpfung der Query- und Dokument-Vektoren durch Skalarprodukt ergibt im Wesentlichen den Retrieval-Status-Wert des probabilistischen Modells © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Synopse Vektormodell und probabilistisches Modell Vorteil des probabilistischen Modells gegenüber dem Vektormodell: Bestimmung der Rangfolge von Dokumenten ohne den Umweg über ad-hoc-Termgewichtungen Ziele der Einführung von Termgewichtungen Einsparung eines relevance-feedback-Verfahrens © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Probabilistisches Modell Anwendungsbeispiele Browsing Relevance Feedback: für Beispiel-Dokumente für ein Themengebiet Erlernen der Term-Gewichtungen für das Relevanz-anzeigende Vokabular des Themengebietes Klassifikation: Suche ähnlicher Dokumente multilinguales Retrieval Relevance Feedback: für Dokumente in mehreren Sprachen Erlernen der Term-Gewichtungen erfolgt ohne besondere Verfahren multilingual Klassifikation: erfolgt sprachübergreifend © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Vergleich der klassischen Information Retrieval Modelle Boolesches Modell Schwächste Methode Keine partiellen Übereinstimmungen • Vektormodell offenbar beste Ergebnisse für allgemeine Dokumentsammlungen Wachsende Popularität in Internetsuchmaschinen Probabilistisches Modell Gute Ergebnisse für spezifische Dokumentsammlungen mit Relevanz-Feedback: Bestimmung einer Rangfolge von Dokumenten ohne Umweg über ad-hoc Termgewichtungen Trainingscorpus und Relevanz-Meldungen erforderlich vgl. (Baeza-Yates/Ribeiro-Neto, 1999,34) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

I Inhalt Probabilistische Retrievalmodelle Binary Independence Retrieval Model (BIR) Beispiel Theorie und Definitionen Retrievalstatuswert eines Dokuments (RSV) Termgewichtungsfunktion Okapi probabilistisches Retrievalsystem Termgewichtungsfunktionen BM1, BM11, BM15, BM25 Synopse: Vektormodell und probabilistisches Modell Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen aus dem Originalartikel Stephen E. Robertson und Karen Spärck Jones (1976). Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf Ergänzungen unter den Aspekten informelle Darstellung formale Ableitung Formel RSJ F4 (= BM1) als Grundlage eines besseren Verständnisses verschiedener Darstellungen und Weiterentwicklungen © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung informelle Darstellung im Originalartikel von Robertson/Sparck Jones 1976 eine Kontingenztabelle zeigt die vier Möglichkeiten der Termverteilung in relevanten und nicht-relevanten Dokumenten aus dieser Tabelle leiten sich vier Varianten für Termgewichtungsformeln ab Überlegungen zu Termunabhägigkeiten und Dokumentordnungsprinzipien führen zur Entscheidung für die vierte Variante (RSJ F4) © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung Kontingenztabelle der Dokumentverteilung für t Notation Robertson/Sparck Jones Notation Ferber N Anzahl Dokumente n Anzahl Dokumente mit Term t R Anzahl relevanter Dokumente r Anzahl relevanter Dokumente mit Term t R N N-R r n-r R-r N-n-R+r n N-n rel rel+nrel nrel reli nreli rel-reli nrel-nreli reli+nreli rel-reli + © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung Kontingenztabelle und abgeleitete Termgewichtungsformeln Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung Überlegungen zu Termunabhängigkeiten favorisierte Variante RSJ F4 Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen: formale Ableitung formale Ableitung im Originalartikel von Robertson/Sparck Jones 1976 die Ableitung für Formel RSJ F4 nach der Wahrscheinlichkeitstheorie wurde in der mit Beispielen und Zwischenschritten aufbereiteten Darstellung von Ferber auf den vorderen Folien gezeigt © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen: Formel Formel RSJ F4 Robertson/Sparck Jones (1976) führen in die Formel Korrekturwerte ein um Schätzwerte für neue Dokumente etwas zu modulieren um Nullwerte in den Brüchen zu vermeiden bis auf die Korrekturwerte sind die Formel RSJ F4 und Ferbers Formel äquivalent © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Anhang 1 Binary Independence Model Ergänzende Betrachtungen: Formel RSJ F4 1976 RSJ F4 ohne Korrekturwerte Ferber, 1993 Beispiel © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Literatur Ricardo Baeza-Yates und Berthier Ribeiro-Neto (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Nick Craswell, Dennis Fetterly, Marc Najork, Stephen Robertson, Emine Yilmaz (2009). Microsoft Research at TREC 2009. Web and Relevance Feedback Tracks. In Proceedings of the 18th Text REtrival Conference (TREC-18). http://trec.nist.gov/pubs/trec18/papers/microsoft.WEB.RF.pdf Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS03. 24. April 2003. http://www.is.informatik.uni-duisburg.de/courses/ir_ss03/folien/irskall.pdf Norbert Fuhr und Chris Buckley (1991). A Probabilistic Learning Approach for Document Indexing. In: ACM Transactions on Information Systems, 9, 3, 1991, S. 223-248. M.E. Maron, J.L. Kuhns (1960). On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 7, 216-244. © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Literatur Stephen E. Robertson und Karen Spärck Jones (1976). Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S. 129-146. http://www.soi.city.ac.uk/~ser/papers/RSJ76.pdf Stephen E. Robertson und Stephen Walker (2000). Okapi/Keenbow at TREC-8. In Proceedings of the 8th Text REtrival Conference (TREC-8), Gaithersburg, Maryland, USA: NIST Special Publication, pp. 151–161. http://trec.nist.gov/pubs/trec8/papers/okapi.pdf Stephen E. Robertson, Stephen Walker (1994). Some simple effective approximations to the 2-Poisoon model for probabilistic weighted retrieval. In: Croft, W. B. und van Rijsbergen C.J. (eds.): Proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin 1994. Springer-Verlag. S. 232-241. http://www.soi.city.ac.uk/~ser/papers/robertson_walker_sigir94.pdf Stephen E. Robertson, Stephen Walker, S. Jones, Micheline Hancock-Beaulieu, M. Gatford (1994). Okapi at TREC-3. In: Proceedings of the Third Text Retrieval Conference (TREC-3), S. 103ff, http://trec.nist.gov/pubs/trec3/papers/city.ps.gz © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Literatur Stephen E. Robertson, Stephen Walker, Micheline Hancock-Beaulieu, Aarron Gull, Marianna Lau (1992). Okapi at TREC. In: Proceedings of the First Text Retrieval Conference (TREC-1), S. 21 ff, http://trec.nist.gov/pubs/trec1/papers/02.txt Stephen E. Robertson, Hugo Zaragoza (2009). The Probabilistic Relevance Framework BM 25 and Beyound. In: Foundations and Trends in Information Retrieval. Vol 3, No 4, 333-389. http://www.soi.city.ac.uk/~ser/papers/foundations_bm25_review.pdf Stephen E. Robertson, Hugo Zaragoza, Michael Taylor (2004). Simple bm25 extension to multiple weighted fields. In Thirteenth Conference on Information and Knowledge Management (CIKM), 2004. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.9.5255 Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (2000) . A probabilistic model of information retrieval: Development and comparative experiments. IP&M 36 (6): 779-808, 809-840. Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (1998) . A probabilistic model of information retrieval: Development and Status. TR 446, Computer Laboratory, University of Cambridge (via http://www.cl.cam.ac.uk/).. C.T. Yu und G. Salton (1976). Precision Weighting. An effective automatic indexing method. Journal of the ACM, 23: 76-88, Juni 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010

Copyright © Karin Haenelt, 2001-2010 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Probabilisitische Modell. Kursfolien. 16.3.2010 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_ProbabV2.0.pdf graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. • Court of Jurisdiction is Darmstadt, Germany Versionen 2.1: 6.11.2010, 2.0: 16.3.2010, 1.2:18.10.2008, 1.1: 25.10.2006, 1.0: 26.10.2001 © Karin Haenelt, IR-Modelle: Probabilistische Modelle 6.11.2010