Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014.

Ähnliche Präsentationen


Präsentation zum Thema: "Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014."—  Präsentation transkript:

1 Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt mit Korrekturen vom

2 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion R obertson S parck J ones (RSV)  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 2© Karin Haenelt, IR-Modelle: Probabilistische Modelle I I

3 Probabilistische Retrievalmodelle  Ziel  Schätzung der Wahrscheinlichkeit, dass ein Dokument d m für eine Anfrage q k relevant ist  Erster Ansatz: Maron und Kuhns (1960)  Das klassische probabilistische Retrievalmodell ist das Binary Independence Retrieval (BIR) Modell (Robertson/Sparck Jones, 1976)  Dokumentvektoren mit binären Werten (Term kommt vor, kommt nicht vor)  Annahme der Unabhängigkeit der einzelnen Terme  Weiterentwicklungen: Einbeziehung der Termfrequenzen 3© Karin Haenelt, IR-Modelle: Probabilistische Modelle

4 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1: Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 4 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

5 Binary Independence Retrieval Model Darstellungen  Originalartikel  Stephen E. Robertson und Karen Spärck Jones (1976). Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S  Beschreibungen  Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag.  Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS April duisburg.de/courses/ir_ss03/folien/irskall.pdfhttp://www.is.informatik.uni- duisburg.de/courses/ir_ss03/folien/irskall.pdf 5© Karin Haenelt, IR-Modelle: Probabilistische Modelle

6 Binary Independence Retrieval Model Beispiel: Aussortieren unerwünschter Werb s Lösungsschritte 1.Relevance Feedback  eine Person markiert s in einem Lerncorpus  relevante Mails und  nicht-relevante Mails ( = unerwünschte Werb s) 2.Gewichtungsfunktion als Lernaufgabe (Lerncorpus)  das System berechnet Termgewichte für die einzelnen Terme je nach ihrer Verteilung in relevanten und nicht- relevanten Mails 3.Klassifikation (Anwendungscorpus)  das System berechnet die Wahrscheinlichkeit der Relevanz neuer s auf der Basis der Termgewichte 6© Karin Haenelt, IR-Modelle: Probabilistische Modelle

7 Binary Independence Retrieval Model Beispiel: Lösungsschritt: Relevance Feedback 7 t1t2t3t4t5t6 R.Feedback d1d d2d d3d d4d d5d d6d d7d d8d rel=4rel i nrel=4nrel i Relevanz- Angaben rel i relevante Dokumente mit Term i nrel i nicht-relevante Dokumente mit Term i rel relevante Dokumente nrel nicht-relevante Dokumente Ferber, 1998:120 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

8 Binary Independence Retrieval Model Beispiel: Lösungsschritt: Gewichtungsfunktion (1) Term- Gewicht t1t2t3t4t5t6 R.Feedback d1d d2d d3d d4d d5d d6d d7d d8d rel=4rel i nrel=4nrel i Ferber, 1998:120 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

9 Binary Independence Retrieval Model Beispiel: Lösungsschritt: Gewichtungsfunktion (2) 9 t1ti R.Feedback 1…d1d1 1…d2d2 0…d3d3 0…d4d4 0…d5d5 0…d6d6 1…d7d7 0…d8d8 2…rel=4rel i 1…nrel=4nrel i 3… Einsetzen der Werte aus Relevance Feedback Formel für Termgewicht nach probabilist. Modell Term- Gewicht Berechnung des Termgewichts für Term t1 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

10 Binary Independence Retrieval Model Beispiel: Lösungsschritt: Klassifikation 10 t1t2t3t4t5t6 Retrievalstatuswert log(3)+log(1)+log(3)=0.95 d log(1)+log(9)=0.95 d  log(3)+log(9)=2.86 d log(3)+log(3)=0.95 d Term- Gewicht Ferber, 1998:121 Neue s und ihr Retrievalstatuswert Berechnete Termgewichte © Karin Haenelt, IR-Modelle: Probabilistische Modelle

11 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1 : Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 11 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

12 Binary Independence Retrieval Model Theorie (1)  Das Modell ist formal hergeleitet nach Prinzipien der Wahrscheinlichkeitstheorie  Die Theorie beschreibt, wie  Vorkommenswahrscheinlichkeiten einzelner Terme in relevanten und nicht-relevanten Dokumenten  zu einer Gesamtschätzung der Relevanz eines Dokuments (Retrievalstatuswert eines Dokuments – RSV) kombiniert werden 12 Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

13 Binary Independence Retrieval Model Theorie (2)  Vorkommenswahrscheinlichkeiten der Terme und das Verfahren der Relevanzschätzung eines Dokuments bilden eine theoretische Einheit: Termgewichtung und Ähnlichkeitsfunktion  sind gemeinsam im Rahmen der Wahrscheinlichkeitstheorie bestimmt  können nicht unabhängig voneinander gewählt werden 13 Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

14 Binary Independence Retrieval Model Theorie (3)  sie können in einer Funktion implementiert werden  sie lassen sich aus praktischen Gründen der Systemmodularität zerlegen in  eine Termgewichtungsfunktion w ti  eine Ähnlichkeitsfunktion sim(d m,q k )  wobei sim(d m,q k ) den Retrievalstatuswert eines Dokuments (RSV) unter Verwendung der Termgewichte w ti berechnet - sim(d m,q k ) = RSV 14 Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

15 Binary Independence Model Definition  w i,m  {0,1} Variablen der Index-Term-  w i,k  {0,1} Gewichtung sind binär  T = {t 1,..,t x } Menge der Index-Terme  x Anzahl der Index-Terme im System  X = {1,...,x} Menge d. Kennungen der I-Terme  Query-Vektor  Dokument-Vektor 15© Karin Haenelt, IR-Modelle: Probabilistische Modelle

16 Binary Independence Model Definition  RMenge der relevanten Dokumente (bekannt oder anfangs geschätzt !!!)  RKomplementmenge zu R Menge der nicht-relevanten Dokumente  P(R|q k,d m )Wahrscheinlichkeit der Relevanz, wenn eine Anfrage q k und ein Dokument d m gegeben sind  P(R|q k,d m )Wahrscheinlichkeit der Irrelevanz, wenn eine Anfrage q k und ein Dokument d m gegeben sind 16© Karin Haenelt, IR-Modelle: Probabilistische Modelle

17 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1 : Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 17 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

18 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (1)  Ziel: Schätzung der Wahrscheinlichkeit, dass  ein spezifisches Dokument d m für  eine Anfrage q k (genauer: für eine Suchsituation s i mit einer Anfrage q k, also eine Instanz einer Anfrage q k ) Relevanz (R) hat  Grundannahme„Cluster-Hypothese“  Terme sind in relevanten und nicht relevanten Dokumenten unterschiedlich verteilt 18 ZielBestimmung von P(R|q k,d m ) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

19 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (2)  um P(R|q k,d m ) zu schätzen, müssten zu allen Anfragen Dokumente mit Relevanzbestimmungen vorliegen  kaum realistisch  daher Berechnung nicht für einzelne Dokumente, sondern für Termmengen (i.e. Dokumentvektoren) 19 (1) Einsetzung von Dokumentrepräsentationen [1] © Karin Haenelt, IR-Modelle: Probabilistische Modelle

20 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (3) 20 (2) Umformung nach Bayes-Regeln [2.1] (a)P(A|B) = P(A  B)/P(B) (b)P(A  B) = P(A) ⋅ P(B|A) = P(B) ⋅ P(A|B) [2.2] P(A|B) = P(A  B)/P(B) P(A  B) = P(A) ⋅ P(B|A) Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

21 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (4) 21 (2) Umformung nach Bayes-Regeln [2.3] (a)P(A|B) = P(A  B)/P(B) (b)P(A  B) = P(A) ⋅ P(B|A) = P(B) ⋅ P(A|B) [2.4] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

22 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (5) 22 (3) Quote (Odds) statt Wahrscheinlichkeiten Weitere Darstellungsmöglichkeit für die Chance, dass ein Ereignis auftritt: Quote (Odds) eines Ereignisses O(Y) < 1für Wahrscheinlichkeiten < 0.5 O(Y) > 1für Wahrscheinlichkeiten > 0.5 Liefert dieselbe Rangreihe für Ereignisse wie Wahrscheinlichkeit; erlaubt z.T. einfacheres Rechnen Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

23 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (6) 23 (3) Quote (Odds) statt Wahrscheinlichkeiten [3.1] [3.2] Ferber, 1998 [2.4] © Karin Haenelt, IR-Modelle: Probabilistische Modelle

24 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (7) 24 (4) Annahme der Unabhängigkeit der Terme [3.2] Sind A und B unabhängig, so gilt P(A  B) = P(A) ⋅ P(B) [4] Ferber, 1998 (Diese Annahme über Dokumente ist sehr vereinfachend) Auf der Basis der Annahme der Unabhängigkeit der Terme wird die Wahrscheinlichkeit des Dokumentvektors dargestellt durch das Produkt der Wahrscheinlichkeiten der Einzelterme © Karin Haenelt, IR-Modelle: Probabilistische Modelle

25 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (8) 25 (5) Aufspaltung des Produkts nach dem Vorkommen der Terme [5] Ferber, / titi dd qq © Karin Haenelt, IR-Modelle: Probabilistische Modelle

26 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (9) 26 (6) Weitere vereinfachende Annahme [5] dritter Faktor Ferber, 1998 Es wird - nicht immer zutreffend - angenommen, dass alle Terme, die nicht in der Anfrage auftreten, mit derselben Wahrscheinlichkeit in relevanten und irrelevanten Dokumenten auftreten d.h. © Karin Haenelt, IR-Modelle: Probabilistische Modelle

27 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (10) 27 (6) Weitere vereinfachende Annahme Ferber, 1998 So ergibt sich folgende vereinfachte Formel [6] © Karin Haenelt, IR-Modelle: Probabilistische Modelle

28 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (11) 28 (7) Komplementäre Umformung der Wahrscheinlichkeit [7] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

29 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (12) 29 (8) Vereinfachung der Schreibweise [8] Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

30 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (13) 30 (9) Herausarbeitung der dokumentabhängigen Faktoren [9.1] Ferber, 1998 [9.2] [8] multipliziert mit 1 1 Geeignete Aufspaltung des Faktors © Karin Haenelt, IR-Modelle: Probabilistische Modelle

31 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (14) 31 (10) Ausblendung der nicht dokument-abhängigen Faktoren [9.2] Ferber, 1998 [10] nur die Faktoren, die für die Rangfolge der Dokumente relevant sind, werden weiter betrachtet © Karin Haenelt, IR-Modelle: Probabilistische Modelle

32 Binary Independence Retrieval Model Herleitung des Retrievalstatuswertes eines Dokuments – RSV – sim(d m,q k ) (15) 32 (11) Anwendung eines Logarithmus Ferber, 1998 [10] - zur logarithmischen Skalierung der Ergebnisse - zur Vermeidung mehrfacher Rundungsfehler auf dem Rechner Retrievalstatuswert eines Dokuments (retrieval status value) RSV = [11] © Karin Haenelt, IR-Modelle: Probabilistische Modelle

33 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1 : Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 33 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

34 Binary Independence Retrieval Model Termgewichtungsfunktion : Grundlagen (1)  Um aus Formel [11] den Retrievalstatuswert eines Dokuments berechnen zu können, werden die Parameter der Summanden r i und n i gebraucht  Term i im relevanten Dokument  Term i im nicht-relevanten Dokument  Zwei Vorgehensweisen: Parameterschätzung durch  interaktives Relevance Feedback  automatische rekursive Verfeinerung im Suchprozess 34© Karin Haenelt, IR-Modelle: Probabilistische Modelle

35 Binary Independence Retrieval Model Termgewichtungsfunktion : Grundlagen (2) 35  im Unterschied zum Booleschen Modell und zum Vektormodell werden probabilistische Termgewichte  nicht anfrage-unabhängig auf der Dokumentbasis bestimmt  sondern anfragespezifisch berechnet  nach der Relevanz der Dokumente für eine Anfrage  auf der Basis der Verteilung in relevanten und nicht- relevanten Dokumenten  jede Anfrage ist ein Anfrage-Ereignis: stellen verschiedene Leute dieselbe Anfrage, so sind verschiedene Relevanzbeurteilungen der Dokumente möglich (in der Praxis werden allerdings auch Mittelwerte über die Beurteilungen der Anfrage-Ereignisse gebildet) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

36  Basis der Parameterschätzung Es wurden bereits Dokumente ausgewählt Benutzende unterteilen Dokumente in „relevant“ und „nicht- relevant“ Binary Independence Retrieval Model Termgewichtungsfunktion Parameterschätzung durch Relevance Feedback (1) 36© Karin Haenelt, IR-Modelle: Probabilistische Modelle

37  Beobachtungsbasis  relAnzahl der als relevant beurteilten Dokumente rel i Anzahl der relevanten Dokumente mit Term t i nrelAnzahl der nicht-relevanten Dokumente nrel i Anzahl der nicht-relevanten Dokumente mit Term t i  Schätzwerte Binary Independence Retrieval Model Termgewichtungsfunktion Parameterschätzung durch Relevance Feedback (2) 37 Ferber, 1998 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

38 [11] Einsetzung der Schätzwerte in Formel [11] Binary Independence Retrieval Model Termgewichtungsfunktion Parameterschätzung durch Relevance Feedback (3) 38 Retrievalstatuswert eines Dokuments RSV = Termgewicht w ti = [12] RSV = Retrievalstatuswert eines Dokuments © Karin Haenelt, IR-Modelle: Probabilistische Modelle

39 Binary Independence Retrieval Model Beispiel: Lösungsschritt: Relevance Feedback 39 t1t2t3t4t5t6 R.Feedback d1d d2d d3d d4d d5d d6d d7d d8d rel=4rel i nrel=4nrel i Relevanz- Angaben rel i relevante Dokumente mit Term i nrel i nicht-relevante Dokumente mit Term i rel relevante Dokumente nrel nicht-relevante Dokumente Ferber, 1998:120 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

40 Binary Independence Retrieval Model Beispiel: Lösungsschritt: Gewichtungsfunktion (2) 40 t1ti R.Feedback 1…d1d1 1…d2d2 0…d3d3 0…d4d4 0…d5d5 0…d6d6 1…d7d7 0…d8d8 2…rel=4rel i 1…nrel=4nrel i 3… Einsetzen der Werte aus Relevance Feedback Formel für Termgewicht nach probabilist. Modell Term- Gewicht Berechnung des Termgewichts für Term t1 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

41 Binary Independence Retrieval Model Beispiel: Lösungsschritt: Klassifikation 41 t1t2t3t4t5t6 Retrievalstatuswert log(3)+log(1)+log(3)=0.95 d log(1)+log(9)=0.95 d  log(3)+log(9)=2.86 d log(3)+log(3)=0.95 d Term- Gewicht Ferber, 1998:121 Neue s und ihr Retrievalstatuswert Berechnete Termgewichte © Karin Haenelt, IR-Modelle: Probabilistische Modelle

42 Prinzip Binary Independence Retrieval Model Termgewichtungsfunktion rekursive Parameterschätzung im Suchprozess  Anfangsschätzung  Rekursion  Ranking auf der Basis der Schätzung der Termgewichte  Verwendung eines Schwellenwertes  Annahme der Relevanz für alle Dokumente deren RSV über dem Schwellenwert liegt  Ermittlung der Termverteilungen in den Dokumenten und Erzeugung neuer Termgewichte 42 N Gesamtzahl der Dokumente im System t i Indexterm n i Anzahl der Dokumente, in denen Term t i vorkommt Baeza-Yates/Ribeiro-Neto, 1999,33 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

43 Formeln für die rekursive Verfeinerung Binary Independence Retrieval Model Termgewichtungsfunktion rekursive Parameterschätzung im Suchprozess  Annahme (a) P(t i |R,q)kann an Hand der Verteilung der Index-Terme t i in den bisher ausgewählten Dokumenten approximiert werden  Annahme (b) P(ti|-R,q) kann unter der Annahme approximiert werden, dass alle nicht ausgewählten Dokumente nicht relevant sind 43 Baeza-Yates/Ribeiro-Neto, 1999,33 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

44 Binary Independence Retrieval Model Termgewichtungsfunktion rekursive Parameterschätzung im Suchprozess  Die Formeln bereiten Probleme bei kleinen Werten von rel und rel i (z.B. rel = 1 und rel i = 0)  Korrekturwerte 44 Parameterkorrektur © Karin Haenelt, IR-Modelle: Probabilistische Modelle

45 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1 : Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 45 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

46 Okapi Bedeutung  probabilistisches Retrievalsystem  probabilistische Termgewichtungsfunktionen  für binäre Dokumentvektoren  BM1 (Best Match)  theoretische Fundierung: Robertson/Sparck Jones, 1976  Erweiterung: Parameter für Dokumentlänge und Termfrequenz in Anfrage und Dokument  BM11, BM15, BM25 (auch kollektiv als Familie von Gewichtungsfunktionen Okapi BM25 genannt)  theoretische Fundierung: Robertson/Walker, 1994  BM25F Robertson/Zaragoza/Taylor, © Karin Haenelt, IR-Modelle: Probabilistische Modelle

47 Okapi Historie  Okapi  : ursprünglich eine Familie bibliographischer Retrievalsysteme, entwickelt unter Förderung der British Library an der Polytechnic of Central London (heute: University of Westminster)  : City University, London  1998 ff: weitergeführt von Microsoft Research Laboratory in Cambridge und eingebunden in die Keenbow- Evaluierungsumgebung für Retrievalsysteme (Robertson, Walker, 2000)  neue Experimente mit neuen Systemen (z.B. Indizes mit paralleler Architektur) und mehreren Gewichtungsfunktionen (z.B. BM25, BM25F; PageRank) (Craswell, Fetterly, Najork, Robertson, Yilmaz, 2009) 47© Karin Haenelt, IR-Modelle: Probabilistische Modelle

48 Okapi Suchtechniken  Gewichtung von Suchtermen  Match-Funktion: Übereinstimmungswert eines Dokuments ist die Summe der Gewichtung der zwischen der Suchanfrage und Dokument übereinstimmenden Terme  Relevance Feedback  Query Expansion 48 Robertson, Walker, Hancock-Beaulieu, Gull, Lau, 1992 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

49 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1 : Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 49 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

50 Okapi-Gewichtungsfunktionen Notation 50© Karin Haenelt, IR-Modelle: Probabilistische Modelle

51  Formel von Robertson / Sparck Jones (1976) Okapi-Gewichtungsfunktionen Basis: Robertson/Sparck Jones-Formel 51 RSJ Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

52  Formel der Experimente für TREC-1 ist die Robertson-Sparck Jones-Formel (RSJ) ohne Relevanzangaben, d.h. (R = r = 0)  in dieser Form entspricht die Formel der inversen Kollektionsgewichtung (idf) Okapi-Gewichtungsfunktionen BM1 / IDF 52 BM1 Robertson, S. Walker, S. Jones, M.M. Hancock-Beaulieu, M. Gatford (1994) entspricht der Annahme P(t|relevant)=0.5 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

53 Okapi-Gewichtungsfunktionen BM25 Motivation  Binary Independence Model ursprünglich für Katalogeinträge und abstracts gleicher Länge entwickelt  Modell für freie Volltext-Kollektionen sollte berücksichtigen  Termfrequenz  Dokumentlänge  Anfrage-Länge (Anfrage kann ein Beispieldokument sein)  BM 25 Okapi-Gewichtung  theoretische Fundierung entwickelt von Stephen E. Robertson und S. Walker (1994)  benannt nach dem System Okapi, in dem es erstmals verwendet wurde 53© Karin Haenelt, IR-Modelle: Probabilistische Modelle

54 Okapi-Gewichtungsfunktionen BM25 54 Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998) - Grundform - allgemeinere Formen z.B. ohne qtf) - speziellere Varianten (z.B. BM11, BM15) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

55 Okapi-Gewichtungsfunktionen BM25 55 Robertson/Walker (2000), Sparck Jones/RoberstonWalker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

56 Okapi-Gewichtungsfunktionen BM25 56 Robertson/Walker (2000), Sparck Jones/Roberston/Walker (1998) einfache Gewichtungs- Funktion (RSJ oder IDF) Dokumentterm- frequenz- Faktor Dokumentlängen-Normierungs-Faktor Anfrageterm- frequenz- Faktor © Karin Haenelt, IR-Modelle: Probabilistische Modelle

57 Okapi-Gewichtungsfunktionen BM25 Termfrequenzfaktor  Robertson/Walker (1994) entwickeln eine komplexe Formel, die auf Überlegungen zu folgenden Eigenschaften beruht  Verteilung 1: für jedes Thema gilt: es gibt Dokumente, die das Thema behandeln, und solche, die es nicht behandeln  Verteilung 2: für jeden Term gilt: er kann in einem Dokument mit dem Thema, das mit dem Term assoziiert wird, vorkommen oder nicht  Verteilung 1 und Verteilung 2 sind beides Poisson- Verteilungen  Eliteness eines Terms: Term steht in Zusammenhang mit dem mit dem Term assoziierten Thema ( oder ) 57 Sparck Jones/Roberston/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

58 Okapi-Gewichtungsfunktionen BM25 Termfrequenzfaktor  Die Formel ist komplex  algebraisch und  bezüglich Interpretation und Abschätzung  Robertson/Walker (1994) untersuchen das Verhalten der Formel und schlagen eine einfachere Formel mit einem ähnlichen Verhalten vor 58 Sparck Jones/Roberston/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

59 Okapi-Gewichtungsfunktionen BM25 Termfrequenzfaktor  Eigenschaften  ist 0 bei Termfrequenz = 0  wächst monoton mit tf i  hat eine asymptotische Grenze (d.h. zusätzliche Vorkommen von t erhöhen das Gewicht, aber es gibt ein Limit des Erhöhungswertes)  k 1 : Modellierungsparameter zur Anpassung an Corpora  bestimmt, wie sehr das Gewicht w tfi auf eine Erhöhung von tf i reagiert  mit k=0 ist w tfi identisch mit w i (einfache Termpräsenz)  TREC-Erfahrung: Werte zwischen 1.2 und 2 sind effektiv 59 Sparck Jones/Roberston/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

60 Okapi-Gewichtungsfunktionen BM25 Dokumentlängennormierungsfaktor  Annahme:  Wortreichtum entsteht eher durch erweiterte Ausführungen als durch Wiederholungen von Aussagen  sollte also nicht einfach wegdividiert werden  einfache Version berücksichtigt Annahme nicht  erweiterte Version  mit b = 1 ergibt sich einfache Version  Werte b < 1 reduzieren den Dokumentlängennormierungsfaktor  TREC-Erfahrungen: ein Wert b = 0.75 ist gut 60 Sparck Jones/Robertson/Walker (1998) © Karin Haenelt, IR-Modelle: Probabilistische Modelle ; korr

61 Okapi-Gewichtungsfunktionen BM25 61 BM25F berücksichtigt zusätzlich die Stelle des Vorkommens (Feld) (Titel, 1. Satz, …) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

62 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1 : Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 62 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

63 Synopse: Vektormodell und probabilistisches Modell 63© Karin Haenelt, IR-Modelle: Probabilistische Modelle ; korr

64 Synopse Vektormodell und probabilistisches Modell  probabilistische Termgewichtungsschemata können auch im Vektormodell verwendet werden  Verknüpfung der Vektoren   im Vektormodell: verschiedene Möglichkeiten der Vektorähnlichkeit  im probabilistischen Modell: festgelegt durch die Theorie (Wahrscheinlichkeit mehrerer Ereignisse – hier: Termvorkommen)  nicht-logarithmische Form: Skalarprodukt  logarithmische Form: Summe  probabilistische Gewichtung und Verknüpfung der Query- und Dokument-Vektoren durch Skalarprodukt ergibt im Wesentlichen den Retrieval-Status-Wert des probabilistischen Modells 64© Karin Haenelt, IR-Modelle: Probabilistische Modelle

65 Synopse Vektormodell und probabilistisches Modell  Vorteil des probabilistischen Modells gegenüber dem Vektormodell:  Bestimmung der Rangfolge von Dokumenten ohne den Umweg über ad-hoc-Termgewichtungen  Ziele der Einführung von Termgewichtungen  Einsparung eines relevance-feedback-Verfahrens 65© Karin Haenelt, IR-Modelle: Probabilistische Modelle

66 Probabilistisches Modell Anwendungsbeispiele  Browsing 1.Relevance Feedback: für Beispiel-Dokumente für ein Themengebiet 2.Erlernen der Term-Gewichtungen für das Relevanz- anzeigende Vokabular des Themengebietes 3.Klassifikation: Suche ähnlicher Dokumente  multilinguales Retrieval 1.Relevance Feedback: für Dokumente in mehreren Sprachen 2.Erlernen der Term-Gewichtungen erfolgt ohne besondere Verfahren multilingual 3.Klassifikation: erfolgt sprachübergreifend 66© Karin Haenelt, IR-Modelle: Probabilistische Modelle

67 Vergleich der klassischen Information Retrieval Modelle  Boolesches Modell  Schwächste Methode  Keine partiellen Übereinstimmungen  Vektormodell  offenbar beste Ergebnisse für allgemeine Dokumentsammlungen  Wachsende Popularität in Internetsuchmaschinen  Probabilistisches Modell  Gute Ergebnisse für spezifische Dokumentsammlungen  mit Relevanz-Feedback:  Bestimmung einer Rangfolge von Dokumenten ohne Umweg über ad-hoc Termgewichtungen  Trainingscorpus und Relevanz-Meldungen erforderlich 67 vgl. (Baeza-Yates/Ribeiro-Neto, 1999,34) © Karin Haenelt, IR-Modelle: Probabilistische Modelle

68 Inhalt  Probabilistische Retrievalmodelle  Binary Independence Retrieval Model (BIR)  Beispiel  Theorie und Definitionen  Retrievalstatuswert eines Dokuments (RSV)  Termgewichtungsfunktion  Okapi  probabilistisches Retrievalsystem  Termgewichtungsfunktionen BM1, BM11, BM15, BM25  Synopse: Vektormodell und probabilistisches Modell  Anhang 1 : Originalartikel Robertson/Sparck Jones, 1976, Notationsvergleich 68 I I © Karin Haenelt, IR-Modelle: Probabilistische Modelle

69 Anhang 1 Binary Independence Model Ergänzende Betrachtungen aus dem Originalartikel  Stephen E. Robertson und Karen Spärck Jones (1976). Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S  Ergänzungen unter den Aspekten  informelle Darstellung  formale Ableitung  Formel RSJ F4 (= BM1) als Grundlage eines besseren Verständnisses verschiedener Darstellungen und Weiterentwicklungen 69© Karin Haenelt, IR-Modelle: Probabilistische Modelle

70  informelle Darstellung im Originalartikel von Robertson/Sparck Jones 1976  eine Kontingenztabelle zeigt die vier Möglichkeiten der Termverteilung in relevanten und nicht-relevanten Dokumenten  aus dieser Tabelle leiten sich vier Varianten für Termgewichtungsformeln ab  Überlegungen zu Termunabhägigkeiten und Dokumentordnungsprinzipien führen zur Entscheidung für die vierte Variante (RSJ F4) Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung 70© Karin Haenelt, IR-Modelle: Probabilistische Modelle

71 Kontingenztabelle der Dokumentverteilung für t Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung 71 rel rel+nrel nrel rel i nrel i rel-rel i nrel-nrel i rel i +nrel i rel-rel i + nrel-nrel i R N N-R rn-r R-rN-n-R+r n N-n Notation Robertson/Sparck Jones Notation Ferber N Anzahl Dokumente n Anzahl Dokumente mit Term t R Anzahl relevanter Dokumente r Anzahl relevanter Dokumente mit Term t © Karin Haenelt, IR-Modelle: Probabilistische Modelle

72 Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung 72 Kontingenztabelle und abgeleitete Termgewichtungsformeln Robertson/Sparck Jones, 1976 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

73 Anhang 1 Binary Independence Model Ergänzende Betrachtungen: informelle Darstellung 73 Überlegungen zu Termunabhängigkeiten Robertson/Sparck Jones, 1976 favorisierte Variante RSJ F4 © Karin Haenelt, IR-Modelle: Probabilistische Modelle

74  formale Ableitung im Originalartikel von Robertson/Sparck Jones 1976  die Ableitung für Formel RSJ F4 nach der Wahrscheinlichkeitstheorie wurde in der mit Beispielen und Zwischenschritten aufbereiteten Darstellung von Ferber auf den vorderen Folien gezeigt Anhang 1 Binary Independence Model Ergänzende Betrachtungen: formale Ableitung 74© Karin Haenelt, IR-Modelle: Probabilistische Modelle

75  Formel RSJ F4  Robertson/Sparck Jones (1976) führen in die Formel Korrekturwerte ein  um Schätzwerte für neue Dokumente etwas zu modulieren  um Nullwerte in den Brüchen zu vermeiden  bis auf die Korrekturwerte sind die Formel RSJ F4 und Ferbers Formel äquivalent Anhang 1 Binary Independence Model Ergänzende Betrachtungen: Formel 75© Karin Haenelt, IR-Modelle: Probabilistische Modelle

76 Anhang 1 Binary Independence Model Ergänzende Betrachtungen: Formel 76 RSJ F4 1976RSJ F4 ohne Korrekturwerte Ferber, 1993 Beispiel © Karin Haenelt, IR-Modelle: Probabilistische Modelle

77 Literatur  Ricardo Baeza-Yates und Berthier Ribeiro-Neto (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited  Nick Craswell, Dennis Fetterly, Marc Najork, Stephen Robertson, Emine Yilmaz (2009). Microsoft Research at TREC Web and Relevance Feedback Tracks. In Proceedings of the 18 th Text REtrival Conference (TREC-18).  Reginald Ferber (2003). Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. retrieval.de/irb/ir.html frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99http://information- retrieval.de/irb/ir.html  Norbert Fuhr (2003). Information Retrieval. Skriptum zur Vorlesung im SS April  Norbert Fuhr und Chris Buckley (1991). A Probabilistic Learning Approach for Document Indexing. In: ACM Transactions on Information Systems, 9, 3, 1991, S  M.E. Maron, J.L. Kuhns (1960). On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 7, © Karin Haenelt, IR-Modelle: Probabilistische Modelle

78 Literatur  Stephen E. Robertson und Karen Spärck Jones (1976). Relevance weighting of search terms. In: Journal of the American Society for Information Science 27, May June 1976, S  Stephen E. Robertson und Stephen Walker (2000). Okapi/Keenbow at TREC-8. In Proceedings of the 8 th Text REtrival Conference (TREC-8), Gaithersburg, Maryland, USA: NIST Special Publication, pp. 151–161.  Stephen E. Robertson, Stephen Walker (1994). Some simple effective approximations to the 2-Poisoon model for probabilistic weighted retrieval. In: Croft, W. B. und van Rijsbergen C.J. (eds.): Proceedings of the 17 th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, Dublin Springer-Verlag. S  Stephen E. Robertson, Stephen Walker, S. Jones, Micheline Hancock-Beaulieu, M. Gatford (1994). Okapi at TREC-3. In: Proceedings of the Third Text Retrieval Conference (TREC-3), S. 103ff, 78© Karin Haenelt, IR-Modelle: Probabilistische Modelle

79 Literatur  Stephen E. Robertson, Stephen Walker, Micheline Hancock-Beaulieu, Aarron Gull, Marianna Lau (1992). Okapi at TREC. In: Proceedings of the First Text Retrieval Conference (TREC-1), S. 21 ff,  Stephen E. Robertson, Hugo Zaragoza (2009). The Probabilistic Relevance Framework BM 25 and Beyound. In: Foundations and Trends in Information Retrieval. Vol 3, No 4,  Stephen E. Robertson, Hugo Zaragoza, Michael Taylor (2004). Simple bm25 extension to multiple weighted fields. In Thirteenth Conference on Information and Knowledge Management (CIKM),  Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (2000). A probabilistic model of information retrieval: Development and comparative experiments. IP&M 36 (6): ,  Karen Spärck Jones, Stephen Walker, Stephen E. Robertson (1998). A probabilistic model of information retrieval: Development and Status. TR 446, Computer Laboratory, University of Cambridge (via  C.T. Yu und G. Salton (1976). Precision Weighting. An effective automatic indexing method. Journal of the ACM, 23: 76-88, Juni © Karin Haenelt, IR-Modelle: Probabilistische Modelle

80 Copyright  © Karin Haenelt,  All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63, etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non- commercial purposes, if the bibliographic data is included as described below.  Please quote correctly.  If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.).  please add a bibliographic reference to copies and quotations  Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are copied  Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Probabilisitische Modell. Kursfolien ( )  graphics, texts or other objects which have not been created by me are marked as quotations  For commercial use: In case you are interested in commercial use please contact the author.  Court of Jurisdiction is Darmstadt, Germany  Versionen 2.1: , 2.0: , 1.2: , 1.1: , 1.0: © Karin Haenelt, IR-Modelle: Probabilistische Modelle


Herunterladen ppt "Information Retrieval Modelle: Probabilistische Modelle Kursfolien Karin Haenelt 6.11.2010 mit Korrekturen vom 1.11.2014."

Ähnliche Präsentationen


Google-Anzeigen