Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Ähnliche Präsentationen


Präsentation zum Thema: "Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem."—  Präsentation transkript:

1 Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: –Das Wort x hat im Dokument y ein Gewicht von xx

2 So könnte der Index aussehen Wort.IdDok.Idtf x idf Filesharing1212 0.97 0.76 Internet1212 0.44 0.26 Musikindustrie1212 0.65 0.86 Filesharing + Musikindustrie + Internet Welches Dokument ist das relevanteste für die nebenstehende Suchanfrage? Invertierte Liste Mittelwert berechnen 0,97+0,65+0,44/3 = 0,69 für Dok 1 0,76+0,86+0,26/3 = 0,63 für Dok 2

3 Relevanz Ranking Es ist aber auch möglich, dass das Ranking on the fly während des Rechercheprozesses durchgeführt wird

4 Ein Beispiel Frage Gesucht sind Dokumente zum Thema Musikindustrie und Filesharing im Internet" in einer großen medienwissenschaftlichen Datenbank mit 1.000.000 Datensätzen. Die Datenbank enthält 40.000 Datensätze mit dem Wort Musikindustrie' 30.000 Datensätze mit dem Wort Filesharing' 50 Datensätze mit dem Wort Internet' 10 Datensätze mit Wort Strafe' Was meinen Sie spontan? Sollen beim best match alle Datensätze mit Musikindustrie und Filesharing angezeigt werden?

5 Lösung: Schritt 1: vereinfachte Berechnung der Gewichtung der Suchtermini nach der Formel: G = ln(N/n) Gewicht = natürlicher Logarithmus (Anzahl Datensätze Datenbank/Anzahl Treffer Suchbegriff) Musikindustrie: ln(1.000.000 / 40.000) = ln 25 = 3,2 Filesharing: ln(1.000.000 / 30.000) = ln 33,3 = 3,5 Internet: ln(1.000.000 / 50) = ln 20.000 = 9,9 Strafe: ln( 1.000.000 / 10) = ln 100.000 = 11,51

6 Lösung: Schritt 2: Festlegung von maximal möglicher Gewichtung (MMG) und und minimal akzeptabler Gewichtung (MAG) MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm enthalten sind. MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten, um überhaupt für die Recherche als relevant angezeigt zu werden. Formeln für die Gewichtung der Datensätze Für Suchfomulierungen mit nur 1 Suchterminus: MAG = MMG Für Suchfomulierungen mit genau 2 Suchtermini: a) 2 häufig vorkommende Termini (z.B. Musikindustrie und Filesharing): MAG = Summe der Gewichte beider Suchtermini) b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. Musikindustrie im Internet'): MAG = Gewicht des seltenen Suchterminus) c) 2 selten vorkommende Suchtermini (z.B. Internet und Strafe'): MAG = Gewicht von einem der beiden Suchtermini Für Suchformulierungen mit mehr als 2 Suchtermini MAG = MMG / 2 Bezogen auf das Beispiel oben: Musikindustrie und Filesharing im Internet ": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini. MMG = 3,2 + 3,5 + 9,9 = 16,6 Berechnung der MAG = MMG / 2 (16,6 / 2 = 8,3)

7 Lösung: Schritt 3: Ermittlung, welche Kombination den Schwellenwert erreichen MAG = MMG / 2 (16,6 / 2 = 8,3) Ranking-Reihenfolge 1) Zuerst Dokumente, die alle Suchtermini enthalten (MMG = 16,6) 2) dann alle Datensätze mit Internet + Filesharing' (9,9 + 3,5 = 13,4) 3) dann Datensätze mit Internet + Musikindustrie' (9,9 + 3,2 = 13,1) 4) dann alle Datensätze mit Internet' (Gewichtung = 9,9). Musikindustrie: = 3,2 Filesharing:= 3,5 Internet: = 9,9 Nicht angezeigt: Musikindustrie und Filesharing (3,2 + 3,5 = 6,7); Musikindustrie =3,2; Filensharing =3,5

8 Relevanz Feedback Ziele: Automatische Erweiterung des Query (der Suchanfrage) um geeignete Suchterme Annahme: geeignete Suchterme kommen in relevanten Treffern häufig vor und in nicht relevanten Treffern selten

9 Relevanz Feedback Dumme Frage Suche: Ozonloch + Erderwärmung 20 Treffer, davon 8 relevant (also 12 nicht relevant) Häufigstes Wort in relevanten Dokumenten: 6 x Treibhaus 3 x Gewächshaus Häufigstes Wort in nicht relevanten Dokumenten: 2 x Treibhaus 8 x Gewächshaus Würden Sie eine Erweiterung der Suchanfrage durch Gewächshaus empfehlen?

10 Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante. Davon 6 mit Treibhaus, 2 ohne Treibhaus 6/2 = 3 = Wahrscheinlichkeit, dass Treibhaus in relevanten Dokumenten vorkommt, ist also 3 12 nicht relevante Davon 2 mit Treibhaus, 10 ohne Treibhaus 2/10 = 0,2 = Wahrscheinlichkeit, dass Treibhaus in nicht relevanten Dokumenten vorkommt ist 0,2 Wahrscheinlichkeit von relevanten zu nicht relevanten wird in Beziehung gesetzt =3,0 / 0,2 15 Gewicht für Treibhaus

11 Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante Davon 3 mit Gewächshaus, 5 ohne Gewächshaus Rechnung 3/5 = Wahrscheinlichkeit von Gewächshaus für relevante Dokumente ist also 0,6 12 nicht relevante Davon 8 mit Gewächshaus, 4 ohne Gewächshaus Rechnung 8/4 = Wahrscheinlichkeit von Gewächshaus für nicht relevante Dokumente ist also 2 Wahrscheinlichkeit von Vorkommen in relevanten und nicht relevanten Dokumenten wird in Beziehung gesetzt =0,6 / 2 0,3 Gewicht für Gewächshaus bei der Suchverfeinerung. Eine Verfeinerung der Suchanfrage mit Gewächshaus ist wohl eher nicht zu empfehlen.


Herunterladen ppt "Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem."

Ähnliche Präsentationen


Google-Anzeigen