Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Mit dem Zufall rechnen – Aufgabe 1
Ein einführendes Tutorial
36 3. Grundaufgabe: Berechnung des Prozentsatzes p%
Webseitenranking für Suchanfragen anhand von Linkgraphen
Wilhelm-Raabe-Schule Fachbereich: Mathematik Thema: Lineare Funktionen
Berechnung des Mittelwertes bei Klassen
Fachreferat in Mathematik
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Seminar Textmining WS 06/07
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Suche in CINAHL Lernprogramm support.ebsco.com.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Information Retrieval Modelle: Vektor-Modell
Wahl des Themas Präzisieren der Formale Eingrenzung Fragestellung
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Internet facts 2006-II Graphiken zu dem Berichtsband AGOF e.V. November 2006.
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Effiziente Suche in Bilddatenbanken
Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Wie funktionieren Suchmaschinen?
Qualitätskriterien zur Beurteilung von Dokumentationen
Relevanz Ranking Bisher:
Vereinfachtes Beispiel: Zuordnung von Dokumenten zu einer Klasse
Qualität einer Dokumentation Relevanz- und Vollständigkeitsrate
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
? : 2. Grundaufgabe: Berechnung des Grundwertes G
Kakuro Regeln und Strategien
Daten auswerten Boxplots
Komponenten eines Information Retrieval Systems
Wahrscheinlichkeits-rechnung
Tipps für die Einfache Suche. Setzt du deine zusammengehörigen Suchbegriffe in Anführungszeichen, erhältst du dann nur jene Ergebnisse die genau die eingegebene.
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Computational Thinking Suchen und Sortieren [Ordnung muss sein…]
Dokumentation der Umfrage
Wir üben die Malsätzchen
Aufgabenzettel V Statistik I
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Gleichungen und Gleichungssysteme
Postgres Tsearch2 und Indexe. Basics Dokumente = alle Textattribute, Kombinationen von Textattributen über mehrere Tabellen Native Textsearch Operatoren:
Idee: Analyse der österreichischen Sozialversicherung ein aus volkswirtschaftlicher Sicht interessantes Gebiet weil so gut wie jeder davon betroffen ist.
Wahrscheinlichkeitsrechnung
Wahrscheinlichkeitsrechnung
Potenzen und Wurzeln Zusammenfassung
DAS ARITHMETISCHE MITTEL
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Datenbank des Deutschen Patent- und Markenamtes
Informationen zur Stimmenvergabe
Jahrgang 9 G- Kurs Quadratwurzel
Großer Altersunterschied bei Paaren fällt nicht auf!
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Information Retrieval, Vektorraummodell
Live Search Die Suchmaschine von Microsoft. Was ist Live Search? Live Search gehört zur Microsoft Windows Live Familie (Windows Live Messenger, Windows.
3. Nicoïnisches Badmintonturnier. Allgemeines I: Gespielt wird nach den allgemeinen Badmintonregeln Gespielt wird nach den allgemeinen Badmintonregeln.
Semantische Netze im Recht
Binärbäume.
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Statistik II Statistik II Maße der zentralen Tendenz (Mittelwerte)
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
Anwendung der PDV 2007 Relevanz-Algorithmen für Suchmaschinen Fachhochschule Wiesbaden Studiengang Allgemeine Informatik Mohamed Berrada Mohammed Harkik.
Googelnde Wikipedianer
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: –Das Wort x hat im Dokument y ein Gewicht von xx

So könnte der Index aussehen Wort.IdDok.Idtf x idf Filesharing Internet Musikindustrie Filesharing + Musikindustrie + Internet Welches Dokument ist das relevanteste für die nebenstehende Suchanfrage? Invertierte Liste Mittelwert berechnen 0,97+0,65+0,44/3 = 0,69 für Dok 1 0,76+0,86+0,26/3 = 0,63 für Dok 2

Relevanz Ranking Es ist aber auch möglich, dass das Ranking on the fly während des Rechercheprozesses durchgeführt wird

Ein Beispiel Frage Gesucht sind Dokumente zum Thema Musikindustrie und Filesharing im Internet" in einer großen medienwissenschaftlichen Datenbank mit Datensätzen. Die Datenbank enthält Datensätze mit dem Wort Musikindustrie' Datensätze mit dem Wort Filesharing' 50 Datensätze mit dem Wort Internet' 10 Datensätze mit Wort Strafe' Was meinen Sie spontan? Sollen beim best match alle Datensätze mit Musikindustrie und Filesharing angezeigt werden?

Lösung: Schritt 1: vereinfachte Berechnung der Gewichtung der Suchtermini nach der Formel: G = ln(N/n) Gewicht = natürlicher Logarithmus (Anzahl Datensätze Datenbank/Anzahl Treffer Suchbegriff) Musikindustrie: ln( / ) = ln 25 = 3,2 Filesharing: ln( / ) = ln 33,3 = 3,5 Internet: ln( / 50) = ln = 9,9 Strafe: ln( / 10) = ln = 11,51

Lösung: Schritt 2: Festlegung von maximal möglicher Gewichtung (MMG) und und minimal akzeptabler Gewichtung (MAG) MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm enthalten sind. MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten, um überhaupt für die Recherche als relevant angezeigt zu werden. Formeln für die Gewichtung der Datensätze Für Suchfomulierungen mit nur 1 Suchterminus: MAG = MMG Für Suchfomulierungen mit genau 2 Suchtermini: a) 2 häufig vorkommende Termini (z.B. Musikindustrie und Filesharing): MAG = Summe der Gewichte beider Suchtermini) b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. Musikindustrie im Internet'): MAG = Gewicht des seltenen Suchterminus) c) 2 selten vorkommende Suchtermini (z.B. Internet und Strafe'): MAG = Gewicht von einem der beiden Suchtermini Für Suchformulierungen mit mehr als 2 Suchtermini MAG = MMG / 2 Bezogen auf das Beispiel oben: Musikindustrie und Filesharing im Internet ": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini. MMG = 3,2 + 3,5 + 9,9 = 16,6 Berechnung der MAG = MMG / 2 (16,6 / 2 = 8,3)

Lösung: Schritt 3: Ermittlung, welche Kombination den Schwellenwert erreichen MAG = MMG / 2 (16,6 / 2 = 8,3) Ranking-Reihenfolge 1) Zuerst Dokumente, die alle Suchtermini enthalten (MMG = 16,6) 2) dann alle Datensätze mit Internet + Filesharing' (9,9 + 3,5 = 13,4) 3) dann Datensätze mit Internet + Musikindustrie' (9,9 + 3,2 = 13,1) 4) dann alle Datensätze mit Internet' (Gewichtung = 9,9). Musikindustrie: = 3,2 Filesharing:= 3,5 Internet: = 9,9 Nicht angezeigt: Musikindustrie und Filesharing (3,2 + 3,5 = 6,7); Musikindustrie =3,2; Filensharing =3,5

Relevanz Feedback Ziele: Automatische Erweiterung des Query (der Suchanfrage) um geeignete Suchterme Annahme: geeignete Suchterme kommen in relevanten Treffern häufig vor und in nicht relevanten Treffern selten

Relevanz Feedback Dumme Frage Suche: Ozonloch + Erderwärmung 20 Treffer, davon 8 relevant (also 12 nicht relevant) Häufigstes Wort in relevanten Dokumenten: 6 x Treibhaus 3 x Gewächshaus Häufigstes Wort in nicht relevanten Dokumenten: 2 x Treibhaus 8 x Gewächshaus Würden Sie eine Erweiterung der Suchanfrage durch Gewächshaus empfehlen?

Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante. Davon 6 mit Treibhaus, 2 ohne Treibhaus 6/2 = 3 = Wahrscheinlichkeit, dass Treibhaus in relevanten Dokumenten vorkommt, ist also 3 12 nicht relevante Davon 2 mit Treibhaus, 10 ohne Treibhaus 2/10 = 0,2 = Wahrscheinlichkeit, dass Treibhaus in nicht relevanten Dokumenten vorkommt ist 0,2 Wahrscheinlichkeit von relevanten zu nicht relevanten wird in Beziehung gesetzt =3,0 / 0,2 15 Gewicht für Treibhaus

Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante Davon 3 mit Gewächshaus, 5 ohne Gewächshaus Rechnung 3/5 = Wahrscheinlichkeit von Gewächshaus für relevante Dokumente ist also 0,6 12 nicht relevante Davon 8 mit Gewächshaus, 4 ohne Gewächshaus Rechnung 8/4 = Wahrscheinlichkeit von Gewächshaus für nicht relevante Dokumente ist also 2 Wahrscheinlichkeit von Vorkommen in relevanten und nicht relevanten Dokumenten wird in Beziehung gesetzt =0,6 / 2 0,3 Gewicht für Gewächshaus bei der Suchverfeinerung. Eine Verfeinerung der Suchanfrage mit Gewächshaus ist wohl eher nicht zu empfehlen.