Relevanz Ranking Bisher:

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Ein einführendes Tutorial
36 3. Grundaufgabe: Berechnung des Prozentsatzes p%
Webseitenranking für Suchanfragen anhand von Linkgraphen
Wilhelm-Raabe-Schule Fachbereich: Mathematik Thema: Lineare Funktionen
Merkblatt zur Berechnung der Gesamtqualifikation gemäß APO-GOSt B(C) gültig ab Schuljahr 2010/11 für die G8-Jahrgänge in der gymnasialen Oberstufe.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Berechnung des Mittelwertes bei Klassen
Recherche im Informationssystem Medienpädagogik Ein einführendes Tutorial.
Fachreferat in Mathematik
Seminar Textmining WS 06/07 Aufgaben II 1.Dokumente im VSM 2.Ranking 3.Term-Term-Korrelation 4.Relevance Feedback 5.Termgewichtung.
3. Kapitel: Komplexität und Komplexitätsklassen
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
Suche in CINAHL Lernprogramm support.ebsco.com.
FH-Hof Effizienz - Grundlagen Richard Göbel. FH-Hof Inhalt Einführung Aufwand für Anfragen ohne Indexierung Indexstrukturen für Anfragen an eine Tabelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/5 Grundtechniken des Information Retrieval Deskribierung Hierunter versteht man eine manuelle.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Datenbankentwurf mit Hilfe des ER-Modells entwickeln
Information Retrieval Modelle: Vektor-Modell
Wahl des Themas Präzisieren der Formale Eingrenzung Fragestellung
Support.ebsco.com Lernprogramm zur einfachen Suche in wissenschaftlichen Bibliotheken.
Effiziente Suche in Bilddatenbanken
Semantisch gestützte Suche im Internet
Spree SoSe 2011 Einführung: Statistische Verfahren der automatischen Indexierung.
Spree/Worg2/LE 10 Automatische Klassifikation = Zuordnung von Dokumenten zu bereits vorher festgelegten Klassen Zielsetzung: Dem Nutzer Informationen.
Wie funktionieren Suchmaschinen?
Qualitätskriterien zur Beurteilung von Dokumentationen
IndexierungsqualitätEinstieg
Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem.
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Recherche im Ein einführendes Tutorial Informationssystem Medienpädagogik
Intelligentes Crawling im WWW mit Hilfe intuitiver Suchbedingungen
? : 2. Grundaufgabe: Berechnung des Grundwertes G
Kakuro Regeln und Strategien
Ich habe mein Facharbeitsthema – was mache ich jetzt?
Die „Erweiterte Suche“
Daten auswerten Boxplots
Komponenten eines Information Retrieval Systems
Exponential- u. Logarithmusfunktionen
Tipps für die Einfache Suche. Setzt du deine zusammengehörigen Suchbegriffe in Anführungszeichen, erhältst du dann nur jene Ergebnisse die genau die eingegebene.
Manfred Wahl Gewinnen mit Risiko Mgmt Heidelberger Investoren Runde 11. April 2007 Idee: van Tharp Institute, Technischer Analyse Kongress 2006, Frankfurt.
Suchen im Internet - Systematisch !!!
Theologische Hochschule Friedensau BS5P1-3: Literaturstudium und Recherche Baustein 7 Recherche im Internet 1 Dozent: Dietmar Päschel, Dipl.-Theol. Wintersemester.
Computational Thinking Suchen und Sortieren [Ordnung muss sein…]
Fragebogenentwicklung am Beispiel Zufriedenheitsmessung
Aufgabenzettel V Statistik I
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Gleichungen und Gleichungssysteme
Erwin Euro will sein Taschengeld in kleines Hartgeld umtauschen und in einem Sparstrumpf zu Hause deponieren. Dazu bringt er sein erspartes Taschengeld.
Postgres Tsearch2 und Indexe. Basics Dokumente = alle Textattribute, Kombinationen von Textattributen über mehrere Tabellen Native Textsearch Operatoren:
Idee: Analyse der österreichischen Sozialversicherung ein aus volkswirtschaftlicher Sicht interessantes Gebiet weil so gut wie jeder davon betroffen ist.
Wahrscheinlichkeitsrechnung
Potenzen und Wurzeln Zusammenfassung
Datenbank des Deutschen Patent- und Markenamtes
36 3. Grundaufgabe: Berechnung des Prozentsatzes p
Jahrgang 9 G- Kurs Quadratwurzel
Information Retrieval, Vektorraummodell
E.care ED AssessmentTool
Live Search Die Suchmaschine von Microsoft. Was ist Live Search? Live Search gehört zur Microsoft Windows Live Familie (Windows Live Messenger, Windows.
Semantische Netze im Recht
VERRÜCKT ! Dies ist eine kleine Mathe Übung die Dich mehr als einmal staunen lassen wird !!!
Binärbäume.
Recherche-Workshop der Stadtbücherei Metzingen Schritte zur erfolgreichen Recherche.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Lineare Optimierung Nakkiye Günay, Jennifer Kalywas & Corina Unger Jetzt erkläre ich euch die einzelnen Schritte und gebe Tipps!
Die Recherche in Datenbanken am Beispiel der Saarländischen Bibliographie.
Wikipedia Googelnde Wikipedianer Wann wurde Wikipedia gegründet?
Suchen und Finden Wie verwende ich Suchmaschinen richtig?
Einführung: Statistische Verfahren der automatischen Indexierung
 Präsentation transkript:

Relevanz Ranking Bisher: Sind wir davon ausgegangen, dass das Ergebnis des Rankings des statistischen Verfahrens in den Index geschrieben wird und dem Dokument zugeordnet wird: Das Wort x hat im Dokument y ein Gewicht von xx Es ist aber auch möglich, dass das Ranking ‚on the fly‘ während des Rechercheprozesses durchgeführt wird

Ein Beispiel Frage ☻ Gesucht sind Dokumente zum Thema "Tiere und Pflanzen in Korallenriffs" in einer großen umweltwissenschaftlichen Datenbank mit 1.000.000 Datensätzen. Die Datenbank enthält 40.000 Datensätze mit dem Wort 'Tiere' 30.000 Datensätze mit dem Wort 'Pflanzen' 50 Datensätze mit dem Wort 'Korallenriffs' 10 Datensätze mit Wort 'Seeanemone' Was meinen Sie spontan? Sollen beim best match alle Datensätze mit Tiere und Pflanzen angezeigt werden?

Lösung: Schritt 1: vereinfachte Berechnung der Gewichtung der Suchtermini nach der Formel: G = ln(N/n) Gewicht = natürlicher Logarithmus (Anzahl Datensätze Datenbank/Anzahl Treffer Suchbegriff) Tiere: ln(1.000.000 / 40.000) = ln 25 = 3,2 (abgerundet) Pflanzen: ln(1.000.000 / 30.000) = ln 33,3 = 3,5 (abgerundet) Korallenriff: ln(1.000.000 / 50) = ln 20.000 = 9,9 (abgerundet) Seeanemone: ln( 1.000.000 / 10) = ln 100.000 = 11,51 (abgerundet

Lösung: Schritt 2: Festlegung von maximal möglicher Gewichtung (MMG) und und minimal akzeptabler Gewichtung MAG = minimal akzeptable Gewichtung. Diesen Schwellenwert muss der Datensatz überschreiten, um überhaupt für die Recherche als relevant angezeigt zu werden. MMG = maximal mögliche Gewichtung - kann ein Datensatz erhalten, wenn alle Suchtermini in ihm enthalten sind. Formeln für die Gewichtung der Datensätze Für Suchfomulierungen mit nur 1 Suchterminus: MAG = MMG Für Suchfomulierungen mit genau 2 Suchtermini: a) 2 häufig vorkommende Termini (z.B. Tiere von Pflanzen): MAG = Summe der Gewichte beider Suchtermini) b) 1 häufig vorkommender und 1 selten vorkommender Terminus (z.B. 'Tiere im Korallenriff'): MAG = Gewicht des seltenen Suchterminus) c) 2 selten vorkommende Suchtermini (z.B. 'Korallenriff und Seeanemone'): MAG = Gewicht von einem der beiden Suchtermini Für Suchformulierungen mit mehr als 2 Suchtermini MAG = MMG / 2 Bezogen auf das Beispiel oben: "Tiere und Pflanzen in Korallenriffs": Es handelt sich um eine Suchformulierung mit mehr als 2 Suchtermini. MMG = 3,2 + 3,5 + 9,9 = 16,6 MAG = MMG / 2 (16,6 / 2 = 8,3)

Lösung: Schritt 3: Ermittlung, welche Kombination den Schwellenwert erreichen MAG = MMG / 2 (16,6 / 2 = 8,3) Tiere: = 3,2 Pflanzen:= 3,5 Korallenriff: = 9,9 Ranking-Reihenfolge 1) Zuerst Dokumente, die alle Suchtermini enthalten (MMG = 16,6) 2) dann alle Datensätze mit 'Korallenriffs + Pflanzen' (9,9 + 3,5 = 13,4) 3) dann Datensätze mit 'Korallenriff + Tiere' (9,9 + 3,2) 4) dann alle Datensätze mit 'Korallenriff' (Gewichtung = 9,9). Nicht angezeigt: Tiere und Pflanzen (3,2 + 3,5 = 6,7); Tiere =3,2; Pflanzen=3,5

Relevanz Feedback Ziele: Automatische Erweiterung des Query (der Suchanfrage) um geeignete Suchterme Annahme: geeignete Suchterme kommen in relevanten Treffern häufig vor und in nicht relevanten Treffern selten

Suche: Ozonloch + Erderwärmung Relevanz Feedback Dumme Frage ☻ Suche: Ozonloch + Erderwärmung 20 Treffer, davon 8 relevant (also 12 nicht relevant) Häufigstes Wort in relevanten Dokumenten: 6 x Treibhaus 3 x Gewächshaus Häufigstes Wort in nicht relevanten Dokumenten: 2 x Treibhaus 8 x Gewächshaus Würden Sie eine Erweiterung der Suchanfrage durch Gewächshaus empfehlen?

Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante. Davon 6 mit Treibhaus, 2 ohne Treibhaus 6/2 = 3 = Relevanz von Treibhaus für gute Dokumente ist also 3 12 nicht relevante Davon 2 mit Treibhaus, 10 ohne Treibhaus 2/10 = 0,2 = Relevanz von Treibhaus für schlechte Dokumente ist als 0,2 Relevanz von relevanten zu nicht relevanten wird in Beziehung gesetzt =3,0 / 0,2 15 Gewicht für Treibhaus

Relevanz Feedback Suche: Ozonloch + Erderwärmung 20 Treffer 8 relevante Davon 3 mit Gewächshaus, 5 ohne Gewächshaus Rechnung 3/5 = Relevanz von Gewächshaus für gute Dokumente ist also 0,6 12 nicht relevante Davon 8 mit Gewächshaus, 4 ohne Gewächshaus Rechnung 8/4 = Relevanz von Gewächshaus für schlechte Dokumente ist also 2 Relevanz von relevanten zu nicht relevanten wird in Beziehung gesetzt =0,6 / 2  0,3 Gewicht für Gewächshaus bei der Suchverfeinerung.  Eine Verfeinerung der Suchanfrage mit Gewächshaus ist wohl eher nicht zu empfehlen.