Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Ähnliche Präsentationen


Präsentation zum Thema: "28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR""—  Präsentation transkript:

1 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

2 Ebru Iscan, Andrea Kováčová Aufgabe 1 DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=1 P0=0.5 vs. P0=1

3 Ebru Iscan, Andrea Kováčová ExpUtils.java Hier wird der Zugang zur Datenbank vorkonfiguriert (thibault) Parameter der Aufgabe werden durch die Kommandozeile übergeben Parameter dtf: Syntax: -dtf Default: 0 (DTFRS) In der Aufgabe 1 wahlweise DTFRS (0) oder MaxNumDTFRS(5) oder MaxNumDTFRS(10) Indexierungsfunktionen: Syntax: -type plain|stemen_bm25|stemen_tfidf Default: plain In der Aufgabe wahlweise stemen_bm25 oder stemen_tfidf Also muss angegeben werden Parameter c: Syntax: -c Default: 1.0 In der Aufgabe 1 immer 1.0 – muss nicht angegeben werden Parameter P0: Syntax: -p0 Default: 1.0 In der Aufgabe 1 wahlweise 0.5 oder 1.0 Wesentliche Funktionen: parseArgs() – Ermittelt die Afgabeparameter aus der Kommandozeile getDB() – Baut die Verbindung automatisch auf createPIRE( ) – registriet jeweilige Operatoren und bildet ihre Attribute im PIRE createRS() – baut den jeweilgen Resource Selection Objekt auf – DTFRS oder MaxNumDTFRS(n)

4 Ebru Iscan, Andrea Kováčová Indexierung Die allgemeine Indexierung der Dokumenteninhalte wird ausgeführt Operatoren über den Textinhalt und ihre interne Konfiguration werden mit den Parameter aus der Kommandozeile gesetzt Die Indexierung wurde auf alle Kollektionen ausgeweitet Für jede Kollektion wird ein PIRE-Objekt gebildet Aus allen *.gz-Dateien in der jeweiligen Kollektion werden anhand der vordefinierten Trennzeichen Dok-Ids extrahiert, danach wird der Dokumenteninhalt als TextAttribut für die Indexierung registriet Danach werden alle Indexe der Kollektion/PIRE-Objekt berechnet

5 Ebru Iscan, Andrea Kováčová Indexierung

6 Ebru Iscan, Andrea Kováčová Aufbau der digitalen Bibliothek Die Resource Description nach dem allgemeinen Format für Digitale Bibliotheken wird erstellt Die digitale Bibliothek wird 24 mal (pro Kollektion) durch Verwendung des zustänidgen PIRE-Objekts gebaut Standardkonfiguration für DTF wird verwendet Interne Konfigurationswerte (c und P0) werden anschliessend gespeichert

7 Ebru Iscan, Andrea Kováčová Resource Description

8 Ebru Iscan, Andrea Kováčová Abfragekosten bestimmen Die Kosten der Abfragen werden im bestimmt Immer pro Kollektion mit dem zuständigen PIRE-Objekt Konfiguration der digitalen Bibliothek wird dazu geladen Die Kosten werden immer einzeln für die jeweilige digitale Bibliothek berechnet In dem aktuellen Verzeichnis wird die Datei 51.costs mit den Ergebnissen gebildet

9 Ebru Iscan, Andrea Kováčová Kosten berechnen

10 Ebru Iscan, Andrea Kováčová Vorbereitung der Abfrage Die berechneten Abfragekosten werden ausgewert Die Resource Selection untersucht alle digitalen Bibliotheken Die entsprechenden Abfragekosten werden aus der vorher angelegten Datei geladen Resource Selection wird auf 300 relevante Dokumente begrenzt Ergebnise sind auch auf dem Bilschirm sichtbar

11 Ebru Iscan, Andrea Kováčová Resource Selection

12 Ebru Iscan, Andrea Kováčová Retrieval durchführen Retrieval der Dokumente wird ausgeführt Alle Kollektionen mit vorberechneten Abfragekosten werden dazu genommen Ergebnis wird in die Datei result im aktuellen Verzeichnis gespeichert Ergebnisse im standarden TREC-Format

13 Ebru Iscan, Andrea Kováčová Retrieval

14 Ebru Iscan, Andrea Kováčová Probleme ERROR unidu.db - select count(distinct g1))) from ap88_1a_text_plain_df java.sql.SQLException: General error message from server: "Table 'exp_f.ap88_1a_text_plain_df' doesn't exist Ursache: Nicht bekannt, wahrscheinlich muss ist eine spezielle Konfigurierung notwendig, damit nich plain als Default, sondern je nach Experiment stemen_bm25 oder stemen_tfidf gewählt wird java.io.FileNotFoundException: conf/trec123.topics (No such file or directory) Ursache: Konfigurationsdateien nicht im CLASSPATH, sondern im aktuellen Verzeichnis erwartet Umgehungslösung: Konfiguration ins aktuelle Verzeichnis kopieren oder ein Link setzen Unter Eclipse ist kein Debuggen möglich, weil die Zeitmessung beim Start FileNotFoundException wirft

15 Ebru Iscan, Andrea Kováčová Tabelle in DB Beispiel: Werte in der Datenbank – Document Frequency einzelner nach stemen() extrahierten Wörter mit Gewichtung

16 Ebru Iscan, Andrea Kováčová Aufgabe 2 DTF max. 10 DLs vs. DTF max. 20 DLs c=1 P0=0.25 vs. P0=0.75

17 Ebru Iscan, Andrea Kováčová ComputeForTopic

18 Ebru Iscan, Andrea Kováčová ComputeForTopic


Herunterladen ppt "28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR""

Ähnliche Präsentationen


Google-Anzeigen