Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Liutpold Weishaupt Geändert vor über 11 Jahren
1
28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
2
28.02.2006 Ebru Iscan, Andrea Kováčová Aufgabe 1 DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=1 P0=0.5 vs. P0=1
3
28.02.2006 Ebru Iscan, Andrea Kováčová ExpUtils.java Hier wird der Zugang zur Datenbank vorkonfiguriert (thibault) Parameter der Aufgabe werden durch die Kommandozeile übergeben Parameter dtf: Syntax: -dtf Default: 0 (DTFRS) In der Aufgabe 1 wahlweise DTFRS (0) oder MaxNumDTFRS(5) oder MaxNumDTFRS(10) Indexierungsfunktionen: Syntax: -type plain|stemen_bm25|stemen_tfidf Default: plain In der Aufgabe wahlweise stemen_bm25 oder stemen_tfidf Also muss angegeben werden Parameter c: Syntax: -c Default: 1.0 In der Aufgabe 1 immer 1.0 – muss nicht angegeben werden Parameter P0: Syntax: -p0 Default: 1.0 In der Aufgabe 1 wahlweise 0.5 oder 1.0 Wesentliche Funktionen: parseArgs() – Ermittelt die Afgabeparameter aus der Kommandozeile getDB() – Baut die Verbindung automatisch auf createPIRE( ) – registriet jeweilige Operatoren und bildet ihre Attribute im PIRE createRS() – baut den jeweilgen Resource Selection Objekt auf – DTFRS oder MaxNumDTFRS(n)
4
28.02.2006 Ebru Iscan, Andrea Kováčová Indexierung Die allgemeine Indexierung der Dokumenteninhalte wird ausgeführt Operatoren über den Textinhalt und ihre interne Konfiguration werden mit den Parameter aus der Kommandozeile gesetzt Die Indexierung wurde auf alle Kollektionen ausgeweitet Für jede Kollektion wird ein PIRE-Objekt gebildet Aus allen *.gz-Dateien in der jeweiligen Kollektion werden anhand der vordefinierten Trennzeichen Dok-Ids extrahiert, danach wird der Dokumenteninhalt als TextAttribut für die Indexierung registriet Danach werden alle Indexe der Kollektion/PIRE-Objekt berechnet
5
28.02.2006 Ebru Iscan, Andrea Kováčová Indexierung
6
28.02.2006 Ebru Iscan, Andrea Kováčová Aufbau der digitalen Bibliothek Die Resource Description nach dem allgemeinen Format für Digitale Bibliotheken wird erstellt Die digitale Bibliothek wird 24 mal (pro Kollektion) durch Verwendung des zustänidgen PIRE-Objekts gebaut Standardkonfiguration für DTF wird verwendet Interne Konfigurationswerte (c und P0) werden anschliessend gespeichert
7
28.02.2006 Ebru Iscan, Andrea Kováčová Resource Description
8
28.02.2006 Ebru Iscan, Andrea Kováčová Abfragekosten bestimmen Die Kosten der Abfragen werden im bestimmt Immer pro Kollektion mit dem zuständigen PIRE-Objekt Konfiguration der digitalen Bibliothek wird dazu geladen Die Kosten werden immer einzeln für die jeweilige digitale Bibliothek berechnet In dem aktuellen Verzeichnis wird die Datei 51.costs mit den Ergebnissen gebildet
9
28.02.2006 Ebru Iscan, Andrea Kováčová Kosten berechnen
10
28.02.2006 Ebru Iscan, Andrea Kováčová Vorbereitung der Abfrage Die berechneten Abfragekosten werden ausgewert Die Resource Selection untersucht alle digitalen Bibliotheken Die entsprechenden Abfragekosten werden aus der vorher angelegten Datei geladen Resource Selection wird auf 300 relevante Dokumente begrenzt Ergebnise sind auch auf dem Bilschirm sichtbar
11
28.02.2006 Ebru Iscan, Andrea Kováčová Resource Selection
12
28.02.2006 Ebru Iscan, Andrea Kováčová Retrieval durchführen Retrieval der Dokumente wird ausgeführt Alle Kollektionen mit vorberechneten Abfragekosten werden dazu genommen Ergebnis wird in die Datei result im aktuellen Verzeichnis gespeichert Ergebnisse im standarden TREC-Format
13
28.02.2006 Ebru Iscan, Andrea Kováčová Retrieval
14
28.02.2006 Ebru Iscan, Andrea Kováčová Probleme ERROR unidu.db - select count(distinct concat(concat(prob,concat('@@@',arg0)),concat('@@@',ar g1))) from ap88_1a_text_plain_df java.sql.SQLException: General error message from server: "Table 'exp_f.ap88_1a_text_plain_df' doesn't exist Ursache: Nicht bekannt, wahrscheinlich muss ist eine spezielle Konfigurierung notwendig, damit nich plain als Default, sondern je nach Experiment stemen_bm25 oder stemen_tfidf gewählt wird java.io.FileNotFoundException: conf/trec123.topics (No such file or directory) Ursache: Konfigurationsdateien nicht im CLASSPATH, sondern im aktuellen Verzeichnis erwartet Umgehungslösung: Konfiguration ins aktuelle Verzeichnis kopieren oder ein Link setzen Unter Eclipse ist kein Debuggen möglich, weil die Zeitmessung beim Start FileNotFoundException wirft
15
28.02.2006 Ebru Iscan, Andrea Kováčová Tabelle in DB Beispiel: Werte in der Datenbank – Document Frequency einzelner nach stemen() extrahierten Wörter mit Gewichtung
16
28.02.2006 Ebru Iscan, Andrea Kováčová Aufgabe 2 DTF max. 10 DLs vs. DTF max. 20 DLs c=1 P0=0.25 vs. P0=0.75
17
28.02.2006 Ebru Iscan, Andrea Kováčová ComputeForTopic
18
28.02.2006 Ebru Iscan, Andrea Kováčová ComputeForTopic
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.