28.02.2006 Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Slides:



Advertisements
Ähnliche Präsentationen
Support.ebsco.com Lernprogramm zum Erstellen einer lokalen Sammlung.
Advertisements

Blue J.
Praktischer Teil des Seminars
Seminar Experimentielle Evaluierung im Information Retrieval Aufgabenstellung, Ablauf, Probleme, Lösungen und Ergebnisse des Experiments Martin Jansson.
Präsentation PS: Klasse File von Janko Lange, Thomas Lung, Dennis Förster, Martin Hiller, Björn Schöbel.
System J – Compiler – Praktikum: Datenbanksystementwicklung Knut Stolze
„Ansicht Arbeitsbereich“ ist die nutzerspezifische Ansicht, in der alle Dokumente aufgelistet sind, die dem angemeldeten Benutzer zugeordnet sind. D.h.
Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.
Seminar Textmining WS 06/07 Aufgaben III Termgewichtung Postings Datei Clustering.
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.
Paul, Morten, Yannick Blue J. Entwicklungsumgebung versteht Java Programmcode versteht Java Programmcode Für die Entwicklung eigener Software.
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
SendEplanung Datenbank
FH-Hof Einbindung von JavaScript Anweisungen
Colibi Bibliothekssystem der Computerlinguistik. Einführung Motivation Was braucht Colibi? Software Datenbankdesign.
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/4 Manuelle Verfahren Klassifizierung Hier werden Dokumente in ein fest vorgegebenes System.
Alternativen und Muster. Alternativen Gegeben ist eine Tabelle in der ein Attribut der Tabelle Buecher Gruppe genannt wurde. So gibt es unter anderem.
Abfragen aus einer Sprachdatenbank Jonathan Harrington.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
SQL als Abfragesprache
Datenbankanbindung mit ASP Wilhelm-Schickard-Schule Tübingen
Delphi-Datenbankkomponenten
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
Oracle PL/SQL Server Pages (PSP). © Prof. T. Kudraß, HTWK Leipzig Grundidee: PSP – Internet-Seiten mit dynamischer Präsentation von Inhalten durch Einsatz.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Das Build-Tool ANT ETIS SS05. ETIS SS05 - Nadine FröhlichANT 2 Gliederung Motivation Build - Datei –Allgemeiner Aufbau –Project –Target –Task –Properties.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
DVG Kommentare1 Kommentare. DVG Kommentare 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht.
DVG Kommentare 1 Kommentare. 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht bis zum Ende der Zeile.
Erhard Künzel für Info 9. Klasse: digitale-schule-bayern.de © Erhard Künzel.
Einführung MySQL mit PHP
Internetzugang zur Prüfungsverwaltung Dr. Wilfried Jauer, HIS
Migration von Oracle 9i auf 10g Hans Pfeiffer Talkline Data Warehouse Elmshorn,
Welche Funktion hat die php.ini? -Beinhaltet wichtige Einstellungen für PHP. Genannt seien hier u.a. der Speicherort von Cookies, Parameter der Kompilierung,
SQL PHP und MySQL Referat von Katharina Stracke und Carina Berning
Histogramm/empirische Verteilung Verteilungen
Wir bauen uns eine Webapplikation!
Hyperlinks und Anker Links notieren
Relationale Datenbanken III
Kollektionen in Java Aufzählungstypen, Generische Typen
HORIZONT 1 XINFO ® Das IT - Informationssystem Java Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
Typo3 Templates und TypoScript
Klicken Sie in der Meldungsleiste auf Bearbeitung aktivieren,
Folgendes kann missbraucht werden: formulare unverschlüsselte login-informationen ungeschützte includes SQL-injection reto ambühler
SS 2004 Datenbanken 4W Mi 13:30 – 15:00 G 2.30 Vorlesung #7 SQL (Teil 2)
WS 2013/14 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #5 SQL (Teil 2)
HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.
C-Einstieg. Agenda 1Vorbereitung 2Aufbau eines Programms 2.1Header 2.2 Methoden 2.3Main 3Datentypen & Variablen 4Operatoren(+, -, *, /) 5Logik 5.1IF 5.2Switch.
Aggregatsfunktion SQL = Structured Query Language.
Anhand der Bildergalerie Phoca Gallery v
SQL - Structured Query Language AIFB SS (1/9) Join-Operationen in SQL-92(1/9) Syntax einer Join-Operation: join-op := CROSS JOIN | [NATURAL]
Torque in Turbine Team 4 Josef Bohninger Thomas Lindenhofer
SQLite und XML in PHP 5.
Kommandozeile und Batch-Dateien Molekulare Phylogenetik – Praktikum
Paul, Morten, Yannick Blue J. Entwicklungsumgebung  versteht Java Programmcode  Für die Entwicklung eigener Software  Durch die Programmierung.
Structured Query Language
» Ende-Ende Durchsatztest
OQL-Anbindung an Java (1) Java als Beispiel für die Einbettung von OQL in eine Programmiersprache Die OQL-Einbettung in Java ist teilweise mit dynamischem.
WS 2014/15 Datenbanksysteme D0 15:15 – 16:45 R Vorlesung #6 SQL (Teil 3)
TypoScript.
Greenstone. Theoretischer Teil Entstehung: Entwickelt vom New Zealand Digital Library Project an der Universität von Waikato Kooperation mit der UNESCO.
Paul, Morten, Yannick Blue J. Entwicklungsumgebung  versteht Java Programmcode  Für die Entwicklung eigener Software  Durch die Programmierung.
Datenbanken abfragen mit SQL
SQL Lutz KleinostendarpJOBELMANN-SCHULE Datendefinition Die Organisation einer Datenbank basiert auf einer Anzahl verschiedener Objekte. Diese können physikalischer.
Tutorium Software-Engineering SS14 Florian Manghofer.
Tutorium Software-Engineering SS14 Florian Manghofer.
XML-Erweiterungen in ORDBMS Seminar: DBMS für spezielle Anwendungen Florian Brieler.
Alles wird gut! Suche im MyCoRe Jens Kupferschmidt
(Structured Query Language)
 Präsentation transkript:

Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"

Ebru Iscan, Andrea Kováčová Aufgabe 1 DTF vs. DTF max. 5 DL vs. DTF max. 10 DLs BM 25 vs. TF.IDF c=1 P0=0.5 vs. P0=1

Ebru Iscan, Andrea Kováčová ExpUtils.java Hier wird der Zugang zur Datenbank vorkonfiguriert (thibault) Parameter der Aufgabe werden durch die Kommandozeile übergeben Parameter dtf: Syntax: -dtf Default: 0 (DTFRS) In der Aufgabe 1 wahlweise DTFRS (0) oder MaxNumDTFRS(5) oder MaxNumDTFRS(10) Indexierungsfunktionen: Syntax: -type plain|stemen_bm25|stemen_tfidf Default: plain In der Aufgabe wahlweise stemen_bm25 oder stemen_tfidf Also muss angegeben werden Parameter c: Syntax: -c Default: 1.0 In der Aufgabe 1 immer 1.0 – muss nicht angegeben werden Parameter P0: Syntax: -p0 Default: 1.0 In der Aufgabe 1 wahlweise 0.5 oder 1.0 Wesentliche Funktionen: parseArgs() – Ermittelt die Afgabeparameter aus der Kommandozeile getDB() – Baut die Verbindung automatisch auf createPIRE( ) – registriet jeweilige Operatoren und bildet ihre Attribute im PIRE createRS() – baut den jeweilgen Resource Selection Objekt auf – DTFRS oder MaxNumDTFRS(n)

Ebru Iscan, Andrea Kováčová Indexierung Die allgemeine Indexierung der Dokumenteninhalte wird ausgeführt Operatoren über den Textinhalt und ihre interne Konfiguration werden mit den Parameter aus der Kommandozeile gesetzt Die Indexierung wurde auf alle Kollektionen ausgeweitet Für jede Kollektion wird ein PIRE-Objekt gebildet Aus allen *.gz-Dateien in der jeweiligen Kollektion werden anhand der vordefinierten Trennzeichen Dok-Ids extrahiert, danach wird der Dokumenteninhalt als TextAttribut für die Indexierung registriet Danach werden alle Indexe der Kollektion/PIRE-Objekt berechnet

Ebru Iscan, Andrea Kováčová Indexierung

Ebru Iscan, Andrea Kováčová Aufbau der digitalen Bibliothek Die Resource Description nach dem allgemeinen Format für Digitale Bibliotheken wird erstellt Die digitale Bibliothek wird 24 mal (pro Kollektion) durch Verwendung des zustänidgen PIRE-Objekts gebaut Standardkonfiguration für DTF wird verwendet Interne Konfigurationswerte (c und P0) werden anschliessend gespeichert

Ebru Iscan, Andrea Kováčová Resource Description

Ebru Iscan, Andrea Kováčová Abfragekosten bestimmen Die Kosten der Abfragen werden im bestimmt Immer pro Kollektion mit dem zuständigen PIRE-Objekt Konfiguration der digitalen Bibliothek wird dazu geladen Die Kosten werden immer einzeln für die jeweilige digitale Bibliothek berechnet In dem aktuellen Verzeichnis wird die Datei 51.costs mit den Ergebnissen gebildet

Ebru Iscan, Andrea Kováčová Kosten berechnen

Ebru Iscan, Andrea Kováčová Vorbereitung der Abfrage Die berechneten Abfragekosten werden ausgewert Die Resource Selection untersucht alle digitalen Bibliotheken Die entsprechenden Abfragekosten werden aus der vorher angelegten Datei geladen Resource Selection wird auf 300 relevante Dokumente begrenzt Ergebnise sind auch auf dem Bilschirm sichtbar

Ebru Iscan, Andrea Kováčová Resource Selection

Ebru Iscan, Andrea Kováčová Retrieval durchführen Retrieval der Dokumente wird ausgeführt Alle Kollektionen mit vorberechneten Abfragekosten werden dazu genommen Ergebnis wird in die Datei result im aktuellen Verzeichnis gespeichert Ergebnisse im standarden TREC-Format

Ebru Iscan, Andrea Kováčová Retrieval

Ebru Iscan, Andrea Kováčová Probleme ERROR unidu.db - select count(distinct g1))) from ap88_1a_text_plain_df java.sql.SQLException: General error message from server: "Table 'exp_f.ap88_1a_text_plain_df' doesn't exist Ursache: Nicht bekannt, wahrscheinlich muss ist eine spezielle Konfigurierung notwendig, damit nich plain als Default, sondern je nach Experiment stemen_bm25 oder stemen_tfidf gewählt wird java.io.FileNotFoundException: conf/trec123.topics (No such file or directory) Ursache: Konfigurationsdateien nicht im CLASSPATH, sondern im aktuellen Verzeichnis erwartet Umgehungslösung: Konfiguration ins aktuelle Verzeichnis kopieren oder ein Link setzen Unter Eclipse ist kein Debuggen möglich, weil die Zeitmessung beim Start FileNotFoundException wirft

Ebru Iscan, Andrea Kováčová Tabelle in DB Beispiel: Werte in der Datenbank – Document Frequency einzelner nach stemen() extrahierten Wörter mit Gewichtung

Ebru Iscan, Andrea Kováčová Aufgabe 2 DTF max. 10 DLs vs. DTF max. 20 DLs c=1 P0=0.25 vs. P0=0.75

Ebru Iscan, Andrea Kováčová ComputeForTopic

Ebru Iscan, Andrea Kováčová ComputeForTopic