Seminar Experimentielle Evaluierung im Information Retrieval Aufgabenstellung, Ablauf, Probleme, Lösungen und Ergebnisse des Experiments Martin Jansson.

Slides:



Advertisements
Ähnliche Präsentationen
der Universität Oldenburg
Advertisements

Ebru Iscan, Andrea Kováčová Experimente Seminar "Experimentielle Evaluierung im IR"
Praktischer Teil des Seminars
EX-CELL-O Bottleneck Untersuchung
Hash-Tabellen und -Funktionen Hash-Tabellen in Java
(kleine!) Java Einführung Mittwoch, Heute Ziel: erstes Java-Programm erstellen Von der Aufgabenstellung bis zur Lösung Grundlagen Einfache.
Praxisteil Seminar experimentelle Evaluierung in IR WS05/06 Gruppe A.
Christos, Kornelia, Jan Christos, Kornelia, Jan Entwicklungsumgebung Versteht unseren Java Programm Code Versteht unseren Java Programm.
Christos, Kornelia, Jan Christos, Kornelia, Jan Entwicklungsumgebung Versteht unseren Java Programm Code Versteht unseren Java Programm.
es gibt (fast) nichts, was nicht anders gemacht werden könnte
Threads Richard Göbel.
Java: Objektorientierte Programmierung
DOM (Document Object Model)
Komponentenbasierter Taschenrechner mit CORBA
Seminarthema: Morphosyntaktische Analyse
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Kapitel 7 Claudio Moraga, Gisbert Dittrich FBI Unido
EINI-I Einführung in die Informatik für Naturwissenschaftler und Ingenieure I Vorlesung 2 SWS WS 99/00 Gisbert Dittrich FBI Unido
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Programmieren mit JAVA Teil V. Grafikausgabe mit JAVA, das AWT Java wurde von Anfang an mit dem Anspruch entwickelt, ein vielseitiges, aber einfach zu.
PRJ 2007/1 Stefan Dissmann Motivation Problem: gleiche Datenstrukturen werden für verschiedene Objekte gebraucht: z.B. Listen von Studierenden, Kunden,
PKJ 2005/1 Stefan Dissmann Ausblick Es fehlen noch: Möglichkeiten zum Strukturieren größerer Programme Umgang mit variabler Zahl von Elementen Umgang mit.
– Team 2 Aktueller Projektleiter: Christian Krapp
Universität Paderborn - Softwaretechnikpraktikum im SS Gruppe 11 1 Softwaretechnikpraktikum im SS2001 Projektleiter:Prof. Dr. Wilhelm Schäfer Gruppenleiter:Dr.
Vortrag III Hier in der Vorlesungszeit! Anwesenheitspflicht Jede Gruppe hat 6 Minuten! Stellt eure GUI vor –was ihr besonderes gemacht habt –Spektakuläre.
Remote Methode Invocation (RMI)
1 Animation (Doublepuffering) Vorlesung: Datenverarbeitung Grundlagen 3 Fachbereich II - Mathematik Rolf Heitzenröder.
DVG Kommentare1 Kommentare. DVG Kommentare 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht.
DVG Einführung in Java1 Einführung in JAVA.
Gaußscher Algorithmus
DVG Kommentare 1 Kommentare. 2 Kommentare Es gibt zwei Arten von Kommentaren: einzeilige Kommentare // der Kommentar geht bis zum Ende der Zeile.
Java in 9 Folien Besser: Online-Buch Go to Java 2.
Zurück zur ersten Seite SEP Entwurf und Implementierung einer effizienten Rechenstruktur zur Baumdarstellung mittels Java-Texteditoren Betreuer : Matthias.
Seite 1 Interface - Konzept Ein Interface führt einen neuen Datentyp ein: interface Frau {... } Das Interface enthält Deklarationen ( keine Definitionen.
Welche Funktion hat die php.ini? -Beinhaltet wichtige Einstellungen für PHP. Genannt seien hier u.a. der Speicherort von Cookies, Parameter der Kompilierung,
Gegenstand EDV Thema: Informative Webseiten
Kollektionen in Java Aufzählungstypen, Generische Typen
Evidenzbasierung – und wann habe ich dafür Zeit?
Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 12 Folie 2 Web Services (1)
Performance-Optimierung in JAVA
Informatik eine 1.0 Einführung.
Javakurs FSS 2012 Lehrstuhl Stuckenschmidt
Game Development mit LUA Integration und Kommunikation von LUA mit C++ Referat von Paul van Hemmen Seminar: Reusable Content in 3D und Simulationssystemen.
Statuspräsentation Titel der Seminararbeit
Telecooperation/RBG Technische Universität Darmstadt Copyrighted material; for TUD student use only Grundlagen der Informatik I Thema 16: Ausnahmebehandlung.
Die Zählschleife int s = 0 for (int k=1; k
Adaption von K-Means Algorithmen an Datenbanken
Projektstudium Chipkarten Gruppe Sign(PC+Karte)
1 Nutzen Sie diese Powerpoint-Präsentation beim Selbstlernen oder in Veranstaltungen zur Einführung in das jeweilige Thema. Einführung Lernmodul Nutzungsbedingungen:
Methode der kleinsten Quadrate
NDK Enterprise Technologien Informationen Infrastruktur und Fallstudie Daniel Nydegger Studienleiter Enterprise System Entwicklung.
ALKOHOL UND DROGEN UMFRAGE.
Tutorium PG Verbesserung Blatt 5 Beim instanziieren eines Fahrrades muss es möglich sein, alle benötigten Attribute dem Konstruktor zu übergeben.
Aufgaben Version 1: Es soll eine Wetterstation mit folgenden zwei Anzeigen implementiert werden: Aktuelle Wetterbedingungen mit Temperatur und.
Projektmanagement Ziel und Umfang eines Softwareprojektes definieren
Proseminar GMA Web Suche und Information Retrieval (SS07)
Automatisierte Worterkennung (Autocorrect) Automatisierung in der Medientechnik, Labor, KulturMediaTechnologie Lucia Winsauer SS14.
Informatik Grundlagen, Seminar 8 WS04 1 Informatik Grundlagen, WS04, Seminar 8 Informatik.
Javelin Internet-based parallel computing using Java.
Programmiervorkurs WS 2014/15 Methoden
Mehrfachausführungen Schleifen in VB 2010 ee. Programmidee: Der Anwender gibt eine Zahl ein, und das Programm gibt die Mehrfachen dieser Zahl aus (das.
- Studienarbeit - Entwurf und Umsetzung von kombinierten Anfragen für die Ähnlichkeitssuche auf digitalen Bilder auf der Basis von Regionen und Features.
Laborpraktikum Umsetzung von Pattern SS 05 Prof. Paul, Dipl.-Inf. Fröhlich, Dipl.-Inf. Linke {paul | iti.cs.uni-magdeburg.de
1 Prof. Dr. Andreas SchmietendorfWS06/07 Übung 3 Test der Möglichkeiten des JDBC-Interfaces.
Webzubi Ein Web 2.0-Netzwerk zur Gestaltung innovativer Berufsausbildung für gewerblich-technische Auszubildende.
Game Loop & Update Method Robert Nystrom – Game Programming Patterns Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung SS.
Ein wenig Mathematik, um den Vormittag zu beginnen... (Niveau 4. Klasse)
Auswertung geodätischer Weltraumverfahren LV Projekt GNSS: Auswertung mit Leica Geo Office (5.Novemeber 2015)
Java Programme nur ein bisschen objektorientiert.
Kleines 1x1 ABCD Aufgaben Kleines 1x1 A · 8 = Lösung.
 Präsentation transkript:

Seminar Experimentielle Evaluierung im Information Retrieval Aufgabenstellung, Ablauf, Probleme, Lösungen und Ergebnisse des Experiments Martin Jansson Philip Korte Lukas Wozniak

Gliederung Aufgabenstellung und Bearbeitung des gegebenen Programmes Durchführung der Experimente Auswertung der Ergebnisse

Aufgabenstellung Ziel des Experiments: Praktische Erfahrung bekommen im verteiltem IR durch Evaluierung von IR-Anwendungen – Kleine Testkollektion, Indexierung und max. 9 Retrievaldurchläufe Indexierung der 24 Kollektionen Resource Descriptions erstellen Kosten berechnen Resource Selection Retrieval

Überblick Vorgehensweise 1.) INDEXIERUNG DER TESTKOLLEKTION Klasse: IndexCollection.java 2.) Implementierung einer Unterstützung für TFIDF Klasse:TextExpDT.java 3.) Starten der Indexierung

Das Programm Über 200 Klassen Unpräzise Aufgabenstellung (Nicht nur setzen der Parameter, sondern auch Komplettierung des Codes notwendig) Probleme in der Codegestaltung Relevante Klassen sind IndexCollection, ComputeRD, ComputeRS, ComputeCosts, TextExpDT, ExpUtils sowie PerformRetrieval

Parameter Gruppe B (exp5) (Martin, Philip, Lukas) dtf: c=1 p0=0.5 dtf bm25 c=1 p0=0.5 dtf tfidf c=1 p0=1 dtf bm25 c=1 p0=1 dtf tfidf cori maxdtf c=1 p0=0.5 dtfmax10 bm25 c=1 p0=0.5 dtfmax10 tfidf c=1 p0=1 dtfmax10 bm25 c=1 p0=1 dtfmax10 tfidf

IndexCollection.java Muss jede Kollektion einlesen und parsen Geparster Inhalt wird an PIRE Objekt übergeben Ruft in TextExpDT.java computeIndex() auf, wo das Stemming vollzogen wird

TextExpDT.java Klasse zur Stammwortreduktion der eingegebenen Wörter Gegebene Version beinhaltete bm25 stemming Musste um tfidf erweitert werden Es gab Probleme bei der Kommunikation mit der Pdatalog DB String tf = index.convert(Index.TF_RELATION); String maxtf = index.convert("maxtf"); rule = Parser.parseRule(maxtf + "(D,M) :- max(M,TF,{ "+tf+"(D,~,TF) }).");

/* ComputeForTopic.java*/ // Parameter setzen storage.deleteParameters(dl,"parameter('c1','_')."); storage.deleteParameters(dl,"parameter('P0','_')."); storage.storeParameters(dl,"parameter('c1'," + c + ")."); storage.storeParameters(dl,"parameter('P0'," + P0 + ")."); for(int k=51; k<=150; k++){ String topicName = k+""; if(k<100){topicName="0"+topicName;} String queryID = topicName; WSumQuery query = Queries.getWSumQuery(queryID, "text", usedStemen); // Kosten berechnen Map costs = costEstimator.estimateCosts(dls, query); // Resource selection RS rs = null; switch(flagDTF) { case 1: rs = new MaxNumDLDTFRS(5);break; case 2: rs = new MaxNumDLDTFRS(10);break; default: rs = new DTFRS();break; }

Automatisierte Abläufe Skriptbasierter Aufruf der Experimente Sequenzielle Abarbeitung der Aufgaben möglich Vorteile: besseres Zeitmanagement besserer Überblick über die Experimente (Reihenfolge) Einfachere Aufrufe (Benutzerfreundlicher) Nachteile: niedrige Fehlertolleranz hoher Aufwand bei Skripterstellung (und Codeanpassung)

Probleme (Java) Gescheiterte Indexierung Tokenizer vs Split Dokumentengewichte nicht vorhanden Parameter zeigen keinen Einfluss auf die Ergebnisse CORI und TFIDF Implementierung fehlgeschlagen

Probleme (UNIX) starten der Experimente anmelden des Benutzers im Pool verschieben der Läufe in den Hintergrund keine Möglichkeit der Beobachtung (Jobs) Probleme beim Zugriff auf die Ergebnisse Dateien SQL

ap88_8c – Topic :133 c=1.0 - p0=1.0 - DTF - bm AP AP AP AP AP AP AP AP AP AP AP AP AP

ap88_8c – Topic :133 c=1.0 - p0=0.5 - DTF - bm AP AP AP AP AP AP AP AP AP AP AP AP AP

Vielen Dank für die Aufmerksamkeit