Agenda Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse

Slides:



Advertisements
Ähnliche Präsentationen
Kohonennetze für Information Retrieval mit User Feedback
Advertisements

Projekt Netzwerk Kostenvoranschlag Netzwerkstruktur
www.materna.de1 Evaluierung einer aus Open Source Komponenten bestehenden J2EE Umgebung Marcus Jäger ~ Fachinformatiker Anwendungsentwicklung ~
Ein einführendes Tutorial
Entwicklung UnivIS-Anbindung auf Basis von PHP und DOM-XML
Druck / Ausgaben unter LSF
Sebastian Peters TIB-Workshop zur DOI-Registrierung 3. November 2011 DataCite Technik Vertiefung.
Musterlösung IT-Struktur an Schulen © M. Stütz, F. Wrede LEU - Zentrale Planungsgruppe Netze am Kultusministerium Baden-Württemberg zwei Pflege der Internetdienste.
Übung 5 Mehrstufige Client/Server-Systeme mit Enterprise Java Beans
1 Prof. Dr. Andreas SchmietendorfWS06/07 – Labor C/S-Programmierung Übung 4 Mehrstufige Client/Server-Systeme mit JSPs, Servlets und JavaBeans (Web-Container)
Zusammenfassung & Fazit
Erweiterung B2B Usermanagement / LDAP-Anbindung
Objektrelationales Mapping mit JPA
DOM (Document Object Model)
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Information und Technik Nordrhein-Westfalen Das personalisierte Portal Düsseldorf, Das personalisierte Portal.
Text-Retrieval mit Oracle Vortrag von Andreas Mück & David Diestel.
Werkzeuge und Softwareumgebung von Christian Michele.
1 Letzte Aktualisierung: Spree WS 2005/2006 Feedback Arbeitsaufgabe - Regelwerk Viele interessante Einsendungen Ich glaube, Sie haben verstanden,
Zusammenarbeit zwischen GFZ Potsdam und Weinberg-Gymnasium Kleinmachnow Projektvorschlag für eine Kooperation bei der Entwicklung und Gestaltung der GESIS-„Science.
RDF-S3 und eRQL: RDF-Technologien für Informationsportale Karsten Tolle und Fabian Wleklinski.
Xindice Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Seyda Kurt.
Arbeitsstand und Arbeitsbedarf Bibliotheken
USE2ANT Die Umstellung von Use Makefiles zu Ant & Junit Von Isaac, Maleen und Marc.
Problematik von Großprojekten
Manfred Helber Microsoft Senior PreSales Consultant.
Wir bauen uns eine Webapplikation!
Neuer GeoViewer BS   8. GeoForum BS vom Roger Wiss, GVA.
AGENDA Abgrenzung SEO zu SEA Suchmaschinenwerbung (SEA)
Clustered Neuronal Network A C#.NET project for Compute Cluster Server 2003.
EIDAMO ® Frontend Das neue Frontend gibt Ihnen 100% Flexibilität, und weil es auf verschiedene Framework Biblieotheken basiert, können Sie praktisch.
08. September 2010Entwicklungsstrategien in Liferay 1 Christian Krause, URZ FSU Jena, IDM-Arbeitsgruppe.
Adis Kulic und Kerstin Voglauer
Continuous Integration mit Jenkins
Gruppe: Gewinnt Überblick 1.0 (Martin Kapfhammer)
RATEME Suchen und Bewerten von Ausgangsorten. Inhalt RateMe - Pirmin Schürmann, Thomas Junghans - Hochschule für Technik Zürich 2 Unser Ziel.
Cooperation unlimited © Zühlke Juni 2009 Hansjörg Scherer Folie 1 Cooperation unlimited TFS als BackEnd für Visual Studio und Eclipse.
XML-Query. Übersicht Was ist XML-Query? Vergleich RDB XML-Dokument Syntaktisches und Use-Cases Kritik und Diskussion.
© 2009 Quest Software, Inc. ALL RIGHTS RESERVED Quest Recovery Manager for SharePoint Volker Pingen Senior System Consultant
Integration SAP ERP Invoice zu ebinterface 4.0
Ruby Refactoring Plug-In für Eclipse
CMS-Kolloquium am 10. Januar 2006
QIS/LSF Dr. Martin Klingspohn.
SQLite und XML in PHP 5.
PHP Einführung Anbindung an XML Technologien Jürgen Mangler.
RATEME Suchen und Bewerten von Ausgangsorten. Inhalt RateMe - Pirmin Schürmann, Thomas Junghans - Hochschule für Technik Zürich 2 Unser Ziel.
Erstellung eines Add-Ins zur Verschlagwortung von Office-Dokumenten
TradingCenter Markus Block Ronald Kutschke P2P Applikation basierend auf Suns JXTA Technologie im Rahmen des.
Marco Behnke Git free & open source, distributed version control system Git.
Eike Schallehn, Martin Endig
Eike Schallehn, Martin Endig
© 2001 Sven Dammann1 Aufbau Integrierter Informationssysteme XML Bearbeitung und relationale Abbildung Sven Dammann Martin-Luther-Universität Halle-Wittenberg.
Zentrale Authentifizierungsplattform mit Open Text Website Management bei Thieme.
Infopoint, , Jörg Wüthrich Infopoint "Social Coding", Jörg Wüthrich
Präsentation Projektarbeit Projektarbeit vom – Erstellt von Michael Schilling 2005.
JQuery: New Wave Javascript Seite 1 jQuery: New Wave Javascript Jörn Zaefferer TIMETOACT Software & Consulting GmbHT: Im Mediapark 2F:
BUCHUNGSPLATTFORM SWE Gruppe 3: Florian Schwarzhans Nenad Kircanski
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Social Search.
VU Projektmanagement in der Schule Armbrustschützenwettbewerb Verwaltung Alexander Lauscher / Mario Glaser / Daniel Kolm
Pascal Brunner Uniklinik RWTH Aachen Institut für Medizinische Informatik Integration von ImageJ- und Matlab- Servern in das Electronic Data Capture klinischer.
Campus Bern Patrick Mäschli, Software Architect
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Information Retrieval mit Oracle Text Erfahrungsbericht.
Technik und Informatik Project STUMR Team „olimination“ Datum 18. Januar 2011 Eine Präsentation von: Remo Albertani Oliver Burkhalter Steven Heller Thomas.
Von Tugay Haskioglu und Thomas Hartmann.  Projekt Vision  Projekt Management ◦ Use Case Diagramm ◦ Redmine  Projekt Architektur  Projekt Realisierung.
von Valentin Durst und Steffi Klein
Alles wird gut! Suche im MyCoRe Jens Kupferschmidt
 Präsentation transkript:

SpringerMedizin Suchoptimierung Nemo-Projekt Burak Cetinkaya - Fabian Engels - Franziska Kowalke - Lukas Tibursky 07.07.2014 1

Agenda Aufgabe/Probleme Vorgehen Demo Methodik Ergebnisse Weiterführung Lessons Learned 2

Aufgabe/Problem 3

Vorgehen 4 Einarbeitung Solr konfigurieren Datenimport Suche Goldstandard Apache Solr Spring MVC Junit /Mockito VirtualBox Springer Core Author Core Anpassung der Konfigurationsdateien Indexierung von Beispieldokumenten MESH anbinden Suchseite InstantSearch Highlighting Suggestion Kombination der Cores Synonyme Example Queries von Biomedcentral Suchergebnisse Messen mittels Mean Reciprocal Rank Visuelle Darstellung des Goldstandards laden Goldstandard 4

DEMO 5

Methodik Indizierung * Indizierung per Implementierung des DataImportHandlers in der solr-Konfiguration - XML-Dateien von Springer mittels Xpath-Ausdrücken indiziert. - Indizierung der Dokumente mittels gezieltem absenden von Such-Queries evaluiert - 2788 XML-Dateien Indiziert * Während der Indizierung copyFields für Suggester aufbauen - Suggester in solrconfig.xml implementieren der für diese Felder Vorschläge zurückgibt Struktur der Indizierung: * Highlighting in Standart-Solr-Konfiguration vorhanden - Probleme mit Implementierung der hintereinander geschalteten Cores AuthorGroup GivenName FamilyName AuthorName Author Core Article Title Article SubTitle Token + Synonym Springer Core ... 6

Methodik Synonyme Query Analyser Synonyme Index Analyser Query 7 Cancer of Breast, Breast Cancer Breasts Tumor Breast Cancer of Query Analyser Synonyme Index Analyser Query Cancer of Breast 7

Methodik Datenstruktur/Gold SearchQuery “cancer” SearchResultsMap Map(docid,pos) SearchResults Map(SearchQuery,SearchResults) SearchQueryExecution (SearchResults,SearchResults) Calculate Mean Reciprocal Rank Gold Result Search Result Metric Table 8

Ergebnis Goldstandart - Testframework auf Basis von Spring MVC Das Testframework gibt ein arithmetische Mittel (MRR) aus, um das Ranking-Ergebnis einer Query über eine Anzahl an möglichen Ergebnissen zu evaluieren. Erweiterungen und Änderungen an Solr können direkt bewertet werden. Indizierung der A++ Struktur Eine mögliche Lösung für die Indizierung der bisherigen XML-Dokumente in einen Solr-Index ist von uns bereitgestellt. SolrSuggester, InstantSearch, Autocomplete Die Nutzung des Suggester von Solr selbst, eine eigene Implementierung des InstantSearches mittels jQuery, sowie eine eigene Implementierung einer Autocomplete-Lösung mittels jQuery ist von uns realisiert worden 9

Ergebnis Virtualbox Bereitgestellte Dokumente 10 * Virtualbox - Image - funktionsfähige Umgebung - Beispiel für Einrichtung unserer Lösung (Readme - Datei angehangen) - Auslieferung als .rar oder auch auf DVD möglich Bereitgestellte Dokumente how to setup virtualbox containing our solution https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20use%20the%20virtual%20box%20%28on%20ubuntu%29 how to setup project locally without virtualbox https://bitbucket.org/beuthspringerteam/springer-solr/wiki/How%20to%20Setup%20the%20project Info-document containing team-infos, goals, plannings https://docs.google.com/document/d/1CARvHSsHC3KKxHg2Ox8WaYLaMNNoiAbd_5eksuZ_k-0/edit?usp=sharing 10

Weiterführung Highlighting für Synonyme implementieren Goldstandard vervollständigen durch gezieltere Datenanalyse Erweitern der SolrInstanz um weitere Funktionen(Testen mit dem Testframework) Authoren-Namen-Importfilter weiter optimieren Synoymen Multi Wildcards Trefferlisten sollten die Ergebnisse durchsuchbar machen damit Artikel Informationen verglichen werden können. 11

Lessons Learned Apache Solr und Spring-Applikation in getrennten Repositories versionieren Eine einheitliche Server-Instanz in einer VM für das Team bereitstellen, die sowohl Solr als auch Tomcat umfasst aber nicht die Entwicklungsumgebung. wissenschaftliche Anfangsanalyse der Eingangsdaten und Problematik durchführen 12