Eine Suchmaschine für die Mathematik Wolfgang Dalitz Zuse-Institut Berlin (ZIB) Jahrestagung der Deutschen Mathematiker-Vereinigung 2006 Bonn 17. -

Slides:



Advertisements
Ähnliche Präsentationen
Zweieinhalb Jahre Open-Linking im KOBV-Portal: ein Erfahrungsbericht
Advertisements

PHP Extension und Application Repository
Semesterarbeit von Dieter Lorenz, Sebastian Galenski, Stephan Bury
Dynamische Seiten mit Dreamweaver Zugriff auf (mysql) Datenbank mit PHP.
Vorgehensweise Website Besprechung am 11. Februar 2008 Gründung und Partnerunternehmen der Wirtschaftsuniversität Wien.
Internet Applikationen – Search Engines Copyright ©2003, 2004 Christian Donner. Alle Rechte vorbehalten. Architektur Moderner Internet Applikationen.
S uchmaschinennetzwerk im i nternationalen n aturwissenschaftlichen n etz sinn Michael Hohlfeld: IuK 2003, Osnabrück,
Julika Mimkes ISN Oldenburg LiLi Links zu Lerninhalten der Physik Eine Datenbank zu verteilten Quellen Julika Mimkes Institute.
Google Larry Page Sergej Brin 7. Sept Google Inc. PageRank – Citation Index – Qualität der Suchergebnisse Wider die Lügen im Hyperraum – Ranking.
Aufbau des Internets Überblick Prof. Dr. T. Hildebrandt
Einsatz neuer Technologien bei der Virtuellen Fachbibliothek Slavistik Ivo Ulrich, Staatsbibliothek zu Berlin 98. Bibliothekartag, Erfurt, 3. Juni 2009.
Pflege der Internetdienste
Klaus Kopperschmidt 22. Januar 2001
Datenbankzugriff im WWW (Kommerzielle Systeme)
eXist Open Source Native XML Database
Archivierung und Erschließung von Audio/Video-Material mit miless und MyCoRe F. Lützenkirchen Universitätsbibliothek.
Zusammenfassung & Fazit
Fallstudie. 2 Statistik April Dokumente Jan Mio. Dokumente Performance 3 Mio. Queries pro Tag 9. Juni 2000 Most popular search engines.
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
Wolfgang Dalitz (ZIB) Minisymposium 2: IuK-Fachgruppe der DMV Fachgruppensitzung Gemeinsame Jahrestagung der Deutschen Mathematiker Vereinigung (DMV) und.
Math-Net ein Netzwerk für die Mathematik
Suchmaschine vs. Katalog Such-Robots i.d.R. werden alle Seiten erfasst täglich werden mehrere Mio. Seiten besucht Redaktion relativ wenig Seiten erfasst.
XINDICE The Apache XML Project Name: Jacqueline Langhorst
Rechneraufbau & Rechnerstrukturen, Folie 14.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 14.
Suchmaschinenlabor an der Uni Hannover Derek Daniel.
S.I.N.N. Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz Ein Vortrag von Fabian A. Stehn
DER SPEZIALIST FÜR IHRE INFORMATIONSARCHITEKTUR neofonie neofonie Forschung und Entwicklung: Innovative Suchmethoden Präsentiert von Ronald.
Tomcat (I) Ende 1999 Jakarta-Projekt von Apache, IBM und Sun gegründet
Das Build-Tool ANT ETIS SS05. ETIS SS05 - Nadine FröhlichANT 2 Gliederung Motivation Build - Datei –Allgemeiner Aufbau –Project –Target –Task –Properties.
Technik Gestaltung Navigation Daten. Übersicht Client Webbrowser InternetServer.
Brandenburgische Technische Universität Cottbus Program Profiling Andrzej Filipiak Übung Testen von Software SoSe 2006.
Wie funktionieren Suchmaschinen?
Linux-HA-Cluster – Heartbeat mit DRBD
AWI externer WWW-Server interner WWW-Server Ausgangssituation www.
Seite Common Gateway Interface. Konzepte. Übersicht 1Einleitung 2Was ist CGI? 3Wozu wird CGI verwendet? 4Geschichtlicher Überblick 5Grundvoraussetzungen.
Systementwicklungsprojekt:
Diplomverteidigung Konzeption und Realisierung der Server-Komponente für ein P2P-File-Sharing-System, bei dem die User am Umsatz beteiligt sind Vortragender: Holger.
Simulation komplexer technischer Anlagen
Mark Doll – 1/21V3D2 Workshop 2003, Frankfurt/Main 19./ http:// Ansätze für eine Web-basierte Initiierung qualitätsbasierter Kommunikationsdienste.
Internet: Funktionsweise und Dienste
Entwicklung verteilter Anwendungen I, WS 13/14 Prof. Dr. Herrad Schmidt WS 13/14 Kapitel 11 Folie 2 Microsoft Internet Information Services (IIS)
Projektarbeit PHP 5.3 / MySQL & Content Management Systems
Westfälische Wilhelms-Universität Münster 15-JAN-2004 Heinz-Hermann Adam Benutzung von tragbaren Computern Unter Windows in.
Präsentation von Sonja Pathe
Context-awareness Andreas Bossard, Matthias Hert.
PHP Basic.
Seite 1 - Security in TYPO3 Willkommen Security in (und rund um) TYPO3 Christian Kurta
QIS/LSF Dr. Martin Klingspohn.
® IBM Software Group © 2005 IBM Corporation Hanseatic Mainframe Summit 2009.
Aufzeichnung von Usability-Daten im www. Client-Side Log : automatisch (maschinell) generiertes Protokoll Client : Rechner mit dem Browser des Users Server:
Dedizierte Systeme Typo3 Installation Dedizierte Systeme – Typo3 Installation – Christoph Stollwerk IT Zertifikat der Philosophischen Fakultät WS 2008/2009.
Dokumenten- und Publikationsserver
Backup der FTP-Daten mit BYSU (Back Your Space Up von George Ruinelli) Eine mögliche Variante, um FTP- Daten bei dem Provider „All-Inkl“ zu sichern.
Willkommen zum Brückensemester
prof. dr. dieter steinmannfachhochschule trier © prof. dr. dieter steinmann Folie 1 vom Montag, 30. März 2015.
Google (Web-Suchmaschine) Google Books Google Scholar
Informationsrecherche & Analyse im Netz
Datenbanken im Web 1.
1 Wolfgang Wiese, Regionales RechenZentrum Erlangen WCMS 3. August 2000 Wolfgang Wiese RRZE / Lehrstuhl für Informatik VII
Webserver Apache & Xampp Referenten: Elena, Luziano und Sükran
Webserver einrichten mit Konfiguration, online stellen, Zugang © by Lars Koschinski 2003.
1 Einführung TOMCAT Entwicklung Technischer Informationssysteme SS 2003 Florian Müller.
Wolfgang Dalitz (ZIB) Minisymposium 29 „Information, Kommunikation und Bibliotheken für die Mathematik" DMV-Tagung 2006 Bonn September 2006.
Greenstone. Theoretischer Teil Entstehung: Entwickelt vom New Zealand Digital Library Project an der Universität von Waikato Kooperation mit der UNESCO.
Pascal Brunner Uniklinik RWTH Aachen Institut für Medizinische Informatik Integration von ImageJ- und Matlab- Servern in das Electronic Data Capture klinischer.
IIS The microsoft way. © Windows NT Option pack optionale Server Komponenten IIS (Internet Information Server) Webserver von Microsoft.
Oracle Text bei sehr großen Datenmengen Referent Martin Augst Senior Project / Account Manager Semantec GmbH Benzstr.
Information Retrieval mit Oracle Text Erfahrungsbericht.
Application Performance Management Udo Brede.  Komplexe Umgebungen  Häufige Änderungen  Hohe Aktivität Database Servers Application Servers Web Servers.
eSciDoc als Plattform für die Wissenschaft Anwendungen und Szenarien
 Präsentation transkript:

Eine Suchmaschine für die Mathematik Wolfgang Dalitz Zuse-Institut Berlin (ZIB) Jahrestagung der Deutschen Mathematiker-Vereinigung 2006 Bonn 17. - 23. September 2006

Inhalt Motivation Tests Ergebnisse Howtos Ausblick

Allgemeingut Suchmaschinen sind fast das wichtigste Hilfsmittel beim Auffinden relevanter Informationen im Internet

Eine Suchmaschine für die Mathematik? "Es gibt doch Google!"

webhits.de vom 18.09.2006 google.de hält einen Marktanteil von über 90% AOL, T-Online und freenet.de reichen die Suchergebnisse von google.de durch

Aber … "gute" Suchmaschinen zu betreiben ist ein Milliardengeschäft und somit von kommerziellen Interessen bestimmt "gute" Suchmaschinen sind Manipulations-versuchen ausgesetzt

tagesspiegel vom 23.4.2005 "Wir waren in der Lage, voll von dem Wachstum in der Online-Werbung zu profitieren." Eric Schmidt Anleger konnten … einen Kursgewinn von fast 160 Prozent verzeichnen. (Emissionspreis von 85 Dollar, jetzt: 216 Dollar, Vorhersage: 270 Dollar)

tagesspiegel vom 23.7.2005

Manipulationsversuche, um besseres Ranking zu bekommen c't 9/2005 vom 18.4.2005 Manipulationsversuche, um besseres Ranking zu bekommen "… Altavista wurde durch Keyword bepackten Spam derart vollgestopft, dass er am Ende 1997 kaum noch zu ge- brauchen war – ein Problem, von dem sich AltaVista nie mehr so richtig erholen konnte, denn 1998 trat ein an- deres Unternehmen auf dem Plan, das schnell zur Num- mer Eins avanchieren sollte: Google." "Link-Farmen" als ein Beispiel beeinflussen das Google- Ranking

Grundsätze Die Wissenschaft darf sich nicht von (notwendigen) Diensten abhängig machen, die (vorwiegend) von kommerziellen Interessen bestimmt sind und schon gar nicht, wenn deren Ergebnisse nicht nachprüfbar sind

Deswegen "Eine Suchmaschine für die Mathematik!"

Selbst ist die Wissenschaft Aufgabenstellung: Suchmaschine zu betreiben mit vertretbarem (technischen und personellen) Aufwand mit beherrschbarer Technik "besser als Google" für die Domain Mathematik Randbedingungen open domain community-driven fachspezifisch (topic spezifisch) zum lokalen Betrieb langfristig: zum community-basierten Betrieb

Prinzipielle Arbeitsweise von Suchmaschinen Phase I: Hole alle relevanten Objekte: Spider, Crawler, Gatherer Phase II: Verarbeite die relevante Information zu einem Index Summarizer Indexer Phase III: Liefere ("gute") Ergebnisse Ranking

Kandidaten und Strategien Komplettsysteme (Phase I, II, III) harvest (gatherer, broker, glimpse) swish-e (spider.pl und indexierer) nutch (lucene) Teilsysteme Phase I: wget und w3mir Phase II: lucene Phase III: ??

Vorgehensweise lokal angepasste Kopien zweier unterschiedlicher Sites Site I www.mathematik-21.de 7371 Dateien, davon 2293 HTML 1160 Images 140 Text 81 PDF 19 PS Rest: u.a. tmp, harvest Site II www.zib.de 70126 Dateien, davon 17981 HTML 17147 Images 2024 PDF 991 PS 140 Text Rest: u.a. test Faktor 10

Vollständigkeit (Phase I) Site I www.mathematik-21.de html (2.293) all (7.371) harvest 1.8.3 712 784 nutch 710 780 swish-e (spider.pl) 800 wget 1.196 w3mir 709 1.194 XENU 708 1.176 da-spider.pl 1.164

Erklärungen es gibt es wird nicht-konformes HTML benutzt Innenansichten (Filesystem) symbolische Links Aussenansichten (Webserver) es wird nicht-konformes HTML benutzt infolgedessen ist die HTML-Analyse und die resultierende Linkliste zum Weiterverfolgen unterschiedlich

c't 9/2005 vom 18.4.2005 Studie: nur 3,9 % der deutschen Websites standardkonform "… Anders herum: 96,1 Prozent der überprüften Web-Präsenzen enthalten ungültigen Code"

Vollständigkeit (Phase I) Site II www.zib.de html (17.981) all (70.126) harvest 1.8.3 598 26.570 nutch 7.274 39.271 swish-e (spider.pl) 4.869 wget 8.274 54.826 w3mir 3.490 3.684 XENU 429 849 da-spider.pl 16.359 40.018

Indexierung (Phase II) harvest/glimpse schnell muss den jeweiligen Erfordernissen (summarizern) angepasst werden spider.pl/swish-e nutch/lucene inkrementeller Aufbau des Indexes

Ranking (Phase III) ? das, was offensichtlich eine (gefühlt) gute Suchmaschine ausmacht! Gibt es eigentlich "objektive Gütekriterien" ? Hoher Forschungs- oder wenigstens Klärungsbedarf automatische Klassifikationsverfahren Clusterverfahren

Howtos für Harvest & Nutch Requirements Installation Running Limitations

Harvest: Konzept Gatherer: Sammelt übers Internet erhaltene Dokumente und bildet daraus Attribute/Value-Dateien (SOIF) Broker: Holt die SOIF-Dateien verschiedener Gatherer und/oder Broker ab Indexierer generiert einen absuchbaren Index (z.Z. Glimpse, Zebra, …)

Harvest: Broker/Gatherer Hierarchie IMU Broker Kont European Broker j German Broker EU i Regional broker Department Broker Summarizer (Index) WWW Server Broker Gatherer FTP Server

Howto run Harvest Voraussetzungen Starte Gatherer und Broker Unix (kein Windows XY) perl, C Webserver muss angepasst werden Starte Gatherer und Broker laufender Betrieb die gatherer müssen periodisch angestossen werden (crontab) Monitoring der 'daemons' logfiles

Harvest: Limitations letzte Version 2005 nur geringe Weiterentwicklungen Tests mit grossen Sites unklar: 1 TeraByte an Daten 100 Mio. Datensätze

Nutch: Konzept Web Database Lucene als Indexierer Page Database (used for fetch scheduling) Link Database represents full link graph stores anchor text associated with each link used for: link analysis anchor text indexing Lucene als Indexierer "A new star is born …"

Nutch: Architektur

Howto run Nutch/Lucene Voraussetzungen keine speziellen Rechte (su, filesystem) Windows oder Linux (SuSE 10.0) Java Runtime Umgebung (J2SE 5.x bzw. java_1_5_sun) Tomcat (Webserver) (Version 5.5.17) ggf. Port 8080 nach aussen öffnen (Firewall)

Run Nutch config-files specify root URLs specify URL filters optionally, add a config file specifying: delay between fetches num fetcher threads levels to crawl Starte Crawler: command line bin/nutch crawl urls -dir crawl -depth 3 -topN 20 Starte tomcat ~/local/tomcat/bin/catalina.sh start Searchengine unter http://localhost:8080/

Nutch: Remarks Für grosse Systeme ausgelegt: commandline orientiert: Verteiltes System google fs / MapReduce commandline orientiert: admin db –create inject generate fetch updatedb … index dedup 'merge' mehrerer Crawler möglich 'recrawl' muss explizit angestossen werden

Fazit Suchmaschinen zu betreiben ist aufwendig, aber notwendig erfordert Kontrolle der einzelnen Phasen Suchmaschinen für eine Community zu betreiben ist ein Projekt bedarf eines koordinierten Vorgehens bedarf grösserer Resourcen sollte auf mehrere Schultern verteilt werden

Ausblick Suchmaschinentechnologien sind technisch spannend sollten näher in den Fokus der Förderpolitik rücken, insbesondere die Community-basierten Ansätze verdienen verstärkte Aufmerksamkeit haben hohes Innovationspotential sind noch lange nicht ausgereizt

Danke für die Aufmerksamkeit