Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Jahrestagung der Deutschen Mathematiker-Vereinigung 2006 Bonn 17. - 23. September 2006 Eine Suchmaschine für die Mathematik Wolfgang Dalitz Zuse-Institut.

Ähnliche Präsentationen


Präsentation zum Thema: "Jahrestagung der Deutschen Mathematiker-Vereinigung 2006 Bonn 17. - 23. September 2006 Eine Suchmaschine für die Mathematik Wolfgang Dalitz Zuse-Institut."—  Präsentation transkript:

1 Jahrestagung der Deutschen Mathematiker-Vereinigung 2006 Bonn September 2006 Eine Suchmaschine für die Mathematik Wolfgang Dalitz Zuse-Institut Berlin (ZIB)

2 Inhalt 1.Motivation 2.Tests 3.Ergebnisse 4.Howtos 5.Ausblick

3 Allgemeingut Suchmaschinen sind fast das wichtigste Hilfsmittel beim Auffinden relevanter Informationen im Internet

4 Eine Suchmaschine für die Mathematik? "Es gibt doch Google!"

5 webhits.de vom google.de hält einen Marktanteil von über 90% AOL, T-Online und freenet.de reichen die Suchergebnisse von google.de durch

6 Aber … "gute" Suchmaschinen zu betreiben ist ein Milliardengeschäft und somit von kommerziellen Interessen bestimmt "gute" Suchmaschinen sind Manipulations- versuchen ausgesetzt

7 tagesspiegel vom "Wir waren in der Lage, voll von dem Wachstum in der Online-Werbung zu profitieren." Eric Schmidt Anleger konnten … einen Kursgewinn von fast 160 Prozent verzeichnen. (Emissionspreis von 85 Dollar, jetzt: 216 Dollar, Vorhersage: 270 Dollar)

8 tagesspiegel vom

9 c't 9/2005 vom Manipulationsversuche, um besseres Ranking zu bekommen "… Altavista wurde durch Keyword bepackten Spam derart vollgestopft, dass er am Ende 1997 kaum noch zu ge- brauchen war – ein Problem, von dem sich AltaVista nie mehr so richtig erholen konnte, denn 1998 trat ein an- deres Unternehmen auf dem Plan, das schnell zur Num- mer Eins avanchieren sollte: Google." "Link-Farmen" als ein Beispiel beeinflussen das Google- Ranking

10 Grundsätze Die Wissenschaft darf sich nicht von (notwendigen) Diensten abhängig machen, –die (vorwiegend) von kommerziellen Interessen bestimmt sind –und schon gar nicht, wenn deren Ergebnisse nicht nachprüfbar sind

11 Deswegen "Eine Suchmaschine für die Mathematik!"

12 Selbst ist die Wissenschaft Aufgabenstellung: Suchmaschine zu betreiben –mit vertretbarem (technischen und personellen) Aufwand –mit beherrschbarer Technik –"besser als Google" für die Domain Mathematik Randbedingungen –open domain –community-driven –fachspezifisch (topic spezifisch) –zum lokalen Betrieb –langfristig: zum community-basierten Betrieb

13 Prinzipielle Arbeitsweise von Suchmaschinen Phase I: Hole alle relevanten Objekte: –Spider, Crawler, Gatherer Phase II:Verarbeite die relevante Information zu einem Index –Summarizer –Indexer Phase III: Liefere ("gute") Ergebnisse –Ranking

14 Kandidaten und Strategien Komplettsysteme (Phase I, II, III) –harvest (gatherer, broker, glimpse) –swish-e (spider.pl und indexierer) –nutch (lucene) Teilsysteme –Phase I: wget und w3mir –Phase II:lucene –Phase III:??

15 Vorgehensweise lokal angepasste Kopien zweier unterschiedlicher Sites Site I Dateien, davon –2293 HTML –1160 Images – 140 Text – 81 PDF – 19 PS Rest: u.a. –tmp, harvest Site II Dateien, davon –17981 HTML –17147 Images – 2024 PDF – 991 PS – 140 Text Rest: u.a. –test Faktor 10

16 Vollständigkeit (Phase I) (2.293)all (7.371) harvest nutch swish-e (spider.pl) wget w3mir XENU da-spider.pl Site I

17 Erklärungen es gibt –Innenansichten (Filesystem) –symbolische Links –Aussenansichten (Webserver) es wird nicht-konformes HTML benutzt –infolgedessen ist die HTML-Analyse und die resultierende Linkliste zum Weiterverfolgen unterschiedlich

18 c't 9/2005 vom Studie: nur 3,9 % der deutschen Websites standardkonform "… Anders herum: 96,1 Prozent der überprüften Web-Präsenzen enthalten ungültigen Code"

19 Vollständigkeit (Phase I) (17.981)all (70.126) harvest nutch swish-e (spider.pl)4.869 wget w3mir XENU da-spider.pl Site II

20 Indexierung (Phase II) harvest/glimpse –schnell –muss den jeweiligen Erfordernissen (summarizern) angepasst werden spider.pl/swish-e –schnell nutch/lucene –schnell –inkrementeller Aufbau des Indexes

21 Ranking (Phase III) ? das, was offensichtlich eine (gefühlt) gute Suchmaschine ausmacht! Gibt es eigentlich "objektive Gütekriterien" ? Hoher Forschungs- oder wenigstens Klärungsbedarf automatische Klassifikationsverfahren Clusterverfahren

22 Howtos für Harvest & Nutch Requirements Installation Running Limitations

23 Harvest: Konzept Gatherer: Sammelt übers Internet erhaltene Dokumente und bildet daraus Attribute/Value-Dateien (SOIF) Broker: Holt die SOIF-Dateien verschiedener Gatherer und/oder Broker ab Indexierer generiert einen absuchbaren Index (z.Z. Glimpse, Zebra, …)

24 Harvest: Broker/Gatherer Hierarchie Broker German Broker Gatherer WWW Server FTP Server Summarizer (Index) European Broker IMU Broker Regional broker Department Broker EU Kont j i

25 Howto run Harvest Voraussetzungen –Unix (kein Windows XY) –perl, C –Webserver muss angepasst werden Starte Gatherer und Broker laufender Betrieb –die gatherer müssen periodisch angestossen werden (crontab) –Monitoring der 'daemons' –logfiles

26 Harvest: Limitations letzte Version 2005 –(Harvest ) –nur geringe Weiterentwicklungen Tests mit grossen Sites unklar: –1 TeraByte an Daten –100 Mio. Datensätze

27 Nutch: Konzept Web Database –Page Database (used for fetch scheduling) –Link Database represents full link graph stores anchor text associated with each link used for: –link analysis –anchor text indexing Lucene als Indexierer – "A new star is born …"

28 Nutch: Architektur

29 Howto run Nutch/Lucene Voraussetzungen –keine speziellen Rechte (su, filesystem) –Windows oder Linux (SuSE 10.0) –Java Runtime Umgebung (J2SE 5.x bzw. java_1_5_sun) –Tomcat (Webserver) (Version ) ggf. Port 8080 nach aussen öffnen (Firewall)

30 Run Nutch config-files –specify root URLs –specify URL filters –optionally, add a config file specifying: delay between fetches num fetcher threads levels to crawl Starte Crawler: command line bin/nutch crawl urls -dir crawl -depth 3 -topN 20 Starte tomcat ~/local/tomcat/bin/catalina.sh start Searchengine unter –http://localhost:8080/

31 Nutch: Remarks Für grosse Systeme ausgelegt: –Verteiltes System google fs / MapReduce commandline orientiert: –admin db –create –inject –generate –fetch –updatedb –… –index –dedup 'merge' mehrerer Crawler möglich 'recrawl' muss explizit angestossen werden

32 Fazit Suchmaschinen zu betreiben –ist aufwendig, aber notwendig –erfordert Kontrolle der einzelnen Phasen Suchmaschinen für eine Community zu betreiben –ist ein Projekt –bedarf eines koordinierten Vorgehens –bedarf grösserer Resourcen –sollte auf mehrere Schultern verteilt werden

33 Ausblick Suchmaschinentechnologien –sind technisch spannend –sollten näher in den Fokus der Förderpolitik rücken, insbesondere die Community-basierten Ansätze verdienen verstärkte Aufmerksamkeit –haben hohes Innovationspotential –sind noch lange nicht ausgereizt

34 Danke für die Aufmerksamkeit


Herunterladen ppt "Jahrestagung der Deutschen Mathematiker-Vereinigung 2006 Bonn 17. - 23. September 2006 Eine Suchmaschine für die Mathematik Wolfgang Dalitz Zuse-Institut."

Ähnliche Präsentationen


Google-Anzeigen