Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Svenja Westerhoff Geändert vor über 10 Jahren
1
Eine Suchmaschine für die Mathematik Wolfgang Dalitz Zuse-Institut Berlin (ZIB)
Jahrestagung der Deutschen Mathematiker-Vereinigung Bonn September 2006
2
Inhalt Motivation Tests Ergebnisse Howtos Ausblick
3
Allgemeingut Suchmaschinen sind fast das wichtigste Hilfsmittel beim Auffinden relevanter Informationen im Internet
4
Eine Suchmaschine für die Mathematik?
"Es gibt doch Google!"
5
webhits.de vom 18.09.2006 google.de hält einen
Marktanteil von über 90% AOL, T-Online und freenet.de reichen die Suchergebnisse von google.de durch
6
Aber … "gute" Suchmaschinen zu betreiben ist ein Milliardengeschäft und somit von kommerziellen Interessen bestimmt "gute" Suchmaschinen sind Manipulations-versuchen ausgesetzt
7
tagesspiegel vom "Wir waren in der Lage, voll von dem Wachstum in der Online-Werbung zu profitieren." Eric Schmidt Anleger konnten … einen Kursgewinn von fast 160 Prozent verzeichnen. (Emissionspreis von 85 Dollar, jetzt: 216 Dollar, Vorhersage: 270 Dollar)
8
tagesspiegel vom
9
Manipulationsversuche, um besseres Ranking zu bekommen
c't 9/2005 vom Manipulationsversuche, um besseres Ranking zu bekommen "… Altavista wurde durch Keyword bepackten Spam derart vollgestopft, dass er am Ende 1997 kaum noch zu ge- brauchen war – ein Problem, von dem sich AltaVista nie mehr so richtig erholen konnte, denn 1998 trat ein an- deres Unternehmen auf dem Plan, das schnell zur Num- mer Eins avanchieren sollte: Google." "Link-Farmen" als ein Beispiel beeinflussen das Google- Ranking
10
Grundsätze Die Wissenschaft darf sich nicht von (notwendigen) Diensten abhängig machen, die (vorwiegend) von kommerziellen Interessen bestimmt sind und schon gar nicht, wenn deren Ergebnisse nicht nachprüfbar sind
11
Deswegen "Eine Suchmaschine für die Mathematik!"
12
Selbst ist die Wissenschaft
Aufgabenstellung: Suchmaschine zu betreiben mit vertretbarem (technischen und personellen) Aufwand mit beherrschbarer Technik "besser als Google" für die Domain Mathematik Randbedingungen open domain community-driven fachspezifisch (topic spezifisch) zum lokalen Betrieb langfristig: zum community-basierten Betrieb
13
Prinzipielle Arbeitsweise von Suchmaschinen
Phase I: Hole alle relevanten Objekte: Spider, Crawler, Gatherer Phase II: Verarbeite die relevante Information zu einem Index Summarizer Indexer Phase III: Liefere ("gute") Ergebnisse Ranking
14
Kandidaten und Strategien
Komplettsysteme (Phase I, II, III) harvest (gatherer, broker, glimpse) swish-e (spider.pl und indexierer) nutch (lucene) Teilsysteme Phase I: wget und w3mir Phase II: lucene Phase III: ??
15
Vorgehensweise lokal angepasste Kopien zweier unterschiedlicher Sites
Site I 7371 Dateien, davon 2293 HTML 1160 Images 140 Text 81 PDF 19 PS Rest: u.a. tmp, harvest Site II 70126 Dateien, davon 17981 HTML 17147 Images 2024 PDF 991 PS 140 Text Rest: u.a. test Faktor 10
16
Vollständigkeit (Phase I)
Site I html (2.293) all (7.371) harvest 1.8.3 712 784 nutch 710 780 swish-e (spider.pl) 800 wget 1.196 w3mir 709 1.194 XENU 708 1.176 da-spider.pl 1.164
17
Erklärungen es gibt es wird nicht-konformes HTML benutzt
Innenansichten (Filesystem) symbolische Links Aussenansichten (Webserver) es wird nicht-konformes HTML benutzt infolgedessen ist die HTML-Analyse und die resultierende Linkliste zum Weiterverfolgen unterschiedlich
18
c't 9/2005 vom Studie: nur 3,9 % der deutschen Websites standardkonform "… Anders herum: 96,1 Prozent der überprüften Web-Präsenzen enthalten ungültigen Code"
19
Vollständigkeit (Phase I)
Site II html (17.981) all (70.126) harvest 1.8.3 598 26.570 nutch 7.274 39.271 swish-e (spider.pl) 4.869 wget 8.274 54.826 w3mir 3.490 3.684 XENU 429 849 da-spider.pl 16.359 40.018
20
Indexierung (Phase II)
harvest/glimpse schnell muss den jeweiligen Erfordernissen (summarizern) angepasst werden spider.pl/swish-e nutch/lucene inkrementeller Aufbau des Indexes
21
Ranking (Phase III) ? das, was offensichtlich eine (gefühlt) gute Suchmaschine ausmacht! Gibt es eigentlich "objektive Gütekriterien" ? Hoher Forschungs- oder wenigstens Klärungsbedarf automatische Klassifikationsverfahren Clusterverfahren
22
Howtos für Harvest & Nutch
Requirements Installation Running Limitations
23
Harvest: Konzept Gatherer: Sammelt übers Internet erhaltene Dokumente und bildet daraus Attribute/Value-Dateien (SOIF) Broker: Holt die SOIF-Dateien verschiedener Gatherer und/oder Broker ab Indexierer generiert einen absuchbaren Index (z.Z. Glimpse, Zebra, …)
24
Harvest: Broker/Gatherer Hierarchie
IMU Broker Kont European Broker j German Broker EU i Regional broker Department Broker Summarizer (Index) WWW Server Broker Gatherer FTP Server
25
Howto run Harvest Voraussetzungen Starte Gatherer und Broker
Unix (kein Windows XY) perl, C Webserver muss angepasst werden Starte Gatherer und Broker laufender Betrieb die gatherer müssen periodisch angestossen werden (crontab) Monitoring der 'daemons' logfiles
26
Harvest: Limitations letzte Version 2005
nur geringe Weiterentwicklungen Tests mit grossen Sites unklar: 1 TeraByte an Daten 100 Mio. Datensätze
27
Nutch: Konzept Web Database Lucene als Indexierer
Page Database (used for fetch scheduling) Link Database represents full link graph stores anchor text associated with each link used for: link analysis anchor text indexing Lucene als Indexierer "A new star is born …"
28
Nutch: Architektur
29
Howto run Nutch/Lucene
Voraussetzungen keine speziellen Rechte (su, filesystem) Windows oder Linux (SuSE 10.0) Java Runtime Umgebung (J2SE 5.x bzw. java_1_5_sun) Tomcat (Webserver) (Version ) ggf. Port 8080 nach aussen öffnen (Firewall)
30
Run Nutch config-files
specify root URLs specify URL filters optionally, add a config file specifying: delay between fetches num fetcher threads levels to crawl Starte Crawler: command line bin/nutch crawl urls -dir crawl -depth 3 -topN 20 Starte tomcat ~/local/tomcat/bin/catalina.sh start Searchengine unter
31
Nutch: Remarks Für grosse Systeme ausgelegt: commandline orientiert:
Verteiltes System google fs / MapReduce commandline orientiert: admin db –create inject generate fetch updatedb … index dedup 'merge' mehrerer Crawler möglich 'recrawl' muss explizit angestossen werden
32
Fazit Suchmaschinen zu betreiben
ist aufwendig, aber notwendig erfordert Kontrolle der einzelnen Phasen Suchmaschinen für eine Community zu betreiben ist ein Projekt bedarf eines koordinierten Vorgehens bedarf grösserer Resourcen sollte auf mehrere Schultern verteilt werden
33
Ausblick Suchmaschinentechnologien sind technisch spannend
sollten näher in den Fokus der Förderpolitik rücken, insbesondere die Community-basierten Ansätze verdienen verstärkte Aufmerksamkeit haben hohes Innovationspotential sind noch lange nicht ausgereizt
34
Danke für die Aufmerksamkeit
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.