Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Eckhard Lachner Geändert vor über 11 Jahren
1
Math-Net ein Netzwerk für die Mathematik
SuMa Treffen ZIB Berlin
2
Vision (1993) "Mathematical information at your fingertips"
Weltweites elektronisches Informations- und Kommunikationssystem (für die Mathematik, um die Forschung und Lehre zu verbessern und zu unterstützen)
3
Lokale Ressourcen Math-Net Dissertationen Informationen Preprints
über Personen Math-Net Informationen über Institute Research Information Software Jobs Informations- services Events Lehr Material
4
Idee des Math-Net Verteiltes IuK-System
Basis: lokale elektronische Informationen der beteiligten mathematischen Institutionen Dezentrale Organisation mit geringen zentralen Anteilen Offen und Qualitätsorientiert
5
Math-Net Seite oder Secondary
Homepage Einheitliche Struktur der beteiligten Institutionen
6
Math-Net Seiten in Deutschland
7
(MySQL-) Database Zentrale Datenbank als Basis der Math-Net Dienste
RDF Navigator Persona Mathematica MPRESS SIGMA Links Schematische Darstellung der neuen Architektur
8
Remote Auswertung der Math-Net Seiten
Math-Net Database Math-Net Institutionen Math-Net Regionalpartner
9
Harvest: Broker/Gatherer Hierarchie
IMU Broker Kont European Broker j German Broker EU i Regional broker Department Broker Summarizer (Index) WWW Server Broker Gatherer FTP Server
10
Community-Driven Services
Das Konzept der freiwilligen, kooperativen und offenen Zusammenarbeit hat objektive und subjektive Grenzen Manpower und Ressourcen Nur bedingt wissenschaftliche Anerkennung Wird nicht als "wichtig genug" angesehen Letztlich gibt es zu wenig Rückhalt "vor Ort"
11
Neuorientierung Suchmaschinen (Testlabor)
automatische Klassifikationsverfahren
12
Suchmaschinen: Generelle Vorgehensweise
Phase I: Hole alle relevanten Objekte: Spider, Crawler, Gatherer Phase II: Verarbeite die relevante Information zu einem Index Summarizer Indexer Phase III: Liefere ("gute") Ergebnisse Ranking
13
Kandidaten und Strategien
Komplettsysteme (Phase I, II, III) harvest (gatherer, broker, glimpse) swish-e (spider.pl und indexierer) nutch (lucene) Teilsysteme Phase I: wget und w3mir Phase II: lucene Phase III: ??
14
Vorgehensweise lokal angepasste Kopien zweier unterschiedlicher Sites
7371 Dateien, davon 2293 HTML 1160 Images 140 Text 81 PDF 19 PS Rest: u.a. tmp, harvest 70126 Dateien, davon 17981 HTML 17147 Images 2024 PDF 991 PS 140 Text Rest: u.a. test Faktor 10
15
(vorläufiges) Fazit Suchmaschinen zu betreiben
ist aufwendig erfordert hohes Maß an Kontrolle der einzelnen Phasen ist kein "Job mal so nebenbei" Suchmaschinen für eine Community zu betreiben ist ein Projekt bedarf ein koordiniertes Vorgehen sollte auf mehreren Schultern verteilt werden bedarf grösserer Resourcen
16
unsere Empfehlung harvest (wget) nutch/lucene, swish-e
ist weiterhin nicht schlecht, bedarf aber sehr hoher Einarbeitung und Kontrolle der Ergebnisse ist eigentlich ideal für ein verteiltes, dezentrales Vorgehen (wget) nutch/lucene, swish-e laufen relativ problemlos auf überschaubaren Sites Status bei sehr grossen Sites bzw. community basierten Indexen unklar (Grössenordnung 1 Tbyte Daten)
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.