Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Math-Net ein Netzwerk für die Mathematik.

Ähnliche Präsentationen


Präsentation zum Thema: "Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Math-Net ein Netzwerk für die Mathematik."—  Präsentation transkript:

1 Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Math-Net ein Netzwerk für die Mathematik SuMa Treffen ZIB Berlin

2 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Vision (1993) "Mathematical information at your fingertips" Weltweites elektronisches Informations- und Kommunikationssystem (für die Mathematik, um die Forschung und Lehre zu verbessern und zu unterstützen)

3 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Lokale Ressourcen Software Research Information Informationen über Personen Informationen über Institute Preprints Dissertationen Jobs Informations- services Events Math-Net Lehr Material

4 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Idee des Math-Net Verteiltes IuK-System Basis: lokale elektronische Informationen der beteiligten mathematischen Institutionen Dezentrale Organisation mit geringen zentralen Anteilen Offen und Qualitätsorientiert

5 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Math-Net Seite oder Secondary Homepage Einheitliche Struktur der beteiligten Institutionen

6 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Math-Net Seiten in Deutschland

7 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz (MySQL-) Database RDF Navigator Persona Mathematica MPRESS SIGMA Links Zentrale Datenbank als Basis der Math-Net Dienste

8 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Remote Auswertung der Math-Net Seiten Math-Net Regionalpartner Math-Net Institutionen Math-Net Database

9 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Harvest: Broker/Gatherer Hierarchie Broker German Broker Gatherer WWW Server FTP Server Summarizer (Index) European Broker IMU Broker Regional broker Department Broker EU Kont j i

10 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Community-Driven Services Das Konzept der freiwilligen, kooperativen und offenen Zusammenarbeit hat objektive und subjektive Grenzen Manpower und Ressourcen Nur bedingt wissenschaftliche Anerkennung Wird nicht als "wichtig genug" angesehen Letztlich gibt es zu wenig Rückhalt "vor Ort"

11 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Neuorientierung Suchmaschinen (Testlabor) automatische Klassifikationsverfahren

12 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Suchmaschinen: Generelle Vorgehensweise Phase I: Hole alle relevanten Objekte: Spider, Crawler, Gatherer Phase II:Verarbeite die relevante Information zu einem Index Summarizer Indexer Phase III: Liefere ("gute") Ergebnisse Ranking

13 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Kandidaten und Strategien Komplettsysteme (Phase I, II, III) harvest (gatherer, broker, glimpse) swish-e (spider.pl und indexierer) nutch (lucene) Teilsysteme Phase I: wget und w3mir Phase II:lucene Phase III:??

14 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz Vorgehensweise lokal angepasste Kopien zweier unterschiedlicher Sites Dateien, davon 2293 HTML 1160 Images 140 Text 81 PDF 19 PS Rest: u.a. tmp, harvest Dateien, davon HTML Images 2024 PDF 991 PS 140 Text Rest: u.a. test Faktor 10

15 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz (vorläufiges) Fazit Suchmaschinen zu betreiben ist aufwendig erfordert hohes Maß an Kontrolle der einzelnen Phasen ist kein "Job mal so nebenbei" Suchmaschinen für eine Community zu betreiben ist ein Projekt bedarf ein koordiniertes Vorgehen sollte auf mehreren Schultern verteilt werden bedarf grösserer Resourcen

16 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz unsere Empfehlung harvest ist weiterhin nicht schlecht, bedarf aber sehr hoher Einarbeitung und Kontrolle der Ergebnisse ist eigentlich ideal für ein verteiltes, dezentrales Vorgehen (wget) nutch/lucene, swish-e laufen relativ problemlos auf überschaubaren Sites Status bei sehr grossen Sites bzw. community basierten Indexen unklar (Grössenordnung 1 Tbyte Daten)

17 Konrad-Zuse-Zentrum für Informationstechnik BerlinWolfgang Dalitz


Herunterladen ppt "Wolfgang DalitzKonrad-Zuse-Zentrum für Informationstechnik Berlin (ZIB) Math-Net ein Netzwerk für die Mathematik."

Ähnliche Präsentationen


Google-Anzeigen