Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Entwurf, Realisierung und Analyse eines

Ähnliche Präsentationen


Präsentation zum Thema: "Entwurf, Realisierung und Analyse eines"—  Präsentation transkript:

1 Entwurf, Realisierung und Analyse eines
Fakultät für Informatik Institut für Programmstrukturen und Datenorganisation Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter 28. April 2006 Betreuer Prof. Dr.-Ing. Klemens Böhm, Dipl.-Wirtsch.-Inform. Stephan Schosser

2 Bis Ende 2006 250 Millionen Breitbandanschlüsse weltweit
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Prognose Bis Ende Millionen Breitbandanschlüsse weltweit

3 Kooperativer Aufbau einer Datenbasis, hohe Abdeckung des Webs
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Intro Steuerung Crawler Crawler Crawler Webseite bekannt? Crawler Verarbeitung Web Viele Milliarden Webseiten Suchmaschinenbetreiber Betreiben aufwendige Rechenzentren Hauptziele Schlankes Steuersystem Schnellstmögliche Kommunikation Hochperformante Crawler Webseite bekannt? Crawler Ziel Kooperativer Aufbau einer Datenbasis, hohe Abdeckung des Webs Grid - Ansatz Rechner über Middleware zusammenschalten, Aufgaben teilen Ermöglicht Ausnutzen überschüssiger Bandbreite, Speicher und Rechenleistung Peer-2-Peer Ansatz Gleichberechtigte Knoten, kommunizieren untereinander Crawler Laden von Webseiten, Verfolgen unbekannter Links 1 / 13

4 Inhalt Grid-Middleware Crawler Dienste Evaluation Zusammenfassung
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Intro Intro Virtuelle Organisationen, Globus-Toolkit, Dienste Arbeitsablauf, Komponenten, Anforderungen Inhalt Grid-Middleware Crawler Dienste Evaluation Zusammenfassung Verzeichnis- und Steuerdienste, Speicherdienste, Crawler Hochperformante Crawler durch kurze Wege der Kommunikation 2 / 13

5 Ziel: Aufbau eines Grids
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Grid-Middleware Virtuelle Organisation Sicherheitsanforderungen Anpassungsfähigkeit Leistungsanforderungen Fairness Heterogenität der Systeme Globus Toolkit: Grid Middleware SSL: Authorisierung Verzeichnisdienste Zugang auf Komponenten Lastverteilung Einheitliche Infrastruktur Ressourcen als Dienste Einheitliche Schnittstelle Definition Dienstmerkmale Eindeutige Namen Anpassung auf System Nutzung heterogener Systeme Grid Services Webservices + Zustände Verwendung von XML-Standard zur Kommunikation Installation in einheitlicher Infrastruktur Ziel: Aufbau eines Grids Rechner über Internet verbinden, leistungsfähigere Anwendungen 3 / 13 Grid-Services Dienste auf einheitlicher Infrastruktur, Nutzung heterogener Systeme

6 Bandbreite, Speicherplatz, Rechenleistung
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Crawler Komponenten Steuerung -> Filterung, Verteilung Speicherdienste -> Webseiten speichern Crawler -> Webseiten laden, auswerten Als Dienste in einem Grid aufbauen Pro Webseite ca. 15 kByte neuer Daten, ca. 8 neue Links Steuerung, Verarbeitung und Speicherung getrennt Referenzarchitektur eines verteilten Crawlersystems 4 / 13 Anforderungen Bandbreite, Speicherplatz, Rechenleistung

7 Steuer- / Verzeichnis dienst Minimierte Kommunikation
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Crawler Lokale Nähe Zuordnung Steuerdienst Steuerdienst Verwendung bewährter Verfahren Crawler Speicherdienst Verzeichnis- dienst Crawler Verteiltes Hauptsystem Steuerdienst Fertig ?!? Optimierungen Speicherdienst Verzeichnis- dienst Kurze Wege Crawler Steuer- / Verzeichnis dienst Minimierte Kommunikation 5 / 13 Erweiterungen: Ziele Performanz, Verteilung, Verfügbarkeit, Skalierbarkeit, Effizienz Gridaufbau mit Standarddiensten von Globus-Toolkit Verzeichnis-,Steuer- und Speicherdienste und Crawler

8 Dienste des verteilten Hauptsystems | Steuerung | Verzeichnis
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Verzeichnisdienste = > Hierarchischer Verzeichnisdienst Schicht 1: CoreNet-List Kennt Verzeichnisdienste in Lokationen Anfragen an Gesamtnetz Schicht 2: Component-Router Kennen Dienste einer Lokation Zuordnung Crawler / Speicher zu Steuerdiensten Kanada CoreNet USA Nordamerika Crawler Steuer- dienst Weltweit Lokale Nähe Verteilung Zuordnung Lokale Nähe Verteilung Zuordnung Lokale Nähe Verteilung Zuordnung Crawler Dienste des verteilten Hauptsystems | Steuerung | Verzeichnis 6 / 13 Kurze Kommunikationswege Ermöglichen schnelleren Datenaustausch bei gleicher Verbindung

9 Menge an Domains Menge an Domains
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Steuerdienste Lokation: USA Effiziente Filterung Lokation: Deutschland Zuordnung Domains Trennung: Domain - URL Speicherdienst feste Zuteilung von Domains Filterung URLs dieser Domains Steuerdienst Zuordnung Domain -> Speicherdienst => Minimierte Kommunikation Statistiken Mehrere hundert Webseiten pro Präsenz Etwa 8 Links pro Webseite Mehr als 75 Prozent der Links auf interne Ziele Steuerung Filterung URLs Steuerung Steuerung Austausch von Domains Filterung URLs Speicherdienst Speicherdienst Speicherdienst Speicherdienst Filterung URLs Speicherdienst Speicherdienst Austausch von URLs Neue URLs Neue URLs Crawler Crawler Crawler Menge an Domains Menge an Domains Problem: Filterung aufwendig URL := <Domain> + <Pfade> + <Dateiname> Minimierte Kommunikation Zellen und Areas Verteilstrategien für Domains Dienste des verteilten Hauptsystems | Steuerung | Verzeichnis 7 / 13 Steuerdienste Unbekannte Webadressen zur Bearbeitung an Crawler weitergeben

10 Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Steuerdienste Lokation Area: Vermittlung der Zelle, in der eine Domain bearbeitet wird Area kennt Domains in Zellen dauerhafte Speicherung der Zuordnung Anfragen an Gesamtsystem Schlanker Steuerdienst in Zelle Zelle: Steuerdienst, Speicherdienste, Crawler | Menge an Domains Minimierte Kommunikation Zellen und Areas Verteilstrategien für Domains Dienste des verteilten Hauptsystems | Steuerung | Verzeichnis 8 / 13 Zellen und Areas Trennung von Vermittlung und Verarbeitung (vgl. Mobilfunk GSM)

11 Verteilstrategien für Domains
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Steuerdienste Kanada Messwerte Antwortzeit Ladezeit Lokationen Europa UK USA Verteilstrategien für Domains Afrika 3. Optimierung von Durchschnittswerten Zellen prüfen, ob Domain aus eigener Lokation Bearbeitung lokal naher Domains Sonst Austauschangebot mit lokal nahen Zellen => Faire Möglichkeiten der Optimierung 2. Bearbeitung lokal naher Domains Zellen prüfen, ob Domain aus eigener Lokation Bearbeitung lokal naher Domains Andere Domains an lokal nahe Zellen senden => Immer kürzeste Wege, aber „unfair“ 1. Standardstrategie Zelle, in der Domain zuerst auftritt, bearbeitet diese Messung von Antwort- und Ladezeiten Ermittlung der lokalen Verteilung von Domains => Sind umfangreichere Strategien sinnvoll ? Ziele Minimierung von Antwort- und Ladezeiten Entlastung der Zwischensysteme im Internet Kurze Ressourcenbelegung auf Web-Server => Mehr Webseiten in gleicher Zeit bearbeiten Südamerika Asien Minimierte Kommunikation Zellen und Areas Verteilstrategien für Domains Dienste des verteilten Hauptsystems | Steuerung | Verzeichnis 9 / 13 Hochperformante Crawler Kürzeste Wege der Kommunikation zwischen Crawler und Web-Server

12 Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Evaluation UK Realwelttest Planet-Lab Ziel: Vergleich der Verteilstrategien für Domains 4 Lokationen Nordamerika, Europa, Deutschland, UK 150 Rechner Automatisierte Installation von Globus-Toolkit und Grid-Services Europa Nordamerika Deutschland Problem Ständig reproduzierbare Nichterreichbarkeit benötigter Ports nach einigen Anfragen an Grid-Services. Vermutung Planet-Lab Rechner waren mit Globus-Toolkit überfordert Fehler trat in Labortest nicht auf 10 / 13 Evaluation Verteilstrategien für Domains zur Erstellung hochperformanter Crawler

13 Reaktions- und Ladezeiten
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Evaluation Realwelttest Planet-Lab Alternativer Aufbau Grid-Services in Laborumgebung Crawler in Planet-Lab Nordamerika Europa UK Deutschland Reaktions- und Ladezeiten Lokale Verteilung Messung von Reaktions- und Ladezeit, lokale Verteilung der Domains Ableitung: Verteilstrategien sinnvoll? Domains nach Ländern Halbe Reaktions- und Ladezeit in nahen Gebieten Etwa 40 Prozent der Webseiten austauschbar Mehr als 50 Prozent der Domains aus Nordamerika 11 / 13 Evaluation Verteilstrategien für Domains zur Erstellung hochperformanter Crawler Strategie: Optimierung von Durchschnittswerten Evtl. doppelte Verarbeitungsgeschwindigkeit für 40 Prozent der Webseiten Strategie: Bearbeitung lokal naher Domains Sinnvoll, wenn mehr als 50 Prozent der Dienste / Crawler in Nordamerika

14 Quellen Grid-Middleware Optimierungen Standards XML / SSL
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Zusammenfassung Quellen Globus Toolkit Foster; Kesselman; The Anatomy of the Grid: Enabling Scalable Virtual Organisations; Lecture Notes in Computer Science, Volume 2150; 2001 Grid-Services Czajkowski et al. ; From Open Grid Services Infrastructure to WS-Resource Framework: Refactoring & Evolution.. März 2004. Crawler-Referenzarchitektur Shkapenyuk; Suel; Design and implementation of a high-performance distributed Web crawler; In Proceedings of the 18th International Conference on Data Engineering (ICDE'02), San Jose, CA Feb. 26--March 1; Seite ; 2002 DNS-Server: Verteilter Verzeichnisdienst Cheriton; Mann, Timothy P.; Decentralizing a Global Naming Service for Improved Performance and Fault Tolerance; ACM Transactions on Computer Systems, Volume 7, Number 2, Seite ; Mobilfunk GSM: Trennung von Verarbeitung und Vermittlung Schiller; Mobilkommunikation, 2., überarbeitete Auflage, ISBN: , Mai 2003 12 / 13 Grid-Middleware Standards XML / SSL Optimierungen Umsetzung bewährter Verfahren

15 Danke für Ihre Aufmerksamkeit
Entwurf, Realisierung und Analyse eines hochgradig verteilten Web Crawlers mit Hilfe von Grid Middleware Andreas Walter, 28. April 2006 Status Intro | Grid-Middleware | Crawler | Verzeichnisdienste | Steuerdienste | Evaluation | Zusammenfassung Zusammenfassung Globus Toolkit Grid, Einheitliche Infrastruktur Crawler Dienste aus Referenzarchitektur Grid-Services - Verwendung von XML-Standards Folie 3 - 5 Sicherheit, Nutzung heterogener Ressourcen mit Hilfe von Diensten Verteilt arbeitender Verzeichnisdienst Unterstützt lokale Nähe Flexibler als Standardverzeichnis Hierarchisch Zuteilung Dienste Folie 6 Kurze Übertragungswege, Hohe Ausfallsicherheit, Skalierbarkeit Verteilt arbeitender Steuerdienst Schlanker Steuerdienst in Zellen Feste Zuteilung von Domains Trennung: Vermittlung und Verarbeitung Folie 7 - 8 Minimierte Kommunikation, Hohe Ausfallsicherheit, Skalierbarkeit Hochperformante Crawler Minimierung von Reaktions- und Ladezeiten Einsatz umfangreicherer Verteilstrategien für Domains Folie Effizienz 13 / 13 Danke für Ihre Aufmerksamkeit Haben Sie Fragen?


Herunterladen ppt "Entwurf, Realisierung und Analyse eines"

Ähnliche Präsentationen


Google-Anzeigen