FlexPath Netzwerkprozessor

Slides:



Advertisements
Ähnliche Präsentationen
Der VARAN-BUS.
Advertisements

Managed IT Operations Basis Managed Desktop Services 1.
Einführung/Praxisbeispiel:
Routing – Routing Protokolle
Rechnernetze und verteilte Systeme (BSRvS II)
Installation/Konfiguration Beispiele Probleme Übergabe
Echtzeit-Ethernet - eine Potentialanalyse -
Network-on-Chip basierende Laufzeitsysteme für dynamisch rekonfigurierbare Hardware Ronald Hecht Institut für Mikroelektrotechnik und Datentechnik Universität.
10 Bit Multiplizierer in VHDL
BUS-Systeme (PCI) Allgemeines über BUS-Systeme Allgemeines zum PCI-Bus
Analyse von Voice-over-IP-Software im Vergleich zu Hardwarelösungen und Integration in ein bestehendes, heterogenes VoIP-Netz Auswertung und Empfehlung.
Konfiguration eines VPN Netzwerkes
W. Oberschelp G. Vossen Kapitel 7.
Studiengang Informatik FHDW
2.5. Mikrocontroller-Komponenten
Virtualisierung mittels VMware und Datacore SANMelody
Vorlesung 3: Verschiedenes Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
Universitätsrechenzentrum Heidelberg Hartmuth Heldt HD-Net Backbone 1 HD-Net Backbone Stand: 1/2003.
4. Mikrocontroller-Komponenten
Content-Server Content Infra- struktur Streams Lösung Johannes Kohlmann, Universität Mannheim Content Server Johannes Kohlmann.
Fli4l Der Ein-Disketten-Router von Sebastian Röhl von Sebastian Röhl.
Schnittstellen in der Bildverarbeitung
Open Source Prozessor Leon2 Peer Royla und Marco Siebert RST-Labor WS 04/05 Prof. Dr.-Ing. Thomas Risse.
Performance Analyse und Kapazitätsplanung von IT-Systemen mit VITO
Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren
Virtual Private Networks
Netzwerkkomponenten (Hardware)
Evaluierung des ITU-T.124 Telekonferenzstandards
EPOC Embedded Performance Analysis for Organic Computing.
INSTITUT FÜR DATENTECHNIK UND KOMMUNIKATIONS- NETZE 1 Harald Schrom ViEWcon08.
Studienarbeit Mini-Web-Server auf einem Signalcontroller
Internet-Protokolle Tanja Witze.
Entwicklung verteilter eingebetteter Systeme - Einführung
Duo- und Quad Prozessor-Architektur
Nestor Workshop im Rahmen der GES 2007 Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker? Anforderungen von eScience und Grid-Technologie.
Christian Schindelhauer Sommersemester Vorlesung
Produktmanagement RimatriX & Software Solutions / Fabian Schäfer / 12
VPN Virtual Private Network
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Erstellen einer Webseitenstatistik mithilfe eines OLAP-Servers
Windows Server 2008 Kurzüberblick Dr. Richtmann+Eder AG Olschewskibogen München.
Service Computing   Prof. Dr. Ramin Yahyapour IT & Medien Centrum 19. Januar 2010.
Anforderungen an Satellite Learning Centers Werner Trips Christoph Eberlein.
3.4 CPU-Chips und Busse CPU-Chips
Signal-Prozessoren DSV1, 2009, Hhrt, 1 Mikro-Prozessor Von Neumann-Architektur Daten und Programmcode im gleichen Speicher => Sequenzieller Zugriff auf.
Embedded Systems Prof. Dr. H. Kristl
Computerorientierte Physik VORLESUNG
Präsentation von Lukas Sulzer
Warum gibt es Netzwerke?
Die verschiedenen Schnittstellen eines Computers und ihre Verwendung
Multiprozessoren: Herausforderung für die Software
Datenverarbeitung im PC
IPv6 Von Judith Weerda Diese Vorlage kann als Ausgangspunkt für die Präsentation von Schulungsmaterialien in einer Gruppensitzung dienen. Abschnitte.
Network-on-Chip (NoC)
Gina Müller, Jana Wilfing
VPN – Virtual Private Network
System zur Videokompression Simone Buzzi Simon Häne Giuseppe Schiavello.
Directors Prof. Dr.-Ing. K.D. Müller-Glaser Prof. Dr.-Ing. J. Becker Prof. Dr. rer. nat. W. Stork Institute for Information Processing Technology.
Schutzvermerk nach DIN 34 beachten Ethernet und Echtzeit.
Mikrocomputertechnik Jürgen Walter
JABBA: Flexibles Web - Interface Semesterarbeit von Thomas Zwicker, Thomas Moser und Lukas Karrer Prof. L. Thiele Betreuung: J. Greutert TIK ETH Zürich.
Der VARAN BUS.
TCP/IP.
VLAN Virtual Local Area Network
Analyse und Umsetzung einer Filter-basierten Paketverarbeitungsmaschine für IP-Netzwerke Lehrstuhl für Systemarchitektur und Betriebssysteme Forschungs-
Mikrocomputertechnik BLIN_INT-P-Quickie Prof. J. Walter Stand Januar Mikrocomputertechnik Jürgen Walter „BLIN_INT-P-Quickie“
Rechen- und Kommunikationszentrum (RZ) Strukturierte Datensammlung in verteilten Systemen für den DHCP-Service Tim Becker Seminararbeit / /
A. Steininger TU Vienna 1 Multicore eleganter Work-Around um die Design-Crisis Problemverschiebung in die SW (= auf höhere Ebene) ABER: hohe Parallelität.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Vom HW-Automaten zum Prozessor
 Präsentation transkript:

FlexPath Netzwerkprozessor Michael Meitinger Rainer Ohlendorf Thomas Wild Andreas Herkersdorf

Inhalt Kurzüberblick FlexPath Vervollständigung FlexPath Einzelmodule Path Dispatcher Path Control Systemintegration Dual Core Erweiterung Demonstrator: Einsatzszenarien & Messungen Anbindung an DynaCORE Ausblick Erweiterung des MPSoC Weitere Load Balancing Strategien Zusammenfassung

Kürzüberlick FlexPath NP Grundidee FlexPath Flexible Wegewahl für Pakete Paketabhängige Entscheidung in Hardware Regelbasis zur Laufzeit rekonfigurierbar Stark fluktuierende Verkehrsmuster Hardwareunterstützung AutoRoute-Pfad CPU Pfad Stand: Mai 2007

Path Dispatcher - Implementierung Publikationen: WASP 2007, Salzburg IEEE TVLSI (under review) Anforderungen an den Path Dispatcher: Realtime-Klassifikation des ankommenden Paketstroms nach Applikationen => Ziele im NP Regelbasis zur Laufzeit rekonfigurierbar Ansatz: Heterogeneous Decision Graph Algorithm (HDGA) optimierte Kombination aus Entscheidungsbaum und Hashtabellenlookup Baum: Regeln auf verschiedenen Headerfeldern (heterogen, z.B. protokollspez. Flags) Überprüfung von max. 2 Feldern pro Takt Hash-Tabelle: Bedingungen für ein Headerfeld mit vielen Möglichkeiten (homogen, z.B. Adressen) Resultate auf Virtex-4 FX60: 1,446 slices (6%), 14 BlockRAMs (6%) 101.8 MHz max. Taktfrequenz Organigramm !!!!

Path Control - Implementierung Publikation: ARCS 2008, Dresden Anforderungen an die Path Control: Sicherstellen der Paketreihenfolge am Ausgang Vermeidung von TCP-Retransmissions Erhöhung der Netzwerkperformance (Congestion Control) Ansatz: Festhalten der Paketreihenfolge am Eingang Aggregation Unit zur Wiederherstellung der Reihenfolge am Ausgang Resultate auf Virtex-4 FX60: Ingress Tagger 195 slices (< 1%) 3 BlockRAMs (1%) Egress Aggregation Unit 1093 slices (4%) 11 BlockRAMs (5%) 139 MHz max. Taktfrequenz

Systemintegration Vollständiger, funktionsfähiger Netzwerkprozessor auf einem FPGA ML410: Virtex-4 FX60 2x Gigabit Ethernet MPSoC mit zwei PowerPCs Data Plane Control Plane Dynamische Pfadwahl Dedizierte Pfadwahl Spraying Zur Laufzeit konfigurierbar Software Protocol Stack IPv4 forwarding IPSec Statische Konfiguration

Ressourcenverbrauch PaC Post- Buffer Proc. Manager (DMA) DDR MAC I/F PLB Arb. Path Disp. Ctx Gen. eng. Pre- Proc. insgesamt: 16,006 slices (63%) 77 BlockRAMs (33%) Max. Taktfrequenz von 100 MHz nur durch sorgfältiges Floorplanning (PlanAhead) erreichbar Problem: Verdrahtung beim PLB (Leitungslänge) Baumklassifizierer im Path Dispatcher (40 Logic-Levels)

Einsatzszenarien: IP forwarding & IPSec Messszenario: 100 Mbps IMIX + variabler IPSec Verkehr FlexPath IPSec (512 Byte Pakete) Verbindung 1 Verbindung 2 IMIX 100 Mbps / 34,5 kpps (forwarding) Fall 1: Alle Pakete ohne Vorklassi- fizierung zur CPU Fall 2: Vorklassifizierung im Path Dispatcher Fall 3: Forwarding dediziert auf zweite Data Plane Fall 4: Forwarding Verkehr verteilt auf beide Data Plane CPUs (Spraying) Fall 5: Forwarding Verkehr per AutoRoute

Einsatzszenarien: Fall 1 Data Plane Path Dispatcher hohe Grundlast durch SPD-Check geringe IPSec-Paketrate steigert CPU-Last deutlich Paketverluste bei Forwarding trotz ausreichender CPU Lastreserve >1 ms IPSec

Einsatzszenarien: Fall 2 Data Plane Path Dispatcher Abfall der CPU-Last durch Vorklassifizierung im Path Dispatcher (SPD-Check) IPSec-Paketverluste ab 2,700 kbit/s

Einsatzszenarien: Fall 3 Data Plane Data Plane Path Dispatcher keine Paketverluste mehr bei Forwarding Head-of-Line Blocking bei 100% CPU-Last

Einsatzszenarien: Fall 4 Data Plane Data Plane Path Dispatcher CPU 1 hat höhere Priorität am Bus  mehr Spraying-Verkehr keine Verluste bei Forwarding durch 2. CPU

Einsatzszenarien: Fall 5 Data Plane Path Dispatcher AutoRoute-Verhalten vergleichbar mit Fall 3 (2 CPUs, dedizierte Lastverteilung)

Anbindung von DynaCORE (Universität zu Lübeck) Motivation: Crypto-Funktionen sehr rechenaufwändig  HW-Beschleunigung DynaCORE als externen HW-Beschleuniger Anschluss über Ethernet Gemeinsame Demonstration: flexible Ansteuerung / Wegewahl aus Perspektive FlexPath NP allgemeine Performanceerhöhung einfache Anbindung durch Standard-Schnittstellen  gemeinsamer Stand auf FPL 2008 DynaCORE DES AES Aktueller Status: Datenformate spezifiziert Demonstrator angepasst Tunnel-SW zum Remote-Paketaustausch über Internet (München-Lübeck) erster Testlauf in Kürze

Ausblick: MPSoC Ziel Einbindung weiterer Data Planes (MicroBlazes) Mögliche Probleme Anbindung der MicroBlazes MicroBlazes mit PLB-Anschluss erst ab EDK 9.2 / 10.1 Atomare Zugriffe (bisher: 64 Bit Cacheline Zugriffe) Interconnect Mehr Busteilnehmer erschweren Timing Auslastung des Busses Alternativen Infrastruktur mit Bridging Multiport Memory Controller …

Ausblick: Weitere Load Balancing Strategien Bisher Keine Kenntnis des aktuellen Belastungszustandes Ziel Geregelte Lastzuweisung System-Monitoring Auswertung Regelalgorithmus Aspekte Zwei Mechanismen Spraying (Paketverteiler) Dedizierte Zuweisungen (Path Dispatcher) Migration von statebehafteten Applikationen in Überlastsituationen Rechenreserven durch gezielte Lastallokation z.B. für hochprioren Verkehr Sicherstellung von QoS

Zusammenfassung Funktionsfähiger FlexPath Netzwerkprozessor Vollständiger Multi-Processor System-on-Chip Demonstrator 2 PowerPCs Einsatzszenarien zeigen Vorteile und Möglichkeiten der flexiblen Wegewahl Anpassungsfähigkeit des FlexPath Systems mittels einfacher Konfiguration

Vielen Dank für Ihre Aufmerksamkeit!

FlexPath NP - Systemüberblick 2. Förderperiode Aufbauend auf Gerüst aus 1. Förderperiode Multi-Prozessor Cluster Mindestens 4 Data Plane CPUs Lastbalancierungsstrategie Multi-Prozessor Interrupt-Controller Hardwarebeschleuniger für Aufgaben mit besonders hoher Rechenanforderung (z.B. Crypto) Dynamisch partielle Rekonfiguration Optimierung der aktuellen Systemkonfiguration Farben!!!