Microelectronic System Design Research Group University Kaiserslautern Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren auf eingebetteten Multiprozessorarchitekturen Norbert Wehn Frank Gilbert
2 Drahtlose Kommunikation Herausforderungen aus Implementierungssicht Algorithmische Komplexität Shannons Law beats Moores Law Programmierbarkeit/Flexibilität QoS, multi-mode Unterstützung Geringer Energie-/Leistungsverbrauch Aber: Energy-Flexibility Lücke Entwurfsraum: Algorithmen und Architektur.... Neuartige Achitekturen: AP-MPSoC skalierbar, programmierbar, energieeffizient anwendungsspezifische Prozessorknoten anwendungsspezifische Kommunikationsstrukturen
3 Energieverbrauch in AP-MPSoC Hohe Parallelität Einfache Knotenprozessoren (an Anwendung angepaßt) Geringe Taktfrequenz (dynamic) Voltage Scaling (Skalierbarkeit) Hohe Lokalität Minimiert Kommunikation Transformationen Bit-genaue Transformationen (z.B. Loop Merging) anwendungsspezifische Transformationen Kommunikationsstrukturen Wires, Switches, FIFOs, Arbiter Protokoll Trade-off: Durchsatz versus Energieverbrauch anwendungsabhängig
4 Algorithmenauswahl Intensive Matrixberechnungen z.B. Interference Cancellation Zahlreiche Publikationen z.B. systolische Arrays Iterativ, blockorientiert, Datenverwürflung z.B. Turbo-Prinzip, LDPC Abbildung auf Multiprozessorarchitekturen weitgehend unerforscht! PU PE 1 PE 2 PE N - Latenz - Fläche - Energie av(rec traffic )~ av(send traffic ) send traffic rec traffic Buffer Block-Level Subblock-Level 1 wort/cycle Interleaver Bottleneck 1 peak(rec traffic )~ N*(send traffic ) Kommunikation: skalierbar, Durchsatz ! 1) M.J.Thul, N.Wehn, L.P.Rao Enabling High-Speed Turbo-Decoding Through Concurrent Interleaving, ISCAS02 Speed-Up
5 Bus-basiertes AP-MPSoC NAnzahl der Prozessoren f R Datenerzeugungsrate pro Taktzyklus Durchsatzanforderung an Kommunikation: N * f R Daten pro Taktzyklus N 1/f R : Bus-Architektur möglich Beispiel UMTS TC Kanaldecoder Blockgröße=5114, 5 Iterationen, f=133MHz, f R =1/5 maximal N=5 Prozessorknoten bedienbar maximaler Durchsatz=7.28 Mbit/s Prozessor an Anwendung angepasst Bus-Architekturen nicht skalierbar, eingeschränkter Durchsatz Message passing Kommunikation XLMI: single cycle Speicherzugriff
6 Heterogene Struktur Verwendung einer Ringarchitektur 1 Lokalität, keine globale Verdrahtung, einfacher Floorplan Skalierbar P1P1 P0P0 P3P3 P4P4 P5P5 P6P6 P2P2 P7P7 RIBB 0 RIBB 1 RIBB 2 RIBB 3 Left In Buffer Local Out Right In RIBB Bus Switch Out Buffer Right Buffer Out Left Local In Ring-Interleaver Bottleneck Breaker Zelle Buffer Routingdecision Units 1) M.J.Thul, F.Gilbert, N.Wehn Optimized Concurrent Interleaving...., ICECS02
7 Durchsatz Notwendige und hinreichende Bedingung für Kommunikationsnetzwerk, so daß Durchsatz des AP-MPSoC nicht reduziert wird K Länge eines Datenblocks N C Anzahl der Prozessoren in einem Buscluster C Anzahl der Cluster = N/N C p Zugriff auf Prozessorknoten = 1/N (perfekter Interleaver) Datentraffic auf einem Clusterbus Grant nodes = C/(2C-1) Grant bus-switch = 1-C/(2C-1) Datentraffic auf Ringarchitektur (nearest neighbour routing): Kommunikation erreicht Sättigung Verlängerungsantrag: weitere Strukturen z.B. chordale Ringe
8 UMTS TC Decoder (K=5114, 5 Iter) Knotenprozessor customized RISC der Firma Tensilica 1 Spezielle Befehle: Berechnung (Butterfly, max*), Datentransfers 1.54 mm 2 (0,18um Technologie), f=133 MHz f R =1/9 (STM_ST120 f R =1/100, SC_140 f R =1/50, ADI_TS f R =1/27) Total Nodes # of Clusters Cluster Nodes Throughp.(*) Area Total (N)(C)(N C )[Mbit/s][mm 2 ] (*) Validiert mit Tensilica Xtensa API Interface, Tensilica ISS Simulator 1) H.Michel, A.Worm, M.Münch, N.Wehn Hardware/Software Trade-Offs for Advanced 3G Channel Coding, DATE2002
9 Effizienzvergleich Architektureffizienz nimmt mit steigendem Parallelitätsgrad zu Speicherdominante Anwendung Anwendungsspeichergröße bleibt konstant Kommunikationsoverhead <10% der jeweiligen Gesamtfläche Total Nodes Par. on Sub-Block Level Par. on Block Level(*) Architecture Efficiency Throughp.AreaThroughp.Area (N)[Mbit/s][mm 2 ][Mbit/s][mm 2 ][Mbit/(s·mm 2) ] (*) Architektureffizienz (Block-Level)=1
10 Voltage Scaling Hochparallele Architektur erlaubt Anwendung von Voltage Scaling Reduziere Versorgungsspannung bei gleichzeitigem Erhöhen des Parallelitäsgrad um Durchsatz konstant zu halten Hardwired Prozessorknoten mit maximalen Durchsatz i.e. f R =1 Kommunikationsnetzwerk: reine Ringarchitektur VDD=1.8Volt VDD=1.3Volt VDD=1.8Volt VDD=1.3Volt Nahezu Halbierung des Energieverbrauchs Energiereduktion größer als Flächenzuwachs Architektureffizienz steigt
11 Zusammenfassung Skalierbare Multiprozessorarchitektur Effizientes Kommunikationsnetzwerk zur Auflösung des Interleaverbottlenecks große Architektureffizienz Nach bestem Wissen erstes bekanntes AP-MPSoC für diese Art von Anwendungen Hochparalle Architektur große Lokalität Anwendungsoptimierte Prozessorknoten Geringer Energieverbrauch Kommunikationsstrukturen bilden Engpass in AP-MPSoC Durchsatz, Energie großer Entwurfsraum Fortsetzungsantrag
12 Bisherige Arbeiten Turbo-Codes System- ebene Algorithmen- ebene Iterations- kontrolle 3,4,6 Iterations- kontrolle 3,4,6 Speicher- optimierungen 2,6 Speicher- optimierungen 2,6 Shutdown- Mode 3,4 Shutdown- Mode 3,4 Voltage- Scheduling 3,4 Voltage- Scheduling 3,4 Performance- optimierter Code 5,7 Performance- optimierter Code 5,7 Loop-Merging 2 Renormalisierung 6 Loop-Merging 2 Renormalisierung 6 VLIW Prozessor 3,4,5,7 VLIW Prozessor 3,4,5,7 konfig. RISC Prozessor 5,8 konfig. RISC Prozessor 5,8 AP-MPSoC Implementierungs- plattformen Kanalcodierung Transformation Lokalität/Parallelität Transformation Lokalität/Parallelität Anwendungsabhängig Optimierungspotential Optimierungen über alle Abstraktionsebenen
13 Verlängerungsantrag Kommunikation spielt in AP-MPSoC zentrale Rolle Gesamtperformance Energieverbrauch Optimierte Kommunikationsstrukturen Anwendungsabhängigkeit Skalierbar großer Entwurfsraum Trade-off Latenz, Durchsatz versus Energie, Fläche, DSM-Verträglichkeit Den Leistungsverbrauch und die Performance einer gewählten Kommunikationsstruktur in einem AP-MPSoC möglichst früh im Entwurfsprozess abschätzen zu können wird in Zukunft bei der Auswahl einer Zielplattform für Softwareimplementierungen auf AP-MPSoC eine immer wichtigere Rolle spielen
14 Arbeitsprogramm Zu betrachtetende Kommunikationsstrukturen Bus-basiert: AMBA AHB-Bus Arbitrierung, Split transactions, Burstlängen, Busbreiten, Bus- Splitting... Heterogene Strukturen: direkte/indirekte, Busse Topologie, Routingstrategie, Switchingstrategie, Arbitrierung, Pufferverwaltung, Datenbreiten... Kostenfunktion zur Abschätzung des Energieverbrauchs Bestimmung der relevanten Parameter (Architekturparameter, Implementierungsparameter) Konstruktion der Kostenfunktion Evaluierungsumgebung Trade-off Latenz, Durchsatz versus Energie, Fläche, DSM- Verträglichkeit Automatische Generierung von Kommunikationstopologien Intelligentes Wachsen von Zufallsgraphen