Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Microelectronic System Design Research Group University Kaiserslautern www.eit.uni-kl.de/wehn Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren.

Ähnliche Präsentationen


Präsentation zum Thema: "Microelectronic System Design Research Group University Kaiserslautern www.eit.uni-kl.de/wehn Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren."—  Präsentation transkript:

1 Microelectronic System Design Research Group University Kaiserslautern www.eit.uni-kl.de/wehn Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren auf eingebetteten Multiprozessorarchitekturen Norbert Wehn Frank Gilbert

2 2 Drahtlose Kommunikation Herausforderungen aus Implementierungssicht Algorithmische Komplexität Shannons Law beats Moores Law Programmierbarkeit/Flexibilität QoS, multi-mode Unterstützung Geringer Energie-/Leistungsverbrauch Aber: Energy-Flexibility Lücke Entwurfsraum: Algorithmen und Architektur.... Neuartige Achitekturen: AP-MPSoC skalierbar, programmierbar, energieeffizient anwendungsspezifische Prozessorknoten anwendungsspezifische Kommunikationsstrukturen

3 3 Energieverbrauch in AP-MPSoC Hohe Parallelität Einfache Knotenprozessoren (an Anwendung angepaßt) Geringe Taktfrequenz (dynamic) Voltage Scaling (Skalierbarkeit) Hohe Lokalität Minimiert Kommunikation Transformationen Bit-genaue Transformationen (z.B. Loop Merging) anwendungsspezifische Transformationen Kommunikationsstrukturen Wires, Switches, FIFOs, Arbiter Protokoll Trade-off: Durchsatz versus Energieverbrauch anwendungsabhängig

4 4 Algorithmenauswahl Intensive Matrixberechnungen z.B. Interference Cancellation Zahlreiche Publikationen z.B. systolische Arrays Iterativ, blockorientiert, Datenverwürflung z.B. Turbo-Prinzip, LDPC Abbildung auf Multiprozessorarchitekturen weitgehend unerforscht! PU PE 1 PE 2 PE N - Latenz - Fläche - Energie av(rec traffic )~ av(send traffic ) send traffic rec traffic Buffer Block-Level Subblock-Level 1 wort/cycle Interleaver Bottleneck 1 peak(rec traffic )~ N*(send traffic ) Kommunikation: skalierbar, Durchsatz ! 1) M.J.Thul, N.Wehn, L.P.Rao Enabling High-Speed Turbo-Decoding Through Concurrent Interleaving, ISCAS02 Speed-Up

5 5 Bus-basiertes AP-MPSoC NAnzahl der Prozessoren f R Datenerzeugungsrate pro Taktzyklus Durchsatzanforderung an Kommunikation: N * f R Daten pro Taktzyklus N 1/f R : Bus-Architektur möglich Beispiel UMTS TC Kanaldecoder Blockgröße=5114, 5 Iterationen, f=133MHz, f R =1/5 maximal N=5 Prozessorknoten bedienbar maximaler Durchsatz=7.28 Mbit/s Prozessor an Anwendung angepasst Bus-Architekturen nicht skalierbar, eingeschränkter Durchsatz Message passing Kommunikation XLMI: single cycle Speicherzugriff

6 6 Heterogene Struktur Verwendung einer Ringarchitektur 1 Lokalität, keine globale Verdrahtung, einfacher Floorplan Skalierbar P1P1 P0P0 P3P3 P4P4 P5P5 P6P6 P2P2 P7P7 RIBB 0 RIBB 1 RIBB 2 RIBB 3 Left In Buffer Local Out Right In RIBB Bus Switch Out Buffer Right Buffer Out Left Local In Ring-Interleaver Bottleneck Breaker Zelle Buffer Routingdecision Units 1) M.J.Thul, F.Gilbert, N.Wehn Optimized Concurrent Interleaving...., ICECS02

7 7 Durchsatz Notwendige und hinreichende Bedingung für Kommunikationsnetzwerk, so daß Durchsatz des AP-MPSoC nicht reduziert wird K Länge eines Datenblocks N C Anzahl der Prozessoren in einem Buscluster C Anzahl der Cluster = N/N C p Zugriff auf Prozessorknoten = 1/N (perfekter Interleaver) Datentraffic auf einem Clusterbus Grant nodes = C/(2C-1) Grant bus-switch = 1-C/(2C-1) Datentraffic auf Ringarchitektur (nearest neighbour routing): Kommunikation erreicht Sättigung Verlängerungsantrag: weitere Strukturen z.B. chordale Ringe

8 8 UMTS TC Decoder (K=5114, 5 Iter) Knotenprozessor customized RISC der Firma Tensilica 1 Spezielle Befehle: Berechnung (Butterfly, max*), Datentransfers 1.54 mm 2 (0,18um Technologie), f=133 MHz f R =1/9 (STM_ST120 f R =1/100, SC_140 f R =1/50, ADI_TS f R =1/27) Total Nodes # of Clusters Cluster Nodes Throughp.(*) Area Total (N)(C)(N C )[Mbit/s][mm 2 ] 1111.486.42 5157.2814.45 6238.7216.73 84211.5820.91 126217.1828.92 168222.6436.98 3216243.2570.26 4020252.8387.47 (*) Validiert mit Tensilica Xtensa API Interface, Tensilica ISS Simulator 1) H.Michel, A.Worm, M.Münch, N.Wehn Hardware/Software Trade-Offs for Advanced 3G Channel Coding, DATE2002

9 9 Effizienzvergleich Architektureffizienz nimmt mit steigendem Parallelitätsgrad zu Speicherdominante Anwendung Anwendungsspeichergröße bleibt konstant Kommunikationsoverhead <10% der jeweiligen Gesamtfläche Total Nodes Par. on Sub-Block Level Par. on Block Level(*) Architecture Efficiency Throughp.AreaThroughp.Area (N)[Mbit/s][mm 2 ][Mbit/s][mm 2 ][Mbit/(s·mm 2) ] 11.486.421.486.421.00 57.2814.457.4132.102.19 68.7216.738.8938.522.26 811.5820.9111.8551.362.40 1217.1828.9217.7877.042.58 1622.6436.9823.70102.722.66 3243.2570.2647.41205.442.67 4052.8387.4759.26256.802.62 (*) Architektureffizienz (Block-Level)=1

10 10 Voltage Scaling Hochparallele Architektur erlaubt Anwendung von Voltage Scaling Reduziere Versorgungsspannung bei gleichzeitigem Erhöhen des Parallelitäsgrad um Durchsatz konstant zu halten Hardwired Prozessorknoten mit maximalen Durchsatz i.e. f R =1 Kommunikationsnetzwerk: reine Ringarchitektur VDD=1.8Volt VDD=1.3Volt VDD=1.8Volt VDD=1.3Volt Nahezu Halbierung des Energieverbrauchs Energiereduktion größer als Flächenzuwachs Architektureffizienz steigt

11 11 Zusammenfassung Skalierbare Multiprozessorarchitektur Effizientes Kommunikationsnetzwerk zur Auflösung des Interleaverbottlenecks große Architektureffizienz Nach bestem Wissen erstes bekanntes AP-MPSoC für diese Art von Anwendungen Hochparalle Architektur große Lokalität Anwendungsoptimierte Prozessorknoten Geringer Energieverbrauch Kommunikationsstrukturen bilden Engpass in AP-MPSoC Durchsatz, Energie großer Entwurfsraum Fortsetzungsantrag

12 12 Bisherige Arbeiten Turbo-Codes System- ebene Algorithmen- ebene Iterations- kontrolle 3,4,6 Iterations- kontrolle 3,4,6 Speicher- optimierungen 2,6 Speicher- optimierungen 2,6 Shutdown- Mode 3,4 Shutdown- Mode 3,4 Voltage- Scheduling 3,4 Voltage- Scheduling 3,4 Performance- optimierter Code 5,7 Performance- optimierter Code 5,7 Loop-Merging 2 Renormalisierung 6 Loop-Merging 2 Renormalisierung 6 VLIW Prozessor 3,4,5,7 VLIW Prozessor 3,4,5,7 konfig. RISC Prozessor 5,8 konfig. RISC Prozessor 5,8 AP-MPSoC Implementierungs- plattformen Kanalcodierung Transformation Lokalität/Parallelität Transformation Lokalität/Parallelität Anwendungsabhängig Optimierungspotential Optimierungen über alle Abstraktionsebenen

13 13 Verlängerungsantrag Kommunikation spielt in AP-MPSoC zentrale Rolle Gesamtperformance Energieverbrauch Optimierte Kommunikationsstrukturen Anwendungsabhängigkeit Skalierbar großer Entwurfsraum Trade-off Latenz, Durchsatz versus Energie, Fläche, DSM-Verträglichkeit Den Leistungsverbrauch und die Performance einer gewählten Kommunikationsstruktur in einem AP-MPSoC möglichst früh im Entwurfsprozess abschätzen zu können wird in Zukunft bei der Auswahl einer Zielplattform für Softwareimplementierungen auf AP-MPSoC eine immer wichtigere Rolle spielen

14 14 Arbeitsprogramm Zu betrachtetende Kommunikationsstrukturen Bus-basiert: AMBA AHB-Bus Arbitrierung, Split transactions, Burstlängen, Busbreiten, Bus- Splitting... Heterogene Strukturen: direkte/indirekte, Busse Topologie, Routingstrategie, Switchingstrategie, Arbitrierung, Pufferverwaltung, Datenbreiten... Kostenfunktion zur Abschätzung des Energieverbrauchs Bestimmung der relevanten Parameter (Architekturparameter, Implementierungsparameter) Konstruktion der Kostenfunktion Evaluierungsumgebung Trade-off Latenz, Durchsatz versus Energie, Fläche, DSM- Verträglichkeit Automatische Generierung von Kommunikationstopologien Intelligentes Wachsen von Zufallsgraphen


Herunterladen ppt "Microelectronic System Design Research Group University Kaiserslautern www.eit.uni-kl.de/wehn Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren."

Ähnliche Präsentationen


Google-Anzeigen