Microelectronic System Design Research Group University Kaiserslautern www.eit.uni-kl.de/wehn Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren.

Slides:



Advertisements
Ähnliche Präsentationen
Digital Output Board and Motherboard
Advertisements

Fast Fourier Transformation
Link Layer Security in BT LE.
MC WS07 J. Walter. MC Einführung Organisatorisches Einsätze – Beispiele Mikrocontroller.
Anwendungsbeispiele Vertrieb durch:
Faxtechnologie in VoIP-Netzen.
PC-Cluster.
Network-on-Chip basierende Laufzeitsysteme für dynamisch rekonfigurierbare Hardware Ronald Hecht Institut für Mikroelektrotechnik und Datentechnik Universität.
Platzierung und Autorouting. Verschiedene Tools Cell Ensemble für Standardzellenlayout Unterstützt 2, 2,5 und 3-Layer Layout Block Ensemble Chipzusammenstellung.
Claas J. Cornelius - Ogg-on-a-chip - MDCT MDCT Funktionsweise und Limitierende Faktoren.
Ultra Wideband Radio (Seminar „Advanced Topics in Networking“ – Rolf Winter) Von Martin Goralczyk.
2 Kommunikationssysteme bieten Kommunikationsdienste an, die das Senden und Empfangen von Nachrichten erlauben (sending & receiving messages) bestehen.
1 Technische Universität Darmstadt FG Mikroelektronische Systeme Prof. Dr. Dr. h.c. mult. Manfred Glesner Resonantes Umladen von Taktnetzwerken Clemens.
1 Energiebewusste Compilierung für digitale Signalprozessoren Markus Lorenz Peter Marwedel Universität Dortmund Lehrstuhl Informatik XII Projekt Prozessorarchitekturen.
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
BUS-Systeme (PCI) Allgemeines über BUS-Systeme Allgemeines zum PCI-Bus
Effizienz: Indexstrukturen
Kapitel 3 5 Rechnerorganisation
Palm OS Project Martin Ochs Palm OS Project Inhalt Hardware Schnittstellen Die serielle Schnittstelle Entwicklungsumgebung Test-Programm Hardware-Test.
SciAgents - Eine agentenbasierte Umgebung für verteilte wissenschaftliche Berechnungen Alexander StarkeSeminar Software Agenten
Einsatz des Level-1-Kalorimeter-Trigger Jet/Energiesummen-Moduls bei ATLAS Teststrahlmessungen am CERN.
2.5. Mikrocontroller-Komponenten
Institut für Kartographie und Geoinformation Dipl.-Ing. J. Schmittwilken Diskrete Mathe II Übung
Institut für Kartographie und Geoinformation Dipl.-Ing. J. Schmittwilken Diskrete Mathe II Übung
Globaler Ansatz Hough-Transformation
Netze Vorlesung 11 Peter B. Ladkin
Prof. Dr. Bernhard Wasmayr
Datenmanagement in Sensornetzen PRESTO - Feedback gesteuertes Datenmanagement - SS 2007 Sören Wenzlaff.
Schnittstellen in der Bildverarbeitung
PCI-Express als Grafikschnittstelle
Christian Steinle, Joachim Gläß, Reinhard Männer
Inhalt Der Cell Prozessor Aufbau des Cells Platine Block Diagramm
Matrix Multiplication on CUDA
Beschleunigung Virtueller Privater Netze durch Netzwerkprozessoren
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Raster-Scanner des Therapie Projektes. Echtzeit-Kontrollsystem Therapie " Aufgabe: " Steuerung des Schwerionenstrahls " schneller Bestrahlungsabbruch.
Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,
Duo- und Quad Prozessor-Architektur
HighSpeed für den Mittelstand
Name des Vortragenden Klasse Ort / tt.mm.jjjj Beschreibung Zentraleinheit CPU, Motherbord, RAM.
KFZ-Elektronik Teil 1 – Was bedeutet CAN?
Agenda Motivation Grundlagen der Matrix-Vektor-Multiplikation
INTEL Pentium 4 Prozessor
Windows Server 2008 Kurzüberblick Dr. Richtmann+Eder AG Olschewskibogen München.
Information und Kommunikation
1 J4 Hash-Join R und S werden mittels der gleichen Hashfunktion h – angewendet auf R.A und S.B – auf (dieselben) Hash- Buckets abgebildet Hash-Buckets.
3.4 CPU-Chips und Busse CPU-Chips
Signal-Prozessoren DSV1, 2009, Hhrt, 1 Mikro-Prozessor Von Neumann-Architektur Daten und Programmcode im gleichen Speicher => Sequenzieller Zugriff auf.
Archival and Discovery
AES – Advanced Encryption Standard
Die verschiedenen Schnittstellen eines Computers und ihre Verwendung
1. Grundkörper: Verschmelzung Zylinder mit Pyramide
1. Grundkörper: Verschmelzung Vierkantpyramide und Vierkantpyramide Vierkantpyramide stehend xyz G1G G2G2 0 0 G3G G4G4 0 0 S1S Vierkantpyramide.
1.Grundkörper: Steckung Zylinder mit Pyramidenstumpf
1. Grundkörper Verschmelzung Unregelmäßiges Dreikant- und Vierkantprisma x y z 0/ Dreikantprisma x y z /
1. Grundkörper Verschmelzung Vierkantpyramide und Dreikantprisma
Multiprozessoren: Herausforderung für die Software
Seite 1 IDA, Technische Universität BraunschweigTechnische Informatik II (INF 1211) Quellen: Zum Teil aus den Unterlagen Digitale Systeme, Prof. Schimmler,
Volumen des Quaders. Volumen des Quaders Volumen des Quaders Anzahl der cm3 Würfel: 7 * 20 cm3 = 140 cm3 Würfel Anzahl der Schichten: hK = 7 cm 7 b.
The EventCollector Concept Präsentation der Diplomarbeit von Thomas Moser und Lukas Karrer Distributed System Group,
Funktionsgenerator auf PCI Karte
Anwendungsbeispiele Vertrieb durch:
Kontrollsystem Schelleres oeffnen von Applikation – Zugriff auf Applikationen – Ladeprozess Beschleunigerbedienung durch MCS Programme Cockpit-Gestaltung:
CONDOR Plenary Meeting 10/2010 Organisatorisches
Anforderungen an Automotive Bussysteme
Mikrocomputertechnik Port-Quickie Prof. J. Walter Stand Januar Mikrocomputertechnik Jürgen Walter „Port-Quickie“ 8051-Port Eingabe - Ausgabe.
Bussysteme WS 05/06 Dominik Fehrenbach EN5:
General Packet Radio Service
Aktueller Stand der Technik. Auf dem Markt sind heute bereits 64-Bit Mikrocontroller. Die meiste Verwendung finden allerdings noch immer die 8-Bit Modelle.
Shared Memory Programmierung: Grundlagen
 Präsentation transkript:

Microelectronic System Design Research Group University Kaiserslautern Effiziente Implementierungen von iterativ arbeitenden Kanalcodierungsverfahren auf eingebetteten Multiprozessorarchitekturen Norbert Wehn Frank Gilbert

2 Drahtlose Kommunikation Herausforderungen aus Implementierungssicht Algorithmische Komplexität Shannons Law beats Moores Law Programmierbarkeit/Flexibilität QoS, multi-mode Unterstützung Geringer Energie-/Leistungsverbrauch Aber: Energy-Flexibility Lücke Entwurfsraum: Algorithmen und Architektur.... Neuartige Achitekturen: AP-MPSoC skalierbar, programmierbar, energieeffizient anwendungsspezifische Prozessorknoten anwendungsspezifische Kommunikationsstrukturen

3 Energieverbrauch in AP-MPSoC Hohe Parallelität Einfache Knotenprozessoren (an Anwendung angepaßt) Geringe Taktfrequenz (dynamic) Voltage Scaling (Skalierbarkeit) Hohe Lokalität Minimiert Kommunikation Transformationen Bit-genaue Transformationen (z.B. Loop Merging) anwendungsspezifische Transformationen Kommunikationsstrukturen Wires, Switches, FIFOs, Arbiter Protokoll Trade-off: Durchsatz versus Energieverbrauch anwendungsabhängig

4 Algorithmenauswahl Intensive Matrixberechnungen z.B. Interference Cancellation Zahlreiche Publikationen z.B. systolische Arrays Iterativ, blockorientiert, Datenverwürflung z.B. Turbo-Prinzip, LDPC Abbildung auf Multiprozessorarchitekturen weitgehend unerforscht! PU PE 1 PE 2 PE N - Latenz - Fläche - Energie av(rec traffic )~ av(send traffic ) send traffic rec traffic Buffer Block-Level Subblock-Level 1 wort/cycle Interleaver Bottleneck 1 peak(rec traffic )~ N*(send traffic ) Kommunikation: skalierbar, Durchsatz ! 1) M.J.Thul, N.Wehn, L.P.Rao Enabling High-Speed Turbo-Decoding Through Concurrent Interleaving, ISCAS02 Speed-Up

5 Bus-basiertes AP-MPSoC NAnzahl der Prozessoren f R Datenerzeugungsrate pro Taktzyklus Durchsatzanforderung an Kommunikation: N * f R Daten pro Taktzyklus N 1/f R : Bus-Architektur möglich Beispiel UMTS TC Kanaldecoder Blockgröße=5114, 5 Iterationen, f=133MHz, f R =1/5 maximal N=5 Prozessorknoten bedienbar maximaler Durchsatz=7.28 Mbit/s Prozessor an Anwendung angepasst Bus-Architekturen nicht skalierbar, eingeschränkter Durchsatz Message passing Kommunikation XLMI: single cycle Speicherzugriff

6 Heterogene Struktur Verwendung einer Ringarchitektur 1 Lokalität, keine globale Verdrahtung, einfacher Floorplan Skalierbar P1P1 P0P0 P3P3 P4P4 P5P5 P6P6 P2P2 P7P7 RIBB 0 RIBB 1 RIBB 2 RIBB 3 Left In Buffer Local Out Right In RIBB Bus Switch Out Buffer Right Buffer Out Left Local In Ring-Interleaver Bottleneck Breaker Zelle Buffer Routingdecision Units 1) M.J.Thul, F.Gilbert, N.Wehn Optimized Concurrent Interleaving...., ICECS02

7 Durchsatz Notwendige und hinreichende Bedingung für Kommunikationsnetzwerk, so daß Durchsatz des AP-MPSoC nicht reduziert wird K Länge eines Datenblocks N C Anzahl der Prozessoren in einem Buscluster C Anzahl der Cluster = N/N C p Zugriff auf Prozessorknoten = 1/N (perfekter Interleaver) Datentraffic auf einem Clusterbus Grant nodes = C/(2C-1) Grant bus-switch = 1-C/(2C-1) Datentraffic auf Ringarchitektur (nearest neighbour routing): Kommunikation erreicht Sättigung Verlängerungsantrag: weitere Strukturen z.B. chordale Ringe

8 UMTS TC Decoder (K=5114, 5 Iter) Knotenprozessor customized RISC der Firma Tensilica 1 Spezielle Befehle: Berechnung (Butterfly, max*), Datentransfers 1.54 mm 2 (0,18um Technologie), f=133 MHz f R =1/9 (STM_ST120 f R =1/100, SC_140 f R =1/50, ADI_TS f R =1/27) Total Nodes # of Clusters Cluster Nodes Throughp.(*) Area Total (N)(C)(N C )[Mbit/s][mm 2 ] (*) Validiert mit Tensilica Xtensa API Interface, Tensilica ISS Simulator 1) H.Michel, A.Worm, M.Münch, N.Wehn Hardware/Software Trade-Offs for Advanced 3G Channel Coding, DATE2002

9 Effizienzvergleich Architektureffizienz nimmt mit steigendem Parallelitätsgrad zu Speicherdominante Anwendung Anwendungsspeichergröße bleibt konstant Kommunikationsoverhead <10% der jeweiligen Gesamtfläche Total Nodes Par. on Sub-Block Level Par. on Block Level(*) Architecture Efficiency Throughp.AreaThroughp.Area (N)[Mbit/s][mm 2 ][Mbit/s][mm 2 ][Mbit/(s·mm 2) ] (*) Architektureffizienz (Block-Level)=1

10 Voltage Scaling Hochparallele Architektur erlaubt Anwendung von Voltage Scaling Reduziere Versorgungsspannung bei gleichzeitigem Erhöhen des Parallelitäsgrad um Durchsatz konstant zu halten Hardwired Prozessorknoten mit maximalen Durchsatz i.e. f R =1 Kommunikationsnetzwerk: reine Ringarchitektur VDD=1.8Volt VDD=1.3Volt VDD=1.8Volt VDD=1.3Volt Nahezu Halbierung des Energieverbrauchs Energiereduktion größer als Flächenzuwachs Architektureffizienz steigt

11 Zusammenfassung Skalierbare Multiprozessorarchitektur Effizientes Kommunikationsnetzwerk zur Auflösung des Interleaverbottlenecks große Architektureffizienz Nach bestem Wissen erstes bekanntes AP-MPSoC für diese Art von Anwendungen Hochparalle Architektur große Lokalität Anwendungsoptimierte Prozessorknoten Geringer Energieverbrauch Kommunikationsstrukturen bilden Engpass in AP-MPSoC Durchsatz, Energie großer Entwurfsraum Fortsetzungsantrag

12 Bisherige Arbeiten Turbo-Codes System- ebene Algorithmen- ebene Iterations- kontrolle 3,4,6 Iterations- kontrolle 3,4,6 Speicher- optimierungen 2,6 Speicher- optimierungen 2,6 Shutdown- Mode 3,4 Shutdown- Mode 3,4 Voltage- Scheduling 3,4 Voltage- Scheduling 3,4 Performance- optimierter Code 5,7 Performance- optimierter Code 5,7 Loop-Merging 2 Renormalisierung 6 Loop-Merging 2 Renormalisierung 6 VLIW Prozessor 3,4,5,7 VLIW Prozessor 3,4,5,7 konfig. RISC Prozessor 5,8 konfig. RISC Prozessor 5,8 AP-MPSoC Implementierungs- plattformen Kanalcodierung Transformation Lokalität/Parallelität Transformation Lokalität/Parallelität Anwendungsabhängig Optimierungspotential Optimierungen über alle Abstraktionsebenen

13 Verlängerungsantrag Kommunikation spielt in AP-MPSoC zentrale Rolle Gesamtperformance Energieverbrauch Optimierte Kommunikationsstrukturen Anwendungsabhängigkeit Skalierbar großer Entwurfsraum Trade-off Latenz, Durchsatz versus Energie, Fläche, DSM-Verträglichkeit Den Leistungsverbrauch und die Performance einer gewählten Kommunikationsstruktur in einem AP-MPSoC möglichst früh im Entwurfsprozess abschätzen zu können wird in Zukunft bei der Auswahl einer Zielplattform für Softwareimplementierungen auf AP-MPSoC eine immer wichtigere Rolle spielen

14 Arbeitsprogramm Zu betrachtetende Kommunikationsstrukturen Bus-basiert: AMBA AHB-Bus Arbitrierung, Split transactions, Burstlängen, Busbreiten, Bus- Splitting... Heterogene Strukturen: direkte/indirekte, Busse Topologie, Routingstrategie, Switchingstrategie, Arbitrierung, Pufferverwaltung, Datenbreiten... Kostenfunktion zur Abschätzung des Energieverbrauchs Bestimmung der relevanten Parameter (Architekturparameter, Implementierungsparameter) Konstruktion der Kostenfunktion Evaluierungsumgebung Trade-off Latenz, Durchsatz versus Energie, Fläche, DSM- Verträglichkeit Automatische Generierung von Kommunikationstopologien Intelligentes Wachsen von Zufallsgraphen