Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Technische Universität München Lehrstuhl für integrierte Systeme Prof. Dr. sc. techn. Andreas Herkersdorf Arcisstrasse 21 80290 Munich, Germany

Ähnliche Präsentationen


Präsentation zum Thema: "Technische Universität München Lehrstuhl für integrierte Systeme Prof. Dr. sc. techn. Andreas Herkersdorf Arcisstrasse 21 80290 Munich, Germany"—  Präsentation transkript:

1 Technische Universität München Lehrstuhl für integrierte Systeme Prof. Dr. sc. techn. Andreas Herkersdorf Arcisstrasse 21 80290 Munich, Germany http://www.lis.ei.tum.de AutoVision – eine situationsadaptive SoC Architektur für videobasierte Fahrerassistenzsysteme Dipl.-Ing. Christopher Claus Prof. Dr.-Ing. Walter Stechele

2 Technische Universität München AutoVision - 27.5.2008 2 Agenda Video-basiertes Fahrerassistenzsystem: AutoVision AutoVision bisher: Rekonfigurationszeiten & overhead Demonstratoraufbau 2007/2008 HW Beschleunigung für Videoverarbeitung Optischer Fluß Kooperationen, Veröffentlichungen, Demonstratoren Zusammenfassung und Ausblick

3 Technische Universität München AutoVision - 27.5.2008 3 AutoVision Prozessor Shape Engine Tunnel Engine Cont/Edge Engine Taillight Engine PPC Highway XX Tunnel entrance XXX Inside tunnelXX Region to enhance contrast DDR SDRAM TunnelE. TaillightE. EdgeEng Virtex II Pro FPGA PPC1 I/O PPC0 Video IF PLB Coproc0 ShapeEng Coproc1 EdgeEng ICAP MEM IF EdgeEng ShapeEng Coprozessor Konfigurationen Algorithmen für video-bas. Fahrerassistenz nicht standardisiert -> flexible Plattform notwendig Austausch von HW Beschleunigern für Echtzeit- Videoverarbeitung Rekonfigurationsdurchsatz ca. 100 KB/ms (V2P) DMA Unterstützung der HW Beschleuniger HW/SW Aufteilung: Pixeloperations -> HW HL Algorithms -> SW (PPC) On-chip Rekonfiguration getriggert durch CPU Eine CPU für Bildverarbeitung, eine für Rekonfigurationmanagement

4 Technische Universität München AutoVision - 27.5.2008 4 Interconnect AutoVision bisher: Rekonfigurationszeiten & overhead 1. Jahr: Reduktion von overhead aus Bitstreams -> Combitgen 2. Jahr: Optimierung der Speicheranbindung an ICAP -> PLB ICAP (V2P & V4) (Zusammen mit Combitgen 30-fache Beschleunigung möglich) 3.Jahr: Miniaturisierung von Videofilterengines -> optimale Ausnutzung von BRAMs 4. Jahr: Alternative on-chip Architekturen (Multi Port Memory Controller) ICAP Bitstream im Memory

5 Technische Universität München AutoVision - 27.5.2008 5 Demonstratoraufbau Optimierung und Anpassung der AdressEngine an LIS-IPIF Optimierung und Anpassung der TaillightEngine (8-fache Beschleunigung) -> Demonstration Konzeption und Implementierung der ShapeEngine (Eckendetektor) -> Demonstration Speicher Optimierung, kompakte Engines Optimierung des Videointerface Rekonfigurationsgrenzen stehen noch nicht fest AltNeu Auflösung384x288640x480 Auflösung max. 512x5121024x1024 Pixel gesamt110592307200 Matrixgröße11x1115x15 Verarbeit- ungszeit 6.98 ms3.18 ms Slices28163300 BRAMS1912 (36) TaillightEngine Alte AdressEngineNeue Addressengine # an Bildzeilen (8bbp)88 # an Slices134 (0%)221 (1%) # an BRAMs16 (11%)4 (2%)

6 Technische Universität München AutoVision - 27.5.2008 6 Demonstratoraufbau PLB OPB XC2VP30 Reconfigurable part SDRAM Contr.SDRAM Video in SysAceCompact Flash DCR Framebuffer RAM DVI or VGA LISIPIF PPC1 PPC0 PLBICAP LISIPIF Video out LISIPIF Busmacro LISIPIF Engine 1 Busmacro LISIPIF Engine 0 OPB2PLB PLB2OPB SysACE Cntrl

7 Technische Universität München AutoVision - 27.5.2008 7 AddresEngine (Aufbau & Performanz) PLBPLB Input FSM LIS IPIF Input Local Mem Matrix Userlogic Output Local Mem Output FSM ResolutionTotal PixelsTheor. Processing time HW (100 MHz, 7x7Matrix) Meas. Processing Time HW (100 MHz, 7x7 Matrix) Theor. Processing Time SW (3 GHz, 7x7 Matrix) 320 x 24076.8000.768 ms0.801 ms1.254 ms 640 x 480307.2003.072 ms3.145 ms5.017 ms 1024 x 768786.4007.864 ms7.94 ms12.845 ms 1024 x 10241.048.00010.48 ms10.566 ms17.126 ms 1920 x 1080 (HDTV) 2.073.60020.736 ms??? ms33.869 ms CP 7x7 Neighborhood Cur. Max. f(HW _Accelerator):f(Pentium4) = 1:30 !

8 Technische Universität München AutoVision - 27.5.2008 8 Optical Flow Frame t Frame t+1 Finden von Korrespondenzen

9 Technische Universität München AutoVision - 27.5.2008 9 Optical Flow [1] Fridtjof Stein: Efficient Computation of Optical Flow Using the Census Transform, DAGM-Symposium, August 30 - September 1, Tübingen, Germany, 2004, 79-86 1847825 1647214 13210984 Grauwerte 110 1x0 111 Census- werte 11001111 Signaturvektor (Darstellung eines Pixels und seiner Umgebung) Finden von Korrespondenzen

10 Technische Universität München AutoVision - 27.5.2008 10 Optical Flow Softwareversion (70 ms) x,y0 1 Signatur = Adresse 3 4 2 1............ 00000000 00000001 11111110 11111111 x,y Cnt.Frm. t Frm. t+1 10101010 10101011 Frame t Frame t+1 Probleme bei HW Implementierung: unzusammenhängende Speicherbereiche (kein bursting) möglich Counterupdate erfordert für jede Schreib- eine Leseoperation Bewegungsvektoren über ganzes Bild möglich (oft false positives) Algorithmus ungeeignet für Hardware!!! 3 Schritte: Glättungsfilter Censustransformation Korrespondenzsuche -> tatsächlich? n m n m

11 Technische Universität München AutoVision - 27.5.2008 11 Optical Flow Hardwareversion (4 ms) 01011100 Signatur = Value Frame t Frame t+1 3 Schritte: Glättungsfilter Censustransformation Korrespondenzsuche 0101110101100011 01000011 … ….......... n m n m 01011100 0101110101100011 01000011 … ….......... n m n m = ? Vorteile: Bursting möglich Kein kompliziertes Counterupdate erforderlich Bewegungsvektoren begrenzt durch Nachbarschaft Algorithmus in dieser Form ungeeignet für Software!!! Probleme für High level Tools

12 Technische Universität München AutoVision - 27.5.2008 12 Optical Flow - Implemenierung PLBPLB Input FSM LIS IPIF Input Local Mem Matrix Userlogic1 Output Local Mem Output FSM Input FSM LIS IPIF Input Local Mem Matrix Userlogic2 Output Local Mem Output FSM Input FSM LIS IPIF Input Local Mem Matrix Userlogic3 Output Local Mem Output FSM 64 8 32 64

13 Technische Universität München AutoVision - 27.5.2008 13 Optical Flow - Implemenierung PLBPLB Input FSM LIS IPIF Input Local Mem Matrix Int. Local Mem 1 Matrix Int. Local Mem 2 Matrix Userlogic3 Output Local Mem Output FSM Userlogic1 Userlogic2 Block 1 Block 2 Block 3 64 8 32 64

14 Technische Universität München AutoVision - 27.5.2008 14 Kooperationen Rekonfiguration: Erlangen: VideofilterEngines auf der ESM, Raphael Polig, Matthias Kovatsch, Ulrich Batzer Dresden: Merker, Rullmann: Netzlistenvergleich Karlsruhe: Becker, Hübner, Braun: Studentenaustausch IBM: HW Beschleunigung für die Berechnung von Optischen Masken auf einem rekonfigurierbaren Cell Blade, Raphael Polig Informatik TUM, Lehrstuhl für Informatikanwendungen in der Medizin & Augmented Reality: homography-based object tracking Hardware Beschleunigung: Institut für Luft und Raumfahrttechnik (LRT): HW Beschleunigung für still image compression - FPGAs im Orbit, Stephan Schropp Robert Bosch GmbH: FPGAs im Automobil, Robert Hartl BMW: Optical flow, Andreas Laika BYU (Utah): Optical flow, Lei Jia

15 Technische Universität München AutoVision - 27.5.2008 15 Publikationen Mai 07-Mai 08 J. Angermeier, U. Batzer, M. Majer, J. Teich, C. Claus, W. Stechele, "Reconfigurable HW/SW Architecture of a Real-Time Driver Assistance System", International Workshop on Applied Reconfigurable Computing (ARC2008), Imperial College London, U.K., March 26-28, 2008 N. Alt, C. Claus, W. Stechele, "Hardware/software architecture of an algorithm for vision-based real-time vehicle detection in dark environments", Design, Automation & Test in Europe (DATE 2008), Munich, March 10-14, 2008 M. Ihmig, N. Alt, C. Claus, A. Herkersdorf, "Resource-efficient Sequential Architecture for FPGA-based DAB Receiver", Workshop zu Software Radio WSR 08, Karlsruhe, March 5-6, 2008 C. Claus, W. Stechele, A. Herkersdorf, "Autovision-A Run-time Reconfigurable MPSoC Architecture for future Driver Assistance Systems", it - Information Technology Journal, Issue No. 3, June 20, 2007 C. Claus, W. Stechele, M. Kovatsch, J. Angermeier, J. Teich "A comparison of embedded reconfigurable video-processing architectures", submitted to the International Conference on Field Programmable Logic and Applications (FPL08), Heidelberg, Germany, September 08-10 C. Claus, B. Zhang, W. Stechele, L. Braun, M. Hübner and J. Becker "A multi- platform controller allowing for maximum dynamic partial reconfiguration throughput", submitted to the International Conference on Field Programmable Logic and Applications (FPL08), Heidelberg, Germany, September 08-10

16 Technische Universität München AutoVision - 27.5.2008 16 Demonstratoren Cebit2008, FAU & TUM: Videofilter auf der ESM (Bild oben) Date2008, KIT & TUM: Monday Tutorial (ohne Bild) Date2008, TUM, University Booth: TaillightEngine (Bild mitte) BMW & TUM: In-car Demonstrator (Bild unten) v.l.: W. Stechele, R. Polig, C. Claus, M. Kovatsch, M. Majer N. Alt AutoVision im 5-er BMW

17 Technische Universität München AutoVision - 27.5.2008 17 Zusammenfassung & Ausblick Minimierung des Ressourcenbedarfs bei gleichzeitiger Maximierung der Performance -> kürzere Rekonfigurationszeiten Neue hoch-performante Videofilter, output von Pixeln und features möglich Redesign von Bildverarbeitungsalgorithmen notwendig Alternative SoC Architektur (Bsp. MPMC statt PLB Anbindung der Engines, CPUs etc, Simulation und Implementierung) Demonstrator mit Reconfiguration (FPL08) SystemC Simulator (Rekonfigurationsdaten vs. Bilddaten)

18 Technische Universität München AutoVision - 27.5.2008 18 Vielen Dank für ihre Aufmerksamkeit

19 Technische Universität München AutoVision - 27.5.2008 19 Speicherminimierung 32 01023 8x1024x32 bit = 16X512x32 bit = 16 BRAMs 0000 0101 0202 0303 0404 0505 0606 0707 0808 0 1023 1010 1111 1212 1313 1414 1515 1616 1717 1818 1 1023 2020 2121 2222 2323 2424 2525 2626 2727 2828 2 1023 3030 3131 3232 3333 3434 3535 3636 3737 3838 3 1023 4040 4141 4242 4343 4444 4545 4646 4747 4848 4 1023 5050 5151 5252 5353 5454 5555 5656 5757 5858 5 1023 6060 6161 6262 6363 6464 6565 6666 6767 6868 6 1023 7070 7171 7272 7373 7474 7575 7676 7777 7878 7 1023 … … … … … … … … BRAM 512x32 bit Local Input Memory 64 01234567 0 1023 32 Bit Pixel 8x1024x32 bit = 16X512x32 bit = 16 BRAMs (Soll) Auslastung 100% 8 Bit Pixel 8x1024x8 bit = 4X512x32 bit = 4 BRAMs (Soll) Auslastung 25% 0 7


Herunterladen ppt "Technische Universität München Lehrstuhl für integrierte Systeme Prof. Dr. sc. techn. Andreas Herkersdorf Arcisstrasse 21 80290 Munich, Germany"

Ähnliche Präsentationen


Google-Anzeigen