Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

ALICE-TRD digital chip Falk Lesser Kirchhoff Institut für Physik

Ähnliche Präsentationen


Präsentation zum Thema: "ALICE-TRD digital chip Falk Lesser Kirchhoff Institut für Physik"—  Präsentation transkript:

1 ALICE-TRD digital chip Falk Lesser Kirchhoff Institut für Physik

2 2 Inhalt Ziele des ALICE-Experiments Das TRD-System Lineare Regression Implementierungsansätze Der Prozessorkern femtoJava 1 Projekt-Status

3 3 Ziele des ALICE-Experiments ALICE ist eines der vier großen Experimente am LHC Studien am Quark Gluonen Plasma (QGP) Ereignisrate beträgt 4*10 3 Kollisionen pro Sekunde (Pb + Pb) Teilchenmultiplizität von etwa Teilchen in der Akzeptanz des Detektors (zentrales Event) Suche nach high p t Elektron-Positron Paaren (e + e - ) –Teilchen mit einem Transversalimpuls  3 GeV/c –5 % aller zentralen Pb + Pb beinhalten e + e - -Paare –Identifizierung der Teilchen über die Ablenkung in r/  -Ebene –Ablenkung der gesuchten Teilchen < 2.0 mm bei p t  3 GeV/c –ohne Trigger jährliche Produktion Y = 1000 Trigger auf interessante Ereignisse

4 4 Gesamtübersicht des Detektor TRD umgibt die TPC TRD ist der Level 0 Trigger der TPC TPC besitzt sehr lange Latenzzeiten Anforderung: Gute Spurauflösung, schnelle Triggerentscheidung Pionenunterdrückung Verarbeitet Daten aus 1.2 Millionen Kanälen (occupancy = 12 %)

5 5 Der Detektor (TR) -Photonen werden emittiert beim Übergang eines Teilchens durch zwei Medien unter- schiedlicher Dielektrizitätskonstanten  1 =>  2 Intensität der Übergangsstrahlung  |  2 -  1 | Abgestrahlte Intensität  Lorentzfaktor  L (Identifikation); Hochrelativistisch  L >> 1 Elektronen  L = 2000 (Größenordnung) Partikel ionisieren Gas (Xe/CO 2 oder Xe/C 4 H 10 ) und setzen freie Elektronen ab Elektronen driften entlang eines elektr. Feldes Detektion am Auslesepad Insgesamt 1.2 Millionen Auslesekanäle Pionenunterdrückung: Track-Detection:

6 6 Zeitablauf Alle e + e - mit minimaler Ablenkung sollen gefunden werden Ermittlung der Position, Winkel und Amplitude aller high pt tracks Infos zur Track Matching Unit (TMU). Datenreduktion von 1800 Hz (clean min bias) auf 40 Hz (e+ e-) Ereignisrate Selektion der steifen Tracks über lin. Regression parallel für alle Lagen Berechnung der Regressionsparameter in Echtzeit Berechnung charakteristischer Werte mit Hilfe einer microCPU Berechneten Werte in 32 Bit-Wert zusammenfassen und an TMU übergeben TMU korreliert Spursegmente und fällt Triggerentscheidung

7 7 Datenauslese 12 % Occupancy bei Detektoroberfläche von 108 m 2 (plane 1) Pads/Lage => 4,5 cm 2 pro Pad Ladungsteilung zwischen benachbarten Pads Ortsauflösung von 200  m timebin Pad Amplitude

8 8 Simulation Teilchenmultiplizität von etwa Teilchen/s (Pb + Pb) Anzahl der Kanäle Werte pro Kanal (Timebins) Sampling rate MHz Auflösung der ADCs 8 Bit Gesamtaufkommen an Rohdaten 36 MByte Erste Simulation:

9 9 Datenaufkommen Berechnungsdauer: 2  s Driftzeit Datenformat: 8 Bit/pro Timebin und Kanal Rohdaten: 30 Bytes pro Ereignis Daten: 30 Bytes x 1.2 Millionen Kanäle = 36 MByte Insgesamt : 18 TByte/s..... timebin Elektronik: Auf dem Detektor

10 10 Datenanalyse timebin Pad-No. 30 a b

11 11 Algorithmus Insgesamt 5  s Verarbeitungsdauer davon 2  s Driftzeit Positionen und Fit-Parameter während der Driftzeit bestimmbar Stichprobenwerte (x i, y i ): i = 1, 2,... N x-Wert ist diskret (timebin), y-Wert ist gemessene Position (Spur + Meßfehler) KQ-Methode: Zu Berechnen sind die Erwartungswerte für a, b Regressionsgerade: N  y i x i -  x i  y i N  x i 2 - (  x i ) 2  y i  x i 2 -  y i x i  x i b = a = N  x i 2 - (  x i ) 2 y (x) = a + bx 2=2= A P+1 - A P-1 N -1  [y i - ( a + bx)] 2 A P-1 + A P + A P+1 y i =

12 12 Anforderungen  x i = Summe Timebin  y i = Summe Ort  x i y i = Summe Ort * Timebin y i = Ort A = Achsenabschnitt Während der Driftzeit:Nach der Driftzeit: B = Steigung Allg. Größen = f(  y i,  x i )  2 = Qualitätsmaß für den Fit N = Hitcount Keine Iteration notwendig am Ende der Driftzeit! Zeitersparnis 2  s Pipelineverarbeitung in Hardware: y i = xixi yiyi  x i y i yi2yi2 Calculate sumsCalculate Position Calculate fit summands x i y i xi2xi2  x i 2  y i 2 DiDo  x i < 497  x i 2 <  y' i 2 <  y' i < 993  x i y' i < Sum Memory Op.3 Op.6 Op.12 Op. 64 A P+1 APAP A P-1 A P+1 - A P-1 A P-1 + A P + A P+1

13 13 Rechenleistung im Vergleich Notwendige Operationen: Lineare Regression Ziel: Geradengleichung Regressionsparameter : 25 Operationen pro Timebin 30 Werte pro Track:750 Operationen pro Track Werte a, b:11 Operationen für jeden Parameter Wert  2 :30 Operationen Insgesamt:791 Arithmetische Operationen (AOPS) Tracks:12,656 * 10 6 Arithmetische Operationen Rechenzeit 2  s6,328 * AOPS insgesamt y (x) = a + b x

14 14 Lösungsansatz Problem: Gesamtaufkommen an Daten:18 TByte/s Erforderliche Rechenleistung:6,328 * AOPS Lösung:Netzwerk aus CPUs Jeder Kanal berechnet die Regressionsparameter microCPU verarbeitet die Daten von 16 Kanälen 16 (18) Verarbeitungskanäle auf jedem Chip 16 HSLP-ADCs für jeden Chip Funktionseinheiten von 16 Kanäle auf MCM Algorithmen in Java-Bytecode AMS035 CMOS-Technologie IIIIII

15 15 I/O-Daten der Fit-Logik Input-Daten –8 Bit (256 Quantisierungsstufen) –16 Datenkanäle + 2 benachbarte Kanäle –Samplingrate MHz (62, ns) Output Daten –32 Bit Ausgabedaten teilen sich auf in r  Position 11 Bits Korrigierter  -Winkel bzw. Displacement 5 Bit z-Position 6 Bits (Position aus Chip-Nummer, Padrow, Sektor) Amplitude 8 Bits TR-Qualität 2 Bits

16 16 Implementierungsansätze Pad 1Pad 2Pad 3Pad 8Pad 9Pad 10Pad 16 TH-Logic Sub  A 5...  A 8 A 1..A 4 Div Zentr. Reg Evt. Buffer Selektion der Operanden Shift Sub A 5..A 8 Div Reg Shift  A 1...  A 4 Sub A 9..A 12 Div Reg Shift Sub A 13..A 16 Div Reg Shift  A 9...  A 12  A  A 16 Reg yyyy

17 17 Ausschnitt aus der TH-Logik  TH Comp Pad 1Pad 2Pad 3Pad 8 Comp Pad 9 &&&& &&& Zentr. Sum Selektion der ADC-Werte: A P-1 + A P + A P+1 > TH (A P-1 < A P ) & (A P+1 < A P ) Datenreduktion: Faktor 4 (30 x 1 Byte => 4 x 1 Byte)

18 Die virtuelle Java Maschine Definition eines abstrakten Maschinenmodells Funktionale Verhalten ist genau spezifiziert Spezifikation der JVM ist von Implementierungsdetails entkoppelt Flexibler Triggercode Ideal spezifizierter Prozessor Quellprogramme A.java B.java C.java Java Compiler Java Compiler Kompilierte Programme A.class B.class C.class Kompilierte Programme A.class B.class C.class Execution Engine Class-Loader Standard Java-Klassen (API) X.class Y.class Z.class Java Virtual Machine

19 19 Spezifikation der JVM Befehlssatz besteht aus 201 Opcodes Laden/Speichern Arithmetische/Logische Befehle Typumwandlungsbefehle Befehle zur Verwaltung des Operandenstapels Kontrolltransferbefehle Befehle zum Erzeugen und Manipulieren von Objekten Spezialbefehle: –N  y i x i -  x i  y i –N  x i 2 - (  x i ) 2 Befehlsformat 8 Bit Datenformat 32 Bit (hier 16 Bit)

20 Hardwarestruktur des femtoJava 1 Dreistufige Pipelinestruktur Fetch/Decode (Pipe 1) Fetch Operands, Execute Control, Write Back (Pipe 2) Execute (Pipe 3) Pipe 2 Pipe 1 Pipe 3 (4) Data-Memory Instr.-Memory KontrollsignaleVerarbeitungsdaten Reset Initialisierung Kontrollsignale Instruktionen femtoJava 1 Instruktionen

21 21 Die erste Pipelinestufe idle fetch decode fetch2 Go Pipe 2 Go Pipe 2 Aktivität an Pipelinestufe gotoOp 1Op2 goto Operand 1 Operand 2 Instruktionswort zu goto Konstante zu goto Kontrolleinheit Clk Read_instr Instr_ready Instr_addr Opcode Code temp1 temp2 anweisung const Temp 2 Temp 1 Code Const Anweis Instruktions Speicher Instruktions Speicher PC- Logik PC- Logik Addr. Befehls Decoder Befehls Decoder Kontroll- Einheit Kontroll- Einheit Datenpfad Pipelinestufe 2 Opcode/Data Start 1. LZ 2. LZ Decode abgeschlossen Reset LZ fortsetzen Neuer LZ LZ fortsetzen

22 22 Kontrolleinheit der zweiten Stufe Readdecode Executedecode Writedecode Execute ALU-Ctr Execute ALU-Ctr Write_ix8 Write_ix_1 Write _ix Write_ix8_d1 Write_ix1_d1 Write _ix_d1 Write_ix8_d2 Write_ix1_d2 Write _ix_d2 Write _ix1_3_1 Write _ix1_3_2 Write _ix1_3_3 Write _ix1_4_1 Write _ix1_4_2 Write _ix1_4_3 Write _ix1_4_6 Write _ix1_4_5 Write _ix1_4_4 Read_ix8 Read_ix8_2 Read_ix Read_ix_2 Read_ix_2d1 Read_ix_2d2 Readdecode: Daten laden Executedecode: Operationen der ALU steuern Writedecode: Speichern von Daten Pipe 1 Zeitgleich zum WB nächsten Fetchzyklus

23 23 Datenpfad der zweiten Stufe Pipelinestufe 3 Pipelinestufe 1 const anweisung opcode Temp 1 Temp 2 R5 R4 R2 R1 Daten Speicher Daten Speicher Extension Kontroll Einheit Kontroll Einheit Vorzeichen Check Vorzeichen Check vars Optop Add Vorverarbeitung der geladenen Daten und Operanden Laden und Speichern von Daten Zusammensetzen geladener Daten Alle Datenpfade sind vollständig voneinander entkoppelt Funktion: Add

24 24 Kontrolleinheit der dritten Stufe Executedecode Writedecode Lmul1 Lmul2 Lmul3 ALU Go_ WB Go_ WB idle Steuerung der ALU-Operation Decodierung des ALU- Steuerwortes Freigabe des Ausgangsregisters Funktion: Readdecode Nächster Fetch ALU-Operation selektieren Freigabe Register Execute Ready

25 25 Datenpfad der dritten Stufe Pipelinestufe 2 R2 R1 R4 R5 Assemble Typkonv. Shift Add/Sub Boolsche R6 MAC Temp Reg C1C2 C3 Ass ALU verarbeitet 44 Befehle 17 Vergleichsoperationen 16 Arithmetische/Logische 6 Schiebeoperationen 5 Typkonvertierungen 42 Befehle werden innerhalb eines Taktes verarbeitet Aufwendige Befehle (64 Bit Mul) werden innerhalb von drei Takten verarbeitet Funktion:

26 26 Hardwaresynthese Xilinx FPGA-Bibliothek: Gesamtentwurf umfaßt 3615 CLBs Kritische Pfad besitzt Signallaufzeit von 254 ns (ca. 4 MHz) AMS08 Standardzellenbibliothek Gesamtentwurf umfaßt 38,63 mm 2 Chipfläche Kritische Pfad besitzt Signallaufzeit von 62 ns (ca. 16 MHz) Gatteräquivalent von Gatter AMS035 Standardzellenbibliothek Gesamtentwurf umfaßt 7,27 mm 2 Chipfläche (femtoJava 2) Kritische Pfad besitzt Signallaufzeit von 19 ns (ca. 52 MHz) Test-Layout des femtoJava 1

27 27 Projektstatus Implementierung der „Linear track fit engine“ –Simulationsmodel liegt vor und wird iterativ verbessert –Werte aus Simulation bestimmen die Implementierungsstruktur der Hardwarerealisierung Erster Prototyp der microCPU ist vorhanden –Hardwarerealiesierung der LTFE liegt vor (VHDL-Modell) –Tape out Q1 `00 –Nächster Designschritt der microCPU Q2 `00


Herunterladen ppt "ALICE-TRD digital chip Falk Lesser Kirchhoff Institut für Physik"

Ähnliche Präsentationen


Google-Anzeigen