Entwurf eines FPGA-Cores zur ... - real-time

Entwurf eines FPGA-Cores zur 

Simulationsbeschleunigung zeitkontinuierlicher 

Modelle im HiL Kontext 

Till Fischer 03.11.2011 

FZI Forschungszentrum Informatik 

Embedded Systems & Sensors Engineering (ESS) 

Diplomarbeit FZI / KIT (ehem. Universität Karlsruhe), Februar 2011

Überblick 

• Motivation 

• Lösungsansatz 

• Architektur 

• Ergebnisse 

• Ausblick 

03.11.2011 © FZI Forschungszentrum Informatik 2

Motivation 

• Hardware-in-the-Loop (HiL) Test 

• Umgebungssimulation für Steuergeräte z.B. im Automobilbereich 

HiL Simulator 

Umgebungsmodell 

Unit Under Test: 

µController, 

eingebettetes System 

Signalmessung 

und -bereitstellung 

©BMW 

Echtzeitrechner 

©Atmel 

©MBtech 

03.11.2011 

© FZI Forschungszentrum Informatik 3

Motivation 

• Beschreibung der Umgebung mittels Differentialgleichungen 

• Sehr kurze Zykluszeit: bis in den Bereich von µs (!) 

• Problem wenn DGL nicht im Voraus lösbar 

‣ neue Lösung in jedem Iterationsschritt erforderlich 

‣ Echtzeitanforderung 

• Verwendung numerischer Verfahren 

• Explizite und implizite Verfahren 

• Implizite Verfahren: erhöhte numerische Stabilität 

• Lösung von Gleichungssystem in jedem Iterationsschritt 

03.11.2011 


LESCore: IP-Core für FPGAs 

• LESCore: Linear Equation Solver Core 

• IP-Core zur Lösung linearer Gleichungssysteme in Hardware 

A, b LESCore x 

03.11.2011 


Lösungsansatz 

Direkte Verfahren 

Gauß-Algorithmus 

LR-Zerlegung 

QR-Zerlegung 

Cholesky-Verfahren 

Umformung Koeffizientenmatrix A in Rechtsdreiecksmatrix 

Lösen durch „Rückwärtseinsetzen“ 

Abwandlung des Gauß-Algorithmus: Zerlegung von A in zwei 

Matrizen L und R mit A=L∙R 

Wiederverwendbarkeit der Zerlegung 

Weniger anfällig für Rundungsfehler, doppelte Laufzeit 

Nur für symmetrische, positiv definite Matrizen 

Iterative Verfahren 

z.B. Krylow-Unterraum Verfahren 

Effizient für sehr große Systeme 

Konvergenzverhalten abhängig von Initiallösung 

Mehr Kontrollfluss als direkte Verfahren 



Direkte Verfahren 

Gauß-Algorithmus 

LR-Zerlegung 

QR-Zerlegung 

Cholesky-Verfahren 

Umformung Koeffizientenmatrix A in Rechtsdreiecksmatrix 

Lösen durch „Rückwärtseinsetzen“ 

Abwandlung des Gauß-Algorithmus: Zerlegung von A in zwei 

Matrizen L und R mit A=L∙R 

Wiederverwendbarkeit der Zerlegung 

Weniger anfällig für Rundungsfehler, doppelte Laufzeit 

Nur für symmetrische, positiv definite Matrizen 

Iterative Verfahren 

z.B. Krylow-Unterraum Verfahren 

Effizient für sehr große Systeme 

Konvergenzverhalten abhängig von Initiallösung 

Mehr Kontrollfluss als direkte Verfahren 



Paralleler Zugriff 

a 11 a 12 ... a 1n b 1 

r 11 r 12 ... r 1n b 1 

a 21 a 22 … a 2n b 2 

 

0 r 22 … r 2n b 2 

... 

... 

... 

... 

... 

... 

... 

a n1 a n2 … a nn b n 

0 … 0 r nn b n 

• Erzeugung von „Nullen“ unterhalb der 

Hauptdiagonalen durch 

Linearkombination von Zeilen 

• Pivotierung/Zeilenvertauschung: 

Vermeidung von Rundungsfehlern 

‣ Suche nach Maximum innerhalb einer 

Spalte 

‣ Breite Speicherschnittstelle für parallelen 

Zugriff 

‣ Replizierte Recheneinheiten (SIMD) 

‣ Cache für Koeffizienten einer Spalte 

‣ Pivotierung löst außerdem Problem 

„Division durch Null“ 



• Ausreizen der möglichen Parallelität 

• Suche nach Maximum (Pivotierung) 

• „Einsetzen“ zur Bestimmung des Lösungsvektors 

a 11 a 21 a 31 a 41 a 51 a 61 

b 1 r 11 r 12 r 13 r 14 

+ + 

≥ 

≥ 

≥ 

≥ 

+ 

≥ 

- 


LESCore Architektur 

Designparameter: 

• Floating-Point Format 

• Parallelität N 

• Speichergröße 


Test 

• Simulation mit ModelSim 

• Prototyp auf Xilinx® Virtex 6 FPGA 

• Zusätzliche Module für 

Kommunikation zwischen 

Host-PC FPGA 

• ChipScope Pro 

• Integrated Controller (ICON) 

• Virtual I/O (VIO) 


Auswertung 

• FPGA Ressourcen (Virtex 6 VLX240T-1) 

45% 

25% 

14549 

40% bram_depth=128 

35% 

20% 

30% 

25% 

Slices 

15% 

7688 

20% 

BRAMs 

10% 

15% 

99 DSPs 

3926 

10% 2547 

51 

33 

5% 

17 

5% 5 15 9 

27 

0% 

0% 

4 8 16 32 

N 

N=16 

7688 7493 

7640 

6658 

17 17 17 17 

7738 

6923 

68 

Slices 

34 

BRAMs 

128 256 512 1024 2048 4096 

bram_depth 

14% 

12% 

10% 

N=4 

bram_depth=128 

4659 

8% 

6% 

4% 

2% 

2547 

5 

15 

10 

55 

Slices 

BRAMs 

DSPs 

0% 

single 

double 


Auswertung 

• Erreichbare Taktrate: 

• Virtex 6 VLX240T-1 

• Inklusive Host-PC Interface (ChipScope Pro ICON + VIO) 

Design XST (Post Synthese) PAR (Post Place & Route) 

N=4, bram_depth=128, 

IEEE-754 single 

N=32, bram_depth=2048, 

IEEE-754 single 

164 MHz 187 MHz 

156 MHz 82 MHz 


Execution Time @ 100Mhz (ms) 

Auswertung 

• Schlechtester Fall: 

• Immer Zeilenvertauschung 

• Alle Koeffizienten ≠ 0 

10 

9 

8 

7 

6 

5 

4 

3 

N = 4 

N = 8 

N = 16 

N = 32 

2 

1 

0 

4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 

Dimension 


Execution Time @ 100Mhz (ms) 

Auswertung 

• Schlechtester Fall: 

• Immer Zeilenvertauschung 

• Alle Koeffizienten ≠ 0 

Vergleich mit Intel Core2Duo (1 Kern): 

Matlab 

OpenCV (SSE) 

10 

9 

8 

7 

6 

5 

4 

3 

2 

N = 4 

N = 8 

N = 16 

N = 32 

Matlab 

OpenCV 

1 

0 

4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 

Dimension 


Zusammenfassung + Ausblick 

• Flexibel, einfache Anpassung durch Parameter 

• Einfache Schnittstelle (identisch mit BRAM Speicher) 

• Speed-Up gegenüber Lösung mittels embedded Software bei Auslastung 

von nur 20% der FPGA-Ressourcen 

• Fixed-Point Arithmetik 

• Deutliche Ressourceneinsparung 

• Steigerung der Performanz 

• Großes Optimierungspotential in Zustandsautomaten (Handshakes) 

• Ausnutzung der Pipeline in Floating-Point IP-Cores

Entwurf eines FPGA-Cores zur ... - real-time

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?