Workshopband als PDF - Mpc.belwue.de
Workshopband als PDF - Mpc.belwue.de
Workshopband als PDF - Mpc.belwue.de
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Abbildung 7: Vergleich <strong>de</strong>r Erkennungsrate auf Basis <strong>de</strong>r<br />
INRIA-Datenbank [15]<br />
IV. ERGEBNISSE<br />
Dieses Kapitel stellt die Ergebnisse dar, die mit <strong>de</strong>r<br />
oben beschrieben Implementierung erzielt wur<strong>de</strong>n.<br />
Für die Tests wur<strong>de</strong> eine Kamera verwen<strong>de</strong>t, die Bil<strong>de</strong>r<br />
mit Full-HD-Auflösung bei 50 fps und 8 Bit<br />
Graustufenwerten liefert.<br />
A. Ressourcen<br />
In Tabelle 1 sind die Ressourcen für die einzelnen<br />
Module aufgelistet, während Tabelle 2 die Auslastung<br />
<strong>de</strong>s zur Evaluierung verwen<strong>de</strong>ten Xilinx Virtex ® -5<br />
FPGAs (XC5VFX200T) für das komplette Design mit<br />
6 parallelen Skalenstufen und 3 Skalensätzen im<br />
Zeitmultiplex zeigt.<br />
Wie erkennbar ist, sind hierbei die DSP-Zellen das<br />
begrenzen<strong>de</strong> Element, weswegen bei <strong>de</strong>r Implementierung<br />
<strong>de</strong>r Module insbeson<strong>de</strong>re auf <strong>de</strong>ren Einsatz geachtet<br />
wur<strong>de</strong>. Durch die Taktverdoppelung konnte die<br />
Anzahl <strong>de</strong>r DSP-Zellen für <strong>de</strong>n HOG erheblich reduziert<br />
wer<strong>de</strong>n. Vor allem bei <strong>de</strong>r Normierung können<br />
damit, wie oben beschrieben, sehr viele Ressourcen<br />
eingespart wer<strong>de</strong>n, da durch die Taktverdoppelung<br />
128 statt 64 Takte bis zum nächsten Block zur Verfügung<br />
stehen, und so ein großer Teil <strong>de</strong>r Normierung<br />
sequentiell berechnet wer<strong>de</strong>n kann.<br />
Im Vergleich zu <strong>de</strong>r Implementierung aus [11] die<br />
auch auf eine Auflösung von 1920 x 1080 Pixel abzielt,<br />
konnte <strong>de</strong>r Ressourcenbedarf – trotz doppeltem<br />
Durchsatz (30 fps zu 60 fps) – <strong>de</strong>utlich reduziert wer<strong>de</strong>n<br />
(Tabelle 3).<br />
B. Echtzeitverhalten<br />
Die Implementierung wur<strong>de</strong> auf <strong>de</strong>n Betrieb mit einem<br />
Pixel-Takt von 133 MHz und einem Core-Takt<br />
von 266 MHz optimiert. Die Maximalfrequenz liegt<br />
bei etwa 270 MHz (Core-Takt). Daraus ergibt sich<br />
eine maximale Bildrate von 64 fps bei 1920 x 1080<br />
Pixel (Tabelle 3). Die maximale Klassifikationsperformance<br />
liegt damit bei<br />
64<br />
ERKENNUNG VON FUSSGÄNGERN IN ECHTZEIT AUF FPGAS<br />
1920<br />
8<br />
− 6 ∙ 1080 − 14 ∙ 64 = 1.812.096<br />
8<br />
Klassifikationsfenstern pro Sekun<strong>de</strong> für eine Skalenstufe<br />
(bei einem Skalierungsfaktor von 1). Das Design<br />
aus Tabelle 2 ist somit in <strong>de</strong>r Lage, eine maximale<br />
Anzahl von knapp 11 Mio. Klassifikationsfenstern pro<br />
Sekun<strong>de</strong> (ohne Zeitmultiplex) zu verarbeiten. Dies<br />
übersteigt bestehen<strong>de</strong> Implementierungen [5], [6], [7],<br />
[11] um mehr <strong>als</strong> <strong>de</strong>n Faktor 10.<br />
Die Latenz <strong>de</strong>r Implementierung variiert durch die<br />
Skalierungsmodule und die diversen Zeilenspeicher je<br />
nach gewählter Skalenstufe. Durch eine Hardwaresimulation<br />
wur<strong>de</strong> eine Latenz von unter 150 µs ermittelt.<br />
C. Genauigkeit<br />
Um die Erkennungsrate zu erhöhen, wer<strong>de</strong>n im gesamten<br />
Design Werte bei Overflow nicht abgeschnitten<br />
son<strong>de</strong>rn auf <strong>de</strong>n Maximalwert abgerun<strong>de</strong>t, um <strong>de</strong>n<br />
daraus resultieren<strong>de</strong>n Fehler zu minimieren. Des Weiteren<br />
wur<strong>de</strong>n die Bitbreiten <strong>de</strong>r einzelnen Signale so<br />
gewählt, dass es nur unter Worst-Case-Bedingungen<br />
zu einem Overflow kommen kann.<br />
Für die Bewertung <strong>de</strong>r Erkennungsrate wur<strong>de</strong> die<br />
Implementierung basierend auf <strong>de</strong>r INRIA Datenbank<br />
[15] mit <strong>de</strong>r CPU-Implementierung (R-HOG mit linearer<br />
SVMLight-SVM) verglichen (Abbildung 7).<br />
Hierbei zeigt sich eine um 6% höhere Miss Rate zum<br />
original R-HOG bei 10 -3 FPPW. Dies ist vor allem<br />
durch das Fehlen <strong>de</strong>r trilinearen Interpolation bei <strong>de</strong>r<br />
Histogrammerstellung und die Rundung <strong>de</strong>r einzelnen<br />
Berechnungen (v. a. bei <strong>de</strong>r Normierung) erklärbar.<br />
V. ZUSAMMENFASSUNG<br />
Die hier vorgestellte Implementierung beschleunigt<br />
die Berechnung und Klassifikation <strong>de</strong>r HOG-<br />
Deskriptoren erheblich. Im Vergleich zu bestehen<strong>de</strong>n<br />
Veröffentlichungen [5]-[7],[11] ergibt sich ein Geschwindigkeitsunterschied<br />
um mehr <strong>als</strong> <strong>de</strong>n Faktor 10<br />
(bei <strong>de</strong>r Multiskalen-Implementierung aus Tabelle 2).<br />
Durch <strong>de</strong>n Einsatz eines doppelt so hohen Core-Taktes<br />
und weiterer Optimierungsmetho<strong>de</strong>n konnte <strong>de</strong>r Ressourcenbedarf<br />
reduziert wer<strong>de</strong>n, ohne die Echtzeitfähigkeit<br />
<strong>de</strong>r Implementierung zu beeinträchtigen. Basierend<br />
auf <strong>de</strong>m Zeitmultiplex-Verfahren konnte die<br />
Anzahl <strong>de</strong>r berechenbaren Skalenstufen auf die bei<br />
CPU- und GPU-Implementierungen übliche Anzahl<br />
erhöht wer<strong>de</strong>n. Aufgrund <strong>de</strong>r parametrierbaren Multiskalenmodule<br />
ist eine Anpassung an unterschiedliche<br />
Hardwareplattformen einfach möglich.