09.02.2015 Aufrufe

Positionsvorhersage von bewegten Objekten in gro ... - FIAS

Positionsvorhersage von bewegten Objekten in gro ... - FIAS

Positionsvorhersage von bewegten Objekten in gro ... - FIAS

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>in</strong>: Proceed<strong>in</strong>gs des Workshops Dynamische Perzeption,<br />

18./19. Juni, Bielefeld, Infix Verlag, 1998.<br />

<strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong><br />

<strong>in</strong> <strong>gro</strong>formatigen Bildsequenzen<br />

H. S. Loos, B. Fritzke, C. v. d. Malsburg, y<br />

Institut fur Neuro<strong>in</strong>formatik, Ruhr-Universitat Bochum,<br />

D{44780 Bochum, Germany<br />

y auch University of Southern California, Dept. of Computer Science und Section<br />

for Neurobiology, Los Angeles, USA<br />

Zusammenfassung<br />

Es werden zwei Verfahren zur <strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong> vorgestellt:<br />

zur Bestimmung der Startpositionen wird das LBG-U Verfahren e<strong>in</strong>gesetzt, die<br />

Vorhersage der nachsten Position bezuglich e<strong>in</strong>er gegebenen liefert e<strong>in</strong> fur Sequenzen<br />

modiziertes k{Nearest-Neighbor Verfahren. Als Objekte dienen Gesichter <strong>von</strong><br />

Personen, die sich <strong>in</strong> e<strong>in</strong>em Korridor mit mehreren Turen bewegen.<br />

Im Test mit e<strong>in</strong>em optimalen kunstlichen Gesichtsnder wurden die nachsten Positionen<br />

mit kle<strong>in</strong>eren Abweichungen immer korrekt vorhergesagt. Die Versuche mit<br />

e<strong>in</strong>em realen Gesichtsnder waren auch erfolgreich: die Anzahl der abzusuchenden<br />

Positionen im Parameterraum reduzierte sich um den Faktor 48, gleichzeitig stieg die<br />

Erkennungsrate <strong>von</strong> 7,35 % (gesamte Szene) auf 95,17 %.<br />

1 E<strong>in</strong>fuhrung<br />

Die Problematik der <strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong> <strong>in</strong> <strong>gro</strong>formatigen Bildsequenzen<br />

unterteilt sich <strong>in</strong> zwei Aufgaben: zum e<strong>in</strong>en mussen die Startpositionen bestimmt<br />

und zum anderen fur e<strong>in</strong>e gegebene Position die nachste vorhergesagt werden.<br />

Damit die bearbeiteten Probleme gelost werden konnen, werden folgende a priori Annahmen<br />

gemacht: die betrachteten Objekte bewegen sich auf glatten Bahnen, benutzen haug<br />

dieselben Wege und starten wiederholt <strong>von</strong> ahnlichen Positionen.<br />

Als Szene dient der Korridor des Instituts fur Neuro<strong>in</strong>formatik <strong>in</strong> Bochum, die Objekte<br />

s<strong>in</strong>d Gesichter <strong>von</strong> Personen, die sich auf dem Gang bewegen (s. Abbildung 1). Es<br />

werden mehrere Beispielsequenzen gelernt und anschlieend mit neuen Sequenzen uberpruft.<br />

Zur Bestimmung der Startpositionen wird das LBG-U Verfahren [1] e<strong>in</strong>gesetzt, die<br />

Vorhersage der nachsten Position liefert e<strong>in</strong>e fur Sequenzen modizierte Version des k{<br />

Nearest-Neighbor Verfahrens [4].<br />

2 Die Aufnahmedaten<br />

Die untersuchte Szene ist der Korridor des Instituts fur Neuro<strong>in</strong>formatik <strong>in</strong> Bochum. In<br />

dem betrachteten Ausschnitt des Gangs benden sich vier Turen: e<strong>in</strong>e l<strong>in</strong>ks (Sekretariat),


Abbildung 1: Verschiedene Bilder e<strong>in</strong>er Sequenz (512 512 Pixel, 8 Bit Grauwert, Framerate<br />

12,5 Hz, ca. 8 s Lange).<br />

e<strong>in</strong>e geradeaus (Buro) und zwei rechts (Kuche und Sem<strong>in</strong>arraum). Die ersten Aufnahmen<br />

s<strong>in</strong>d fur anfangliche Untersuchungen e<strong>in</strong>fach gehalten: jede Person mu alle drei Wege {<br />

wie <strong>in</strong> Abbildung 2 (a) beschrieben { e<strong>in</strong>mal abgehen. Die so erhaltenen Sequenzen wurden<br />

<strong>in</strong> e<strong>in</strong>e Tra<strong>in</strong><strong>in</strong>gs- und e<strong>in</strong>e Testmenge aufgeteilt. Dabei wurde lediglich darauf geachtet,<br />

da die Mengen disjunkt s<strong>in</strong>d und die Tra<strong>in</strong><strong>in</strong>gsmenge ungefahr doppelt so <strong>gro</strong> ist wie<br />

die Testmenge.<br />

Von den mit den ersten Aufnahmen gesammelten Erfahrungen ausgehend, wurden<br />

weitere Aufnahmen gemacht, um die e<strong>in</strong>gesetzten Verfahren und Konzepte <strong>in</strong> schwierigeren<br />

Situationen zu uberprufen.<br />

Abbildung 2 (b) gibt e<strong>in</strong>en Uberblick uber die Wege, die jede Person fur die zweiten<br />

Aufnahmen e<strong>in</strong>mal abgehen mute. Je nach Lange der Wege wurde e<strong>in</strong>e unterschiedliche


(a)<br />

(b)<br />

Abbildung 2: (a): Die e<strong>in</strong>fachen Wege fur die ersten Aufnahmen, jede Person mu e<strong>in</strong>mal<br />

alle drei Wege abgehen. (b): Die komplizierteren Wege fur die zweiten Aufnahmen: 1 und<br />

2fuhren <strong>in</strong> Richtung der Kamera, 3 <strong>von</strong> der Kamera weg und 4 parallel zur Kamera. Auf<br />

dem Weg 2 s<strong>in</strong>d die Personen jeweils zweimal <strong>in</strong> die Hocke gegangen.<br />

Anzahl <strong>von</strong> Bildern aufgenommen. Bei den komplizierteren Wegen der zweiten Aufnahmen<br />

fallt auf, da die Personen sich nicht nur <strong>in</strong> Richtung auf die Kamera (1, 2), sondern auch<br />

parallel (4) und sogar <strong>von</strong> der Kamera weg bewegen (3). Bei e<strong>in</strong>em Weg (2) hatten die<br />

Versuchspersonen die Vorgabe, zweimal wahrend der Sequenz <strong>in</strong> die Hocke zu gehen.<br />

Die Gesichter s<strong>in</strong>d auf den Wegen 3 und 4 gar nicht oder nur sehr schwer zu erkennen.<br />

Statt der Gesichter wurden auf diesen Bildern die Kopfe markiert, um die verwendeten<br />

Verfahren auch unter diesen ausgefallenen Bed<strong>in</strong>gungen zu testen. Die Sequenzen der zweiten<br />

Aufnahmen wurden wieder, wie bei den ersten Aufnahmen, <strong>in</strong> e<strong>in</strong>e disjunkte Tra<strong>in</strong><strong>in</strong>gsund<br />

Testmenge aufgeteilt.<br />

Alle Gesichter auf den Bildern der beiden Aufnahmen wurden mit der Hand gekennzeichnet,<br />

da ke<strong>in</strong> verfugbarer Gesichtsnder mit dem <strong>gro</strong>en Parameterraum genugend<br />

gute Ergebnisse liefert (s. Tabelle 1). Diese Daten bilden die Tra<strong>in</strong><strong>in</strong>gsdaten fur alle Auswertungen<br />

und Experimente.<br />

3 Das Problem der Bestimmung der Startpositionen<br />

Damit die Bewegung e<strong>in</strong>es Objekts uberhaupt vorhergesagt werden kann, mu es zuerst<br />

lokalisiert werden. Um nicht den gesamten Parameterraum abzusuchen, sollte e<strong>in</strong>e Methode<br />

gefunden werden, die die Aufmerksamkeit auf bestimmte Bereiche konzentriert.<br />

Zur Identizierung solcher Bereiche s<strong>in</strong>d Erfahrungswerte notwendig, aus denen dann die<br />

benotigten Informationen extrahiert werden konnen.<br />

Dieses Vorgehen ltert unwahrsche<strong>in</strong>liche bzw. unmogliche Bereiche (z. B. e<strong>in</strong> Gesicht<br />

hangt nicht an der Decke) heraus und schrankt so die Suche auf wenige <strong>in</strong>teressante Ausschnitte<br />

e<strong>in</strong>. Auch der Mensch stutzt sich auf se<strong>in</strong>e Alltagserfahrung und konzentriert se<strong>in</strong>e<br />

Aufmerksamkeit auf die Bereiche e<strong>in</strong>er Szene, <strong>in</strong> der das gesuchte Objekt erfahrungsgema<br />

haug anzutreen ist [5].<br />

Fur die Ermittlung der Startpositionen wurde das LBG-U Verfahren [1] e<strong>in</strong>gesetzt.<br />

Es gehort zu der Klasse der Verfahren mit hartem Wettbewerbslernen (hard competitive<br />

learn<strong>in</strong>g oder auch w<strong>in</strong>ner-take-all learn<strong>in</strong>g) und basiert auf dem LBG Verfahren <strong>von</strong><br />

L<strong>in</strong>de, Buzo und Gray [3].


Abbildung 3: Das Ergebnis zur Bestimmung der Startpositionen: l<strong>in</strong>ks fur die ersten, rechts<br />

fur die zweiten Aufnahmen. Die vielen hellen Rechtecke stellen die markierten Gesichter<br />

dar, die kle<strong>in</strong>en dunkleren Rechtecke den Schwerpunkt der Gesichter. Die umschlieenden<br />

dunklen Rechtecke berechnen sich aus den Schwerpunkten und bestimmen die Startpositionen.<br />

Vor der Ermittlung der moglichen Startpositionen durch das LBG-U Verfahren mussen<br />

die Daten noch aufbereitet werden. Die Aufbereitung dient der Extraktion der e<strong>in</strong>zelnen<br />

Sequenzen. Da der Beg<strong>in</strong>n e<strong>in</strong>er Sequenz nicht markiert ist 1 ,werden zuerst die e<strong>in</strong>zelnen<br />

Sequenzen lokalisiert: wenn <strong>in</strong> e<strong>in</strong>er gewissen Anzahl <strong>von</strong> Bildern ke<strong>in</strong> Gesicht vorkommt,<br />

dann startet e<strong>in</strong>e Sequenz mit dem nachsten gefundenen Gesicht.<br />

Abbildung 3 zeigt das Ergebnis fur die Bestimmung der Startpositionen der Daten<br />

fur die ersten (l<strong>in</strong>ks) und zweiten (rechts) Aufnahmen mit dem LBG-U Verfahren. Das<br />

Verfahren konvergiert immer zu demselben M<strong>in</strong>imum und alle Daten werden richtig klassiziert.<br />

Gewichtet nach ihrer Wahrsche<strong>in</strong>lichkeit werden alle moglichen Startpositionen zyklisch<br />

durchlaufen, um die Anfangsposition <strong>in</strong> der aktuellen Sequenz zu bestimmen; pro<br />

Bild wird nur e<strong>in</strong>e Position getestet. Damit wird unnotiger Rechenaufwand e<strong>in</strong>gespart, da<br />

die Gesichter e<strong>in</strong>er Sequenz mehrfach <strong>in</strong> den berechneten Startpositionen auftauchen.<br />

Der Startpunkt e<strong>in</strong>er Sequenz kann auf jeden Fall mit e<strong>in</strong>em zyklischem Durchlauf<br />

durch alle berechneten Ergebnisvektoren bestimmt werden. Die Betrachtung e<strong>in</strong>es e<strong>in</strong>zelnen<br />

kle<strong>in</strong>en Ausschnitts aus der ursprunglichen Szene schrankt den Parameterraum stark<br />

e<strong>in</strong>, so da e<strong>in</strong>e Losung des Problems der Bestimmung der Startpositionen gefunden wurde.<br />

Wenn <strong>in</strong> e<strong>in</strong>er gewissen Anzahl <strong>von</strong> Bildern ke<strong>in</strong> Gesicht gefunden wurde, startet e<strong>in</strong>e<br />

neue Sequenz. E<strong>in</strong> zyklischer Durchlauf durch alle Startpositionen endet, wenn e<strong>in</strong> Gesicht<br />

gefunden wird. Anschlieend beg<strong>in</strong>nt die Vorhersage der nachsten Gesichtsposition.<br />

1 Die Information ist durch die Art der Aufnahme der Sequenzen vorhanden. Sie wird aber nicht verwendet,<br />

weil die Kamera bei e<strong>in</strong>em Realzeitsystem e<strong>in</strong>en Strom <strong>von</strong> Bildern liefert und bei den dar<strong>in</strong><br />

enthaltenen Sequenzen weder Anfang noch Ende markiert s<strong>in</strong>d.


Realitat<br />

Vorhersage<br />

Abbildung 4: Zwei Ergebnisse des 9{Nearest-Neighbor Verfahrens mit Nachbarn aus beliebigen<br />

Sequenzen und dem Durchschnittsbereich = 1. L<strong>in</strong>ks ist die reale Kopfbewegung<br />

der Person zu sehen, rechts daneben die vorhergesagte. Die obere Sequenz zeigt<br />

e<strong>in</strong>e Vorhersage aus den ersten Aufnahmen, die untere e<strong>in</strong>e Vorhersage e<strong>in</strong>er doppelten<br />

Hockbewegung aus den zweiten Aufnahmen (Weg 2).<br />

4 Das Problem der Vorhersage der nachsten Position<br />

Dieser Abschnitt beschaftigt sich mit dem Problem der Vorhersage der nachsten Position<br />

e<strong>in</strong>es sich bewegenden Objekts. Um e<strong>in</strong>e Vorhersage machen zu konnen, wird die aktuelle<br />

Position des Objekts als bekannt vorausgesetzt.<br />

Alle Vorhersagen der nachsten Position wurden durch e<strong>in</strong>e fur Sequenzen modizierte<br />

Version des k{Nearest-Neighbor (k-NN) Verfahrens ermittelt. Fur dieses Verfahren wurde<br />

<strong>in</strong> verschiedenen Tests e<strong>in</strong> optimaler Parametersatz gefunden. Im folgenden wird nur noch


allgeme<strong>in</strong> <strong>von</strong> dem k-NN Verfahren gesprochen; damit ist dann die fur Sequenzen modizierte<br />

Version des 9{Nearest-Neighbor Verfahrens mit Nachbarn aus beliebigen Sequenzen<br />

und dem Durchschnittsbereich = 1 geme<strong>in</strong>t [4].<br />

Die Abbildung 4 zeigt l<strong>in</strong>ks zwei reale Sequenzen und rechts die dazugehorigen Voraussagen.<br />

Die Gesichter s<strong>in</strong>d auf jedem Bild durch e<strong>in</strong> Rechteck markiert. Zur Ubersichtlichkeit<br />

wurde nur fur die Start- und Endposition das komplette Rechteck e<strong>in</strong>gezeichnet.<br />

Von den anderen wurden jeweils immer die zue<strong>in</strong>ander gehorigen Ecken verbunden. Diese<br />

Darstellung soll e<strong>in</strong>en E<strong>in</strong>druck der zeitlichen Reihenfolge vermitteln.<br />

5 Die Ergebnisse<br />

Damit e<strong>in</strong> Gesicht uberhaupt <strong>von</strong> dem e<strong>in</strong>gesetzten Gesichtsnder [2] gefunden werden<br />

kann, mu es sich e<strong>in</strong>erseits komplett <strong>in</strong> dem vorhergesagten Ausschnitt benden, andererseits<br />

darf es nicht zu nah am Rand se<strong>in</strong>. Daher wird die Flache des Ausschnitts vervierfacht,<br />

<strong>in</strong>dem die Breite und Hohe jeweils verdoppelt werden; der Mittelpunkt bleibt<br />

unverandert.<br />

Die zwei <strong>in</strong> der Abbildung 5 dargestellten Bildfolgen s<strong>in</strong>d ausgewahlte Teilstucke der<br />

durchgefuhrten Experimente. Das erste und das letzte Bild zeigen noch e<strong>in</strong>mal die komplette<br />

Szene zu Beg<strong>in</strong>n und zum Ende des Teilstucks. Direkt daneben ist die Vorhersage<br />

fur diesen Zeitpunkt und <strong>in</strong> der Vorhersage das Ergebnis des Gesichtsnders zu sehen.<br />

Die Abbildung zeigt Ausschnitte zweier Sequenzen mit e<strong>in</strong>er Versuchsperson, die gerade<br />

dabei ist, <strong>in</strong> die Hocke zu gehen. Die erste Person ist zu schnell, die Bewegung der<br />

zweiten wird richtig vorhergesagt, obwohl die Gesichter teilweise nicht gefunden werden.<br />

Aus der Abbildung wird ersichtlich, da die Vorhersagen sehr tolerant gegenuber Fehlern<br />

und Ungenauigkeiten des e<strong>in</strong>gesetzten Gesichtsnders s<strong>in</strong>d.<br />

Der Gesichtsnder berechnet e<strong>in</strong>e lokale Kontrastnormalisierung fur die Ausschnitte<br />

bevor die Gesichtserkennung stattndet, daher wirken sie etwas kontrastarm. Diese Transformation<br />

wurde durchgefuhrt, um Helligkeitsschwankungen auszugleichen, die durch die<br />

Beleuchtung entstehen (z. B. Neon- und Gegenlicht).<br />

Die Teilstucke wurden ausgewahlt, um <strong>in</strong>teressante Situationen zu dokumentieren. Alle<br />

<strong>in</strong> den Bildfolgen dargestellten Ausschnitte haben e<strong>in</strong>en sehr schwierigen H<strong>in</strong>tergrund,<br />

der viele gesichtsahnliche Strukturen enthalt. Die Ergebnisse des Gesichtsnders auf den<br />

Bildern s<strong>in</strong>d daher nicht als reprasentativ e<strong>in</strong>zustufen. Uber alle Testsequenzen gesehen<br />

liefert er viel bessere Ergebnisse und kommt auf den vorhergesagten Ausschnitten auf e<strong>in</strong>e<br />

Erkennungsrate <strong>von</strong> 95,17 %.<br />

Generell ist die Erkennungsrate auf den vorhergesagten Bildausschnitten deutlichhoher<br />

als auf der kompletten Szene, wie die bisherigen Versuche mit e<strong>in</strong>em konkreten Gesichtsnder<br />

[2] ergeben haben. Diese Leistungssteigerung geht Hand <strong>in</strong> Hand mit e<strong>in</strong>er verr<strong>in</strong>gerten<br />

Rechenzeit, da statt geschatzter neun Reprasentationen nur drei benotigt werden (e<strong>in</strong>e Reprasentation<br />

ist e<strong>in</strong>e gelernte Darstellung e<strong>in</strong>es Gesichts). Die Reprasentationen konnen<br />

reduziert werden, da auf den Ausschnitten die Kopf<strong>gro</strong>e im wesentlichen immer gleich<br />

bleibt.<br />

Die Tabelle 1 gibt e<strong>in</strong>e Ubersicht uber die mit dem konkreten Gesichtsnder erzielten<br />

Ergebnisse. Die erste Spalte beschreibt die Untersuchung, die zweite Spalte gibt die<br />

Erfolgsquote der gefundenen Gesichter an, die nachste Spalte listet die Anzahl der be-


Abbildung 5: Zwei Beispiele zur Vorhersage der Hockbewegung: die erste Person ist zu<br />

schnell; die Bewegung der zweiten Person wird richtig vorhergesagt, obwohl die Gesichter<br />

teilweise nicht gefunden werden.


Bildausschnitt Erfolgsquote Reprasentationen Rechenzeit<br />

a) 512 512 (gesamt) 7,35 % 5 1<br />

b) 256 256 Gitter 20,63 % 5 9<br />

c) a) und b) 23,40 % 5 10<br />

d) mit Vorhersage 95,17 % 3 3=5+<br />

Tabelle 1: E<strong>in</strong>e Ubersicht der erzielten Erfolgsquoten mit der benotigten Rechenzeit fur<br />

alle mit dem konkreten Gesichtsnder untersuchten Situationen.<br />

nutzten Reprasentationen auf und die letzte Spalte vergleicht die benotigte Rechenzeit<br />

der verschiedenen Untersuchungen (die Rechenzeit der ersten Untersuchung wird als 1<br />

deniert).<br />

Fur die erste Untersuchung (a) arbeitete der Gesichtsnder auf der gesamten 512 <br />

512 Pixel <strong>gro</strong>en Szene. Fur die zweite Untersuchung (b) wurde die gesamte Szene <strong>in</strong><br />

neun sich uberlappende 256 256 Pixel <strong>gro</strong>e Bildausschnitte unterteilt. Die nachste<br />

Untersuchung (c) ist e<strong>in</strong>e Verb<strong>in</strong>dung der ersten beiden. Fur die letzte Untersuchung (d)<br />

sucht der Gesichtsnder <strong>in</strong> den gelieferten Vorhersagen. Die Rechenzeit setzt sich aus der<br />

verr<strong>in</strong>gerten Anzahl <strong>von</strong> Reprasentationen und der Zeit zur Berechnung der Vorhersage<br />

() zusammen. Die Berechnung der Vorhersage ist im Vergleich zum F<strong>in</strong>den des Gesichts<br />

verschw<strong>in</strong>dend ger<strong>in</strong>g und liegt weit unterhalb e<strong>in</strong>er Sekunde.<br />

Es konnte gezeigt werden, da gegenuber e<strong>in</strong>er naiven Suche die Rechenzeit verr<strong>in</strong>gert<br />

wurde und gleichzeitig die Erfolgsrate <strong>von</strong> 7,35 % auf 95,17 % stieg.<br />

Im allgeme<strong>in</strong>en reduziert sich die Anzahl der abzusuchenden Positionen im Parameterraum<br />

betrachtlich. Die Bild<strong>gro</strong>e verr<strong>in</strong>gert sich durchschnittlich um den Faktor 16<br />

und die Varianz der Gesichts<strong>gro</strong>e um den Faktor 3. Dadurch ergibt sich e<strong>in</strong>e geschatzte<br />

Gesamtreduktion um den Faktor 48.<br />

Literatur<br />

[1] B. Fritzke. The LBG-U method for vector quantization - an improvement over LBG<br />

<strong>in</strong>spired from neural networks. Neural Process<strong>in</strong>g Letters, 5(1), 1997.<br />

[2] N. Kruger und G. Peters. Object recognition with banana wavelets. In Proceed<strong>in</strong>gs of<br />

the ESANN'97, S. 61{66, 1997.<br />

[3] Y. L<strong>in</strong>de, A. Buzo und R. M. Gray. An algorithm for vector quantizer design. IEEE<br />

Transactions on Communication, COM-28:84{95, 1980.<br />

[4] H. S. Loos. <strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong> <strong>in</strong> <strong>gro</strong>formatigen Bildsequenzen.<br />

Diplomarbeit, Lehrstuhl Kunstliche Intelligenz, Universitat Dortmund und<br />

Institut fur Neuro<strong>in</strong>formatik, Ruhr-Universitat Bochum, Germany, 1997.<br />

[5] A. Treisman. Perceptual <strong>gro</strong>up<strong>in</strong>g and attention <strong>in</strong> visual search for features and for<br />

objects. Journal of Experimental Psychology: Human Perception and Performance,<br />

8(2):194{214, 1982.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!