Positionsvorhersage von bewegten Objekten in gro ... - FIAS

in: Proceedings des Workshops Dynamische Perzeption, 

18./19. Juni, Bielefeld, Infix Verlag, 1998. 

Positionsvorhersage von bewegten Objekten 

in groformatigen Bildsequenzen 

H. S. Loos, B. Fritzke, C. v. d. Malsburg, y 

Institut fur Neuroinformatik, Ruhr-Universitat Bochum, 

D{44780 Bochum, Germany 

y auch University of Southern California, Dept. of Computer Science und Section 

for Neurobiology, Los Angeles, USA 

Zusammenfassung 

Es werden zwei Verfahren zur Positionsvorhersage von bewegten Objekten vorgestellt: 

zur Bestimmung der Startpositionen wird das LBG-U Verfahren eingesetzt, die 

Vorhersage der nachsten Position bezuglich einer gegebenen liefert ein fur Sequenzen 

modiziertes k{Nearest-Neighbor Verfahren. Als Objekte dienen Gesichter von 

Personen, die sich in einem Korridor mit mehreren Turen bewegen. 

Im Test mit einem optimalen kunstlichen Gesichtsnder wurden die nachsten Positionen 

mit kleineren Abweichungen immer korrekt vorhergesagt. Die Versuche mit 

einem realen Gesichtsnder waren auch erfolgreich: die Anzahl der abzusuchenden 

Positionen im Parameterraum reduzierte sich um den Faktor 48, gleichzeitig stieg die 

Erkennungsrate von 7,35 % (gesamte Szene) auf 95,17 %. 

1 Einfuhrung 

Die Problematik der Positionsvorhersage von bewegten Objekten in groformatigen Bildsequenzen 

unterteilt sich in zwei Aufgaben: zum einen mussen die Startpositionen bestimmt 

und zum anderen fur eine gegebene Position die nachste vorhergesagt werden. 

Damit die bearbeiteten Probleme gelost werden konnen, werden folgende a priori Annahmen 

gemacht: die betrachteten Objekte bewegen sich auf glatten Bahnen, benutzen haug 

dieselben Wege und starten wiederholt von ahnlichen Positionen. 

Als Szene dient der Korridor des Instituts fur Neuroinformatik in Bochum, die Objekte 

sind Gesichter von Personen, die sich auf dem Gang bewegen (s. Abbildung 1). Es 

werden mehrere Beispielsequenzen gelernt und anschlieend mit neuen Sequenzen uberpruft. 

Zur Bestimmung der Startpositionen wird das LBG-U Verfahren [1] eingesetzt, die 

Vorhersage der nachsten Position liefert eine fur Sequenzen modizierte Version des k{ 

Nearest-Neighbor Verfahrens [4]. 

2 Die Aufnahmedaten 

Die untersuchte Szene ist der Korridor des Instituts fur Neuroinformatik in Bochum. In 

dem betrachteten Ausschnitt des Gangs benden sich vier Turen: eine links (Sekretariat),

Abbildung 1: Verschiedene Bilder einer Sequenz (512 512 Pixel, 8 Bit Grauwert, Framerate 

12,5 Hz, ca. 8 s Lange). 

eine geradeaus (Buro) und zwei rechts (Kuche und Seminarraum). Die ersten Aufnahmen 

sind fur anfangliche Untersuchungen einfach gehalten: jede Person mu alle drei Wege { 

wie in Abbildung 2 (a) beschrieben { einmal abgehen. Die so erhaltenen Sequenzen wurden 

in eine Trainings- und eine Testmenge aufgeteilt. Dabei wurde lediglich darauf geachtet, 

da die Mengen disjunkt sind und die Trainingsmenge ungefahr doppelt so gro ist wie 

die Testmenge. 

Von den mit den ersten Aufnahmen gesammelten Erfahrungen ausgehend, wurden 

weitere Aufnahmen gemacht, um die eingesetzten Verfahren und Konzepte in schwierigeren 

Situationen zu uberprufen. 

Abbildung 2 (b) gibt einen Uberblick uber die Wege, die jede Person fur die zweiten 

Aufnahmen einmal abgehen mute. Je nach Lange der Wege wurde eine unterschiedliche

(a) 

(b) 

Abbildung 2: (a): Die einfachen Wege fur die ersten Aufnahmen, jede Person mu einmal 

alle drei Wege abgehen. (b): Die komplizierteren Wege fur die zweiten Aufnahmen: 1 und 

2fuhren in Richtung der Kamera, 3 von der Kamera weg und 4 parallel zur Kamera. Auf 

dem Weg 2 sind die Personen jeweils zweimal in die Hocke gegangen. 

Anzahl von Bildern aufgenommen. Bei den komplizierteren Wegen der zweiten Aufnahmen 

fallt auf, da die Personen sich nicht nur in Richtung auf die Kamera (1, 2), sondern auch 

parallel (4) und sogar von der Kamera weg bewegen (3). Bei einem Weg (2) hatten die 

Versuchspersonen die Vorgabe, zweimal wahrend der Sequenz in die Hocke zu gehen. 

Die Gesichter sind auf den Wegen 3 und 4 gar nicht oder nur sehr schwer zu erkennen. 

Statt der Gesichter wurden auf diesen Bildern die Kopfe markiert, um die verwendeten 

Verfahren auch unter diesen ausgefallenen Bedingungen zu testen. Die Sequenzen der zweiten 

Aufnahmen wurden wieder, wie bei den ersten Aufnahmen, in eine disjunkte Trainingsund 

Testmenge aufgeteilt. 

Alle Gesichter auf den Bildern der beiden Aufnahmen wurden mit der Hand gekennzeichnet, 

da kein verfugbarer Gesichtsnder mit dem groen Parameterraum genugend 

gute Ergebnisse liefert (s. Tabelle 1). Diese Daten bilden die Trainingsdaten fur alle Auswertungen 

und Experimente. 

3 Das Problem der Bestimmung der Startpositionen 

Damit die Bewegung eines Objekts uberhaupt vorhergesagt werden kann, mu es zuerst 

lokalisiert werden. Um nicht den gesamten Parameterraum abzusuchen, sollte eine Methode 

gefunden werden, die die Aufmerksamkeit auf bestimmte Bereiche konzentriert. 

Zur Identizierung solcher Bereiche sind Erfahrungswerte notwendig, aus denen dann die 

benotigten Informationen extrahiert werden konnen. 

Dieses Vorgehen ltert unwahrscheinliche bzw. unmogliche Bereiche (z. B. ein Gesicht 

hangt nicht an der Decke) heraus und schrankt so die Suche auf wenige interessante Ausschnitte 

ein. Auch der Mensch stutzt sich auf seine Alltagserfahrung und konzentriert seine 

Aufmerksamkeit auf die Bereiche einer Szene, in der das gesuchte Objekt erfahrungsgema 

haug anzutreen ist [5]. 

Fur die Ermittlung der Startpositionen wurde das LBG-U Verfahren [1] eingesetzt. 

Es gehort zu der Klasse der Verfahren mit hartem Wettbewerbslernen (hard competitive 

learning oder auch winner-take-all learning) und basiert auf dem LBG Verfahren von 

Linde, Buzo und Gray [3].

Abbildung 3: Das Ergebnis zur Bestimmung der Startpositionen: links fur die ersten, rechts 

fur die zweiten Aufnahmen. Die vielen hellen Rechtecke stellen die markierten Gesichter 

dar, die kleinen dunkleren Rechtecke den Schwerpunkt der Gesichter. Die umschlieenden 

dunklen Rechtecke berechnen sich aus den Schwerpunkten und bestimmen die Startpositionen. 

Vor der Ermittlung der moglichen Startpositionen durch das LBG-U Verfahren mussen 

die Daten noch aufbereitet werden. Die Aufbereitung dient der Extraktion der einzelnen 

Sequenzen. Da der Beginn einer Sequenz nicht markiert ist 1 ,werden zuerst die einzelnen 

Sequenzen lokalisiert: wenn in einer gewissen Anzahl von Bildern kein Gesicht vorkommt, 

dann startet eine Sequenz mit dem nachsten gefundenen Gesicht. 

Abbildung 3 zeigt das Ergebnis fur die Bestimmung der Startpositionen der Daten 

fur die ersten (links) und zweiten (rechts) Aufnahmen mit dem LBG-U Verfahren. Das 

Verfahren konvergiert immer zu demselben Minimum und alle Daten werden richtig klassiziert. 

Gewichtet nach ihrer Wahrscheinlichkeit werden alle moglichen Startpositionen zyklisch 

durchlaufen, um die Anfangsposition in der aktuellen Sequenz zu bestimmen; pro 

Bild wird nur eine Position getestet. Damit wird unnotiger Rechenaufwand eingespart, da 

die Gesichter einer Sequenz mehrfach in den berechneten Startpositionen auftauchen. 

Der Startpunkt einer Sequenz kann auf jeden Fall mit einem zyklischem Durchlauf 

durch alle berechneten Ergebnisvektoren bestimmt werden. Die Betrachtung eines einzelnen 

kleinen Ausschnitts aus der ursprunglichen Szene schrankt den Parameterraum stark 

ein, so da eine Losung des Problems der Bestimmung der Startpositionen gefunden wurde. 

Wenn in einer gewissen Anzahl von Bildern kein Gesicht gefunden wurde, startet eine 

neue Sequenz. Ein zyklischer Durchlauf durch alle Startpositionen endet, wenn ein Gesicht 

gefunden wird. Anschlieend beginnt die Vorhersage der nachsten Gesichtsposition. 

1 Die Information ist durch die Art der Aufnahme der Sequenzen vorhanden. Sie wird aber nicht verwendet, 

weil die Kamera bei einem Realzeitsystem einen Strom von Bildern liefert und bei den darin 

enthaltenen Sequenzen weder Anfang noch Ende markiert sind.

Realitat 

Vorhersage 

Abbildung 4: Zwei Ergebnisse des 9{Nearest-Neighbor Verfahrens mit Nachbarn aus beliebigen 

Sequenzen und dem Durchschnittsbereich = 1. Links ist die reale Kopfbewegung 

der Person zu sehen, rechts daneben die vorhergesagte. Die obere Sequenz zeigt 

eine Vorhersage aus den ersten Aufnahmen, die untere eine Vorhersage einer doppelten 

Hockbewegung aus den zweiten Aufnahmen (Weg 2). 

4 Das Problem der Vorhersage der nachsten Position 

Dieser Abschnitt beschaftigt sich mit dem Problem der Vorhersage der nachsten Position 

eines sich bewegenden Objekts. Um eine Vorhersage machen zu konnen, wird die aktuelle 

Position des Objekts als bekannt vorausgesetzt. 

Alle Vorhersagen der nachsten Position wurden durch eine fur Sequenzen modizierte 

Version des k{Nearest-Neighbor (k-NN) Verfahrens ermittelt. Fur dieses Verfahren wurde 

in verschiedenen Tests ein optimaler Parametersatz gefunden. Im folgenden wird nur noch

allgemein von dem k-NN Verfahren gesprochen; damit ist dann die fur Sequenzen modizierte 

Version des 9{Nearest-Neighbor Verfahrens mit Nachbarn aus beliebigen Sequenzen 

und dem Durchschnittsbereich = 1 gemeint [4]. 

Die Abbildung 4 zeigt links zwei reale Sequenzen und rechts die dazugehorigen Voraussagen. 

Die Gesichter sind auf jedem Bild durch ein Rechteck markiert. Zur Ubersichtlichkeit 

wurde nur fur die Start- und Endposition das komplette Rechteck eingezeichnet. 

Von den anderen wurden jeweils immer die zueinander gehorigen Ecken verbunden. Diese 

Darstellung soll einen Eindruck der zeitlichen Reihenfolge vermitteln. 

5 Die Ergebnisse 

Damit ein Gesicht uberhaupt von dem eingesetzten Gesichtsnder [2] gefunden werden 

kann, mu es sich einerseits komplett in dem vorhergesagten Ausschnitt benden, andererseits 

darf es nicht zu nah am Rand sein. Daher wird die Flache des Ausschnitts vervierfacht, 

indem die Breite und Hohe jeweils verdoppelt werden; der Mittelpunkt bleibt 

unverandert. 

Die zwei in der Abbildung 5 dargestellten Bildfolgen sind ausgewahlte Teilstucke der 

durchgefuhrten Experimente. Das erste und das letzte Bild zeigen noch einmal die komplette 

Szene zu Beginn und zum Ende des Teilstucks. Direkt daneben ist die Vorhersage 

fur diesen Zeitpunkt und in der Vorhersage das Ergebnis des Gesichtsnders zu sehen. 

Die Abbildung zeigt Ausschnitte zweier Sequenzen mit einer Versuchsperson, die gerade 

dabei ist, in die Hocke zu gehen. Die erste Person ist zu schnell, die Bewegung der 

zweiten wird richtig vorhergesagt, obwohl die Gesichter teilweise nicht gefunden werden. 

Aus der Abbildung wird ersichtlich, da die Vorhersagen sehr tolerant gegenuber Fehlern 

und Ungenauigkeiten des eingesetzten Gesichtsnders sind. 

Der Gesichtsnder berechnet eine lokale Kontrastnormalisierung fur die Ausschnitte 

bevor die Gesichtserkennung stattndet, daher wirken sie etwas kontrastarm. Diese Transformation 

wurde durchgefuhrt, um Helligkeitsschwankungen auszugleichen, die durch die 

Beleuchtung entstehen (z. B. Neon- und Gegenlicht). 

Die Teilstucke wurden ausgewahlt, um interessante Situationen zu dokumentieren. Alle 

in den Bildfolgen dargestellten Ausschnitte haben einen sehr schwierigen Hintergrund, 

der viele gesichtsahnliche Strukturen enthalt. Die Ergebnisse des Gesichtsnders auf den 

Bildern sind daher nicht als reprasentativ einzustufen. Uber alle Testsequenzen gesehen 

liefert er viel bessere Ergebnisse und kommt auf den vorhergesagten Ausschnitten auf eine 

Erkennungsrate von 95,17 %. 

Generell ist die Erkennungsrate auf den vorhergesagten Bildausschnitten deutlichhoher 

als auf der kompletten Szene, wie die bisherigen Versuche mit einem konkreten Gesichtsnder 

[2] ergeben haben. Diese Leistungssteigerung geht Hand in Hand mit einer verringerten 

Rechenzeit, da statt geschatzter neun Reprasentationen nur drei benotigt werden (eine Reprasentation 

ist eine gelernte Darstellung eines Gesichts). Die Reprasentationen konnen 

reduziert werden, da auf den Ausschnitten die Kopfgroe im wesentlichen immer gleich 

bleibt. 

Die Tabelle 1 gibt eine Ubersicht uber die mit dem konkreten Gesichtsnder erzielten 

Ergebnisse. Die erste Spalte beschreibt die Untersuchung, die zweite Spalte gibt die 

Erfolgsquote der gefundenen Gesichter an, die nachste Spalte listet die Anzahl der be-

Abbildung 5: Zwei Beispiele zur Vorhersage der Hockbewegung: die erste Person ist zu 

schnell; die Bewegung der zweiten Person wird richtig vorhergesagt, obwohl die Gesichter 

teilweise nicht gefunden werden.

Bildausschnitt Erfolgsquote Reprasentationen Rechenzeit 

a) 512 512 (gesamt) 7,35 % 5 1 

b) 256 256 Gitter 20,63 % 5 9 

c) a) und b) 23,40 % 5 10 

d) mit Vorhersage 95,17 % 3 3=5+ 

Tabelle 1: Eine Ubersicht der erzielten Erfolgsquoten mit der benotigten Rechenzeit fur 

alle mit dem konkreten Gesichtsnder untersuchten Situationen. 

nutzten Reprasentationen auf und die letzte Spalte vergleicht die benotigte Rechenzeit 

der verschiedenen Untersuchungen (die Rechenzeit der ersten Untersuchung wird als 1 

deniert). 

Fur die erste Untersuchung (a) arbeitete der Gesichtsnder auf der gesamten 512 

512 Pixel groen Szene. Fur die zweite Untersuchung (b) wurde die gesamte Szene in 

neun sich uberlappende 256 256 Pixel groe Bildausschnitte unterteilt. Die nachste 

Untersuchung (c) ist eine Verbindung der ersten beiden. Fur die letzte Untersuchung (d) 

sucht der Gesichtsnder in den gelieferten Vorhersagen. Die Rechenzeit setzt sich aus der 

verringerten Anzahl von Reprasentationen und der Zeit zur Berechnung der Vorhersage 

() zusammen. Die Berechnung der Vorhersage ist im Vergleich zum Finden des Gesichts 

verschwindend gering und liegt weit unterhalb einer Sekunde. 

Es konnte gezeigt werden, da gegenuber einer naiven Suche die Rechenzeit verringert 

wurde und gleichzeitig die Erfolgsrate von 7,35 % auf 95,17 % stieg. 

Im allgemeinen reduziert sich die Anzahl der abzusuchenden Positionen im Parameterraum 

betrachtlich. Die Bildgroe verringert sich durchschnittlich um den Faktor 16 

und die Varianz der Gesichtsgroe um den Faktor 3. Dadurch ergibt sich eine geschatzte 

Gesamtreduktion um den Faktor 48. 

Literatur 

[1] B. Fritzke. The LBG-U method for vector quantization - an improvement over LBG 

inspired from neural networks. Neural Processing Letters, 5(1), 1997. 

[2] N. Kruger und G. Peters. Object recognition with banana wavelets. In Proceedings of 

the ESANN'97, S. 61{66, 1997. 

[3] Y. Linde, A. Buzo und R. M. Gray. An algorithm for vector quantizer design. IEEE 

Transactions on Communication, COM-28:84{95, 1980. 

[4] H. S. Loos. Positionsvorhersage von bewegten Objekten in groformatigen Bildsequenzen. 

Diplomarbeit, Lehrstuhl Kunstliche Intelligenz, Universitat Dortmund und 

Institut fur Neuroinformatik, Ruhr-Universitat Bochum, Germany, 1997. 

[5] A. Treisman. Perceptual grouping and attention in visual search for features and for 

objects. Journal of Experimental Psychology: Human Perception and Performance, 

8(2):194{214, 1982.

Positionsvorhersage von bewegten Objekten in gro ... - FIAS

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?