Positionsvorhersage von bewegten Objekten in gro ... - FIAS
Positionsvorhersage von bewegten Objekten in gro ... - FIAS
Positionsvorhersage von bewegten Objekten in gro ... - FIAS
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>in</strong>: Proceed<strong>in</strong>gs des Workshops Dynamische Perzeption,<br />
18./19. Juni, Bielefeld, Infix Verlag, 1998.<br />
<strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong><br />
<strong>in</strong> <strong>gro</strong>formatigen Bildsequenzen<br />
H. S. Loos, B. Fritzke, C. v. d. Malsburg, y<br />
Institut fur Neuro<strong>in</strong>formatik, Ruhr-Universitat Bochum,<br />
D{44780 Bochum, Germany<br />
y auch University of Southern California, Dept. of Computer Science und Section<br />
for Neurobiology, Los Angeles, USA<br />
Zusammenfassung<br />
Es werden zwei Verfahren zur <strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong> vorgestellt:<br />
zur Bestimmung der Startpositionen wird das LBG-U Verfahren e<strong>in</strong>gesetzt, die<br />
Vorhersage der nachsten Position bezuglich e<strong>in</strong>er gegebenen liefert e<strong>in</strong> fur Sequenzen<br />
modiziertes k{Nearest-Neighbor Verfahren. Als Objekte dienen Gesichter <strong>von</strong><br />
Personen, die sich <strong>in</strong> e<strong>in</strong>em Korridor mit mehreren Turen bewegen.<br />
Im Test mit e<strong>in</strong>em optimalen kunstlichen Gesichtsnder wurden die nachsten Positionen<br />
mit kle<strong>in</strong>eren Abweichungen immer korrekt vorhergesagt. Die Versuche mit<br />
e<strong>in</strong>em realen Gesichtsnder waren auch erfolgreich: die Anzahl der abzusuchenden<br />
Positionen im Parameterraum reduzierte sich um den Faktor 48, gleichzeitig stieg die<br />
Erkennungsrate <strong>von</strong> 7,35 % (gesamte Szene) auf 95,17 %.<br />
1 E<strong>in</strong>fuhrung<br />
Die Problematik der <strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong> <strong>in</strong> <strong>gro</strong>formatigen Bildsequenzen<br />
unterteilt sich <strong>in</strong> zwei Aufgaben: zum e<strong>in</strong>en mussen die Startpositionen bestimmt<br />
und zum anderen fur e<strong>in</strong>e gegebene Position die nachste vorhergesagt werden.<br />
Damit die bearbeiteten Probleme gelost werden konnen, werden folgende a priori Annahmen<br />
gemacht: die betrachteten Objekte bewegen sich auf glatten Bahnen, benutzen haug<br />
dieselben Wege und starten wiederholt <strong>von</strong> ahnlichen Positionen.<br />
Als Szene dient der Korridor des Instituts fur Neuro<strong>in</strong>formatik <strong>in</strong> Bochum, die Objekte<br />
s<strong>in</strong>d Gesichter <strong>von</strong> Personen, die sich auf dem Gang bewegen (s. Abbildung 1). Es<br />
werden mehrere Beispielsequenzen gelernt und anschlieend mit neuen Sequenzen uberpruft.<br />
Zur Bestimmung der Startpositionen wird das LBG-U Verfahren [1] e<strong>in</strong>gesetzt, die<br />
Vorhersage der nachsten Position liefert e<strong>in</strong>e fur Sequenzen modizierte Version des k{<br />
Nearest-Neighbor Verfahrens [4].<br />
2 Die Aufnahmedaten<br />
Die untersuchte Szene ist der Korridor des Instituts fur Neuro<strong>in</strong>formatik <strong>in</strong> Bochum. In<br />
dem betrachteten Ausschnitt des Gangs benden sich vier Turen: e<strong>in</strong>e l<strong>in</strong>ks (Sekretariat),
Abbildung 1: Verschiedene Bilder e<strong>in</strong>er Sequenz (512 512 Pixel, 8 Bit Grauwert, Framerate<br />
12,5 Hz, ca. 8 s Lange).<br />
e<strong>in</strong>e geradeaus (Buro) und zwei rechts (Kuche und Sem<strong>in</strong>arraum). Die ersten Aufnahmen<br />
s<strong>in</strong>d fur anfangliche Untersuchungen e<strong>in</strong>fach gehalten: jede Person mu alle drei Wege {<br />
wie <strong>in</strong> Abbildung 2 (a) beschrieben { e<strong>in</strong>mal abgehen. Die so erhaltenen Sequenzen wurden<br />
<strong>in</strong> e<strong>in</strong>e Tra<strong>in</strong><strong>in</strong>gs- und e<strong>in</strong>e Testmenge aufgeteilt. Dabei wurde lediglich darauf geachtet,<br />
da die Mengen disjunkt s<strong>in</strong>d und die Tra<strong>in</strong><strong>in</strong>gsmenge ungefahr doppelt so <strong>gro</strong> ist wie<br />
die Testmenge.<br />
Von den mit den ersten Aufnahmen gesammelten Erfahrungen ausgehend, wurden<br />
weitere Aufnahmen gemacht, um die e<strong>in</strong>gesetzten Verfahren und Konzepte <strong>in</strong> schwierigeren<br />
Situationen zu uberprufen.<br />
Abbildung 2 (b) gibt e<strong>in</strong>en Uberblick uber die Wege, die jede Person fur die zweiten<br />
Aufnahmen e<strong>in</strong>mal abgehen mute. Je nach Lange der Wege wurde e<strong>in</strong>e unterschiedliche
(a)<br />
(b)<br />
Abbildung 2: (a): Die e<strong>in</strong>fachen Wege fur die ersten Aufnahmen, jede Person mu e<strong>in</strong>mal<br />
alle drei Wege abgehen. (b): Die komplizierteren Wege fur die zweiten Aufnahmen: 1 und<br />
2fuhren <strong>in</strong> Richtung der Kamera, 3 <strong>von</strong> der Kamera weg und 4 parallel zur Kamera. Auf<br />
dem Weg 2 s<strong>in</strong>d die Personen jeweils zweimal <strong>in</strong> die Hocke gegangen.<br />
Anzahl <strong>von</strong> Bildern aufgenommen. Bei den komplizierteren Wegen der zweiten Aufnahmen<br />
fallt auf, da die Personen sich nicht nur <strong>in</strong> Richtung auf die Kamera (1, 2), sondern auch<br />
parallel (4) und sogar <strong>von</strong> der Kamera weg bewegen (3). Bei e<strong>in</strong>em Weg (2) hatten die<br />
Versuchspersonen die Vorgabe, zweimal wahrend der Sequenz <strong>in</strong> die Hocke zu gehen.<br />
Die Gesichter s<strong>in</strong>d auf den Wegen 3 und 4 gar nicht oder nur sehr schwer zu erkennen.<br />
Statt der Gesichter wurden auf diesen Bildern die Kopfe markiert, um die verwendeten<br />
Verfahren auch unter diesen ausgefallenen Bed<strong>in</strong>gungen zu testen. Die Sequenzen der zweiten<br />
Aufnahmen wurden wieder, wie bei den ersten Aufnahmen, <strong>in</strong> e<strong>in</strong>e disjunkte Tra<strong>in</strong><strong>in</strong>gsund<br />
Testmenge aufgeteilt.<br />
Alle Gesichter auf den Bildern der beiden Aufnahmen wurden mit der Hand gekennzeichnet,<br />
da ke<strong>in</strong> verfugbarer Gesichtsnder mit dem <strong>gro</strong>en Parameterraum genugend<br />
gute Ergebnisse liefert (s. Tabelle 1). Diese Daten bilden die Tra<strong>in</strong><strong>in</strong>gsdaten fur alle Auswertungen<br />
und Experimente.<br />
3 Das Problem der Bestimmung der Startpositionen<br />
Damit die Bewegung e<strong>in</strong>es Objekts uberhaupt vorhergesagt werden kann, mu es zuerst<br />
lokalisiert werden. Um nicht den gesamten Parameterraum abzusuchen, sollte e<strong>in</strong>e Methode<br />
gefunden werden, die die Aufmerksamkeit auf bestimmte Bereiche konzentriert.<br />
Zur Identizierung solcher Bereiche s<strong>in</strong>d Erfahrungswerte notwendig, aus denen dann die<br />
benotigten Informationen extrahiert werden konnen.<br />
Dieses Vorgehen ltert unwahrsche<strong>in</strong>liche bzw. unmogliche Bereiche (z. B. e<strong>in</strong> Gesicht<br />
hangt nicht an der Decke) heraus und schrankt so die Suche auf wenige <strong>in</strong>teressante Ausschnitte<br />
e<strong>in</strong>. Auch der Mensch stutzt sich auf se<strong>in</strong>e Alltagserfahrung und konzentriert se<strong>in</strong>e<br />
Aufmerksamkeit auf die Bereiche e<strong>in</strong>er Szene, <strong>in</strong> der das gesuchte Objekt erfahrungsgema<br />
haug anzutreen ist [5].<br />
Fur die Ermittlung der Startpositionen wurde das LBG-U Verfahren [1] e<strong>in</strong>gesetzt.<br />
Es gehort zu der Klasse der Verfahren mit hartem Wettbewerbslernen (hard competitive<br />
learn<strong>in</strong>g oder auch w<strong>in</strong>ner-take-all learn<strong>in</strong>g) und basiert auf dem LBG Verfahren <strong>von</strong><br />
L<strong>in</strong>de, Buzo und Gray [3].
Abbildung 3: Das Ergebnis zur Bestimmung der Startpositionen: l<strong>in</strong>ks fur die ersten, rechts<br />
fur die zweiten Aufnahmen. Die vielen hellen Rechtecke stellen die markierten Gesichter<br />
dar, die kle<strong>in</strong>en dunkleren Rechtecke den Schwerpunkt der Gesichter. Die umschlieenden<br />
dunklen Rechtecke berechnen sich aus den Schwerpunkten und bestimmen die Startpositionen.<br />
Vor der Ermittlung der moglichen Startpositionen durch das LBG-U Verfahren mussen<br />
die Daten noch aufbereitet werden. Die Aufbereitung dient der Extraktion der e<strong>in</strong>zelnen<br />
Sequenzen. Da der Beg<strong>in</strong>n e<strong>in</strong>er Sequenz nicht markiert ist 1 ,werden zuerst die e<strong>in</strong>zelnen<br />
Sequenzen lokalisiert: wenn <strong>in</strong> e<strong>in</strong>er gewissen Anzahl <strong>von</strong> Bildern ke<strong>in</strong> Gesicht vorkommt,<br />
dann startet e<strong>in</strong>e Sequenz mit dem nachsten gefundenen Gesicht.<br />
Abbildung 3 zeigt das Ergebnis fur die Bestimmung der Startpositionen der Daten<br />
fur die ersten (l<strong>in</strong>ks) und zweiten (rechts) Aufnahmen mit dem LBG-U Verfahren. Das<br />
Verfahren konvergiert immer zu demselben M<strong>in</strong>imum und alle Daten werden richtig klassiziert.<br />
Gewichtet nach ihrer Wahrsche<strong>in</strong>lichkeit werden alle moglichen Startpositionen zyklisch<br />
durchlaufen, um die Anfangsposition <strong>in</strong> der aktuellen Sequenz zu bestimmen; pro<br />
Bild wird nur e<strong>in</strong>e Position getestet. Damit wird unnotiger Rechenaufwand e<strong>in</strong>gespart, da<br />
die Gesichter e<strong>in</strong>er Sequenz mehrfach <strong>in</strong> den berechneten Startpositionen auftauchen.<br />
Der Startpunkt e<strong>in</strong>er Sequenz kann auf jeden Fall mit e<strong>in</strong>em zyklischem Durchlauf<br />
durch alle berechneten Ergebnisvektoren bestimmt werden. Die Betrachtung e<strong>in</strong>es e<strong>in</strong>zelnen<br />
kle<strong>in</strong>en Ausschnitts aus der ursprunglichen Szene schrankt den Parameterraum stark<br />
e<strong>in</strong>, so da e<strong>in</strong>e Losung des Problems der Bestimmung der Startpositionen gefunden wurde.<br />
Wenn <strong>in</strong> e<strong>in</strong>er gewissen Anzahl <strong>von</strong> Bildern ke<strong>in</strong> Gesicht gefunden wurde, startet e<strong>in</strong>e<br />
neue Sequenz. E<strong>in</strong> zyklischer Durchlauf durch alle Startpositionen endet, wenn e<strong>in</strong> Gesicht<br />
gefunden wird. Anschlieend beg<strong>in</strong>nt die Vorhersage der nachsten Gesichtsposition.<br />
1 Die Information ist durch die Art der Aufnahme der Sequenzen vorhanden. Sie wird aber nicht verwendet,<br />
weil die Kamera bei e<strong>in</strong>em Realzeitsystem e<strong>in</strong>en Strom <strong>von</strong> Bildern liefert und bei den dar<strong>in</strong><br />
enthaltenen Sequenzen weder Anfang noch Ende markiert s<strong>in</strong>d.
Realitat<br />
Vorhersage<br />
Abbildung 4: Zwei Ergebnisse des 9{Nearest-Neighbor Verfahrens mit Nachbarn aus beliebigen<br />
Sequenzen und dem Durchschnittsbereich = 1. L<strong>in</strong>ks ist die reale Kopfbewegung<br />
der Person zu sehen, rechts daneben die vorhergesagte. Die obere Sequenz zeigt<br />
e<strong>in</strong>e Vorhersage aus den ersten Aufnahmen, die untere e<strong>in</strong>e Vorhersage e<strong>in</strong>er doppelten<br />
Hockbewegung aus den zweiten Aufnahmen (Weg 2).<br />
4 Das Problem der Vorhersage der nachsten Position<br />
Dieser Abschnitt beschaftigt sich mit dem Problem der Vorhersage der nachsten Position<br />
e<strong>in</strong>es sich bewegenden Objekts. Um e<strong>in</strong>e Vorhersage machen zu konnen, wird die aktuelle<br />
Position des Objekts als bekannt vorausgesetzt.<br />
Alle Vorhersagen der nachsten Position wurden durch e<strong>in</strong>e fur Sequenzen modizierte<br />
Version des k{Nearest-Neighbor (k-NN) Verfahrens ermittelt. Fur dieses Verfahren wurde<br />
<strong>in</strong> verschiedenen Tests e<strong>in</strong> optimaler Parametersatz gefunden. Im folgenden wird nur noch
allgeme<strong>in</strong> <strong>von</strong> dem k-NN Verfahren gesprochen; damit ist dann die fur Sequenzen modizierte<br />
Version des 9{Nearest-Neighbor Verfahrens mit Nachbarn aus beliebigen Sequenzen<br />
und dem Durchschnittsbereich = 1 geme<strong>in</strong>t [4].<br />
Die Abbildung 4 zeigt l<strong>in</strong>ks zwei reale Sequenzen und rechts die dazugehorigen Voraussagen.<br />
Die Gesichter s<strong>in</strong>d auf jedem Bild durch e<strong>in</strong> Rechteck markiert. Zur Ubersichtlichkeit<br />
wurde nur fur die Start- und Endposition das komplette Rechteck e<strong>in</strong>gezeichnet.<br />
Von den anderen wurden jeweils immer die zue<strong>in</strong>ander gehorigen Ecken verbunden. Diese<br />
Darstellung soll e<strong>in</strong>en E<strong>in</strong>druck der zeitlichen Reihenfolge vermitteln.<br />
5 Die Ergebnisse<br />
Damit e<strong>in</strong> Gesicht uberhaupt <strong>von</strong> dem e<strong>in</strong>gesetzten Gesichtsnder [2] gefunden werden<br />
kann, mu es sich e<strong>in</strong>erseits komplett <strong>in</strong> dem vorhergesagten Ausschnitt benden, andererseits<br />
darf es nicht zu nah am Rand se<strong>in</strong>. Daher wird die Flache des Ausschnitts vervierfacht,<br />
<strong>in</strong>dem die Breite und Hohe jeweils verdoppelt werden; der Mittelpunkt bleibt<br />
unverandert.<br />
Die zwei <strong>in</strong> der Abbildung 5 dargestellten Bildfolgen s<strong>in</strong>d ausgewahlte Teilstucke der<br />
durchgefuhrten Experimente. Das erste und das letzte Bild zeigen noch e<strong>in</strong>mal die komplette<br />
Szene zu Beg<strong>in</strong>n und zum Ende des Teilstucks. Direkt daneben ist die Vorhersage<br />
fur diesen Zeitpunkt und <strong>in</strong> der Vorhersage das Ergebnis des Gesichtsnders zu sehen.<br />
Die Abbildung zeigt Ausschnitte zweier Sequenzen mit e<strong>in</strong>er Versuchsperson, die gerade<br />
dabei ist, <strong>in</strong> die Hocke zu gehen. Die erste Person ist zu schnell, die Bewegung der<br />
zweiten wird richtig vorhergesagt, obwohl die Gesichter teilweise nicht gefunden werden.<br />
Aus der Abbildung wird ersichtlich, da die Vorhersagen sehr tolerant gegenuber Fehlern<br />
und Ungenauigkeiten des e<strong>in</strong>gesetzten Gesichtsnders s<strong>in</strong>d.<br />
Der Gesichtsnder berechnet e<strong>in</strong>e lokale Kontrastnormalisierung fur die Ausschnitte<br />
bevor die Gesichtserkennung stattndet, daher wirken sie etwas kontrastarm. Diese Transformation<br />
wurde durchgefuhrt, um Helligkeitsschwankungen auszugleichen, die durch die<br />
Beleuchtung entstehen (z. B. Neon- und Gegenlicht).<br />
Die Teilstucke wurden ausgewahlt, um <strong>in</strong>teressante Situationen zu dokumentieren. Alle<br />
<strong>in</strong> den Bildfolgen dargestellten Ausschnitte haben e<strong>in</strong>en sehr schwierigen H<strong>in</strong>tergrund,<br />
der viele gesichtsahnliche Strukturen enthalt. Die Ergebnisse des Gesichtsnders auf den<br />
Bildern s<strong>in</strong>d daher nicht als reprasentativ e<strong>in</strong>zustufen. Uber alle Testsequenzen gesehen<br />
liefert er viel bessere Ergebnisse und kommt auf den vorhergesagten Ausschnitten auf e<strong>in</strong>e<br />
Erkennungsrate <strong>von</strong> 95,17 %.<br />
Generell ist die Erkennungsrate auf den vorhergesagten Bildausschnitten deutlichhoher<br />
als auf der kompletten Szene, wie die bisherigen Versuche mit e<strong>in</strong>em konkreten Gesichtsnder<br />
[2] ergeben haben. Diese Leistungssteigerung geht Hand <strong>in</strong> Hand mit e<strong>in</strong>er verr<strong>in</strong>gerten<br />
Rechenzeit, da statt geschatzter neun Reprasentationen nur drei benotigt werden (e<strong>in</strong>e Reprasentation<br />
ist e<strong>in</strong>e gelernte Darstellung e<strong>in</strong>es Gesichts). Die Reprasentationen konnen<br />
reduziert werden, da auf den Ausschnitten die Kopf<strong>gro</strong>e im wesentlichen immer gleich<br />
bleibt.<br />
Die Tabelle 1 gibt e<strong>in</strong>e Ubersicht uber die mit dem konkreten Gesichtsnder erzielten<br />
Ergebnisse. Die erste Spalte beschreibt die Untersuchung, die zweite Spalte gibt die<br />
Erfolgsquote der gefundenen Gesichter an, die nachste Spalte listet die Anzahl der be-
Abbildung 5: Zwei Beispiele zur Vorhersage der Hockbewegung: die erste Person ist zu<br />
schnell; die Bewegung der zweiten Person wird richtig vorhergesagt, obwohl die Gesichter<br />
teilweise nicht gefunden werden.
Bildausschnitt Erfolgsquote Reprasentationen Rechenzeit<br />
a) 512 512 (gesamt) 7,35 % 5 1<br />
b) 256 256 Gitter 20,63 % 5 9<br />
c) a) und b) 23,40 % 5 10<br />
d) mit Vorhersage 95,17 % 3 3=5+<br />
Tabelle 1: E<strong>in</strong>e Ubersicht der erzielten Erfolgsquoten mit der benotigten Rechenzeit fur<br />
alle mit dem konkreten Gesichtsnder untersuchten Situationen.<br />
nutzten Reprasentationen auf und die letzte Spalte vergleicht die benotigte Rechenzeit<br />
der verschiedenen Untersuchungen (die Rechenzeit der ersten Untersuchung wird als 1<br />
deniert).<br />
Fur die erste Untersuchung (a) arbeitete der Gesichtsnder auf der gesamten 512 <br />
512 Pixel <strong>gro</strong>en Szene. Fur die zweite Untersuchung (b) wurde die gesamte Szene <strong>in</strong><br />
neun sich uberlappende 256 256 Pixel <strong>gro</strong>e Bildausschnitte unterteilt. Die nachste<br />
Untersuchung (c) ist e<strong>in</strong>e Verb<strong>in</strong>dung der ersten beiden. Fur die letzte Untersuchung (d)<br />
sucht der Gesichtsnder <strong>in</strong> den gelieferten Vorhersagen. Die Rechenzeit setzt sich aus der<br />
verr<strong>in</strong>gerten Anzahl <strong>von</strong> Reprasentationen und der Zeit zur Berechnung der Vorhersage<br />
() zusammen. Die Berechnung der Vorhersage ist im Vergleich zum F<strong>in</strong>den des Gesichts<br />
verschw<strong>in</strong>dend ger<strong>in</strong>g und liegt weit unterhalb e<strong>in</strong>er Sekunde.<br />
Es konnte gezeigt werden, da gegenuber e<strong>in</strong>er naiven Suche die Rechenzeit verr<strong>in</strong>gert<br />
wurde und gleichzeitig die Erfolgsrate <strong>von</strong> 7,35 % auf 95,17 % stieg.<br />
Im allgeme<strong>in</strong>en reduziert sich die Anzahl der abzusuchenden Positionen im Parameterraum<br />
betrachtlich. Die Bild<strong>gro</strong>e verr<strong>in</strong>gert sich durchschnittlich um den Faktor 16<br />
und die Varianz der Gesichts<strong>gro</strong>e um den Faktor 3. Dadurch ergibt sich e<strong>in</strong>e geschatzte<br />
Gesamtreduktion um den Faktor 48.<br />
Literatur<br />
[1] B. Fritzke. The LBG-U method for vector quantization - an improvement over LBG<br />
<strong>in</strong>spired from neural networks. Neural Process<strong>in</strong>g Letters, 5(1), 1997.<br />
[2] N. Kruger und G. Peters. Object recognition with banana wavelets. In Proceed<strong>in</strong>gs of<br />
the ESANN'97, S. 61{66, 1997.<br />
[3] Y. L<strong>in</strong>de, A. Buzo und R. M. Gray. An algorithm for vector quantizer design. IEEE<br />
Transactions on Communication, COM-28:84{95, 1980.<br />
[4] H. S. Loos. <strong>Positionsvorhersage</strong> <strong>von</strong> <strong>bewegten</strong> <strong>Objekten</strong> <strong>in</strong> <strong>gro</strong>formatigen Bildsequenzen.<br />
Diplomarbeit, Lehrstuhl Kunstliche Intelligenz, Universitat Dortmund und<br />
Institut fur Neuro<strong>in</strong>formatik, Ruhr-Universitat Bochum, Germany, 1997.<br />
[5] A. Treisman. Perceptual <strong>gro</strong>up<strong>in</strong>g and attention <strong>in</strong> visual search for features and for<br />
objects. Journal of Experimental Psychology: Human Perception and Performance,<br />
8(2):194{214, 1982.