Erkennung von Personen anhand ihrer Kleidung und die ...

Erkennung von Personen anhand ihrer 

Kleidung und die Anwendung auf dem 

Roboter BIRON 

Bachelorarbeit im Studiengang Naturwissenschaftliche Informatik 

Vorgelegt von: 

Anton Helwart 

Geboren am 21.03.1983 in Armawir (Russland) 

Angefertigt in der 

Arbeitsgruppe für Angewandte Informatik 

Technische Fakultät 

Universität Bielefeld 

Betreuer: M.Sc. CompSc. Fang Yuan, Dipl. Inform. Lang Christian

Erklärung 

Hiermit erkläre ich, Anton Helwart, dass ich die vorliegende Bachelorarbeit selbstständig 

angefertigt und nur die angegebenen Quellen und Hilfsmittel verwendet habe. 

Zitate sind als solche gekennzeichnet. 

Bielefeld, den 28.10.2008 

Anton Helwart 

2

Zusammenfassung 

In dieser Arbeit wird eine Software zur Erkennung von Personen anhand ihrer Kleidung 

beschrieben. Dabei werden Farbhistogramme und Local Binary Patterns zur Merkmalsextraktion 

verwendet. Die Software wurde mit dem Ziel entwickelt, sie einmal 

auf Biron, einem an der Universität Bielefeld entwickelten Roboter einzusetzen. Als 

Werkzeuge werden IceWing sowie BAM und caiwicat eingesetzt.

Inhaltsverzeichnis 

1 Aufgabenstellung der Bachelorarbeit 3 

1.1 Following-Verhalten . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

1.2 Mögliche Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

1.3 Wiedererkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2 Werzeuge und Plattformen 6 

2.1 IceWing - A graphical plugin shell . . . . . . . . . . . . . . . . . . . 6 

2.2 Biron - The Bielefeld Robot Companion . . . . . . . . . . . . . . . . 7 

2.3 BAM und caiwicat . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.3.1 BAM - Bielefeld Active Appearance Models . . . . . . . . . 8 

2.3.2 caiwicat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

3 Theoretische Grundlagen 10 

3.1 Farbhistogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

3.2 Local Binary Patterns . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

4 Implementation 13 

4.1 Schematische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . 13 

4.2 Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

4.2.1 Grabbing Plugin . . . . . . . . . . . . . . . . . . . . . . . . 14 

4.2.2 Encara Plugin . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

4.2.3 Encara Stable Detect Plugin . . . . . . . . . . . . . . . . . . 15 

4.2.4 aam4iw_init Plugin und aam4iw_fit Plugin . . . . . . . . . . 15 

4.2.5 caiwicat-classify Plugin . . . . . . . . . . . . . . . . . . . . 15 

4.2.6 caiwicat-majority-vote Plugin . . . . . . . . . . . . . . . . . 17 

4.2.7 Shirt Plugin . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

4.2.8 Adapter Plugin . . . . . . . . . . . . . . . . . . . . . . . . . 18 

5 Evaluation 20 

5.1 Testszenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

5.2 Testergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

5.2.1 Serie 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

5.2.2 Serie 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

6 Fazit und Ausblick 24 

2

Kapitel 1 

Aufgabenstellung der 

Bachelorarbeit 

1.1 Following-Verhalten 

Der Roboter Biron (siehe Abschnitt 2.2) soll künftig als Haushaltsroboter eingesetzt 

werden. Daher muss er mit den Personen in seiner Umgebung interagieren können. 

So soll er die Fähigkeit haben, Kommandos von einem Gesprächspartner entgegenzunehmen 

und diesem durch eine Wohnung zu folgen. Für dieses Szenario wird ein 

Following Verhalten für Biron entwickelt. [15] Dieses basiert auf einem Multimodalen 

Person Tracking System [10] und soll wie folgt ablaufen: 

• Zuerst wird Biron von einer Person angesprochen. 

• Diese Person wird von Biron, unter Verwendung von Daten der schwenkbaren 

Kamera, des Stereo-Mikrofons und des Laser-Abstandsmessers (siehe Anschnitt 

2.2), als Interaction-Partner ausgewählt. 

• Im Laufe des Gespräches bekommt Biron das follow me-Kommando. 

• Dann entfernt sich die Person von Biron und dieser soll ihr in kurzer Entfernung 

durch eine Wohnung folgen. 

Das following wird mit Hilfe des Laser-Abstandsmessers realisiert. Dieser erfasst das 

Beinpaar des Interaction-Partners und Biron folgt diesem. 

1.2 Mögliche Probleme 

Bei dem anfangs beschriebenen Wohnungsszenario kann es bei zu Fehlern kommen. 

Wird das Beinpaar der verfolgten Person durch ein Hindernis, z.B. ein Möbelstück, 

verdeckt oder wird der Abstand zwischen der verfolgten Person und Biron zu groß, 

verliert Biron das Beinpaar, und es muss erst wiedergefunden werden, damit er der 

Person weiterhin folgen kann. Ein schwerwiegenderes Problem tritt dann auf, wenn 

die von Biron verfolgte Person z.B. durch eine Tür in einen neuen Raum eintritt und so 

aus Birons Blickfeld verschwindet. Jetzt kann es passieren, dass sich in dem neuen 

Raum mehrere Personen aufhalten. Biron kann so nicht mehr eindeutig feststellen, 

3

welcher Person er folgen soll, da mehrere Beinpaare, und damit mehrere mögliche 

Interaktionspartner, gefunden werden. 

1.3 Wiedererkennung 

Tritt der in Abschnitt 1.2 beschriebene Fall auf, dass Biron mehrere mögliche Interaktionspartner 

findet, muss eine Personenerkennung durchgeführt werden. Ein möglicher 

Ansatz ist es, die gesuchte Person anhand ihres Gesichtes zu erkennen. Da Biron als 

Haushaltsroboter konzipiert ist, kommt es dabei zu einigen Erschwernissen. So ist der 

Winkel, aus dem das Gesicht der zu erkennenden Person betrachtet wird, nicht immer 

gleich. Auch die Lichtverhältnisse sind in den verschiedenen Räumen einer Wohnung 

oft sehr unterschiedlich. Das führt dazu, dass eine Gesichtserkennung oft nicht zuverlässig 

funktioniert[9]. 

Abbildung 1.1: Kleidung bietet oft viele Unterscheidungsmerkmale 

Eine weitere Möglichkeit ist es, die gesuchte Person anhand ihrer Kleidung zu erkennen. 

Anders als ein Gesicht ändert sich die Kleidung einer Person relativ häufig. Innerhalb 

eines Ablaufes des oben beschriebenen following Verhaltens kann aber davon ausgegangen 

werden, dass die Kleidung einer verfolgten Person gleich bleibt. Die Erkennung 

einer Person anhand ihrer Kleidung hat gegenüber der Gesichtserkennung einige 

Vorteile: 

• Anders als bei Gesichtern, unterscheiden sich die Farben verschiedener Kleidungsstücke 

oft stark voneinander und lassen sich daher als Erkennungsmerkmal 

benutzen. 

• Oft sind Kleidungsstücke mit verschiedenen Motiven oder Mustern verziert. 

Auch diese lassen sich als Erkennungsmerkmal verwenden. 

• Es kommt selten vor, dass zwei Personen in einem Haushalt die gleiche Kleidung 

tragen. Tritt dieser Fall dennoch ein, kann eine Erkennung anhand der Kleidung 

4

nicht durchgeführt werden und es muss eine Gesichtserkennung angewandt werden. 

Im Rahmen dieser Bachelorarbeit wird eine Software entwickelt, die eine Gesichtserkennung 

mit einer Erkennung von Kleidung kombiniert, um das in Abschnitt 1.2 

beschriebene Problem zu lösen. Für die Gesichtserkennung werden die in Abschnitt 

2.3 vorgestellten Werkzeuge verwendet. 

5

Kapitel 2 

Werzeuge und Plattformen 

Bei der vorliegenden Bachelorarbeit wurden verschiedene Plattformen und Werkzeuge 

verwendet. Diese werden im Folgenden kurz vorgestellt. 

2.1 IceWing - A graphical plugin shell 

Abbildung 2.1: Ein Beispiel für einen Programmablauf in IceWing (Quelle: [8]) 

Der Name IceWing ist ein Akronym und steht für Integrated Communication Environment 

Which Is Not Gesten. Dabei ist Gesten der Name eines Vorgängerprogrammes 

von IceWing. Es ist ein freie, an der Universität Bielefeld entwickelte Software, die 

hauptsächlich, aber nicht ausschließlich, für die digitale Bildverarbeitung verwendet 

wird. IceWing stellt eine Umgebung zur Entwicklung und Verwendung von Plugins 

bereit. Diese sind als dynamische Bibliotheken realisiert und können daher zur 

Laufzeit geladen werden. Sie werden in C oder C++ geschrieben, und es stehen Anbindungen 

für Python und Matlab zur Verfügung. Die Plugins können untereinander 

Daten austauschen und auch anderweitig miteinander interagieren, z.B. durch Funktionsaufrufe. 

Zum Austausch von Daten in IceWing wird häufig das XML Format 

benutzt. Dazu kann z.B. die XMLTIO Bibliothek 1 verwendet werden. Des Weiteren 

stellt IceWing eine GUI bereit. Damit lässt sich der Status laufender Plugins verfolgen, 

und es lassen sich Parameter und Optionen während des Betriebes einstellen. Ein 

1 http://xcf.sourceforge.net/api/xmltio/ 

6

wichtiges IceWing Plugin ist das Grabbing Plugin. Dieses kann Bilddaten aus verschiedenen 

Bild- und Videoformaten, sowie verschiedener Hardware, wie z.B. V4L2- 

und FireWire-Kameras, auslesen. [11] [8] [7] 

2.2 Biron - The Bielefeld Robot Companion 

Abbildung 2.2: Biron - The Bielefeld Robot Companion (Quelle: [3]) 

Biron, der Bielefeld Robot Companion, ist ein mobiler Roboter. Er wird mit dem 

Ziel entwickelt künftig als Haushaltsroboter eingesetzt zu werden. Daher werden 

mit Biron verschiedene Szenarien erprobt, die in einem solchen Umfeld typisch 

sind. So soll er z.B. einem Menschen, unter Beachtung des räumlichen Kontextes, 

durch eine Wohnung folgen und dabei eine neue Umgebung wahrnehmen können. 

Zu diesem Zweck sind bei Biron zwei Kameras verbaut. Eine schwenkbare Kamera, 

die es Biron ermöglicht, Personen und deren Gesichter in seinem Blickfeld zu 

behalten, und eine Kamera speziell für die Erkennung von Gesten. Des Weiteren 

sind Stereo-Mikrofone und Stereo-Lautsprecher verbaut. Diese ermöglichen es Biron 

über Sprache mit seinen Interaktionspartnern zu kommunizieren. Außerdem ist ein 

Laser-Abstandsmesser eingebaut. Damit hat Biron die Möglichkeit, Beinpaare in seiner 

Umgebung zu erkennen und Hindernisse zu vermeiden. Zur Steuerung von Biron dienen 

zwei Laptops, die über WLAN mit einem lokalen Netz verbunden sind. [3][4][9] 

7

2.3 BAM und caiwicat 

2.3.1 BAM - Bielefeld Active Appearance Models 

Abbildung 2.3: Active Appearance Models (Quelle: [1]) 

Bei BAM handelt es sich um eine von Christian Lang, im Rahmen seiner Diplomarbeit, 

entwickelte Software, die das Verfahren der Active Appearance Models unter Verwendung 

der RAVL Bibliothek 2 unter IceWing bereitstellt und zur Gesichtserkennung benutzt. 

Das Verfahren der Active Appearance Models kann wie folgt zusammengefasst 

werden: 

• Zuerst werden aus Trainingsbeispielen eine mittlere Form des Gesichtes, sowie, 

unter Verwendung der Principal Component Analysis, die Hauptkomponenten 

des Formmodells ermittelt. Auf gleiche Weise erhält man ein Texturmodell. 

• Die mittlere Form bzw. Textur lässt sich durch Variation der Hauptkomponenten 

des Form- bzw. Texturmodells verändern. 

• Zur Klassifikation eines Gesichtes wird nach einer Initialisierung (z.B. Gesichtsdetektion 

und Platzierung der mittleren Form) ein iterativer Suchalgorithmus 

ausgeführt. Dieser versucht das gegebene Gesicht möglichst gut, durch Anpassung 

der Gewichte der Hauptkomponenten des Form- bzw. Texturmodells, 

darzustellen. Als Ergebnis erhält man aus den gewählten Gewichten einen Vektor 

. 

• Die so gewonnenen Parameter lassen sich als Merkmalsvektor für eine Klassifikation 

verwenden. 

BAM ist in C++ geschrieben und in Form von mehreren IceWing Plugins und 

Kommandozeilen-Tools realisiert. [9][1][2] 

2 http://ravl.sourceforge.net/ 

8

2.3.2 caiwicat - Classification and identification with instant class 

addition tool 

Wie BAM wurde auch caiwicat von Christian Lang, im Rahmen seiner Diplomarbeit, 

entwickelt. Es besteht ebenfalls aus mehreren IceWing Plugins und Konsolen- 

Tools. Mit caiwicat lassen sich durch Merkmalsvektoren repräsentierte Objekte klassifizieren. 

Es wurden bereits mehrere Klassifikatoren, wie Support Vektor Maschinen 

oder Nächster-Nachbar, implementiert und caiwicat lässt sich um zusätzliche Klassifikatoren 

erweitern. [9] 

9

Kapitel 3 

Theoretische Grundlagen 

Im Rahmen dieser Bachelorarbeit sollen Kleidungsstücke mit Hilfe von numerischen 

Klassifikatoren klassifiziert werden. Damit dies möglich ist, muss ein von einer Kamera 

aufgenommenes und digitalisiertes Bild f(x) mit Hilfe einer Transformation T r zu 

einem Merkmalsvektor c ∈ R n transformiert werden. 

c = T r (f(x)) (3.1) 

Das Ziel der Transformation T r ist es, die Dimension des Merkmalsvektors gegenüber 

der Dimension des Bildes f(x) zu reduzieren und Merkmale zu finden, welche die 

zu klassifizierenden Klassen, in diesem Fall verschiedene Kleidungsstücke, gut unterscheidbar 

machen. Im Folgenden werden die Ansätze für zwei, bei dieser Bachelorarbeit 

eingesetzten, Transformationen T r beschrieben. [6] [14] 

3.1 Farbhistogramme 

Eine Möglichkeit einer solchen Transformation T r ist die Berechnung des Farbhistogrammes 

eines Bildes. 

Wird ein Bild durch eine (m × n) Matrix M = (m ij ) dargestellt, wobei der 

Eintrag (m ij ) dem Farbwert des Pixels an der Stelle (i, j) im Bild entspricht, und 

hat dieses eine Farbtiefe von n, so lässt sich der Merkmalsvektor c ∈ N n wie im 

Algorithmus 1 als Pseudocode dargestellt, berechnen. 

Input : Matrix M 

Output : Vektor c 

Setze den Wert aller Einträge von c auf 0 ; 

foreach Pixel in M do 

fw ← Farbwert des Pixels ; 

Erhöhe den Wert des fw-ten Eintrages von c um 1 ; 

Algorithmus 1 : Berechnung eines Histogrammes 

Bei Farbbildern, die meist durch Farbräume mit drei Kanälen dargestellt werden (z.B. 

RGB, YUV), bestimmt man die Histogramme einzeln für jeden Farbkanal und setzt 

10

diese durch Hintereinanderschreiben zu einem Histogramm zusammen, so dass man 

letztlich einen Merkmalsvektor c ∈ N (3·n) erhält. 

Möchte man die Dimension des Merkmalsvektors c weiter reduzieren, zählt man beim 

Erstellen des Histogrammes nicht das Auftreten jedes einzelnen Farbwertes, sondern 

fast mehrere nebeneinander liegende Farbwerte zu größeren Bereichen zusammen und 

zählt wie viele Pixel mit Farbwerten aus den einzelnen Bereichen auftreten. 

3.2 Local Binary Patterns 

Eine weitere Möglichkeit für die Transformation T r stellen die Local Binary Patterns 

in Verbindung mit den im vorigen Abschnitt beschriebenen Histogrammen dar. Local 

Binary Patterns repräsentieren die lokale Struktur eines Bildes und sind invariant 

gegen monotone Veränderungen der Helligkeit [13]. Daher ist zu vermuten, dass sich 

damit gut zu klassifizierende Merkmale aus Bildern von Kleidungsstücken extrahieren 

lassen. Sie wurden erstmalig 1993 von Harwood et al. erwähnt und 1996 von Ojala et 

al. eingeführt [12]. Local Binary Patterns wurden bereits bei der Gesichtserkennung 

erfolgreich angewandt. [13] 

Die original Local Binary Patterns, eingeführt von Ojala et al., lassen sich wie 

folgt beschreiben (siehe Abbildung 3.1). Einem Pixel eines Grauwertbildes (außer 

Randbereiche) wird ein neuer 8-Bit Wert zugewiesen. Dieser wird aus den 8 

Nachbarpixeln des betrachteten Pixels nach der Formel 3.2 berechnet: 

LBP (p) = 

7∑ 

s(i n − i c ) · 2 n (3.2) 

n=0 

Dabei ist p der betrachtete Pixel, i C ist der Grauwert des Pixels, i n sind die Grauwerte 

der benachbarten Pixel (angefangen links oberhalb von p und dann im Uhrzeigersinn 

fortlaufend). Die Funktion s(x) ist hier wie folgt definiert: 

{ 

1 wenn x ≥ 0 

s(x) = 

(3.3) 

0 wenn x < 0 

Abbildung 3.1: Beispiel zur LPB Berechnung 

11

Bei dem in Abbildung 3.1 gezeigten Beispiel bekommt das betrachtete Pixel den Binärwert 

00001111, was dem Dezimalwert 15 entspricht. Führt man diese Operation für alle 

Pixel eines Bildes aus, erhält man eine neue Darstellung des Bildes (siehe Abbildung 

3.2). Mit Hilfe der im Abschnitt 3.1 vorgestellten Histogramme lässt sich daraus ein 

Merkmalsvektor c berechnen. 

Abbildung 3.2: Darstellung eines LBP-Bildes 

Im Rahmen dieser Bachelorarbeit wurde eine erweiterte Form der Local Binary Patterns 

verwendet. Dabei kann man festlegen, wie groß der Abstand d nachb zwischen 

den Pixeln in der Nachbarschaft des betrachteten Pixels ist (siehe Abbildung 3.3). 

Abbildung 3.3: Verwendete Nachbarschaft bei entsprechendem Abstand d 

Es wurde festgestellt, dass die meiste Information über die Struktur eines Bildes in einer 

Teilmenge aller 256 möglichen Local Binary Patterns liegt. Diese Teilmenge stellt 

geometrische Strukturen, wie Linien, Kanten und Ecken, dar und enthält nur Local 

Binary Patterns, bei denen sich der Bitwert in der Binärdarstellung höchstens 2 mal 

ändert. Dazu gehören z.B. 00000000, 11100111, 00001111 und 11111111. Insgesamt 

hat die Teilmenge 58 Elemente. Werte, wie 10011001 und 00000101, gehören nicht 

zu der Teilmenge. [13] Um die Dimension des Merkmalsvektors c zu verringern, und 

damit die Klassifikation schneller zu machen, werden bei der Erstellung des, den Merkmalsvektor 

darstellenden, Histogrammes nur Local Binary Patterns aus dieser Teilmenge 

gezählt. Die Übrigen werden verworfen. 

12

Kapitel 4 

Implementation 

4.1 Schematische Darstellung 

Das in Abschnitt 1.3 beschriebene Verhalten wird mit Hilfe von mehreren IceWing 

Plugins (siehe Abschnitt 2.1) realisiert. Der Datenfluss zwischen den einzelnen Plugins 

wird in Abbildung 4.1 schematisch dargestellt. 

Abbildung 4.1: Datenfluss zwischen den Plugins 

13

4.2 Plugins 

In diesem Abschnitt werden die verwendeten Plugins beschrieben. Dabei wurden das 

Adapter Plugin (Abschnitt 4.2.8), das Shirt Plugin (Abschnitt 4.2.7), sowie ein Klassifikator 

für das caiwicat-classify Plugin (Abschnitt 4.2.5) im Rahmen dieser Bachelorarbeit 

implementiert. 

4.2.1 Grabbing Plugin 

Das Grapping Plugin verarbeitet Video- und Bilddateien, sowie Daten von verschiedener 

Hardware, wie z.B. USB und FireWire Kameras, und stellt diese zur Weiterverarbeitung 

in IceWing bereit. 

4.2.2 Encara Plugin 

Das Encara Plugin basiert auf Encara2 1 und wird zur Erkennung von Gesichtern in 

den vom Grabbin Plugin gelieferten Videodaten benutzt. Werden vom Plugin eines 

oder mehrere Gesichter erkannt, stellt es eine XML-Datenstruktur bereit (Siehe Listing 

4.2) Darin werden die Positionen des Gesichtes, der Augen, der Nase und des Mundes 

aller erkannten Gesichter angegeben. 

 

 

 

 

 

< / REGION> 

 

 

 

< / EYES> 

 

 

 

 

< / REGION> 

< /MOUTH> 

 

< / FACE> 

< / FACES> 

Listing 4.1: Beispiel für eine XML-Datenstruktur des Encara Plugins 

1 doi:10.1016/j.jvcir.2006.11.004 

14

Abbildung 4.2: Ein vom Encara Plugin erkanntes Gesicht 

4.2.3 Encara Stable Detect Plugin 

Das Encara Stable Detect Plugin dient dazu, aus den vom Encara Plugin gelieferten 

Daten, diejenigen Objekte heraus zu filtern, die vom Encara Plugin nur kurzzeitig 

als Gesicht eingestuft werden. Dadurch soll vermieden werden, dass fälschlicherweise 

als Gesicht eingestufte Objekte die Verarbeitung der Daten durch die anderen Plugins 

beeinträchtigen. Des Weiteren fügt das Encara Stable Detect Plugin allen anderen, 

nicht herausgefilterten und damit als Gesicht eingestuften Daten, eine für jedes Gesicht 

eindeutige stable-id hinzu. 

4.2.4 aam4iw_init Plugin und aam4iw_fit Plugin 

Die beiden Plugins aam4iw_init und aam4iw_fit führen bei den erkannten Gesichtern 

eine Merkmalsextraktion, unter Verwendung der Active Appearance Models (siehe 

Abschnitt 2.3.1), druch. Dabei dient das aam4iw_init Plugin zur Initialisierung der 

Appearance-Parameter der erkannten Gesichter. Diese werden vom, im aam4iw_fit 

Plugin implementierten, Active Appearance Models Suchalgorithmus verwendet.[9] 

Das aam4iw_fit Plugin trägt als Ergebnis einen Merkmalsvektor in die Gesichtsdaten 

des Encara Plugins ein. 

4.2.5 caiwicat-classify Plugin 

Das caiwicat-classify Plugin wird zur Klassifikation von Merkmalsvektoren verwendet. 

[9] Wird bei der Eingabe eines Merkmalsvektors, in Form von XML Daten, 

eine Klassen ID mit übergeben, trainiert das Plugin einen Klassifikator. Ist in den 

übergebenen XML Daten keine Klassen ID eingetragen, wird der Merkmalsvektor 

vom Plugin klassifiziert. Das aam4iw_fit Plugin kann Kommandos von anderen 

IceWing Plugins in Form von XML Daten entgegennehmen. Gegebenenfalls gibt 

es die Antwort ebenfalls in Form von XML Daten zurück. Diese Feature wird vom 

Adapter Plugin benutzt, um alle, dem caiwicat-classify Plugin bekannten Klassen, zu 

erhalten (siehe Abschnitt 4.2.8). 

Im Rahmen dieser Bachelorarbeit wurden die folgenden Klassifikatoren benutzt. 

Gesichtserkennung 

Für die Gesichtserkennung wurde eine Kombination aus Nächsten Nachbar Klassifikator 

und Support Vektor Maschinen verwendet. Die Funktionsweise dieser Klassifikatoren 

wird u.a. in [6] und [14] beschrieben. 

15

Shirterkennung 

Für das Erkennen von Kleidungsstücken, im Folgenden als Shirterkennung bezeichnet, 

wurden zwei verschiedene Klassifikatoren verwendet. 

Der erste Klassifikator benutzt zum Klassifizieren für jede Klasse k einen mittleren, 

die Klasse im Merkmalsraum repräsentierenden Vektor x k n. Soll der Klassifikator 

trainiert werden, wird x k n mit jedem neuen Trainingsvektor x k wie folgt angepasst, 

wobei n die Anzahl der verwendeten Trainingsvektoren ist: 

Für n = 1 

Für n > 1 

x k 1 = x k 

x k n = (1 − 1 n ) · xk n−1 + 1 n · xk (4.1) 

Zur Klassifikation eines Merkmalsvektors wird die euklidische Distanz d k zwischen 

dem Merkmalsvektor x und allen Vektoren x k n berechnet. Der Merkmalsvektor x wird 

dann zu der Klasse k, die das kleinste d k liefert, zugeordnet. Ist diese Distanz jedoch 

größer als ein vorher festgelegter Schwellwert d max , wird der Merkmalsvektor x 

zurückgewiesen. 

Der zweite, von Christian Lang implementierte, Klassifikator ist ein Nächste 

Nachbar Klassifikator, der als Distanzmaß ein in [5] vorgestelltes Verfahren verwendet. 

Dieses berechnet wie viele Schritte nötig sind, um ein Histogramm, durch 

Verschieben von Elementen aus einem Balken in einen seiner beiden benachbarten 

Balken, in ein anderes Histogramm zu überführen. Die Anzahl der benötigten Schritte 

ist die Distanz d zwischen den beiden betrachteten Histogrammen. Ein Beispiel wird 

in Abbildung 4.3 dargestellt. 

Abbildung 4.3: Ermittlung der Distanz zweier Histogramme, Distanz = 4 

Die Berechnung dieser Distanz kann in Pseudocode, wie in Algorithmus 2 dargestellt, 

beschrieben werden. Dabei ist b die Dimension der betrachteten Histogramme 

A und B, und A[i] bzw. B[i] sind die einzelnen Einträge der Histogramme. 

16

Input : Histogramm A 

Input : Histogramm B 

Input : Dimension b 

Output : Distanz d 

summe ← 0; 

d ← 0 ; 

for i ← 0 to b − 1 do 

summe ← summe + (A[i] − B[i]) ; 

d ← d + (Betrag von summe); 

Algorithmus 2 : Berechnung der Distanz zwischen zwei Histogrammen 

4.2.6 caiwicat-majority-vote Plugin 

Das caiwicat-majority-vote Plugin sammelt die Ergebnisse mehrerer Durchläufe des 

caiwicat-classify Plugins und gibt die Klasse, welche von diesem am häufigsten erkannt 

wurde, als Ergebnis der Klassifikation aus. 

4.2.7 Shirt Plugin 

Das Shirt Plugin wird zur Merkmalsextraktion aus Bildern bzw. Videos von Kleidungsstücken 

verwendet. Dabei werden die beiden, in Abschnitt 3 vorgestellten, 

Verfahren Farbhistogramme und Local Binary Patterns eingesetzt. Die so extrahierten 

Merkmalsvektoren werden zur Klassifikation an das caiwicat-classify Plugin weiter 

geleitet. 

Da die Merkmalsextraktion mit Videodaten, die von Biron aufgenommen wurden 

(siehe Abschnitt 1), funktionieren soll, und diese nicht nur Kleidungsstücke 

enthalten, sondern auch Gesichter und einen Teil der Umgebung, wird die folgende 

Heuristik verwendet, um Bildausschnitte mit Kleidungsstücken zu finden. Aus den 

vom Encara Plugin für jedes erkannte Gesicht bereitgestellten Daten (siehe Abschnitt 

4.2.2) wird ein Bildbereich unterhalb des Gesichtes ausgewählt. Von diesem wird 

angenommen, dass sich dort getragene Kleidungsstück befindet (siehe Abbildung 

4.2.7). Der ausgewählte Bildbereich kann durch drei Parameter verändert werden. 

• Der erste Parameter d m legt den Abstand des Mittelpunktes des Gesichtes vom 

Mittelpunkt des Kleidungsstückes fest. 

• Der zweite Parameter r x legt das Verhältnis der Breite des Gesichtes zur Breite 

des Kleidungsstückes fest. 

• Der dritte Parameter r y legt entsprechend die Verhältnisse der Höhen fest. 

17

Abbildung 4.4: Die verwendete Heuristik 

Das Shirt Plugin trägt widerum die Lage des ermittelten Kleidungsstückes in einem 

ähnlichen Format, wie das Encara Plugin, sowie den ermittelten Merkmalsvektor in 

die XML-Daten ein. 

 

 

. . . 

TORSO model=" b l a b l a . t e s t "> 

 

 

1603 14833 

17261 15676 2497 474 2547 2438 1745 15307 17246 

15561 2180 912 2485 2296 1700 14452 17234 15659 

3006 906 2489 2286 < /PARAVECTOR> 

< /TORSO> 

. . . 

< / FACE> 

< / FACES> 

Listing 4.2: XML-Datenstruktur des Shirt Plugins 

4.2.8 Adapter Plugin 

Das Adapter Plugin soll in Zukunft die Schnittstelle zwischen Biron und den IceWing 

Plugins darstellen (bisher ist nur die Bedienung über eine GUI möglich). Das Szenario 

für den Ablauf der Software kann wie folgt beschrieben werden (siehe auch Abschnitt 

1) : 

• Beginnt Biron die Interaktion mit einer Person, teilt er dies dem Adapter Plugin 

mit. Die von ihm aufgenommenen Videodaten werden zum Trainieren des 

Gesichts- und des Shirtklassifikators benutzt. Ist die Person bisher unbekannt, 

wird eine neue Klasse mit einem internen class-label und einer internen class-id 

18

erstellt. Dabei ist zu beachten, dass der Gesichtsklassifikator, im Schema (Abbildung 

4.1) das caiwicat-classify Plugin2, die Klassen, also die Gesichter der 

ihm bekannten Personen, persistent speichert. Der Shirtklassifikator, im Schema 

das caiwicat-classify Plugin1, muss hingegen für jeden Durchlauf neu trainiert 

werden. Es kann also der Fall auftreten, dass eine mit Biron interagierende Person 

dem Gesichtsklassifikator aus einem früheren Durchlauf bekannt ist, dem 

Shirtklassifikator jedoch nicht. In diesem Fall übernimmt der Shirtklassifikator 

das class-label und die class-id des Gesichtsklassifikators und der Shirtklassifikator 

wird neu trainiert. 

Teilt die Person Biron im Laufe der Interaktion ihren Namen mit, wird das classlabel 

auf diesen Namen geändert. 

• Tritt der in Abschnitt 1.2 beschriebene Fall auf, dass Biron eine verfolgte Person 

verliert, wird versucht diese Person mit Hilfe der Gesichts- und Shirterkennung 

wiederzufinden. Dazu betrachtet Biron nacheinander alle in Frage kommenden 

Personen. Daraufhin wird ihm vom Adapter Plugin das class-label der 

betrachteten Person oder, falls die Person nicht erkannt wird, eine Rückweisung 

mitgeteilt. Für den Fall, dass der Gesichtsklassifikator und der Shirtklassifikator 

verschiedene Ergebnisse liefern, kann ausgewählt werden, wem Biron glauben 

soll. 

19

Kapitel 5 

Evaluation 

5.1 Testszenario 

Zum Zwecke der Evaluation wurden zwei Serien von jeweils zehn Videos mit drei Personen 

aufgenommen. Zwischen den Videos wechselten die Personen ihre Shirts. Die 

erste Serie wurde mit dem Videomodus einer Digitalen Fotokamera aufgenommen, die 

zweite mit Birons schwenkbarer Kamera (siehe Abschnitt 2.2). Um dem in Abschnitt 

1 beschriebenen Szenario möglichst nahe zu kommen, wurden die Videos wie folgt 

aufgenommen: 

1. Eine Person steht einige Zeit vor der Kamera, so dass die Klassifikatoren (siehe 

Abschnitt 4) trainiert werden können. 

2. Dann entfernt sich die Person von der Kamera, so dass sie nicht mehr zu sehen 

ist. 

3. Danach werden nacheinander drei Personen, die vorherige Person und zwei weitere, 

in einer nicht festgelegten Reihenfolge einzeln aufgenommen. 

4. Zum Schluss werden noch einmal alle Personen nebeneinander stehend 

aufgenommen. 

Eine Klassifikation wird als erfolgreich angesehen, wenn die erste Person wiedererkannt 

wird und die anderen beiden Personen als unbekannt zurückgewiesen werden. 

5.2 Testergebnisse 

Bei der Durchführung der Tests wurden, durch Ausprobieren, Parameter für die Klassifikatoren 

festgelegt. Das Ziel bei der Wahl der Parameter war es, dass die erste Person 

möglichst oft vom jeweiligen Klassifikator erkannt und die anderen beiden Personen 

möglichst oft zurückgewiesen werden. Für die einzelnen Klassifikatoren wurden in 

beiden Serien die folgenden Werte ermittelt: 

• Farbhistogramme (FARB): Da die Bilder der zu klassifizierenden Kleidungsstücke, 

aufgrund der gewählten Heuristik (siehe Abschnitt 4.2.7), nicht 

20

immer die gleiche Größe haben, müssen die extrahierten Merkmalsvektoren 

skaliert werden. Dazu müssen alle Einträge des Merkmalsvektors, also des 

ermittelten Farbhistogrammes, mit einem Faktor f multipliziert werden. Dieser 

wird aus einer gewählten Standardbildgröße b s und der tatsächlichen Bildgröße 

b t berechnet, als f = b s /b t . Für die Standardbildgröße wurde b = 30000 

gewählt. 

Der euklidische Abstand zweier Merkmalsvektoren hängt von deren Skalierung 

ab. Daher muss der maximale euklidische Abstand d max (siehe Abschnitt 4.2.5) 

abhängig von b festgelegt werden. Für den maximale euklidische Abstand wurde 

d max = 20000 gewählt. 

• Local Binary Pattern (LBP): Hier wurde b s = 100000 und d max = 3500 

gewählt. Für den Abstand der Pixel in der Nachbarschaft (siehe Abschnitt 3.2) 

wurde d nachb = 2 festgelegt. 

• Farbhistogramme mit Nächster-Nachbar Klassifikator (FNN): Die Standardbildgröße 

wurde, wie bei den Farbhistogrammen, b s = 30000 gewählt. Für den 

Nächsten-Nachbar Klassifikator muss ein Faktor f nn festgelegt werden. f nn 

wird verwendet, um für jeden Trainingsvektor v i einen Radius r i festzulegen. 

Dieser wird berechnet als 

r i = f nn · dist(v i , v j ) 

Dabei ist dist(x, y) die Distanz zwischen zwei Vektoren im Merkmalsraum und 

v j ist der zu v i nächstgelegene Trainingsvektor aus derselben Klasse, mit i ≠ j. 

Ist jetzt v i der Nächste Nachbar eines zu klassifizierenden Merkmalsvektors x, 

wird x zurückgewiesen, wenn der Abstand zwischen v i und x größer als r i ist. 

[9] Es wurde f nn = 12 gewählt. (Es kann auch ein Radius für den Fall festgelegt 

werden, dass der Nächste Nachbar von v i zu einer anderen Klasse gehört. Da im 

Testszenario nur eine Klasse trainiert wurde, ist dieser Radius nicht relevant.) 

• Active Appearance Models (AAM): Hier wurde der Faktor f nn (siehe oben) als 

f nn = 80 festgelegt. Ansonsten wurden bei der Gesichtserkennung die Standardeinstellungen 

verwendet. 

5.2.1 Serie 1 

Bei der ersten Serie von Videos wurden der erste Teil und die Teile 3 und 4 (siehe 

vorherigen Abschnitt) in zwei verschiedenen Räumen unter verschiedenen Lichtverhältnissen 

aufgenommen. Ein weiteres Problem mit den Videos der ersten Serie bestand 

darin, dass die Kleidungsstücke manchmal nur zum Teil im Bild sind. Des Weiteren 

wurden die Personen in den Videos teilweise nur sehr kurz aufgenommen, so dass das 

caiwicat-majority-vote Plugin zu wenige Bilder für eine Auswertung hat. Wie bereits 

erwähnt, wurden pro Serie 10 Videos aufgenommen. In Tabelle 5.1 wird dargestellt, 

wie oft die einzelnen Klassifikatoren die erste Person wiedererkannt haben und wie 

oft die zwei anderen Personen fälschlicherweise als die erste Person klassifiziert wurden. 

In Tabelle 5.2 sind die Ergebnisse der Klassifikation nach den einzelnen Videos 

aufgelistet. 

21

Ereignis FARB LBP FNN AAM 

Person 1 erkannt 2 / 10 2 / 10 2 / 10 2 / 10 

falsch klassifiziert 3 / 20 2 / 20 2 / 20 3 / 20 

Tabelle 5.1: Klassifikationsergebnisse der ersten Serie 

Video Nr. FARB LBP FNN AAM 

+++ erkannt Fehler erkannt Fehler erkannt Fehler erkannt Fehler 

01 nein 0 nein 0 ja 0 ja 0 

02 nein 0 nein 0 nein 0 nein 0 

03 nein 1 ja 0 ja 0 ja 0 

04 ja 0 nein 0 ja 0 nein 0 

05 nein 0 ja 1 ja 0 nein 2 

06 ja 1 nein 0 ja 2 nein 0 





Tabelle 5.2: Klassifikationsergebnisse der ersten Serie nach Videos 

Wie sich aus den Tabellen erkennen lässt, liefert der FFN-Klassifikator in der ersten 

Serie die besten Ergebnisse. Die drei anderen Klassifikatoren liefern allesamt ähnlich 

schlechte Ergebnisse, was wahrscheinlich an den oben erwähnten Problemen, wie 

z.B. den unterschiedlichen Lichtverhältnissen, liegt. Wurden die Videos von Vorne 

abgespielt, so dass die zuvor zum Trainieren der Klassifikatoren verwendeten Bilder 

ihrerseits klassifiziert wurden, so erkannten alle Klassifikatoren in allen Videos die 

erste Person wieder. 

Es lässt sich feststellen, dass die beiden Klassifikatoren, welche die Farbhistogramme 

zur Merkmalsextraktion verwenden, in den Videos 04 und 06 die erste 

Person erkennen. Außerdem machen beide Klassifikatoren Fehler in Video 06. (Der 

FFN-Klassifikator erkennt darüber hinaus auch in anderen Videos die erste Person 

wieder). Der LBP-Klassifikator erkennt hingegen die erste Person in den Videos 03 

und 05. 

5.2.2 Serie 2 

Die Videos der zweiten Serie wurden mit der schwenkbaren Kamera von Biron (siehe 

Abschnitt 2.2) aufgenommen. Diese hat eine höhere Auflösung als die in der ersten 

Serie verwendete Kamera und liefert qualitativ hochwertigere Videos. Bei den Aufnahmen 

stand Biron immer an der gleichen Stelle und es wurde nur die Kamera von 

einer Person zur nächsten gedreht. Die Lichtverhältnisse waren daher relativ konstant. 

Auch waren die Kleidungsstücke immer vollständig im Bild und die einzelnen Personen 

wurden länger aufgenommen, so dass das caiwicat-majority-vote Plugin mehr 

Bilder für eine Auswertung zur Verfügung hat. Das spiegelt sich auch in den besseren 

Klassifikationsergebnissen wieder. 

22

Ereignis FARB LBP FNN AAM 

Person 1 erkannt 10 / 10 10 / 10 10 / 10 8 / 10 

falsch klassifiziert 3 / 20 2 / 20 1 / 20 1 / 20 

Tabelle 5.3: Klassifikationsergebnisse der zweiten Serie 

Video Nr. FARB LBP FNN AAM 

+++ erkannt Fehler erkannt Fehler erkannt Fehler erkannt Fehler 

01 ja 0 ja 0 ja 0 ja 0 

02 ja 0 ja 0 ja 0 ja 0 

03 ja 0 ja 0 ja 0 ja 0 

04 ja 0 ja 1 ja 0 ja 0 

05 ja 0 ja 0 ja 0 nein 0 

06 ja 0 ja 1 ja 0 ja 0 

07 ja 0 ja 0 ja 0 ja 1 

08 ja 2 ja 0 ja 1 ja 0 

09 ja 1 ja 0 ja 0 nein 0 

10 ja 0 ja 0 ja 0 ja 0 

Tabelle 5.4: Klassifikationsergebnisse der zweite Serie nach Videos 

Widerum liefert der FNN-Klassifikator die besten Ergebnisse, d.h. das beste Verhältnis 

von Wiedererkennung und Rückweisung. Interessant sind die Ergebnisse des Videos 

08. In diesem Video tragen alle drei Personen schwarze Shirts (siehe Abbildung 5.2.2). 

Daher kommt es bei dem FARB-Klassifikator zu zwei und bei dem FNN-Klassifikator 

zu einer Fehlklassifikationen. Dagegen erkennt der LBP-Klassifikator die erste Person 

wieder und weist die anderen als unbekannt zurück. Das zeigt, entsprechend den 

Beobachtungen in der ersten Serie, dass, wie erwartet, die Extraktion von verschieden 

Merkmalen auch zu verschiedenen Ergebnissen bei der Klassifikation führt. 

Abbildung 5.1: Video 08 

23

Kapitel 6 

Fazit und Ausblick 

Im Rahmen dieser Bachelorarbeit wurde gezeigt, dass die Erkennung von Personen 

anhand ihrer Kleidung in bestimmten Szenarien, wie z.B. einem Haushaltsroboter, 

möglich ist und Sinn macht. So lassen sich aus Kleidung verschiedene Merkmale, wie 

Farbhistogramme und Local Binary Patterns, extrahieren. Damit lassen sich schon 

mit relativ einfachen Klassifikatoren gute Klassifikationsergebnisse erzielen. Um die 

Klassifikationsergebnisse auch unter erschwerten Bedingungen zu verbessern, gibt es 

mehrere Möglichkeiten. Zum Einen kann die Merkmalsextraktion verbessert werden. 

Für die Local Binary Patterns werden dafür in [13] mehrere Methoden vorgestellt, die 

schon bei zur Gesichtserkennung eingesetzt wurden. Zum anderen kann, insbesondere 

bei den Local Binary Patterns, wo bisher nur ein sehr einfacher Klassifikator eingesetzt 

wurde, die Verwendung von besseren Klassifikatoren zu besseren Ergebnissen führen. 

Auch lassen sich Local Binary Patterns und Farbhistogramme kombinieren und so 

mehr unabhängige Merkmale in einer Klassifikation verwenden. 

Ein Ziel für die Zukunft ist die vollständige Integration der hier entwickelten 

Software in den Roboter Biron. 

24

Literaturverzeichnis 

[1] http://personalpages.manchester.ac.uk/staff/timothy.f.cootes/Models/aam.html, 

Besucht am 26.10.2008. 

[2] http://de.wikipedia.org/wiki/Active_Appearance_Model, Besucht am 

26.10.2008. 

[3] http://aiweb.techfak.uni-bielefeld.de/content/biron-bielefeld-robot-companion, 

Besucht am 26.10.2008. 

[4] http://aiweb.techfak.uni-bielefeld.de/node/656, Besucht am 26.10.2008. 

[5] CHA, SUNG-HYUK und SARGUR N. SRIHARI: On measuring the distance between 

histograms. 

[6] HANHEIDE, MARC: Vorlesung Musterklassifikation, 2007. 

[7] IceWing - User and Programming Guide, Mai 2006. Version 0.9. 

[8] http://icewing.sourceforge.net, Besucht am 26.10.2008. 

[9] LANG, CHRISTIAN: Personenidentifikation mit Active Appearance Models. 

Diplomarbeit, Universität Bielefeld, 2007. 

[10] LANG, S., M. KLEINENGABENBROCK, S. HOHENNER, J. FRITSCH, G. A. 

FINK und G. SAGERER: Providing the basis for human-robot-interaction: A 

multi-modal attention system for a mobile robot, 2003. 

[11] LÖMKER, FRANK, SEBASTIAN WREDE, MARC HANHEIDE und JANNIK 

FRITSCH: Building Modular Vision Systems with a Graphical Plugin Environment. 

[12] MÄENPÄÄ, TOPI: The Local Binary Pattern Approach to Texture Analysis - Extensions 

and Applications. 2003. 

[13] MARCEL, SEBASTIAN, YANN RODRIGUEZ und GUILLAUME HEUSCH: On the 

Recent Use of Lacal Binary Patterns for Face Authentication. 

[14] NIEMANN, HEINRICH: Klassifikation von Mustern. 2. überarbeitete Auflage, 

2003. 

[15] YUAN, FANG, MARC HANHEID und GERHARD SAGERER: Spatial Contex- 

Aware Person-Following for a Domestic Robot. 

25

Abbildungsverzeichnis 

1.1 Kleidung bietet oft viele Unterscheidungsmerkmale . . . . . . . . . . 4 

2.1 Ein Beispiel für einen Programmablauf in IceWing (Quelle: [8]) . . . 6 

2.2 Biron - The Bielefeld Robot Companion (Quelle: [3]) . . . . . . . . . 7 

2.3 Active Appearance Models (Quelle: [1]) . . . . . . . . . . . . . . . . 8 

3.1 Beispiel zur LPB Berechnung . . . . . . . . . . . . . . . . . . . . . 11 

3.2 Darstellung eines LBP-Bildes . . . . . . . . . . . . . . . . . . . . . . 12 

3.3 Verwendete Nachbarschaft bei entsprechendem Abstand d . . . . . . 12 

4.1 Datenfluss zwischen den Plugins . . . . . . . . . . . . . . . . . . . . 13 

4.2 Ein vom Encara Plugin erkanntes Gesicht . . . . . . . . . . . . . . . 15 

4.3 Ermittlung der Distanz zweier Histogramme, Distanz = 4 . . . . . . . 16 

4.4 Die verwendete Heuristik . . . . . . . . . . . . . . . . . . . . . . . . 18 

5.1 Video 08 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

26

Liste der Algorithmen 

1 Berechnung eines Histogrammes . . . . . . . . . . . . . . . . . . . . 10 

2 Berechnung der Distanz zwischen zwei Histogrammen . . . . . . . . . 17 

27

Listings 

4.1 Beispiel für eine XML-Datenstruktur des Encara Plugins . . . . . . . 14 

4.2 XML-Datenstruktur des Shirt Plugins . . . . . . . . . . . . . . . . . 18 

28

Tabellenverzeichnis 

5.1 Klassifikationsergebnisse der ersten Serie . . . . . . . . . . . . . . . 22 

5.2 Klassifikationsergebnisse der ersten Serie nach Videos . . . . . . . . 22 

5.3 Klassifikationsergebnisse der zweiten Serie . . . . . . . . . . . . . . 23 

5.4 Klassifikationsergebnisse der zweite Serie nach Videos . . . . . . . . 23 

29

Erkennung von Personen anhand ihrer Kleidung und die ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?