Semantische Objekterkennung mit Methoden des Maschinel- len ...

19. Workshop Computer-Bildanalyse in der Landwirtschaft und 

2. Workshop Unbemannte autonom fliegende Systeme in der Landwirtschaft 

179 

Semantische Objekterkennung mit Methoden des Maschinellen 

Lernens 

Falk Schmidsberger, Frieder Stolzenburg 

Hochschule Harz, Fachbereich Automatisierung und Informatik, Friedrichstr. 57-59, 

38855 Wernigerode 

Email: fschmidsberger@hs-harz.de, fstolzenburg@hs-harz.de 

Zusammenfassung: Mobile Datenerfassung mit unbemannten, autonom fliegenden Systemen 

(UAS) ist eine preiswerte Alternative zu konventioneller Luftbildfotografie. Derartige 

Flugroboter sind häufig mit vielen Sensoren ausgestattet. Um Piloten die Kontrolle über 

das Gesamtsystem zu erleichtern, scheint es daher sinnvoll, bekannte Objekte automatisch 

im Flug zu erkennen und daraufhin die Umgebung und diese Objekte zu erkunden. 

Hier bietet sich die semantische Objekterkennung an, die den Roboter autonomer agieren 

lässt. Um ein Objekt zu erkennen, ist es notwendig, herauszufinden, welche Segmente im 

Bild typisch für das Objekt sind und in welcher Umgebung anderer Segmente diese auftauchen. 

Aus den Segmenten werden normierte Eigenschaftsvektoren berechnet, die mit 

Methoden des Maschinellen Lernens in ihrer Anzahl reduziert und zu Modellen der zu erkennenden 

Objekte verarbeitet werden. Mit Hilfe dieser Modelle sind die Objekte auch in 

unbekannten digitalen Bildern identifizierbar. Unser Ansatz verwendet Methoden des Maschinellen 

Lernens (Entscheidungsbäume, Clustering) und der Bildverarbeitung (Segmentierung, 

Kontursignaturen). Die Sensorik der Multikopter kann dabei durch Stereo- 

Kameras, die u.a. zur Entfernungsmessung benutzt werden können, und Infrarot- 

Kameras, die z.B. landwirtschaftliche Flächen oder archäologische Fundstätten genauer 

zu analysieren erlauben, ergänzt werden. 

Deskriptoren: Multikopter, Semantische Objekterkennung, Maschinelles Lernen, Computer 

Vision, Bildverarbeitung, Anwendungen 

Summary: Data acquisition with semi-autonomous flying robots, e.g. multicopters, which 

are often equipped with multiple sensors, has several advantages over conventional inspections 

or aerial photographs. However, in order to facilitate the handling of the flying 

robot for the pilot, it seems to be appropriate to employ semantic object recognition, making 

the robot more autonomous. In this paper, we therefore report ongoing work on semantic 

object recognition, where the image recognition procedure works as follows: Each 

object in an image is composed of segments with different shapes and colors. In order to 

recognize an object, e.g. a plane, it is necessary to find out which segments are typical for 

this object and in which neighborhood of other segments they occur. Typical adjacent 

segments for a certain object define the whole object in the image. A hierarchical composition 

of segment clusters enables model building, taking into account the spatial relations of 

the segments in the image. The procedure employs methods from machine learning, 

Bornimer Agrartechnische Berichte Heft 81 

ISSN 0947-7314 

Leibniz-Institut für Agrartechnik Potsdam-Bornim e.V. (ATB)

180 

Schmidsberger, Stolzenburg 

namely clustering and decision trees, and from computer vision, e.g. image pyramid segmentation 

and contour signatures. The overall capability of multicopters can be enhanced 

by stereo cameras, which are among others useful for measuring distances, and infrared 

cameras, which e.g. allow to analyze agricultural areas or archaeological places more precisely. 

Keywords: multicopters, semantic object recognition, machine learning, computer vision, 

applications. 

1 Einleitung 

Mobile Datenerfassung mit unbemannten, autonom fliegenden Systemen (UAS) ist eine 

preiswerte Alternative zu konventioneller Luftbildfotografie. Die Datenerfassung mit Multikoptern, 

d.h. Flugrobotern mit i.d.R. 4 oder 8 horizontal angeordneten Propellern (Bild 1), 

bietet verschiedene Vorteile gegenüber konventionellen Erkundungen oder Luftbildfotografien. 

Im Labor Mobile Systeme an der Hochschule Harz stehen mehrere Multikopter 

zur Verfügung. Damit werden hochwertige Luftaufnahmen erstellt (Bild 2) und Forschungsprojekte 

zusammen mit Unternehmen durchgeführt. Derzeit laufen im Labor Mobile 

Systeme an der Hochschule Harz zwei geförderte Projekte zum Einsatz von Multikoptern. 

Dabei geht es einmal um die Entwicklung einer Sensorplattform zur Erfassung von 

Bild- und Umweltdaten sowie eines Flugassistenzsystems für semi-autonome ferngesteuerte 

fliegende Systeme und einmal um die Entwicklung von Verfahren zur mehrdimensionalen 

Objektmodellierung aus der Zusammenführung von mit Multikoptern aus niedrigen 

Höhen aufgenommenen Infrarotbildern. Die Projekte werden zusammen mit regionalen 

Unternehmen durchgeführt und im Zentralen Innovationsprogramm Mittelstand (ZIM) 

durch das Bundesministerium für Wirtschaft und Technologie gefördert. 

Bild 1: Ein Oktokopter der Hochschule Harz 


ISSN 0947-7314 




181 

Bild 2: Multikopter-Aufnahme der Hochschule Harz, Haus 2 bis 5 

Flugroboter sind häufig mit vielen Sensoren ausgestattet. Daher erscheint es sinnvoll, die 

Selbstständigkeit solcher Flugroboter zu verbessern, da sonst Piloten nur schwer das gesamte 

Robotersystem steuern können. Zudem ist es nicht immer möglich, während des 

Fluges die Funkverbindung aufrecht zu halten. Darum ist es wichtig, bekannte Objekte 

automatisch im Flug zu erkennen und daraufhin die Umgebung und diese Objekte zu erkunden. 

Hier bietet sich die semantische Objekterkennung an, die den Roboter autonomer 

agieren lässt. Im Folgenden wollen wir dieses Verfahren etwas näher vorstellen (siehe 

auch SCHMIDSBERGER & STOLZENBURG 2011). Dabei werden Methoden des maschinellen 

Lernens und der grafischen Datenverarbeitung angewendet. 

2 Semantische Objekterkennung 

Bei der semantischen Objekterkennung in digitalen Bildern werden die Eigenschaften der 

zu erkennenden Objekte zunächst aus einer Reihe von Beispielbildern gelernt, denen die 

darin enthaltenen Objekte zugeordnet sind. Um die Objekteigenschaften zu bestimmen, 

wird jedes Bild in seine Segmente zerlegt. Ein Segment ist hierbei eine zusammenhängende 

Fläche benachbarter Pixel, die einem bestimmten Homogenitätskriterium entsprechen, 

z.B. dieselbe Farbe. Jedes Objekt in einem digitalen Bild ist aus Segmenten unterschiedlicher 

Form und Farbe zusammengesetzt. Um ein Objekt zu erkennen, ist es notwendig 

herauszufinden, welche Segmente typisch für das Objekt sind und in welcher 

Nachbarschaft anderer Segmente diese auftauchen. Aus den Segmenten werden nor- 


ISSN 0947-7314 


182 


mierte Eigenschaftsvektoren berechnet, die mit Methoden des Maschinellen Lernens in 

ihrer Anzahl reduziert und zu Modellen der zu erkennenden Objekte verarbeitet werden. 

Mit Hilfe dieser Modelle sind die Objekte dann auch in unbekannten digitalen Bildern identifizierbar. 

3 Bildsegmentierung 

In unserem Ansatz werden die Bilder in zwei Schritten in Segmente mit homogener Farbe 

zerlegt. Im ersten Schritt wird das Bild mit einem Flood-Fill-Algorithmus aufbereitet. Für 

jedes Pixel im Bild werden benachbarte Pixel mit ähnlichen Eigenschaften einheitlich eingefärbt. 

Im zweiten Schritt werden die Segmente im Bild mit einem Image-Pyramiden- 

Algorithmus anhand ihrer Färbung ermittelt. Für beide Schritte können Routinen der Software-Bibliothek 

OpenCV verwendet werden (BRADSKI & KAEHLER 2008). 

3.1 Kontursignaturen der Segmente 

Die Eigenschaften eines Segments werden in unserem Ansatz durch verschiedene Kontursignaturen 

bestimmt. Eine Kontursignatur bildet Eigenschaften der Kontur eines Segments 

auf einen eindimensionalen Vektor ab (GONZALES & WOODS 2008). Wir verwenden 

hierfür vier Methoden zur Distanzmessung in der Segmentkontur (Bild 3), die jeweils einen 

Vektor fester Länge erzeugen, welche nach einer Normierung zu einem Segmenteigenschaftsvektor 

V zusammengesetzt werden. Im Folgenden beschreiben wir nun diese 

Methoden kurz: 

Maximale polare Distanz: In festen Winkelschritten wird die Distanz vom Schwerpunkt 

des Segments zum entferntesten Pixel in der Segmentkontur bestimmt (Bild 3, Methode 

2). Für eine Schrittweite von z.B. 3,6°ergeben sich 100 Messpunkte. 

Minimale und Maximale Tangentendistanz: In festen Winkelschritten werden die vom 

Schwerpunkt des Segments entferntesten Pixel in der Segmentkontur bestimmt. Durch 

diese Pixel wird jeweils eine Tangente an die Segmentkontur angelegt. Jeweils senkrecht 

zur Tangente wird die minimale und die maximale Entfernung vom Berührungspunkt der 

Tangente zur gegenüberliegenden Segmentkontur gemessen (Bild 3, Methoden 1 und 4). 

Strahlenmethode: In festen Winkelschritten werden die vom Schwerpunkt des Segments 

entferntesten Pixel in der Segmentkontur bestimmt. Durch diese Pixel und den Segmentschwerpunkt 

werden jeweils Geraden gelegt und die Distanzen der jeweils voneinander 

entferntesten Konturpixel auf den Geraden gemessen (vgl. Bild 3, Methode 3). 


ISSN 0947-7314 




183 

1 

2 

3 

4 

1 – Minimale Tangentendistanz 

2 – Maximale polare Distanz 

3 – Strahlenmethode 

4 – Maximale Tangentendistanz 

Bild 3: Kontursignaturmethoden 

3.2 Normierte Segmenteigenschaftsvektoren 

Da die Distanzvektoren aus der Vermessung der Segmentkontur gewonnen wurden, sind 

sie invariant gegenüber der Translation des Segments. Durch das Verschieben der Elemente 

der Distanzvektoren werden diese invariant gegenüber der Rotation. Hierzu wird 

einfach das Element mit der größten Wertausprägung und dem größten Winkel zur 

nächstgrößten Wertausprägung als erstes Element im jeweiligen Distanzvektor genommen. 

Die Wertausprägungen selbst werden mit der jeweiligen maximalen Ausprägung auf 

den Bereich [0.0, 1.0] normalisiert. Die vier Distanzvektoren werden nach ihrer Normierung 

zu einem Segmenteigenschaftsvektor V zusammengeführt. Dieser ist nun gegenüber 

Translation, Rotation und Skalierung des jeweiligen Segments invariant. 

4 Maschinelles Lernen 

Zum Lernen der Objekteigenschaften kommen die Data Mining-Methoden Clustering, Entscheidungsbäume 

und Boosting zum Einsatz (BERRY & LINOFF 2011, BREIMAN et al. 1983, 

HASTIE et al. 2011). Für jedes zu erkennende Objekt werden aus einer Menge schon klassifizierter 

Beispielbilder Objektmodelle generiert. Mit diesen Modellen können die Objekte 

später in unklassifizierten Bildern detektiert werden. 


ISSN 0947-7314 


184 


4.1 Clustering 

Um die Anzahl der Eigenschaftsvektoren zu reduzieren, werden Clustering-Algorithmen 

(k-Means und agglomerative Verfahren) angewandt (BERRY & LINOFF 2011, HAN & KAMBER 

2006). Die Segmenteigenschaftsvektoren aller Bilder für jede Objektkategorie werden in 

Clustern zusammengefasst. Jeder Cluster repräsentiert dabei eine Menge einander ähnlicher 

Vektoren. Mit dem entstandenen Cluster-Modell für jede Kategorie werden für alle 

Segmente eines Bildes die Cluster-Zugehörigkeiten ermittelt. 

4.2 Segment-Cluster Bäume 

Aus den Cluster-Zugehörigkeiten und aus den Lagebeziehungen der Segmente im Bild 

können Bildeigenschaftsvektoren erstellt werden, mit denen durch Maschinelles Lernen 

Klassifikationsmodelle trainiert werden können. In unserem Ansatz werden die Cluster- 

Zugehörigkeiten der Segmente eines Bildes berechnet und in einen Segment-Cluster- 

Baum, je nach Lage im Bild, eingefügt (Bild 5). Die Wurzel des Baumes ist das Bild selbst. 

Ein Kind-Knoten repräsentiert ein Segment, das unmittelbar in dem Segment enthalten ist, 

welches durch den Vater-Knoten repräsentiert wird. Knoten auf einer Ebene im Baum sind 

mit einer gepunkteten Linie als Nachbarn gekennzeichnet, falls die betreffenden Segmente 

im Bild benachbart sind. Die verschiedenen Farben in der Visualisierung der Segment- 

Cluster-Zuordnung symbolisieren die verschiedenen Ebenen in der Segment-Hierarchie 

(Bild 4). 

C4 

C2 

C7 

C3 

C4 

C4 

C4 

C6 

C5 

C5 

C7 

C5 

C5 

C7 

C1 

C8 

Bild 4: Segment-Cluster Zuordnungen 

Bild 5: Segment-Cluster Baum 

4.3 Entscheidungsbäume und Boosting 

Aus dem Segment-Cluster Baum eines Bildes werden nun fünf verschiedene Typen von 

Bildeigenschaftsvektoren ausgelesen. Typ 1 enthält jeweils einen Pfad von einem Blattknoten 

zur Wurzel. Typ 2 enthält jeweils alle direkten Kindknoten eines Knotens im Baum. 

Typ 3 enthält jeweils alle direkten Kindknoten eines Knotens, die als benachbart gekennzeichnet 

sind. Typ 4 enthält jeweils die Anzahl der jeweiligen Cluster-Zugehörigkeiten aller 

Unterbäume und Typ 5 die Anzahl der jeweiligen Cluster-Zugehörigkeiten aller gefunde- 


ISSN 0947-7314 




185 

nen Segmente im Bild. Mit diesen fünf verschiedenen Typen von Bildeigenschaftsvektoren 

werden zehn Entscheidungsbaum-Modelle mit Boosting gelernt (BREIMAN et al. 1983, HASTIE 

et al. 2011). Die erstellten Modelle werden dann in Kombination benutzt, um unbekannte 

Bilder zu klassifizieren. Wenn von den zu lernenden Objekten Beispielbilder aus verschiedenen 

Perspektiven zum Lernen zur Verfügung stehen, sind die Modelle bis zu einem gewissen 

Grad auch gegenüber einer perspektivischen Verzerrung invariant. Hier bietet es 

sich an, zusätzlich die Vektor-Repräsentation selbst stärker invariant gegenüber perspektivischen 

Verzerrungen zu machen. Dies wird Gegenstand zukünftiger Arbeit sein. 

5 Ergebnisse 

Die implementierten Algorithmen wurden u.a. zur Klassifikation von Bildern einer Bilddatenbank 

mit Schmetterlingsfotos (SCHMID et al. 2004) eingesetzt. Sieben Bildkategorien 

(Schmetterlingsarten) wurden gelernt. Die Erfolgsrate bei der Klassifikation der Bilder lag 

bei 99.5%, wenn das Bild in der ursprünglichen Trainigsmenge enthalten war, und bei 

27.14% sonst (Bild 6). Eine zufällige Zuordnung läge hier nur bei 1/7 = 14.28%. In einer 

weiteren Testreihe wurden Fotos mit der Kamera des Oktokopters mit fünf verschiedenen 

Kategorien aufgenommen. Die Erfolgsrate lag hier bei 100.00% bzw. 46.00%. Eine zufällige 

Zuordnung läge hier nur bei 1/5 = 20%. Die nächsten vergleichenden Tests werden mit 

der Bilddatenbank des Bildklassifikationswettbewerbs The Pascal Visual Object Classes 

(VOC) Challenge (EVERINGHAM et al. 2010) durchgeführt werden. Auf unserer aktuellen Oktokopter-Hardware 

benötigt die Klassifikation eines Bildes zirka 0.7Sekunden. 

Bild 6: Bildklassifikationsraten 

6 Schlussbemerkungen und Ausblick 

Die Resultate zeigen bereits jetzt gute Erkennungsraten. Ziel ist es, unseren Ansatz zur 

Echtzeit-Objekterkennung auf autonomen Multikoptern einzusetzen. Für diese Anwendung 

sollten die Algorithmen jedoch noch effizienter implementiert werden. Hierzu zählt 


ISSN 0947-7314 


186 


eine Parallelisierung der Implementierung für eine bessere Nutzung moderner Computertechnik, 

damit eine Geschwindigkeitserhöhung bei der Bilderkennung erreicht wird. Die 

Berücksichtigung weiterer räumlicher Beziehungen zwischen den Segmenten sowie eine 

verbesserte Segmentierung der Bilder sollte die Erkennungsrate noch weiter verbessern. 

Die Objekterkennung wird in die Gesamt-Sensorik des Oktokopters integriert und um Stereo-Kameras, 

die u.a. zur Entfernungsmessung benutzt werden können, und Infrarot- 

Kameras, die z.B. landwirtschaftliche Flächen oder archäologische Fundstätten genauer 

zu analysieren erlauben, ergänzt werden. 

Literaturverzeichnis 

BERRY M.J.A., LINOFF G. (2011): Data Mining Techniques: For Marketing, Sales, and Customer 

Relationship Management. John Wiley & Sons Inc., 3rd edition 

BRADSKI G.R., KAEHLER A. (2008): Learning OpenCV - computer vision with the OpenCV library: 

software that sees. O’Reilly 

BREIMAN L., FRIEDMAN J.H., OLSHEN R.A., STONE C.J. (1983): Classification and Regression Trees 

(The Wadsworth Statistics/Probability Series). Wadsworth Publishing 

EVERINGHAM M., VAN GOOL L., WILLIAMS C.K.I., WINN J., ZISSERMAN A. (2010): The pascal visual 

object classes (voc) challenge. International Journal of Computer Vision 88:303–338 

GONZALES R.C., WOODS R.E. (2008): Digital Image Processing, Third Edition. Pearson Education, 

Inc. 

HAN J., KAMBER M. (2006): Data Mining: Concepts and Techniques. Morgan Kaufman Publishers, 

2nd edition 

HASTIE T., TIBSHIRANI R., FRIEDMAN J. (2011): The Elements of Statistical Learning: Data Mining, 

Inference, and Prediction. Springer Series in Statistics. Springer, New York, 5 th edition 

SCHMID C., LAZEBNIK S., PONCE J. (2004): Semi-local affine parts for object recognition. In 

Proceedings of the British Machine Vision Conference, volume 2: 959–968 

SCHMIDSBERGER F., STOLZENBURG F. (2011): Semantic object recognition using clustering and 

decision trees. In Joaquim Filipe and Ana Fred, editors, Proceedings of 3rd International 

Conference on Agents and Artificial Intelligence, volume 1: 670–673 


ISSN 0947-7314

Semantische Objekterkennung mit Methoden des Maschinel- len ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?