Abb. - ACIN - Technische Universität Wien

Komponenten der Automation 

Teil 2 

Markus Vincze 

Automatisierungs- und Regelungstechnik Institut 

Technische Universität Wien 

vincze@acin.tuwien.ac.at

Inhaltsangabe 

Robotik und Sensorik in der Automation 

• Bildverarbeitung für die Robotik und 

Automation 

– Anwendungen 

– Maschinelles Sehen – Komponenten 

– Bildverarbeitung 

– Objekte verfolgen 

– Objekte erkennen 

• Kalman Filter 

2

Industrielle Projekte 

• FESTO – Checkbox 

(Bauteilprüfung und - 

erkennung) 

• AVL – Engine Videoscope 

(Temperaturmessung im 

Motorraum) 

• IAEA/FAO – Trennung von 

männlichen und weiblichen 

Tsetsefliegen 

• EADS – Vernähen von 

Kohlefaserstofftextilien 

3

Prototypen-Entwicklung 

• Holzer – Trainings-Optimierungs-System (TOS) 

4

Forschungsprojekte 

• CARAK – Vermessung der Hornhaut 

• FlexPaint – Lackieren beliebiger Teile 

• FibreScope – automatische Bohrlochprüfung 

5

Forschungsprojekte 

• RobVision – Navigation in Schiffsrumpf 

• ActIPret – Interpretation von Handlungen 

eines Menschen mit Gegenständen 

• MOVEMENT – zuverlässig Sehen 

in Innenräumen 

• „Kognitives Sehen“ – 

Verstecken verstehen 

• XPERO – Lernen 

durch Experimentieren 

Kind.mov 

6

EU Projekt robots@home 

• Meilensteine 

– 2007: Start 

– 2008: Lernen eines Raumes 

– 2009: Lernen einer Wohnung 

– 2010: Navigation in 4 Wohnungen 

• Objektklassifizierung 

anhand der Funktion 

• Stereo und 

Laufzeit-Kameras 

7

Computer Vision 

(Computer/maschinelles Sehen) 

• Computer Vision: Teilgebiet der KI, das sich mit dem 

Verarbeiten von Bildern der realen Welt befasst [1] 

• Ziel: Computer programmieren um eine Szene oder 

Merkmale in einem Bild zu „verstehen" 

• Methoden: Segmentieren, Verfolgen, 

Pose bestimmen, 3D Modelle, Erkennen 

von Objekten in Bildern (z.B., Gesichter) 

• Erzielt mit Hilfe von Mustererkennung, statistischen 

Lernmethoden, projektiver Geometrie, BV, KI, ... 

[1] Dana H. Ballard, Christopher M. Brown, (1982) Computer Vision 

(2nd edition), Prentice Hall. 

8

Mustererkennung (Pattern Recognition) 

• "the act of taking in raw data and taking an 

action based on the category of the data" [1] 

• Ziel: vorgegebene Muster erkennen 

• Methoden: Statistik, maschinelles Lernen, ... 

[1] Richard O. Duda, Peter E. Hart, David G. Stork (2001) Pattern 

classification (2nd edition), Wiley, New York. 

9

Bildverarbeitung (Image Processing) 

• Bild zu Bild Verarbeitung [1] 

• Teilgebiet des maschinellen Sehens 

Abb.: Nummerntafelerkennung, 7 Spektren des NASA LANDSAT 

[1] Rafael C. Gonzales, Richard E. Woods, (2002) Digital Image 

Processing (2nd edition), Prentice Hall. 

10

Machine Vision (Maschinensehen) 

• = Anwendung von Computer Vision für die 

Automatisierung von Prozessen 

• MV System ist ein Computer der Entscheidungen 

aufgrund der Analyse von digitalen Bildern trifft 

Medium Reflektion 

Licht Objekt 

Regelung, 

Steuerung 

Sensor, 

Bild 

Daten, 

Ergebnis 

Abb.: Komponenten eines Machine Vision Systems. 

Verarbeitung 

11

In Bildern gesuchte Information 

• Bestimmung von 

– Geometrie: Form, Größe 

– Position und Orientierung 

(Pose) 

– Materialeigenschaften: Farbe, 

Textur, Fehler 

• Objekte finden und erkennen 

– Gesichter, Personen, 

Aktivitäten, ... 

– Nummernschilder, Tische, 

Häferl, ... 

12

Von der Lichtquelle zum Bild 

• Viele verschiedene Einflüsse 

• Vollständige Modellieren nicht möglich 

• Lösungen unter bestimmten Bedingungen 

13

Elektromagnetisches Spektrum 

[Encarta] 

14

Radiometrie – Photometrie 

• Radiometrie ist die 

Wissenschaft von der 

Messung 

elektromagnetischer 

Strahlung (Licht) 

• Photometrie beinhaltet 

den Aspekt wie der 

Mensch Licht wahrnimmt 

– d.h., radiometrische 

Größen angepasst an das 

Spektrum des 

menschlichen Auges 

– Menschliches Auge 

genormt durch Versuche 

der CIE (Commission 

Internationale de 

l‘Eclairage) 

15

Standard-Beobachter 

Abb.: Empfindlichkeit des 

menschlichen Farbsehens 

[Padgham 1975] 

Abb.: Die CIE Standard- 

Beobachter-Kurve [B1.19] 

16

Radiometrische und 

photometrische Größen 

Einheiten: 

Lm Lumen 

W Watt = J/s 

Cd Candela 

Sr Steradiant = m 2 /m 2 

Lx Lux 

17

Strahlungsfluss – Lichtstrom 

• (radiant flux) 

• Strahlungsmenge 

(Photonen) pro 

Sekunde in Watt [W] 

Abb.: Spektrale Empfindlichkeit 

des menschlichen Auges nach 

CIE für Tageslicht, 1931, 1964 

• (luminous flux) 

• Strahlungsmenge 

wahrgenommen durch 

Standard-Beobachter in 

Lumen [lm] 

18

Tag- und Nachtsehen 

Abb.: Spektrale Intensitätsfunktion ν λ (Effizienz) des menschlichen 

Auges nach CIE für Nachtlicht (1951) und Summe Taglicht [B1.17] 

19

Strahlungsfluss – Lichtstrom 

• Strahlungsfluss Fe 

ist 

das Integral über das 

ganze Spektrum S 

F 

∞ 

= ∫ S 

0 

Fe 

( δ / δλ) 

dλ 

∫ 

e v 

• Lichtstrom v gewichtet 

die spektralen Anteile 

mit den Werten der 

Intensitätsfunktion 

750 

F = 683 S( 

δFe / δλ) 

νλ 

dλ 

Beispiel: Quelle mit Strahlungsfluss von 1W bei einer Wellenlänge 

von 555nm emittiert 683 Lumen 

Frage: Wieviele Lumens emittiert eine infrarote 0.7 mW LED? 

380 

F 

20

Strahlstärke – Lichtstärke 

• (radiant intensity) 

• Strahlungsfluss pro 

Raumwinkel [W/sr] 

2 2 

1ω[ 

sr ] = 1A 

/ 1r 

[ m / m 

Raumwinkel der 

Einheitskugel: 4π 

2 

] 

• (luminous intensity) 

• Gemessen in der SI- 

Basiseinheit Candela 

[cd] 

Abb.: Definition des Raumwinkels (steradians [sr]) [B1.8] 

21

Bestrahlungsstärke – Beleuchtungsstärke 

• (irradiance) 

• auf dem Sensor 

eintreffender 

Strahlungsfluss [W/m²] 

E • (illuminance) Ev 

e 

• Einheit: Lux [lux] 

Abb.: Definition der Beleuchtungsstärke [B1.21] 

22

Beispiele zur Beleuchtungsstärke 

Lux Beschreibung 

100,000 Sonnenlicht, mittags 

32,000 Bewölkt, mittags 

2,000 bewölkt, 1 Stunde nach Sonnenuntergang 

600 Supermarktbeleuchtung 

450 durchschnittliche Bürobeleuchtung 

175 Straßenlicht, nachts 

10 Kerze in 20 cm, Taschenlampe 

0.3 helles Mondlicht, klarer Himmel 

23

Strahldichte – Leuchtdichte 

• (radiance) 

• ausgestrahlte Intensität 

(z.B. vom Objekt) pro 

Einheitsfläche [W/m²/sr] 

L • (luminance) v L 

e 

• Strahldichte auf die das 

Auge bzw. ein Sensor 

reagiert [cd/m²] 

Abb.: Definition der Leuchtdichte [B1.24] 

24

• Punktlichtquelle 

Lichtquelle 

Abb.: Intensitätsverteilung einer Punktlichtquelle [B1.9] 

25

Verkürzungseffekt (fore-shortening) 

Abb.: Abnahme der Intensität [lux] 

mit Distanz und Winkel [B1.22]. 

Abb.: Verkürzungseffekt [H10.3]. 

26

Eigenschaften von Objekten 

• Lambert‘sche Oberfläche 

(Lambertian surface) 

– Gleich hell aus jeder Richtung 

– Alles eintreffende Licht wird reflektiert 

• Spiegelnde Oberfläche 

– Alles eintreffende Licht wird reflektiert 

• Albedo 

– Gibt an wie viel Licht eine Oberfläche 

reflektiert relativ zu idealer Oberfläche ohne 

Absorption [0..1] 

– Lambert‘sche Oberfläche: albedo = . 

27

Dichromatisches Reflektionsmodell 

• Mischt Lambert‘sches Modell und Spiegelmodell 

E e (λ) 

Abb.: Körper- und Oberflächenreflektion. 

28

Reflektionsmodelle 

Abb.: Reflektionsmodelle [Bajscy] 

29

Dichromatisches Reflektionsmodell 

• Allgemeine (Ab)strahldichte: 

• Dichromatisches Modell: S ( λ ) = 

Ss 

( λ) 

Gs 

( θe 

, ϕe 

) + Sb 

( λ) 

G 

• Lambert‘sche Geometriefunktion G b 

unabhängig von Blickwinkel 

Le = Ee( 

λ) ⋅ S( 

λ) 

Abb.: Typisches, reales Reflektionsmuster [B3.7] 

b 

30

Geometrie einer Szene 

Abb.: Winkel relativ zur Oberfläche 

des Objektes [H10.7]. 

Abb.: Definition von Polarwinkel θ 

und Azimut φ [H10.6]. 

31

Ee = Le 

Entstehung des Bildes 

2 

π ⎛ D ⎞ 4 

4 

⎜ 

⎝ 

f 

⎟ 

⎠ 

E e 

cos 

α 

Annahme: α ist klein � konstant 

f z 

Abb.: Relation zwischen Strahldichte einer Oberfläche (Radianz Le) und Bestrahlungsstärke auf der Bildebene (Irradianz Ee) [H10.4]. 

• Anwendung: „shape from shading“ � Oberflächenform 

α 

θ 

L e . ... Strahldichte 

32

Orthographische Projektion 

• Normal- oder Parallelprojektion: x = X, y = Y 

• Vereinfachung wenn Objekt weit weg 

33

Perspektivische Projektion 

• Lochmodell (pin-hole model) einer Kamera 

u = 

v = 

f 

z 

f 

z 

x 

y 

Abb.: Modell des Abbildungsprozesses. 

Abb.: Lochmodell. 

34

Pose der Kamera im Raum 

• Homogene Matrizen: 

p c = R ⋅p 

i + 

p 

c 

Ao = 

⎛ 

⎜ 

⎝ 

R 

0 

p⎞ 

⎟ 

1⎠ 

c 

Ao 

Abb.: Kamera- und Objektkoordinatensystem. 

• Posebestimmung: aus 3 Punkten oder 3 

Linien des Objektes bei bekannter Geometrie 

35

Linsen, Objektive (lens) 

1 1 1 

• Gauss‘sche Linsengleichungen: = + und 

f b g 

• Fokuslänge: 

f 

= 

gB 

G + B 

Abb.: Das Linsengesetz [DBS]. 

B 

= 

G 

b 

g 

36

Beleuchtung (illumination) 

Dunkelfeld Hellfeld diffus:Glocke od. Ringlicht 

Durchlicht transparentes Objekt Schattenwurf 

Abbn.: [DBS] 

37

Bildwinkel (field of view, FOV) 

⎛ B 

• Kleiner Fokus � großer Bildwinkel: θ 

= 2atan⎜ 

⎝ 2 

Tiefenschärfe 

(depth of view) 

• Erlangt man durch 

– Kleine Blende (aperture) 

– Kleinen Fokus 

– Große Distanz zum Objekt 

max 

Abb.: Geometrie Bildwinkel 

[DBS]. 

f 

⎞ 

⎟ 

⎠ 

38

• Unschärfekreis 

' d 

u = a − b 

b 

d ... Blendenöffnung 

• Dioptrien = 1/f 

(power of a lens) 

Unschärfe (image blur) 

Abb.: Unschärfekreis je nach 

Blendendurchmesser [DBS]. 

39

Bilder 

• Bildinformation: Intensität, Farbe, multispektrale 

Bilder, Tiefe/Distanz, ... 

Abb.: Eines der drei Stereobilder zur Berechung des Tiefenbildes 

[PointGrey] 

40

Auflösung, Bildpyramide 

Abb.: Bild bei verschiedenen Auflösungen (120x120, 60x60, 30x30) 

Abb.: Bildpyramide: Bilder wie oben nur mit gleicher Größe [G. Sandini] 

41

Auflösungsvariante (space-variant) Bilder 

Abb.: Bilder mit gleicher Pixelanzahl und jeweils verdoppeltem Bildwinkel 

Abb.: Variable Bildauflösung mit Überlagerung obiger Bilder [G. Sandini] 

42

[IBIDEM retina] 

Log-polare Bilder, Fovea 

Abb.: Log-polare Pixelanordnung [G. Sandini] 

• Vorteil: angepaßt an Charakteristik 

des menschlichen Auges 

• Effiziente Kodierung, z.B. 

Videokonferenz (64 kPixel) 

Abb.: 

Rücktransformation 

des log-polaren 

Bildes in eine 

rechtwinkelige 

Pixelanordnung 

[G. Sandini] 

43

Log-polare Bilder: Anwendungen 

Abb.: Zentrische 

Kreise im log-polaren 

Bild werden auf eine 

„vertikale“ Linie 

abgebildet. 

Abb.: Radiale Linien 

bei Fokusierung auf 

den Fluchtpunkt 

werden auf eine 

horizontale Linie 

abgebildet [Peters, 

Bishay, 1996]. 

44

Inhaltsangabe 


• Bildverarbeitung für die Robotik und Automation 




• Dynamische Betrachtungen 

• Robuste Bildverarbeitung 



45

3D (6DoF) Objekte verfolgen 

46

Objektverfolgung - Prinzip 

• Modell-basierter Ansatz 

• Robustheit durch Integration von Hinweisen (cues) 

Bild 

Merkmale 

3D Objektpose 

Object 

tracking 

3D Objektpose 

47

• Aufgabe ist bekannt 

Systemsicht 

• Objekte sind bekannt ⇒ Modell 

• Umgebung teilweise bekannt 

48

Ziel der Objektverfolgung 

• Beliebige Bewegung in 3D 

– Navigation, Handhabung von Teilen 

• Robustheit: normale Umgebung 

• Systemintegration: dynamische Aspekte 

49

Inhaltsangabe 










50

Geschwindigkeit des Objektes 

Video: Langsame Bewegung der Zielobjektes. 

51

Geschwindigkeit des Objektes 

Video: Schnelle Bewegung der Zielobjektes. 

52

Maximale Geschwindigkeit 

Fenster 

Radius 

Radius 

• Maximale Geschwindigkeit im Bild: 

Latenzzeit 

Ziel 

Radius 

Bild 

[ pixel] 

[ s] 

53

Radius 

• Rechenzeit: ∝ #Pixel = 4Cr 2 

• C abhängig von Bildverarbeitungsmethode 

– Z.B.: PETS Workshops, IEEE ICRA, ECCV 

2r 

2r 

54

Latenzzeit 

• Summe aller Zeitverzögerungen der gesamten 

Regelschleife (T ) 

– Bildaufnahme, Totzeiten (z.B. Datentransfer) 

• + Zeit für Bildverarbeitung 

Steuersignal 

Regler 

Δx 

Δy 

BV 

System 

55

v 

= 

Maximale 

Verfolgungsgeschwindigkeit 

Radius 

Latenzzeit 

= 

T 

r 

+ 4Cr 

2 

[ pixel] 

[ s] 

⇒ Maximum bei T = 4Cr2 bzw. bei r = 

1/ 

2 T / C 

⇒ Rechenzeit = Summe Latenzzeiten 

56

Anordnung der Pixel mit Fovea 

[Sandini] 

Log-polar Fovea 

[IBIDEM retina] 

Bildpyramide 

57


Video: Schnelle Bewegung des Zielobjekts 

58

Maximale 


⇒ vollen Blickwinkel nützen 

59

Experimente 

60

Ergebnisse: Erzielen hoher 


• Kameras mit Fovea 

• Derzeit: CCD, CMOS Sensoren 

– Fenstergröße an Latenzzeit anpassen 

• Latenzzeit bzw. Auflösung reduzieren (1:1) 

• Schnellerer Computer, höhere Bildfrequenz 

(2: 2 

) 

• Ergebnisse unabhängig von Regler 

61

Stand der Technik 

62

Inhaltsangabe 










63

Stand der Technik (1/2) 

• Modellbasierte Objektverfolgung 

– Gradient: Dickmanns‘88, Harris‘88, Lowe‘92, Nagel‘00, 

Thompson‘01, Drummond‘02, Kragic‘03 

– Bewegungsmodell: Gennery‘92, Isard‘98 

[Thompson’01] [Drummond’02] [Kragic‘03] 

64

Stand der Technik (2/2) 

• Integration von Bildhinweisen (cue integration) 

– Kantenbestimmung: Hoff‘89, Poggio‘89 

– Regionenbasiert: Aloimonos‘89, Toyama‘99, Kragic’01, 

Schiele‘02 

Objekt zeigen: Farbbewertung + Texturbewertung = gefunden 

65

Bild 

Modell 

3D Objektpose 

3D Pose 

Projektion 

Bild 

Fenster 

Modellbasierte 

Objektverfolgung 

EPIC 


Objektseite Modell 

Geometrie 

einpassen 


3D Objektpose 

Bild 

Verdeckung 

3D Pose 

Pose 

einpassen 

neue 

3D 

Pose 

66

3D Pose 

Projektion 

Bild 

Fenster 

Verfolgungsfenster 

Warping [Hager98] 

... 

... 

67

Integration von Bild- und 

Modellhinweisen (1/2) 

(EPIC - Edge Projected Integration of Cues) 

1. Kantenbestimmung: alle Kanten 

2. Für jedes Kantenelement: 

Objektseite 

EPIC 

e 

= 

cues 

∑ 

i= 

1 

w 

links 

Modell: Objektseite 

H 

i, 

links 

+ 

w 

rechts 

H 

i, 

rechts 

Bild: Intensität, Farbe 

Adaption: m und s 

Y 

T1 

T2 

68

Integration von Bild- und 

Modellhinweisen (2/2) 

3. Auswahl der wahrscheinlichsten Kantenelemente 

Objektseite 

EPIC 

Anzahl Kantenelemente 

Adaptiver 

Schwellwert 

Wahrscheinlichkeit e 

69

Selbsteinschätzung (self-evaluation) 

• Szenenabhängige Einschätzung der Hinweise 

• Wahrgenommene Szenenkomplexität 

– Mehrdeutigkeit der Elemente 

– Hinweis-Stufe: # Kantenelemente / Kantenlänge 

– Merkmal-Stufe: # Kandidaten / Merkmal 

• Implementierung: Optionaler Aufruf der 

Methoden 

– Hinweis-Stufe: mehr, andere Bildhinweise 

– Merkmal-Stufe: TOPIC und/oder Pose Validatierung 

70

Selbsteinschätzung 

• Wahrgenommene Komplexität 

der Kantenelemente 

• Nach Berechnung der 

Bildhinweise 

• Maßzahl: 

# Kantenelemente / Kantenlänge 

Abb.: Nur Gradient: 4.3 EPIC: 1.16 

71

Modell 

Geometrie 

einpassen 

Einpassen der Geometrie 

• Fehler der Abstandquadrate (Least Mean 

Square): Ausreißer nicht erkannt/entfernt 

• Besser: RANSAC Random Sample Consensus 

oder Least Median Square 

E1 

E1 

E2 

E2 

E3 

E3 

E4 

E4 

E5 

E6 

E5 

E6 

72


• Wahrscheinlichkeit korrektes Merkmal: 

Modell 

Geometrie 

einpassen 

l 

Anteil korrekte Kantenelemente g 

l 

= 1− 

1 

( ) k n 

− g 

Linie: n=2 

73

E 2 

E 

E 

3 

2 

E 3 

E 4 

E 1 

12 

E E 10 

9 

11 E 

E 4 

5 E 


• Wahrscheinlichkeit korrektes Merkmal: ( ) k 

E 

1 

Modell 

E 

E 11 

12 

Geometrie 

einpassen 

E 5 

E 

10 

E 6 

E 

E 6 

E 9 

E 7 

E 7 

E 8 

E 8 

l 

Anteil korrekte Kantenelemente g 

l 

= 1− 

1− 

g 

n 

Linie: n=2 

Ellipse: n=5 

74

Bild 

Verdeckung 

Beispiel – Lampenschirm 

Nur Gradient Mit EPIC 

75

Beispiel – Ellipsensegment 

76

Bild 

Topologie 

Topologie und Pose 

• Topological Integration of Cues (TOPIC) 

– Abgleich der Topologie der Merkmale mit dem Model 

• Schnittpunkte (junctions), parallele Linien 

– Abschätzen von Kombinationen an 

Merkmalskandidaten 

• Pose Validierung 

– Einpassen der Bild- in Modellmerkmale 

– Erkennung von Ausreissern 

– Letztendliche Wahl der Merkmale 

3D Pose 

Pose 

einpasen 

Neue 

3D 

Pose 

Wahl der richtigen Kanten 

mittels Topologie 

77

Topologie – Selbsteinschätzung 

• Wahrgenommene 

Szenenkomplexität 

• Vor topologischer Validierung 

• Maßzahl: 

# Kandidaten / Merkmal 

Abb.: einfache Szene: 1.22 Schwierige Szene: 2.22 

percentage 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

1 2 

correct features 

wrong features 

no candidates 

Gefundene Merkmale: 

für Beispiel: +27% 

78

3D Pose 

Pose 

einpassen 

neue 

3D 

Pose 

Beispiel – Ordner 

Gradient EPIC, Topologie und Pose 

79

Beipsiel – Spielzeughubschrauber 

EPIC 

EPIC, topology and pose 

80

Leistungsbewertung 

(performance evaluation) 

• Kanten verfolgt: 77.6 % (von 96.2%) 

• Falsche Kante: 4.6% 

• Rest: 14.0% 

– Schlechter Kontrast, Reflexionen, Kamerasättigung 

81

Zusammenfassung 

• Erzielte Robustheit 

– gezieltes Nützen von Bild- und Modellwissen 

– Selbstevaluierung mit verbleibender Mehrdeutigkeit 

– Vermeiden von Schwellwerten 

• Weitere Verbesserung 

– Mehr Bildhinweise (Textur, optischer Fluß) 

– Verwenden von Relationen in der Szene 

82

ActIPret – IST „Cognitive Vision“ Project 

ActIPret - Activity Interpretation 

Markus Vincze, Wolfgang Ponweiser, 

Michael Zillich, Minu Ayromlou 

Vaclav Hlaváč, Jiří Matas, Stepan 

Obdrzalek, Jan Paleček, 

Hilary Buxton, Jon Howell, 

Kingsley Sage 

Stelios Orphanoudakis, Antonis Argyros, 

Cedric Groyer, Manolis Lourakis 

Christof Eberst , Gerald Umgeher 

http://actipret.acin.tuwien.ac.at 

83

Sehen für natürliche Interaktion 

ActIPret: Interpretation 

von Tätigkeiten eines 

Menschen mit Objekten 

Systemfunktionen 

• Robustes Finden, Verfolgen, 

Erkennen 

• Räumlich-zeitliche 

Objektrelationen (in 3D) 

ActIPret 

• Semantische Interpretation 

84

ActIPret 

Persönlicher Assistent - Anwendungen 

• Anwenderführung um eine Maschine 

zu bedienen (z.B. Kopierer, Video) 

• Anwenderführung in der Montage 

(z.B., Möbel, Wartung von Maschinen) 

• Ausnützen von Augmented Reality 

Brillen zur Informationsanzeige 

• On-line Interpretation um Hinweise 

zu geben oder Korrekturen 

vorzuschlagen 

85

Stereo 

Beobachtung 

Anzeigemöglichkeiten 

Off-line VR Lehrvideo 

ActIPret 

'Hand 0 pressed button ejectButton-2' 

'Hand 0 picked up object cd-linux-0' 

On-line Anzeige der 3D 

Ergennisse (Trajectorien, 

Erkennung, Interpretation, ...) 

86

Komponenten 

• Robuste Hand- und Objektverfolgung 

• Objekte 

finden und 

erkennen 

• Gestenerkennung 

• Räumlich-zeitliche 

Objektanalyse 

(in 3D) 

• Semantische 

Interpretation: 

'Hand 0 picked up 

object cd-linux-0' 

ActIPret 

87

Framework: Architektur für ActIPret 

88

Inhaltsangabe 







• Aussehen-basiert 

• Gestalt-basiert 


90

Aufgaben - Ansätze 

• Aufgaben: Erkennen, Verfolgen, ... 

• Ansätze 

– Modell-basiert 

• CAD Modell des Objektes, Umgebung 

• geometrische Merkmale 

– Aussehen-basiert (appearance based) 

• Interest points oder „ganzes“ Objekt 

– Gestalt Prinzipien 

• Struktur in Daten betrachten, Merkmale 

• perceptual grouping 

91

Objekte und Interestpunkte 

(interest points, IPs) 

1. Extraktion von 

Interestpunkten 

(charakteristische Bildpunkt) 

2. Berechnung einer lokalen 

Beschreibung 

3. Bestimmung der 

Korrespondenz 

4. Erkennen ähnlicher 

Bildpunkte/regionen (Objekte) 

92

Extraktion von IPs 

• Eckpunkt (corner) Detektoren 

– Harris, Hessian 

• Multi-scale Eckpunkt Detektoren mit Größenauswahl (scale 

selection) 

– Scale invariant Harris and Hessian corners 

– Difference of Gaussian (DoG) (Lowe) 

• Affine covariant Regionen 

– Harris-Affine (Mikolajczyk, Schmid ‘02, Schaffalitzky, Zisserman ’02) 

– Hessian-Affine (Mikolajczyk and Schmid ’02) 

– Maximally stable extremal regions (MSER) (Matas et al. ’02) 

– Intensity based regions (IBR) (Tuytelaars and Van Gool ’00) 

– Edge based regions (EBR) (Tuytelaars and Van Gool ’00) 

– Entropy-based regions (salient regions) (Kadir et al. ’04 

93

Größen -invariante Harris Punkte 

• Harris Eckpunkte: 

• Eckpunkt wenn Gradienten (Eigenwerte) hoch 

• Maximaler Gradient in Bildpyramide 

[Mikolajczyk 04] 

A 

⎡ Ix 

⎢ 

⎢⎣ 

IxI 

I 

I 

= 

2 

y 

x y 

2 

Iy 

⎤ 

⎥ 

⎥⎦ 

94

Größen -invariante Harris Punkte 

• Auswahl von Punkten bei ihrer 

charakteristischen Größe in „scale space“ 

Charakteristische Größe: 

• Maximum Gradient in 

scale space 

– Im Vergleich zu allen 8 

+ 2 mal 9 Nachbarn 

• � Größen-invariant 

95

Difference of Gaussian (DoG) 

• Gauss‘sche Glättung (z.B. 5x) für jede Bildgröße 

• Bildgröße halbieren und erneut Glätten 

• Bilden benachbarter Differenzbilder 

[Lowe 04] 

96

Affine Covariant Regions 

• Ebene Transformation von Bildregionen 

[Mikolajczyk 04] 

97

Harris-Affine and Hessian-Affine (1) 

[Mik05] 

98

Harris-Affine and Hessian-Affine (2) 

• Initialisierung mit multi-scale IPs 

• Iterative Modifikation der Position, Größe und 

Nachbarschaft 

[Mik04] 

99

Maximally Stable Extremal Regions 

[Mik05] 

(MSER) 

100

Maximally Stable Extremal Regions 

(MSER) 

• Schwellwert für Bildintensitäten: I > I 0 

• Bestimmen verbundener “Extremal Regions” 

• Finden des Schwellwerts wenn Region “Maximally 

Stable”, z.B. Minimum des relativen Wachstums des umschreibenden 

Quadrats 

• Näherung der 

Region mit einer 

Ellipse 

• Lokale affine 

Transformation 

[Matas 02] 

101

Berechnung einer lokalen 

• Gut unterscheidbar 

• Robust 

Beschreibung 

• Invariant bei geometri. & photometri. Transformationen 

• Beschreibungen 

– Sampled image patch 

– Gradient orientation histogram – SIFT (Lowe) 

– Shape context (Belongie et al. ’02) 

– PCA-SIFT (Ke and Sukthankar ’04) 

– Moment invariants (Van Gool ’96) 

– Gaussian derivative-based (Koenderink ’87, Freeman ’91) 

– Complex filters (Baumberg ’00, Schaffalitzky and Zisserman ’02) 

102

Gradient Orientation Histogram 

(SIFT – Scale Invariant Feature Transform) 

• Schwellwert Bildgradienten in 16x16 Fenster der 

Position in der Bildpyramide (scale space) 

• Füllen mehrer Histogramme der Gradienten 

• 8 Orientierungen x 4 x 4 Histogramme = 128 dim. 

[Lowe 04] 

103

Anwendung von IPs 

• Objekterkennung 

• Objekterkennung und Segmentierung 

• Lokalisierung eines Roboters 

• Objektverfolgung 

• ... 

104

Erkennung ebener Objekte 

• Ebene Flächen 

zuverlässig erkannt mit 

bis zu 60° Drehung weg 

von der Kamera 

• Affine Transformation 

schätzt die 

perspektivische 

Projektion 

• 3 Punkte genügen 

� Gut bei Verdeckung [Lowe] 

105

[Lowe] 

Erkennung mit Verdeckungen 

106

Erkennung und Segmentierung 

• Initialisierung 

der 

Objektfläche 

mit 

vielen/dichten 

Merkmalen 

• Iterative Suche 

nach 

Merkmalen mit 

affiner 

Verfeinerung 

[Ferrari 04] 

107

Lokalisierung eines Roboters 

[Se 05] 

108

Objektverfolgung mit IPs 

109

Objektverfolgung mit IPs und 

Schlussfolgern der Verdeckungen 

• Gruppieren von KLT IPs basierend auf Bewegung 

• Erkennen der Verdeckung anhand des 

Verschwindens bzw. Erscheinens der IPs 

110



• Ansätze 

– Modellbasiert 

• CAD Model des Objektes, Umgebung 


– Aussehen (appearance based) 



• Struktur in Daten betrachten Merkmale 


111

Objekterkennung nach Aussehen 

(appearance-based object recognition) 

• Training mit segmentierten Bildern 

• Representierung in vieldimensionalem 

oder reduziertem 

Raum (Principal Component 

Analysis PCA) 

• Unterscheidung durch lineare oder 

non-lineare (kernel) Methoden 

(SVM) 

• Probleme: Beleuchtung, Größe, 

Verdeckung [Bischof, Summerschool 2005] 

112

PCA für Objekterkennung und 

[Bischof 02] 

Bestimmung der Pose 

113

Objekterkennung mit SVM 

(Support Vector Machine) 

• Rund 200 Trainingsbilder / Objekt (RGB, 

verschiedene Ansichten und Beleuchtung) 

• Trainingsbilder auch für den Hintergrund 

• Hyperspace mit 3072 Dimensionen 

• Iterative Berechnung der 

Trennfläche zwischen 

jeweils zwei Objektklassen 

Origin 

[Zillich 01] 

H 1 

w 

H 2 

Margin 

114

Database of histograms of 

object models 

... 

... 

Histogramm zur 

Beschreibung von Objekten 

... ... 

... 

[Swain 90] 

histogram 

intersection 

Image with an 

unknown object 

115

Objektverfolgung mittels 

Farbhistogramm 

• Einfacher Ansatz, zeigen des Objektes möglich 

• Schnell (~30 Hz) für Hand und Objekt 

116


• Modellbasierter Ansatz 

– Modelle nicht immer vorhanden 

– Schwierig Modelle zu erhalten, insbesondere die 

automatische Extraktion einer kompakten 

Beschreibung (z.B. Wireframe) 

• Aussehensbasierter Ansatz 

– Einlernen der Objekte durch zeigen möglich 

– Empfindlich gegenüber Beleuchtung, Blickwinkel, 

Pose 

– IPs sind derzeit sehr in Mode 

117

Inhaltsangabe 










118



• Ansätze 

– Modellbasiert 

• CAD Modell des Objektes, Umgebung 


– Aussehen (appearance based) 



• Struktur in Daten betrachten, Merkmale 


119

Gruppieren (Perceptual Grouping) 

• Idee: ausnützen von Struktur in Bilddaten 

• Lernen was Objekte ausmacht (in Bezug auf die 

Anwendung), statt ein Bestimmtes erkennen 

• Verwendet 


– Bekanntes Wissen 

– Hierarchische Abstraktion 

• Helmholtz Prinzip: nicht-zufällige Gruppierungen von 

Merkmalen werden als Gestalt wahrgenommen 

• Je unwahrscheinlicher Gruppierung � höher Signifikanz 

120

Perceptual Grouping – 

Stand der Technik 

• Recognition by components: Theorie des 

menschlichen Bildverstehens [Biederman 1987, 

Dickinson, Bergevin, Biederman 1997] 

– Funktion hängt ab 

von Relationen 

der Teile 

– 36 Geons 

• 3D Object Recognition from single 2D images 

[Lowe 1987] 

121

Modell-basierte Objekterkennung 

Modell 

Bild Kanten 

Gruppierungen Rückprojektion 

[Lowe 87] 

122

Grundlagen des Perceptual Grouping 

• Wahrgenomme 

Organisation formt 

Gruppierungen von 

Strukturen im Bild 

–Nähe 

– Parallelität 

– Kollinearität 

• 13 Prinzipien [Palmer] 

[Lowe 87] 

123

Hierarchisches Gruppieren 

• Zusammenarbeit M. Zillich, J. Matas, CMP 

1. Kantenelemente (edgels) verbinden 

2. Lokale Form: Bogen- oder Liniensegmente 

3. Geometrisches Gruppieren: Konvexität 

4. Einpassen von Ellipsen, Rechtecken, 

Zylinder 

124

Canny Edges 

125

Canny Edges 

126





4. Einpassen von Ellipsen, Rechtecken, Zylinder 

127

Teilen der Kantensegmente 

Wie in einzelne Bögen 

teilen? 

• SPLIT 

• GROW 

• RANSAC 

1. Wachsen von zufälligen 

Startpunkten (GROW + 

RANSAC) 

2. Auswahl der längsten 

Bogen 

128

SPLIT (Rosin, West 1995) 

• Problem: Wann 

Unterteilung stoppen? 

129






Zylinder 

130

Konvexe Bogen Gruppieren 

konvex nicht konvex 

Problem: Jeden Bogen mit jedem testen: O(n 2) 

131

Abstimmen im Bild 

Stimme = Schnittpunkt der Bogen-Tanenten/Normalen 

132

Bogen mit den meisten Stimmen 

Hängt stark von der Länge der Tangenten/Normalen ab 

Länge = Radius 

Rechenzeit: O(n) 

Unendliche Länge 

Rechenzeit: O(n 2) 

133






Zylinder 

134

Alle Ellipsen 

135

„Gute“ Ellipsen 

136

137

Rechtecke 

line(A,B) :- left(A,X), right(B,X). 

rect(A,B,C,D) :- line(A,B), line(B,C), line(C,D), line(D,A) 

rect(A,B,C,D) :- u(A,B,C), u(C,D,A) 

138

Originalbild 

Buchszene 

3847 Kantenelemente 

Beste 2 Rechtecke Alle Rechtecke 

139

Regalszene 

140

Küchenszene 

Originalbild Kantenelemente Bester Zylinder 

141

Zusammenfassung Gruppieren 

• Gleiche Methode für verschiedene Formen 

• Ausnützen der lokalen Struktur im Bild 

• Keine Parameter: Reihung mittels Gütemassen 

• Perceptual grouping hilft wenig wahrscheinliche 

Hypothesen zu vernachlässigen 

• Abstimmen im Bild: O(n 2 ) � O(n) 

142

Detection and Tracking 

143

Inhaltsangabe 










• Zusammenfassung und Ausblick 

144

Objekte verfolgen 

• Erkennung in jedem Bild ist sehr aufwendig 

• Aus der Bewegung vorhersagen wo sich das 

Objekt befinden wird 

� Fenster (optimale Größe) 

� Vorhersage zur Plazierung des Fensters 

• Vorhersage anhand von 

– Bewegungsmodellen (z.B. konstante Geschwindigkeit) 

– Statistischer Wahrscheinlichkeit des Ortes 

145

Typische Vorgehensweise 

• Verfolgen bestimmter Objekteigenschaften 

• Echtzeit � erlaubt sofortige Reaktion 

• Ermöglicht Anwendungen wie 

– Mensch-Maschinen Schnittstellen 

– Gefahren erkennen 

146

Kalman Filter (KF) 

• Rudolf Emil Kalman, Ungarn, 1960 

• Rechenschema, erzielt minimale Fehlerquadrate 

• Vielseitig einsetzbar 

– Schätzung 

– Filterung 

– Vorhersage 

– Bestimmung nicht gemessener Größen (Zustände) 

– Fusion verschiedenster Daten 

• Meistverwendet zur Posebestimmung 

– Flugkörper, Roboternavigation, Wirtschaft 

147

Warum Kalman Filter? 

• Effiziente rekursive Berechnung 

• Minimiert Fehlerquadrate 

• Optimal unter vielen Bedingungen 

• Messung der Schätzqualität (Varianz) 

• Robust 

[Welch, Bishop] 

– Stabil bei vielen Bedingungen 

– Vergibt falsche Verwendung (Welch: „tolerant 

against abuse“) 

– Aber: für eine „glatte“ Bewegung oder Messgröße 

148

Annahmen 

• Kamera bewegt sich langsam 

• Objekte unterliegen physikalischen Gesetzen 

• Relation zwischen Objekt und Kamera ändert 

sich schrittweise 

• Bewegung kann modelliert werden 

149

Kalman Filter: Idee 

• Lineares System: f(a+b) = f(a) + f(b) 

• Input: verrauschte Daten 

• Output: (hoffentlich) weniger verrauschte Daten 

• Preis für Filterung: Zeitverzögerung 

• Beispiel: kombinieren 2er Messungen 

150

1. Messung 

• Mittelwert und Varianz 

2 

z , σ z 

1 1 

• Schätzung (^) 

ˆ z 

ˆ σ = σ z 

x 1 = 1 

2 2 

1 1 

Abb.: Wahrscheinlichkeitsverteilung 

(conditional 

probability distribution) 


151

Schätzung nach 2. Messung? 

• 2. Messung 

z , σ z 

2 

2 2 

• Schätzung: 

xˆ 

2 = ... ? 

ˆ 2 

σ 2 = 

... ? 



2 

2 

152

• Mittelwert 

• Varianz 

Kombinierte Schätzung 

xˆ 

2 

= 

= 

σ 

xˆ 

1 

2 

z 

σ 

1 

+ 

2 

z 

2 

+ σ 

K 

2 2 2 

1/ σ = 1/ 

σ z + 1/ 

σ z 

• Schätzung 

2 1 

2 

ˆ xˆ 

ˆ σ = σ 

x = 2 

2 2 

2 

2 

2 

z 

2 

( z − xˆ 

) 

2 

z 

1 

+ 

σ 

1 

2 

z 

σ 

1 

2 

z 

1 

+ σ 

2 

z 

2 

z 

2 

( 2 2 

σ ) 

2 

mit K = σ z z + σ z 

2 1 1 2 / 


153

Diskussion 

• Annahme bisher: statischer Beobachter 

– Zustand: Skalar (Ort in 1D), “keine Änderung” 

• Aber: Beobachter könnte sich Bewegen 

• Dann erzeugt nicht nur Beobachtung Fehler 

sondern auch Bewegung � 

• KF mit Bewegungsmodell 

– Prozessmodell (modelliert angenommene Bewegung) 

– Messmodell (Relation Messung zu Zuständen) 

154

Diskreter Kalman Filter 

• Arbeitet mit ersten zwei statistischen Momenten: 

Mittelwert und Standardabweichung 


155

KF - Modelle 

• Diskretes Prozessmodell 

– Beschreibt die Änderung der Zustände über Zeit 

– Lineare Differenzgleichung 

• Diskretes Messmodell 

– Relation zwischen Zuständen und Messung 

– Lineare Funktion 

• Modellparameter 

– Rauschen des Prozesses 

– Rauschen der Messung 

156

Funktion der Modelle 

Prozessmodell 

Messmodell 


157

Berechnung: 

Vorhersage � Korrektur 

• Kalman Filter arbeit mit 

• Vorhersage der neuen Zustände und deren 

Unsicherheit aus den letzten Zuständen 

(Gauss‘sche Wahrscheinlichkeitverteilung) 

• Korrektur mit der neuen Messung 

• Beispiel: Bewegung in 2D 

158

2D Position: Prozessmodell 

⎡x 

⎢ 

⎣y 

k 

k 

⎤ 

⎥ 

⎦ 

⎡1 

= ⎢ 

⎣0 

0⎤⎡ 

x 

1 

⎥⎢ 

⎦⎣ 

y 

k −1 

k −1 

⎤ ⎡~ 

x 

⎥ + ⎢ 

⎦ ⎣~ 

y 

x k = A x k-1 + w k-1 

x k ... Zustandsvektor zum Zeitpunkt k (state vector) 

A ... Zustandsmatrix zum Zeitpunkt k 

(state transition matrix) 

w k ... Prozessrauschen zum Zeitpunkt k modelliert 

durch N(0, Q) (process noise) 

k 

k 

⎤ 

⎥ 

⎦ 

159

2D Position: Messmodell 

⎡u 

⎢ 

⎣v 

k 

k 

⎤ 

⎥ 

⎦ 

= 

⎡H 

⎢ 

⎣ 0 

x 

0 

H 

y 

⎤⎡ 

x 

⎥⎢ 

⎦⎣ 

y 

k 

k 

⎤ 

⎥ 

⎦ 

⎡~ 

u 

+ ⎢ 

⎣~ 

v 

z k = H x k + v k 

z k ... Messvektor zum Zeitpunkt k (measurement) 

H ... Messmatrix zum Zeitpunkt k 

v k ... Messrauschen zum Zeitpunkt k modelliert 

durch N(0, R) 

k 

k 

⎤ 

⎥ 

⎦ 

160

Kovarianzmatrizen 

• Kovarianz des 

Prozessrauschens 


Messrauschens 


Fehler (Kalman 

Schätzung) 

P 

= 

E 

Q 

R 

= 

= 

E 

⎡Q 

{ t} 

xx 

w* 

w = ⎢ 

0 Q 

⎥ 

yy ⎦ 

E 

⎣ 

⎡R 

0 

{ t} 

xx 

v* 

v = ⎢ 

0 R 

⎥ 

yy ⎦ 

⎣ 

{ ( )( ) } t xx 

xk 

− xˆ 

k xk 

− xˆ 

k = ⎢ 

0 P 

⎥ 

yy ⎦ 

⎣ 

0 

⎡P 

⎤ 

⎤ 

0 

⎤ 

161

Vorhersage und Korrektur 

• Zeitlicher Schritt: 

Vorhersage der 

Systemzustände 

xˆ 

k − 

– � 

1 

• Schritt durch 

Messung: 

Korrektur der 

Systemzustände 

xˆ 

− 

k 

– � 

xˆ 

− 

k 

xˆ 

k 


162

Vorhersage 

• A priori (vor der Korrektur) Zustände und 

Fehlerkovarianz 

– Initialisierung: 

− = k 

xˆ 

Axˆ 

k − 

− 

P AP 

k k 

xˆ 

0 

P 

0 

1 

= −1 

= 

= 

Hz 

⎡ε 

⎢ 

⎣0 

0 

0⎤ 

ε 

⎥ 

⎦ 

A 

+ 

Q 

163

Korrektur 

• Kalmanverstärkung (gain) 

K 

k 

( ) 1 − 

− t 

HP H + 

− t 

= Pk 

H k R 

• A Posteriori Zustände und Fehlerkovarianz 

xˆ 

k 

P 

k 

= 

= 

xˆ 

− 

k 

( I 

+ 

− 

K 

K 

k 

k 

( − 

z − Hxˆ 

) 

k 

H ) P 

− 

k 

k 

„Zähler“ 

Messraum 

Vorhersage 

Aktuelle 

Messung 

164

Verfolgung in 2D: Positionsmodell 

signifikante 

Verzögerung 

während der 

Bewegung 


... relativ glatt 

bei Stillstand 

165

Prozessmodell 

• Neue Zustände: (Position p, Geschwindigkeit vel) 

• Konstantes Geschwindigkeitsmodell 

– p n+1 = p n + vel n t 

– vel n+1 = vel n 

Messmodell 

• Beschreibt „was man sieht von wo man ist“ 

• Nicht „wo man ist aus was man sieht“ 

166

167 

Geschwindigkeitsmodell 

• Prozessmodell: Zustände Zustandsmatrix 

• Messmodell: Messmatrix 

⎥ 

⎥ 

⎥ 

⎥ 

⎦ 

⎤ 

⎢ 

⎢ 

⎢ 

⎢ 

⎣ 

⎡ 

1 

0 

0 

0 

0 

1 

0 

0 

0 

1 

0 

0 

0 

1 

dt 

dt 

⎥ 

⎥ 

⎥ 

⎥ 

⎦ 

⎤ 

⎢ 

⎢ 

⎢ 

⎢ 

⎣ 

⎡ 

dt 

dy 

dt 

dx 

y 

x 

/ 

/ 

⎥ 

⎦ 

⎤ 

⎢ 

⎣ 

⎡ 

0 

0 

0 

0 

0 

0 

y 

x 

H 

H

verbesserte 

Verzögerung 

während der 

Bewegung 

Geschwindigkeitsmodell 


... relativ 

verrauscht bei 

Stillstand 

168

Zusammenfassung KF 

• Glättet verrauschte Beobachtung 

• Kann Bewegung Vorraussagen 

– Keine Bewegung � Positionsmodell gut 

– Bewegung � Geschwindigkeitsmodell gut 

• Bildverarbeitung ergibt Zeitverzögerung 

� KF kompensiert diese Verzögerung 

• Erweiterungen: 

– plötzliche Änderung der Bewegung 

– Fusion von Sensordaten 

– Strukturschätzung 

169

Verbesserung der Vorhersage 

• Bewegung entspricht nicht dem Modell 

• Lösung: adaptierender KF 

[Chroust] 

– Beobachtung des Vorhersagefehlers (Prediction 

Monitor) 

– Aufschalten des jeweils am besten geeigneten Modells 

Position 

letzte 

Messungen 

wirkliche 

Position 

Vorhersage 

wirkliche 

Bahn 

Time 

170

FWF-Projekt SmartTracking 

Integration Kameradaten und 

Trägheitssensordaten 

• Ziel: Navigation in 

„unbekannter“ Umgebung 

• Ausnützen der verschiedenen 

Messcharakteristiken 

• Trägheitssensoren für die 

Schätzung der 

Eigenbewegung 

• Kamera(s) für Schätzung 

Eigenbewegung und 

Struktur der Umgebung 

uncertainty 

Inertial 

Sensor 

velocity 

CMOS 

camera 

Abb.: Sensorkopf entwickelt 

am EMT, TU Graz 

171

Sensorkopf, Fusion 

• Trägheitsensoren: 100 Hz 

– Messen Beschleunigung, Winkelgeschwindigkeit 

• Kamera: CMOS 2000Hz 

– Messen Eckpunkte in Szene (2D) � 3D Pose (6 DOF) 

• Fusion: Schätzung der Eigenbewegung 

– EKF (Extended KF) da nicht-lineares System 

Abb.: Szene mit 

Referenzobjekten: 

rot (hell) – Modell, 

schwarz – neue Strukturpunkte 


172


Strukturschätzung 

• Poseschätzung jedes einzelnen Punktes (EKF) 

• Wenn hohe Sicherheit � Modell aufgenommen 

Abb.: Konfidenzellipsen aus der Messung der Eckpunkte eines Würfels, 

Grundriss. Links: nach der 1. Messung, Rechts: nach 14 Messungen 

173

Strukturschätzung – Beispiel 

• Verringerung der Unsicherheitsellipse durch 

Beobachtung eines Punktes (z.B. 162 im Bild) 

während einer Eigenbewegung 

Abb.: Bilder 35, 135, 190 

(Aufnahme mit 25 Hz) 

174

Strukturschätzung – Anwendung 

• Schätzung der Struktur der Umgebung während 

• Schätzung der Eigenbewegung des Roboters 

175

Inhaltsangabe 









• Zusammenfassung und Ausblick 

176


• Überblick Sensoren für mobile Roboter 

• Kinematik 

• Konzepte zur Kollissionsvermeidung 

• Komponenten eines Machine Vision Systems 

• Objekte verfolgen und finden 

• Fusion und Vorhersage mittels Kalman Filter 

177

Robotik Herausforderungen 

• Energietransport mobiler Systeme 

• Bewegung auf verschiedenen Böden, Schwellen 

• Rasche 3D Umgebungserfassung, Lokalisation 

• Interaktion Sehen/Agieren 

• Lernen und Anpassen 

• Einfache Schnittstelle 

zum Menschen 

178

Sensorik Herausforderungen 

• Robuste Erkennung und Verfolgung von Objekten 

• Verschiedene Lichtverhältnisse 

• Viele Objekte, > 100 

• Klassen von Objekten 

• Funktion von Objekten 

• Echtzeit 

• Kameras: bessere Dynamik, direkte 3D Bilder 

179

EU Projekt robots@home 

Vertiefung: Bildverarbeitung 

• Von Beispielen lernen (z.B. IKEA) 

• Kanten � Struktur � gemeinsame Merkmale � 

Kategorie von Objekten, z.B. Häferl 

• Erkennen der Raumorientierung und 

Plätzen wie „Tisch“ oder „Sofa“ 

180

• Objekt einlernen 

• Einmal Sehen 

• Ein Scan 

• Z.B., Tasse, Häferl 

• Zielobjeckt am Tisch erkennen � Griff planen � 

Greifen � Übergabe an „mich“ 

• Ziel: jedes 

Objekt lernen 

und greifen 

NFN „Kognitives Sehen“ & EU Projekt GRASP 

Vertiefung: Form und Greifen 

181

• Siehe extra Blatt 

Literatur 

182

Abb. - ACIN - Technische Universität Wien

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?