Künstliche Intelligenz fur ortsbasierte Dienste - Lehrstuhl für Mobile ...

Künstliche Intelligenz für ortsbasierte Dienste 

Raphael Teßmer 

Seminar: Trends in mobilen und verteilten Systemen 

Sommersemester 2011 

Lehrstuhl für Mobile und Verteilte Systeme 

Institut für Informatik 

Ludwig-Maximilians-Universität München 

Abstract: In dieser Arbeit soll sich damit befasst werden welchen Nutzen Künstliche 

Intelligenz für ortsbasierte Dienste hat. Hierbei soll zuerst eine Einführung in das Thema 

Künstliche Intelligenz gegeben werden. Es wird das Konzept von intelligenten 

Agenten beschrieben. Die Lernmethoden unsupervised Learning, supervised Learning 

und semi-supervised Learning werden kurz beschrieben. Des Weiteren wird sich mit 

Methoden und Arbeitstechniken beschäftigt die im Bereich der ortsbasierten Dienste 

relevant sind. Hierbei wird auf k-Nearest Neighbor Search, Hidden Markov Modelle 

und Joint Boosting eingegangen. Zum Schluss sollen konkrete Forschungsarbeiten 

beschrieben werden, die sich im Bereich der ortsbasierten Dienste bewegen und sich 

Lernmechanismen der Künstlichen Intelligenz zu Nutze machen. Dabei werden zwei 

Arbeiten behandelt die unterschiedliche Ansätze verfolgen um menschliche Routinen 

zu erkennen. Zum Schluss wird noch auf das Simultaneous Localization and Mapping 

Problem eingegangen, bei dem sich ein Roboter auf einer Karte lokalisieren soll, die 

er selbst in einer ihm unbekannten Umgebung erstellt. 

1 Einführung 

1.1 Was ist Wissen? 

Ein wichtiger Teil dieser Arbeit soll der Künstlichen Intelligenz selbst gewidmet werden. 

Dabei stellt sich als erstes die Frage, was Wissen überhaupt bedeutet. 

Neben der Philosophie haben sich viele andere Wissenschaften wie die Mathematik, die 

Psychologie, die Neurologie oder gar die Wirtschaftswissenschaften damit beschäftigt 

Wissen zu definieren. 

Eine allgemeingültige Definition von Wissen ist daraus nicht hervorgegangen und mag 

vielleicht unmöglich zu fassen sein. Wichtige Fragen der Philosophie sind beispielsweise: 

• Können mit formalen Regeln richtige Schlüsse gezogen werden? 

• Wie kann der Verstand aus dem Gehirn entspringen? 

• Woher kommt Wissen?

• Wie führt Wissen zur Tat? 

In der Künstlichen Intelligenz gibt es verschiedene Ansätze mit diesem Begriff umzugehen. 

Es wird dabei nicht versucht Wissen nachzuempfinden, sondern vielmehr intelligentes 

Verhalten zu modellieren. 

Russell und Norvig (2010) beschreiben vier Ansätze von Künstlicher Intelligenz [RN10]: 

• Menschlich handeln. 

• Menschlich denken. 

• Rational denken. 

• Rational handeln. 

Der Ansatz des rationalen Handelns bildet dabei Künstliche Intelligenz auf Modelle ab. 

Diese sollen Maschinen darstellen, die intelligent handeln. Die Modelle werden dabei als 

Agenten bezeichnet. Hierbei geht es nicht darum nur zu denken, also zu philosophieren. 

Vielmehr geht es darum autonom zu agieren, die Umgebung wahrzunehmen, sich neuen 

Situationen anzupassen und sich auch in ungewissen Situationen bestmöglich zu verhalten 

[RN10]. 

Diese Form der Künstlichen Intelligenz soll in dieser Arbeit behandelt werden. 

2 Künstliche Intelligenz 

2.1 Intelligente Agenten 

Agent 

Sensoren 

? 

Aktuatoren 

Wahrnehmung 

Aktionen 

Abbildung 1: Aufbau eines simplen Agenten. Zwischen Sensoren und Aktuatoren befindet sich das 

Agentenprogramm, welches die Agentenfunktion ausführt. Quelle: [RN10] 

Um Künstliche Intelligenz zu beschreiben, kommt das Modell der intelligenten Agenten 

zum tragen. Diese Agenten erkennen ihre Umgebung durch Sensoren und interagieren mit 

Umgebung

Wahrnehmungsfolge Aktion 

(A, Sauber) Gehe zu B 

(A, Dreckig) Sauge 

(B, Sauber) Gehe zu A 

(B, Dreckig) Sauge 

(A, Sauber), (B, Sauber) Tue nichts 

(A, Sauber), (A, Dreckig) Sauge 

... 

Abbildung 2: Eine mögliche Agentenfunktion für die Staubsaugerwelt. 

ihr über Aktuatoren. Alles was der Agent über seine Sensoren aufnimmt, wird als Wahrnehmung 

bezeichnet. Die Wahrnehmung des Agenten wird mit der Agentenfunktion in 

Relation zu seiner Aktion gesetzt. Die Funktion beschreibt also was der Agent mit gegebenem 

Input machen soll. Ferner ist die Wahrnehmungsfolge eine Folge von Signalen die 

ein Agent über die Zeit wahrnimmt. Beispielsweise die Position und Blickrichtung des 

Agenten oder die Folge von Positionen des Agenten nachdem er sich fortbewegt hat. 

Ein Beispiel ist die Staubsaugerwelt. Die Staubsaugerwelt ist eine idealisierte Umgebung 

mit einem intelligenten Agenten, dem Staubsauger. Diese Umgebung hat zwei benachbarte 

Bereiche: A und B. Der Staubsaug-Agent nimmt lediglich zwei Dinge wahr: in welchem 

Bereich er ist und ob dieser Bereich dreckig ist. Die einzigen Aktionen, die er ausführen 

kann sind: nach links in den Bereich A gehen, nach rechts in B gehen, den Dreck weg 

saugen oder nichts tun. 

Mit diesen Vorraussetzungen ist der Agent soweit komplett. Um aber die Aufgabe zu 

erfüllen die Staubsaugerwelt sauber zu halten, bedarf es einer Agentenfunktion [RN10]. 

Zwar ist das Saugen die Aufgabe des Agenten, die Agentenfunktion aber, ist der Teil der 

die Künstliche Intelligenz im Agenten ausmacht. Die Funktion entscheidet für die Wahrnehmungsfolge, 

welche Aktion der Agent ausführen soll. Abbildung 2 zeigt eine angedeutete 

Beispielfunktion für die Staubsaugerwelt. 

Um die Qualität von intelligenten Agenten zu ermitteln, bewertet man ihre Rationalität. 

Ein Agent ist rational, wenn er das ” Richtige“ tut. Um zu wissen was das Richtige ist, 

betrachtet man die Umgebung des Agenten. Der Agent verrichtet eine Folge von Aktionen 

in Abhängigkeit von seiner Wahrnehmung und Agentenfunktion. Ist der Zustand der Umgebung 

erwünscht, hat der Agent gut gearbeitet. Um die ” Erwünschtheit“ zu beschreiben, 

wird jede Folge von Umgebungszuständen einer Leistungsbewertung unterzogen. 

Die Leistungsbewertung kann nicht allgemein für eine Aufgabe, sondern muss vielmehr je 

nach Umgebung individuell erfolgen. Der Staubsauger kann zum Beispiel danach bewertet 

werden wie oft er eine Fläche an einem Tag geputzt hat. Doch vielleicht ist es für einen 

Familienhaushalt sinnvoller, wenn der Staubsauger nur einmal am Tag saugt, um Nerven 

zu schonen und Strom zu sparen. Auch kann der Grad ab dem der Staubsauger eine Fläche 

als dreckig ansieht variieren. Soll der Staubsauger lieber kürzer und dafür ungenauer arbeiten, 

oder länger und gründlicher? 

Die Leistungsbewertung muss also nicht nur für die Umgebung, sondern auch für den 

Zweck individuell gestaltet werden [RN10].

2.2 Rationale Agenten 

Russell und Norvig (2010) definieren einen rationalen Agenten wie folgt [RN10]: 

For each possible percept sequence, a rational agent should select an action 

that is expected to maximize its performance measure, given the evidence 

provided by the percept sequence and whatever built-in knowledge the agent 

has. 

Auch wenn ein rationaler Agent nie wissen kann was passieren wird, sollte er jedoch aufgrund 

seiner Wahrnehmung genau das tun, was wahrscheinlich zu einem richtigen Ergebnis 

führt. Angenommen ein Agent soll eine Straße überqueren. Man würde hierbei von 

einem Rationalen Agenten verlangen, dass er sich vorher umschaut. Das heißt, es ist zwar 

rational die Straße zu überqueren wenn kein Auto in Sicht ist, aber wenn sich der Agent 

gar nicht erst umschaut, ist es ihm überhaupt nicht möglich rational zu handeln. Man sollte 

also sichergehen, dass der Agent nicht nur richtig schlussfolgert - kommt ein Auto, 

überquere ich nicht - sondern, dass er auch die dafür entscheidenden Dinge wahrnimmt. 

Um mit seiner Umgebung interagieren zu können braucht ein Agent eine Vorstellung von 

seiner Welt. Es ist möglich dem Agenten strikt seine Welt vorzugeben, was jedoch Probleme 

mit sich bringen kann. Wenn sich seine Umgebung verändert, oder gar wenn er selbst 

seine Umgebung verändert, kann er die fest definierte Vorstellung seiner Welt dahingehend 

nicht anpassen. Dies führt dazu dass seine Leistung beeinträchtigt werden kann. 

Wenn ein solcher Roboter beispielsweise ein Ei auf einem Löffel balancieren soll, das Ei 

aber auf halben Wege verliert, wird er dies nicht merken und seinen Weg unbeirrt weiter 

gehen als sei nichts passiert. 

Der Agent kann aber auch ein gewisses Vorwissen von seiner Welt haben, das sich durch 

seine Wahrnehmung verändern und erweitern kann. Er lernt wie sich seine Umgebung 

verändert [RN10]. 

2.3 Lernen 

Lernen ist eine der wichtigsten Eigenschaften von intelligenten Agenten. Ein Agent lernt, 

indem er durch Beobachten seiner Umgebung seine Leistung steigert. 

Dies wird notwendig wenn sich ein Agent neuen Situationen und Umgebungen anpassen 

soll. Zum Beispiel wenn ein Roboter der eine Rennstrecke abfährt, später auch dazu in der 

Lage sein soll neue ihm unbekannte Strecken zu bestehen. Oder wenn ein Agent Zustände 

analysieren soll die sich über die Zeit verändern, wie Börsenkurse oder das Verhalten des 

Wetters. 

Es kann aber auch sein, dass es für einen Menschen unmöglich ist, dem Agenten die 

gewünschte Funktion selber vorzugeben. Beispielsweise können Menschen selbst zwar 

bekannte Gesichter erkennen, aber es gibt keine Möglichkeit dies einem Agenten beizubringen 

ohne Lern-Algorithmen zu verwenden [RN10]. 

Russell und Norvig (2010) teilen Lernmethoden nach den zugrunde liegenden Daten ein 

[RN10]. Hierbei ist es wichtig gelabelte Daten und nicht gelabelte Daten voneinander zu

unterscheiden. Ein Label ist als Anweisung eines Lehrers zu verstehen. Es soll für den 

gelabelten Datenpunkt die erwünschte Ausgabe des Algorithmus angeben. Einem Datenpunkt 

oder einem Datenset kann das erwünsche Ergebnis (Label) z.B. in einer Messung 

mitgegeben werden [ZG09]. 

Beim Unsupervised Learning bekommt der Agent eine nicht gelabelte Datenmenge, aus 

der er Muster erkennen soll. Er hat aber keine weiteren Informationen über die Datensätze. 

Ein Beispiel für diese Lernmethode ist Clustering. Beim Clustering sollen Daten aufgrund 

ähnlicher Eigenschaften gruppiert werden. Ein Beispiel ist der k-means-Algorithmus. Dieser 

funktioniert wie folgt: 

Abbildung 3: Prinzip Clustering mit Schwerpunkten für k = 3. 

Aus n Punkten sollen k Gruppen (Cluster) gebildet werden die ähnliche Objekte enthalten. 

Für sie sollen Schwerpunkte definiert werden. Die Schwerpunkte sollen so gewählt 

sein, dass sie in der Mitte des Clusters liegen (siehe Abbildung 3). Jeder Punkt der hinzu 

kommt, wird dem Cluster zugeordnet, dessen Schwerpunkt ihm am nächsten ist. Die 

Schwerpunkte werden aufgrund der neuen Punkte neu berechnet und am Ende werden die 

Punkte erneut den Clustern zugewiesen. Dies wird schleifenweise solange wiederholt bis 

sich die Schwerpunkte stabilisiert haben [Mac67]. 

Beim Supervised Learning braucht der Agent genug gelabelte Daten mit denen er übt, 

um richtige Schlüsse über alle folgenden Daten schließen zu können. Dabei soll der Agent 

mit Input-Output Paaren trainiert werden. Er soll dabei eine Funktion lernen die den Input 

auf den Output abbildet:

Für eine Trainingseinheit (x1, y1), (x2, y2), . . ., (xN, yN) 

wobei jedes yi von einer unbekannten Funktion y = f(x) erzeugt wurde, 

finde eine Funktion h die die echte Funktion f annähert. 

Die Funktion h ist eine Hypothese. 

Nach Russell und Norvig (2010): “Learning is a search through the space of possible 

hypotheses for one that will perform well, even on new examples beyond the training set” 

[RN10] 

Beim Semi-Supervised Learning gibt es sehr wenige gelabelte Datensätze von denen auf 

eine sehr große Menge von Daten geschlossen werden soll. Dies ist nützlich, da es sehr 

aufwendig und unter Umständen teuer sein kann an gelabelte Daten zu kommen. 

Zhu und Goldberg (2009) definieren neben dem Label die Instanz [ZG09]. Eine Instanz x 

bezeichnet ein Objekt, welches von einer Menge Eigenschaften beschrieben wird. Dabei 

sollen die Eigenschaften nur die Merkmale beinhalten, die für die Aufgabe sinnvoll sind, 

und nicht alle die beim Objekt beobachtet werden können. 

Zum Beispiel: 

Seien die Eigenschaften Gewicht und Körpergröße Eigenschaften der Menschen. Eine 

Mögliche Aufgabe wäre es nun, von diesen Daten darauf zu schließen ob es sich um Kinder 

oder Erwachsene handelt. Eine Instanz könnte also sein: 

x1 = (180cm, 70Kg) 

Sei diese Person erwachsen, würde ein gelabeltes Datenset nun so aussehen: 

Die Klasse des Alters beschreibe {erwachsen, kind}. 

Es gelte: erwachsen = −1 und kind = 1. 

z1 = (x1, −1) 

Ein weiteres Beispiel sind Spamfilter. Die Instanz hier ist die Email und das Label ist die 

Beurteilung des Nutzers. Um den Nutzer nicht zu sehr aufzuhalten, soll dieser nur wenige 

Daten labeln müssen und das System daraus lernen, was Spam ist und was nicht [ZG09]. 

3 Methoden 

3.1 Lokalisierungsproblem 

Beim Sammeln von ortsbezogegen Informationen ist die Nutzung von GPS weit verbreitet. 

Jedoch kann sich ein Agent ohne Satellitenverbindung, beispielsweise in Häusern oder 

Straßenschluchten, nicht mehr selbst lokalisieren und ist auf andere Methoden angewiesen. 

Die Arbeit von Kawauchi et al. (2009) befasst sich mit der Lokalisierung über die Signalstärke 

beziehungsweise den Signaleigenschaften [KKR09]. Hierbei wird versucht die 

Entfernung zum W-Lan Access Point festzustellen, dessen Position bekannt sein soll. 

Während der Received Signal Strength Indicator (RSSI) nur die Signalstärke beschreibt 

die mit dem Signal übermittelt wird, gibt es folgende Verfahren zur Indoor-Positionierung:

Bei Time-of-Arrival (TOA) wird die Ankunftszeit von Signalen in einem mobilen Gerät 

gemessen um die Entfernung zum Access Point zu bestimmen. Um dieses Verfahren zu 

verbessern basiert TOA auf dem Vergleich der Ankunftszeiten von mehr als drei Access 

Points. Diese Methode ist präziser als RSSI, jedoch müssen die Uhren der Access Points 

hier sehr präzise aufeinander abgestimmt sein. 

Die Angle-of-Arrival (AOA) Methode bezieht den Winkel, mit dem das Signal beim 

Gerät ankommt, in die Standortbestimmung mit ein. Ein Gerät muss hierzu einen Sensor 

haben, der bei Ankunft eines Signals dessen Richtung feststellen kann. Es ist möglich 

die Position eines Gerätes zu bestimmen, wenn man die Signal-Ausrichtung von zwei 

Access Points misst. Diese Methode ist zwar robuster als die Analyse der Signalstärke, 

braucht aber spezielle Sensorik und ist damit nicht ohne weiteres von bereits existierenden 

Geräten nutzbar. 

Ähnlich wie AOA bezieht Angle-of-Emission (AOE) den Winkel des Signals mit ein. Jedoch 

geht es hier um den Winkel aus dem heraus das Signal gesendet wird. Der Vorteil gegenüber 

AOA ist, dass das Endgerät selbst keine Richtungsmessung vornehmen muss. Jedoch 

muss die sendende Basisstation hierbei auch über eine gerichtete Antenne verfügen. 

Kawauchi und Rekimoto (2009) stellen in ihrer Arbeit ein auf AOE basierendes System 

vor, mit dem sie gerichtete W-Lan Signale mit einer sich rotierenden Antenne senden. Die 

Antenne sendet mit jedem Signal ihren aktuellen Winkel mit. Somit braucht das Endgerät 

keine besonderen Messungen machen, und bekommt den Winkel mit dem eingetroffenen 

Signal übermittelt. Zudem fließt in ihr System, welches sie direct beaconing nennen auch 

die Signalstärke mittels RSSI ein, die das System zusätzlich stabilisieren soll [KKR09]. 

In der Arbeit von Bolliger et al. (2009) wird versucht den Standort eines Gerätes mittels 

eines Fingerabdruckes der umliegenden W-Lan-Signale zu ermitteln [PBL09]. Ein Punkt 

im Raum hat zu seinen umliegenden Access Points ein eindeutiges Empfangsmuster. Dieses 

Muster spiegelt sich in den Access Points und deren Signalstärke zu dem Punkt wieder 

und wird als Fingerabdruck bezeichnet wie in Abbildung 4 zu sehen. Der Fingerabdruck 

ist also eine Kombination aus der Menge der Access Points und deren Empfangsstärken, 

die an diesem Punkt eindeutig sind. Ändert sich die Position des Gerätes, ändern sich auch 

die Entfernungen zu den Access Points und somit auch die zu messenden Signalstärken. 

Der Nachteil dieses Verfahrens ist, dass Fingerabdrücke erst für jeden Ort erzeugt werden 

müssen, damit diese Muster später wieder den Orten zugewiesen werden können. 

Da die Signalstärke von Objekten im Raum beeinflusst wird, muss bei jeder räumlichen 

Veränderung neu gemessen werden. Der zweite Schritt ist, den Daten Bedeutung zu geben. 

Hier soll ein Fingerabdruck mit der Position, an dem er gemessen wurde gelabelt werden. 

In ihrer Arbeit führen Bolliger et al. (2009) das adaPtive Indoor Localization System 

(PILS) ein [PBL09]. Es soll das Labeln eines Fingerabdrucks über Endnutzer ermöglichen. 

Angenommen ein Benutzer bewegt sich in einer Umgebung die vermessen werden soll. 

Anstatt bewusst an einen Punkt zu gehen und diesen zu messen, beschreiben die Forscher 

das asynchrone Intervall-Labeln. Dieses funktioniert wie folgt: 

Ein Nutzer, der sich in einem zu vermessenden Gebiet befindet, wird erst später die Bereiche 

labeln an denen er sich aufgehalten hat (asynchron). Das System misst dazu einen 

Fingerabdruck immer nur dann, wenn sich der Nutzer für einen gewissen Zeitraum an 

einem Punkt aufgehalten hat (Intervall). Somit ist die Fehlerquote beim Labeln geringer, 

da sich ein Nutzer nicht an einen genauen Zeitpunkt sondern an einen längeren Zeitraum

Abbildung 4: Drei Fingerabdrücke aus drei verschiedenen Räumen. Die Räume 2212 und 2214 liegen 

nebeneinander. Raum 2152 ist weiter entfernt. Die Farben der Signale stellen die verschiedenen 

Access Points dar. Quelle: [PBL09] 

erinnern soll. Zudem ist das System Nutzerfreundlicher, da die Nutzer nicht direkt ihren 

aktuellen Standort benennen sollen, sondern dies später erledigen können [PBL09]. 

Nachdem die Daten von dem System aufgenommen wurden, kommt der Schritt der Verarbeitung 

dieser Daten. Hierbei finden Werkzeuge der Klassifizierung Verwendung, auf die 

im Folgenden eingegangen werden soll. 

3.2 k-Nearest Neighbor Search (kNN) 

Schon im Jahr 2000 beschrieben Bahl und Padmanabhan RADAR, ein System, um mobile 

Geräte in Gebäuden mittels W-Lan zu lokalisieren [BP00]. Sie verteilten dazu auf einem 

Stockwerk drei Basisstaionen mit bekanntem Ort. Die mobilen Geräte, die sich in dem Gebiet 

bewegten, sendeten dabei ständig Pakete an die Basisstationen. Dabei unterteilte sich 

das Experiment in zwei Teile: Im off-line-Teil sollten Fingerabdrücke auf dem Stockwerk 

erstellt werden, während im real-time-Teil die Position der Nutzer bestimmt werden sollte. 

Eine Basisstation maß bei jedem eingehenden Signal die Signalstärke und hielt den Zeitpunkt 

fest. Im off-line-Teil wurde zudem von den Nutzern verlangt ihre Position auf einer 

Karte des Areals zu markieren. Hiermit wurden die Fingerabdrücke der Funksignale mit 

Positionsinformationen verbunden. 

Im real-time-Testlauf vergleichen die Forscher die Signalstärken der Nutzer am aktuellen 

Punkt mit den gemessenen Fingerabdrücken. Ein Fingerabdruck, bei dem ähnliche 

Signalstärken gemessen wurden, ist vermutlich auch nahe an dem Punkt, an dem sich 

der Nutzer aktuell befindet (nearest neighbor). Um dieses Verfahren noch zu verbessern 

erweiterten sie die Methode und verwendeten den k-Nearest Neighbor Search (kNN) Algorithmus. 

Hierbei wird nicht nur ein Nachbar, sondern werden k Nachbarn gesucht. Somit 

wird es möglich, einen vermuteten Punkt zu finden der näher am tatsächlichen Punk ist, 

als es einer der Nachbarn wäre. Abbildung 5 verdeutlicht dies [BP00].

N 2 

W 

N 1 

V 

Abbildung 5: Der vermutete Punkt V ist durch das Einbeziehen von drei Nachbarn(N1, N2, N3) 

näher am tatsächlichen Punkt (W) als einer der Nachbarn für sich. Quelle: [BP00] 

3.3 Hidden Markov Model (HMM) 

Sonnig Regen 

Bevölkt 

Abbildung 6: Markov Model des Wetters. Quelle: [Rab89] 

Das Hidden Markov Model (HMM) ist ein Werkzeug der Statistik, welches bei Lernproblemen 

sehr häufig zum Einsatz kommt. Die erste große Anwendung fand das Modell bei 

der Spracherkennung, wo es darum ging, einen Audio-Datenfluss zu analysieren und dabei 

Sprache von Störgeräuschen zu unterscheiden. Ein System sollte also lernen was Sprache 

ist und was nicht. 

Das HMM basiert auf dem Markov Modell, welches ein Zustandsmodell beschreibt bei 

dem zu jedem Zeitpunkt eine gewisse Wahrscheinlichkeit besteht, dass ein Zustand in 

einen anderen übergeht. Ein Beispiel hier ist das Wetter. Zu den Zuständen Regen, Wolken 

und Sonne würde das Model beschreiben wie die Wahrscheinlichkeiten sind, dass auf 

Regen Sonne folgt, auf Wolken Sonne, und so weiter, wie in Abbildung 6 zu sehen. 

N3 

N 4 

N 5

Das HMM geht etwas weiter. Damit soll es möglich sein, Aussagen über das Wetter zu 

treffen, ohne die tatsächlichen Zustände überhaupt beobachten zu können. Das heißt, die 

eigentlichen Zustände sind nicht sichtbar (hidden). Stattdessen hat man andere Zustände 

mit Wahrscheinlichkeitswerten von denen man auf die versteckten Zustände schließen soll. 

Im Wetterbeispiel würde man z.B. die Zustände beobachten: sehr trocken, trocken, feucht 

und nass. Das Hidden Markov Model darauf angewendet würde nun die 

Übergangswahrscheinlichkeiten der Wetter-Zustände darstellen wie in Abbildung 7 [Rab89]. 

sehr 

trocken 

trocken feucht nass sichtbar 

Sonnig Regen 

Bevölkt 

Abbildung 7: Hidden Markov Modell welches das Wetter beschreiben soll. Quelle: [Rab89] 

verborgen 

In ihrer Arbeit nutzen Blanke und Schiele (2009) beispielsweise Hidden Markov Modelle 

um Tagesroutinen zu erkennen [BS09]. Sie beobachten dabei aber nur simpelste Aktionen 

wie sitzen, essen, laufen, Hände waschen, etc. In diesem Falle sind also die eigentlich 

festzustellenden Zustände nicht sichtbar, weil sie selbst gar nicht beobachtet werden. Um 

die Erfassung komplexer Aktivitäten zu erkennen, werden hier schichtweise Daten von 

HMM zu HMM übergeben (Von Oliver et al. (2002) auch Layered HMM (LHMM) genannt 

[NO02]). 

Somit war es zum Beispiel möglich, die Aktivität Präsentation halten über Aktionen wie 

Sprechen, Schreiben, nichts tun, etc. zu erkennen. Da die HMM normalerweise nur seperate 

Ereignisse erkennen können aber nicht die Aktionen selbst einem ganzen Vorgang 

zuordnen können, wurden Hirachien der HMM gebildet. Somit war es möglich Vorgänge 

zu erkennen, wie sich im Supermarkt oder in der Videothek aufhalten.

3.4 Boosting 

Boosting basiert auf der Idee, dass ein schwacher Algorithmus der nur geringfügig besser 

ist als der Zufall, zu einem akkuraten und starken Lernalgorithmus verstärkt werden kann 

[FS99]. 

Dabei werden zuerst viele schwache Hypothesen gebildet die eine Sache beschreiben sollen. 

Diese werden dann alle gewichtet in eine eigene Hypothese geformt. 

Das Grundprinzip ist, eine Menge von Daten zu klassifizieren indem man schwache Regeln 

definiert. Diese Regeln alleine beschreiben die Klasse von Objekten, die man erfassen 

will noch nicht. Will man beispielsweise die Klasse der Äpfel unter allen Früchten 

beschreiben, würde man folgende Regeln treffen: 

• Ein Apfel ist rund. 

• Ein Apfel ist rot. 

Nun schränkt dies die Früchte noch nicht hinreichend ein. Schließlich würden zu dieser 

Klassifizierung auch Tomaten oder Kirschen zählen. Auch sind nicht alle Äpfel rot, sie 

können auch grün oder gelb sein. Eine genauere und gewichtete Klassifizierung würde so 

aussehen: 

• Ein Apfel ist rund. 

• Ein Apfel ist meistens rot. 

• Ein Apfel ist manchmal grün. 

• Ein Apfel ist selten gelb. 

• Ein Apfel kann einen Stil haben. 

Um einen Apfel von einer Tomate abzugrenzen kann man sagen, dass manche Äpfel (noch) 

einen Stil haben. Jedoch ist ein Apfel der keinen Stil hat immer noch ein Apfel und keine 

Tomate. Diese Regeln beschreiben also für sich nicht die Klasse der Äpfel. Doch mithilfe 

des Boostings sollen diese für sich unzureichenden Annahmen zu einer Hypothese 

verbunden werden, die in der Lage ist, die Klasse der Äpfel zu erkennen.

Der AdaBoost Algorithmus von Freund und Schapire (1999) beschreibt Boosting wie 

folgt [FS99]: 

Der Input sind die Trainingseinheiten der Form (x1, y1), . . ., (xm, ym) 

Für t = 1, 2, ..., T gilt: 

• Lerne eine schwache Regel ht von den Trainingsdaten. 

• Bestimme die Gewichtung wt dieser Regel. 

• Hebe die Trainingsdaten hervor die nicht mit ht übereinstimmen (also vermutlich 

falsch sind). 

Der Algorithmus ruft einen schwachen Lernalgorithmus in t Durchläufen mehrmals auf. 

Die Gewichtungen der Trainingseinheiten sind anfangs alle gleich, wobei nach jeder Runde 

die falsch klassifizierten Einheiten heruntergestuft werden, so dass sich eine stärkere 

Hypothese bildet. 

Daraus ergibt sich die Funktion: 

H(x) = 

T 

wtht (x) mit einem normalisierten w. [FS99] (1) 

t=1 

Ein großer Nachteil des Algorithmus ist der, dass die Klassen alle für sich aufgespaltet und 

isoliert werden. Jede Klasse hat ihre eigene Menge an Regeln und kann nicht gemeinsame 

Regeln mit anderen Klassen teilen. 

Zum Beispiel haben wir bei der Klassifizierung von Äpfeln kein Wissen darüber, dass 

Äpfel ähnlich aussehen wie Tomaten (also ähnliche Regeln treffen). 

Eine Verbesserung, die diese Probleme adressieren soll, ist das Joint Boosting [AZS09]. 

Hierbei ist es möglich für eine Klasse gewisse Attribute (Regeln) aus einem großen Pool 

von Attributen auszuwählen die von vielen verschiedenen Klassen verwendet werden können. 

Dies ist nicht nur effizienter, da Regeln wiederverwendet werden können, sondern es ist 

auch möglich Beziehungen und Abhängigkeiten von Klassen festzustellen [AZS09]. 

4 Anwendungen 

4.1 Aktionserkennung über Low-Level Aktionen 

Im folgenden sollen einige konkrete Beispiele gegeben werden. 

Aktionserkennung ist eine wichtige Komponente von kontextsensitiven Systemen. Aktionen 

können dabei von simplen Gesten bis hin zu komplizierten Tagesroutinen reichen. 

Simpelste Aktionen wie Essen, Sitzen, Stehen, Abwaschen, Trinken, etc. werden dabei als 

Low-Level-Aktionen bezeichnet. Komplexere Aktivitäten wie Tagesroutinen, die mehrere 

Aktionen beinhalten und sich über einen längeren Zeitraum erstrecken, werden High- 

Level-Aktivitäten genannt.

Es gibt verschiedene Ansätze und Methoden um Aktionen zu erkennen. Die meisten jedoch, 

wie beim Maschinenlernen üblich, nutzen die in Abschnitt 3 beschriebenen Methoden. 

Bestimmte High-Level-Aktivitäten anhand der Beobachtung von Low-Level-Aktivitäten 

zu erkennen, beschreibt die Arbeit von Blanke und Schiele (2009) [BS09]. Die Arbeit ist 

dabei hauptsächlich auf das Auswerten von Daten fokussiert. Hierbei kommen Boosting- 

Methoden zum Einsatz. Die Low-Level-Aktionen stellen in diesem Falle die schwachen 

Regeln dar, mithilfe derer eine Hypothese gefunden werden soll, die die High-Level- 

Aktivität beschreiben kann. 

Die Sensordaten auf die sie in ihrer Arbeit zurückgreifen repräsentieren Low-Level-Aktivitäten 

und deren Häufigkeit. Als ersten Schritt wenden sie auf die Sensordaten Unsupervised 

Learning-Methoden an um die Daten zu clustern. Damit können sie die Aktivitäten ihrem 

Aufkommen nach zusammenfassen. Diese werden dann zusätzlich in bestimmte Zeitfenster 

zusammengefasst, die dann als Input für das Boosting dienen. Sie versuchen hiermit 

die Aktivität anhand der in einem gewissen Zeitraum am häufigsten gemessenen Low- 

Level Aktionen festzustellen. In ihrer Arbeit stellen die Forscher fest, dass Joint Boosting 

in ihren Tests die Rechenleistung signifikant reduziert, da die schwachen Regeln klassenübergreifend 

geteilt werden können. 

Die Daten erfassen Blanke und Schiele (2009) über dreidimensionale Beschleunigungssensoren, 

welche die Probanden sieben Tage am Handgelenk und in ihrer Hosentasche 

trugen [BS09]. Dabei sollten die vier Routinen Abendessen, Pendeln, Mittagessen und 

Büroarbeiten erkannt werden. Diese sollten anhand von 34 gelabelten Low-Level-Aktionen, 

von denen 24 Teil der Routinen waren, erkannt werden. Zum Beispiel gehörten zur Routine 

Abendessen die Aktionen: Essen vorbereiten, Essen essen und Abwaschen. Sie kamen 

zu dem Schluss, dass diese Methode brauchbare Resultate liefert und, dass schon 

überraschend geringe Datenmengen zur Unterscheidung von Routinen wie Abendessen 

und Pendeln ausreichen. 

4.2 Aktionserkennung über Körper-Modell 

Im Gegensatz dazu legen Zinnen et al. (2009) ihren Fokus auf das Messen der Minimal- 

Aktionen [AZS09]. Sie stellen fest, dass mit den bisherigen Signal-basierten Methoden, 

wie der Messung mit Beschleunigungssensoren gerade kurze und seltene Bewegungen 

nur schwer erkannt werden können. Ihre Aktionserkennung basiert auf einem Modell des 

menschlichen Körpers und soll dadurch robuster sein, da die zu erkennenden Aktivitäten 

schließlich von Körperbewegungen abgeleitet sind. Neben den Körperbewegungen wie 

Hand heben, Körper drehen oder Arm drehen beziehen sie ebenfalls die Körperhaltung 

sowie Standortinformationen mit ein. Schließlich wollen sie ihre Methode anhand von 

Aktionen einer Autoinspektion wie Kofferraum öffnen oder Lack auf Kratzer untersuchen 

überprüfen. 

Sie plazieren dazu an mehreren Stellen des Körpers eines Probanden Sensoren. Während 

Beschleunigungssensoren nur Veränderungen in der Bewegung messen, also ob sich ein 

Sensor bewegt, können mit der Erfassung des ganzen Körpers absolute Bewegungen fest-

gestellt werden wie in Abbildung 8 oben zu sehen. So kann die Aktion Hände heben erkannt 

werden, egal in welcher Position sich die Hände vorher befanden. Die Testpersonen 

Abbildung 8: Oben: Zu sehen ist eine Person von hinten, die gerade den Kofferraum des Autos öffnet. 

Unten: Die Bewegungsänderungen des rechten und linken Arms. Bei jedem lokalen Minimum wird 

ein SFP oder TP vermutet (rote Kreise). Quelle: [AZS09] 

tragen Sensoren an Ober- und Unterarmen sowie am Torso. Eine der größten Schwierigkeiten 

ist es, die Bewegungen die für die Aktivitäten wichtig sind, von anderen zu trennen. 

Um Aktionen voneinander zu trennen, behelfen sie sich zweier Bewegungsmuster. Mit 

SFP für short but fixed positions bezeichnen sie eine kurzzeitige fixe Position der Hände 

die häufig am Anfang und Ende einer Aktivität zu beobachten sei. Mit TP für turning 

points wollen sie Wendepunkte in Handbewegungen nutzen um Aktionen voneinander zu 

unterscheiden. Da zwischen zwei Aktionen die Hände langsamer bewegt werden, sei die 

Änderung der Armposition bei SFP und TP gering und somit gut zu erkennen. 

Fasst man die Bewegungen der Arme in einem Diagramm zusammen wie in Abbildung 

8 unten, welches die Abtastrate gegen die Positionsänderung der Arme abträgt, müssten 

sich immer an den lokalen Minima (also dort wo die Änderung der Armposition gering ist)

SFP oder TP ereignen. Die Forscher verifizieren diese Annahme experimentell. Insgesamt 

maßen sie 280 Minuten. Die durchschnittliche Länge der Aktivität war 1,4 Sekunden mit 

einer Abweichung von 0,95 Sekunden. Ein SFP oder TP dauerte weniger als 0,15 Sekunden. 

Um die Bewegung weiter zu abstrahieren definieren die Forscher Bewegungsprimitive. 

Beispielsweise sollen Höhenprimitive die Differenz der Personengröße (Hände hoch versus 

Ducken) oder Push-Pull-Primitive das Stoßen und Ziehen der Arme abbilden. 

Neben der Körperhaltung wird noch die Position der Person mittels Ubisense ermittelt. 

Dies erlaubt einen Kontext herzustellen und zu klassifizieren welche Aktion denn an der 

aktuellen Position überhaupt möglich ist. 

Die Forscher studierten 20 Routinen einer Auto-Inspektion. Sie klassifizierten ihre Daten 

mittels Joint Boosting. Zinnen et al. (2009) machen klar, dass das System nur Nutzer- 

Abhängig gut funktionieren könne, da sich die exakte Ausführung einer Aktion von Person 

zu Person stark unterscheiden kann [AZS09]. Sie kamen zu dem Schluss, dass das System 

für die Aktionserkennung bei gleichen Testpersonen gute bis sehr gute Ergebnisse lieferte. 

Aber auch bei Personen-Unabhängigen Experimenten erbrachte ihre Methode noch gute 

Ergebnisse [AZS09]. 

4.3 Simultaneous Localization and Mapping (SLAM) 

Bei Simultaneous Localization and Mapping (SLAM) geht es um ein Problem der Lokalisierung 

eines Roboters. Das Problem beschäftigt sich mit der Frage ob es ein mobiler 

Roboter, der an einem unbekannten Ort in einer unbekannten Umgebung ausgesetzt wird 

schafft, sich sukzessive eine vollständige Karte seiner Umgebung zu bauen während er 

simultan seine Position auf dieser Karte bestimmen muss. Eine Lösung dieses Problems 

galt für die Robotik lange als Weg zu einem tatsächlich autonomen Roboter [DWB06]. 

Ein Roboter kann mittels seiner Sensoren eine unbekannte Umgebung erkunden und daraus 

eine Karte generieren. Jedoch ist es schwierig für den Roboter seine eigene Position 

in der teilweise erkundeten Karte festzustellen, sowie zu merken, dass er neues Territorium 

erreicht hat. Eine Möglichkeit seine Umgebung zu erkennen, wären Merkmale in der 

Landschaft mit bekannter Position. Jedoch ist die Vorgabe, dass dem Roboter seine Umgebung 

gänzlich unbekannt ist [CN01]. 

Ein Roboter soll sich also durch eine Umgebung bewegen und dabei subjektive Beobachtungen 

von unbekannten Landschaftsmerkmalen mit seinem Sensor machen. Zu einem 

Zeitpunkt k seien die folgenden Größen definiert: 

• xk: Zustandsvektor der die Position und Blickrichtung des Roboters beschreibt. 

• uk: Kontrollvektor, gesetzt zum Zeitpunkt k − 1 um den Roboter zu einem Zustand 

xk zum Zeitpunkt k zu bringen. 

• mi: Ein Vektor der das i-te Lanschaftsmerkmal beschreibt, dessen Position als zeitunabhängig 

angesehen werden soll. 

• zik: Beobachtung des Roboters vom i-ten Landschaftsmerkmal zum Zeitpunkt k.

Zudem werden Mengen definiert die den Verlauf der Roboter-Positionen, den Verlauf von 

Kontrolleingaben, alle Landschaftsmerkmale sowie alle beobachteten Landschaftsmerkmale 

beinhalten [DWB06]. 

x k-1 

uk 

x k 

m i 

m j 

x k-1 

u k+2 

x k+1 

Geschätzt 

Wahr 

x k+2 

Roboter 

Abbildung 9: Beobachtung des Roboters und dessen tatsächliche Umgebung 

Landschafts 

merkmal 

Hier ist zu sehen, dass der Roboter nie das wahre Bild der Umgebung kennt. Er kann nur 

subjektiv bestimmen was um ihn herum ist, hat aber keine anderen Daten um dies zu verifizieren. 

Doch auch wenn der Roboter ein um den Messfehler seines Sensors verfälschtes 

Bild von seiner Umgebung hat, ist dieser Fehler systematisch und die Karte des Roboters 

also nur verschoben. Lösungen dieses Problems sind deshalb wahrscheinlichkeitstheoretisch 

begründet. 

Auch wenn es noch Schwierigkeiten bei allgemeinen Einsätzen und komplizierten Karten 

gibt, gilt das Problem sowohl theoretisch als auch praktisch als gelöst [DWB06].

5 Fazit 

Künstliche Intelligenz ist heute ein wichtiges Forschungsfeld. Nicht nur wird versucht, 

einen künstlich denkenden Roboter zu bauen. Vielmehr kommen Werkzeuge und Ideen aus 

diesem Gebiet auch anderen Forschungsrichtungen zugute. Kontextbewusstsein ist dabei 

wohl einer der größten Trümpfe der KI. Mobile Dienste sollen einen Nutzer mit Informationen 

versorgen, die für seine Situation, für seinen Standort und für seine Vorlieben 

sinnvoll sind. 

Moderne Smartphones haben heute schon eine umfassende Sensorik verbaut. Beschleunigungssensoren, 

Gyroskope und GPS-Empfänger können das Gerät nicht nur lokalisieren, 

sondern auch dessen Ausrichtung im dreidimensionalen Raum bestimmen. Mit dieser 

Hardware ließen sich schon dank der Methoden der Aktionserkennung aus Abschnitt 4.1 

Schlüsse auf das Verhalten und die Tagesroutinen von Nutzern folgern. 

Jedoch brauchen diese Verfahren zum Teil noch viel Rechenzeit. Die Anzahl der Boosting- 

Runden die es braucht, um eine gute Hypothese zu finden, machen diese Erkennung 

noch unpraktikabel für Live-Systeme. Aber mit fortschreitender Rechenleistung in mobilen 

Geräten und Cloud-Computing wird dies in der Zukunft wohl keine größeren Probleme 

mehr darstellen. 

Auch das Sammeln von Daten kann problematisch werden. In Abschnitt 4.1 weisen die 

Forscher zwar darauf hin, wie wenige Daten doch nötig sind um komplexe Routinen zu 

erkennen. In der Arbeit die in Abschnitt 4.2 beschrieben wird, werden jedoch komplexe 

dreidimensionale Modelle aufgezeichnet und ausgewertet. 

Künstliche Intelligenz spielt aber nicht nur in der Forschung eine wichtige Rolle. Zum 

Beispiel hat künstliche Intelligenz auch in der Medizin wichtige Aufgaben. Beispielsweise 

können mobile Defibrillatoren die sich in U-Bahn-Stationen befinden dem Benutzer 

nicht nur sagen was er tun muss, sondern zum Beispiel auch erst dann einen Stromimpuls 

abgeben, wenn sie korrekt platziert sind. Sie handeln bereits rational. 

Abschließend lässt sich sagen, dass zwar eine absolut autonom handelnde und denkende 

Maschine noch nicht praktisch implementiert werden konnte. Doch, dass vorallem die Methoden 

künstlicher Intelligenz bereits große Erfolge erzielt haben. HMM, Lernmethoden 

und Klassifizierungsverfahren helfen Intelligenz in Systeme und Dienste zu bringen die 

dem Nutzer ortsbasierter Dienste eine neue und verbesserte Erfahrung bieten können. 

Literatur 

[AZS09] C. Wojek A. Zinnen und B. Schiele. Multi Activity Recognition Based on Bodymodel- 

Derived Primitives. Location and Context Awareness, 4:1–18, 2009. 

[BP00] P. Bahl und V.N Padmanabhan. RADAR: an in-building RF-based user location and 

tracking system. INFOCOM, 2:775–784, 2000. 

[BS09] U. Blanke und B. Schiele. Daily Routine Recognition through Activity Spotting. Location 

and Context Awareness, 4:192–206, 2009.

[CN01] H. Choset und K. Nagatani. Topological Simultaneous Localization and Mapping 

(SLAM): Toward Exact Localization Without Explicit Localization. Robotics Automation 

Magazine, 17:125–137, 2001. 

[DWB06] H. Durrant-Whyte und T. Bailey. Simultaneous localization and mapping: part I. Robotics 

Automation Magazine, Seiten 99–110, 2006. 

[FS99] Y. Freund und R. Schapire. A short introduction to boosting. Journal of Japanese Society 

for Artificial Intelligence, Seiten 771–780, 1999. 

[KKR09] T. Miyaki K. Kawauchi und J. Rekimoto. Directional Beaconing: A Robust WiFi Positioning 

Method Using Angle-of-Emission Information. Location and Context Awareness, 

4:103–119, 2009. 

[Mac67] J. MacQueen. Some methods for classification and analysis of multivariate observations. 

Proceedings of the fifth Berkeley symposium, 5:281–297, 1967. 

[NO02] A. Garg N. Oliver, E. Horvitz. Layered representations for human activity recognition. 

Proceedings of the 4th IEEE International Conference on Multimodal Interfaces, 4, 2002. 

[PBL09] M. Chu P. Bolliger, K. Partridge und M. Langheinrich. Improving Location Fingerprinting 

through Motion Detection and Asynchronous Interval Labeling. Location and 

Context Awareness, 4:37–51, 2009. 

[Rab89] L.R Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech 

Recognition. Proceedings of the IEEE, 77:257–286, 1989. 

[RN10] S. Russell und P. Norvig. Artificial Intelligence: A Modern Approach. Pearson Education 

Inc., 2010. 

[ZG09] X. Zhu und A.B Goldberg. Introduction to Semi-Supervised Learning. Morgan Claypool 

Publishers, 2009.

Künstliche Intelligenz fur ortsbasierte Dienste - Lehrstuhl für Mobile ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?