13.07.2015 Aufrufe

Multimodale Interaktion in Augmented Reality Umgebungen am ...

Multimodale Interaktion in Augmented Reality Umgebungen am ...

Multimodale Interaktion in Augmented Reality Umgebungen am ...

MEHR ANZEIGEN
WENIGER ANZEIGEN
  • Keine Tags gefunden...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Lehrstuhl für Mensch-Masch<strong>in</strong>e-KommunikationderTechnischen Universität München<strong>Multimodale</strong> <strong>Interaktion</strong> <strong>in</strong><strong>Augmented</strong> <strong>Reality</strong> <strong>Umgebungen</strong> <strong>am</strong>Beispiel der SpieledomäneStefan Reif<strong>in</strong>gerVollständiger Abdruck der von der Fakultät für Elektrotechnik und Informationstechnik derTechnischen Universität München zur Erlangung des akademischen Grades e<strong>in</strong>esDoktor-Ingenieurs (Dr.-Ing.)genehmigten Dissertation.VorsitzenderPrüfer der DissertationUniv.-Prof. Dr.-Ing. Ulf Schlichtmann1. Univ.-Prof. Dr.-Ing. habil. Gerhard Rigoll2. Univ.-Prof. Dr.-Ing. Werner HemmertDie Dissertation wurde <strong>am</strong> 05.06.2008 bei der Technischen Universität München e<strong>in</strong>gereichtund durch die Fakultät für Elektrotechnik und Informationstechnik <strong>am</strong> 28.10.2008angenommen.


VORWORTii


KURZZUSAMMENFASSUNGKurzzus<strong>am</strong>menfassungVergleicht man Computerspiele aus den Anfangszeiten mit denen, die heutzutage den aktuellenStand der Technik repräsentieren, zeigt sich, dass <strong>in</strong>nerhalb der letzten 30 Jahre e<strong>in</strong>eimmense Entwicklung statt gefunden hat. Sowohl die grafische Darstellung als auch die Komplexitätder <strong>Interaktion</strong> hat sich enorm erhöht. <strong>Interaktion</strong> mit Computerspielen, unterteilt <strong>in</strong>E<strong>in</strong>gabe und Ausgabe, beschränkt sich nicht mehr auf die re<strong>in</strong>e Darstellung e<strong>in</strong>facher Inhalte,die mit simplen Bedienelementen, wie etwa e<strong>in</strong>em Joystick, gesteuert werden können. <strong>Interaktion</strong>hat sich von e<strong>in</strong>er re<strong>in</strong>en E<strong>in</strong>-/Ausgabe zu e<strong>in</strong>em immersiven Erlebnis gewandelt, mitMöglichkeiten, die sich immer weiter <strong>in</strong> die bisherigen <strong>Interaktion</strong>sgewohnheiten des Menschene<strong>in</strong>fügen.Daher fokusiert diese Arbeit die Weiterentwicklung aktueller <strong>Interaktion</strong>smöglichkeitenh<strong>in</strong>sichtlich der E<strong>in</strong>gabe und auch der Ausgabe. Gegenstand der Arbeit ist also die Entwicklungund Untersuchung neuartiger Möglichkeiten der <strong>Interaktion</strong>, speziell <strong>in</strong> der Spieledomäne.Auf der E<strong>in</strong>gabeseite werden drei verschiedene Ansätze zur Gestenerkennung des Nutzersumgesetzt. Dabei stützt sich e<strong>in</strong> Ansatz auf die Verwendung von Track<strong>in</strong>gdaten, die mittelse<strong>in</strong>es Infrarot-Track<strong>in</strong>gsystems gewonnen werden. Bei zwei Ansätzen erhält man die Daten,die Rückschlüsse auf Gesten des Nutzers ziehen lassen, durch die Verwendung von NeigungsundGyrosensoren.Auf der Ausgabeseite wird die Visualisierung von e<strong>in</strong>er re<strong>in</strong> virtuellen Darstellung auf dieDarstellung mittels <strong>Augmented</strong> <strong>Reality</strong> erweitert, die e<strong>in</strong>e nahtlose E<strong>in</strong>b<strong>in</strong>dung der Spieleumgebung<strong>in</strong> die reale Umgebung des Nutzers ermöglicht. Ebenfalls wird die akustische Ausgabevon e<strong>in</strong>er Stereodarbietung auf die Verwendung von virtueller Akustik erweitert. Diese Veränderungender Ausgabe ermöglichen e<strong>in</strong>e Integration des Spieles <strong>in</strong> die reale Umgebung desNutzers und resultieren <strong>in</strong> e<strong>in</strong>er höheren Immersion des Spielers <strong>in</strong> das Spielgeschehen.Diese Ausgabemöglichkeiten werden ebenso wie die E<strong>in</strong>gabemöglichkeiten <strong>in</strong> e<strong>in</strong>er eigensdafür entwickelten Systemarchitektur <strong>in</strong>tegriert, die mittels Netzwerkkommunikation e<strong>in</strong>e modulareund somit performance-orientierte Umsetzung von (Spiele-)Applikationen ermöglicht.Um die <strong>Interaktion</strong> nicht re<strong>in</strong> auf den Austausch zwischen Mensch und Masch<strong>in</strong>e zu begrenzen,wird <strong>in</strong> dieser Arbeit ebenfalls der Aspekt der Mensch-Mensch <strong>Interaktion</strong> sowie die<strong>Interaktion</strong> zwischen der realen und der virtuellen Umgebung des Nutzers berücksichtigt.Dazu wird e<strong>in</strong> Videokonferenzsystem entwickelt, das es e<strong>in</strong>er beliebigen Anzahl von Teilnehmernermöglicht, audiovisuell <strong>in</strong> <strong>Interaktion</strong> zu treten, und <strong>in</strong> die Spieleapplikation e<strong>in</strong>gebettetwerden kann.iii


INHALTSVERZEICHNISAbkürzungsverzeichnisStichwortverzeichnisLiteraturverzeichnisVVIIIXviii


KAPITEL 1E<strong>in</strong>leitungEs ist Dezember im Jahre 1972. Im e<strong>in</strong>em Wohnzimmer sitzt e<strong>in</strong> Junge mit e<strong>in</strong>em kle<strong>in</strong>enKästchen <strong>in</strong> der Hand vor dem Fernseher, auf dem sich e<strong>in</strong> weißer Fleck h<strong>in</strong> und her bewegt.Es ist still im Wohnzimmer, nur das Klacken des Kästchens ist zu hören. „Pong“ nennt sichdieses revolutionäre Spiel für zu Hause, das den Jungen und se<strong>in</strong>en Freund für Stunden fesselt.Heute sitzt dieser Junge im Wohnzimmer und sieht se<strong>in</strong>em Sohn zu, wie er <strong>am</strong> Fernseher mitder Spielekonsole spielt. Auch heute noch fesselt das Spiel für Stunden. Jedoch ist der weißebewegliche Fleck auf dem Bildschirm e<strong>in</strong>er bunten Vielfalt gewichen. Heute sitzt se<strong>in</strong> Sohnnicht wie er d<strong>am</strong>als still mit e<strong>in</strong>em kle<strong>in</strong>en Kästchen <strong>in</strong> der Hand, sondern er spr<strong>in</strong>gt vorden Fernseher auf und ab und bewegt dazu se<strong>in</strong>e Hände. Auf die Frage, was er denn spiele,antwortet der Junge, dass er die Fensterscheiben re<strong>in</strong>igen solle. Aus der Spielekonsole, diee<strong>in</strong>st alle<strong>in</strong> durch e<strong>in</strong>en weißen beweglichen Fleck begeisterte, ist e<strong>in</strong> multimodales Ereignisgeworden.Die vorliegende Arbeit hat die Zielsetzung, den Anfang für e<strong>in</strong>en weiteren großen Schritt<strong>in</strong> der Entwicklung der Spiele zu schaffen. Die nächste Generation soll nicht mehr im Wohnzimmervor dem Fernseher gefesselt sitzen, sondern neue Spiele spielen, die sich nahtlos <strong>in</strong>die Umgebung der Spieler e<strong>in</strong>fügen. Dazu sollen sich Spiele <strong>in</strong> die Umgebung des Nutzers e<strong>in</strong>gliedernund dabei e<strong>in</strong>en Zus<strong>am</strong>menhang zwischen realer und virtueller Umgebung herstellen.Die <strong>Interaktion</strong> fügt sich hierbei ebenfalls <strong>in</strong> die reale Umgebung des Nutzers e<strong>in</strong>, die E<strong>in</strong>undAusgabe bedient sich dabei Mitteln, die an die natürliche <strong>Interaktion</strong> des Menschen mitse<strong>in</strong>er realen Umgebung anlehnen.Zu Beg<strong>in</strong>n dieser Arbeit steht e<strong>in</strong> Überblick über die Entwicklung der Computerspiele,angefangen 1958 bis heute. Dabei liegt der Schwerpunkt auf den <strong>Interaktion</strong>smöglichkeiten,die sich im Laufe der Zeit entwickelt haben.1.1 Die Geschichte der ComputerspieleDas erste Computerspiel der Welt wurde 1958 entwickelt. „Tennis for Two“ bestand aus e<strong>in</strong>emAnalogcomputer und e<strong>in</strong>em Oszillographen zur visuellen Darstellung. Zur Steuerung standenden Nutzern zwei kle<strong>in</strong>e Kästchen mit zwei Knöpfen zur Verfügung, mittels derer der Schlagsowie der Schlagw<strong>in</strong>kel e<strong>in</strong>gestellt werden konnten. 1962 verbreitete sich „Spacewar!“ [75]aufgrund extremer Kosten für Hardware nur an <strong>am</strong>erikanischen Universitäten. Dabei diente1


KAPITEL 1.EINLEITUNG(a) „Spacewar“ (1962) [75] (b) „Pong“ (1972) [32]Abbildung 1.1: Beg<strong>in</strong>n der Computerspiele: „Spacewar“ und „Pong“das Spiel primär als Demonstrationsprogr<strong>am</strong>m für die Leistungsfähigkeit der Hardware undsimulierte e<strong>in</strong> Gefecht zweier Raumschiffe (vgl. Abb. 1.1(a)).„Spacewar!“ war ebenfalls für zwei Spieler ausgelegt und bot <strong>Interaktion</strong>smöglichkeiten<strong>in</strong> Form von Knöpfen, um verschiedene Funktionalitäten (beispielsweise die Navigation desRaumschiffes) zu steuern. 1972 wurde von „Atari“ das Computerspiel „Pong“ [32] vorgestelltund der Öffentlichkeit <strong>in</strong> Form von Spielautomaten, deren Entwicklung aus der preisgünstigenFernsehtechnologie hervorg<strong>in</strong>g, zugänglich gemacht. „Pong“ (abgeleitet aus dem englischen„P<strong>in</strong>g Pong“) simuliert <strong>in</strong> e<strong>in</strong>fachster Form e<strong>in</strong> Tischtennisspiel (vgl. Abb. 1.1(b)). Die <strong>Interaktion</strong>smöglichkeitfür beide Spieler bestand aus e<strong>in</strong>em Drehknopf, der die Position desSchlägers steuerte.Aufgrund der rasanten Entwicklung der Computerspiele k<strong>am</strong>en Ende der 70er Jahre dieersten Spielekonsolen für den Heimanwender auf den Markt. Mit der E<strong>in</strong>führung von „SpaceInvaders“ für den „Atari 2600“ erfolgte der Durchbruch der Spielekonsolen. „Space Invaders“war e<strong>in</strong>es der ersten Computerspiele mit farbiger Darstellung. Diese wurde durch sogenannteOverlay-Folien erzeugt, die vor dem Bildschirm befestigt waren. Ebenfalls erweiterte „SpaceInvaders“ erstmalig die monomodale Ausgabe auf e<strong>in</strong>e multimodale Ausgabe, da nicht mehrnur e<strong>in</strong>e re<strong>in</strong> visuelle Ausgabe erfolgte, sondern die akustische Ausgabe <strong>in</strong>tegriert wurde. Dieseakustische Ausgabe war bereits <strong>in</strong>teraktiv und änderte sich, wenn auch nur rudimentär,angelehnt an das aktuelle Spielgeschehen. Auch die <strong>Interaktion</strong>smöglichkeiten für den Nutzerwurden erweitert. Während bei „Pong“ zur Steuerung noch e<strong>in</strong> Drehknopf verwendet wurde,erfolgte die Steuerung bei „Space Invaders“ durch e<strong>in</strong>en 2-Wege Joystick und e<strong>in</strong>en Knopf.Diese Möglichkeit der <strong>Interaktion</strong> wurde für „Pacman“ [13] 1980 auf e<strong>in</strong>en 4-Wege Joystick erweitert.Ebenfalls wurde durch „Pacman“ die Wechselwirkung zwischen Computer und Nutzere<strong>in</strong>geführt. Gegner, <strong>in</strong> Form von Spielfiguren, erkennen die E<strong>in</strong>gaben des Nutzers und reagierendarauf. Weiterh<strong>in</strong> erfolgte bei „Pacman“ (vgl. Abb. 1.2(a)) die grafische Ausgabe nichtmehr <strong>in</strong> Schwarz/Weiß, sondern <strong>in</strong> Farbe.In den 80er Jahren wurde der Personal Computer e<strong>in</strong>geführt. Dieser war anfangs technischjedoch noch nicht <strong>in</strong> der Lage, als Konkurrenz zu Spielekonsolen aufzutreten. Aufgrundmangelnder Leistung und fehlender Hardware (beispielsweise die Möglichkeit von akustischerAusgabe) dom<strong>in</strong>ierten Spielekonsolen. 1983 führte „N<strong>in</strong>tendo“ die 8-Bit Konsole „F<strong>am</strong>icon“e<strong>in</strong>. Die <strong>Interaktion</strong>smöglichkeiten des Nutzers stiegen stark an. So wurden E<strong>in</strong>gabegeräte<strong>in</strong> Form von Pistolen, Handschuhen oder speziellen Fussmatten e<strong>in</strong>geführt. Mit der E<strong>in</strong>führungdes „C64“ 1985 begann die Entwicklung von Computerspielen auch für den E<strong>in</strong>satz auf2


1.2. MOTIVATION(a) „Pacman“ (1980) [13] (b) „The Eidolon“ (1985) [50]Abbildung 1.2: Weiterentwicklung der Computerspiele: „Pacman“ und „The Eidolon“Personal Computern. Die <strong>Interaktion</strong>smöglichkeiten waren hier auf visuelle und akustischeAusgabe und mechanische E<strong>in</strong>gabe <strong>in</strong> Form von Joysticks, Paddlen, Maus oder e<strong>in</strong>er Pistolebeschränkt. Für den „C64“ erschien 1985 der erste Ego-shooter „The Eidolon“ [50] (vgl.Abb. 1.2(b)). 1987 erschien der „Amiga 500“, der ebenfalls als Personal Computer konzipiertwar. Gegen Ende der 80er Jahre k<strong>am</strong>en die ersten mobilen Spielekonsolen, wie etwa der „G<strong>am</strong>eBoy“ von „N<strong>in</strong>tendo“ auf den Markt.In den 90er Jahren koexistierten Spielekonsolen und Personal Computer. Beide Technologienentwickelten sich rasant und ermöglichten zunehmend e<strong>in</strong>e realistischere visuelleDarstellung. Ebenfalls wuchs die Nutzung des neuen Mediums „Internet“. Für die Computerspielebedeutete dies e<strong>in</strong>e be<strong>in</strong>ahe beliebige Erweiterung der Mehrspielerfunktionalität. 1991startet mit „Neverw<strong>in</strong>ter Nights“ [14] das erste „MMORPG“ (Massively Multiplayer Onl<strong>in</strong>eRole-Play<strong>in</strong>g G<strong>am</strong>e). 1997 erschien „Ultima Onl<strong>in</strong>e“ [33], e<strong>in</strong>es der bis dah<strong>in</strong> größtenMehrspieler-Computerspiele mit bis zu 140.000 Spielern gleichzeitig. Übernommen aus derLuftfahrt wurde die mechanische Ausgabe <strong>in</strong> Form von „Force Feedback“-Geräten e<strong>in</strong>geführt.Diese Technologie ermöglichte die Erweiterung der bis dah<strong>in</strong> auf visuelle und akustische Ausgabebeschränkten Darstellung um die mechanische Komponente. Angepasst an bestimmteSpielsituationen konnten diese Geräte mechanische Bewegungen <strong>in</strong> Form von Vibrationen,Stößen oder Gegenkraft des Nutzers an den Spieler übertragen. Die visuelle Ausgabe wurdedurch Verwendung von 3-D-Brillen nun auch stereo möglich. Spiele mit Sprachsteuerungkonnten sich jedoch aufgrund mangelnder Zuverlässigkeit der Spracherkennungssysteme immernoch nicht durchsetzen.1.2 MotivationDie visuelle Darstellung von Computerspielen ist <strong>in</strong> den letzten 50 Jahren stetig verbessertworden. Heutige Computerspiele bestechen mit e<strong>in</strong>er annähernd realistischen Grafik, die durchVerwendung von entsprechender Hardware auch stereoskopisch dargestellt werden kann.Ebenfalls bedienen sich Computerspiele der Multimodalität. Auf der E<strong>in</strong>gabeseite kommenmechanische E<strong>in</strong>gabegeräte, wie etwa Tastatur oder Maus beim Heimcomputer zum E<strong>in</strong>satz.Darüber h<strong>in</strong>aus wurden applikationsspezifische E<strong>in</strong>gabegeräte entwickelt, wie zum Beispiele<strong>in</strong> Lenkrad s<strong>am</strong>t Pedalerie für den E<strong>in</strong>satz <strong>in</strong> Fahrsimulationen.Auf der Ausgabeseite nimmt die Zahl der Modalitäten ebenfalls zu. Neben der primären visuellenAusgabe existiert die akustische Ausgabe. Aber auch die haptische Wahrnehmung desNutzers wird angesprochen, da E<strong>in</strong>gabegeräte gleichzeit als Ausgabegerät agieren, <strong>in</strong>dem sie3


KAPITEL 1.EINLEITUNGmechanische Bewegungen <strong>in</strong> Form von Gegenkraft oder Vibrationen gezielt zur Unterstützungder visuellen und akustischen Ausgabe verwenden.Die Entwicklung e<strong>in</strong>er nahezu exakten Abbildung der Realität durch Simulation, die möglichstalle S<strong>in</strong>ne des Nutzers anspricht, führt <strong>in</strong> logischer Konsequenz dazu, dass zukünftigeComputerspiele mit der Realität des Nutzers verschmelzen. So soll der Nutzer <strong>in</strong> die Lageversetzt werden, Computerspiele <strong>in</strong>teraktiv <strong>in</strong> se<strong>in</strong>er realen Umgebung e<strong>in</strong>zusetzen. Dabeisoll nicht nur die Darstellung mit se<strong>in</strong>er Umgebung verschmelzen, sondern auch die E<strong>in</strong>gabesoll sich an den Benutzer anpassen. Die <strong>Interaktion</strong> des Nutzers ist hierbei also nicht mehrbeschränkt auf die reale oder die virtuelle Umgebung, sondern ermöglicht die gleichzeitige<strong>Interaktion</strong> mit beiden <strong>Umgebungen</strong> zur selben Zeit und im selben Raum. Virtuelle und realeUmgebung verschmelzen also zu e<strong>in</strong>er geme<strong>in</strong>s<strong>am</strong>en gemischten Umgebung für den Nutzer.Daher ist es erstrebenswert, die Möglichkeiten der natürlichen Informationsabgabe desMenschen, wie etwa Gesten oder Sprache, als E<strong>in</strong>gabeformen <strong>in</strong> Computerspiele zu <strong>in</strong>tegrieren,um auch hier e<strong>in</strong>e möglichst hohe E<strong>in</strong>b<strong>in</strong>dung <strong>in</strong> die reale Umgebung des Nutzers zuerreichen. Gleichzeitig sollen die Möglichkeiten der Mehrspielerfunktion beibehalten bzw. erweitertwerden.1.3 Vorarbeiten und aktueller Stand der Technik<strong>Augmented</strong> <strong>Reality</strong> (AR) bezeichnet die Anreicherung der realen Umgebung des Menschenmit virtueller Information. Diese Information wird mit der Realität überlagert und dem Menschenpräsentiert. Derzeit beschränkt sich AR <strong>in</strong> den meisten Fällen auf e<strong>in</strong>e monomodaleDarstellung <strong>in</strong> Form e<strong>in</strong>er re<strong>in</strong> visuellen Anreicherung. In das Blickfeld des Menschen wirddabei virtuelle Information <strong>in</strong> Form von Objekten oder Texten e<strong>in</strong>gebracht. Als beispielhafteAnwendung s<strong>in</strong>d die Unterstützung des Arztes <strong>in</strong> der Mediz<strong>in</strong> [45] oder die Unterstützunge<strong>in</strong>es Produktentwicklers im Design [52] zu nennen. Ebenfalls bestehen bereits Ansätze füre<strong>in</strong>e multimodale Darstellung, d.h. virtuelle Informationen werden nicht nur visuell, sondernauch akustisch dargeboten [55]. Bei den genannten Anwendungen steht jedoch nicht die <strong>Interaktion</strong>von Mensch und AR-System im Vordergrund, vielmehr hat AR hier re<strong>in</strong> darstellendenCharakter.Die <strong>Interaktion</strong> zwischen Mensch und Computer erfolgt im allgeme<strong>in</strong>en entweder monomodaloder multimodal, d.h. entweder mit nur e<strong>in</strong>er e<strong>in</strong>zigen Möglichkeit der E<strong>in</strong>gabe oder mitmehreren E<strong>in</strong>gabemöglichkeiten. Untersuchungen hierzu haben ergeben, dass bei der multimodalen<strong>Interaktion</strong> die E<strong>in</strong>gabemöglichkeiten (zum Beispiel <strong>in</strong> Form von Sprache oder Gestik)auf verschiedene Weise vom Menschen verwendet werden. Im e<strong>in</strong>fachsten Fall werden die E<strong>in</strong>gabemöglichkeitenalternierend, im kompliziertesten Fall synergetisch verwendet [77]. ErsteUntersuchungen speziell <strong>in</strong> der AR-Domäne haben gezeigt, dass die multimodale Verwendungvon E<strong>in</strong>gabegeräten e<strong>in</strong>e robustere Erkennung der Benutzer<strong>in</strong>tention zulässt als die Verwendungvon E<strong>in</strong>zelerkennern [38]. Für die weitere Entwicklung von AR-Systemen ist es dahernotwendig, die Untersuchung der multimodalen <strong>Interaktion</strong> mit AR-Systemen voranzutreibenund aus den Ergebnissen verbesserte <strong>Interaktion</strong>smöglichkeiten für den Menschen abzuleiten.Erste Schritte, AR <strong>in</strong> der Spieledomäne zu etablieren, wurden mit der Entwicklung vonARQuake [68] unternommen. Hierbei wurde e<strong>in</strong> populärer Ego-shooter („Quake“) <strong>in</strong> die ARportiert. Die <strong>Interaktion</strong> beschränkt sich hierbei jedoch auf die Navigation <strong>in</strong> der Spieleumgebungund der <strong>Interaktion</strong> mittels e<strong>in</strong>er monomodalen E<strong>in</strong>gabeform (virtuelle Waffe <strong>in</strong> derHand). Bis heute folgten e<strong>in</strong>ige Umsetzungen e<strong>in</strong>facher Computerspiele, wie beispielseise„TankWar“ [61]. Weitere Möglichkeiten, Spiele <strong>in</strong>nerhalb e<strong>in</strong>er AR Umgebung umzusetzen,4


1.4. LÖSUNGSANSATZAbbildung 1.3: Sony’s Eyetoy für die Playstation 2 [23]f<strong>in</strong>den sich beispielsweise mit „Butterfly Effect: An <strong>Augmented</strong> <strong>Reality</strong> Puzzle G<strong>am</strong>e“ [62],„MonkeyBridge“ [7] oder „N<strong>in</strong>ja on a Plane“ [11]. Alle diese Spiele bilden jedoch virtuelleComputerspiele <strong>in</strong> der AR ab. Simulationen von realen Spielen fanden bisher nur wenig statt,wie etwa <strong>am</strong> Beispiel von Tennis [28].Der kommerzielle E<strong>in</strong>satz von <strong>in</strong>teraktiver AR beg<strong>in</strong>nt. So hat die „Playstation 2„ von„Sony“ mit se<strong>in</strong>em „EyeToy“ e<strong>in</strong> System vorgestellt, das es dem Nutzer erlaubt, e<strong>in</strong> Computerspielmittels der Bewegung von Kopf und Armen zu steuern [23].Dazu wird vor dem Nutzer e<strong>in</strong>e K<strong>am</strong>era aufgebaut, die dessen Bewegungen beobachtet.Diese Bewegungen werden dann <strong>in</strong> das Spiel umgesetzt. So kann der Nutzer <strong>in</strong> e<strong>in</strong>em Spielbeispielsweise e<strong>in</strong>en virtuellen Kopf mit se<strong>in</strong>en Händen waschen (vgl. Abb. 1.3) oder mitse<strong>in</strong>em Kopf e<strong>in</strong>en Fußball <strong>in</strong> der Luft halten. Der Nutzer wird dabei ebenfalls auf demBildschirm dargestellt und so optisch <strong>in</strong> das Spiel <strong>in</strong>tegriert.Aufgrund dieser Vorarbeiten und der beg<strong>in</strong>nenden kommerziellen Entwicklung ergibt siche<strong>in</strong> großer Forschungsbedarf <strong>in</strong> <strong>in</strong>teraktiver AR, wobei hier <strong>in</strong>sbesondere das Szenario derComputerspiele sehr vielversprechend ersche<strong>in</strong>t.1.4 LösungsansatzIn vielen Bereichen der Industrie wird bereits seit Jahren die Technologie der Virtual <strong>Reality</strong>(VR) (vgl. Kapitel 2.1.2) verwendet. Diese Technik ermöglicht die Visualisierung von künstlichgenerierten Objekten <strong>in</strong> Echtzeit und <strong>in</strong> stereoskopischer Darstellung. Im Designprozessentstandene virtuelle Modelle können so kosten- und zeitgünstig betrachtet und bewertet werden.Die Herstellung realer Prototypen kann somit im frühen Stadium des Designprozessesm<strong>in</strong>imiert werden.Neben der VR hat sich die AR (vgl. Kapitel 2.1.1) entwickelt. Diese Technologie ist verwandtmit der VR. Sie ermöglicht die grafische Darstellung ähnlich der VR, jedoch mit demUnterschied, dass virtuelle Modelle nicht losgelöst von der realen Umwelt existieren müssen,sondern mit dieser <strong>in</strong> Wechselwirkung treten können. Somit wird die Darstellung virtuellerObjekte <strong>in</strong>nerhalb des realen Umfeldes des Nutzers ermöglicht. Dabei beschränkt sich dieDarstellung nicht auf e<strong>in</strong>e ausschließliche Überlagerung von realer und virtueller Umgebung,sondern die virtuelle steht <strong>in</strong> direkter Beziehung zur realen Umwelt. Auf diese Weise ersche<strong>in</strong>t5


KAPITEL 1.EINLEITUNGdie virtuelle Umgebung dem Nutzer als <strong>in</strong>tegrierter Bestandteil se<strong>in</strong>er realen Umgebung.Vergleicht man die Anwendungsgebiete der beiden Technologien mit dem Streben derComputerspiele nach immer stärkerer Realitätsnähe, zeigt sich, dass der E<strong>in</strong>satz von VR undAR <strong>in</strong> der Spieledomäne e<strong>in</strong>e bahnbrechende Entwicklung ist. Der E<strong>in</strong>satz von VR ist beiaktuellen Computerspielen (zum Beispiel bei sogenannten „Ego-Shootern“) nicht mehr wegzu denken. Lediglich die Integration der virtuellen Spieleumgebung <strong>in</strong> die reale Umwelt desNutzers, welche die Verwendung von AR ermöglicht, fehlt hier. Der Nutzer wird also <strong>in</strong>nerhalbse<strong>in</strong>er realen Umgebung zum „Helden“ des virtuellen Spieles. Aufgrund der Mobilität vonAR-Systemen ist der Nutzer flexibel <strong>in</strong> der Wahl der Spieleumgebung. Durch Koppelung mehrererSysteme ist ebenfalls die Möglichkeit der geme<strong>in</strong>s<strong>am</strong>en Nutzung des Computerspielesmit Freunden gegeben. Hierbei kann die geme<strong>in</strong>s<strong>am</strong>e Verwendung sowohl räumlich geme<strong>in</strong>schaftlichals auch getrennt vorgenommen werden. Durch die Integration von natürlichenE<strong>in</strong>gabeformen, wie Sprache oder Gesten, kann <strong>in</strong> Komb<strong>in</strong>ation mit AR e<strong>in</strong>e Spieleumgebunggeschaffen werden, die sich im Idealfall nahtlos <strong>in</strong> die reale Umgebung des Nutzers e<strong>in</strong>gliedertund somit e<strong>in</strong> höchstes Mass an Immersion erzeugt.1.5 Gliederung der ArbeitDas folgende Kapitel 2 beg<strong>in</strong>nt mit der E<strong>in</strong>führung der Begriffe des Arbeitstitels, erläutertdanach Grundlagen von Koord<strong>in</strong>atensystemen und Koord<strong>in</strong>atentransformationen, vermitteltdie notwendige Hardware für die Darstellung virtueller <strong>Umgebungen</strong> und stellt die zugrundeliegendeSoftwareplattform vor, die <strong>in</strong> der Arbeit entwickelt und verwendet wurde.Die <strong>Interaktion</strong>smöglichkeiten zwischen Mensch und Masch<strong>in</strong>e werden <strong>in</strong> den Kapiteln 3und 4 behandelt. Hier wird <strong>in</strong> den beiden Kapiteln unterschieden zwischen der <strong>Interaktion</strong>von der Masch<strong>in</strong>e zum Menschen und vom Menschen zur Masch<strong>in</strong>e. Dabei werden Verfahrenvorgestellt, die <strong>Augmented</strong> und Virtual <strong>Reality</strong> ebenso wie virtuelle Akustik als Ausgabee<strong>in</strong>b<strong>in</strong>den. Für e<strong>in</strong>e E<strong>in</strong>gabe werden drei Möglichkeiten zur Gestenerkennung präsentiert.Kapitel 5 beschreibt e<strong>in</strong> Verfahren, <strong>Interaktion</strong> zwischen realen und virtuellen Objektenzu ermöglichen, sowie e<strong>in</strong>e Umsetzung e<strong>in</strong>es Videokonferenzsystem für <strong>in</strong>terpersonelle <strong>Interaktion</strong>.Anschließend werden zwei Beispielapplikationen vorgestellt, die die zuvor vorgestellten<strong>Interaktion</strong>smöglichkeiten <strong>in</strong> e<strong>in</strong>er Applikation vere<strong>in</strong>en. BillARd - <strong>Augmented</strong> <strong>Reality</strong> Billard<strong>in</strong> Kapitel 6.1 und Bowl-AR-<strong>am</strong>a - <strong>Augmented</strong> <strong>Reality</strong> Bowl<strong>in</strong>g <strong>in</strong> Kapitel 6.2.Nach der Beschreibung dieser Applikationen werden auf dem System durchgeführte Evaluierungenund deren Ergebnisse <strong>in</strong> Kapitel 7 vorgestellt.Abgeschlossen wird diese Arbeit dann mit e<strong>in</strong>em Resumee <strong>in</strong> Kapitel 8, das die Arbeitkurz zus<strong>am</strong>menfasst, deren Ergebnisse diskutiert und e<strong>in</strong>en Ausblick auf weiterführende Forschungsschwerpunktegibt.6


KAPITEL 2Thematische GrundlagenDieses Kapitel beschäftigt sich mit den Grundlagen, die zum Verständnis des Arbeitstitelsnotwendig s<strong>in</strong>d. Hierzu zählen die Def<strong>in</strong>itionen von VR, AR sowie deren thematischeAbgrenzung gegene<strong>in</strong>ander. Für die Berechnung von virtuellen <strong>Umgebungen</strong> s<strong>in</strong>d Koord<strong>in</strong>atensysteme(KOS) und Koord<strong>in</strong>atentransformationen unerlässlich und werden daher ebensokurz vorgestellt wie diesen Systemen zugrunde liegende Hardware-Komponenten. Ebenfallsthematisiert das Kapitel die Grundlagen der multimodalen <strong>Interaktion</strong> zwischen Mensch undMasch<strong>in</strong>e und der daraus resultierenden Verknüpfung mehrerer <strong>Interaktion</strong>skanäle. Dabeiversucht dieses Kapitel jedoch nicht, technische Details e<strong>in</strong>zelner Technologien zu erläutern,sondern deren fund<strong>am</strong>entale Funktionsweise aufzuzeigen. Für die Umsetzung der e<strong>in</strong>zelnenMethoden im Detail <strong>in</strong> dieser Arbeit sei hiermit auf die entsprechenden Kapitel verwiesen.2.1 <strong>Augmented</strong> und Virtual <strong>Reality</strong>Im folgenden Kapitel werden die Grundzüge der AR und VR erläutert, deren grundsätzlicherSystemaufbau sowie deren Abgrenzung zue<strong>in</strong>ander.2.1.1 <strong>Augmented</strong> <strong>Reality</strong>AR bescheibt die Überlagerung von realen und virtuellen Informationen. Der Nutzer wirdhierbei nicht von der realen Umgebung abgeschnitten, vielmehr wird die virtuelle Umgebung<strong>in</strong> die reale Umgebung e<strong>in</strong>gebettet. Der Nutzer kann daher nicht nur mit der realen sondernauch mit der virtuellen Umgebung <strong>in</strong>teragieren. Der Wahrnehmungsbereich des Nutzers umfassthier also sowohl die reale Umgebung als auch die virtuelle Umgebung. Ebenfalls stehtdie reale Umgebung <strong>in</strong> direktem Bezug mit der virtuellen Umgebung. Es werden also beide<strong>Umgebungen</strong> nicht nur überlagert, sondern <strong>in</strong> der Darstellung <strong>in</strong>haltlich richtig komb<strong>in</strong>iert.Verdeutlichen lässt sich dieser Zus<strong>am</strong>menhang durch das „Realitäts-Virtualitäts-Kont<strong>in</strong>uum“(siehe Abb. 2.1) nach [57].Das „Realitäts-Virtualitäts-Kont<strong>in</strong>uum“ zeigt den Zus<strong>am</strong>menhang zwischen der realen undder virtuellen Umgebung. Der Bereich dazwischen wird als gemischte Realität bezeichnet. Jenach Ausgangslage der Anreicherung spricht man von Erweiterter Realität bzw. ErweiterterVirtualität. Wird e<strong>in</strong>er realen Umgebung virtuelle Information zugefügt, spricht man vonErweiterter Realität.7


KAPITEL 2.THEMATISCHE GRUNDLAGENgemischte Realität(Mixed <strong>Reality</strong>)reale Umgebung(<strong>Reality</strong>)Erweiterte Realität(<strong>Augmented</strong> <strong>Reality</strong>)Erweiterte Virtualität(<strong>Augmented</strong> Virtuality)virtuelle Umgebung(Virtuality)Abbildung 2.1: Realitäts-Virtualitäts-Kont<strong>in</strong>uum nach [57]AR muss nach [5] drei Anforderungen erfüllen. Die Darstellung von realer und virtuellerUmgebung muss komb<strong>in</strong>iert se<strong>in</strong>. Die realen und virtuellen Informationen müssen 3-dimensional zue<strong>in</strong>ander <strong>in</strong> Bezug stehen. Zudem muss die Darstellung und die Interaktivität<strong>in</strong> Echtzeit erfolgen. Aus der letzten Anforderung ergibt sich, dass nicht alle Fälle von gemischterRealität zur AR gezählt werden dürfen. Filme, die auf virtuelle Ergänzung der Realitätsetzen, wie zum Beispiel „Roger Rabbit“, werden folglich nicht als AR gewertet.E<strong>in</strong> AR-System besteht im Allgeme<strong>in</strong>en aus drei grundlegenden Bestandteilen. Die aktuellePosition und Orientierung des Nutzers im Raum erfasst e<strong>in</strong> Track<strong>in</strong>gsystem (vgl. Kap. 2.3.1).Aus diesen Daten berechnet das Visualisierungssystem den aktuellen virtuellen Sichtbereichdes Nutzers. Zus<strong>am</strong>men mit den zugrundeliegenden 3-D-Modellen sowie derer Position undOrientierung <strong>in</strong>nerhalb des Raums wird der Sichtbereich visualisiert (vgl. Kap. 2.3.2). DieKomb<strong>in</strong>ation von realem und virtuellem Sichtbereich erfolgt über zwei verschiedene Technologien.Die erste Variante erlaubt dem Nutzer, den realen Sichtbereich direkt wahr zunehmen. Hierbei erfolgt die Überlagerung mittels e<strong>in</strong>es optischen Mediums, das sowohl diedirekte Wahrnehmung der realen Umgebung als auch von virtuellen Informationen erlaubt.Die zweite Variante komb<strong>in</strong>iert den realen und virtuellen Sichtbereich, ohne dass e<strong>in</strong>e direkteWahrnehmung der realen Umgebung möglich ist. Hierbei wird der aktuelle, reale Sichtbereichdes Nutzers, der über e<strong>in</strong>e K<strong>am</strong>era erfasst wird, mit dem virtuellen Sichtbereich überlagert.Das komb<strong>in</strong>ierte Ausgangsbild wird dem Nutzer anschließend auf e<strong>in</strong>em Ausgabemedium dargestellt.Für die Umsetzung <strong>in</strong> dieser Arbeit wurde Variante zwei gewählt. Dem Nutzer e<strong>in</strong>esAR-Systems stehen neben der Ausgabe optional auch E<strong>in</strong>gabegeräte zur Verfügung, mittelsderer die aktuelle virtuelle Umgebung manipuliert werden kann. Diese E<strong>in</strong>gaben fließen auchhier <strong>in</strong> die Visualisierung e<strong>in</strong> und führen somit zu wahrnehmbaren Veränderungen der Ausgabe(vgl. Abb. 2.2).Der E<strong>in</strong>satz von AR nahm se<strong>in</strong>e Anfänge beim Militär. Soldaten werden bis heute zusätzlicheInformationen über ihr Helmvisier e<strong>in</strong>geblendet [86]. Ebenfalls können Soldaten Navigationsunterstützungerhalten, <strong>in</strong>dem Informationen bezüglich der Routenplanung <strong>in</strong> unbekanntemGelände mittels e<strong>in</strong>es Displays angezeigt und mit ihrer Umwelt überlagert werdenkönnen (beispielsweise das „BARS“ System [37] oder [48]).E<strong>in</strong> weiteres Anwendungsfeld f<strong>in</strong>det sich <strong>in</strong> der Mediz<strong>in</strong>, <strong>in</strong> der Patientendaten währendOperationen über den Patienten überlagert werden. So ist es möglich, zuvor aufgenommeneRöntgendaten positionsgenau mit der zu operierenden Stelle zu überlagern [25].Für den privaten Anwender zeigt sich die Verwendung von AR mehr und mehr bei derÜbertragung im Fernsehen. Hierbei werden Informationen, die für den Zuschauer relevants<strong>in</strong>d, zum aktuellen Geschehen h<strong>in</strong>zugefügt. Dabei ist zu unterscheiden, ob diese Informationenstatisch e<strong>in</strong>geblendet werden oder ob sie passend zur Szene überlagert werden. ErsterFall, beispielsweise die E<strong>in</strong>blendung von Rundenzeiten bei Motorsportübertragungen zählenper Def<strong>in</strong>ition nicht zu AR, da sie mit der Umgebung nicht <strong>in</strong> Bezug stehen. Zweiter Fallh<strong>in</strong>gegen kann als AR betrachtet werden. Hier wird beispielsweise bei Übertragungen von8


2.1. AUGMENTED UND VIRTUAL REALITYRealeRealeObjekteObjekteTrack<strong>in</strong>gTrack<strong>in</strong>gAusgabeAusgabeVisualisierungVisualisierungBerechnungBerechnung3-D-Modell3-D-ModellNutzerNutzerE<strong>in</strong>gabeE<strong>in</strong>gabeK<strong>am</strong>eraK<strong>am</strong>eraAbbildung 2.2: Schematischer Aufbau e<strong>in</strong>es <strong>Augmented</strong> <strong>Reality</strong> SystemsFußballspielen kontextabhängig Information zum Spielgeschehen h<strong>in</strong>zugefügt (beispielsweisewird die Tordistanz bei e<strong>in</strong>em Freistoß anhand e<strong>in</strong>es Pfeiles angezeigt [49]).Auch im privaten G<strong>am</strong><strong>in</strong>gsektor kommt Technologie, ähnlich der AR, mehr und mehr zumE<strong>in</strong>satz. So ermöglicht die „Playstation 2“ mittels se<strong>in</strong>er „Eyetoy“ Technologie die Integrationdes Nutzers <strong>in</strong> das aktuelle Spielgeschehen [23].2.1.2 Virtual <strong>Reality</strong>VR beschreibt e<strong>in</strong>e vollständig vom Computer generierte Umgebung, <strong>in</strong> die e<strong>in</strong> Nutzer e<strong>in</strong>tauchenkann. Der Nutzer bef<strong>in</strong>det sich zwar <strong>in</strong> der realen Umgebung, diese wird jedochvollständig vom Nutzer abgeschirmt, sodass e<strong>in</strong>e <strong>Interaktion</strong> des Nutzers nur noch mit dervirtuellen Umgebung erfolgt. Der Wahrnehmungsbereich des Nutzers wird also auf die re<strong>in</strong>virtuelle Umgebung beschränkt. E<strong>in</strong> VR-System besteht im Allgeme<strong>in</strong>en, wie e<strong>in</strong> AR-System,aus drei grundlegenden Bestandteilen. E<strong>in</strong> Track<strong>in</strong>gsystem erfasst die aktuelle Position undOrientierung des Nutzers im Raum relativ zu e<strong>in</strong>em fest def<strong>in</strong>ierten WeltKOS. Dem Visualisierungssystemstehen diese Informationen bezüglich des Nutzers zur Verfügung und es berechnetdaraus den aktuellen Sichtbereich des Nutzers <strong>in</strong>nerhalb der virtuellen Umgebung. Alle virtuellenObjekte liegen dem Visualisierungssystem als 3-D-Modell vor. Alle Objekte, die sich<strong>in</strong>nerhalb des Sichtbereiches des Nutzers bef<strong>in</strong>den, werden anschließend vom Visualisierungssystemberechnet und auf das Ausgabesystem geleitet. Auf diese Weise wird dem Nutzer derfür ihn sichtbare Ausschnitt aus der virtuellen Umgebung zur Verfügung gestellt. Als Ausgabesystemwerden im Allgeme<strong>in</strong>en herkömmliche Monitore für Desktop Anwendungen bis h<strong>in</strong>zu komplexen Anordnungen von Projektionswänden (sogenannte CAVEs) verwendet. Nebendem Ausgabesystem stehen dem Nutzer e<strong>in</strong>es VR-Systems optional auch E<strong>in</strong>gabegeräte e<strong>in</strong>esE<strong>in</strong>gabesystems zur Verfügung, mittels derer die aktuelle virtuelle Umgebung manipuliertwerden kann. Diese E<strong>in</strong>gaben fließen <strong>in</strong> die Visualisierung e<strong>in</strong> und führen somit zu wahrnehmbarenVeränderungen der Ausgabe (vgl. Abb. 2.3). Übliche E<strong>in</strong>gabegeräte s<strong>in</strong>d hierbei taktileE<strong>in</strong>gabegeräte, wie etwa e<strong>in</strong>e Maus oder e<strong>in</strong> Datenhandschuh.VR f<strong>in</strong>det zahlreichen E<strong>in</strong>satz <strong>in</strong> den verschiedensten Bereichen. So wird die virtuelle9


KAPITEL 2.THEMATISCHE GRUNDLAGENTrack<strong>in</strong>gTrack<strong>in</strong>gAusgabeAusgabeVisualisierungVisualisierungBerechnungBerechnung3-D-Modell3-D-ModellNutzerNutzerE<strong>in</strong>gabeE<strong>in</strong>gabeAbbildung 2.3: Schematischer Aufbau e<strong>in</strong>es Virtual <strong>Reality</strong> SystemsDarstellung im Designprozess neuer Produkte, unter anderem dem Automobil [19], verwendetoder um Crash-tests zu simulieren [44]. Durch die schnelle Veränderbarkeit von virtuellenModellen lassen sich verschiedene Designvarianten <strong>in</strong> kurzer Zeit realisieren und darstellen.So wird e<strong>in</strong> großes Maß an Kosten und Zeit für Produktion von Prototypen e<strong>in</strong>gespart.2.1.3 Abgrenzung Virtual und <strong>Augmented</strong> <strong>Reality</strong>Betrachtet man also die Def<strong>in</strong>ition von VR und AR, ergeben sich deutliche Unterschiede.Während VR den Nutzer vollständig von se<strong>in</strong>er realen Umwelt trennt und an deren Stelle dievirtuelle Umgebung tritt, erweitert die AR die reale Umwelt des Nutzers mit der virtuellenUmgebung. Der Nutzer kann hier im Gegensatz zur VR sowohl mit se<strong>in</strong>em realen als auchse<strong>in</strong>em virtuellen Umfeld <strong>in</strong>teragieren. Aufgrund der unterschiedlichen Darstellungen ergebensich h<strong>in</strong>sichtlich der Hardware verschiedene Probleme. Die Rechen<strong>in</strong>tensität ist bei der VRhöher, als bei der AR, da hier die komplette Umgebung modelliert und visualisiert werdenmuss. AR dagegen stellt hier nur e<strong>in</strong>zelne Objekte grafisch dar. Diese Darstellung jedoch mussmit der realen Umwelt komb<strong>in</strong>iert werden. Daraus resultiert e<strong>in</strong>e exakte und positionsgenaueÜberlagerung der virtuellen mit der realen Umgebung. Diese Positionierung muss <strong>in</strong> Echtzeiterrechnet und grafisch visualisiert werden, um e<strong>in</strong> Nachziehen der virtuellen Umgebung <strong>in</strong> derrealen Umwelt zu verh<strong>in</strong>dern.2.2 Koord<strong>in</strong>atensysteme und -transformationenFür die <strong>Augmented</strong> <strong>Reality</strong> haben KOS und deren Beziehung zue<strong>in</strong>ander e<strong>in</strong>e sehr großeBedeutung. Um berechnen zu können, welchen Ausschnitt e<strong>in</strong> Nutzer aktuell durch e<strong>in</strong> Head-Mounted-Display (HMD) sieht, muss der Zus<strong>am</strong>menhang zwischen virtuellen Objekten unddem Betrachtungsw<strong>in</strong>kel des Nutzers berechnen werden. Hierfür werden drei KOS notwendig.Das WeltKOS (X W , Y W , Z W ) beschreibt das über allem liegende, globale KOS, <strong>in</strong> dem alleanderen KOS liegen. Innerhalb dieses KOS bef<strong>in</strong>den sich das ObjektKOS (X O , Y O , Z O ) unddas K<strong>am</strong>eraKOS (X K , Y K , Z K ). Das ObjektKOS dient der Beschreibung und der Abbildunge<strong>in</strong>es oder mehrerer virtueller Objekte. Diese werden <strong>in</strong> der Regel durch geometrische Angaben,wie etwa Form oder Positionen von Eckpunkten, <strong>in</strong>nerhalb dieses KOS modelliert. DasK<strong>am</strong>eraKOS beschreibt die Position und Orientierung der K<strong>am</strong>era, aus deren Sicht die Szene10


2.2. KOORDINATENSYSTEME UND -TRANSFORMATIONENbetrachtet wird. Diese Sicht steht <strong>in</strong> der Regel stellvertretend für die Blickrichtung des Augese<strong>in</strong>es Nutzers. Für die Verwendung e<strong>in</strong>es HMDs, das sich der Video-See-Through Technologiebedient, wird die Position der K<strong>am</strong>era <strong>in</strong> diesem K<strong>am</strong>eraKOS angegeben. Diese Position undOrientierung wird durch e<strong>in</strong>e Kalibrierung des HMDs vorgenommen.Abb. 2.4 verdeutlicht nochmals den Zus<strong>am</strong>menhang der drei KOS, hier vere<strong>in</strong>facht dargestelltfür e<strong>in</strong>en zweidimensionalen Fall. Im WeltKOS bef<strong>in</strong>det sich e<strong>in</strong> Objekt und e<strong>in</strong>eK<strong>am</strong>era, die das Objekt betrachtet. Es wird deutlich, dass das Objekt nicht vollständig imK<strong>am</strong>erasichtfeld liegt und somit nur teilweise dargestellt wird.Y OObjektY WY KX OX KK<strong>am</strong>eraX WAbbildung 2.4: Zus<strong>am</strong>menhang der Koord<strong>in</strong>atensysteme <strong>in</strong> 2-DUm nun die Beziehung zwischen diesen KOS zu errechnen, werden Transformationen benötigt.Transformationen beschreiben den Übergang e<strong>in</strong>es AusgangsKOS (X 1 , X 2 , X 3 , ..., X N )<strong>in</strong> e<strong>in</strong> neues KOS (X ′ 1, X ′ 2, X ′ 3, ..., X ′ N). Dabei s<strong>in</strong>d drei Basistransformationen gebräuchlich.Diese s<strong>in</strong>d die Translation, die e<strong>in</strong>e Verschiebung e<strong>in</strong>es KOS bezeichnet (vgl. Abb. 2.5), dieRotation, mit der die Drehung e<strong>in</strong>es KOS beschrieben wird (vgl. Abb. 2.6), und die Skalierung,mit der Änderungen der Größe abgebildet werden (vgl. Abb. 2.7). Liegen diesen Basistrans-Z TZ WY TY Wy tz tX Tx tX WAbbildung 2.5: Translation e<strong>in</strong>es Koord<strong>in</strong>atensystems11


KAPITEL 2.THEMATISCHE GRUNDLAGENZ RZ WY WY RβX WX RAbbildung 2.6: Rotation (um die Z-Achse) e<strong>in</strong>es Koord<strong>in</strong>atensystemsZ WZ SY WY SszsyX Ss xX WAbbildung 2.7: Skalierung e<strong>in</strong>es Koord<strong>in</strong>atensystemsformationen kartesische Koord<strong>in</strong>aten zugrunde, ergibt sich für die Transformationsgleichungder Translation die neue Position p ′ zu⎛p ′ ⎞ ⎛ ⎞ ⎛ ⎞p ′ x t x p x⎜= ⎝p ′ ⎟ ⎜ ⎟ ⎜ ⎟y⎠ = ⎝t y ⎠ + ⎝p y ⎠p ′ z t z p zals Vektoraddition aus e<strong>in</strong>em Verschiebungsvektor t und dem Vektor der ursprünglichen Positionp. t besteht dabei aus den Komponenten t x , t y und t z , die jeweils die Verschiebungentlang der drei Basisachsen bezeichnen.Die Berechnung der Transformationsgleichung für e<strong>in</strong>e Rotation erfolgt im Allgeme<strong>in</strong>enbasierend auf der Rotation um jeweils e<strong>in</strong>e der drei Basisachsen und ergibt die neue Positionals Vektor p ′ für die Drehung η um die X-Achse zu⎛p ′ ⎞ ⎛⎞ ⎛ ⎞p ′ x 1 0 0 p x⎜= ⎝p ′ ⎟ ⎜⎟ ⎜ ⎟y⎠ = ⎝0 cos η − s<strong>in</strong> η⎠ · ⎝p y ⎠p ′ z 0 s<strong>in</strong> η cos η p zWird dagegen um den Wert θ um die Y-Achse rotiert, ergibt sich die Transformationsgleichungzu⎛p ′ ⎞ ⎛⎞ ⎛ ⎞p ′ x cos θ 0 s<strong>in</strong> θ p x⎜= ⎝p ′ ⎟ ⎜⎟ ⎜ ⎟y⎠ = ⎝ 0 1 0 ⎠ · ⎝p y ⎠− s<strong>in</strong> θ 0 cos θ p z12p ′ z


2.2. KOORDINATENSYSTEME UND -TRANSFORMATIONENE<strong>in</strong>e Drehung um die Z-Achse um φ ergibt folglich die Transformationsgleichung zu⎛p ′ ⎞ ⎛⎞ ⎛ ⎞p ′ x cos φ − s<strong>in</strong> φ 0 p x⎜= ⎝p ′ ⎟ ⎜⎟ ⎜ ⎟y⎠ = ⎝s<strong>in</strong> φ cos φ 0⎠ · ⎝p y ⎠p ′ z 0 0 1 p zDa die Reihenfolge der Abfolge der e<strong>in</strong>zelnen Drehungen zur Berechnung e<strong>in</strong>e Rolle spielt,ergibt sich e<strong>in</strong>e ges<strong>am</strong>te Transformationsgleichung für e<strong>in</strong>e Rotation um alle Basisachsen gemäßder Reihenfolge der Ausführung der e<strong>in</strong>zelnen Rotationen um die jeweilige Basisachse.Für e<strong>in</strong>e Rotation beg<strong>in</strong>nend um die X-Achse, gefolgt von e<strong>in</strong>er Drehung um die Y-Achse unde<strong>in</strong>er abschließenden Rotation um die Z-Achse ergibt sich dann die Transformationsgleichung⎛p ′ ⎞ ⎛⎞ ⎛⎞ ⎛⎞ ⎛ ⎞p ′ x 1 0 0 cos θ 0 s<strong>in</strong> θ cos φ − s<strong>in</strong> φ 0 p x⎜= ⎝p ′ ⎟ ⎜⎟ ⎜⎟ ⎜⎟ ⎜ ⎟y⎠ = ⎝0 cos η − s<strong>in</strong> η⎠ · ⎝ 0 1 0 ⎠ · ⎝s<strong>in</strong> φ cos φ 0⎠ · ⎝p y ⎠p ′ z 0 s<strong>in</strong> η cos η − s<strong>in</strong> θ 0 cos θ 0 0 1 p z⎛⎞ ⎛ ⎞cos φ cos θ − s<strong>in</strong> φ cos θ s<strong>in</strong> θ p x⎜⎟ ⎜ ⎟= ⎝s<strong>in</strong> φ cos η + cos φ s<strong>in</strong> θ s<strong>in</strong> η cos φ cos η − s<strong>in</strong> φ s<strong>in</strong> θ s<strong>in</strong> η − cos θ s<strong>in</strong> η⎠ · ⎝p y ⎠s<strong>in</strong> φ cos η − cos φ s<strong>in</strong> θ cos η cos φ s<strong>in</strong> η + s<strong>in</strong> φ s<strong>in</strong> θ cos η cos θ cos η p zHierbei bezeichnen die W<strong>in</strong>kel η den W<strong>in</strong>kel der Drehung um die X-Achse, θ den W<strong>in</strong>kel derDrehung um die Y-Achse und φ den W<strong>in</strong>kel der Drehung um die Z-Achse. Es ergibt sich alsozur Berechnung e<strong>in</strong>e Multiplikation zwischen der resultierenden Rotationsmatrix R und demVektor p, der die Position des KOS beschreibt.Die Berechnung für die Skalierung ergibt für die neue Position p ′ die Transformationsgleichung⎛p ′ ⎞ ⎛ ⎞p ′ x s x · p x⎜= ⎝p ′ ⎟ ⎜ ⎟y⎠ = ⎝s y · p y ⎠p ′ z s z · p zwobei hier e<strong>in</strong>e Vektormultiplikation zwischen dem Skalierungsvektor s mit den Elementens x , s y und s z und der aktuellen Position p vorgenommen wird.Soll nun also der Zus<strong>am</strong>menhang zweier KOS berechnet werden, ergibt sich diese ause<strong>in</strong>er Komb<strong>in</strong>ation der drei Basistransformationen als e<strong>in</strong>e Mischung von Vektoradditionen,Matrix-Vektor-Multiplikationen und Vektormultiplikation. Bei komplexeren Zus<strong>am</strong>menhängenergeben sich hier jedoch sehr schnell komplizierte Berechnungsvorschriften. Aus diesemGrund werden für die Berechnungen solcher Transformationsketten homogene Koord<strong>in</strong>atenherangezogen. Diese ermöglichen die Darstellung aller Basistransformationen mithilfe vonMatrix-Vektor-Multiplikationen <strong>in</strong> e<strong>in</strong>er modularen Verkettung. Bei den homogenen Koord<strong>in</strong>atenwerden die kartesischen Koord<strong>in</strong>aten um die Komponente h erweitert. Diese wird <strong>in</strong>der Regel mit dem Wert 1 belegt. Daraus ergibt sich p homogenzu⎛ ⎞p xp p homogen= y⎜ ⎟⎝p z ⎠113


KAPITEL 2.THEMATISCHE GRUNDLAGENDie daraus resultierende allgeme<strong>in</strong>e Transformationsgleichung <strong>in</strong> homogenen Koord<strong>in</strong>atenp ′ = T · pbeschreibt somit den Zus<strong>am</strong>menhang zweier KOS. In homogenen Koord<strong>in</strong>aten ergeben sichdie Basistransformationen für die Translation zu⎛p ′ ⎞ ⎛⎞ ⎛ ⎞x 1 0 0 t x p xp ′ p=′ y⎜⎝p ′ ⎟z⎠ = 0 1 0 t y⎜⎟⎝0 0 1 t z ⎠ ·p y⎜ ⎟⎝p z ⎠1 0 0 0 1 1wobei hier die Komponenten t x , t y und t z jeweils die Verschiebung entlang der Basisachsebeschreibt. Die Rotationsmatrix ergibt sich bei Berücksichtigung der Reihenfolge X-, Y- undZ-Achse zu⎛p ′ ⎞xp ′ p=′ y⎜⎝p ′ ⎟z⎠1⎛⎞ ⎛ ⎞cos φ cos θ − s<strong>in</strong> φ cos θ s<strong>in</strong> θ 0 p xs<strong>in</strong> φ cos η + cos φ s<strong>in</strong> θ s<strong>in</strong> η cos φ cos η − s<strong>in</strong> φ s<strong>in</strong> θ s<strong>in</strong> η − cos θ s<strong>in</strong> η 0= ⎜⎟⎝s<strong>in</strong> φ cos η − cos φ s<strong>in</strong> θ cos η cos φ s<strong>in</strong> η + s<strong>in</strong> φ s<strong>in</strong> θ cos η cos θ cos η 0⎠ ·p y⎜ ⎟⎝p z ⎠0 0 0 1 1wobei hier die W<strong>in</strong>kel η, θ und φ jeweils den Drehw<strong>in</strong>kel um die Basisachse bezeichnet. DieSkalierung ergibt sich folglich zu⎛p ′ ⎞ ⎛⎞ ⎛ ⎞x s x 0 0 0 p xp ′ p=′ y⎜⎝p ′ ⎟z⎠ = 0 s y 0 0⎜⎟⎝ 0 0 s z 0⎠ ·p y⎜ ⎟⎝p z ⎠1 0 0 0 1 1mit den Skalierungswerten s x , s y und s z für jede Basisachse.Mit homogenen Koord<strong>in</strong>aten kann also e<strong>in</strong>e komplexe Transformationskette <strong>in</strong> kartesischenKoord<strong>in</strong>aten <strong>in</strong> e<strong>in</strong>e e<strong>in</strong>fachere Multiplikation von Matrizen überführt werden. Dadurch werdennicht nur Rundungsfehler m<strong>in</strong>imiert, die durch mehrfache verschiedene Rechenoperationenauftreten können, sondern auch effizientere Algorithmen verwendbar, die auf die Berechnungvon Matrixmultiplikationen h<strong>in</strong> optimiert s<strong>in</strong>d. Aufgrund der Assoziativität von Matrizenmultiplikationenkönnen aufe<strong>in</strong>anderfolgende Matrizen zu e<strong>in</strong>er e<strong>in</strong>zigen Matrix zus<strong>am</strong>mengefasstwerden. Dadurch lassen sich komplexe Berechnungen <strong>in</strong> kürzerer Zeit ausführen. Neben diesemVorteil ist es auch möglich, verschiedene Schritte <strong>in</strong>nerhalb e<strong>in</strong>er Transformationsketteauszutauschen oder Schritte e<strong>in</strong>zufügen. Während bei kartesischen Koord<strong>in</strong>aten hierfür meistdie ges<strong>am</strong>te Transformationskette neu berechnet werden muss, genügt bei der Verwendungvon homogenen Koord<strong>in</strong>aten das Austauschen, H<strong>in</strong>zufügen oder Entfernen e<strong>in</strong>er Matrix.Homogene Koord<strong>in</strong>aten werden jedoch nur <strong>in</strong>nerhalb der Software verwendet. Die Modellierungvon Objekten oder die Positionierung von KOS oder Objekten erfolgt <strong>in</strong> kartesischenKoord<strong>in</strong>aten. Diese werden dann von der Software zur Berechnung der Visualisierung automatisch<strong>in</strong> e<strong>in</strong>e homogene Darstellung transformiert.14


2.3. ÜBERBLICK ÜBER HARDWARE ZUR DARSTELLUNG VIRTUELLERSZENARIEN2.3 Überblick über Hardware zur Darstellung virtuellerSzenarienDas folgende Kapitel beschreibt verschiedene Komponenten, die zur Darstellung von virtuellen<strong>Umgebungen</strong> notwendig s<strong>in</strong>d. Dabei bezieht sich das Kapitel auf die zwei wichtigsten Teile,das Track<strong>in</strong>g und die Techniken zur Visualisierung.Track<strong>in</strong>g ist notwendig, um die Position von Nutzer oder realen Objekten zu ermitteln. Inder Regel existiert e<strong>in</strong> übergeordnetes WeltKOS, <strong>in</strong> dem die virtuelle Umgebung angeordnetist. Innerhalb von diesem werden virtuelle Objekte platziert. Sollen diese nun an die realeUmgebung angepasst werden, müssen die Positionen von realen Objekten erfasst werden, umdiese <strong>in</strong> Wechselwirkung mit den virtuellen Objekten treten zu lassen. Weiterh<strong>in</strong> muss diePosition und Blickrichtung des Nutzers im WeltKOS bestimmt werden, d<strong>am</strong>it der <strong>in</strong> diesemSichtfeld darzustellende Bereich ermittelt werden kann. S<strong>in</strong>d nun <strong>in</strong> diesem Bereich virtuelleObjekte platziert, werden diese entsprechend ihrer Ausrichtung dargestellt. Hierbei werdenverschiedene Verfahren zur Darstellung unterschieden. Die Visualisierung kann entweder mittelse<strong>in</strong>es HMDs erfolgen oder über e<strong>in</strong>e Anzeigefläche, wie etwa e<strong>in</strong>en Monitor.2.3.1 Track<strong>in</strong>gsystemeUm Positionen von realen Objekten oder dem Nutzer messen zu können, stehen zwei grundsätzlicheMethoden zur Verfügung. Diese unterscheiden sich <strong>in</strong> der Verwendung von Markern.Markerbasierte Verfahren benötigen zusätzliche Hardware, die es dem Track<strong>in</strong>gsystem erlaubt,Daten zu erfassen. Diese Marker s<strong>in</strong>d <strong>in</strong> der Regel physikalische Objekte mit bestimmten Eigenschaften,nach denen das Erkennungssystem des Track<strong>in</strong>gsystems gezielt suchen kann.Diese Eigenschaften können beispielsweise optische, akustische oder magnetische Eigenschaftense<strong>in</strong>.Zu den markerbasierten, optischen Systemen gehört beispielsweise „ARToolkit“ [39], dase<strong>in</strong> frei verfügbares Fr<strong>am</strong>ework zur Markererkennung bereitstellt. Diese Marker bestehen ausauf Papier gedruckten, schwarzen Quadraten mit weissen <strong>in</strong>neren Quadraten. Durch Bildverarbeitungwerden die Konturen dieser Quadrate extrahiert und durch ihre projezierte Lagedie Anorndung <strong>in</strong> 3-D relativ zur K<strong>am</strong>era gemessen. Diese stellen dann die Grundlage e<strong>in</strong>esKOS, an dem e<strong>in</strong>e virtuelle Umgebung ausgerichtet werden kann. Weiterentwickelt für dieVerwendung auf mobilen Geräten wurde „ARToolkit“ zu „ARToolkitPlus“ [89].Ebenfalls markerbasiertes, optisches Track<strong>in</strong>g stellt Infrarot (IR)-Track<strong>in</strong>g dar, das u.a.<strong>in</strong> [29] verwendet wird. Hier werden Kugeln, die speziell im IR Bereich reflektieren, oder IRLight Emitt<strong>in</strong>g Diodes (LED) verwendet. K<strong>am</strong>eras senden IR Lichtblitze aus, die an denKugeln reflektiert werden. Diese Reflexionen werden von den K<strong>am</strong>eras aufgenommen undmittels Triangulation <strong>in</strong> 3-D-Koord<strong>in</strong>aten umgerechnet. An geometrischen Anordnungen solcherKugeln lässt sich e<strong>in</strong> KOS def<strong>in</strong>ieren, welches e<strong>in</strong>er AR Anwendung als Grundlage dienenkann.Neben den optischen, markerbasierten Methoden, kommen auch Track<strong>in</strong>gsysteme basierendauf magnetischen Eigenschaften zum E<strong>in</strong>satz, wie beispielsweise schon Ende der 70erJahre [71]. Dabei wird von e<strong>in</strong>em Sender e<strong>in</strong> magnetisches Feld erzeugt. Innerhalb von diesembewegen sich Sensoren, die durch die Bewegung im Magnetfeld Ströme messen können. Durchdie Messung dieser Ströme kann auf die Bewegung im Raum zurückgeschlossen werden. Zweider <strong>am</strong> meisten verbreiteten Systeme s<strong>in</strong>d das „Flock of Birds“ von „Ascension“ [17] und„Fastrack“ von „Polhemus“ [69].15


KAPITEL 2.THEMATISCHE GRUNDLAGENAkustische Track<strong>in</strong>gsysteme, wie beispielsweise das von „Intersense“ [34] angebotene „IS-900 <strong>in</strong>ertial-ultrasonic motion track<strong>in</strong>g system“, nutzen den Effekt von unterschiedlichen Laufzeitenvon akustischen Signalen. Dazu werden von mehreren, fest im Raum positioniertenSendern abwechselnd Signale im Ultraschall-Bereich ausgesandt, die dann von Empfängernaufgenommen werden. Aus jedem dieser Signale kann die Laufzeit zum entsprechenden Senderberechnet werden. Aus diesen Informationen kann dann auf die Position im Raum, relativ zuden Sendern, geschlossen werden.Markerlose Track<strong>in</strong>gsysteme benötigen ke<strong>in</strong>e Marker mit def<strong>in</strong>ierten Eigenschaften. MarkerloseSysteme zeichnen sich dadurch aus, dass sie ohne zusätzliche Hardware <strong>am</strong> Objektdessen Position und Orientierung ermitteln können. Dies wird ermöglicht durch die Erkennungder Geometrie des zu messenden Objektes, das zuvor als Modell zur Verfügung steht.Mittels Bildverarbeitung kann aus e<strong>in</strong>em 2-D-Bild, die 3-D-Information bzgl. des Objekteserrechnet werden [70]. E<strong>in</strong>e weitere Möglichkeit besteht im Vergleich des aktuellen K<strong>am</strong>erabildesmit zuvor aufgenommenen Referenzbildern [80]. Ebenfalls werden andere Ansätzeverfolgt, wie etwa die Hand des Nutzers als Marker zu verwenden und dessen Lage relativ zurK<strong>am</strong>era zu ermitteln [47].2.3.2 VisualisierungstechnikenUm virtuelle <strong>Umgebungen</strong> darstellen zu könnnen, wird e<strong>in</strong> System zur grafischen Ausgabebenötigt. Für die Verwendung <strong>in</strong> AR-Szenarien kommen hier nutzergebundene Systeme odernutzerungebundene Systeme zum E<strong>in</strong>satz. Nutzergebundene Systeme bef<strong>in</strong>den sich direkt<strong>am</strong> Nutzer und s<strong>in</strong>d mit diesem durch entsprechende Tragevorrichtungen fest verbunden.Nutzerungebundene Systeme dagegen s<strong>in</strong>d nicht fest mit dem Nutzer verbunden, sondernstehen entweder frei im Raum oder können vom Nutzer <strong>in</strong> die Hand genommen werden.Zu den nutzergebundenen Systemen gehören HMDs, die im verwendeten Visualisierungsverfahrenverschiedene Möglichkeiten anbieten [10]. Unterschieden wird hierbei die Darstellungmittels Video-See-Through (VST) (vgl. Abb. 2.8) und Optical-See-Through (OST) (vgl.Abb. 2.9).K<strong>am</strong>eraK<strong>am</strong>eraHMD (VST)BildverarbeitungBildverarbeitungDisplayDisplayAbbildungrealvirtuellAbbildung 2.8: Schematischer Aufbau e<strong>in</strong>es Head-Mounted-Displays mit Video-See-ThroughBei der VST bef<strong>in</strong>det sich vor dem Auge des Nutzers auf der Innenseite der Brille e<strong>in</strong>Display, über das grafische Ausgaben erfolgen (vgl. Abb. 2.10 (a)). Dabei wird der Nutzer16


2.3. ÜBERBLICK ÜBER HARDWARE ZUR DARSTELLUNG VIRTUELLERSZENARIENkomplett von se<strong>in</strong>er realen Umgebung abgeschnitten. Über e<strong>in</strong>e K<strong>am</strong>era, die auf der Vorderseiteder Brille angebracht ist, kann jedoch das Bild im Bereich des Blickw<strong>in</strong>kels vor derBrille erfasst werden und dem Nutzer über das Display angezeigt werden. Auf diese Weisekann er se<strong>in</strong>e Umgebung über das K<strong>am</strong>era-Display-System aufnehmen. Diese Methode bietetdie Möglichkeit, das aufgenommene Videobild mit zusätzlichen, virtuellen Informationenanzureichern und somit reale und virtuelle Umgebung zu überlagern. Durch Verwendung vone<strong>in</strong>er K<strong>am</strong>era und e<strong>in</strong>es Displays getrennt für jedes Auge ist e<strong>in</strong>e Darstellung <strong>in</strong> stereo möglich.Allerd<strong>in</strong>gs gestaltet sich diese Darstellung gerade im Nahbereich des Nutzers schwierig [1], dadie K<strong>am</strong>eras nicht wie die Augen auf e<strong>in</strong>en Punkt fixiert werden können, sondern starr <strong>in</strong> e<strong>in</strong>eRichtung blicken.HMD (OST)BildverarbeitungBildverarbeitungDisplayDisplayAbbildungrealvirtuellAbbildung 2.9: Schematischer Aufbau e<strong>in</strong>es Head-Mounted-Displays mit Optical-See-ThroughBei der OST wird die reale Umgebung des Nutzers nicht abgeschirmt. Statt e<strong>in</strong>em K<strong>am</strong>era-Display-System wird hier e<strong>in</strong> optisches Element verwendet, das es ermöglicht, die reale Umgebungmit virtuellen Informationen zu überlagern. Dies erfolgt <strong>in</strong> der Regel durch e<strong>in</strong>enhalbtransparenten Spiegel, auf den e<strong>in</strong> vom System erzeugter, virtueller Inhalt <strong>in</strong> das Augedes Nutzers gespiegelt werden kann (vgl. Abb. 2.10 (b)).(a) Darstellung mittels Video-See-Through(b) Darstellung mittels Optical-See-ThroughAbbildung 2.10: Nutzer mit Head-Mounted-DisplaysBeide vorgestellten Systeme bieten ihre Vor- und Nachteile. Das VST verursacht durch dieBerechnung der ges<strong>am</strong>ten Szene e<strong>in</strong>e Verzögerung zwischen Bewegungen des Nutzers und der17


KAPITEL 2.THEMATISCHE GRUNDLAGENDarstellung der Bewegung im Display. Das heisst, wenn sich der Nutzer <strong>in</strong> e<strong>in</strong>er Umgebungbewegt, hängt die Darstellung der Umgebung se<strong>in</strong>er eigenen Bewegung nach. Besonders trittdieser Effekt bei schnellen Kopfdrehungen auf. Weiterh<strong>in</strong> ist auch die Rate der dargestelltenFr<strong>am</strong>es begrenzt und erzeugt e<strong>in</strong> ruckelndes Bild der Umgebung. Durch die kompletteBerechnung der komb<strong>in</strong>ierten realen und virtuellen Szene werden jedoch reale und virtuelleUmgebung immer <strong>in</strong> korrektem Zus<strong>am</strong>menhang dargestellt, d.h. die Registrierung erfolgthier immer passend. Bei der Verwendung des OST dagegen ist immer e<strong>in</strong> Versatz zwischenrealen und virtuellen Objekten erkennbar, d.h. die Registrierung erfolgt nicht exakt [4]. Diesresultiert aus der getrennten Berechnung der virtuellen Umgebung und der „Darstellung“ derrealen Umgebung. Diese wird ohne Verzögerung abgebildet, da hier ke<strong>in</strong>e Berechnung erfolgenmuss. Durch diese Trennung kann die Darstellung mittels OST mit weniger Rechenlasterfolgen, da hier im Gegensatz zur VST nicht das komplette Videobild mit verarbeitet werdenmuss. Durch das Aufnehmen der Umgebung beim VST leidet auch die Darstellungsqualitätder realen Umgebung, da diese durch die verwendete Hardware, wie etwa K<strong>am</strong>eraqualitätund -auflösung, limitiert ist. E<strong>in</strong> weiterer großer Unterschied liegt <strong>in</strong> der verdeckenden Darstellungvirtueller Objekte und derer Farbe<strong>in</strong>grenzung. Bei der VST können virtuelle Objektevollkommen deckend vor das Videobild gelegt werden. Virtuelle Objekte können also realeObjekte völlig verdecken, so dass diese nicht mehr sichtbar s<strong>in</strong>d. Die OST dagegen kann dies,bis auf wenige Ausnahmen [42], nicht ermöglichen, da durch e<strong>in</strong>e e<strong>in</strong>fache Überlagerung zweieroptischer Strahlenwege ke<strong>in</strong>er vom anderen vollkommen verdeckt werden kann. Vor allemhelle, reale Objekte können somit von virtuellen Objekten nicht abgedeckt werden und sche<strong>in</strong>enimmer durch die virtuellen Objekte h<strong>in</strong>durch. Somit ist es auch nicht möglich, virtuelleObjekte <strong>in</strong> schwarz darzustellen.Nutzerungebundene Systeme vere<strong>in</strong>en Anzeigegeräte, wie beispielsweise e<strong>in</strong>en herkömmlichenMonitor, mobile Endgeräte [65], [88] oder e<strong>in</strong> Head-Up-Display (vgl. Abb. 2.12). Allenist hier geme<strong>in</strong>, dass sie nicht die komplette reale Umgebung des Nutzers erweitern, wie esetwa nutzergebundene Systeme ermöglichen. Vielmehr agieren diese Systeme als Darstellunge<strong>in</strong>es Ausschnittes der komb<strong>in</strong>ierten Umgebung (vgl. Abb. 2.11).18Abbildung 2.11: Darstellung mittels mobiler Endgeräte [88]Nutzergebundene Systeme erfordern e<strong>in</strong>e Kalibrierung, um den Zus<strong>am</strong>menhang zwischen


2.4. MULTIMODALE INTERAKTIONAbbildung 2.12: Darstellung e<strong>in</strong>es roten Quaders mittels e<strong>in</strong>es Head-Up-Displaysdem Blickw<strong>in</strong>kel des Nutzers und dem Sichtbereich des HMDs herzustellen. Da diese Systemedirekt mit dem Nutzer verbunden s<strong>in</strong>d, muss also e<strong>in</strong>e Bestimmung der Transformationzwischen dem angenommenen KOS des Auges des Nutzers und dem KOS des Displaysvorgenommen werden. Dabei muss die Translation und die Rotation zwischen beiden KOSberücksichtigt werden. Für diese Aufgabe existieren bereits Methoden, wie etwa <strong>in</strong> [39], [85]oder [27] beschrieben.2.4 <strong>Multimodale</strong> <strong>Interaktion</strong>Der Mensch <strong>in</strong>teragiert mit se<strong>in</strong>er Umwelt nicht nur <strong>in</strong> e<strong>in</strong>er monomodalen Art und Weise. Gesprächspartnerverwenden meist unbewusst verschiedene redundante Übertragungskanäle, umInformationen auszutauschen. Dabei wertet jeder Gesprächspartner alle angebotenen Kanäleaus und fügt deren Informationen zu e<strong>in</strong>er semantischen Bedeutung zus<strong>am</strong>men. So reagierenMenschen auf e<strong>in</strong>e „Ja-oder-Ne<strong>in</strong>“-Frage meist nicht nur mit e<strong>in</strong>er sprachlichen Antwort,sondern unterstützen diese auch noch mittels e<strong>in</strong>er Kopfgeste (Nicken oder Kopfschütteln).Auf diese Weise können Umwelte<strong>in</strong>flüsse, die die Übertragungsqualität e<strong>in</strong>es e<strong>in</strong>zelnen Kanalsbee<strong>in</strong>trächtigen, wie etwa schlechte Lichtverhältnisse oder Umgebungslärm, kompensiertwerden.Die Verarbeitung von S<strong>in</strong>neswahrnehmungen ist untergliedert <strong>in</strong> die Sensorik, Kognitionund Motorik (vgl. Abb. 2.13). Die Sensorik des Menschen fasst sämtliche Kanäle zus<strong>am</strong>men,mit denen der Mensch Informationen se<strong>in</strong>er Umgebung aufnehmen kann, wie zum BeispielSehen oder Hören. Die Kognition verarbeitet und komprimiert diese Informationen. Die Motorikfasst alle Kanäle des Menschen zus<strong>am</strong>men, mit denen der Mensch Informationen anse<strong>in</strong>e Umwelt abgibt, also zum beispielsweise Äußerungen <strong>in</strong> Form von Sprache oder Gestik.<strong>Multimodale</strong> <strong>Interaktion</strong> <strong>in</strong> der Mensch-Masch<strong>in</strong>e-Kommunikation (MMK) ist def<strong>in</strong>iertdurch die gleichzeitige Verwendbarkeit von verschiedenen Geräten zur E<strong>in</strong>gabe <strong>in</strong> e<strong>in</strong> System,beispielsweise mittels Gesten oder Sprache, <strong>in</strong> e<strong>in</strong>er s<strong>in</strong>nvollen Art und Weise, komb<strong>in</strong>iert mite<strong>in</strong>er multimodalen Ausgabe des Systems [64]. Erweitert wird diese Def<strong>in</strong>ition von [8] auf e<strong>in</strong>System, das Informationen über verschiedene Übertragungskanäle <strong>in</strong> mehreren Ebenen derAbstraktion repräsentiert und verändert. E<strong>in</strong> multimodales System ist demnach hauptsächlichdadurch charakterisiert, dass der Nutzer über verschiedene E<strong>in</strong>- und Ausgabekanäle mite<strong>in</strong>em System <strong>in</strong>teragieren kann. Um aus den E<strong>in</strong>gaben die Intention des Nutzers zu erken-19


KAPITEL 2.THEMATISCHE GRUNDLAGENAugenAugenOhrenOhrenHautHaut…SpracheSpracheMimikMimikGestikGestik…Sensorik Kognition MotorikAbbildung 2.13: Informationsverarbeitung des Menschennen, verwendet e<strong>in</strong> solches System Informationen, die von verschiedenen Erkennungssystemengeliefert werden. Aus diesen werden Inhalt und Bedeutung der E<strong>in</strong>gabe des Nutzers extrahiert.Im Gegensatz zu monomodaler <strong>Interaktion</strong> erhöht die multimodale <strong>Interaktion</strong> die Effizienz,die Robustheit gegenüber Fehlern und das Gefühl e<strong>in</strong>er natürlichen <strong>Interaktion</strong>, ähnlichwie die zwischenmenschliche Kommunikation. Die Verwendung verschiedener, auch redundanterE<strong>in</strong>gabemöglichkeiten eröffnet die Kompensation der auszutauschenden Daten. Übertragungskanäle,die aufgrund von Umwelte<strong>in</strong>flüssen <strong>in</strong> e<strong>in</strong>er schlechten Übermittlung der Informationresultieren, können durch die Verwendung von anderen Kanälen ausgeglichen werden.So kann e<strong>in</strong> System mit re<strong>in</strong> bildbasierter Gestenerkennung <strong>in</strong> Dunkelheit nur schlechteErgebnisse liefern, die Erkennungsrate e<strong>in</strong>es Spracherkenners dagegen leidet nur bei Störgeräuschen.E<strong>in</strong>e Komb<strong>in</strong>ation gleicht jeweils die schlechten Sichtverhältnisse oder die Umgebungsgeräuscheaus und erhöht d<strong>am</strong>it die Rate der Intentionserkennung. <strong>Multimodale</strong> <strong>Interaktion</strong>eröffnet außerdem jedem Nutzer die Wahlmöglichkeit der E<strong>in</strong>gabeart. So kann derNutzer se<strong>in</strong>e E<strong>in</strong>gabeart <strong>in</strong>dividuell an se<strong>in</strong>e Bedürfnisse anpassen. Der Nutzer kann d<strong>am</strong>itdas System mit der E<strong>in</strong>gabeart bedienen, die er persönlich für die notwendige E<strong>in</strong>gabe <strong>am</strong>besten geeignet empf<strong>in</strong>det. Auch dadurch lässt sich die Erkennungsrate des Systems erhöhen.Um aus verschiedenen E<strong>in</strong>gabekanälen e<strong>in</strong>e ges<strong>am</strong>theitliche Betrachtung der Informationenzu ermöglichen, müssen die Daten der E<strong>in</strong>gabekanäle zus<strong>am</strong>mengefasst werden. DieserVorgang wird als Fusion bezeichnet. Zur Datenfusion existieren verschiedene Ansätze, diegrundlegend <strong>in</strong> regelbasierte und stochastische Ansätze untergliedert werden. Bei regelbasiertenAnsätzen wird die Fusion mittels zuvor def<strong>in</strong>ierter Regeln durchgeführt. Dabei werdenbestimmte Ereignisse, beispielsweise das Erkennen e<strong>in</strong>es Wortes oder e<strong>in</strong>er Geste, oder Komb<strong>in</strong>ationenvon Ereignissen mit festgelegten Aktionen verknüpft. Beispielsweise verknüpft e<strong>in</strong>eRegel das Ereignis „Abspielen“ mit der Startfunktion des CD-Spielers. Bei stochastischen Ansätzenwird der Zeitpunkt der Fusion der Daten zur Unterscheidung herangezogen. Frühe Fusionauf Signalebene wird beispielsweise mittels Hidden-Markov-Modellen (HMMs) modelliert,späte Fusion auf semantischer Ebene mit Neuronalen Netzen oder dyn<strong>am</strong>ischen Bayes’schenNetzen.2.5 Umgesetzte SoftwarestrukturDieses Kapitel widmet sich der zugrundeliegenden Softwarestruktur. Dabei erläutert es wederDetails e<strong>in</strong>zelner Komponenten noch gibt es e<strong>in</strong>en detailierten Blick auf deren softwaretechnischeUmsetzung. Vielmehr dient dieses Kapitel dazu, e<strong>in</strong>en globalen Überblick über dasges<strong>am</strong>te System und die Wechselwirkung zwischen e<strong>in</strong>zelnen Komponenten zu vermitteln.20


2.5. UMGESETZTE SOFTWARESTRUKTUR2.5.1 AusgangsbasisAls Grundlage zur Umsetzung der Software <strong>in</strong> dieser Arbeit standen drei kommerziell verfügbareProdukte als Ausgangsbasis zur Verfügung. Dabei handelt es sich um e<strong>in</strong> Software-Fr<strong>am</strong>ework, das grundlegende Funktionalität zur Erstellung von virtuellen <strong>Umgebungen</strong> bereithält,sowie e<strong>in</strong> Track<strong>in</strong>gssystem, das auf IR basiert. Zur Visualisierung k<strong>am</strong> e<strong>in</strong> HMDmit stereoskopischer Video-See-Through-Technologie zum E<strong>in</strong>satz. Ausgehend von diesen dreiKomponenten und den an die Software gestellten Anforderungen, wurde e<strong>in</strong> Ges<strong>am</strong>tkonzeptfür e<strong>in</strong>e Softwarelösung entwickelt.„Unifeye SDK“ von „Metaio“ [56]Mit „Unifeye“ existiert e<strong>in</strong> sehr umfangreiches Fr<strong>am</strong>ework, mit dem sich viele Basisfunktionenzur Erzeugung von AR umsetzen lassen. Zu diesen Basisfunktionen zählen die Anb<strong>in</strong>dungan das ebenfalls bestehende IR-Track<strong>in</strong>gsystem, die Berechnung der Blickposition des Nutzersanhand von zuvor gemessenen Abweichungen zwischen K<strong>am</strong>era und Auge sowie Funktionen,die die direkte Erstellung und Veränderung von virtuellem Inhalt ermöglichen (vgl. Abb. 2.14).ARARControlControlMarkerMarkerTrack<strong>in</strong>gTrack<strong>in</strong>gARTARTTrack<strong>in</strong>gTrack<strong>in</strong>gTrack<strong>in</strong>gTrack<strong>in</strong>gARARSystemSystemRender<strong>in</strong>gRender<strong>in</strong>gDarstellungDarstellungAbbildung 2.14: Schematischer Aufbau des „Unifeye SDK“„Unifeye“ lässt sich als „ActiveX“ Komponente <strong>in</strong> eigene Applikationen e<strong>in</strong>b<strong>in</strong>den. Übere<strong>in</strong>e Schnittstelle lassen sich alle relevanten Befehle und Informationen der aktuellen <strong>Augmented</strong><strong>Reality</strong> Umgebung aufrufen und verändern. Zu diesem Funktionsumfang gehört dieAnb<strong>in</strong>dung an e<strong>in</strong> Track<strong>in</strong>gsystem (sowohl IR-Track<strong>in</strong>g der Firma ART (vgl. Kapitel 2.5.1) alsauch makerbasiertes Track<strong>in</strong>g), die Visualisierung der AR-Umgebung abhängig vom gewähltenTrack<strong>in</strong>gsystem sowie die Möglichkeit, die AR-Umgebung zu verändern. Die E<strong>in</strong>griffsmöglichkeitenauf die AR Umgebung erstrecken sich vom Erstellen und Zerstören von virtuellenObjekten über deren Manipulation h<strong>in</strong>sichtlich Position und Orientierung im Raum bis h<strong>in</strong>zu szenenspezifischen Par<strong>am</strong>etern.Die Darstellung der virtuellen Umgebung erfolgt durch die Angabe von e<strong>in</strong>em KOS e<strong>in</strong>erK<strong>am</strong>era relativ zu dem KOS der Welt. Hierbei wird der Sichtbereich durch die positiveZ-Achse def<strong>in</strong>iert. Die Richtung dieser Achse <strong>in</strong>nerhalb der Weltkoord<strong>in</strong>aten entspricht alsoder Blickrichtung der K<strong>am</strong>era, die diese virtuelle Szene betrachtet. Entsprechend diesesBlickw<strong>in</strong>kels wird die virtuelle Umgebung visualisiert.Aufgrund se<strong>in</strong>er Umsetzung ist die Komponente „Unifeye“ jedoch nur <strong>in</strong> der Lage, lokalvon e<strong>in</strong>er Applikation angesprochen zu werden. Diese Beschränkung auf den lokalen Betrieb,bei dem die Darstellung nur auf dem Computer, auf dem die Applikation läuft, erfolgt, limitiertdie Möglichkeit der Darstellung. E<strong>in</strong>e Synchronisation von mehreren, verteilten Computernist daher nicht möglich. Applikationen im Mehrnutzerbetrieb oder auch der Betriebe<strong>in</strong>es stereoskopischen HMDs entfallen.21


KAPITEL 2.THEMATISCHE GRUNDLAGEN„DTrack“ von „Advanced Realtime Technologies“ (A.R.T.) [2]Zur Lokalisation von Nutzern oder Objekten <strong>in</strong>nerhalb e<strong>in</strong>es WeltKOS wird e<strong>in</strong> Track<strong>in</strong>gsystembenötigt. Das <strong>in</strong> dieser Arbeit verwendete IR-Track<strong>in</strong>gsystem „DTrack“ von A.R.T.besteht im Wesentlichen aus den drei Kernkomponenten Target, K<strong>am</strong>era (vgl. Abb. 2.16) undSteuerung.Abbildung 2.15: Komponenten des Track<strong>in</strong>gsystems: K<strong>am</strong>era und TargetSechs IR-K<strong>am</strong>eras (vgl. Abb. 2.15) mit <strong>in</strong>tegrierten IR LEDs senden synchronisiert von derSteuerungssoftware IR-Blitze mit e<strong>in</strong>er Frequenz von 60 Hz aus. Kugeln, sogenannte Marker,mit besonders stark reflektierender Oberfläche im IR-Bereich, angeordnet <strong>in</strong> e<strong>in</strong>em Target (vgl.Abb. 2.15), reflektieren diesen Blitz. Die sechs K<strong>am</strong>eras nehmen jeweils aus deren Blickw<strong>in</strong>keldie Reflexionen auf und berechnen <strong>in</strong>nerhalb der Bilder jeweils die Position aller Reflexionen.Diese 2-D-Informationen leiten sie an die Steuerung zurück. Die Steuerung erhält also nachjedem IR-Blitz die 2-D-Informationen über die Reflexionspunkte im Raum.ZtYtK<strong>am</strong>eraK<strong>am</strong>era11K<strong>am</strong>eraK<strong>am</strong>era22Z wX tK<strong>am</strong>eraK<strong>am</strong>era33K<strong>am</strong>eraK<strong>am</strong>era44SteuerungSteuerungDatenY wX wTargetK<strong>am</strong>eraK<strong>am</strong>era55K<strong>am</strong>eraK<strong>am</strong>era66Abbildung 2.16: Schematischer Aufbau des Track<strong>in</strong>gsystemsBasierend auf e<strong>in</strong>er <strong>in</strong>itialen Kalibrierung wird e<strong>in</strong> WeltKOS (x w , y w , z w ) festgelegt (vgl.Abb. 2.16), welches den Bezugspunkt aller Messungen darstellt. Durch e<strong>in</strong>e weitere Kalibrierunge<strong>in</strong>es Targets wird e<strong>in</strong> TargetKOS an diesem Target ausgerichtet. Dabei unterscheidetdas Track<strong>in</strong>gsystem Targets anhand ihrer spezifischen Geometrie. Die Informationen bzgl.dieses relativen TargetKOS (x t , y t , z t ) werden vom Track<strong>in</strong>gsystem aufgenommen. Diese Informationbe<strong>in</strong>haltet die Transformation von Welt- und TargetKOS, die sich aus der Rotationund Translation relativ zum WeltKOS zus<strong>am</strong>mensetzt.Diese Information wird von der Steuerung <strong>in</strong> e<strong>in</strong> Daten-Paket mit def<strong>in</strong>iertem Format konvertiert(vgl. Abb. 2.17) und mittels e<strong>in</strong>er Netzwerkverb<strong>in</strong>dung an angeschlossene Computer22


2.5. UMGESETZTE SOFTWARESTRUKTUR6d2 [id1qu1][x1y1z1η1θ 1ϕ1][ R 1][id 2qu2][x2y2z2η2θ 2ϕ 2][ R 2]AnzahlTargetsKoord<strong>in</strong>atenvon Target 1Z-Rotationvon Target 1Abbildung 2.17: Versendetes Datenpaket des Track<strong>in</strong>gsystemszur weiteren Verarbeitung gesendet. Das Daten-Paket enthält die Anzahl der erkannten Targets,sowie die Translation und Rotation jedes der Targets im Raum. Dabei wird die Rotationsowohl als Drehw<strong>in</strong>kel um jede der drei Raumachsen als auch als Rotationsmatrix übermittelt.Die Berechnung der aktuellen Transformation erfolgt dabei mit e<strong>in</strong>er Wiederholrate von 60Hz.Head-Mounted-Display von „Trivisio“ [84]Um AR <strong>in</strong> die Umgebung des Nutzers e<strong>in</strong>blenden zu können, stand e<strong>in</strong> HMD der Firma „Trivisio“zur Verfügung. Dieses besteht im Wesentlichen aus zwei getrennten K<strong>am</strong>era-Display-Systemen. Pro Auge existiert e<strong>in</strong>e K<strong>am</strong>era, die mittels e<strong>in</strong>er Verb<strong>in</strong>dung über den „UniversalSerial Bus“ (USB) das aktuelle K<strong>am</strong>erabild an e<strong>in</strong>en Computer sendet. Auf diesem erfolgtdann die Berechnung des Bildes, das auf dem zugehörigen Display über e<strong>in</strong>en normalen Grafikausgangauf der Innenseite des HMD dargestellt werden soll. Auf diese Weise lässt sich dasSichtfeld des Nutzers für jedes Auge getrennt mit Informationen anreichern und somit e<strong>in</strong>stereoskopischer E<strong>in</strong>druck erweckt.2.5.2 ProblemstellungAn die Softwarestruktur stellen sich diverse Anforderungen. Ausgehend von der Themenstellungsoll die Software <strong>in</strong> der Lage se<strong>in</strong>, dem Nutzer multimodale <strong>Interaktion</strong> zu ermöglichen.Das bedeutet, dass e<strong>in</strong>e AR-Applikation sowohl multimodale E<strong>in</strong>gaben verarbeiten können alsauch multimodale Ausgaben produzieren muss. Die Anb<strong>in</strong>dung verschiedener Erkennersystememuss also aus Performance- und Kompatibilitätsgründen auf mehrere Computer verteiltwerden können. Auf diese Weise lässt sich die ges<strong>am</strong>te Systemlast gezielt auf verschiedeneSysteme verteilen. Hierbei sollen verschiedene Erkennersysteme unabhängig ihrer Plattforme<strong>in</strong>gebunden werden können. Aus denselben Gesichtspunkten ergibt sich die Notwendigkeit,die multimodale Ausgabe ebenfalls auf verschiedene Computer aufzuteilen. Hierbei ist e<strong>in</strong>besonderer Augenmerk auf die Synchronisation der visuellen Ausgabe zu legen, da das verwendeteModul „Unifeye SDK“ (vgl. Kapitel 2.5.1) nur auf den lokalen Betrieb ausgelegt ist.Die Auslegung der Software auf e<strong>in</strong> verteiltes Ges<strong>am</strong>tkonzept erfordert dabei also zw<strong>in</strong>genddie Möglichkeit, die aktuelle AR-Umgebung nicht nur lokal, sondern auch verteilt darstellenzu können. Die Visualisierung muss hierbei den engen Anforderungen h<strong>in</strong>sichtlich Latenzund Synchronisation genügen, sodass gewährleistet ist, dass zu jedem Zeitpunkt auf jedemComputer dieselbe Szene dargestellt wird.2.5.3 UmsetzungDie umgesetzte Softwarestruktur basiert auf dem Ansatz, möglichst viele e<strong>in</strong>zelne Komponentenauf spezielle, für diese Komponente optimierte Plattformen zu verteilen. Der gewählteAnsatz der Softwarestruktur ist also e<strong>in</strong> verteilter Ansatz.23


KAPITEL 2.THEMATISCHE GRUNDLAGENDabei werden die e<strong>in</strong>zelnen Komponenten auf jeweils eigene Rechner verteilt. Weiterh<strong>in</strong>ist die Softwarestruktur <strong>in</strong> drei Schichten untergliedert (vgl. Abb. 2.18).PrimärePrimäreSchichtSchichtApplikationslogikApplikationslogikSekundäreSekundäreSchichtSchichtModuleModuleTertiäreTertiäreSchichtSchichtHardwareHardwareAbbildung 2.18: Schichtenmodell der SoftwarestrukturDie primäre Schicht besteht aus der Applikationslogik, <strong>in</strong> der alle Informationen und Datenaller angeschlossenen Komponenten aus der sekundären Schicht ges<strong>am</strong>melt und verarbeitetwerden. Die Module der sekundären Schicht erhalten oder senden Daten an die Hardwareder tertiären Schicht. Die Umsetzung der sekundären Schicht erfolgt <strong>in</strong> der Bereitstellunge<strong>in</strong>zelner <strong>in</strong> sich abgeschlossener Module. Diese Module stellen der übergeordneten primärenSchicht Schnittstellen zur Verfügung, mittels derer Daten mit der Hardware der tertiärenSchicht ausgetauscht werden können. Die Module aus der sekundären Schicht s<strong>in</strong>d also soaufgebaut, dass sie von jeder beliebigen Applikation verwendet werden können. Des Weiterenmuss sich der Entwickler e<strong>in</strong>er Applikation nicht mit der Umsetzung auf Hardwareebenebefassen, sondern kann direkt mit den von den bereitgestellten Modulen übermittelten Datenarbeiten. In der tertiären Schicht f<strong>in</strong>det sowohl die direkte Kommunikation zwischen Hardwareund Software statt als auch die (Vor-)verarbeitung von Daten. So werden beispielsweise Datene<strong>in</strong>es Sensors aufgenommen und <strong>in</strong>terpretiert. Die Interpretation wird dann an die sekundäreSchicht übertragen, die sie der primären Schicht zur Verfügung stellt.Die konkrete Umsetzung dieser Architektur erfolgt auf die Zielplattform W<strong>in</strong>dows mittelsder Progr<strong>am</strong>miersprache C#. Die Module der sekundären Schicht wurden als Klassen umgesetzt,die <strong>in</strong> sich die ges<strong>am</strong>te Logik zur Kommunikation mit der angeschlossenen Hardwarebe<strong>in</strong>haltet. Aufgrund der Verteilung auf mehrere Rechner besteht e<strong>in</strong> Modul aus zwei Teilen,die mittels des „User Datagr<strong>am</strong> Protocols“ (UDP) und des „Transmission Control Protocols“(TCP) mite<strong>in</strong>ander kommunizieren und Daten austauschen (vgl. Abb. 2.19). Im Folgendenwerden der Teil, der mit der Applikationslogik kommuniziert, „Client“ und der Teil, der mitder Hardware Daten austauscht, „Server“ genannt.Die Module s<strong>in</strong>d <strong>in</strong> e<strong>in</strong>zelne Komponenten untergliedert. E<strong>in</strong>zelne Komponenten s<strong>in</strong>d beispielsweisedie Visualisierung der AR-Umgebung synchron auf verteilten Darstellungsrechnernmittels AR oder VR, die akustische Ausgabe von virtuellen Schallquellen sowie Komponenten,die die Anb<strong>in</strong>dung verschiedener E<strong>in</strong>gabesysteme, wie etwa e<strong>in</strong>en Sprach- oder Gestenerkenner,ermöglichen. Aufgrund der Umsetzung der Komponenten als e<strong>in</strong>zelne Klassen könnendie e<strong>in</strong>zelnen Komponenten auch über die primäre Schicht an andere Komponenten der sekundärenSchicht übergeben werden. Insofern muss die primäre Schicht nicht alle Daten dersekundären Schicht verwalten, sondern kann gezielt die Informationen e<strong>in</strong>er Komponente ane<strong>in</strong>e andere Komponente übergeben.24


2.5. UMGESETZTE SOFTWARESTRUKTURApplikations-Computer AR Computer 1ARARClientClientARARApplicationApplicationARARInterfaceInterfaceARARApplicationApplicationAR Computer 2HMDHMDARARInterfaceInterfaceARARApplicationApplicationHMDHMDVR ComputerVRVRClientClientVRVRInterfaceInterfaceVRVRApplicationApplicationProjektionProjektionVA ComputerVAVAClientClientVAVAInterfaceInterfaceVAVAApplicationApplicationKopfhörerKopfhörerGestenerkenner ComputerApplikationslogikGestenGestenClientClientTUITUIClientClientGestenGestenInterfaceInterfaceTUITUIInterfaceInterfaceGestenGestenApplicationApplicationTUI ComputerTUITUIApplicationApplicationGestenGestenControllerControllerTUITUIControllerControllerWII ComputerWIIWIIClientClientWIIWIIInterfaceInterfaceWIIWIIApplicationApplicationWIIWIIControllerControllerKollision ComputerKollisionKollisionClientClientKollisionKollisionInterfaceInterfaceKollisionKollisionApplicationApplicationK<strong>am</strong>eraK<strong>am</strong>eraVideokonferenz ComputerKonferenzKonferenzClientClientBowl<strong>in</strong>gBowl<strong>in</strong>gClientClientBillARdBillARdClientClientKonferenzKonferenzInterfaceInterfaceKonferenzKonferenzApplicationApplicationK<strong>am</strong>eraK<strong>am</strong>eraAbbildung 2.19: Schematischer Aufbau der Softwarestruktur25


KAPITEL 2.THEMATISCHE GRUNDLAGEN26


KAPITEL 3<strong>Interaktion</strong> der Masch<strong>in</strong>e zum MenschenE<strong>in</strong>er der beiden Kanäle der Informationsübertragung ist der Weg von der Masch<strong>in</strong>e zumMenschen. In dieser <strong>Interaktion</strong> liegt die Möglichkeit des Systems, Ausgaben für den Nutzerbereitzustellen, <strong>in</strong> denen der aktuelle Zustand des Systems übermittelt werden kann.Dieses Kapitel beschäftigt sich mit drei Möglichkeiten, Ausgaben des Systems an denNutzer zu reichen. Unterschieden wird hierbei die visuelle Darstellung mittels AR oder VRund die akustische Übermittlung durch die Verwendung e<strong>in</strong>es Systems zur Erzeugung vonVirtueller Akustik (VA) System.3.1 <strong>Augmented</strong> <strong>Reality</strong> zur visuellen DarstellungE<strong>in</strong> wesentlicher Bestandteil dieser Arbeit besteht dar<strong>in</strong>, AR als Ausgabemöglichkeit zur Visualisierungder virtuellen Umgebung nutzen zu können. Daher dient die <strong>in</strong> diesem Kapitelbeschriebene Komponente der grafischen Visualisierung der durch die AR-Applikation erzeugtenUmgebung. Grundlage dieser Komponente ist das „Unifeye SDK“ (vgl. Kapitel 2.5.1). Da„Unifeye SDK“ bereits viele Basisfunktionalitäten zur Erzeugung, Visualisierung und Manipulationvon virtuellen Objekten enthält, liegt <strong>in</strong> diesem Kapitel der Schwerpunkt auf derRealisierung e<strong>in</strong>es Ansatzes, der die Darstellung von AR auf mehreren, verteilten Rechnernermöglicht, da „Unifeye“ an sich nur den lokalen Betrieb unterstützt.Die Komponente hat also die Aufgabe, die von der Applikation generierte virtuelle Umgebungund derer Manipulationen nicht nur auf e<strong>in</strong>em Rechner lokal darzustellen, sonderndiese auf beliebig viele Rechner zu erweitern. Hierbei ist die Synchronität der Szene, also dieBeschreibung der aktuellen virtuellen Umgebung, auf den e<strong>in</strong>zelnen Rechnern von besondererWichtigkeit, da die asynchrone Darstellung vor allem bei der Verwendung e<strong>in</strong>es HMDs mitStereo-Technologie zu E<strong>in</strong>bußen <strong>in</strong> der Darstellungsqualität führt. Hier würde sich die Darstellungvon e<strong>in</strong> und derselben Szene zu e<strong>in</strong>em bestimmten Zeitpunkt unterscheiden, da sichjeder Rechner <strong>in</strong> e<strong>in</strong>em unterschiedlichen Systemzustand bef<strong>in</strong>den könnte. Ebenfalls könnenbei gleichzeitigem Zugriff von mehreren Nutzern die darzustellenden Daten <strong>in</strong>konsistent werden,wenn Befehle zu unterschiedlichen Zeitpunkten bei den Nutzern ausgeführt werden, zumBeispiel das Manipulieren von Objekten, die bereits von anderen Nutzern gelöscht wurden.27


KAPITEL 3.INTERAKTION DER MASCHINE ZUM MENSCHENAbbildung 3.1: Überlagerung von virtuellen Patientendaten <strong>in</strong> e<strong>in</strong>er Operation [54]3.1.1 Thematisch verwandte VorarbeitenAR zur Visualisierung wird <strong>in</strong> vielen Bereichen e<strong>in</strong>gesetzt. Diese reichen hierbei von militiärischerVerwendung, beispielsweise zur Informationsdarstellung für Soldaten [86], [37] oder [48]über die Unterstützung im Produktdesign bis h<strong>in</strong> zu mediz<strong>in</strong>ischen Applikationen. Abb. 3.1zeigt „JAMA“, bei dem die Überlagerung von Patientendaten im aktuellen Sichtfeld des Operateursermöglicht wird [54].Ebenfalls wird AR verwendet, um Spiele mit der Realität e<strong>in</strong>es Nutzers zu überlagern. Beispielefür die Spieledomäne s<strong>in</strong>d „AR Quake“ [68] oder „Human Pacman“ [12] (vgl. Abb. 3.2).Hierbei wurden zwei bekannte Spiele für den Computer („Quake“ und „Pacman“) auf e<strong>in</strong> AR-System umgesetzt, sodass sie mit der realen Umgebung überlagert und <strong>in</strong> Bezug zue<strong>in</strong>andergesetzt werden können.Immer bedeuts<strong>am</strong>er wird die AR auch im Bereich des Fernsehens, wo zusätzliche Informationen,vor allem im Sport, mit der aktuellen Szene überlagert werden. Diese Technik kommtzum Beispiel bei der Übertragung von Schwimmen, Motorsport oder Fußball zum E<strong>in</strong>satz.Hier können beispielsweise Distanzen <strong>in</strong> Form von Kreisen um Spieler, die N<strong>am</strong>en oder andereInformationen bzgl. der Schwimmer <strong>in</strong> die aktuelle Übertragung <strong>in</strong>tegriert werden [49] (vgl.Abb. 3.3).3.1.2 Problemstellung und mögliche LösungsansätzeUm AR als Ausgabemedium zur Visualisierung der virtuellen Umgebung des Nutzers verwendenzu können, müssen bestimmte Anforderungen erfüllt werden. Kernpunkt ist die Trennungder Visualisierung von der Applikationslogik, sodass nur e<strong>in</strong>e Komponente die Visualisierungübernimmt, die jedoch von der Applikation unabhängig ist. Auf diese Weise können beliebigeApplikationen auf die Visualisierung zugreifen und es ist ebenfalls möglich, die nun getrennteVisualisierung sogar auf e<strong>in</strong>en weiteren Computer auszulagern. Dies ist notwendig, um zum28


3.1. AUGMENTED REALITY ZUR VISUELLEN DARSTELLUNG(a) „AR Quake“ [68] (b) „Human Pacman“ [12]Abbildung 3.2: <strong>Augmented</strong> <strong>Reality</strong> <strong>in</strong> der Spieledomäne(a) Verwendung beim Fussball(b) Verwendung beim SchwimmenAbbildung 3.3: <strong>Augmented</strong> <strong>Reality</strong> im Fernsehen [49]e<strong>in</strong>en e<strong>in</strong> Stereo HMD verwenden zu können, da dieses mittels zweier Computer für jedes Augeseparat angesteuert wird. Folglich ist hier für jedes Auge e<strong>in</strong> eigener Betrachtungsw<strong>in</strong>kelder Szene zu berechnen. Zum anderen können so auch mehrere Nutzer zeitgleich die Szenebetrachten, die jeweils e<strong>in</strong>en <strong>in</strong>dividuellen Standpunkt <strong>in</strong> der geme<strong>in</strong>s<strong>am</strong>en Szene haben.Die Darstellung der Szene muss demnach verteilbar se<strong>in</strong> und darf nicht mehr lokal beschränktse<strong>in</strong>. Die Szene muss daher auf verteilten Rechnern synchron gehalten werden, ume<strong>in</strong>e exakt gleiche Darstellung auf allen angeschlossenen Rechnern sicherzustellen. Dies istsowohl für die Bereitstellung der Visualisierung für e<strong>in</strong> HMD notwendig, das sonst für jedesAuge verschiedene Szenenzustände darstellen würde, sowie für den Betrieb mit mehrerenNutzern, deren Ansicht der Szene nicht identisch wäre.E<strong>in</strong>e Lösungsmöglichkeit wäre also, die aktuelle Szene nur auf e<strong>in</strong>em e<strong>in</strong>zigen Rechnerzu speichern und die Berechnung der Darstellung auf diesem Rechner durchzuführen (vgl.Abb. 3.4). Hierbei müssten dann die generierten Bilder für jeden benötigten verteilten Rechnerebenfalls von diesem e<strong>in</strong>zigen Rechner berechnet und anschließend auf die Ausgabe desRechners übermittelt werden. Somit würde der ges<strong>am</strong>te Rechenaufwand für die Darstellungauf allen Rechnern von e<strong>in</strong>em e<strong>in</strong>zigen Rechner getragen werden. Dies würde zu e<strong>in</strong>er deutlichenE<strong>in</strong>buße der Ges<strong>am</strong>tperformance führen. Ziel ist es daher, auf allen verteilten Rechnern29


KAPITEL 3.INTERAKTION DER MASCHINE ZUM MENSCHENClientVisualisierungVisualisierungRender<strong>in</strong>gRender<strong>in</strong>gSzeneSzeneClientVisualisierungVisualisierungRender<strong>in</strong>gRender<strong>in</strong>gSzeneSzeneServerVisualisierungVisualisierungServerVisualisierungVisualisierungRender<strong>in</strong>gRender<strong>in</strong>gSzeneSzeneServerVisualisierungVisualisierungServerVisualisierungVisualisierungRender<strong>in</strong>gRender<strong>in</strong>gSzeneSzeneAbbildung 3.4: Methoden zur Synchronisation e<strong>in</strong>er virtuellen Szenedie aktuelle Szene bereitzustellen und jeweils auf diesem Rechner die Darstellung zu berechnen.Dies ermöglicht zwar e<strong>in</strong>e hohe Ges<strong>am</strong>tperformance, br<strong>in</strong>gt aber die Problematik mitsich, dass jegliche Szenenänderung synchron auf allen verteilten Rechnern vorgenommen werdenmuss, d<strong>am</strong>it als Grundlage der Darstellung nicht verschiedene Szenen dienen. Es musshierbei also sichergestellt se<strong>in</strong>, dass e<strong>in</strong>e neue Änderung der Szene nur erfolgen darf, sobald alleangeschlossenen Computer die letzte Änderung erfolgreich aktualisiert haben. Diese Methodebietet ebenfalls den Vorteil der beliebigen Skalierbarkeit, da die Rechenleistung immer aufdie darstellenden Computer verteilt wird und nicht von e<strong>in</strong>em e<strong>in</strong>zelnen Computer getragenwerden muss.Im folgenden Kapitel wird der <strong>in</strong> dieser Arbeit entwickelte Lösungsansatz vorgestellt.3.1.3 UmsetzungAngelehnt an die Softwarestruktur (vgl. Kapitel 2.5.3) ist das Modul <strong>in</strong> zwei Teile untergliedert.Hierbei wurde e<strong>in</strong> Client-Server Ansatz umgesetzt, bei dem e<strong>in</strong> „Unifeye“ im Clientdie Verwaltung der ges<strong>am</strong>ten Szene übernimmt. Beliebige verbundene Server erhalten sämtlicheÄnderungen der Szene mittels e<strong>in</strong>er Netzwerkverb<strong>in</strong>dung, welche sie dann an e<strong>in</strong> lokales„Unifeye“ weiterreichen.Der Client steht hier der Applikation als Interface zur Verfügung und übernimmt dieKommunikation mit den Servern. Das bedeutet, dass für die Applikation nur der Client angesprochenwerden muss. Dieser ist für die Applikation identisch mit dem orig<strong>in</strong>alen „Unifeye“.Befehle der Applikation werden vom Client ausgeführt, visualisiert und zeitgleich automatischan den angeschlossenen Server weiter gesendet. Auf diese Weise erfolgt die ges<strong>am</strong>te Abwicklungder Synchronisation und Kommunikation <strong>in</strong>nerhalb e<strong>in</strong>er e<strong>in</strong>zelnen Komponente. Diesekann von jeder Applikation angesprochen werden und ist für die Applikation unabhängig <strong>in</strong>der Anzahl der verbundenen Server. Weiterh<strong>in</strong> können <strong>in</strong>nerhalb dieser Komponente weitereFunktionalitäten für die <strong>Interaktion</strong> mit der AR-Umgebung zur Verfügung gestellt werden.30


3.1. AUGMENTED REALITY ZUR VISUELLEN DARSTELLUNGSomit kann der Funktionsumfang des bestehenden „Unifeye“ erweitert werden.Grundlegend ist für die Umsetzung des Moduls AR die Entwicklung e<strong>in</strong>es def<strong>in</strong>iertenNachrichtenformats für die Erzeugung der zu sendenden Datenpakete. Aufgrund der Tatsache,dass hier Funktionen mit teils optionalen Par<strong>am</strong>etern verschickt werden sollen, kannhier ke<strong>in</strong>e e<strong>in</strong>fache Konvertierung <strong>in</strong> re<strong>in</strong>e Zeichenketten erfolgen. Die Auswertung wäre beiunbekannter Anzahl von Par<strong>am</strong>etern e<strong>in</strong>er Funktion nicht realisierbar. Aus diesem Grundwird auf das „ICE“ Fr<strong>am</strong>ework zurückgegriffen, dass für die Kommunikation von verteiltenRechenprozessen entwickelt und optimiert wurde [36]. Dieses übersetzt auf dem Server unddem Client def<strong>in</strong>ierbare Funktionsaufrufe mit deren Par<strong>am</strong>etern und Rückgabewerten <strong>in</strong> e<strong>in</strong>Format, das über Netzwerk übermittelt werden kann. Funktionen, die <strong>in</strong> diesem Fr<strong>am</strong>eworkdef<strong>in</strong>iert wurden, können danach im Progr<strong>am</strong>m aufgerufen werden, ohne dass zusätzlich fürdie Netzwerkübertragung gesorgt werden muss, da dieses das Fr<strong>am</strong>ework erledigt.Funktionsaufrufe der Applikation werden <strong>in</strong>nerhalb des Clients direkt an das lokale „Unifeye“weitergereicht. Gleichzeitig werden diese Funktionsaufrufe mittels „ICE“ <strong>in</strong> dessen Nachrichtenformatgewandelt und an die verbundenen Server verschickt. Hierbei liegt für jedeFunktion e<strong>in</strong>e exakte Beschreibung vor, <strong>in</strong> der der N<strong>am</strong>e der Funktion und ihre möglichenPar<strong>am</strong>eter und Rückgabewerte h<strong>in</strong>terlegt s<strong>in</strong>d. Anhand dieser Beschreibung werden Funktionen<strong>in</strong> e<strong>in</strong>en Str<strong>in</strong>g kodiert, der per UDP an alle verbundenen Server geschickt wird. DieBeschreibung ermöglicht den Servern anschließend, den übermittelten Str<strong>in</strong>g wieder <strong>in</strong> dieursprüngliche Funktion s<strong>am</strong>t se<strong>in</strong>er Übergabewerte zu dekodieren. Diese Funktion wird dann<strong>in</strong>nerhalb des Servers an dessen lokales „Unifeye“ weitergeleitet und ausgeführt. E<strong>in</strong>ige Funktionsaufrufedes „Unifeye“ liefern Rückgabewerte, wie etwa die Abfrage von Sichtbarkeitenvirtueller Objekte. Diese Rückgabewerte werden nur <strong>in</strong>nerhalb des Clients verwendet und abgefragt.Server erhalten von Client ke<strong>in</strong>e Funktionen weitergereicht, die Rückgabewerte liefernwürden (unidirektionale Übertragung). Server haben also e<strong>in</strong>en re<strong>in</strong> darstellenden Charakterund dienen nur der Visualisierung. Somit stellt diese Komponente den vollen Funktionsumfangdes orig<strong>in</strong>alen „Unifeye“ zur Verfügung.Die Übertragung der Str<strong>in</strong>gs, die die Informationen der auszuführenden Funktionen enthalten,erfolgt nicht mittels TCP, sondern über UDP. Aufgrund der Kontrolle des Paketaustausches,die e<strong>in</strong>e sichere Übertragung garantiert, entstehen teils sehr hohe Laufzeiten fürDatenpakete. Diese verr<strong>in</strong>gern die maximale Anzahl an Befehlen pro Zeit erheblich (<strong>in</strong> Testsbetrug die Rate teilweise unter fünf Befehle je Sekunde). Dyn<strong>am</strong>ische Manipulationen, wieetwa Translationen s<strong>in</strong>d d<strong>am</strong>it auf e<strong>in</strong>e bestimmte Anzahl von Schritten pro Zeit begrenztund führen zu e<strong>in</strong>er ruckartigen Darstellung. Daher erfolgt die Übertragung mittels UDP.Die Übertragungsraten s<strong>in</strong>d hier wesentlich höher (etwa 20 Befehle je Sekunde) und ermöglichenso flüssigere Manipulationen. Gleichzeitig wird aber auf die Sicherheit der Übertragungverzichtet.Um die Synchronisation zu gewährleisten, wurde e<strong>in</strong>e eigene Funktion erstellt, die als e<strong>in</strong>zigee<strong>in</strong>en Rückgabewert liefert. Sendet also der Client diese Funktion an e<strong>in</strong>en Server, erhältder Client erst e<strong>in</strong>e Antwort des Servers <strong>in</strong> Form e<strong>in</strong>es Rückgabewertes, sobald dieser sämtlichevorher übertragenen Befehle ausgeführt hat, und er diese spezielle Funktion ausführt. DieseFunktion besteht lediglich aus dem Rücksenden e<strong>in</strong>es e<strong>in</strong>fachen boolschen Wertes (true). Aufdiese Weise kann der Client erfahren, ob alle Server die Aktualisierung der Szene gemäß demletzten Befehl abgeschlossen haben. Dadurch werden alle Server synchronisiert, da der Clientden nächsten Befehl erst nach dem Erhalt des boolschen Wertes (true) aller Server versendetund somit auf alle Server wartet.31


KAPITEL 3.INTERAKTION DER MASCHINE ZUM MENSCHEN(a) „Half Life 2“ [16] (b) „Second Life“ [35]Abbildung 3.5: Virtual <strong>Reality</strong> <strong>in</strong> der Spieledomäne3.2 Virtual <strong>Reality</strong> zur visuellen DarstellungAR und VR s<strong>in</strong>d verwandte Techniken zur Visualisierung von virtuellen Inhalten (vgl. Kapitel2.1.1 und 2.1.2). Daher soll durch e<strong>in</strong> Modul e<strong>in</strong>e Verb<strong>in</strong>dung zwischen diesen beidenVisualisierungstechniken zur Verfügung gestellt werden.Im e<strong>in</strong>fachsten Fall steht AR und VR nur re<strong>in</strong> kontextuell <strong>in</strong> e<strong>in</strong>em Zus<strong>am</strong>menhang. Hierbeibesteht die Komb<strong>in</strong>ation der beiden Techniken dar<strong>in</strong>, mittels der VR e<strong>in</strong>e virtuelle Umgebungzu schaffen, die <strong>in</strong> e<strong>in</strong>em <strong>in</strong>haltlichen Zus<strong>am</strong>menhang zur AR steht. Die nächsteKomb<strong>in</strong>ationsmöglichkeit komb<strong>in</strong>iert die AR und VR nun nicht mehr nur <strong>in</strong>haltlich, sondernauch szenenabhängig. Mittels VR werden hier also Teile der AR-Szene visualisiert. Dabeikommt e<strong>in</strong>e virtuelle K<strong>am</strong>era zum E<strong>in</strong>satz, mittels der e<strong>in</strong> Ausschnitt der AR-Szene als VR-Szene dargestellt wird. Der komplexeste Fall ist die Verschmelzung von AR und VR. Hierbeiwird die AR-Szene durch Inhalte der VR Szene ergänzt. Beide Szenen stehen jedoch nichtnur kontextuell, sondern auch physikalisch im Zus<strong>am</strong>menhang. In dieser Arbeit fand nur dieDarstellung von AR mittels VR E<strong>in</strong>satz und wird im folgenden Kapitel näher beschrieben.3.2.1 Thematisch verwandte VorarbeitenVR wird schon seit e<strong>in</strong>igen Jahren verwendet. Die Anwendungen reichen hier von der Unterstützungvon Designern, die Prototypen großteils virtuell erstellen, über die Flugsimulationzum Tra<strong>in</strong><strong>in</strong>g von Piloten, Lokführern etc. bis h<strong>in</strong> zum Spielebereich, <strong>in</strong> dem die immerrealistischere Visualisierung oberstes Ziel ist. Des Weiteren entwickeln sich auch re<strong>in</strong> virtuelleOnl<strong>in</strong>e-Geme<strong>in</strong>schaften, wie etwa „Second Life“, die e<strong>in</strong>e re<strong>in</strong> virtuelle Darstellung se<strong>in</strong>er Umgebungund se<strong>in</strong>er Bewohner (<strong>in</strong> Form von Avataren) bietet. Abb. 3.5 zeigt e<strong>in</strong>en Screenshotdes aktuellen Computer-Spieles „Half Life 2“ [16] sowie e<strong>in</strong>en aus „Second Life“ [35].Ebenfalls steigt mit der technischen Machbarkeit auch die Anzahl re<strong>in</strong> virtuell erstellterFilme, wie etwa „Toy Story“ oder „Shrek“.3.2.2 ProblemstellungBei der Komb<strong>in</strong>ation von AR und VR sollen Inhalte der AR <strong>in</strong>nerhalb der VR abgebildetwerden. Auf diese Weise können Nutzer, die nicht <strong>in</strong>nerhalb der AR agieren, dennoch Zugangzu dieser erhalten. Hierzu muss sichergestellt werden, dass die zur Visualisierung zugrundeliegenden Daten <strong>in</strong> beiden Darstellungssystemen gleich s<strong>in</strong>d, um Inkonsistenzen zu vermeiden.32


3.2. VIRTUAL REALITY ZUR VISUELLEN DARSTELLUNGARARClientClientARARServerServerTrack<strong>in</strong>gTrack<strong>in</strong>gVRVRClientClientTrack<strong>in</strong>gdatenTrack<strong>in</strong>gdatenModifizierteModifizierteTrack<strong>in</strong>gdatenTrack<strong>in</strong>gdatenK<strong>am</strong>erapositionK<strong>am</strong>erapositionAbbildung 3.6: Umsetzung Virtual <strong>Reality</strong>Die AR-Szene soll also aus mehreren Betrachtungsw<strong>in</strong>keln gleichzeitig dargestellt werden. Aufder e<strong>in</strong>en Seite für den Nutzer, der sich tatsächlich eigenständig <strong>in</strong>nerhalb der Szene bef<strong>in</strong>detund dem diese ausgehend von se<strong>in</strong>er realen Position und Orientierung <strong>in</strong> dieser mittels desHMDs visualisiert wird, auf der anderen Seite dem Nutzer, der sich außerhalb der Szenebef<strong>in</strong>det und diese mittels e<strong>in</strong>er Projektion dargestellt bekommt. Diese Darstellung erfordertdie Möglichkeit, e<strong>in</strong>e Position und Orientierung <strong>in</strong>nerhalb der Szene festzulegen, von derausgehend die Visualisierung für den außenstehenden Nutzer erfolgt.3.2.3 UmsetzungUm die Konsistenz zwischen AR- und VR-Applikation zu gewährleisten, basiert die Visualisierungder VR auf dem „Unifeye“, das die ges<strong>am</strong>te virtuelle Szene gespeichert hat. Somitkönnen die virtuellen Inhalte beider Visualisierungsarten synchonisiert werden, da sie aufe<strong>in</strong>em geme<strong>in</strong>s<strong>am</strong>en Datensatz basieren. Die beiden Visualisierungstechniken unterscheidensich nur dar<strong>in</strong>, dass die VR die reale Umgebung <strong>in</strong> der Visualisierung ausblendet und denStandort und die Blickrichtung des Nutzers frei <strong>in</strong>nerhalb der Szene platzieren kann, da ke<strong>in</strong>Bezug zwischen realer und virtueller Umgebung existiert. Daher basiert das VR-Modul aufe<strong>in</strong>em Server des AR-Moduls (vgl. Kapitel 3.1).Dieses enthält bereits die Steuerbarkeit des Clients über e<strong>in</strong> Netzwerk, der die ges<strong>am</strong>tevirtuelle Szene verwaltet. Zur Verwendung als VR-Modul enthält dieses die Modifikationder Darstellung der realen Umgebung sowie e<strong>in</strong>e Möglichkeit, die Position und Orientierung<strong>in</strong>nerhalb der virtuellen Umgebung frei zu wählen. Diese Positionierung kann sowohl als fixePosition <strong>in</strong> Weltkoord<strong>in</strong>aten angegeben werden als auch relativ zu e<strong>in</strong>em KOS, das durch e<strong>in</strong>IR-Target def<strong>in</strong>iert ist (vgl. Abb. 3.6). Je nach Wahl der Positionierungsart, verändert dasVR-Modul den e<strong>in</strong>gehenden Datenstrom des Track<strong>in</strong>gsystems. Bei e<strong>in</strong>er fixen Positionierung<strong>in</strong>nerhalb des WeltKOS werden die Position x t,1 und Orientierung R t,1 (errechnet aus denDrehw<strong>in</strong>keln η t,1 , θ t,1 und φ t,1 ) des ersten IR-Targets t, 1 durch die fixen Positionierungswertex p und die feste Rotationsmatrix R p (errechnet aus den Drehw<strong>in</strong>keln η p , θ p und φ p ) ersetzt.⎛ ⎞ ⎛ ⎞x t,1 x p⎜ ⎟ ⎜ ⎟x t,1 = ⎝y t,1 ⎠ = ⎝y p ⎠z t,1 z p33


KAPITEL 3.INTERAKTION DER MASCHINE ZUM MENSCHEN(a) mittels <strong>Augmented</strong> <strong>Reality</strong>(b) mittels Virtual <strong>Reality</strong>Abbildung 3.7: Darstellungsarten e<strong>in</strong>er virtuellen SzeneR t,1 =⎛⎞cos φ t,1 cos θ t,1 − s<strong>in</strong> φ t,1 cos θ t,1 s<strong>in</strong> θ t,1⎜⎟⎝s<strong>in</strong> φ t,1 cos η t,1 + cos φ t,1 s<strong>in</strong> θ t,1 s<strong>in</strong> η t,1 cos φ t,1 cos η t,1 − s<strong>in</strong> φ t,1 s<strong>in</strong> θ t,1 s<strong>in</strong> η t,1 − cos θ t,1 s<strong>in</strong> η t,1 ⎠s<strong>in</strong> φ t,1 cos η t,1 − cos φ t,1 s<strong>in</strong> θ t,1 cos η t,1 cos φ t,1 s<strong>in</strong> η t,1 + s<strong>in</strong> φ t,1 s<strong>in</strong> θ t,1 cos η t,1 cos θ t,1 cos η t,1= R p =⎛⎞cos φ p cos θ p − s<strong>in</strong> φ p cos θ p s<strong>in</strong> θ p⎜⎟⎝s<strong>in</strong> φ p cos η p + cos φ p s<strong>in</strong> θ p s<strong>in</strong> η p cos φ p cos η p − s<strong>in</strong> φ p s<strong>in</strong> θ p s<strong>in</strong> η p − cos θ p s<strong>in</strong> η p ⎠s<strong>in</strong> φ p cos η p − cos φ p s<strong>in</strong> θ p cos η p cos φ p s<strong>in</strong> η p + s<strong>in</strong> φ p s<strong>in</strong> θ p cos η p cos θ p cos η pBei e<strong>in</strong>er Positionierung relativ zu e<strong>in</strong>em IR-Target werden die Werte des ersten IR-Targets<strong>in</strong> die entsprechenden Werte des gewählten Targets t, n verändert.⎛ ⎞ ⎛ ⎞x t,1 x t,n⎜ ⎟ ⎜ ⎟x t,1 = ⎝y t,1 ⎠ = ⎝y t,n ⎠z t,1 z t,nR t,1 =⎛⎞cos φ t,1 cos θ t,1 − s<strong>in</strong> φ t,1 cos θ t,1 s<strong>in</strong> θ t,1⎜⎟⎝s<strong>in</strong> φ t,1 cos η t,1 + cos φ t,1 s<strong>in</strong> θ t,1 s<strong>in</strong> η t,1 cos φ t,1 cos η t,1 − s<strong>in</strong> φ t,1 s<strong>in</strong> θ t,1 s<strong>in</strong> η t,1 − cos θ t,1 s<strong>in</strong> η t,1 ⎠s<strong>in</strong> φ t,1 cos η t,1 − cos φ t,1 s<strong>in</strong> θ t,1 cos η t,1 cos φ t,1 s<strong>in</strong> η t,1 + s<strong>in</strong> φ t,1 s<strong>in</strong> θ t,1 cos η t,1 cos θ t,1 cos η t,1= R p =⎛⎞cos φ t,n cos θ t,n − s<strong>in</strong> φ t,n cos θ t,n s<strong>in</strong> θ t,n⎜⎟⎝s<strong>in</strong> φ t,n cos η t,n + cos φ t,n s<strong>in</strong> θ t,n s<strong>in</strong> η t,n cos φ t,n cos η t,n − s<strong>in</strong> φ t,n s<strong>in</strong> θ t,n s<strong>in</strong> η t,n − cos θ t,n s<strong>in</strong> η t,n ⎠s<strong>in</strong> φ t,n cos η t,n − cos φ t,n s<strong>in</strong> θ t,n cos η t,n cos φ t,n s<strong>in</strong> η t,n + s<strong>in</strong> φ t,n s<strong>in</strong> θ t,n cos η t,n cos θ t,n cos η t,nAuf diese Weise wird die Position des Betrachters der VR <strong>in</strong>nerhalb der Weltkoord<strong>in</strong>atengesetzt und für die Visualisierung herangezogen. Zusätzlich wird an diese Position x t,1 e<strong>in</strong>evirtuelle K<strong>am</strong>era (vgl. Abb. 3.7(a)) <strong>in</strong> die virtuelle Szene e<strong>in</strong>gefügt, die für Nutzer mit e<strong>in</strong>em34


3.3. VIRTUELLE AKUSTIK ZUR AKUSTISCHEN DARSTELLUNGHMD sichtbar ist. Abb. 3.7(a) zeigt e<strong>in</strong>en Ausschnitt e<strong>in</strong>er AR-Szene aus der Sicht des Nutzersdurch das HMD. Sichtbar ist ebenfalls die virtuelle K<strong>am</strong>era mit der der Sichtbereich fürdie VR festgelegt wird. Im Gegensatz zur AR wird der Sichtbereich hier nicht durch dietatsächliche Position und Orientierung des Nutzers im Raum festgelegt. Abb. 3.7(b) zeigtdieselbe Szene aus Sicht der virtuellen K<strong>am</strong>era. Diese Sicht kann nun mittels des VR-Systemsbeispielsweise mittels e<strong>in</strong>er Projektion auf e<strong>in</strong>er Le<strong>in</strong>wand dargestellt werden. Im Gegensatzzur Darstellung <strong>in</strong>nerhalb der AR wird bei der Darstellung mittels der VR die reale Umgebungnicht e<strong>in</strong>gebunden. Es werden hier also ausschließlich virtuelle Inhalte visualisiert.3.3 Virtuelle Akustik zur akustischen DarstellungZur Erweiterung der AR-Umgebung von monomodaler (visueller) Ausgabe wird die akustischeKomponente der Ausgabe h<strong>in</strong>zugefügt. Dadurch wird e<strong>in</strong>e multimodale Ausgabe ermöglicht.Dieses Kapitel beschreibt die grundlegenden Begriffe der VA, erläutert die Problemstellungund geht im Anschluss auf den gewählten Lösungsansatz e<strong>in</strong> [87].B<strong>in</strong>aural Room Impulse Response (BRIR) beschreibt die Filterfunktion, die e<strong>in</strong> realerSchall von se<strong>in</strong>er Quelle zum Empfänger durchläuft. Dieser Filter ist abhängig von der Umgebung,<strong>in</strong> der sich der Schall bewegt. So zählen zu den Par<strong>am</strong>etern des Filters zum Beispieldie Geometrie des Raumes, die Oberfläche von Wänden oder Gegenständen <strong>in</strong>nerhalb desRaumes oder die Beschaffenheit des Körpers des Nutzers. Vernachlässigt man die Par<strong>am</strong>eter,die von der Umgebung des Nutzers hervorgerufen werden, so reduzieren sich die den Filterbestimmenden Par<strong>am</strong>eter auf solche, die durch die Beschaffenheit des Körpers gestellt werden.Dieser reduzierte Filter wird Head Related Impulse Response (HRIR) genannt.3.3.1 Thematisch verwandte VorarbeitenUm VA zu erzeugen, existieren bereits zahlreiche Ansätze. Dabei wird zwischen Ansätzen,die e<strong>in</strong> Lautsprecherarray (beispielsweise [82] oder [18]) oder e<strong>in</strong>en Kopfhörer verwenden,unterschieden.Für VA <strong>in</strong> Komb<strong>in</strong>ation mit AR können folgende Beispiele angeführt werden: Das „Listen“-Projekt erweitert die reale Umgebung des Nutzers mit akustischen Informationen [21]. Dabeibietet das System dem Nutzer <strong>in</strong>tuitiven Zugang zu personalisierten und kontextabhängigenakustischen Informationen, während dieser se<strong>in</strong>e Umgebung erkundet. Der Nutzer trägt dabeie<strong>in</strong>en kabellosen Kopfhörer, der von e<strong>in</strong>em Track<strong>in</strong>gsystem erfasst wird, um die gegenwärtigePosition des Nutzers zu erkennen. Auf diesen Informationen basierend werden dem Nutzerentsprechende akustische Signale auf den Kopfhörern dargeboten. E<strong>in</strong>e Komb<strong>in</strong>ation von VAund AR f<strong>in</strong>det man bei [30]. Dabei stützt sich das System auf [31], e<strong>in</strong> Fr<strong>am</strong>ework, dases Designern ermöglicht, immersiv akustische Informationen <strong>in</strong> AR-Szenarien e<strong>in</strong>zubettenund diese über verschiedene Ausgabegeräte, wie etwa Kopfhörer oder e<strong>in</strong> Surroundsystem,auszugeben.3.3.2 ProblemstellungDas Integration der VA hat die Zielsetzung, dem Nutzer der AR-Umgebung e<strong>in</strong>e virtuelleSchallquelle im Raum zu simulieren (siehe Abb. 3.8).Dabei soll die Position der virtuellen Schallquelle <strong>in</strong>nerhalb der AR-Umgebung sowohlstatisch se<strong>in</strong>, also an e<strong>in</strong>er festen Position im Raum positionierbar se<strong>in</strong> als auch dyn<strong>am</strong>isch35


KAPITEL 3.INTERAKTION DER MASCHINE ZUM MENSCHENVA-SystemErzeugt virtuellenSchall(u, yu,zu)IR-Track<strong>in</strong>gReale Position undOrientierung desNutzers( xn,yn,zn)Virtuelles Objekt mit virtuellem SchallAR-SystemPosition desvirtuellen Objekts( xu, yu,zux )HMDNutzer (Draufsicht)IR TargetKopfhörerAbbildung 3.8: Schematischer Aufbau der Komb<strong>in</strong>ation von <strong>Augmented</strong> <strong>Reality</strong> und VirtuellerAkustikentlang e<strong>in</strong>er vorgegebenen Trajektorie bewegt werden können. Gleichzeitig soll die Positionvon e<strong>in</strong>er Applikation steuerbar se<strong>in</strong>, um e<strong>in</strong>e Überlagerung von virtuellen Objekten undvirtuellen Schallquellen zu erreichen. Um die Ermittlung der Position des Nutzers zu ermöglichen,soll das Modul an das IR-Track<strong>in</strong>gsystem (vgl. Kapitel 2.5.1) angebunden werden.Weiterh<strong>in</strong> müssen drei Kriterien erfüllt werden [53]. Die Latenz des Ges<strong>am</strong>tsystems darf 85 msnicht übersteigen, um ke<strong>in</strong>e hörbaren Verzerrungen zu verursachen. Die Aktualisierungsrateder Track<strong>in</strong>gdaten muss m<strong>in</strong>destens 60 Hz betragen und BRIRs bzw. HRIRs müssen entwedergemessen oder <strong>in</strong>terpoliert auf e<strong>in</strong> Grad genau vorliegen, um der Bildung von hörbarenArtefakten, wie Rauschen oder Knacksen, vorzubeugen.3.3.3 UmsetzungDie umgesetzte Lösung der VA basiert auf e<strong>in</strong>em Ansatz, bei dem zur Wiedergabe der virtuellenSchalle e<strong>in</strong> Kopfhörer verwendet wird. Auf diesem ist e<strong>in</strong> IR-Target zur Bestimmungder Position und der Orientierung des Nutzers <strong>in</strong>nerhalb des Raumes (siehe Abb. 3.9).Dem System zur Erzeugung virtueller Schalle stehen zum Datenaustausch drei Interfaceszur Verfügung. Das Netzwerk-Interface dient der Kommunikation sowohl mit dem IR-Track<strong>in</strong>gsystem als auch mit der externen Steuerung über e<strong>in</strong>e Fernsteuerung auf Softwarebasis.Das Akustik-Interface dient dem Austausch von E<strong>in</strong>gangs- und Ausgangssignalen.E<strong>in</strong>gangssignale können dem System entweder offl<strong>in</strong>e mittels gespeicherter Audiosignale <strong>in</strong>Form von W<strong>in</strong>dows *.wav. Dateien oder onl<strong>in</strong>e mittels des Analoge<strong>in</strong>gangs der Soundkartezur Verfügung gestellt werden. Das Datenbank-Interface stellt die benötigten Sets von HRIR/-BRIRs zur Verfügung. Zur Berechnung der Richtung aus der der Nutzer den virtuellen Schallwahrnehmen soll, werden die Daten des Track<strong>in</strong>gsystems mit Informationen zu Position undOrientierung des Nutzers im Raum sowie die Position der virtuellen Schallquelle im Raumherangezogen. Aus diesen wird die Richtung berechnet und die für diese Richtung zugehöri-36


3.3. VIRTUELLE AKUSTIK ZUR AKUSTISCHEN DARSTELLUNGFernsteuerungTrack<strong>in</strong>gsystemanalog L<strong>in</strong>e-InRLSoundkarte(max. 8 E<strong>in</strong>gänge,2Ausgänge)waveDateien(max. 8)HRIR-DatenbankNetzwerk InterfaceAkustik InterfaceVirtuelle AkustikDatenbank InterfaceVerarbeiten von UDP-Nachrichten, HRTF-Auswahl,Faltung, Audio I/O, GUIPCAbbildung 3.9: Umsetzung Virtuelle Akustikge <strong>in</strong> der Datenbank h<strong>in</strong>terlegte HRIR zur Berechnung des virtuellen Schalls herangezogen.Nach der Berechnung wird das Signal über die Kopfhörer an den Nutzer weitergeleitet undwiedergegeben. Die Berechnung der virtuellen Schalle erfolgt mittels partitionierter Faltung,dem Overlap Save Algorithmus.Das Ausgangsignal a(t) e<strong>in</strong>er simulierten virtuellen Schallquelle berechnet sich aus derFaltung des Quellsignals e(t) und der Filter-Impuls-Antwort h(r). Das simulierte Signal ergibtsich also für das rechte Ohr zua r (t) = e(t) ∗ h r (t)und entsprechend für das l<strong>in</strong>ke Ohr zua l (t) = e(t) ∗ h l (t)Das VA-System ist <strong>in</strong> der Lage, bis zu acht Schallquellen parallel für das rechte und l<strong>in</strong>keOhr zu berechnen. Diese Berechnung kann sequentiell erfolgen. Dazu müssen Quellsignalund Impulsantwort des Filters dieselbe S<strong>am</strong>pl<strong>in</strong>grate aufweisen. Alle Signale s<strong>in</strong>d zeit- undwertdiskret mit n als unabhängige Variable, die die Zeit repräsentiert (t = n · T a ). Das E<strong>in</strong>gangssignale i [n] (Kanal i) passiert e<strong>in</strong>en Filter mit begrenzter Impulsantwort des Filtersh i [n]. Die maximal mögliche Länge e<strong>in</strong>er Impulsantwort liegt bei 144000 S<strong>am</strong>ples. Bei e<strong>in</strong>erS<strong>am</strong>pl<strong>in</strong>grate von 48kHz entspricht das <strong>in</strong> etwa drei Sekunden. Diese Länge reicht aus, umgrößere Räume zu simulieren, da die Nachhallzeit hier etwa zwei Sekunden beträgt [91]. DasAusgangssignal a i [n] e<strong>in</strong>es nicht rekursiven Filters entspricht der Faltung des E<strong>in</strong>gangsignals,falls dieses endlich ist, mit der Impulsantwort des Filtersa i [n] = e f<strong>in</strong>ite [n] ∗ h i [n]Die schnelle Frequenzfaltung ist ab e<strong>in</strong>er Filterlänge von mehr als 30 S<strong>am</strong>ples effizienter alse<strong>in</strong>e Umsetzung im Zeitbereich [90]. Daher ist der Filter als schnelle Frequenzfaltung mitF {a i [n]} = F {e f<strong>in</strong>ite [n] ∗ h i [n]} = E f<strong>in</strong>ite [f d ] · H i [f d ] = A i [f d ]37


KAPITEL 3.INTERAKTION DER MASCHINE ZUM MENSCHENumgesetzt. Die Transformation erfolgt mittels (<strong>in</strong>verser) Fast-Fourier-Transformation (FFT).Um e<strong>in</strong> E<strong>in</strong>gangssignal mit unbegrenzter Länge verarbeiten zu können, verwendet die Faltunge<strong>in</strong>e segmentweise Filterung des Signals. Das E<strong>in</strong>gangssignal e i [n] wird <strong>in</strong> begrenzte Blöckee f<strong>in</strong>ite [n] mit der Länge l unterteilt. Jeder dieser Blöcke wird mit der Filterimpulsantwortmit der Länge K gefaltet, wobei die für den entsprechenden W<strong>in</strong>kel zwischen Blickrichtungdes Nutzers und der virtuellen Schallquelle benötigte Impulsantwort verwendet wird. DieBerechnung des W<strong>in</strong>kels erfolgt aus der Position (x H , y H ) <strong>in</strong>nerhalb der Weltkoord<strong>in</strong>aten(x w , y w ) des Kopfes H, die durch e<strong>in</strong> IR-Target bestimmt wird, und der Position (x Q , y Q ) dervirtuellen Schallquelle Q. Ebenfalls ist der Drehw<strong>in</strong>kel ϑ H des IR Targets um die Z-Achse desWeltKOS bekannt. Aus diesen Angaben lässt sich der W<strong>in</strong>kel⎛⎞xϑ = sign(y Q − y H ) · arccos ⎝Q − x H√(xQ − x H ) 2 + (y Q − y H ) ) ⎠ · 180o2 π− ϑ H + βberechnen, falls (x Q − x H ) 2 + (y Q − y H ) 2 nicht den Wert 0 annimmt. Um das daraus resultierendeperiodische Signal zu korrigieren, wird der Overlap-Save-Algorithmus verwendet (sieheAbb. 3.10).…pp + l − K −1p + l −1p + 2l− K −1E<strong>in</strong>gangssignal (Kanal i)[n] e i…0Block je f<strong>in</strong>ite[n]h i[n]l −10 K −1 l −1]FFT0E f<strong>in</strong>itef[ dl20 K −1 l −1[n]a f<strong>in</strong>ite0A f<strong>in</strong>ite[ f d]l20<strong>in</strong>verse FFTH if[ dFFT]l2…qq + l − K −1 q + 2l− 2K−1[n] a i…Ausgangssignal (Kanal i)Abbildung 3.10: Overlap-Save AlgorithmusDieser schneidet aus dem E<strong>in</strong>gangssignal e i [n] Blöcke der Länge e f<strong>in</strong>ite [n] mit der Längevon l S<strong>am</strong>ples heraus. Bei jedem Iterationsschritt wird der Startpunkt des E<strong>in</strong>gangssignalsum (l − K) im Zeitbereich weitergeschoben. Daraus ergibt sich e<strong>in</strong>e Überlappung der herausgeschnittenenBlöcke. Der hier verwendete Algorithmus verwendet für K den Wert l 2 ,was zu 1024 S<strong>am</strong>ples oder 21,3 ms bei e<strong>in</strong>er S<strong>am</strong>pl<strong>in</strong>grate von 48 kHz führt. Durch die zyklischeFaltung s<strong>in</strong>d die ersten K S<strong>am</strong>ples des Ausgangssignals a f<strong>in</strong>ite [n] nicht korrekt undwerden verworfen. Aufgrund der verwendeten Filterimpulsantwort mit e<strong>in</strong>er Länge von mehrals 30 ms wird der Algorithmus modifiziert [83]. Um e<strong>in</strong>e dyn<strong>am</strong>ische partitionierte Faltungmit Impulsantworten e<strong>in</strong>er Länge von 144000 S<strong>am</strong>ples <strong>in</strong> Echtzeit umzusetzen, werden38


3.3. VIRTUELLE AKUSTIK ZUR AKUSTISCHEN DARSTELLUNGsowohl das E<strong>in</strong>gangssignal (siehe Abb. 3.11) als auch die Filterimpulsantwort partitioniert(siehe Abb. 3.12).…p + l − K −1pp + l −1p + 2l− K −1E<strong>in</strong>gangssignal (Kanal i)e i[n] …Block b0i ,[ n]FFT E i[ f ]e bl −10, b dl2Block b+1 e i , b + 1[ n]FFT Ei , b + 1[ fd]0 l −1 0 l2Abbildung 3.11: Partitionierung des E<strong>in</strong>gangssignals0 =Mit null S<strong>am</strong>ples gefüllth [ i , 1n]h [ i , 2n]h i[n]h, p[ n]0 K −1… …ih i , j[ n]FFTFFTFFTFFT00 k −1 l −1 0H i 1[ f, dH i 2[ f, dH i[ f, j dH i[ f, p dAbbildung 3.12: Partitionierung der Impulsantwort des FiltersDas E<strong>in</strong>gangssignal wird <strong>in</strong> überlappende Blöcke mit der Länge l unterteilt. Jeder Blocke i,b [n] wird vom Zeitbereich <strong>in</strong> den Frequenzbereich transformiertF {e i,b [n]} = E i,b [f b )Die Impulsantworten h i [n] mit der Länge von K S<strong>am</strong>ples werden <strong>in</strong> p Impulsantworten h i,j [n]mit e<strong>in</strong>er Länge von je k S<strong>am</strong>ples untergliedert. Wenn die Division von K ke<strong>in</strong>e natürliche Zahlkergibt, wird p aufgerundet und der restliche Block mit S<strong>am</strong>plen des Wertes null aufgefüllt.Daher enthält die Impulsantwort <strong>am</strong> Ende Stille, die jedoch die Funktion des Systems nichtbee<strong>in</strong>trächtigt. Jede der p Impulsantworten h i,j [n] wird mit dem E<strong>in</strong>gangssignal e i,b [n] gefaltet.Die daraus resultierenden p Ausgangssignale A i,b,j [f d ] im Frequenzbereich werden zu e<strong>in</strong>emAusgangssignal A b [f d ] addiert, wobei die jeweilige Verzögerung entsprechend ihres Indexes zup berücksichtigt wird (siehe Abb. 3.13).Das Ausgangssignal A b [f d ] wird mittels <strong>in</strong>verser FFT vom Frequenzbereich <strong>in</strong> den Zeitbereichtransformiert a b [n] = F −1 {A b [f d ]} und dem Ausgangssignal a i [n] h<strong>in</strong>zugefügt (sieheAbb. 3.14).]]]]l239


KAPITEL 3.INTERAKTION DER MASCHINE ZUM MENSCHEN+H i 1[ f, d]=A if[ , b ,2 d]0E i[ f, b d]l2.H if[ , 2 d… …H i[ f, j d]]==A if[ , b ,1 d…]A i[ f, b,j d…]0H i[ f, p d]=l20+..+..+A i[ f, b , p d]l2H i 1[ f, d]=Ai , b + 1,1[ fd]] H [ i , 2fdE [ i , b + 1fd] .0 l2H i , j[fd]… …==Ai, b + 1,2[ fd]Ai, b + 1, j[fd]]……0H i[ f, p d]=l2Ai , b + 1, p[fd0l2..…0Ab[ fd] … Ab+ p −1[fd] …ll2 02Abbildung 3.13: Faltung des partitionierten E<strong>in</strong>gangssignals und Impulsantwort des FiltersBlock b0Ab[ fd]l2IFFT0 l 02Ausgangssignal (Kanal i)… a i[n]a b[n]Block b+1 Abp 1[f ] IFFT+ − da b+p−1[n]0k −1 l −1qk −1l −1…= Ungültige Werteq + l − k −1 q + p( l − k)−1q + ( p −1)(l − k)−1Abbildung 3.14: Erzeugung des Ausgangssignals40


KAPITEL 4<strong>Interaktion</strong> des Menschen zur Masch<strong>in</strong>eD<strong>am</strong>it e<strong>in</strong>e echte <strong>Interaktion</strong>, also e<strong>in</strong>e Art Dialog zwischen System und Nutzer entstehenkann, ist es notwendig, dass der Nutzer dem System Informationen übermitteln kann. DieseInformationen werden dann vom System ausgewertet und mit def<strong>in</strong>ierten Aktionen verknüpft.Das folgende Kapitel beschreibt drei Möglichkeiten, mithilfe derer der Nutzer E<strong>in</strong>gabenan das System machen kann. Dabei s<strong>in</strong>d diese Möglichkeiten speziell an den E<strong>in</strong>satz bei derVisualisierung mittels AR angepasst.Die Möglichkeiten s<strong>in</strong>d hier die E<strong>in</strong>gabe mithilfe von Gesten, sowohl statische als auch dyn<strong>am</strong>ische,die Manipulation der Szene mittels e<strong>in</strong>es Tangible User Interfaces (TUIs) sowie dieVerwendung e<strong>in</strong>es „WII“ Controllers e<strong>in</strong>er handelsüblichen „Playstation“ von „Sony“. DieserController wird hier als komb<strong>in</strong>iertes E<strong>in</strong>- und Ausgabegerät verwendet. Es ist also <strong>in</strong> derLage, sowohl Informationen vom System an den Nutzer als auch umgekehrt zu übermitteln.4.1 Gestenerkennung durch Infrarottrack<strong>in</strong>gDas folgende Kapitel beschreibt die Integration e<strong>in</strong>es Gestenerkenners, basierend auf e<strong>in</strong>emIR-Track<strong>in</strong>gsystem (vgl. Kapitel 2.5.1). Dieses Track<strong>in</strong>gsystem wird parallel zur Berechnungder AR verwendet, das System zur Gestenerkennung bedarf hierbei also ke<strong>in</strong>er zusätzlichenHardware. Dabei fügt es sich <strong>in</strong> das bestehende Fr<strong>am</strong>ework e<strong>in</strong>, besteht also aus e<strong>in</strong>em Client,der der Applikation Gesten des Nutzers mitteilt, und dem Server, der die ges<strong>am</strong>te Erkennungsleistungerbr<strong>in</strong>gt [74].4.1.1 Thematisch verwandte VorarbeitenIm Bereich der Gestenerkennung wird unterschieden zwischen „<strong>in</strong>strumentierten“ und „nicht<strong>in</strong>strumentierten“Erkennungsverfahren. „Instrumentiert“ bezeichnet hierbei Verfahren, beidenen die Hand des Nutzers mit zusätzlicher Hardware versehen wird. Hierzu zählen zumBeispiel Verfahren, die sich e<strong>in</strong>es Handschuhs bedienen [46]. Diese jedoch extrahieren aus denSensordaten des Handschuhs nur statische Gesten, also die aktuelle F<strong>in</strong>gerstellung der Handdes Nutzers.E<strong>in</strong> anderes Verfahren stellt F<strong>in</strong>gARTips [9] vor. Hierbei werden drei F<strong>in</strong>ger des Nutzersmit kle<strong>in</strong>en Papiermarkern versehen, die mithilfe e<strong>in</strong>er K<strong>am</strong>era und e<strong>in</strong>er angeschlossenenBildverarbeitung erkannt werden. Anschließend wird die Transformation zwischen K<strong>am</strong>era41


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINEund Marker berechnet (vgl. Abb. 4.1). Basierend auf diesen Daten können Rückschlüsse aufF<strong>in</strong>gerstellung und daraus resultierenden Gesten gefolgert werden.(a) Ansicht 1 (b) Ansicht 2Abbildung 4.1: Beispiel für <strong>in</strong>strumentierte Gestenerkennung: F<strong>in</strong>gARTips [9]„Nicht-<strong>in</strong>strumentierte“ Ansätze dagegen setzen auf e<strong>in</strong>e re<strong>in</strong>e Erkennung anhand vonBilddaten. Hierbei wird die Hand des Nutzers gefilmt und daraus die F<strong>in</strong>gerstellung extrahiert.Aus diesen kann anschließend ebenfalls wieder auf Gesten rückgeschlossen werden. [59]verwendet hierbei zwei K<strong>am</strong>eras, die auf dem HMD des Nutzers befestigt s<strong>in</strong>d, und d<strong>am</strong>it dieF<strong>in</strong>ger bzw. Hände des Nutzers beobachten.[58] verwendet ebenfalls e<strong>in</strong>e K<strong>am</strong>era, die die Hand des Nutzers beobachtet, um aus dengewonnenen Bilddaten die Hand zu segmentieren und aus den so erhaltenen Daten auf Gestendes Nutzers zu schließen (vgl. Abb. 4.2).(a) Farbiges Bild mit Umrandung(b) Extrahierte HandAbbildung 4.2: Beispiel für „nicht-<strong>in</strong>strumentierte“ Gestenerkennung: VTM - VideobasiertesTrack<strong>in</strong>g-Modul [58]4.1.2 ProblemstellungDas Ziel ist die Umsetzung e<strong>in</strong>es Gestenerkenners mittels IR-Track<strong>in</strong>g, das auf dem bestehendenTrack<strong>in</strong>gsystem aufsetzt und auch bei parallelem Betrieb der AR-Applikation betriebs-42


4.1. GESTENERKENNUNG DURCH INFRAROTTRACKINGfähig ist. Der Nutzer soll dann <strong>in</strong>nerhalb e<strong>in</strong>er AR-Applikation <strong>in</strong> der Lage se<strong>in</strong>, mit se<strong>in</strong>enbeiden Händen sowohl statische als auch dyn<strong>am</strong>ische Gesten zur <strong>Interaktion</strong> mit der AR-Umgebung zu verwenden. Hierzu sollen beide Hände bzw. deren F<strong>in</strong>ger durch das Track<strong>in</strong>gsystemerfasst und basierend auf den Track<strong>in</strong>gdaten e<strong>in</strong>e Erkennung der Gesten ermöglichtwerden. Dabei ist es ebenfalls notwendig, dass Gesten unabhängig der Position im Raum erkanntwerden. Zudem muss sichergestellt werden, dass durch Verdeckung verursachte fehlendeDaten die Gestenerkennung nicht vollständig zum Erliegen br<strong>in</strong>gen.4.1.3 UmsetzungUm die Anforderungen an das Track<strong>in</strong>gsystem möglichst vollständig zu erfüllen, muss e<strong>in</strong>eInterpolation der Positionswerte der getrackten F<strong>in</strong>ger erfolgen, um hier mögliche Lücken imDatenstrom s<strong>in</strong>nvoll zu schliessen. Unabhängig von der Orientierung und Position des Nutzersim Raum müssen Gesten erkannt werden, wodurch der E<strong>in</strong>satz e<strong>in</strong>er Transformation derPositionen erforderlich wird. Diese aufgezeichneten Bewegungen sollen mit zuvor gelerntenBewegungsmustern verglichen werden. Die erkannten Bewegungsmuster sollen dann vom Clientausgegeben werden. Die Bewegungsmuster unterscheiden sich hierbei <strong>in</strong> statischen unddyn<strong>am</strong>ischen Gesten. Bei statische Gesten handelt es sich um zeit<strong>in</strong>variante Stellungen derHand, wie etwa Zeigen oder Greifen. Dyn<strong>am</strong>ische Gesten dagegen s<strong>in</strong>d zeitvariante Stellungender Hand und reichen von e<strong>in</strong>fachem W<strong>in</strong>ken bis h<strong>in</strong> zu <strong>in</strong> die Luft gezeichneten Buchstaben.Die Gestenerkennung <strong>in</strong> der AR erfordert, im Unterschied zur re<strong>in</strong> dyn<strong>am</strong>ischen Gestenerkennung,die Information über die Position des Ortes, an der die Geste ausgeführt wurde.Nur d<strong>am</strong>it lassen sich Objekte, die e<strong>in</strong> Nutzer greifen möchte, identifizieren. Auf diese Weisewird dem Nutzer ermöglicht, virtuelle Objekte sowie reale Gegenstände zu greifen (wobei beivirtuellen Objekten ke<strong>in</strong> taktiles Feedback übertragen wird) und somit se<strong>in</strong>e <strong>Interaktion</strong>sgewohnheitenvon der Realität <strong>in</strong> die Virtualität zu übertragen. D<strong>am</strong>it wird die Absicht derAR, Realität und Virtualität zu verschmelzen, weiter vorangetrieben. Bei der Verwendunge<strong>in</strong>es Gestenerkenners, der ke<strong>in</strong>e Orts<strong>in</strong>formationen ermittelt, könnte nur e<strong>in</strong>e <strong>Interaktion</strong> erfolgen,bei der die Realität und die Virtualität des Nutzers nicht gleichzeitig berücksichtigtwürden. E<strong>in</strong> solches System würde also nur als Trigger mittels Gesten dienen und Funktionenunabhängig vom Ort der Gesten ausführen.4.1.3.1 ÜbersichtDas Gestenerkennungssystem ist <strong>in</strong> drei Teile untergliedert (vgl. Abb. 4.3). Die Positionsdatenvon IR-Targets <strong>in</strong>nerhalb des WeltKOS liefert das IR-Track<strong>in</strong>gsystemmit e<strong>in</strong>er Auflösung vone<strong>in</strong>em Millimeter. Daher trägt der Nutzer des Gestenerkenners an den F<strong>in</strong>gern (Daumenund Zeigef<strong>in</strong>ger an beiden Händen) passive oder aktive (vgl. Kapitel 4.1.4) IR-Targets (vgl.Abb. 4.4). Auf diese Weise ist es möglich, die aktuelle Position und Orientierung der vierF<strong>in</strong>ger <strong>in</strong>nerhalb des WeltKOS zu ermitteln.Diese Positionsdaten werden vom Track<strong>in</strong>gsystem mittels UDP-Nachrichten an den Serverdes Gestenerkenners geschickt. Die Daten durchlaufen im Server drei Schritte: In e<strong>in</strong>erVorverarbeitung werden die Bewegungsdaten segmentiert, wobei die Start- und Endpunktedyn<strong>am</strong>ischer Bewegungen detektiert werden. Anschließend werden die Bewegungen <strong>in</strong>terpoliert,um mögliche verlorene Daten zu kompensieren. Abschließend wird die Bewegung vone<strong>in</strong>er Bewegung <strong>in</strong> 3-D im Raum <strong>in</strong> e<strong>in</strong>e 2-D-Ebene transformiert. Die so gewonnenen, segmentiertenBewegungen werden <strong>in</strong> Teilbewegungen, ähnlich der Phoneme bei der Spracherkennung,aufgeteilt, um sie anschließend klassifizieren zu können. Als Ergebnis übermittelt43


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINE2134F<strong>in</strong>gertargetsInfrarotInfrarotTrack<strong>in</strong>gsystemTrack<strong>in</strong>gsystemGestenerkennerGestenerkennerClientClientEventsUDP-NachrichtUDP-NachrichtVorverarbeitungVorverarbeitungUnterscheidungUnterscheidungdyn.dyn.undundstatischstatischUnterteilungUnterteilung<strong>in</strong><strong>in</strong>TeilbewegungenTeilbewegungendyn<strong>am</strong>ischstatischKlassifizierungKlassifizierungHMMsHMMsMSEMSEGestenerkenner ServerAbbildung 4.3: Schematischer Aufbau des Gestenerkenners(a) Passive Targets(b) Aktive TargetsAbbildung 4.4: Vergleich aktiver und passiver F<strong>in</strong>gertargetsder Server die erkannte Geste an den Gestenerkenner-Client. Dieser kann <strong>in</strong> jede beliebige Applikatione<strong>in</strong>gebunden werden und stellt die Daten des Gestenerkenners <strong>in</strong> Form von Eventszur Verfügung. Bei der Erkennung werden statische und dyn<strong>am</strong>ische Gesten unterschiedlichklassifiziert. Statische Gesten werden mittels des Abstands zwischen Zeigef<strong>in</strong>ger und Daumenzugeordnet. In dieser Arbeit wurden nur zwei statische Gesten umgesetzt, das Zeigen unddas Greifen. Zusätzlich wurde e<strong>in</strong>e Geste modelliert, die e<strong>in</strong>en Ruhezustand def<strong>in</strong>iert, die alsoke<strong>in</strong>e Geste des Nutzers repräsentiert. Der Abstand zwischen Zeigef<strong>in</strong>ger und Daumen jederHand wird anhand der e<strong>in</strong>gehenden Track<strong>in</strong>gdaten ermittelt. Unterschreitet er e<strong>in</strong>en Abstandvon 2 cm, wird für die betreffende Hand die Geste „Greifen“ klassifiziert (vgl. Abb. 4.5). E<strong>in</strong>Abstand über 10 cm dagegen beschreibt die Geste „Zeigen“, da hier der Abstand zwischenden F<strong>in</strong>gern maximal wird. Der restliche dazwischen liegende Bereich wird als Ruhezustandbeschrieben, <strong>in</strong> dem der Nutzer ke<strong>in</strong>e Geste ausführt. Um nun Objekte im Raum greifenzu können, muss e<strong>in</strong>e Umrechnung der Koord<strong>in</strong>aten des Objektes erfolgen. E<strong>in</strong> Objekt, dasergriffen wurde, wird <strong>in</strong> das KOS des Targets transformiert, um mit der Hand mit geführtwerden zu können. Die Position des Objektes ist allerd<strong>in</strong>gs im WeltKOS angegeben, soll aber44


4.1. GESTENERKENNUNG DURCH INFRAROTTRACKING(a) Aus Sicht e<strong>in</strong>es Beobachters(b) Aus Sicht des NutzersAbbildung 4.5: Greifen e<strong>in</strong>es virtuellen Objektes mittels Gestenerkenner<strong>in</strong> Abhängigkeit des Targets angegeben se<strong>in</strong>. Daher ist es notwendig, die Position des Objektes<strong>in</strong> Abhängigkeit der Position des Targets der Hand zu berechnen und für die Visualisierungzur Verfügung zu stellen. Die Position p O,T des Objektes im TargetKOS lässt sich wie folgtbestimmen:p O,T= R −1 (p O,W− p T,W)Hierbei entspricht p O,Wder Position des Objektes im WeltKOS, p T,Wder Position des Targetsim WeltKOS und R der Rotationsmatrix des Targets im WeltKOS. Ebenfalls muss beimLoslassen des Objektes die Position aus dem TargetKOS wieder zurück <strong>in</strong> die Position imWeltKOS p O,Werrechnet werden, d<strong>am</strong>it das Objekt <strong>in</strong> diesem dargestellt werden kann. Dieslässt sich durchp O,W= p T,W+ R · p O,Terreichen. Zur dyn<strong>am</strong>ischen Gestenerkennung ist e<strong>in</strong>e Datenverarbeitung <strong>in</strong> mehreren Schrittennotwendig, die im Folgenden erläutert werden.4.1.3.2 DatenverarbeitungUm Gesten zu erkennen, müssen die e<strong>in</strong>gehenden Daten des IR-Track<strong>in</strong>gsystems segmentiert,<strong>in</strong>terpoliert und transformiert werden. Ausgehend von diesen transformierten Daten wird e<strong>in</strong>eGeste <strong>in</strong> Teilbewegungen unterteilt und mittels e<strong>in</strong>es HMMs klassifiziert.SegmentierungD<strong>am</strong>it e<strong>in</strong>zelne dyn<strong>am</strong>ische Gesten erkannt werden können, müssen Gesten als solche im Bewegungsablaufdetektiert werden. Es muss also automatisch erkannt werden, ob der Nutzeraktuell e<strong>in</strong>e dyn<strong>am</strong>ische Geste an das System abgibt. Aus diesem Grund f<strong>in</strong>det e<strong>in</strong>e Segmentierungzu Beg<strong>in</strong>n der Gestenerkennung statt. Es werden daher nur solche Bewegungsmusteran die Erkennung weitergeleitet, die als Bewegungsmuster e<strong>in</strong>er Geste e<strong>in</strong>gestuft werden. Dazuwird die Bewegungsgeschw<strong>in</strong>digkeit der F<strong>in</strong>ger im Raum verwendet, die sich e<strong>in</strong>fach anhandder Informationen bzgl. der Position der F<strong>in</strong>ger bestimmen lässt. Hierfür wird der Abstandder letzten Position zur aktuellen gebildet und mittels der Fr<strong>am</strong>erate von 60 Hz <strong>in</strong> e<strong>in</strong>e Geschw<strong>in</strong>digkeitumgerechnet. Überschreitet die Bewegungsgeschw<strong>in</strong>digkeit e<strong>in</strong>en e<strong>in</strong>gestellten45


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINESchwellwert (hier bei 20 cm je Sekunde) für e<strong>in</strong>e Dauer von mehr als 350 ms, wird die Aufzeichnungder Positionen gestartet. Wird die Bewegungsgeschw<strong>in</strong>digkeit für e<strong>in</strong>e Zeitdauervon e<strong>in</strong>er Sekunde wieder unterschritten, wird die Geste als beendet e<strong>in</strong>gestuft und an dieInterpolation weitergereicht. Dabei werden die für die Zeitdauer aufgenommenen Positionenherangezogen. Es werden jedoch nicht die absoluten Positionen, sondern die Positionsänderungenübergeben. Dies ist notwendig, weil die Erkennung unabhängig vom Startpunkt derBewegung erfolgen soll.InterpolationAufgrund von E<strong>in</strong>flüßen der Umgebung, wie etwa Lichtverhältnisse oder Verdeckungen, könnenDaten bzgl. der aktuellen Position verloren gehen. So kann es beispielsweise passieren,dass die Positionsdaten e<strong>in</strong>es F<strong>in</strong>gers über e<strong>in</strong>en bestimmten Zeitraum nicht verfolgt werdenkönnen. Diese fehlenden Werte können nicht exakt bestimmt werden, sie müssen also mittelse<strong>in</strong>er Interpolation geschätzt werden. Hierbei wird die „Hermitsche-Spl<strong>in</strong>e-Interpolation“(HSI) benutzt. Diese wird jedoch nicht auf die Positionsänderungen angewandt, sondern aufdie Start- und Endposition der zu <strong>in</strong>terpolierenden Bewegungsstrecke. Das ist notwendig, dabei nicht erkannten Targets ke<strong>in</strong>e Positionsänderungen mehr erfolgen und somit ke<strong>in</strong>e Interpolationstatt f<strong>in</strong>den kann.P −1P 0P 2T 1P 1T 0Abbildung 4.6: Hermitsche Spl<strong>in</strong>e InterpolationDie so berechneten Positionen werden nach der Interpolation <strong>in</strong> Positionsänderungen umgerechnetund den bisher bestehenden Daten h<strong>in</strong>zugefügt. Für die Interpolation werden diePosition P 0 und Tangente T 0 des letzten sichtbaren Punktes sowie die Position P 1 und TangenteT 1 des ersten wieder sichtbaren Punktes benötigt. Alle Positionen zwischen diesen beidenPunkten werden mittels folgender kubischen Grundfunktionen der HSI berechnet:h 1 (s) = 2s 3 − 3s 2 + 1h 2 (s) = −2s 3 + 3s 2h 3 (s) = s 3 − 2s 2 + sh 4 (s) = s 3 − sHierbei stellt der Par<strong>am</strong>eters =1Anzahl nicht erkannter Punkteden Index des fehlenden Punktes dar, der auf den Wertebereich von 0 bis 1 skaliert wurde. DieAnzahl der nicht erkannten Punkte berechnet sich aus den Zeitstempeln der beiden Punkte,46


4.1. GESTENERKENNUNG DURCH INFRAROTTRACKINGaus deren Differenz die Anzahl der verlorenen Datensätze berechnet werden kann. Der Punktmit Index s berechnet sich dann anschließend wie folgt:P (s) = h 1 (s) · P 0 + h 2 (s) · P 1 + h 3 (s) · T 0 + h 4 (s) · T 1Im Anschluss an diesen Schritt wird der so gewonnene durchgehende Bewegungsablauf andie Transformation weitergereicht. Durch diese Transformation wird die Bewegung von 3-D-Koord<strong>in</strong>aten <strong>in</strong> 2-D-Koord<strong>in</strong>aten projiziert.TransformationUm e<strong>in</strong>e Erkennung von Gesten unabhängig von der Orientierung des Nutzers im Raum zuermöglichen, benötigt die Erkennung e<strong>in</strong>e immer gleichbleibende Beschreibung der Gesten.Diese muss also alle gleichen Gesten, welche jedoch an beliebigen Positionen im Raum ausgeführtwerden können, e<strong>in</strong>heitlich darstellen. Nur dann ist gewährleistet, dass Gesten anbeliebigen Orten immer als e<strong>in</strong> und dieselbe Geste klassifiziert werden. Zusätzlich vere<strong>in</strong>fachtdie Anwendung der Transformation die Klassifizierung, da ansonsten e<strong>in</strong> Tra<strong>in</strong><strong>in</strong>g fürjeden Ort im Raum für jede Geste durchgeführt werden müsste. Zur Transformation von 3-D-Koord<strong>in</strong>aten <strong>in</strong> 2-D-Koord<strong>in</strong>aten wurden zwei verschiedene Ansätze verfolgt, die auch <strong>in</strong>der Evaluierung gegenübergestellt und verglichen wurden (vgl. Kapitel 7.1). Beiden Ansätzenist jedoch geme<strong>in</strong>, dass sie voraussetzen, dass Gesten immer annähernd orthogonal zurX-Y-Ebene ausgeführt werden. Diese Annahme kann getroffen werden, da der Nutzer Gestenzumeist im Stehen ausführt. Jedoch werden durch diese E<strong>in</strong>schränkung Gesten, die parallelzur X-Y-Ebene ausgeführt werden nicht erkannt, da sie <strong>in</strong> beiden Ansätzen auf e<strong>in</strong>e Dimensionreduziert werden und somit nicht mehr klassifizierbar s<strong>in</strong>d.Z WY TY Wz 0y 0y 1x0XWx 1X TAbbildung 4.7: Längentreue Abbildung als TransformationDer erste Ansatz bedient sich der Idee der längentreuen Abbildung, die die Änderung derZ-Koord<strong>in</strong>ate <strong>in</strong> Weltkoord<strong>in</strong>aten z 0 direkt <strong>in</strong> die Änderung der Y-Koord<strong>in</strong>ate y 1 überführt(vgl. Abb. 4.7). Die Formel hierzu lautet also:y 1 = z 0Die X-Koord<strong>in</strong>ate der Abbildung berechnet sich aus der Länge der Bewegung <strong>in</strong> Weltkoord<strong>in</strong>atenunter Berücksichtigung der X- und Y-Änderung. Die Berechnungsformel hierzu lautetalso:√x 1 = x 2 o + yo2Auf diese Weise wird jeweils die Länge der Bewegung <strong>in</strong> der X-Y-Ebene auf die X-Komponenteder Abbildung umgerechnet.47


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINEZ WY TY Wz 0y 0αx0XWy 1x 1X TAbbildung 4.8: Rotation der Bewegungsebene als TransformationIm zweiten Ansatz wird die ges<strong>am</strong>te Ebene, <strong>in</strong> der die Bewegung stattgefunden hat umdie Z-Achse des WeltKOS gedreht. Anschließend wird die Z-X-Ebene des WeltKOS auf dieY-X-Ebene der Abbildung überführt vgl. Abb. 4.8). Bei der Rotation der Bewegungsebenewird also der W<strong>in</strong>kel zwischen der X-Achse des WeltKOS mit der Projektion der Bewegungauf die X-Y-Ebene gebildet. Um diesen W<strong>in</strong>kel wird dann die Bewegung um die Z-Achsedes WeltKOS <strong>in</strong> entgegengesetzter Richtung gedreht. Der W<strong>in</strong>kel lässt sich hierbei e<strong>in</strong>fachfolgendermaßen bestimmen:α = tan −1 ( Y 0X 0)Im Anschluss daran wird wieder, wie bei Ansatz 1, die X-Z-Ebene des WeltKOS <strong>in</strong> die Y-X-Ebene der Abbildung überführt. Beide Ansätze resultieren im selben Ergebnis der Abbildung.Jedoch unterscheiden sie die Erkennung der Blickrichtung des Nutzers. Ansatz 1 geht davonaus, dass der Nutzer entlang der positiven Y-Achse des WeltKOS blickt, während er die Gesteausführt. Ebenfalls können durch die Rechenvorschrift nur Bewegungen entlang der positivenX-Achse der Abbildung abgebildet werden. Daher wird bei Ansatz 1 e<strong>in</strong>e Abfrage nach derRichtung e<strong>in</strong>gefügt, die den resultierenden X-Wert <strong>in</strong> der Abbildung entweder addiert odersubtrahiert. Ansatz 2 dagegen bezieht die Richtungs<strong>in</strong>formation aus e<strong>in</strong>em <strong>in</strong>itialen Abgleichder Zeigerichtung des F<strong>in</strong>gers des Nutzers. Ausgehend von diesem W<strong>in</strong>kel können nun dieOrientierung des Nutzers bestimmt und entsprechend die Werte für die Abbildung angepasstwerden.Unterteilung <strong>in</strong> TeilbewegungenAngelehnt an die Spracherkennung, die Phoneme zur Klassifikation verwendet, basiert dieErkennung der Gesten <strong>in</strong> dieser Arbeit auf der Komb<strong>in</strong>ation verschiedener Teilbewegungen.Diese Teilbewegungen s<strong>in</strong>d 16 Basisbewegungen, aus denen sämtliche Gesten als Komb<strong>in</strong>ationkonstruiert werden können, zu denen beispielsweise e<strong>in</strong> Halbkreis im Uhrzeigers<strong>in</strong>n oder e<strong>in</strong>eBewegung senkrecht nach unten zählen (vgl. Abb. 4.9).So ist es möglich, Gesten auf verschiedene Arten zu modellieren. E<strong>in</strong>e „0“ kann von verschiedenenNutzern auf verschiedene Weisen gezeichnet werden (beispielsweise mit oder gegenden Uhrzeigers<strong>in</strong>n). Durch die Verwendung der Teilbewegungen müssen nicht sämtliche verschiedenenMöglichkeiten vollständig tra<strong>in</strong>iert werden, sondern es reicht die Zus<strong>am</strong>menfassungverschiedener Komb<strong>in</strong>ationen zu e<strong>in</strong>er e<strong>in</strong>zigen Geste. Diese kann dann später per Client andie Applikation übergeben werden, andernfalls müsste die Zus<strong>am</strong>menfassung verschiedenerGesten die Applikation vornehmen.48


4.1. GESTENERKENNUNG DURCH INFRAROTTRACKINGAbbildung 4.9: Teilbewegungen e<strong>in</strong>er GesteTra<strong>in</strong><strong>in</strong>gDa der Fokus dieser Arbeit auf der ges<strong>am</strong>ten Umsetzung von multimodaler <strong>Interaktion</strong> liegt,soll hier nur kurz auf das Tra<strong>in</strong><strong>in</strong>g und die Erkennung mittels HMMs unter Verwendung desHTK Toolkits [20] e<strong>in</strong>gegangen werden. Zu Beg<strong>in</strong>n werden die 16 Teilbewegungen tra<strong>in</strong>iert.Dazu wird durch den Nutzer e<strong>in</strong>e Segmentierung vorgenommen, da dieser selbst den StartundEndzeitpunkt e<strong>in</strong>er Teilbewegung festlegen kann (dies erfolgt mittels e<strong>in</strong>es Tastendrucks).Alle möglichen Teilbewegungen werden <strong>in</strong> e<strong>in</strong>er Datei mit N<strong>am</strong>en def<strong>in</strong>iert („models.list“), umdiese später zuordnen zu können. In e<strong>in</strong>em „Dictionary“ werden abschließend allen Teilbewegungenaussagekräftige N<strong>am</strong>en zugeordnet. Diese s<strong>in</strong>d später Grundlage der Komb<strong>in</strong>ation zuGesten. Daran anschließend werden die Gesten mittels e<strong>in</strong>er „Dictionary“, <strong>in</strong> der der N<strong>am</strong>eder Geste e<strong>in</strong>getragen ist, sowie deren zugrundeliegende Teilbewegungen def<strong>in</strong>iert. Mit diesenGrundlagen kann nun das HTK Toolkit tra<strong>in</strong>iert und für die Erkennung verwendet werden.ErkennungFür die Erkennung werden die Daten des Track<strong>in</strong>gsystems, wie zuvor beschrieben, segmentiertund vorverarbeitet. Diese Daten werden nun an das HTK Toolkit zur Klassifizierungübergeben. Dieses übergibt daraufh<strong>in</strong> e<strong>in</strong>e Liste der Klassen sowie deren Wahrsche<strong>in</strong>lichkeit.Mit e<strong>in</strong>em zuvor festgelegten Schwellwert kann nun bestimmt werden, wie zuverlässig bzw.sicher das Ergebnis der Klassifikation ist. Ist dieser Schwellwert überschritten, übernimmtder Gestenerkenner die zurückgelieferte Klasse und reicht das Ergebnis an den Client mittelse<strong>in</strong>er Netzwerkverb<strong>in</strong>dung weiter.4.1.3.3 Kommunikation und DatenbereitstellungDer Client erhält sämtliche Klassifizierungsergebnisse, die über den def<strong>in</strong>ierten Schwellwertreichen. Diese Ergebnisse werden über Events an die Applikation übergeben. Hierzu kann jedebeliebige Applikation e<strong>in</strong>en Client e<strong>in</strong>b<strong>in</strong>den und die Events dieses Clients abbonieren. AufBasis der Gestenerkennung können dann Funktionen durch Events getriggert werden, zumBeispiel kann e<strong>in</strong> Objekt durch e<strong>in</strong>e bestimmte Geste geladen oder gelöscht werden.Abb. 4.10 zeigt nochmals e<strong>in</strong>en Nutzer, der mittels AR durch Gesten mit e<strong>in</strong>em virtuellenObjekt <strong>in</strong>teragieren kann. Dabei zeigt die Darstellung auf dem Bildschirm den aktuellenBlickw<strong>in</strong>kel des Nutzers <strong>in</strong>nerhalb der AR.49


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINE(a) Nutzer nähert sich Objekt(b) und ergreift esAbbildung 4.10: <strong>Interaktion</strong> mittels Gesten4.1.4 Verbesserung durch den E<strong>in</strong>satz aktiver LEDsPassive Marker s<strong>in</strong>d e<strong>in</strong>igen Nachteilen unterworfen. Neben e<strong>in</strong>em hohen Anschaffungspreisist deren reflektierende Oberfläche sehr empf<strong>in</strong>dlich und nutzt im Verlauf der Zeit durchphysikalische E<strong>in</strong>flüsse, wie etwa Stöße, ab. Außerdem s<strong>in</strong>d passive Targets aufgrund derBaugröße der Kugeln räumlich sehr ausgedehnt, was bei der Verwendung als Target zumTrack<strong>in</strong>g der F<strong>in</strong>ger zu Problemen bei der <strong>Interaktion</strong> führt. Diese zeigen sich durch dasVerhaken zweier Targets von benachbarten F<strong>in</strong>gern. Passive Marker s<strong>in</strong>d daher auf zwei Stückje Hand begrenzt, um e<strong>in</strong>e Trennung beider Targets zu ermöglichen und um den Tragekomfortfür den Nutzer möglichst zu erhalten.Aus diesen Gründen wurde e<strong>in</strong> alternativer Ansatz verwendet. Statt passiver Targets, dieIR-Strahlung der K<strong>am</strong>erablitze reflektieren, kommen aktive Leuchtdioden (Light Emitt<strong>in</strong>gDiodes - LEDs) zum E<strong>in</strong>satz, die Licht derselben Wellenlänge aussenden. Somit können diebisherigen passiven Kugeln durch aktive LEDs ersetzt werden. Hier f<strong>in</strong>det e<strong>in</strong>e Unterscheidungzwischen e<strong>in</strong>em vollständigen und e<strong>in</strong>em teilweisen Target statt. E<strong>in</strong> herkömmliches Target,das die Kugeln mit e<strong>in</strong>er festen Anordnung an LEDs e<strong>in</strong>fach ersetzt, wird als vollständigesTarget bezeichnet. E<strong>in</strong>zelne, an den F<strong>in</strong>gerspitzen angebrachte LEDs, die anschließendregelbasiert bestimmten F<strong>in</strong>gern zugeordnet werden müssen, werden als teilweise Targets bezeichnet.Beiden Ansätzen liegen identische Basisbed<strong>in</strong>gungen zugrunde. LEDs benötigen e<strong>in</strong>e aktiveStromversorgung, so dass deren E<strong>in</strong>satz auf e<strong>in</strong>e lange Lebensdauer optimiert werden muss.Weiterh<strong>in</strong> verursacht die Abstrahlcharakteristik e<strong>in</strong>er LED Probleme bei der Erkennung imTrack<strong>in</strong>gsystem, da e<strong>in</strong>e LED e<strong>in</strong>en auf etwa 120 Grad begrenzten Abstrahlw<strong>in</strong>kel hat.In dieser Arbeit wurden nur vollständige Targets verwendet, deren Umsetzung im Folgendenbeschrieben wird.Die Umsetzung e<strong>in</strong>es vollständigen Targets be<strong>in</strong>haltet die Ersetzung aller passiven Markerdurch aktive Marker. Um e<strong>in</strong>e gleiche Redundanz bzgl. der Reflexionspunkte zu erreichen,wurden wie auch beim passiven Modell vier Marker verwendet, woaus e<strong>in</strong> Target erzeugt wird(vgl. Abb. 4.11).Die Hardware besteht aus e<strong>in</strong>er e<strong>in</strong>fachen Serienschaltung von vier LEDs. Diese benötigene<strong>in</strong>e Spannungsquelle und e<strong>in</strong>en Vorwiderstand, der die an den LEDs anliegende Spannungbegrenzt (vgl. Abb. 4.12).50


4.1. GESTENERKENNUNG DURCH INFRAROTTRACKING(a) passiv mit Kugeln(b) aktiv mit LeuchtdiodenAbbildung 4.11: Vergleich vollständige Targets mit passiven und aktiven Markern1,5V1,5V1,5V1,5VR9VAbbildung 4.12: Serienschaltung des TargetsIn der hier verwendeten Schaltung kommt e<strong>in</strong>e 9 V Batterie zum E<strong>in</strong>satz (U Batterie = 9V )sowie e<strong>in</strong>e LED des Typs „SFH421“, deren Spannung auf maximal 1,5 V begrenzt werdenmuss (U LED = 1, 5V ). Der Strom durch die LED beträgt hierbei 100 mA (I LED = 0, 1A). Diedaraus <strong>am</strong> Widerstand abfallende Spannung berechnet sich daher ausU R = U Batterie − (4 · U LED ) = 9V − (4 · 1, 5V ) = 3Vzu 3 V. Aus diesen Angaben lässt sich die Größe des Vorwiderstandes ausR = U RI R= 3V0, 1A = 30Ωzu 30 Ohm berechnen. Aufgrund der Stromstärke von 100 mA muss der verwendete Widerstandan die daraus resultierende Leistung angepasst werden, die sich ausP = U R · I R = 3V · 0, 1A = 0, 3Wzu 300 mW berechnet. Daher kommt hier e<strong>in</strong> Widerstand mit e<strong>in</strong>em halben Watt Leistungzum E<strong>in</strong>satz. Da der Abstrahlw<strong>in</strong>kel der LED nur 120 Grad beträgt, wird hier e<strong>in</strong>e Diffusionsfolieverwendet, die ähnlich wie e<strong>in</strong> L<strong>am</strong>penschirm die abgehende Strahlung <strong>in</strong> alle Richtungenverteilt. Auf diese Weise wird der Abstrahlw<strong>in</strong>kel auf etwa 190 Grad erhöht, was die Strahlen<strong>in</strong>tensitätim Gegenzug aber verm<strong>in</strong>dert. Die Befestigung der Batterie erfolgt <strong>am</strong> Handgelenkdes Nutzers, um dessen Mobilität durch die Verwendung des aktiven Targets nicht e<strong>in</strong>zuschränken.Hierbei wird die Batterie beispielsweise mit e<strong>in</strong>em elastischen Band oder an e<strong>in</strong>erUhr als Träger befestigt (vgl. Abb. 4.13). Die Kosten für das beschriebene Target belaufensich auf etwa fünf Euro.51


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINE(a) elastisches Band(b) Uhr als TrägerAbbildung 4.13: Befestigungsmöglichkeiten der Batterie des aktiven Targets4.2 Tangible User Interface als E<strong>in</strong>gabeDas folgende Kapitel verfolgt e<strong>in</strong>en weiteren Ansatz, neuartige und auf die 3-D-Umgebung derAR angepasste E<strong>in</strong>gabemöglichkeiten <strong>in</strong> das Ges<strong>am</strong>tkonzept zu <strong>in</strong>tegrieren. Hierbei kommte<strong>in</strong> TUI zum E<strong>in</strong>satz, welches e<strong>in</strong> E<strong>in</strong>gabegerät <strong>in</strong> Form e<strong>in</strong>er realen Hardware darstellt, <strong>in</strong>das Sensorik zur Messung von Neigungen oder Rotationen <strong>in</strong>tegriert ist. Diese Sensoren lieferndabei Messdaten, die auf die Manipulation des Interfaces durch den Nutzer rückschließen lassen.Basierend auf diesen Messdaten können Veränderungen der Szene vorgenommen werden.Der grundlegende Gedanke e<strong>in</strong>es TUIs ist also die direkte <strong>Interaktion</strong>smöglichkeit mit derVirtualität mittels e<strong>in</strong>es Interfaces. Dieses ist vom Nutzer greifbar und repräsentiert e<strong>in</strong>e fürdie Virtualität angepasste <strong>Interaktion</strong>smetapher.4.2.1 Thematisch verwandte VorarbeitenTUIs können im Allgeme<strong>in</strong>en <strong>in</strong> zwei Gruppen unterteilt werden. Die e<strong>in</strong>en stellen e<strong>in</strong> <strong>in</strong>sich geschlossenes E<strong>in</strong>gabesystem dar, das die ges<strong>am</strong>te Sensorik zur E<strong>in</strong>gabe und eventuelleAusgabemöglichkeiten <strong>in</strong> sich vere<strong>in</strong>t. Die andere Gruppe besteht aus mehreren Komponenten,wobei das eigentliche Interface nur durch e<strong>in</strong>en physikalischen Körper repräsentiert wird unddie E<strong>in</strong>gabe bzw. Ausgabe mit weiterer Hardware erfolgt.[43] beschreibt e<strong>in</strong>en Würfel, <strong>in</strong> dem die Sensorik zur Messung von Lage<strong>in</strong>formationenuntergebracht ist (vgl. Abb. 4.14(a)). Ebenfalls be<strong>in</strong>haltet dieser Würfel sechs Displays zurvisuellen Ausgabe von Informationen an den Nutzer. Dieser kann mit Hilfe von Gesten, diedurch die Sensorik gemessen werden, E<strong>in</strong>gaben an das System vornehmen. Dieser Würfel52


4.2. TANGIBLE USER INTERFACE ALS EINGABEgehört also zur Gruppe der Interfaces, die alle Funktionalitäten <strong>in</strong> sich vere<strong>in</strong>en.(a) „Display Cube“ [43] (b) „Audiopad“ [66]Abbildung 4.14: Beispiele für Tangible User Interfaces„Audiopad“ dagegen stellt e<strong>in</strong> TUI dar, bei dem nur kle<strong>in</strong>e Bauste<strong>in</strong>e das eigentliche Interfaceabbilden [66]. Diese werden über e<strong>in</strong>e K<strong>am</strong>era, die oberhalb e<strong>in</strong>es Tisches angebracht ist,getrackt (vgl. Abb. 4.14(b)). Die so gewonnenen Informationen über diese Bauste<strong>in</strong>e dienender E<strong>in</strong>gabe. So können bestimmte Funktionen durch bestimmte Positionen oder Orientierungenauf dem Tisch getriggert werden. Als Ausgabe an den Nutzer wird mittels e<strong>in</strong>es Projektorsvisuelle Information auf den Tisch abgebildet. Dieses Interface ist also nicht <strong>in</strong> sich geschlossen.4.2.2 ProblemstellungVor allem für 3-D-Anwendungen, wie beispielsweise AR Szenarien, ersche<strong>in</strong>t die <strong>Interaktion</strong>mit Maus und Tastatur ungeeignet, da beide E<strong>in</strong>gabegeräte e<strong>in</strong>e feste Unterlage benötigen.Dies führt dazu, dass der Nutzer an se<strong>in</strong>en Arbeitsplatz gebunden ist und sich <strong>in</strong> se<strong>in</strong>erUmgebung nicht frei bewegen kann. Maus und Tastatur s<strong>in</strong>d E<strong>in</strong>gabegeräte, die nur zweiDimensionen zur E<strong>in</strong>gabe verwenden (X-Y-Ebene der Maus). Dies hat zur Folge, dass Manipulationen<strong>in</strong> AR, deren wesentlicher Bestandteil die Darstellung <strong>in</strong> 3-D ist, <strong>in</strong> mehrereSchritte aufgeteilt und <strong>in</strong> 2-D transformiert werden müssen. So muss e<strong>in</strong>e Translation <strong>in</strong> 3-D<strong>in</strong> m<strong>in</strong>destens zwei Schritten <strong>in</strong> 2-D umgewandelt werden.Diese E<strong>in</strong>schränkungen verm<strong>in</strong>dern den Grad der Immersion der AR erheblich und widersprechender Idee, die Umgebung des Nutzers virtuell so anzureichern, dass sie sich nahtlos<strong>in</strong> se<strong>in</strong>e reale Umgebung e<strong>in</strong>gliedert.Ziel ist es also, e<strong>in</strong> E<strong>in</strong>gabegerät zu entwickeln, das 3-D-Manipulationen ermöglicht undsich <strong>in</strong> die Umgebung des Nutzers <strong>in</strong>tegrieren lässt. Dieses Interface ermittelt anhand geeigneterSensorik die Manipulationen des Nutzers und setzt diese <strong>in</strong> e<strong>in</strong>e Manipulation derDaten um. Auf diese Weise können virtuelle Objekte mittels realer Objekte manipuliert werden.Da bereits e<strong>in</strong> Gestenerkenner auf Basis des IR-Track<strong>in</strong>gsystems realisiert wurde, soll53


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINE<strong>in</strong> diesem Ansatz e<strong>in</strong> Interface entstehen, das von diesem Track<strong>in</strong>gverfahren unabhängig ist.Somit werden andere Varianten der Sensorik notwendig.4.2.3 UmsetzungDas folgende Kapitel beschäftigt sich mit der Umsetzung e<strong>in</strong>es TUIs. Dieses verwendet e<strong>in</strong>enBeschleunigungssensor sowie e<strong>in</strong> Gyroskop als Sensoren. Mit deren Messdaten können ApplikationenInformationen bzgl. des Zustands des TUIs gew<strong>in</strong>nen und darauf basierend Funktionenausführen. Somit lässt sich e<strong>in</strong>e Steuerung mithilfe des TUIs erreichen.4.2.3.1 ÜbersichtDas System besteht <strong>in</strong> Anlehnung an das Ges<strong>am</strong>tsystem aus e<strong>in</strong>em Server-Client-Ansatz (vgl.Abb. 4.15). Das TUI be<strong>in</strong>haltet die Sensorik zur Messung se<strong>in</strong>es aktuellen Zustands sowieTaster zur E<strong>in</strong>gabe von Nutzer<strong>in</strong>tentionen. Diese Sensorik, bestehend aus e<strong>in</strong>em Beschleunigungssensorsowie e<strong>in</strong>em Gyroskop, übermittelt ihre Daten mittels der USB-Schnittstelle anden TUI Server, unter anderem die Kalibrierung der Sensorik, die e<strong>in</strong>em kont<strong>in</strong>uierlichen Driftunterworfen ist. Die vorverarbeiteten Daten werden anschließend umgewandelt, um später derApplikation zur Verfügung stehen zu können. Diese werden der Applikation über den Clientangeboten, der se<strong>in</strong>e Informationen über e<strong>in</strong> Netzwerk vom TUI-Server erhält.TUISensorikSensorikTasterTasterPICDEMPICDEMUSBUSBBoardBoardTUITUIClientClientEventsUSBVerb<strong>in</strong>dungUDPNachrichtDatenumsetzungDatenumsetzungDatenaufnahmeDatenaufnahmeDatenverarbeitungDatenverarbeitungTUI ServerAbbildung 4.15: Schematischer Aufbau des Tangible User Interfaces4.2.3.2 HardwareDas TUI besteht aus vier Hauptbestandteilen: das Sensormodul, vier Drucktaster, das USB-Board zur Übertragung an den Server und das Gehäuse, das alle Komponenten vere<strong>in</strong>t.SensormodulDas verwendete Sensormodul ist angelehnt an das für die Luftfahrt verwendete Inertial MeasurementUnit. Dieses System, welches aus e<strong>in</strong>em GPS-Sensor, drei Beschleunigungssensorenund zwei oder drei Gyroskopen besteht, ist für die Bestimmung der Position und der Orientierungdes Flugzeugs zuständig.54


4.2. TANGIBLE USER INTERFACE ALS EINGABEAufgrund der hohen Kosten e<strong>in</strong>es solchen Systems werden die Sensoren beschränkt. ZumE<strong>in</strong>satz kommen <strong>in</strong> diesem System e<strong>in</strong> 2-D-Beschleunigungssensor „ADXL320“, der Beschleunigungen<strong>in</strong> Richtung se<strong>in</strong>er X- und Y-Achse erfassen kann, und e<strong>in</strong> Gyroskop „ADXRS300“,das W<strong>in</strong>kelgeschw<strong>in</strong>digkeiten um se<strong>in</strong>e Z-Achse messen kann. Abb. 4.16 zeigt das Sensormodul,auf dem mit der Zahl 1 der Beschleunigungssensor und mit der Zahl 2 das Gyroskopgekennzeichnet s<strong>in</strong>d. Weiterh<strong>in</strong> s<strong>in</strong>d <strong>in</strong> der Darstellung die Richtungen der Achsen durch Pfeilebeschrieben, wobei X die X-Achse, Y die Y-Achse und R z die Rotation um die Z-Achsebezeichnen. Das Modul ist über die P<strong>in</strong>s „Ground“ und „5V“ an die 5 V Versorgungsspannungdes „PICDEM TM FS USB Boards“ angeschlossen. Mit diesen Sensoren wäre die Messung vonfünf Freiheitsgraden möglich, wird hier aber auf drei begrenzt, um den Effekt des Drifts derNeigungssensoren zu elem<strong>in</strong>ieren.X1 2YR ZAbbildung 4.16: Sensormodul mit Beschleunigungssensor (1), Gyroskop (2)) und e<strong>in</strong>gezeichnetenMessrichtungenDer „ADXL320“ von „Analog Devices“ ist e<strong>in</strong> 2-D-Beschleunigungssensor, der sowohl dyn<strong>am</strong>ische(z.B. Vibrationen) als auch statische (z.B. Gravitation) Beschleunigungen bis zu5g messen kann [78]. Die Messung statischer Beschleunigungen bietet die Möglichkeit, denSensor als Neigungssensor zu verwenden. Die Ausgangssignale der X- und Y-Achse werden alsanaloge Spannungswerte ausgegeben, die der aktuell wirkenden Beschleunigung entsprechen.Für die digitale Konvertierung wird der 10-Bit A/D Wandler des „PIC 18F2455 Mikrocontrollers“verwendet. Der Beschleunigungswert, gemessen entlang der X-Achse des Sensormoduls,wird dafür über e<strong>in</strong>en eigenen analogen E<strong>in</strong>gang des Mikrocontrollers gesendet, während derWert für die Y-Achse über e<strong>in</strong>en anderen analogen E<strong>in</strong>gang geschickt wird. Aus den Wertendes Beschleunigungssensors kann zum e<strong>in</strong>en die Neigung des Sensors um die entsprechendeAchse gemessen werden, zum anderen die Translation entlang der X- und Y-Achse. Die Neigungergibt sich aus der gemessenen Beschleunigung, wobei sie bei e<strong>in</strong>em Wert von e<strong>in</strong>emg äquivalent zu e<strong>in</strong>er Neigung von 90 Grad ist. Durch zeitliche Integration können anhandder Beschleunigungswerte Entfernungen entlang der Achsen bestimmt werden. Hier müsstenjedoch die Sensoren ohne Neigung bewegt werden, da sich sonst die Messung verfälscht.Dies liegt daran, dass Neigung und Bewegung nicht nur durch e<strong>in</strong>en Messwert unterscheidbars<strong>in</strong>d. Daher werden die zu messenden Größen hier auf die Neigung um die jeweilige Achsebeschränkt, die Messung der Translation des TUIs entfällt.Beim „ADXRS300“ von „Analog Devices“ handelt es sich um e<strong>in</strong> Gyroskop, der W<strong>in</strong>kelgeschw<strong>in</strong>digkeitenum die Z-Achse von bis zu 300 ◦ /s messen kann. Die aktuell wirkendeW<strong>in</strong>kelgeschw<strong>in</strong>digkeit wird als analoger Spannungswert ausgegeben. Die Drehung im Uhrzeigers<strong>in</strong>nist als positive Drehrichtung def<strong>in</strong>iert und führt zu e<strong>in</strong>er Steigerung der Spannung.55


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINEAuch hier wird der 10-Bit A/D Wandler des „PIC 18F2455 Mikrocontrollers“ verwendet, umdie Daten zu konvertieren. Die analogen Ausgangswerte werden über e<strong>in</strong>en P<strong>in</strong> an den analogenE<strong>in</strong>gang des Mikrocontrollers gesendet. Durch Messung der W<strong>in</strong>kelgeschw<strong>in</strong>digkeit kanndurch zeitliche Integration auf den aktuellen Drehw<strong>in</strong>kel um die Z-Achse geschlossen werden.Jedoch ist zu beachten, dass W<strong>in</strong>kel nur bis 90 Grad gemessen werden können, da der Beschleunigungssensornur absolute Werte liefert. Es ist daher nicht möglich zu differenzieren,ob e<strong>in</strong> W<strong>in</strong>kel zwischen 0 und 90 Grad, oder 90 und 180 Grad liegt.DrucktasterNeben der Sensorik, die den Status des Tangible User Interfaces misst, stehen dem Nutzerzusätzlich vier Taster zur Verfügung. Diese Taster dienen der Auswahl bestimmter Funktionsmodiund können durch den Nutzer aktiv verändert werden. Die vier Taster s<strong>in</strong>d so angeordnet,dass sie vom Nutzer bequem mit den beiden Daumen bedient werden können, ohne dabeidas Interface umgreifen zu müssen. Um verschiedene Funktionen umzusetzen, wurden zweiverschiedene Taster verbaut. Neben zwei Momentkontakttastern, die <strong>in</strong> Abb. 4.18 mit derZahl 1 gekennzeichnet s<strong>in</strong>d, bef<strong>in</strong>den sich noch zwei e<strong>in</strong>polige E<strong>in</strong>-/Austaster auf der Oberflächedes Gehäuses, welche mit der Zahl 2 markiert s<strong>in</strong>d. Momentkontakttaster rasten beimDrücken im Gegensatz zu den E<strong>in</strong>-/Austastern nicht e<strong>in</strong>. Das bedeutet, dass das Triggern e<strong>in</strong>erFunktionalität nur für den Zeitraum des aktiven Drückens besteht. Beim E<strong>in</strong>-/Austasterdagegen kann der Funktionsmodus durch e<strong>in</strong>maliges Drücken dauerhaft ausgewählt werden,bis er durch erneutes Drücken wieder deaktiviert wird.5V10 kOhmTasterPort D470 OhmGroundAbbildung 4.17: Pull-Up-Schaltung für die Tasten des Tangible User InterfacesDie Taster wurden über separate P<strong>in</strong>s an den analogen E<strong>in</strong>gang des Boards angeschlossen.Da das Board an diesen Ports über ke<strong>in</strong>en <strong>in</strong>ternen Pull-Up-Widerstand verfügt, wurde e<strong>in</strong>eexterne Pull-Up-Schaltung verwendet, welche <strong>in</strong> Abb. 4.17 dargestellt ist.USB-BoardUm Daten der Sensoren und Taster an den Computer zur weiteren Verarbeitung zu leiten,wurde e<strong>in</strong> USB-Board verbaut. E<strong>in</strong> solches USB-Board bietet die Möglichkeit, Daten angeschlossenerBauelemente direkt über USB an e<strong>in</strong>en Computer weiterzureichen. Dazu kann imSpeicher des Boards e<strong>in</strong> entsprechendes Progr<strong>am</strong>m h<strong>in</strong>terlegt werden, <strong>in</strong> dem die Übertragungdef<strong>in</strong>iert wird. Grundlegende Komponente des Boards ist e<strong>in</strong> Mikrocontroller des Typs„PIC 18F2455 USB-Mikrocontroller“, welcher USB 2.0 unterstützt und Datenübertragung mitlow-speed (1.5 Mbit/s) sowie full-speed (12 MBit/s) erlaubt. Mithilfe mitgelieferter Softwarekann e<strong>in</strong> Progr<strong>am</strong>m erstellt werden, das im Speicher des Boards abgelegt wird und den56


4.2. TANGIBLE USER INTERFACE ALS EINGABEDatenfluss kontrolliert. Anschließend werden die Daten an den Computer übertragen, wo sieweiter verarbeitet werden können.GehäuseUm die Sensorik sowie die Taster zur <strong>Interaktion</strong> verwenden zu können, müssen alle Komponenten<strong>in</strong> e<strong>in</strong> Gehäuse <strong>in</strong>tegriert werden, das dem Nutzer als TUI dient. Bei der Auswahldes Gehäuses s<strong>in</strong>d mehrere Faktoren von Bedeutung. Das Interface soll ergonomisch gestaltetse<strong>in</strong>, d<strong>am</strong>it es vom Nutzer auch länger <strong>in</strong> der Hand gehalten werden kann. Zudem sollen dieTaster so angeordnet se<strong>in</strong>, dass sie leicht zu erreichen s<strong>in</strong>d, ohne dass e<strong>in</strong> Umgreifen notwendigist. Bei der Wahl der Form soll e<strong>in</strong>e Anlehnung an Objekte des Alltags des Nutzers erfolgen,um e<strong>in</strong>e leichte Gewöhnung zu erreichen und d<strong>am</strong>it die E<strong>in</strong>arbeitungszeit zu verkürzen.Als Form wurde hier e<strong>in</strong> Quader gewählt, da dieser neben Kugel, Kegel und Zyl<strong>in</strong>der e<strong>in</strong>eder vier geometrischen Basisobjekte darstellt. Vorteil des Quaders ist die Möglichkeit, alledrei Koord<strong>in</strong>atenachsen unterscheidbar zu machen. Durch die Wahl von drei verschiedenenKantenlängen kann der Nutzer ohne visuelle Kontrolle die aktuelle Lage des Quaders bzgl. derdrei Achsen feststellen. Auf diese Weise kann der Nutzer bl<strong>in</strong>d mit dem Interface <strong>in</strong>teragieren.Die Größe des Quaders bestimmt sich maßgeblich aus der Größe der zu verbauendenKomponenten. Die Ausmaße der Komponenten betragen 25 mm x 19 mm x 4 mm (Länge xBreite x Höhe) für das Sensormodul und 150 mm x 56 mm x 23 mm für das „PICDEM TM FSUSB Board“. Wie aus diesen Maßen ersichtlich wird, wäre es von Vorteil, nur das Sensormodul<strong>in</strong> das TUI zu <strong>in</strong>tegrieren. Das Verb<strong>in</strong>dungskabel zwischen Board und Sensormodul darfjedoch nicht beliebig lang se<strong>in</strong>, da das Ausgangssignal vom Sensormodul ansonsten stark abgeschwächtwird. E<strong>in</strong> kurzes Kabel würde wiederum e<strong>in</strong>e erhebliche E<strong>in</strong>schränkung bezüglichder Beweglichkeit des Benutzers bedeuten. Daher wurden sowohl das Sensormodul als auchdas USB-Board <strong>in</strong> das Gehäuse <strong>in</strong>tegriert. Der reglementierende Faktor ist hierbei nur mehrdas USB-Verb<strong>in</strong>dungskabel, dessen Länge deutlich höher se<strong>in</strong> kann als das Verb<strong>in</strong>dungskabelzwischen Sensorik und USB-Board.1 1ZYX2 2Abbildung 4.18: Design des Tangible User InterfacesAus diesen Überlegungen heraus wurde e<strong>in</strong> quaderförmiges Gehäuse gewählt, dessen Kantenlängen186 mm x 123 mm x 40 mm betragen. In Abb. 4.18 ist das TUI mit den entsprechendenKoord<strong>in</strong>atenachsen dargestellt.57


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINE4.2.3.3 DatenverarbeitungDas USB-Board besitzt e<strong>in</strong>en 10 Bit A/D Wandler, mit dem die anliegenden Spannungen derSensoren von analogen <strong>in</strong> digitale Werte überführt werden. Die Spannungen werden demnachals Werte zwischen 0 und 1024 dargestellt und an den Computer übertragen.Betrachtet man alle<strong>in</strong> das gewandelte E<strong>in</strong>gangssignal e<strong>in</strong>es Sensors, so zeigt sich, dass beiruhender Lage des Interfaces dennoch e<strong>in</strong>e Änderung der Messwerte auftritt, da die Sensorikniemals völlig eben liegt oder sich völlig <strong>in</strong> Ruhe bef<strong>in</strong>det. Das Interface liegt bei dieserMessung auf e<strong>in</strong>er ebenen Unterlage und wird nicht bewegt. Der zu erwartende Messwertliegt bei exakt 512, schwankt aber um diesen erwarteten Wert. Auch stellt sich heraus, dassbei e<strong>in</strong>er Auslenkung um 90 Grad <strong>in</strong> positiver bzw. negativer Richtung die Messwerte ebenfallsvon den erwarteten Werten abweichen.Um aus den Messwerten absolute W<strong>in</strong>kel zu berechnen, s<strong>in</strong>d sowohl die Nullpunkte alsauch die Punkte der maximalen Auslenkung notwendig. Aus diesem Grund muss das Signalan diese Abweichung angepasst, d.h. kalibriert werden.Im Folgenden werden die Referenz-Nullpunkte mit refx 0g , refy 0g , refg 0 und die Referenz-Punkte der maximalen Auslenkung mit refx +1g , refx −1g , refy +1g , refy −1g bezeichnet.Für e<strong>in</strong>e Kalibrierung des Nullpunktes refg 0 für das Gyroskop wird das TUI waagrechtauf e<strong>in</strong>er festen Oberfläche aufgelegt. Die Ausgangssignale werden nun über e<strong>in</strong>en Zeitraumvon drei M<strong>in</strong>uten aufgezeichnet und anschließend wird der Mittelwert dieser Daten als Referenzwertverwendet.Für die Bestimmung der Referenzwerte für e<strong>in</strong>e Neigung um 90 Grad <strong>in</strong> positiver undnegativer X- und Y-Achse refx +1g , refx −1g , refy +1g , refy −1g wird das TUI senkrecht aufe<strong>in</strong>e eben Fläche gestellt. Anschließend werden die Messwerte nache<strong>in</strong>ander für alle vier Seitenflächenüber e<strong>in</strong>en Zeitraum von drei M<strong>in</strong>uten gemessen. Aus diesen Messwerten wird derMittelwert aller vier Testreihen bestimmt, welcher jeweils als Referenz für die entsprechendeAchse und Richtung verwendet wird. Hierbei ergibt sich für die X-Beschleunigung +1g imMittel e<strong>in</strong> Wert von 567,44 (m<strong>in</strong>imal 565, maximal 569), für −1g von 442,25 (m<strong>in</strong>imal 440,maximal 444) und für die Y-Beschleunigung +1g e<strong>in</strong> Mittelwert von 578,22 (m<strong>in</strong>imal 575,maximal 580) und für −1g 453,5 (m<strong>in</strong>imal 447, maximal 455).Für die Berechnung der Nullpunkte refx 0g , refy 0g wird der Mittelwert der jeweiligenAchse bzgl. der positiven und negativen maximalen Auslenkung gebildet (Referenzwerte für−1g und +1g der jeweiligen Achse). Es ergibt sich also zurefx 0g = refx +1g + refx −1g2refy 0g = refy +1g + refy −1g2Die Messdaten für die Bestimmung des Sensormodul-Nullpunkts mit den berechnetenReferenzwerten lassen sich für das Gyroskop im Mittel mit 575,21 (m<strong>in</strong>imal 580, maximal 581),für die X-Beschleunigung mit 504,85 und für die Y-Beschleunigung mit 515,86 als Mittelwertbestimmen. Mithilfe der Referenzwerte kann nun durchw<strong>in</strong>kel x =w<strong>in</strong>kel y =x accel − refx 0grefx +1g − refx 0gy accel − refy 0grefy +1g − refy 0g58


4.3. WII-CONTROLLER ALS KOMBINIERTES EIN- UNDAUSGABEGERÄTaus den Ausgangsdaten x accel bzw. y accel die Neigung des Beschleunigungssensors berechnetwerden. Hierbei bezeichnen x accel bzw. y accel die aktuell gemessenen, digital gewandelten Spannungender jeweiligen Sensoren.4.2.3.4 Kommunikation und DatenbereitstellungDie so ermittelten Werte für die Neigung bzw. Drehung um e<strong>in</strong>e der drei Basisachsen wird anschließendüber e<strong>in</strong>e Netzwerkverb<strong>in</strong>dung vom Server zum Client übertragen. Dieser speichertdie aktuellen Messwerte <strong>in</strong>tern ab. Zu diesen gehören die drei W<strong>in</strong>kel sowie der Zustand dervier Taster. Diese Werte s<strong>in</strong>d jederzeit durch e<strong>in</strong>e Applikation, die den Client <strong>in</strong>tegriert hat,abrufbar. Zusätzlich sendet der Client Events bei e<strong>in</strong>er Veränderung des aktuellen Zustandese<strong>in</strong>er der Taster. Somit kann die Applikation durch das abonnieren der Events sofort auf e<strong>in</strong>eStatusänderung e<strong>in</strong>er der Taster reagieren und d<strong>am</strong>it e<strong>in</strong>e Funktion verknüpfen.4.3 WII-Controller als komb<strong>in</strong>iertes E<strong>in</strong>- und AusgabegerätDie <strong>in</strong> Kapitel 4.1 und 4.2 vorgestellten Ansätze s<strong>in</strong>d als re<strong>in</strong>e E<strong>in</strong>gabemöglichkeiten, die <strong>in</strong> Kapitel3.1, 3.2 und 3.3 gezeigten Methoden dagegen als re<strong>in</strong>e Ausgabemöglichkeiten vorgesehen.Die Ausgabemöglichkeiten s<strong>in</strong>d hierbei auf die visuelle und akustische Ausgabe beschränkt.E<strong>in</strong> wichtiger Rückgabekanal stellt jedoch das haptische Feedback dar.Aus diesem Grund wird im folgenden Kapitel e<strong>in</strong>e Möglichkeit vorgestellt, e<strong>in</strong> Gerät füre<strong>in</strong>e komb<strong>in</strong>ierte E<strong>in</strong>- und Ausgabe zu verwenden. Dieses Gerät ist e<strong>in</strong> im Handel erhältlicherG<strong>am</strong>e Controller, der sogenannte WII-Controller. Dieser kommuniziert drahtlos und stelltE<strong>in</strong>- und Ausgabemöglichkeiten zur Verfügung.4.3.1 ProblemstellungUm die reale Umgebung des Nutzers zu erweitern, wird im Allgeme<strong>in</strong>en bei AR auf denvisuellen Kanal zurückgegriffen. Gerade die <strong>Interaktion</strong> mit AR-Szenarien erfordert jedochnicht nur die Möglichkeit e<strong>in</strong>es visuellen Feedbacks. So erhält e<strong>in</strong> Nutzer bei der <strong>Interaktion</strong>mit realen Gegenständen e<strong>in</strong> haptisches oder taktiles Feedback beim Greifen oder Berührene<strong>in</strong>es realen Objektes. Dies fehlt bei der <strong>Interaktion</strong> mit virtuellen Objekten. Aus diesemGrund ist es notwendig, e<strong>in</strong> Ausgabegerät zu <strong>in</strong>tegrieren, das <strong>in</strong> der Lage ist, e<strong>in</strong> haptischesFeedback für den Nutzer zu erzeugen. Ebenfalls s<strong>in</strong>d die bisher vorgestellten Ansätze für dieE<strong>in</strong>- und Ausgabe vone<strong>in</strong>ander getrennt. Es existiert also ke<strong>in</strong> Gerät, das sowohl die E<strong>in</strong>gabe,als auch die Ausgabe vere<strong>in</strong>t.Ziel ist es daher, e<strong>in</strong> Gerät <strong>in</strong> die Umgebung e<strong>in</strong>zub<strong>in</strong>den, dass diese Möglichkeiten bereitstellt. Da dieses frei <strong>in</strong> der realen Umgebung des Nutzers verwendet werden soll, wäre eserstrebenswert, dass die Kommunikation zwischen der Sensorik des Gerätes kabellos erfolgt,um die Bewegungsfreiheit des Nutzers nicht e<strong>in</strong>zuschränken.4.3.2 UmsetzungIm folgenden Kapitel wird die Umsetzung des komb<strong>in</strong>ierten E<strong>in</strong>- und Ausgabegerätes beschrieben.Hierbei kommt e<strong>in</strong> WII-Controller von N<strong>in</strong>tendo [63] zum E<strong>in</strong>satz. Dieser Controllerbietet bei kabelloser Kommunikation über Bluetooth sowohl E<strong>in</strong>gabemöglichkeiten <strong>in</strong>59


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINEForm von Tastern als auch Ausgabemöglichkeiten mittels akustischer, visueller und haptischerElemente. Gerade durch das gezielte Vibrieren bietet sich diese Hardware als Grundlage fürdas komb<strong>in</strong>ierte E<strong>in</strong>- und Ausgabegerät an.4.3.2.1 ÜbersichtÄhnlich zu den bisherigen E<strong>in</strong>- und Ausgabegeräten besteht das hier vorgestellte System ause<strong>in</strong>em Server-Client-Ansatz (vgl. Abb. 4.19). Der WII-Controller ist via Bluetooth mit demWII-Controller-Server verbunden. Dieser Server besteht aus der „WIImote LIB“ und e<strong>in</strong>erSteuerung von Menü und Menülogik. Über die „WIImote LIB“ können sowohl die über denWII-Controller getätigten E<strong>in</strong>gaben ausgelesen werden als auch die Ausgabemöglichkeiten desControllers angesprochen werden. Die Logiksteuerung des Menüs übernimmt hierbei die Ver-WIIWIIControllerControllerWIIWIIControllerControllerClientClientBluetoothVerb<strong>in</strong>dungUDP-NachrichtWIImoteWIImoteLIBLIBMenüMenüLogiksteuerungLogiksteuerungWII Controller ServerAbbildung 4.19: Schematischer Aufbau des WII-Controllers als E<strong>in</strong>- und Ausgabegerätmittlungstätigkeit zwischen der „WIImote LIB“ und dem WII-Controller-Client. Der Clientstellt der Applikation Möglichkeiten bereit, sowohl die E<strong>in</strong>gaben über den Controller e<strong>in</strong>zulesenals auch die Ausgabe über diesen anzusteuern. Server und Client s<strong>in</strong>d hierbei über e<strong>in</strong>eNetzwerkverb<strong>in</strong>dung gekoppelt und kommunizieren über UDP Nachrichten.4.3.2.2 HardwareGrundlage des komb<strong>in</strong>ierten E<strong>in</strong>- und Ausgabegerätes ist der WII-Controller von N<strong>in</strong>tendo[63]. Dieser Controller hat e<strong>in</strong>e Größe von etwa 3x3x15 cm. Über e<strong>in</strong> im Gerät verbautesBluetooth Interface kann der Controller mit jedem Computer, der mit e<strong>in</strong>em Bluetooth Interfaceausgestattet ist, kommunizieren. Der Controller (vgl. Abb. 4.20) stellt <strong>in</strong>sges<strong>am</strong>t siebenTaster und e<strong>in</strong> Navigationskreuz (bestehend aus vier Tastern) zur Verfügung. Neben diesenenthält der Controller noch e<strong>in</strong>e K<strong>am</strong>era an der Spitze, die <strong>in</strong> der Lage ist, IR Strahlungzu detektieren, sowie Neigungssensoren, um die Lage im Raum bestimmen zu können. Beidewerden jedoch für den weiteren Verlauf nicht berücksichtigt. Als E<strong>in</strong>gabe werden hier nur dieTaster verwendet. Als Ausgabe stellt der Controller e<strong>in</strong>en Lautsprecher für akustisches, vierLEDs für visuelles und e<strong>in</strong> Vibrationselement für e<strong>in</strong> haptisches Feedback zur Verfügung. Fürdas hier vorgestellte Gerät kommen nur die visuellen und haptischen Elemente zum E<strong>in</strong>satz.Für das komb<strong>in</strong>ierte E<strong>in</strong>- und Ausgabegerät stehen also im weiteren Verlauf die Taster als60


4.3. WII-CONTROLLER ALS KOMBINIERTES EIN- UNDAUSGABEGERÄTAbbildung 4.20: WII-Controller von N<strong>in</strong>tendo [63]E<strong>in</strong>gabemöglichkeit, die LEDs und das Vibrationselement als Ausgabemöglichkeit zur Verfügung.4.3.2.3 SoftwareDie Software des WII-Controller-Servers bestehen aus den beiden Komponenten „WIImoteLIB“ [67] und der Steuerung von Menü und Logik des Menüs. „WIImote LIB“ ist e<strong>in</strong>e aufC# basierende, frei verfügbare Bibliothek, die Basisfunktionen des WII-Controllers zugänglichmacht. Die Kommunikation erfolgt durch die Übertragung e<strong>in</strong>es Filestre<strong>am</strong>es zwischendem Controller und der „WIImote LIB“. Hierbei erzeugt der Controller e<strong>in</strong>en aktuellen Zustandsvektor,der alle Informationen des gegenwärtigen Zustandes des Controllers abbildet.Hierbei s<strong>in</strong>d beispielsweise die Taster als b<strong>in</strong>ärer Wert vorhanden, deren Wert je nach Stellungdes Tasters mit Null oder E<strong>in</strong>s belegt ist (vgl. Abb. 4.21). Diesen Filestre<strong>am</strong> empfängt die„WIImote LIB“, wertet ihn aus und erzeugt aus diesen Informationen Events, die von e<strong>in</strong>erApplikation empfangen werden können, oder bietet die Möglichkeit, den aktuellen Zustande<strong>in</strong>zelner Elemente abzufragen. Für die Ansteuerung wiederum erzeugt die „WIImote LIB“Taster T2gedrücktFilestre<strong>am</strong> wird verarbeitetInformation:T2 gedrücktT1 T2 T3WIIWIIControllerControllerBluetoothVerb<strong>in</strong>dung(Filestre<strong>am</strong>)… 0 1 0 …T1 T2 T3 EventWIImote LIBApplikationApplikationAbbildung 4.21: Exemplarische Umsetzung des Filestre<strong>am</strong>s des WII-Controllers61


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINEe<strong>in</strong>en Filestre<strong>am</strong>, der an den Controller übertragen wird. In diesem Filestre<strong>am</strong> können ebenfallsdie Werte der Elemente des Controllers gesetzt werden. Der Controller empfängt dieseWerte dann und setzt die Werte auf dem Controller um. So kann beispielsweise durch dieAngabe des Wertes Null oder E<strong>in</strong>s e<strong>in</strong>e LED e<strong>in</strong>- oder ausgeschaltet werden. Auf diese Weisekann die Logiksteuerung Rückmeldungen über den Controller an den Nutzer abgeben unddessen E<strong>in</strong>gaben mittels des Controllers zur Steuerung von Menüs heranziehen.Der Aufbau e<strong>in</strong>es solchen Menüs ist hierbei abstrakt umgesetzt worden. Da sich jedesMenü h<strong>in</strong>sichtlich der Struktur, dem Inhalt und dem Aussehen unterscheiden kann, wurden<strong>in</strong> der Menüsteuerung nur Basisklassen umgesetzt. Diese ermöglichen e<strong>in</strong>e e<strong>in</strong>fache Adaptionan die geforderte Menüstruktur, deren optisches Ersche<strong>in</strong>ungsbild und deren Inhalte.Die Elemente, aus denen e<strong>in</strong> Menü entsteht, s<strong>in</strong>d ausgehend von e<strong>in</strong>em Hauptmenü entwederweitere Untermenüs oder Steuerelemente (vgl. Abb. 4.22). Steuerelemente stehen dabeials hierarchisch niedrigstes Element, weil sie ke<strong>in</strong> weiteres Untermenü mehr aufrufen können,sondern direkt e<strong>in</strong>e Aktion auslösen, wenn sie aktiviert oder deaktiviert werden. Untermenüsdagegen können sowohl Steuerelemente als auch wiederum weitere Untermenüs enthalten.Durch diese Unterscheidung können beliebige hierarchische Menüstrukturen aufgebaut werden.HauptmenüSteuerelementSteuerelement1,…,n1,…,nUntermenüUntermenü1,…,n1,…,nUntermenü 1SteuerelementSteuerelement1,…,n1,…,nUntermenüUntermenü1,…,n1,…,nUntermenü nSteuerelementSteuerelement1,…,n1,…,nUntermenüUntermenü1,…,n1,…,nAbbildung 4.22: Hierarchie der MenüstrukturDas Hauptmenü stellt gleichzeitig auch die logische Steuerung der Menüs zur Verfügung.E<strong>in</strong>e Applikation kann also über das Hauptmenü neue Untermenüs oder Steuerelemente erzeugenund dem Menü h<strong>in</strong>zufügen. Diese können mit e<strong>in</strong>em e<strong>in</strong>deutigen N<strong>am</strong>en versehen werden,um später e<strong>in</strong>e e<strong>in</strong>fache Zuweisung zu Aktionen zu ermöglichen. Das Hauptmenü übernimmtebenfalls die Steuerung und Koord<strong>in</strong>ation der E<strong>in</strong>gaben durch den WII-Controller. So s<strong>in</strong>dhier feste Taster des Controllers für bestimmte Funktionen <strong>in</strong>nerhalb e<strong>in</strong>es Menüs vorgesehen.Beispielsweise kann <strong>in</strong> e<strong>in</strong>em Untermenü durch Betätigen des Navigationskreuzes zwischen denSteuerelementen oder den weiteren Untermenüs navigiert werden oder durch das Betätigender „Home-Taste“ des Controllers <strong>in</strong> das Hauptmenü zurückgesprungen werden. Auf dieseWeise können die E<strong>in</strong>gaben über den Controller auf das Menü umgesetzt werden.Um nun auch e<strong>in</strong>e visuelle Rückmeldung für den Nutzer zu ermöglichen, be<strong>in</strong>haltet dasHauptmenü Zugang zur aktuellen AR-Szene und kann virtuelle Objekte erzeugen und manipulieren.Die virtuellen Objekte können dann als grafische Visualisierung von Elementendes Menüs dienen. Über das Hauptmenü können diese für die jeweiligen Untermenüs undSteuerelemente frei def<strong>in</strong>iert werden. Darüber h<strong>in</strong>aus be<strong>in</strong>haltet e<strong>in</strong> solches Element die Möglichkeit,das ihm zugewiesene, virtuelle Objekt abhängig von se<strong>in</strong>em aktuellen Systemzustand62


4.3. WII-CONTROLLER ALS KOMBINIERTES EIN- UNDAUSGABEGERÄTElement des MenüsEigenschaft:Eigenschaft:VirtuellesVirtuellesModellModellEigenschaft:Eigenschaft:PositionPositiondesdesModellesModellesEigenschaft:Eigenschaft:StatusStatusFunktion:Funktion:StatuswechselStatuswechselAbbildung 4.23: Aufbau e<strong>in</strong>es Elements im Menüzu manipulieren. So können ausgewählte Elemente durch e<strong>in</strong>e Veränderung als ausgewähltesElement hervorgehoben werden. Diese Methodik f<strong>in</strong>det sich auch <strong>in</strong> gängigen GUIs, bei denenbeispielsweise gedrückte Knöpfe farblich abgesetzt ersche<strong>in</strong>en.E<strong>in</strong> solches Element des Menüs besteht also aus drei Eigenschaften und e<strong>in</strong>er Funktion.Die drei Eigenschaften werden beim Erstellen des Elements über das Hauptmenü gesetzt.Ebenfalls wird die Funktion beim Wechsel des Status des Elementes h<strong>in</strong>terlegt. Innerhalbdieser Funktion können dann sowohl Aktionen, die das Element selbst betreffen, als auchAktionen, die e<strong>in</strong>e Änderung von Par<strong>am</strong>etern oder e<strong>in</strong> Triggern von weiteren Funktionen <strong>in</strong>der Applikation hervorrufen, abgelegt werden. Die Kommunikation läuft dabei mit der Applikationimmer über das Hauptmenü. Die Applikation erfährt also immer vom Hauptmenü,welches Element des Menüs aktuell e<strong>in</strong>e Änderung se<strong>in</strong>es Status erfahren hat.HauptmenüApplikationFunktion:Funktion:StatusänderungStatusänderungSteuerelementSteuerelement77…SteuerelementSteuerelement1,1,22UntermenüUntermenü1,1,22Untermenü 1SteuerelementSteuerelement3,3,44UntermenüUntermenü33Untermenü 3SteuerelementSteuerelement77UntermenüUntermenü55StatusänderungSteuerelement 7StatusStatusFunktion:Funktion:StatusänderungStatusänderung…Untermenü 2SteuerelementSteuerelement5,5,66UntermenüUntermenü44Untermenü 4SteuerelementSteuerelement88UntermenüUntermenü66Abbildung 4.24: Exemplarischer Ablauf e<strong>in</strong>er StatusänderungAbb. 4.24 zeigt hierbei exemplarisch den Ablauf bei der Statusänderung von Steuerelement63


KAPITEL 4.INTERAKTION DES MENSCHEN ZUR MASCHINE7. Dabei wird die Änderung des Status im Steuerelement selbst vorgenommen und die zugehörigeFunktion beim Statuswechsel aufgerufen. Hier könnte beispielsweise die Änderung derFarbe als visuelles Feedback vorgenommen werden. Gleichzeitig übermittelt das Hauptmenüdie Änderung des Status von Steuerelement 7 an die angebundene Applikation, die wiederume<strong>in</strong>e Funktion aufruft, die Aktionen bei der Änderung des Status von Steuerelement 7 enthält.Die Beschreibung e<strong>in</strong>es solchen Menüs ist sehr abstrakt. In Kapitel 6.1.5 wird dieses Menü<strong>in</strong> die Beispielapplikation „BillARd“ <strong>in</strong>tegriert und mit e<strong>in</strong>er grafischen Ausgabe versehen.Dieses Kapitel verdeutlicht die Möglichkeiten, die das hier vorgestellte System bietet.64


KAPITEL 5Alternative <strong>Interaktion</strong>sformenDas folgende Kapitel behandelt <strong>Interaktion</strong>smöglichkeiten ausserhalb der Mensch-Masch<strong>in</strong>e-<strong>Interaktion</strong>. Darunter fallen die <strong>Interaktion</strong> zwischen realer und virtueller Umgebung undderen Objekte, die durch e<strong>in</strong>e bildbasierte Kollisionserkennung umgesetzt wird, sowie die <strong>Interaktion</strong>zwischen Menschen, die durch e<strong>in</strong> Videokonferenzsystem ermöglicht wird, das <strong>in</strong> dieAR der Nutzer e<strong>in</strong>gebunden ist.5.1 Kollisionserkennung zwischen Realität und Virtualitätdurch BildverarbeitungFür e<strong>in</strong>e <strong>Interaktion</strong> mit virtuellen Objekten muss dem System sowohl die Position der virtuellenObjekte als auch die Position der realen Objekte, die mit diesem virtuellen Objekt<strong>in</strong>teragieren sollen, bekannt se<strong>in</strong>. Dies kann mittels e<strong>in</strong>es Track<strong>in</strong>gsystems erfasst werden.Zur <strong>Interaktion</strong> mit der Hand des Nutzers werden, wie <strong>in</strong> Kapitel 4.1 beschrieben, IR-Targetsan der Hand des Nutzers befestigt, um daraus auf die Position der Hand im Raum rückschließenzu können. Sollen nun andere beliebige reale Objekte zur <strong>Interaktion</strong> mit virtuellenObjekten herangezogen werden, so müssen alle realen Objekte <strong>in</strong> ihrer geometrischen Formmodelliert werden und mittels e<strong>in</strong>es Track<strong>in</strong>gsystems verfolgt werden. Reale Objekte müsstenalso mit IR-Targets versehen werden, um <strong>Interaktion</strong> zwischen ihnen und virtuellen Objektenzu ermöglichen.Aus diesem Grund behandelt dieses Kapitel e<strong>in</strong>en Ansatz, der ohne IR-Track<strong>in</strong>gsystemauskommt, um reale beliebige Objekte <strong>in</strong> die AR-Szene zu <strong>in</strong>tegrieren und so e<strong>in</strong>e Wechselwirkungzwischen ihnen und der AR-Szene zu ermöglichen. Dieser Ansatz wird <strong>in</strong> dasbestehende Fr<strong>am</strong>ework als Client-Server Ansatz <strong>in</strong>tegriert.5.1.1 Thematisch verwandte VorarbeitenDie Vorarbeiten <strong>in</strong> diesem Themengebiet können <strong>in</strong> zwei Kategorien unterteilt werden. Zume<strong>in</strong>en die automatische Modellierung von 3-D-Objekten und deren Integration <strong>in</strong> die AR-Szene, zum anderen die Kollisionsdetektion zwischen den Objekten.Im Bereich der automatischen Modellierung von realen Objekten bestehen bereits vieleAnsätze, die <strong>in</strong> aktive und passive Ansätze unterteilt s<strong>in</strong>d. Aktive Ansätze verwenden struk-65


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMENturiertes Licht, das auf e<strong>in</strong> Objekt ausgesendet wird und basierend auf dessen Abbildung aufdie 3-D-Informationen des Objektes zurückgerechnet werden kann, wie etwa <strong>in</strong> [76] oder [51].Passive Ansätze dagegen errechnen diese Informationen anhand von Aufnahmen mit normalenK<strong>am</strong>eras und nutzen dabei mehrere Ansichten des Objektes, beispielsweise <strong>in</strong> [60] oder [3].Beide Ansätze liefern 3-D-Modelle von realen Objekten, die für die Verwendung <strong>in</strong> e<strong>in</strong>er virtuellenUmgebung geeignet s<strong>in</strong>d.Um nur die Kontur e<strong>in</strong>es 3-D-Objektes zu erhalten, bestehen ebenfalls Ansätze, die <strong>in</strong> denverschiedensten Diszipl<strong>in</strong>en angesiedelt s<strong>in</strong>d. So dient [26] der Konturerkennung von bewegtenObjekten oder [72] der Erkennung von Handgesten durch Detektion derer Kontur.Diese Daten s<strong>in</strong>d Grundlage der Kollisionserkennung <strong>in</strong> e<strong>in</strong>er virtuellen Umgebung, diebereits viele Lösungsansätze, zum Beispiel [41] oder [22], bereithält.5.1.2 ProblemstellungAufgabe der Kollisionserkennung ist es, reale Objekte <strong>in</strong> Echtzeit <strong>in</strong> die AR-Szene zu <strong>in</strong>tegrieren.Hierbei sollen ke<strong>in</strong>e <strong>in</strong>strumentierten Ansätze (vgl. Kapitel 4.1.1) zum E<strong>in</strong>satz kommen,d<strong>am</strong>it Objekte nicht mit zusätzlicher Hardware <strong>in</strong> Form von IR-Targets versehen werden müssen.Zusätzlich soll mit der Kollisionserkennung das E<strong>in</strong>br<strong>in</strong>gen beliebiger, zuvor noch nichtmodellierter Objekte möglich se<strong>in</strong>.Aus diesen Gründen wurde <strong>in</strong> dieser Arbeit e<strong>in</strong> bildbasierter Ansatz verfolgt. Dabei werdenObjekte mittels bildverarbeitender Ansätze aus ihrem H<strong>in</strong>tergrund segmentiert und automatischmodelliert. Die Aufgabe bestand also dar<strong>in</strong>, sowohl Hardware als auch Software umzusetzen,die e<strong>in</strong> solches System ermöglichen. Die Verwendung von nur e<strong>in</strong>er K<strong>am</strong>era reduziertdie Modellierung von realen Objekten auf deren Konturen, da hierbei ke<strong>in</strong>erlei Tiefen<strong>in</strong>formationenüber die Objekte gewonnen werden können. Ebenfalls beschränkt sich dieser Ansatzauf e<strong>in</strong>e Modellierung, bei der die Texturierung der Objekte nicht beachtet wird. Die ausden Bilddaten gewonnenen Informationen dienen lediglich als Basis, um virtuelle Modellezu erzeugen. Diese Modelle bilden die Grundlage zur Berechnung von Kollisionen zwischenvirtuellen Objekten <strong>in</strong> der AR-Szene.5.1.3 UmsetzungDie Umsetzung der Kollisionserkennung basiert auf dem Ansatz, reale Objekte <strong>in</strong> e<strong>in</strong>em K<strong>am</strong>erabildzu lokalisieren. Dabei filmt e<strong>in</strong>e K<strong>am</strong>era e<strong>in</strong>e Oberfläche, auf der reale Objektee<strong>in</strong>gebracht werden können. Mit Methoden der Bildverarbeitung können reale Objekte vordiesem H<strong>in</strong>tergrund segmentiert werden. Dazu wird e<strong>in</strong>e Differenzbildanalyse durchgeführt,die e<strong>in</strong> s/w Bild liefert, auf dem der H<strong>in</strong>tergrund <strong>in</strong> schwarz und das segmentierte reale Objekt<strong>in</strong> weiß abgebildet ist. Am Ende der Bildverarbeitung steht e<strong>in</strong> Bild, auf dem die Konturdes realen Objektes vom H<strong>in</strong>tergrund abgegrenzt ist. Aus dieser Kontur lassen sich derenEckpunkte bestimmen, die das Objekt beschreiben und aus denen sich e<strong>in</strong> virtuelles Modelldes realen Objektes erstellen lässt. Das so erzeugte Modell kann <strong>in</strong> die AR-Szene e<strong>in</strong>gebrachtwerden. Dafür wird die K<strong>am</strong>era mit dem IR-Track<strong>in</strong>gsystem erfasst und aufgrund deren Positionund Lage im Raum wird auf die Position des realen Objektes im Raum geschlossen. Andieser Position kann nun das virtuelle Modell des Objektes e<strong>in</strong>geblendet werden, oder aberauch als unsichtbares virtuelles Objekt zur Kollisionsdetektion zwischen virtuellen Objektenherangezogen werden. Auf diese Weise erreicht man e<strong>in</strong>e Wechselwirkung zwischen realen undvirtuellen Objekten. Die detaillierte Umsetzung ist im Folgenden beschrieben.66


5.1. KOLLISIONSERKENNUNG ZWISCHEN REALITÄT UNDVIRTUALITÄT DURCH BILDVERARBEITUNG5.1.3.1 ÜbersichtDer physikalische Aufbau des Kollisionserkenners besteht aus e<strong>in</strong>em Tisch, e<strong>in</strong>er K<strong>am</strong>era,e<strong>in</strong>em Gestänge zur Befestigung der K<strong>am</strong>era und e<strong>in</strong>em aktiven IR-Target (vgl. Abb. 5.1).SeitenansichtDraufsichtIR-TargetK<strong>am</strong>eraIR-TargetK<strong>am</strong>eraRealesRealesObjektObjektTischRealesRealesObjektObjektTischAbbildung 5.1: Ansichten des Aufbaus des KollisionserkennersDer Tisch hat e<strong>in</strong>e Oberfläche von etwa e<strong>in</strong>em Meter auf e<strong>in</strong>en Meter und besitzt e<strong>in</strong>ehellgraue Färbung. Als K<strong>am</strong>era kommt e<strong>in</strong>e „Quickc<strong>am</strong> Communicate STX“ von „Logitech“zum E<strong>in</strong>satz. Diese liefert e<strong>in</strong>e Auflösung von 640 x 480 Bildpunkten bei e<strong>in</strong>er Bildwiederholungsratevon 30 Fr<strong>am</strong>es je Sekunde. Mithilfe des Gestänges ist sie so auf den Tisch montiert,dass sie etwa e<strong>in</strong>en Meter oberhalb des Tisches senkrecht zur Oberfläche des Tisches nachunten blickt. Die Befestigung ist dabei sehr stabil, um e<strong>in</strong>e gleichbleibende Position relativzum Tisch zu gewährleisten. Dies ist notwendig, da an der K<strong>am</strong>era e<strong>in</strong> IR-Target befestigtist, das die Position und Orientierung der K<strong>am</strong>era im Raum liefert. Aus diesen Daten wirdspäter die Position der Tischoberfläche und somit die Position des Objektes auf dem Tisch <strong>in</strong>der Welt berechnet. Da <strong>am</strong> Tisch Rollen angebracht s<strong>in</strong>d, kann dieser frei im Raum bewegtwerden. Durch das Track<strong>in</strong>g der K<strong>am</strong>era kann so an jeder beliebigen Position im Raum e<strong>in</strong>reales Objekt auf der Tischoberfläche <strong>in</strong> die AR Szene e<strong>in</strong>gebracht werden.ObjekterkennungBilderfassungBilderfassungK<strong>am</strong>erabildBildverarbeitungBildverarbeitungEckpunktextraktionEckpunktextraktionObjektberechnungTCPNachrichtARClientModellerzeugungModellerzeugungKollisionserkennungKollisionserkennungAbbildung 5.2: Schematischer Aufbau der KollisionserkennungDie Software besteht aus zwei Teilen (vgl. Abb. 5.2). Die Objekterkennung nimmt dasBild der K<strong>am</strong>era auf, verarbeitet es und extrahiert daraus die Eckpunkte des realen Objektes.67


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMENDiese Daten werden über e<strong>in</strong>e Netzwerkverb<strong>in</strong>dung an die Objektberechnung weitergeleitet.Daraus wird e<strong>in</strong> virtuelles Modell der Kontur des Objektes erzeugt, das dann <strong>in</strong> die AR-Szenee<strong>in</strong>gebracht werden kann. Hierbei f<strong>in</strong>det gleichzeitig e<strong>in</strong>e Kollisionserkennung mit anderenvirtuellen Objekten <strong>in</strong>nerhalb der AR-Szene statt.5.1.3.2 ObjekterkennungDie ges<strong>am</strong>te Objekterkennung ist wegen der höheren Performance <strong>in</strong> C++ geschrieben. Weiterh<strong>in</strong>wurde das bereits bestehende Fr<strong>am</strong>ework „OpenCV“ (Open Computer Vision) von„Intel“ [15] verwendet, das grundlegende Algorithmen zur Bildverarbeitung bereitstellt undauf deren Performance optimiert ist.Die Objekterkennung untergliedert sich <strong>in</strong> das E<strong>in</strong>lesen des K<strong>am</strong>erabildes, die Bildverarbeitung,<strong>in</strong> der das e<strong>in</strong>gelesene Bild bearbeitet wird, und das F<strong>in</strong>den von Objekten imgefilterten Bild. Aus diesem werden dann die Eckpunkte der Objekte extrahiert und für dieanschließende weitere Verarbeitung <strong>in</strong> e<strong>in</strong> eigenes Datenformat konvertiert.Mit „OpenCV“ kann durch die Verwendung von Herstellertreibern auf die über USB angeschlosseneK<strong>am</strong>era zugegriffen werden. „OpenCV“ übergibt dieses K<strong>am</strong>erabild stets im selbenFormat für alle unterstützten K<strong>am</strong>eratypen und gewährleistet somit hohe Flexibilität.Um nun Objekte im Bild vom H<strong>in</strong>tergrund (hellgraue Tischoberfläche) zu trennen, musse<strong>in</strong>e Filterung des Bildes durchgeführt werden. Aufgrund wechselnder Lichtverhältnisse, die<strong>in</strong> Änderungen des Farbtons resultieren, ist e<strong>in</strong> Filter, der auf Farbtöne beschränkt ist, nichtausreichend. Ebenfalls könnten mittels e<strong>in</strong>es solchen Filters ke<strong>in</strong>e Schatten oder Reflexionender Umgebung herausgefiltert werden. Da die Oberfläche des Tisches nur Grautöne mitger<strong>in</strong>ger Farbsättigung aufweist, kommt <strong>in</strong> dieser Arbeit e<strong>in</strong> Filter zum E<strong>in</strong>satz, der nachFarbsättigung und Helligkeit filtert.Das e<strong>in</strong>gelesene K<strong>am</strong>erabild B RGB liegt im RGB Farbraum vor und hat die Dimensionvon n × m, n, m ∈ N (vgl. Abb. 5.3 (a)). Aufgrund der Beschreibung im additiven Farbraumist das Filtern nach Farbsättigung und Helligkeit <strong>in</strong> diesem Datenformat nicht möglich. Ausdiesem Grund wird es <strong>in</strong> den HSV-Farbraum transformiert. Dieser Farbraum beschreibt Farbenmittels des Farbtons H (Hue), der Farbsättigung S (Saturation) und der DunkelstufeV (Value). Dabei wird der Farbton auf e<strong>in</strong>em Kreis beschrieben, wobei jedem W<strong>in</strong>kel e<strong>in</strong>Farbton zugeordnet ist. Sättigung und Dunkelstufe dagegen werden <strong>in</strong> Prozent angegeben.Das Bild B RGB im RGB Farbraum kann dann <strong>in</strong> den HSV-Farbraum als B HSV überführtwerden. Hierzu werden folgende Hilfsfunktionen benötigt:m<strong>in</strong>(n1, n2) := m<strong>in</strong> (B RGB(n1, n2, k))RGB k∈{0,1,2}max(n1, n2) := max (B RGB(n1, n2, k))RGB k∈{0,1,2}diffRGB(n1, n2) := max(n1, n2) − m<strong>in</strong>(n1, n2)RGBRGBDann lassen sich die Bilder der e<strong>in</strong>zelnen HSV-Kanäle B H , B S sowie B V wie folgt def<strong>in</strong>ieren:⎧nicht def<strong>in</strong>iert falls diff (n1, n2) = 0RGB⎪⎨ ( B G(n1,n2)−B B (n1,n2)diffB Ht (n1, n2) :=RGB) · 60 falls B(n1,n2) R (n1, n2) = max(n1, n2)RGB( B B(n1,n2)−B R (n1,n2)diff RGB) · 60 falls B(n1,n2) G (n1, n2) = max(n1, n2)RGB⎪⎩ ( B R(n1,n2)−B G (n1,n2)diff RGB) · 60 falls B(n1,n2) B (n1, n2) = max(n1, n2)B H (n1, n2) := B Ht (n1, n2) mod 360RGB68


5.1. KOLLISIONSERKENNUNG ZWISCHEN REALITÄT UNDVIRTUALITÄT DURCH BILDVERARBEITUNG⎧⎨0 falls max(n1, n2) = 0B S (n1, n2) :=RGB⎩100 · diff RGB(n1,n2)sonstmax RGB (n1,n2)B V (n1, n2) := max(n1, n2) · 100RGBDas Bild B HSV : {1, 2, . . . , n} × {1, 2, . . . , m} × {0, 1, 2} → [0; 360[ lässt sich somit def<strong>in</strong>ierenals⎧⎪⎨B H (n1, n2) falls k = 0B HSV (n1, n2, k) := B S (n1, n2) falls k = 1⎪⎩B V (n1, n2) falls k = 2Durch Versuche mit dem Systemaufbau konnten die Schwellwerte von V und S zuV m<strong>in</strong> = 27, 5% und S max = 27, 5%bestimmt werden. Hierbei bezeichnet V m<strong>in</strong> den m<strong>in</strong>imalen Helligkeitswert und S max die maximaleSättigung. Zum Tisch gehören somit alle Bildpunkte, welche V m<strong>in</strong> nicht unter- undgleichzeitig S max nicht überschreiten. Bildpunkte, für dieV < V m<strong>in</strong> oder S > S maxgilt, gehören folglich nicht zum H<strong>in</strong>tergrund, sondern werden als Teil e<strong>in</strong>es Objektes betrachtet.Die Schwellwertfunktions : B HSV → {1, 2, . . . , n} × {1, 2, . . . , m}welche die Menge aller Punkte zurückliefert, die zur Gruppe der Objekte und somit nicht zumTisch gehören, ist daher wie folgt def<strong>in</strong>iert:s(B HSV ) :={p ∈ {1, 2, . . . , n} × {1, 2, . . . , m} |B S (p) > S max ∨ B V (p) < V m<strong>in</strong> }Um auch bei färbenden Beleuchtungen den Tisch als H<strong>in</strong>tergrund zu erkennen, wurde derSchwellwert für die Sättigung S relativ hoch angesetzt. Untersuchungen im Labor habengezeigt, dass die Sättigung bei annähernd weißem Licht nicht über 15% steigt und somitdie Erkennungsraten bei farbigem Licht erhöhen, ohne dabei die Raten bei weißem Licht zuverr<strong>in</strong>gern. Der Schwellwert für die Dunkelstufe V wurde durch Tests so bestimmt, dass derdunkelste Schatten bei heller Beleuchtung als Tisch identifiziert wird. Dadurch können sehrdunkle Objekte (vgl. Abb. 5.3 (a)) dennoch vom Tisch unterschieden werden. Die Versuchezeigten, dass die Wahl der Schwellwerte den Filter sehr robust machten, wenngleich helle oderreflektierende Objekte nicht vom Tisch unterscheidbar s<strong>in</strong>d.Beim Filtern des K<strong>am</strong>erabildes können kle<strong>in</strong>e Lücken oder Löcher <strong>in</strong> den Objekten entstehen.Durch Lichtreflexionen oder durch dünne, helle L<strong>in</strong>ien oder Punkte <strong>in</strong> der Struktur e<strong>in</strong>esObjektes können solche Punkte fälschlicherweise dem H<strong>in</strong>tergrund zugeordnet werden. Dies69


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMEN(a) E<strong>in</strong>gelesenes K<strong>am</strong>erabild(b) Bild nach dem Filtern mit den Schwellwerten(c) Bild nach dem Schließen von Löchern(d) Konturen von Objekten im BildAbbildung 5.3: Schritte der Objekterkennungkann dazu führen, dass e<strong>in</strong> e<strong>in</strong>zelnes Objekt (Stift) <strong>in</strong> mehrere kle<strong>in</strong>ere Objekte (Stift undKappe) zerfällt (vgl. Abb. 5.3 (b)). Daher müssen diese Objekte wieder zu ganzen Objektenzus<strong>am</strong>mengeführt werden.Da diese Löcher im Allgeme<strong>in</strong>en kle<strong>in</strong> s<strong>in</strong>d, kann hier die morphologische Operation„Schließen“ mit e<strong>in</strong>em quadratischen Strukturelement der Größe 5 mal 5 Pixel angewandtwerden. Dabei setzt sich die Operation aus den beiden Operationen „Dilatation“ und „Erosion“zus<strong>am</strong>men. Bei der Dilatation wird um das Zentrum des Strukturelements herum verglichen,ob m<strong>in</strong>destens e<strong>in</strong>es der benachbarten Pixel zum Objekt gehört. In diesem Fall wirddas Zentrum als Teil des Objektes gewertet. Die Erosion dagegen vergleicht um das Zentrumherum, ob jedes der benachbarten Pixel zum Objekt gehört. In diesem Fall werden nur diesePixel dem Objekt zugeordnet. Das „Schließen“ ermöglicht d<strong>am</strong>it, kle<strong>in</strong>e Lücken zwischenzwei Pixelgruppen zu schließen, ohne dabei deren Form maßgeblich zu verändern. Die kle<strong>in</strong>eGröße des gewählten Strukturelements gewährleistet, dass nicht zus<strong>am</strong>menhängende Objekteverschmelzen. Somit werden Objekte, die <strong>in</strong> kle<strong>in</strong>ere Teile zerfallen s<strong>in</strong>d, wieder zu e<strong>in</strong>emObjekt zus<strong>am</strong>mengeführt (vgl. Abb. 5.3 (c)).Der somit mehrstufige Filter F (B RGB ) lässt sich mathematisch für e<strong>in</strong> Bild im RGB-Farbraum B RGB und e<strong>in</strong> Strukturelement S wie folgt formulieren. Dabei bezeichnet s dieSchwellwertfunktion und B HSV (B RGB ) die Bildfunktion B HSV <strong>in</strong> Abhängigkeit von B RGB70F (B RGB ) := s(B HSV (B RGB )) • S


5.1. KOLLISIONSERKENNUNG ZWISCHEN REALITÄT UNDVIRTUALITÄT DURCH BILDVERARBEITUNGInnerhalb des vorliegenden Bildes können nun verschiedene Objekte gleichzeitig vorhandense<strong>in</strong>. Um nun die Objekte zu unterscheiden, müssen die Konturen der e<strong>in</strong>zelnen Objekteermittelt werden. Dazu ist <strong>in</strong> „OpenCV“ e<strong>in</strong> Algorithmus [81] implementiert, der die äußereKontur e<strong>in</strong>er Pixelgruppe f<strong>in</strong>det und als geordnete Liste von 2-D-Koord<strong>in</strong>aten im Bild zurückliefert.Dieser Algorithmus kann mehrere Objekte unterscheiden, für die weitere Verarbeitungwird aber nur das jeweils erste Objekt der Liste betrachtet, alle weiteren Objekte werdenverworfen. In Abb. 5.3 (d) ist das Ergebnis der Konturensuche sichtbar, die äußeren Konturenvon zwei Objekte werden farblich hervorgehoben.Um nun die Objekte <strong>in</strong> e<strong>in</strong> virtuelles Modell umzuwandeln, müssen im letzten Schrittnoch die Koord<strong>in</strong>aten, angegeben <strong>in</strong> Pixeln, <strong>in</strong> Millimeter umgerechnet werden. Dazu wird e<strong>in</strong>konstanter Skalierungsfaktor berechnet, der durch e<strong>in</strong>e <strong>in</strong>itiale Kalibrierung e<strong>in</strong>e vorgegebeneLänge <strong>in</strong> Millimetern <strong>in</strong> Pixeln abbildet. Nach der Bestimmung des Skalierungsfaktors kanndie Größe e<strong>in</strong>es Objektes berechnet werden, wobei die Skalierungsfunktion f s : N 2 → R 2 wiefolgt def<strong>in</strong>iert sei:f s (x, y) = s · f ( x, y)s ∈ RDes Weiteren sei für e<strong>in</strong>e erkannte Kontur K und e<strong>in</strong>en Punkt P i := (x i , y i ) ∈ K ¯P i def<strong>in</strong>iertals¯P i := f s (P i )Nach der Skalierung aller Punkte der Kontur K geht diese <strong>in</strong> ¯K über:¯K = ⋃ i{ ¯P i }Nun liegt das Objekt als Anordnung von Eckpunkten vor, die als 2-D-Koord<strong>in</strong>aten <strong>in</strong> Millimeternangegeben s<strong>in</strong>d. Um es über die Netzwerkverb<strong>in</strong>dung zur Objektberechnung zu senden,muss es zuvor noch <strong>in</strong> e<strong>in</strong> 1-D-Feld gewandelt werden, das wie folgt def<strong>in</strong>iert ist:[¯x 1 , ȳ 1 , ¯x 2 , ȳ 2 , ..., ¯x n , ȳ n ](¯x i , ȳ i ) ∈ ¯P i ∈ ¯KAufgrund der beschriebenen Umsetzung können zwei Sorten von Objekten nicht oder nurfalsch erkannt werden. Es handelt sich hierbei um sehr dünne Objekte (vgl. Abb. 5.4) und umsolche, die e<strong>in</strong>en Hohlraum <strong>in</strong> ihrer <strong>in</strong>neren Struktur aufweisen, zum Beispiel e<strong>in</strong> R<strong>in</strong>g (vgl.Abb. 5.5).Abbildung 5.4: Dünnes Objekt bei der ObjekterkennungSehr dünne Objekte werden bei der Filterung aufgrund der begrenzten Auflösung derWebc<strong>am</strong> oft <strong>in</strong> mehrere kle<strong>in</strong>e Teilobjekte zerfallen oder gänzlich durch die morphologischenOperationen gelöscht.71


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMENAbbildung 5.5: R<strong>in</strong>g bei der ObjekterkennungDie Verwendung des Algorithmus [81] br<strong>in</strong>gt mit sich, dass nur äußere Konturen erkanntwerden. Der Algorithmus ist nicht <strong>in</strong> der Lage, <strong>in</strong>nere Konturen von Objekten zu erkennen,wodurch sie ohne ihre <strong>in</strong>neren Löcher modelliert werden.5.1.3.3 ObjektverarbeitungDie Objektverarbeitung übernimmt die Modellierung e<strong>in</strong>es virtuellen Objektes aus den berechnetenKoord<strong>in</strong>aten se<strong>in</strong>er Eckpunkte sowie die Kollisionserkennung zwischen diesem Modellund anderen virtuellen Objekten (vgl. Abb. 5.6(a)), die sich <strong>in</strong>nerhalb der AR-Szene bef<strong>in</strong>den.Die Koord<strong>in</strong>aten der Eckpunkte liegen bisher nur als 2-D-Koord<strong>in</strong>aten vor, da diese ausnur e<strong>in</strong>em Bild extrahiert werden konnten. AR benötigt aber Modelle, die 3-D-Koord<strong>in</strong>atenaufweisen. Daher müssen alle 2-D-Koord<strong>in</strong>aten um e<strong>in</strong>e feste Höhe ergänzt werden. Zur Modellierung<strong>in</strong> AR wird die Beschreibungssprache „Virtual <strong>Reality</strong> Modell<strong>in</strong>g Language“ (VRML)verwendet. In dieser kann mit e<strong>in</strong>em „IndexedFaceSets“ (IFS) e<strong>in</strong> Objekt durch se<strong>in</strong>e Eckpunktedef<strong>in</strong>iert werden. Dazu werden <strong>in</strong> zwei Listen zum e<strong>in</strong>en die Koord<strong>in</strong>aten der Eckpunkteaufgeführt und zum anderen die daraus zu bildenden Polygone. Die Objektverarbeitungwandelt also die vorliegenden Koord<strong>in</strong>aten der Eckpunkte von 2-D <strong>in</strong> 3-D. Dies geschieht,<strong>in</strong>dem bei e<strong>in</strong>em Koord<strong>in</strong>atensatz die Höhe zum Wert 0 gesetzt wird (x, y, 0) und <strong>in</strong> e<strong>in</strong>emweiteren Koord<strong>in</strong>atensatz e<strong>in</strong>e zuvor festgelegte Höhe h h<strong>in</strong>zugefügt wird und somit aus der2-D-Kontur (x, y) e<strong>in</strong>e 3-D-Kontur erstellt wird (x, y, h). Somit liegen nun die Koord<strong>in</strong>atenfür die Kontur <strong>in</strong> der X-Y-Ebene vor sowie parallel dazu um die Höhe h versetzt.Um diese 3-D-Kontur nun <strong>in</strong> AR verwenden zu können, wird e<strong>in</strong> zunächst leeres IFS <strong>in</strong>VRML erstellt. In diesem bef<strong>in</strong>den sich <strong>in</strong> den beiden Listen noch ke<strong>in</strong>e Elemente. Mithilfee<strong>in</strong>es Algorithmus werden nun die 3-D-Koord<strong>in</strong>aten <strong>in</strong> Echtzeit <strong>in</strong> die Liste des leeren IFSgeschrieben. Anschließend werden aus den Koord<strong>in</strong>aten Flächen erzeugt und <strong>in</strong> die zweiteListe geschrieben. Dabei werden zum e<strong>in</strong>en die Flächen der Konturen verbunden, was zuzwei parallelen Konturen führt, zum anderen aber auch die Seitenflächen zwischen den beidenKonturen. Auf diese Weise entsteht e<strong>in</strong> Modell <strong>in</strong> 3-D, das die ursprüngliche Kontur desObjektes als Pseudo 3-D-Modell abbildet.Im weiteren Verlauf werden basierend auf den aus dem aktuellen K<strong>am</strong>erabild gewonnenenEckpunkten des Objektes die beiden Listen des IFSs laufend neu beschrieben. Das virtuelleModell als IFS passt sich also laufend der aktuellen Kontur des Objektes an.D<strong>am</strong>it das Objekt nun <strong>in</strong> der AR-Szene sichtbar wird (vgl. Abb. 5.6(a)), sendet die Objektverarbeitungdas Modell an den AR-Client, der die aktuelle AR-Szene verwaltet, sobalddas Objekt im Sichtbereich der K<strong>am</strong>era ersche<strong>in</strong>t. Um die Performance zu erhöhen, wird nicht<strong>in</strong> jedem Schritt das vorherige IFS aus der Szene gelöscht und das neue IFS geladen, sondern72


5.1. KOLLISIONSERKENNUNG ZWISCHEN REALITÄT UNDVIRTUALITÄT DURCH BILDVERARBEITUNGes werden zur Laufzeit nur die E<strong>in</strong>träge der Liste verändert. Auf diese Weise müssen die Objektenicht laufend gelöscht und neu geladen werden, sondern können ausgehend vom leerenModell direkt verändert werden. Diese Methodik steigert die Darstellungsrate von 0,5 Fr<strong>am</strong>esje Sekunde auf etwa 10 Fr<strong>am</strong>es je Sekunde.Um e<strong>in</strong>e Überlagerung von realem Objekt und virtuellem Modell zu erreichen, muss diePosition <strong>in</strong> der AR-Szene mit der realen Position <strong>in</strong>nerhalb des WeltKOS übere<strong>in</strong>stimmen.Andernfalls würde das erzeugte Modell nicht deckungsgleich mit dem realen Objekt ersche<strong>in</strong>en(vgl. Abb. 5.6(b)). Mittels des IR-Targets an der K<strong>am</strong>era wird e<strong>in</strong> TargetKOS erzeugt, dasse<strong>in</strong>en Ursprung genau auf der Ebene des Tisches hat und dessen X-Y Ebene parallel mit derOberfläche des Tisches ist. Die Positionierung wird also bereits beim Track<strong>in</strong>g berücksichtigtund muss nicht separat von der Objektverarbeitung ermittelt werden, da das virtuelle Objektdirekt an das TargetKOS gebunden werden kann und somit auf dem Tisch ersche<strong>in</strong>t.(a) Nur e<strong>in</strong>e virtuelle Kugel ist auf dem Tisch <strong>in</strong>die AR Szene geladen. Ke<strong>in</strong> realer Stift ist sichtbarund somit auch nicht als virtuelles Modell vorhanden(b) E<strong>in</strong> realer Stift wird <strong>in</strong> das Sichtfeld der K<strong>am</strong>erae<strong>in</strong>gebracht und sofort als virtuelles Modell<strong>in</strong> die Szene e<strong>in</strong>gefügt(c) Der reale Stift berührt die virtuelle Kugel undverursacht dadurch e<strong>in</strong>e Größenänderung der virtuellenKugel(d) Die Kollision zwischen realem Stift und virtuellerKugel aus e<strong>in</strong>em anderen Blickw<strong>in</strong>kelAbbildung 5.6: Modellierung von realen Objekten und deren Kollisionen mit virtuellen Objekten<strong>in</strong> <strong>Augmented</strong> <strong>Reality</strong>Um nun Kollisionen zwischen virtuellen Objekten <strong>in</strong>nerhalb e<strong>in</strong>er AR-Szene zu erkennen(vgl. Abb 5.6(c) und (d)), müsste jeder e<strong>in</strong>zelne Punkt mit allen anderen Punkten der Szene73


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMENh<strong>in</strong>sichtlich se<strong>in</strong>er Position im Raum verglichen werden. Aus diesem Grund vere<strong>in</strong>facht dieObjekterkennung die Detektion von Kollisionen zwischen Objekten. Zum e<strong>in</strong>en werden dieObjekte zur Kollisionsdetektion auf den 2-D-Fall reduziert, wodurch die Anzahl der zu prüfendenPunkte reduziert wird. Zum anderen werden die Kollisionsobjekte stark vere<strong>in</strong>facht.In dieser Modellierung kommen zur Kollision mit realen Objekten nur virtuelle Kugeln zumE<strong>in</strong>satz (dies jedoch könnte zu Lasten der Performance auch abgeschaltet werden).Da die realen Objekte auf der Oberfläche des Tisches liegen und sich die <strong>in</strong> dieser Arbeitvorgesehene Verwendung der Kollisionserkennung (vgl. Kapitel 6.1) mit virtuellen Objektenauf dieser Oberfläche beschränkt, kann die Detektion von Kollisionen auf e<strong>in</strong>e Projektion <strong>in</strong>die Ebene der Tischoberfläche reduziert werden. Diese E<strong>in</strong>schränkung setzt jedoch voraus,dass reale und virtuelle Objekte <strong>in</strong> ihrer Höhe beschränkt s<strong>in</strong>d, da sonst Kollisionen fälschlichdetektiert werden können, sobald die Projektion e<strong>in</strong>es hohen Punktes sich <strong>in</strong> der Ebene mite<strong>in</strong>em niedrigen Punkt schneidet. Die Projektion der virtuellen Kugeln wird vere<strong>in</strong>facht mitKreisen auf der Tischoberfläche vorgenommen (Radius und X-/Y-Position gleichbleibend).D<strong>am</strong>it ist e<strong>in</strong>e Kollisionserkennung e<strong>in</strong>e e<strong>in</strong>fache 2-D-Abstandsanalyse der Konturpunkte deserkannten Objektes mit den Mittelpunkten der Kugeln. E<strong>in</strong>e Kollision liegt vor, wenn dererrechnete Abstand den entsprechenden Kreisradius unterschreitet (vgl. Abb 5.6(c) und (d)).5.2 Interpersonelle <strong>Interaktion</strong> durch e<strong>in</strong> VideokonferenzsystemDas <strong>in</strong> Kapitel 3.1 vorgestellte AR-Fr<strong>am</strong>ework bietet bereits die Möglichkeit, <strong>in</strong> e<strong>in</strong>er AR-Szene sowohl lokal als auch räumlich getrennt geme<strong>in</strong>s<strong>am</strong> zu arbeiten. Für die geme<strong>in</strong>schaftlicheArbeit (Kollaboration) ist es jedoch erforderlich, andere Nutzer, die räumlich getrennts<strong>in</strong>d, <strong>in</strong> die AR-Szene zu <strong>in</strong>tegrieren. Dies erleichtert die Kommunikation, die die Kollaborationbeispielsweise durch Gesten unterstützt. Ebenfalls erweist es sich als hilfreich, Informationenvon Applikationen, die nicht <strong>in</strong>nerhalb der AR verfügbar s<strong>in</strong>d, e<strong>in</strong>zub<strong>in</strong>den. Hierzu zählt beispielsweisedas Grafische User Interface (GUI) e<strong>in</strong>es CAD-Progr<strong>am</strong>ms. Aus diesem Grundwird das Fr<strong>am</strong>ework um e<strong>in</strong> System zur Erzeugung e<strong>in</strong>er Videokonferenz erweitert.5.2.1 Thematisch verwandte VorarbeitenDie Integration e<strong>in</strong>er Videokonferenz <strong>in</strong> die Virtual <strong>Reality</strong> beschreibt [73]. Hier werden sowohlvirtuelle Objekte als auch die Gesprächspartner per Videokonferenz <strong>in</strong> e<strong>in</strong>e Szene e<strong>in</strong>gebunden,die allen Teilnehmern der Videokonferenz zugänglich ist. Die Teilnehmer s<strong>in</strong>d hierbeijedoch auf die Darstellung mit e<strong>in</strong>em Monitor gebunden, jegliche Überlagerung von realenund virtuellen Inhalten ist nicht möglich.E<strong>in</strong>en anderen Ansatz verfolgt [6]. Das hier entwickelte System stellt sowohl das eigenespiegelbildliche Abbild als auch das Abbild des Gegenübers geme<strong>in</strong>s<strong>am</strong> auf e<strong>in</strong>em Bildschirmdar . Beide Teilnehmer können virtuelle Objekte laden, die an Papiermarker gebunden werden.Manipulationen an den Objekten werden stets bei beiden Teilnehmern synchronisiert. DieseVorgehensweise erlaubt es zwar, virtuelle Objekte <strong>in</strong> die tatsächliche Umgebung zu <strong>in</strong>tegrieren,fesselt den Benutzer aber immer noch an den Monitor. Das System ist außerdem auf zweiTeilnehmer beschränkt und die Darstellung beider Teilnehmer auf dem Bildschirm kann nichtals ideal erachtet werden, da das eigene Spiegelbild zu Sehen ungewohnt ist und eher irritiertals nützt.74


5.2. INTERPERSONELLE INTERAKTION DURCH EINVIDEOKONFERENZSYSTEM[40] verwendet bei dieser Umsetzung e<strong>in</strong>es Videokonferenzsystems neben e<strong>in</strong>em Monitorauch e<strong>in</strong> HMD. In diesem System ist der E<strong>in</strong>satz des HMDs auf die Verwendung von e<strong>in</strong>eme<strong>in</strong>zelnen Teilnehmer beschränkt. Die anderen Gesprächspartner sitzen h<strong>in</strong>gegen vor e<strong>in</strong>emMonitor und werden von e<strong>in</strong>er K<strong>am</strong>era gefilmt. Aus diesen Aufnahmen werden virtuelle Objekteerstellt, die der Träger des HMDs an Papiermarker b<strong>in</strong>den kann. Somit ist es gelungen,die Abbilder der entfernten Teilnehmer <strong>in</strong> die reale Umgebung zu <strong>in</strong>tegrieren. Leider ermöglichtdieses System nur e<strong>in</strong>er Person, se<strong>in</strong>e Gesprächspartner zu sehen. Die Personen vor denMonitoren müssen auf e<strong>in</strong>e Darstellung ihrer Gesprächspartner verzichten. In Weiterentwick-(a) Teilnehmer mit Head Mounted Display(b) Sicht des Nutzers mit dem Head MountedDisplayAbbildung 5.7: Videokonferenzsystem nach [40]lungen dieser Arbeit wurde dem Bestreben nachgegangen, die Darstellung der Personen nochrealitätsnäher zu gestalten und die Präsenz im Raum zu steigern. Mögliche Ansätze dazu s<strong>in</strong>dder Übergang von e<strong>in</strong>er 2-D- <strong>in</strong> e<strong>in</strong>e 3-D-Darstellung der Teilnehmer oder die Elim<strong>in</strong>ation desH<strong>in</strong>tergrunds der Konferenzteilnehmer.Alle Ansätze verb<strong>in</strong>den e<strong>in</strong>e bestimmte Komb<strong>in</strong>ation von Geräten, s<strong>in</strong>d also auf e<strong>in</strong>e e<strong>in</strong>zelnedef<strong>in</strong>ierte Systemkonfiguration festgelegt. Daher soll das zu entwickelnde Videokonferenzsystemdie Möglichkeit bieten, verschiedene Ansätze zur Verfügung zu stellen, um <strong>in</strong> e<strong>in</strong>erspäteren Evaluierung (vgl. Kapitel 7.5) diese Konfigurationen e<strong>in</strong>ander gegenüberstellen zukönnen, um somit Vor- und Nachteile e<strong>in</strong>zelner Systemaufbauten aufzudecken.5.2.2 ProblemstellungDie zur Modellierung realer Objekte zugrunde liegende Beschreibungssprache VRML erlaubtdie Texturierung von Oberflächen mit zuvor aufgenommenen Media Daten (Offl<strong>in</strong>e Daten),wie zum Beispiel Bilder oder Videos. Diese Texturen werden als Materialeigenschaft des Objektesdef<strong>in</strong>iert und mit ihm verknüpft. Media Daten, die <strong>in</strong> Echtzeit generiert werden (Onl<strong>in</strong>eDaten), können jedoch nicht e<strong>in</strong>gebunden werden. Es fehlt also die Integrationsmöglichkeitvon Videostre<strong>am</strong>s. Videokonferenzen werden jedoch immer <strong>in</strong> Echtzeit gehalten, stellen alsoInformationen <strong>in</strong> Form von Onl<strong>in</strong>e Daten zur Verfügung. Aus diesem Grund soll das Videokonferenzsystemdem AR-System Onl<strong>in</strong>e Daten <strong>in</strong> e<strong>in</strong>er Form zur Verfügung stellen, die dieDarstellung dieser Media Daten <strong>in</strong> Echtzeit ermöglicht. Um die Realitätsnähe e<strong>in</strong>es Gesprächspartnerszu erhöhen, muss das Modul <strong>in</strong>nerhalb e<strong>in</strong>es Bildes e<strong>in</strong>er angeschlossenen K<strong>am</strong>eraden H<strong>in</strong>tergrund vom Teilnehmer segmentieren. Auf diese Weise soll der H<strong>in</strong>tergrund elimi-75


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMENniert werden, sodass nur noch der Teilnehmer der Videokonferenz <strong>in</strong>nerhalb der AR-Szenesichtbar ist.5.2.3 UmsetzungVRML bietet die Möglichkeit, Materialeigenschaften von Modellen zu def<strong>in</strong>ieren. Zu diesenEigenschaften zählt unter anderem die Textur e<strong>in</strong>er Oberfläche. Mit VRML lassen sich alsoObjekte erstellen, deren Oberfläche mit Offl<strong>in</strong>e Daten texturiert werden können. „Unifeye“ ist<strong>in</strong> der Lage, spezifische Eigenschaften von Modellen zur Laufzeit zu ändern, ohne dass dadurche<strong>in</strong> erneutes Nachladen des manipulierten Objektes notwendig wird. Aus diesem Grund ist esmöglich, die Textur e<strong>in</strong>es Modells zur Laufzeit zu verändern.Durch e<strong>in</strong>e kont<strong>in</strong>uierliche Veränderung der Textur mittels des „Unifeye“ kann also derE<strong>in</strong>druck von Onl<strong>in</strong>e Daten erzeugt werden. Bei ausreichender Aktualisierungsrate der Oberflächentexturdes Modells (etwa 24 Fr<strong>am</strong>es je Sekunde) lässt sich e<strong>in</strong> sche<strong>in</strong>bar flüssiger Ablaufumsetzen. Dazu generiert e<strong>in</strong> Server (vgl. Abb. 5.8) e<strong>in</strong> Standbild entweder von e<strong>in</strong>er angeschlossenenK<strong>am</strong>era oder von e<strong>in</strong>em def<strong>in</strong>ierten Ausschnitt des Bildschirms. Dieses Standbildwird anschließend auf e<strong>in</strong>em Fileserver abgelegt, der sowohl vom Server als auch vom Clienterreichbar ist. Nach dem Speichern des Bildes wird der Client benachrichtigt, dass e<strong>in</strong> aktualisiertesStandbild verfügbar ist. Dieser lädt das Bild daraufh<strong>in</strong> vom Fileserver und aktualisiertdie Textur des entsprechenden Modells.Durch e<strong>in</strong>e Unterscheidung der angeschlossenen Server ist es möglich, mehrere Datenquellen<strong>in</strong>nerhalb e<strong>in</strong>er AR-Szene darzustellen.Client ComputerFileserverARVCARVCClientClientARARClientClientServerComputer 1ServerComputer 2ServerComputer nARVCARVCServerServerARARServerServerARVCARVCServerServerARARServerServerARVCARVCServerServerARARServerServerAbbildung 5.8: Schematischer Aufbau des Videokonferenzsystem5.2.3.1 ÜbersichtUm e<strong>in</strong>e e<strong>in</strong>fache E<strong>in</strong>b<strong>in</strong>dung <strong>in</strong> verschiedenen AR-Applikationen zu ermöglichen, ist derClient als Klasse umgesetzt worden, der durch die Applikation mithilfe weniger Funktionenbedienbar ist (vgl. Abb. 5.9). Beim Erstellen e<strong>in</strong>er neuen Videokonferenz wird dem Clientdie aktuelle AR-Szene übergeben. Diese ist für die ges<strong>am</strong>te Applikation und deren Modulegleich, sodass Manipulationen jedes e<strong>in</strong>zelnen Modules bezüglich der AR-Szene <strong>in</strong>nerhalbjedes Modules abgefragt werden können. So kann die Videokonferenz mit anderen Modulen76


5.2. INTERPERSONELLE INTERAKTION DURCH EINVIDEOKONFERENZSYSTEMkomb<strong>in</strong>iert werden, wodurch sie sich zeitgleich <strong>in</strong>nerhalb derselben AR-Szene bef<strong>in</strong>det. Serverwerden durch e<strong>in</strong>en e<strong>in</strong>fachen Funktionsaufruf durch den Client erstellt. Dabei wird zunächste<strong>in</strong> <strong>in</strong> VRML beschriebenes Modell <strong>in</strong> Form e<strong>in</strong>es flachen Quaders geladen. Die Materialeigenschaftenbezüglich der Größe und Textur dieses Quaders s<strong>in</strong>d fest def<strong>in</strong>iert, sodass sieim Verlauf durch den Client verändert werden können. Beim Erstellen e<strong>in</strong>es neuen Serverswird zusätzlich der Ort des Servers <strong>in</strong> Form des Zielrechners und des UDP-Ports angegeben.Dadurch ist der Client <strong>in</strong> der Lage, verschiedene Server zu unterscheiden. Nach demErstellen des Quaders und dem Bereitstellen der Kommunikation wird e<strong>in</strong>e Nachricht an denServer gesendet. Diese Nachricht be<strong>in</strong>haltet e<strong>in</strong> def<strong>in</strong>iertes Kommando, das die Bildaufnahmedes Servers startet und ihm e<strong>in</strong>e e<strong>in</strong>deutige ID zuweist. Gleichzeitig beg<strong>in</strong>nt der Client, aufe<strong>in</strong>gehende Nachrichten der angeschlossenen Server zu warten. Diese Nachrichten be<strong>in</strong>haltensowohl die ID des Servers, den Pfad des gespeicherten Standbildes als auch die Größe desBildes <strong>in</strong> X- und Y-Ausdehnung. Ausgehend von diesen Informationen verändert der Clientdas Ersche<strong>in</strong>ungsbild des Quaders, der mit der gesendeten ID des Servers korrespondiert.Applikationfunction„start()“function„addclient( host , port )“ClientErzeuge UDPClientZum LauschenErzeuge VRMLObjektServerErzeuge UDPClientZum LauschenErzeuge UDPClientzum SendenErzeuge UDPClientzum SendenUdp-Message„start_“Udp-MessageSpeichere Bildvon Quelle anPfadManipuliereObjektmit ID „__“Udp-Message„cont“Udp-MessageSpeichere Bildvon Quelle anPfad…„__“…Abbildung 5.9: Kommunikation zwischen Client und Server5.2.3.2 Kommunikation und DatenbereitstellungDer Server des Videokonferenzsystems besteht aus zwei Kernkomponenten: die Netzwerke<strong>in</strong>heit,die die Kommunikation mit dem Client steuert, die ankommenden Befehle auswertet undausgehende Nachrichten verschickt, sowie die Aufnahmee<strong>in</strong>heit, die die Media Daten, die vonden angeschlossenen Quellen geliefert werden, aufnimmt und speichert. Als Quellen dienenhierbei entweder e<strong>in</strong>e angeschlossene K<strong>am</strong>era oder e<strong>in</strong>e Screenshot-Funktion, die den Inhalte<strong>in</strong>es beliebigen Bereichs des Desktops aufnimmt (vgl. Abb. 5.10).Jeder Server besitzt im Netzwerk e<strong>in</strong>e e<strong>in</strong>deutige Kennung <strong>in</strong> Form des Hosts und desPorts, an dem die Netzwerke<strong>in</strong>heit auf Nachrichten wartet. Auf diese Weise s<strong>in</strong>d alle angeschlossenenServer vom Client e<strong>in</strong>deutig zu unterscheiden. Jeder Server wartet bei Start auf77


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMENW<strong>in</strong>dowsFensterScreenshotScreenshotVerarbeitungVerarbeitungNetzwerkverb<strong>in</strong>dungNetzwerkverb<strong>in</strong>dungClientBilderfassungBilderfassungK<strong>am</strong>erabildBildverarbeitungBildverarbeitungBildspeicherungBildspeicherungAbbildung 5.10: Schematischer Aufbau des Serverse<strong>in</strong>e Nachricht des Clients, <strong>in</strong> der er dem Server zum e<strong>in</strong>en die systemeigene ID übermitteltund d<strong>am</strong>it zum anderen den Aufnahmezyklus des Servers startet. Der Server nimmt danndie aktuell vorliegenden Daten der Quelle, speichert diese als Bild auf den Fileserver undsendet danach e<strong>in</strong>e Nachricht an den Client. Diese Nachricht be<strong>in</strong>haltet die ID des Servers,den Pfad des aktuellen Bildes im Netzwerk sowie die Größe des aktuellen Bildes. Der Pfaddes Bildes wird so gewählt, dass die Verfügbarkeit für alle angeschlossenen Systemkomponentensicher gestellt ist. Deshalb werden die Media Daten nicht lokal gespeichert, sondern aufe<strong>in</strong>em Fileserver abgelegt, da die Pfadangabe hier für alle Komponenten identisch ist. Nachdem Versenden der Nachricht wartet der Server auf e<strong>in</strong>e Reaktion des Clients, nach der dienächste Aufnahme erfolgt. Da der Dateizugriff nur sequentiell, nicht aber parallel, erfolgenkann, speichert der Server die Media Daten <strong>in</strong> e<strong>in</strong>en R<strong>in</strong>gpuffer, bestehend aus zehn Bildern.Dadurch wird der zeitgleiche Zugriff von Client und Server auf die Media Daten verh<strong>in</strong>dert.Abbildung 5.11: Darstellung von Media Daten <strong>in</strong> e<strong>in</strong>er <strong>Augmented</strong> <strong>Reality</strong> SzeneAbbildung 5.11 zeigt die Visualisierung von Media Daten des Desktops (rechts) <strong>in</strong>nerhalbe<strong>in</strong>er AR-Szene (l<strong>in</strong>ks). Für dieses Beispiel kommen zwei getrennte Server zum E<strong>in</strong>satz, diedurch zwei verschiedene UDP-Ports unterschieden werden. E<strong>in</strong> Server bildet das vor ihmliegende Fenster, <strong>in</strong> diesem Fall den Mediaplayer „W<strong>in</strong><strong>am</strong>p“ ab (ist daher auch nicht sichtbar),der zweite das Fenster des „W<strong>in</strong>dows Editors“. Das Beispiel zeigt ebenfalls die frei wählbarePosition, Skalierung und Orientierung <strong>in</strong>nerhalb der AR Szene. Die Fenster stehen also <strong>in</strong> derAR-Szene nicht im selben Bezug zue<strong>in</strong>ander, wie <strong>in</strong>nerhalb des Desktops. Um den E<strong>in</strong>druckder realen Anwesenheit des Gesprächspartners weiter zu erhöhen, werden die Media Daten,die e<strong>in</strong>en Teilnehmer der Videokonferenz zeigen, vom H<strong>in</strong>tergrund befreit, sodass nur nochder Teilnehmer <strong>in</strong> die AR-Szene e<strong>in</strong>geblendet wird.78


5.2. INTERPERSONELLE INTERAKTION DURCH EINVIDEOKONFERENZSYSTEM5.2.3.3 Entfernung des H<strong>in</strong>tergrundesFür die Videokonferenz wurde e<strong>in</strong> simpler Algorithmus implementiert, der die kont<strong>in</strong>uierliche<strong>in</strong>treffenden Bilder mit e<strong>in</strong>em zuvor aufgenommenen Bild des H<strong>in</strong>tergrunds pixelweisevergleicht und somit e<strong>in</strong> Differenzbild erstellen kann. Beide Bilder müssen dabei die gleicheGröße, d.h. die gleiche Anzahl horizontaler und vertikaler Pixel, besitzen.Zuerst wird dazu das Referenzbild <strong>in</strong> die e<strong>in</strong>zelnen Pixel zerlegt. Diese Pixel werden anschließend<strong>in</strong> ihre e<strong>in</strong>zelnen Farbkomponenten Rot R R (x, y), Grün G R (x, y) und Blau B R (x, y)aufgespalten. Die e<strong>in</strong>zelnen Farben können dabei Werte im Bereich von 0 bis 255 annehmen.Ebenfalls werden analog für das aktuelle Videobild die Werte Rot R V (x, y), Grün G V (x, y)und Blau B V (x, y) berechnet. Nun werden die jeweiligen Farbwerte der korrespondierendenPixel beider Bilder vone<strong>in</strong>ander subtrahiert. Daraus ergibt sich für den Differenzwert Rot:δ R = R R (x, y) − R V (x, y)Analog werden die Differenzwerte für Grün δ G und Blau δ B berechnet. Die jeweiligen Differenzwertewerden anschließend quadriert und mit zuvor festgelegten Grenzwerten für jedeFarbe verglichen. Diese quadratische Abweichung entscheidet, ob e<strong>in</strong> Bildpunkt des Videobildeszum H<strong>in</strong>tergrund gehört oder ob es sich um e<strong>in</strong>en Teil des Vordergrundes handelt.Nur wenn die quadratische Abweichung <strong>in</strong> allen drei Farbwerten unter dem Grenzwert bleibt,zählt dieser Bildpunkt zum H<strong>in</strong>tergrund, <strong>in</strong> allen anderen Fällen handelt es sich um e<strong>in</strong>en Teildes Vordergrundes. Wenn es sich bei e<strong>in</strong>em Pixel um e<strong>in</strong>en Teil des H<strong>in</strong>tergrunds handelt,wird der Farbwert auf den RGB-Wert (0, 255, 0) gesetzt und dieses Pixel somit für die weitereVerarbeitung markiert. Dieser Algorithmus wird auf alle Bildpunkte der beiden Bilderangewandt.In e<strong>in</strong>em zweiten Verarbeitungsschritt werden alle Pixel, die zuvor als H<strong>in</strong>tergrund markiertwurden, durchsichtig gestellt. Somit wird e<strong>in</strong> Herausfiltern des Vordergrundes erreicht.Um den Erkennungsalgorithmus an die Umgebungsvariablen, wie die Ausleuchtung des Raumesund die Qualität der K<strong>am</strong>era, anzupassen, können die Grenzwerte unabhängig vone<strong>in</strong>anderund dyn<strong>am</strong>isch verändert werden.(a) Schwellwert zu groß(b) Schwellwert zu kle<strong>in</strong>Abbildung 5.12: Differenzbilder mit verschiedenen SchwellwertenE<strong>in</strong> Verr<strong>in</strong>gern des Grenzwertes führt dazu, dass mehr Werte dem Vordergrund zugeordnetwerden. So kann die Erkennung des Vordergrundes bei e<strong>in</strong>er ger<strong>in</strong>gen Differenz des Video- und79


KAPITEL 5.ALTERNATIVE INTERAKTIONSFORMENReferenzbildes verbessert werden, wodurch das Differenzbild allerd<strong>in</strong>gs zu größerem Rauschenneigt. Den gegenteiligen Effekt erreicht man, wenn man den Grenzwert erhöht. Das Rauschenwird weniger, dadurch entstehen aber im Abbild der Person Löcher, da dann zu ähnliche Pixelfälschlicherweise dem H<strong>in</strong>tergrund zugeordnet werden (vgl. Abb 5.12). Durch Variieren derGrenzwerte kann e<strong>in</strong>e situationsbed<strong>in</strong>gte Idealkonfiguration erreicht werden.Um e<strong>in</strong>e möglichst flexible Systemgestaltung zu erreichen, kann die Differenzbildberechnungwährend des laufenden Betriebes der Videokonferenz aktiviert bzw. deaktiviert werden,ohne dass dadurch e<strong>in</strong> Neustart der Konferenz nötig wird. Ebenso ist das System für diespätere Evaluierung <strong>in</strong> der Lage, verschiedene Systemsetups umzusetzen. Als Ausgabe stehtwahlweise e<strong>in</strong> Monitor oder e<strong>in</strong> HMD zur Verfügung. Als zugrunde liegendes Track<strong>in</strong>gsystemkann auf e<strong>in</strong>es zurückgegriffen werden, das entweder auf e<strong>in</strong>em Papiermarker oder e<strong>in</strong>emIR-Target basiert.80


KAPITEL 6<strong>Multimodale</strong> <strong>Interaktion</strong> bei zweiexemplarischen SpielenDie <strong>in</strong> den vorhergegangenen Kapiteln beschriebenen Bestandteile dienen als Grundlage,um multimodale <strong>Interaktion</strong> mit e<strong>in</strong>em AR-System zu ermöglichen. Diese Bestandteile werdennun anhand von zwei konkreten Applikationen aus der Spieledomäne umgesetzt, zume<strong>in</strong>en e<strong>in</strong>e Realisierung von Billard, zum anderen Bowl<strong>in</strong>g. Bei beiden Spielen werden dieentwickelten <strong>Interaktion</strong>smöglichkeiten <strong>in</strong>tegriert, um deren Verwendbarkeit und Potential zudemonstrieren.6.1 BillARd - <strong>Augmented</strong> <strong>Reality</strong> BillardDas <strong>in</strong> diesem Kapitel vorgestellte Beispiel für die <strong>Interaktion</strong>smöglichkeiten aus den vorangegangenenKapiteln beschreibt die Entwicklung von „BillARd“. Dabei wurde Billard <strong>in</strong> dieAR transferiert. Die Aufgabe dieser Umsetzung liegt <strong>in</strong> der Demonstration der <strong>Interaktion</strong>smöglichkeiten,nicht auf der möglichst realistischen Nachbildung physikalischer Pr<strong>in</strong>zipien.Ebenfalls wurden die gültigen Spielregeln von Billard nicht <strong>in</strong> die Berechnung des Spielablaufes<strong>in</strong>tegriert.6.1.1 Übersicht„BillARd“ basiert auf dem bekannten Billard Spiel. Bei der Umsetzung <strong>in</strong> AR wird dabeie<strong>in</strong> realer Tisch und e<strong>in</strong> reales Queue verwendet. Auf dem realen Tisch wird e<strong>in</strong> virtuellerBillardtisch überlagert, auf dem sich virtuelle Kugeln bef<strong>in</strong>den. Durch das reale Queue könnendiese Kugeln angestoßen werden.Das entwickelte „BillARd“ besteht aus mehreren Komponenten (vgl. Abb 6.1). Die visuelleAusgabe des Systems erfolgt über e<strong>in</strong> HMD. Um e<strong>in</strong> haptisches Feedback zu erzeugen,kommt der WII-Controller zum E<strong>in</strong>satz. Dieser dient auch als E<strong>in</strong>gabemöglichkeit und stelltals komb<strong>in</strong>iertes E<strong>in</strong>- und Ausgabegerät die Schnittstelle für das Menü zur Steuerung von„BillARd“ dar. Mittels e<strong>in</strong>er Kollisionserkennung können reale Objekte <strong>in</strong> Echtzeit <strong>in</strong> die Berechnungdes Spieles e<strong>in</strong>gebunden werden. Durch die angeschlossene Gestenerkennung könnendie virtuellen Kugeln auch mit der Hand gegriffen und versetzt werden.Das IR-Track<strong>in</strong>gsystem empfängt die Lage und Position des realen Tisches, des Queuessowie der F<strong>in</strong>ger und des Kopfes des Nutzers. Diese Informationen dienen dem System zur81


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENBerechnung von physikalischen Vorgängen (beispielsweise das Stoßen mit dem Queue) undder Visualisierung mittels des HMDs.AR1AR2DTrackHMDHMDDisplayDisplayl<strong>in</strong>ksl<strong>in</strong>ksServerServerHMDHMDDisplayDisplayrechtsrechtsServerServerTrack<strong>in</strong>gsystemTrack<strong>in</strong>gsystemAR6ZentraleZentraleLogiksteuerungLogiksteuerung<strong>Augmented</strong><strong>Augmented</strong><strong>Reality</strong><strong>Reality</strong>ClientClientGestenerkennungGestenerkennungClientClientKollisionserkennungKollisionserkennungClientClientWIIWIIControllerControllerClientClientAR5GestenerkennungGestenerkennungServerServerAR4KollisionserkennungKollisionserkennungServerServerAR3WIIWIIControllerControllerServerServerAbbildung 6.1: Schematischer Aufbau von „BillARd“Die ges<strong>am</strong>te logische Steuerung übernimmt hier die zentrale Logiksteuerung. Diese verb<strong>in</strong>detalle e<strong>in</strong>zelnen Clients der <strong>Interaktion</strong>smöglichkeiten mite<strong>in</strong>ander und stellt deren Kommunikationuntere<strong>in</strong>ander sicher. Diese Clients kommunizieren wiederum mit den zugehörigenServern über e<strong>in</strong> Netzwerk. Ebenfalls simuliert die Steuerung die physikalischen Vorgänge desSpieles unter Berücksichtigung der Daten der Clients (beispielsweise die Kollision zwischenvirtueller Kugel und realem Gegenstand, der durch die Kollisionserkennung auf dem Tischdetektiert wurde).6.1.2 Aufbau der verwendeten HardwareGrundlage von „BillARd“ ist e<strong>in</strong> Hardwareaufbau, der aus dem Tisch und dem Queue besteht.Der Tisch hat e<strong>in</strong>e Größe von 120x60x60 cm und e<strong>in</strong>e schwarze Oberfläche. Auf diesem ist e<strong>in</strong>Metallgerüst angebracht, an dem die K<strong>am</strong>era der Kollisionsdetektion <strong>in</strong> e<strong>in</strong>er Höhe von etwa70cm über dem Tisch befestigt ist (vgl. Abb. 6.2). Deren Position bef<strong>in</strong>det sich genau mittigüber dem Tisch und die Blickrichtung ist senkrecht auf die Tischoberfläche ausgerichtet. AmGerüst ist e<strong>in</strong> Target befestigt, über das das IR-Track<strong>in</strong>gsystem die Position des Tisches imRaum bestimmen kann. Dies ist notwendig für die Positionierung des virtuellen Tisches, derauf dem realen Tisch abgebildet wird. Weiterh<strong>in</strong> muss die Position der K<strong>am</strong>era bekannt se<strong>in</strong>,um die Position und Größe der realen Objekte auf dem Tisch über die Kollisionserkennungexakt auf dem Tisch positionieren zu können.Das Queue ist fest mit dem WII-Controller verbunden (vgl. Abb. 6.3). Dieser ist hierso ausgerichtet, dass die Tasten des Controllers bei der Benutzung nach oben zeigen. Obendef<strong>in</strong>iert sich hierbei über die Anordnung des Targets, das <strong>am</strong> Queue angebracht ist. Die82


6.1. BILLARD - AUGMENTED REALITY BILLARDAbbildung 6.2: Tisch und K<strong>am</strong>erahalterung von „BillARd“Kugeln des Targets s<strong>in</strong>d derart angeordnet, dass der Nutzer beim Spielen mit dem Queuenicht <strong>in</strong> den natürlichen Bewegungsabläufen beim Stoßen mit e<strong>in</strong>em Queue bee<strong>in</strong>trächtigtwird. Das Target <strong>am</strong> Queue wird für die Positionierung des Menüs benötigt, aber auch umdie aktuelle Position der Spitze des Queues für Stöße mit virtuellen Kugeln zu berechnen.Abbildung 6.3: Queue mit WII-Controller von „BillARd“Weiterh<strong>in</strong> bef<strong>in</strong>den sich an Daumen und Zeigef<strong>in</strong>ger der rechten Hand des Nutzers zweiTargets, um der Gestenerkennnung die Position und Lage der F<strong>in</strong>ger im Raum mitteilen zukönnen.6.1.3 LogiksteuerungAls zentrale Steuere<strong>in</strong>heit regelt die Logiksteuerung sämtliche Progr<strong>am</strong>mabläufe <strong>in</strong>nerhalb von„BillARd“. Zu diesen Aufgaben zählen die Verb<strong>in</strong>dung der e<strong>in</strong>zelnen Clients und derer Daten83


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENuntere<strong>in</strong>ander, ebenso wie die Berechnung der physikalischen Vorgänge. Weiterh<strong>in</strong> sorgt dieLogiksteuerung für die Visualisierung der Szene <strong>in</strong>nerhalb der AR für den Nutzer, aber auchfür die Visualisierung der GUIs für das Progr<strong>am</strong>m selbst. So ist zwischen der Visualisierungfür den Spieler und den Spielleiter zu unterscheiden. Das GUI für den Spielleiter bietet dieMöglichkeiten, das Progr<strong>am</strong>m zu starten oder zu konfigurieren. Währenddessen stellt dieVisualisierung dem Spieler nur die re<strong>in</strong>e Szene <strong>in</strong> AR zur Verfügung (vgl. Abb. 6.4).(a) „BillARd“ vor dem Anstoß(b) „BillARd“ während des SpielesAbbildung 6.4: „BillARd“ aus Sicht e<strong>in</strong>es BeobachtersFür „BillARd“ wurde für die visuelle Ausgabe das <strong>in</strong> Kapitel 3.1 beschriebene System zurVisualisierung von AR verwendet. Für e<strong>in</strong> haptisches Feedback wurde der WII-Controller ausKapitel 4.3 <strong>in</strong>tegriert. Dieser stellt zugleich das für „BillARd“ entwickelte Menü <strong>in</strong> AR zurVerfügung und dient somit als E<strong>in</strong>gabegerät. Als zusätzliche E<strong>in</strong>gabemöglichkeit kommt derGestenerkenner aus Kapitel 4.1 zum E<strong>in</strong>satz. Dieser dient dazu, dem Nutzer das Greifen derKugeln zu ermöglichen. Die e<strong>in</strong>gebundene Kollisionserkennung aus Kapitel 5.1 ermöglicht es,reale Objekte auf dem Tisch zu platzieren. Diese realen Objekte werden dann automatischvirtuell <strong>in</strong> Echtzeit modelliert und können mit dem Spielgeschehen <strong>in</strong> <strong>Interaktion</strong> treten.Diese Vorgänge der <strong>Interaktion</strong> wirken sich auf die zugrundeliegende Physik des Spielesaus. Daher übernimmt die Logiksteuerung auch die komplette Simulation der physikalischenVorgänge. Hierzu zählen die Roll- und Stoßeigenschaften der Kugeln untere<strong>in</strong>ander, mit derBande oder mit dem Queue. Ebenfalls werden hier die Kollisionen zwischen den Kugeln undden automatisch modellierten realen Gegenständen berücksichtigt.Die folgenden Kapitel beschreiben die Entwicklung bzw. Integration der e<strong>in</strong>zelnen Elementeder Logiksteuerung.6.1.4 PhysikDie Simulation der Physik für „BillARd“ umfasst die Berechnung von Kollisionen von e<strong>in</strong>erKugel mit dem Queue, also dem Stoßen, mit e<strong>in</strong>er weiteren Kugel, mit der Bande, sowiemit dem realen Objekt, das durch die Kollisionserkennung bereits virtuell abgebildet wurde.Alle möglichen Kollisionspartner werden während des Spieles durchgehend auf e<strong>in</strong>e möglicheKollision h<strong>in</strong> überprüft. Wird e<strong>in</strong>e solche detektiert, wird die Simulation der Kollision gestartet.Die e<strong>in</strong>zelnen Kollisionsmöglichkeiten und deren Berechnung werden nun im Folgendenvorgestellt.84


6.1. BILLARD - AUGMENTED REALITY BILLARDFür die Simulation e<strong>in</strong>es Stoßes mit dem Queue benötigt die Physik die Position derSpitze des Queues, die Geschw<strong>in</strong>digkeit des Queues beim Stoß, sowie die Stoßrichtung. Diebeiden letzten Par<strong>am</strong>eter dienen anschließend zur Berechnung der Bewegung der virtuellen,gestoßenen Kugel. Über die Position der Spitze des Queues kann ermittelt werden, wann e<strong>in</strong>eKollision von Kugel k und der Spitze s des Queues vorliegt.Die Position der Spitze des Queues kann direkt aus den Daten des IR-Track<strong>in</strong>gsystemsbestimmt werden. Das KOS des Queues ist so platziert, dass dessen Ursprung genau <strong>in</strong> derSpitze des Queues liegt. Daher ist die Position der Spitze mit dem Ursprung des KOS identisch.E<strong>in</strong>e Kollision wird dann detektiert, sobald der Abstand d s,k dieser Spitze zu e<strong>in</strong>emMittelpunkt m k e<strong>in</strong>er Kugel unter den Radius r k fällt.d s,k < r k =√(x s − x k ) 2 + (y s − y k ) 2 + (z s − z k ) 2Die Geschw<strong>in</strong>digkeit des Queues berechnet sich aus den vorangegangenen Bewegungsschritten,die über das Track<strong>in</strong>gsystem ermittelt werden können. E<strong>in</strong> Bewegungsschritt stellt die Distanzv s zwischen zwei Positionen der Spitze des Queues zu den Zeitpunkten t und t − 1 dar.v s =√(x s,t − x s,t−1 ) 2 + (y s,t − y s,t−1 ) 2 + (z s,t − z s,t−1 ) 2Aus den letzten 5 Bewegungschritten wird dann e<strong>in</strong>e durchschnittliche Geschw<strong>in</strong>digkeit V serrechnet.V s =−4 ∑n=0v s,n5Die Stoßrichtung ergibt sich aus der Differenz zweier fester Punkte im KOS des Queues, die<strong>in</strong> Weltkoord<strong>in</strong>aten umgerechnet werden. Dazu wird der Richtungsvektor der umgerechnetenPunkte ermittelt und als Richtung für den Stoß angenommen. Da der Ursprung mit derSpitze des Queues übere<strong>in</strong>stimmt und dieser an der z-Achse des Queues ausgerichtet ist,kann e<strong>in</strong> Punkt auf der z-Achse des KOS des Queues herangezogen werden. Zus<strong>am</strong>men mitdem Ursprung des KOS des Queues werden diese beiden Punkte <strong>in</strong> das KOS des Tischesübergeführt. Dort kann die Richtung aus den beiden Positionen bestimmt werden. Es giltalso für e<strong>in</strong>en Punkt im KOS des Queues x qx t = R t (R q x q + p q− p t)Wobei x t den Punkt im KOS des Tisches beschreibt. R t bzw. R q beschreiben die Rotationsmatrizenzwischen WeltKOS und dem KOS des Tisches bzw. Queues. p tund p qbezeichnendabei den Ursprung der beiden KOS <strong>in</strong> Weltkoord<strong>in</strong>aten.Die Kollision zwischen zwei Kugeln wird detektiert, sobald der Abstand zweier Kugelmittelpunktekle<strong>in</strong>er als die Summe der beiden Radien der Kugeln werden. Für die Berechnungder neuen Richtung und der resultierenden Geschw<strong>in</strong>digkeit wird e<strong>in</strong> dezentraler, elastischerStoß angenommen. Dabei s<strong>in</strong>d die Mittelpunkte der beiden Kugeln p 1und p 2, sowie derenGeschw<strong>in</strong>digkeiten v 1 und v 2 , bekannt (vgl. Abb. 6.5).Ausgehend vom Impulserhaltungssatz werden die beiden Geschw<strong>in</strong>digkeiten <strong>in</strong> zwei Anteilezerlegt. E<strong>in</strong> Anteil wird <strong>in</strong> Richtung der Verb<strong>in</strong>dungsl<strong>in</strong>ie der beiden Mittelpunkte beim Stoßaufgetragen, der zweite senkrecht dazu. Der Anteil <strong>in</strong> Richtung der Verb<strong>in</strong>dungsl<strong>in</strong>ie wird nachdem Wechselwirkungspr<strong>in</strong>zip ausgetauscht, der Anteil senkrecht dazu bleibt bei den Kugelnunverändert. Um die neuen Richtungen und Geschw<strong>in</strong>digkeiten zu berechnen, benötigt man85


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENv , altv 1,alto1o2v 2,neuv 1,neuo o2121e1e2e 2ep1p2p1p2Abbildung 6.5: Berechnung der Geschw<strong>in</strong>digkeiten bei Kollision zweier Kugelnzunächst den Richtungsvektor e der Verb<strong>in</strong>dungsl<strong>in</strong>ie zwischen den Mittelpunkten der Kugeln.Dieser ergibt sich aus den Positionen der Kugeln zue = p 1− p 2Um nun daraus die Geschw<strong>in</strong>digkeitsanteile e 1 und e 2 entlang der Verb<strong>in</strong>dungsl<strong>in</strong>ie zu bestimmen,erfolgt e<strong>in</strong>e Berechnung des Skalarproduktes mit dem normierten Verb<strong>in</strong>dungsvektor e.Um nun auch die Geschw<strong>in</strong>digkeitsanteile o 1 und o 2 senkrecht zur Verb<strong>in</strong>dungsl<strong>in</strong>ie zu erhalten,werden die X- und Y-Koord<strong>in</strong>aten vertauscht und e<strong>in</strong> Vorzeichen gewechselt. Mittelsdieser Vektoren kann wieder durch das Skalarprodukt auf die Geschw<strong>in</strong>digkeitsanteile geschlossenwerden. Es ergeben sich also die Geschw<strong>in</strong>digkeiten v 1,neu und v 2,neu der Kugelnnach dem Stoß ausv 1,neu = e 2 + o 1 = ((v 2 ∗ e)e) + ((v 1 ∗ o)o)v 2,neu = e 1 + o 2 = ((v 1 ∗ e)e) + ((v 2 ∗ o)o)Sobald der Abstand zwischen dem Kugelmittelpunkt und der Bande ger<strong>in</strong>ger wird, als derRadius der Kugel, wird e<strong>in</strong>e Kollision zwischen Kugel und Bande erkannt. Für die Berechnungder neuen Bewegung der Kugel ist die Geschw<strong>in</strong>digkeit vor dem Stoß v alt bekannt. Diese setztsich zus<strong>am</strong>men aus dem Anteil e, der senkrecht auf die Bande zeigt, und dem Anteil o, derparallel zur Bande verläuft (vgl. Abb. 6.6). Der Stoß wird hier wie bei der Kollision zwischenzwei Kugeln als elastischer Stoß simuliert. Die Masse der Bande ist dabei wesentlich größer,als die der Kugel.v alteoo− ev neuAbbildung 6.6: Berechnung der Geschw<strong>in</strong>digkeiten bei Kollision mit der Bande86


6.1. BILLARD - AUGMENTED REALITY BILLARDDie neue resultierende Geschw<strong>in</strong>digkeit v neu errechnet sich hierbei aus der Komb<strong>in</strong>ationvon o und −ev neu = −e + oÄhnlich erfolgt die Berechnung der Kollision zwischen e<strong>in</strong>em modellierten Objekt <strong>in</strong> Forme<strong>in</strong>es approximierten Zyl<strong>in</strong>ders und e<strong>in</strong>er Kugel. E<strong>in</strong> reales Objekt wird von der Kollisionserkennungdurch e<strong>in</strong>en Zyl<strong>in</strong>der angenähert. Dabei ist der Mittelpunkt und der Radius bekannt.E<strong>in</strong>e Kollision wird ausgelöst sobald der Abstand zwischen den Mittelpunkten des Zyl<strong>in</strong>dersund der Kugel ger<strong>in</strong>ger ist, als die Summe der beiden Radien. In diesem Fall wird ausgehendvom Mittelpunkt des Zyl<strong>in</strong>ders m und dem Kollisionspunkt k e<strong>in</strong> Richtungsvektor rberechnet.r = m − kBasierend auf diesem wird im Kollisionspunkt e<strong>in</strong>e Ebene angenommen, die senkrecht auf demRichtungsvektor steht. Anschließend wird die Kollision zwischen der Ebene und der Kugelanalog zur Berechnung e<strong>in</strong>er Kollision zwischen e<strong>in</strong>er Kugel und der Bande durchgeführt.Für die Bestimmung des Zyl<strong>in</strong>ders zur Annäherung des realen Objektes sei hiermit auf dasnachfolgende Kapitel verwiesen.6.1.5 Integration bestehender FunktionalitätenDie Logiksteuerung verb<strong>in</strong>det neben neuen Funktionen auch die Möglichkeiten von bereitsbestehenden Systemen. Diese bestehenden Systeme wurden <strong>in</strong> die Logiksteuerung <strong>in</strong>tegriert,um auch auf diese Funktionen Zugriff zu erhalten. Für „BillARd“ wurde der Gestenerkenneraus Kapitel 4.1, die automatische Kollisionserkennung aus Kapitel 5.1 und der WII-Controllerals E<strong>in</strong>- und Ausgabegerät mit Menüsteuerung aus Kapitel 4.3 <strong>in</strong>tegriert.GestenerkennerUm dem Nutzer zu ermöglichen, virtuelle Kugeln mit der Hand zu ergreifen, wurde e<strong>in</strong> Systemzur automatischen Erkennung von Gesten <strong>in</strong> „BillARd“ <strong>in</strong>tegriert. Dabei handelt es sich umden <strong>in</strong> Kapitel 4.1 vorgestellten Gestenerkenner, der auf IR-Track<strong>in</strong>g basiert. Für „BillARd“ist es lediglich erforderlich, die Gesten des Ergreifens und Loslassens zu erkennen. Zusätzlichwird die Position der Geste benötigt. Aus diesen Angaben kann dann e<strong>in</strong>e Berechnung vonGreifvorgängen <strong>in</strong> der AR umgesetzt werden.Die Greifgeste wird erkannt, sobald sich Daumen und Zeigef<strong>in</strong>ger unter e<strong>in</strong>en festgelegtenSchwellwert annähern. Diese Berechnung erfolgt <strong>in</strong>nerhalb des Gestenerkenners. Ebenfallsübermittelt dieser die Position der Geste. Bei der Integration <strong>in</strong> „BillARd“ werden dieseInformationen herangezogen und mit den Positionen der virtuellen Kugeln verglichen. Bef<strong>in</strong>detsich e<strong>in</strong>e der Kugeln näher als e<strong>in</strong>e def<strong>in</strong>ierte Distanz zum Ort der Geste, wird die Berechnungdes Greifvorgangs der entsprechenden Kugel <strong>in</strong>itiiert. Der Abstand zwischen Kugel und F<strong>in</strong>gerA K,F berechnet sich dabei aus der Position der Kugel (x K , y K , z K ) und der Position des F<strong>in</strong>gers(x F , y F , z F ) nachA K,F =√(x K − x F ) 2 + (y K − y F ) 2 + (z K − z F ) 2Nach dem Greifen e<strong>in</strong>er Kugel wird die Position der Kugel automatisch mit der Position desF<strong>in</strong>gers gleichgesetzt. Auf diese Weise kann die Kugel, solange sie ergriffen ist, mit der Hand87


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENdes Nutzers im Raum platziert werden. Beim Loslassen der Kugel wird diese wieder zurückauf den Tisch gesetzt. Dabei wird die Position der Kugel im KOS des Tisches errechnet unddie Höhe auf den Wert Null gesetzt. Dies entspricht e<strong>in</strong>em Fallen der Kugel auf den Tisch,wobei ke<strong>in</strong>erlei weitere Effekte, wie etwa e<strong>in</strong> beschleunigtes Fallen oder e<strong>in</strong> Spr<strong>in</strong>gen auf demTisch, <strong>in</strong> der Berechnung simuliert wird.KollisionserkennungUm e<strong>in</strong>e Wechselwirkung zwischen realen und virtuellen Objekten zu ermöglichen, wurde dasSystem zur automatischen Kollisionserkennung aus Kapitel 5.1 verwendet. Dieses System ist<strong>in</strong> der Lage, e<strong>in</strong> Objekt vor e<strong>in</strong>em def<strong>in</strong>ierten H<strong>in</strong>tergrund zu detektieren und dessen Konturen<strong>in</strong> e<strong>in</strong> virtuelles Modell überzuführen. Für „BillARd“ wurde hierzu e<strong>in</strong>e K<strong>am</strong>era über demrealen Tisch montiert, der die Oberfläche dieses Tisches beobachtet. Auf dieser Oberflächewird ebenfalls „BillARd“ visualisiert. E<strong>in</strong> reales Objekt auf dem Tisch kann dadurch erkanntund <strong>in</strong> die Berechnung der Laufbahn von virtuellen Kugeln e<strong>in</strong>gebunden werden. Somit könnenvirtuelle Kugeln von realen Objekten abprallen oder abgelenkt werden. Abb. 6.7 zeigthierbei die <strong>Interaktion</strong> mit e<strong>in</strong>em realen Objekt vor bzw. nach dem Stoß.(a) Objekt vor dem Anstoß(b) Objekt während dem SpielAbbildung 6.7: Kollisionserkennung bei „BillARd“Das bestehende System übergibt der Logiksteuerung e<strong>in</strong>en Array, der die Positionen vonerkannten Eckpunkten des realen Objektes enthält. Um die Berechnung der Kollisionen zuvere<strong>in</strong>fachen und somit die Rechenlast zu senken, werden die realen Objekte als Zyl<strong>in</strong>derangenähert. Um den Mittelpunkt s dieses Zyl<strong>in</strong>ders zu bestimmen, wird der Schwerpunkt derübermittelten Koord<strong>in</strong>aten p i errechnets = (s x , s y ) T = 1 NN∑p i = 1 Ni=1N ( ∑ N∑x i , y i ) Ti=1 i=1Ausgehend von diesem Schwerpunkt wird der Radius des Zyl<strong>in</strong>ders r aus den Punkten berechnetdurchr = 1 NN∑i=1‖s − p i ‖ = 1 NN∑i=1√(s x − x i ) 2 + (s y − y i ) 2Basierend auf Mittelpunkt und Radius kann nun e<strong>in</strong> virtueller Zyl<strong>in</strong>der erstellt werden. DessenHöhe wird mit e<strong>in</strong>em festen Wert angegeben. Dies ist jedoch nur für die Visualisierung88


6.1. BILLARD - AUGMENTED REALITY BILLARDnotwendig, da zur Berechnung von Kollisionen nur Mittelpunkt und Radius herangezogenwerden. Die Vorgehensweise zur Berechnung wird im vorangegangenen Kapitel 6.1.4 beschrieben.WII-ControllerDie Integration des WII-Controllers ermöglicht zum e<strong>in</strong>en die Übertragung e<strong>in</strong>es haptischenFeedbacks und zum Anderen die Steuerung von „BillARd“ mittels e<strong>in</strong>es 3-D-Menüs. DasSystem zur Verwendung des WII-Controllers ist <strong>in</strong> Kapitel 4.3 beschrieben.Um neben dem visuellen auch e<strong>in</strong> haptisches Feedback zu ermöglichen, wird die Möglichkeitzum Vibrieren des WII-Controllers genutzt. Wird e<strong>in</strong>e Kollision des Queues mit e<strong>in</strong>erKugel erkannt, wird die Vibration des Controllers ausgelöst. Neben dieser Funktionalität dientder Controller als Steuergerät für e<strong>in</strong> 3-D-Menü, mittels dem „BillARd“ <strong>in</strong>nerhalb der ARkontrolliert werden kann. Dazu wird auf die abstrakte Modellierung von Menüs mittels desControllers zurückgegriffen. Dieser stellt e<strong>in</strong> Hauptmenü als Schnittstelle zur Applikation zurVerfügung. Innerhalb dieses Hauptmenüs können Untermenüs oder Steuerelemente def<strong>in</strong>iertwerden. Zu jedem dieser Elemente des Menüs können Funktionen h<strong>in</strong>terlegt werden, die aufgerufenwerden, sobald e<strong>in</strong> Element an- oder abgewählt bzw. aktiviert oder deaktiviert wurde.Angewählt werden Objekte, sobald der Nutzer auf das entsprechende Element navigiert, aktiviertwerden diese bei der Auswahl durch den Nutzer, um die dah<strong>in</strong>terliegende Funktionauszuführen.(a) ohne e<strong>in</strong>geblendetes Menü(b) mit e<strong>in</strong>geblendetem MenüAbbildung 6.8: Queue mit WII ControllerUm die Möglichkeiten der AR <strong>in</strong> vollem 3-D-Umfang nutzen zu können, wurde e<strong>in</strong> Menüentwickelt, das virtuelle Billardkugeln zur Visualisierung verwendet (vgl. Abb. 6.8). DieseKugeln besitzen zusätzlich e<strong>in</strong> Label, auf dem der N<strong>am</strong>e des Elementes des Menüs aufgelistetist. Das umgesetzte Menü besteht zu Demonstrationszwecken aus zwei Hierarchien, <strong>in</strong> denenjeweils Steuerelemente untergebracht s<strong>in</strong>d. Die Steuerelemente dienen dabei zur Änderung vonSpieloptionen, wie etwa der Veränderung des Spielmodus oder physikalischen Eigenschaften,wie etwa dem Rollwiderstand der Kugeln.Als Kugeln wurden e<strong>in</strong>fache virtuelle Modelle erstellt, die allerd<strong>in</strong>gs mit e<strong>in</strong>er <strong>in</strong>ternenLogik versehen s<strong>in</strong>d. Das Hauptmenü bietet die Möglichkeit, angewählte Elemente als visuellesFeedback zu manipulieren (beispielsweise e<strong>in</strong>e Veränderung der Farbe). In diesem Menü wirde<strong>in</strong> angewähltes Element durch die Rotation der virtuellen Kugel dargestellt. Da jedoch e<strong>in</strong>edurchgehende Rotation e<strong>in</strong>e dauerhafte Manipulation der Kugel erforderlich macht, diese vom89


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENWII ControllerNavigationzu Menüpunkt1HauptmenüAnwahlMenüpunkt 1Kugel 1 im MenüNavigationzu Menüpunkt2Funktion Anwahl:Menüpunkt 1Rotation alleKugeln um QueueRotation Kugel 1AbwahlMenüpunkt 1AnwahlMenüpunkt 2StartRotationsscriptStopRotationsscriptAbbildung 6.9: Ablauf bei der Navigation im MenüHauptmenü jedoch nicht unterstützt wird, ist die Steuerung der Logik <strong>in</strong>nerhalb des Modellesuntergebracht (vgl. Abb. 6.9). Bei der Anwahl des Elementes durch den Nutzer wird e<strong>in</strong> Scriptgestartet, dass <strong>in</strong>nerhalb des Modelles die Lage der Kugel verändert. Dieses Script wird erstbei der Abwahl des Elementes wieder gestoppt. Weiterh<strong>in</strong> wird das angewählte Element <strong>in</strong>Richtung des Nutzers ausgerichtet, zeigt also bei der Anwahl nach oben. Auch hierzu wird dieRotation aller Kugeln verändert. Durch diese Rotation entsteht der E<strong>in</strong>druck e<strong>in</strong>es um dasQueue drehenden Menüs. Bei Aktivierung e<strong>in</strong>es Steuerelementes wird die dah<strong>in</strong>terliegendeFunktion <strong>in</strong>nerhalb der Logiksteuerung aufgerufen und somit e<strong>in</strong>e E<strong>in</strong>stellung <strong>in</strong>nerhalb von"BillARd“ verändert.6.2 Bowl-AR-<strong>am</strong>a - <strong>Augmented</strong> <strong>Reality</strong> Bowl<strong>in</strong>gDieses Kapitel beschreibt „Bowl-AR-<strong>am</strong>a“, e<strong>in</strong>e Realisierung von Bowl<strong>in</strong>g <strong>in</strong> der AR. Hierbeiwird ähnlich wie bei „BillARd“ der Fokus nicht auf die möglichst reale Physik h<strong>in</strong>ter derSimulation gelegt, sondern auf die Integration aller <strong>Interaktion</strong>smöglichkeiten.6.2.1 ÜbersichtDas entwickelte „Bowl-AR-<strong>am</strong>a“ nutzt die <strong>Interaktion</strong>smöglichkeiten der AR und VR, dieVA für die <strong>Interaktion</strong> der Masch<strong>in</strong>e zum Menschen, die Gestenerkennung als <strong>Interaktion</strong>vom Menschen zur Masch<strong>in</strong>e sowie die Videokonferenz zur <strong>Interaktion</strong> zwischen Menschen.Gesteuert wird das Spiel von e<strong>in</strong>er alles steuernden, zentralen Verwaltungse<strong>in</strong>heit, der Logiksteuerung.Sämtliche Komponenten (Server) s<strong>in</strong>d auf eigene Computer ausgelagert, umdie Performance des Ges<strong>am</strong>tsystems möglichst hoch zu halten (vgl. Abb. 6.10). Wie <strong>in</strong> den90


6.2. BOWL-AR-AMA - AUGMENTED REALITY BOWLINGentsprechenden Kapiteln beschrieben, werden <strong>in</strong> die Logiksteuerung die Clients der Komponentene<strong>in</strong>gebunden, mit deren die Logiksteuerung direkten Zugriff auf Funktionen des Serverserhält.AR1AR2DTrackHMDHMDDisplayDisplayl<strong>in</strong>ksl<strong>in</strong>ksServerServerHMDHMDDisplayDisplayrechtsrechtsServerServerTrack<strong>in</strong>gsystemTrack<strong>in</strong>gsystemAR6ZentraleZentraleLogiksteuerungLogiksteuerung<strong>Augmented</strong><strong>Augmented</strong><strong>Reality</strong><strong>Reality</strong>ClientClientGestenerkennungGestenerkennungClientClientVirtuelleVirtuelleAkustikAkustikClientClientVirtuelleVirtuelleK<strong>am</strong>eraK<strong>am</strong>eraClientClientVideokonferenzVideokonferenzClientClientAR5GestenerkennungGestenerkennungServerServerBodoVirtuelleVirtuelleAkustikAkustikServerServerAR4AR3VideokonferenzVideokonferenzServerServerVirtuelleVirtuelleK<strong>am</strong>eraK<strong>am</strong>eraServerServerAbbildung 6.10: Schematischer Aufbau von „Bowl-AR-<strong>am</strong>a“Zusätzlich zu diesen Komponenten versendet das Track<strong>in</strong>gsystem se<strong>in</strong>e Informationen bzgl.der Targets an alle Komponenten außer der Videokonferenz und der virtuellen K<strong>am</strong>era, dadiese ke<strong>in</strong>e Daten über die erkannten Targets benötigen.Die Logiksteuerung reagiert auf Informationen des Gestenerkenners, berechnet bei e<strong>in</strong>emWurf die physikalischen Abläufe (Rollen der Kugel, Umfallen der P<strong>in</strong>s) und gibt diese visuellüber die AR bzw. VR aus. Zusätzlich werden akustische Informationen über die VA ausgegeben.Die Videokonferenz stellt weitere Spielpartner <strong>in</strong> der AR dar, sofern sie im Blickfelde<strong>in</strong>er K<strong>am</strong>era s<strong>in</strong>d, die für die Aufnahme der Gesprächspartner vorgesehen ist.Abbildng 6.11 gibt e<strong>in</strong>en kurzen E<strong>in</strong>blick <strong>in</strong> das Spiel. Die Abbildung zeigt zum e<strong>in</strong>en dieSicht e<strong>in</strong>es externen Beobachters, der das Spiel mit e<strong>in</strong>em HMD betrachtet, zum anderen dieSicht des Spielers, der sich ebenfalls mittels e<strong>in</strong>es HMDs <strong>in</strong> das Spielgeschehen versetzt fühlt.6.2.2 LogiksteuerungDie Logiksteuerung stellt die zentrale Komponente der Applikation „Bowl-AR-<strong>am</strong>a“ dar. Diesekoord<strong>in</strong>iert das Zus<strong>am</strong>menspiel aller e<strong>in</strong>zelnen Komponenten, die zur <strong>Interaktion</strong> des Nutzersmit dem Spiel notwendig s<strong>in</strong>d. Zusätzlich stellt sie die komplette Steuerung der Abläufe<strong>in</strong>nerhalb des Spieles sowie deren grafische Visualisierung für den Nutzer zur Verfügung. Hierzuzählen die physikalischen Abläufe <strong>in</strong>nerhalb des Spieles und die Umsetzung der Regeln für91


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELEN(a) Blick e<strong>in</strong>es Beobachters(b) Blick aus NutzersichtAbbildung 6.11: „Bowl-AR-<strong>am</strong>a“ im E<strong>in</strong>satze<strong>in</strong> Bowl<strong>in</strong>g-Spiel. Grafisch visualisiert werden neben dem aktuellen Zustand des Spieles, wieetwa Punkteanzeigen <strong>in</strong>nerhalb der AR, auch die Zustände der <strong>in</strong>tegrierten Komponenten zur<strong>Interaktion</strong> mithilfe e<strong>in</strong>es GUIs <strong>am</strong> Steuerrechner. Über diese Darstellung wird die Konfigurationdes Spieles zur Laufzeit ermöglicht.Beim Start von „Bowl-AR-<strong>am</strong>a“ können vom Nutzer die Module, die e<strong>in</strong>gebunden werdensollen, konfiguriert werden. Hierbei zählt unter anderem die Netzwerkverb<strong>in</strong>dung, um e<strong>in</strong>eKommunikation der <strong>Interaktion</strong>smodule mit der Logiksteuerung zu ermöglichen. Die Logiksteuerungstellt somit den Steuerungsrechner des Spiels dar. Abbildung 6.12 zeigt hier dieOberfläche der Logiksteuerung beim Start und während des Spiels.(a) beim Start(b) während des SpielesAbbildung 6.12: Das Graphical User Interface von „Bowl-AR-<strong>am</strong>a“Zu den <strong>Interaktion</strong>smodulen gehört die Gestenerkennung, mit der die Bowl<strong>in</strong>gkugel vomNutzer mit der Hand ergriffen und geworfen werden kann. Dazu wurde die <strong>in</strong> Kapitel 4.1vorgestellte Gestenerkennung verwendet. Für die akustische Ausgabe von Geräuschen, die92


6.2. BOWL-AR-AMA - AUGMENTED REALITY BOWLINGwährend des Spieles durch die Kugel oder die Kegel erzeugt werden, wurde das System zurErzeugung von VA aus Kapitel 3.3 herangezogen. Die visuelle Anzeige erfolgt über die Darstellungmittels AR aus Kapitel 3.1 und über die virtuelle K<strong>am</strong>era, die <strong>in</strong> Kapitel 3.2 vorgestelltwurde. Um auch e<strong>in</strong>e <strong>Interaktion</strong> zwischen Spielern zu ermöglichen, wurde das System zurErzeugung e<strong>in</strong>er Videokonferenz aus Kapitel 5.2 verwendet.Im Folgenden werden die e<strong>in</strong>zelnen Komponenten erläutert, die <strong>in</strong> die Logiksteuerung<strong>in</strong>tegriert wurden.6.2.3 PhysikUm e<strong>in</strong>e möglichst realistische Simulation e<strong>in</strong>es realen Bowl<strong>in</strong>g-Spieles zu erreichen, ist dieSimulation von physikalischen E<strong>in</strong>flüssen auf die Szene notwendig. Dafür müssen Informationenbzgl. der Kugel, wie etwa Größe, Gewicht oder Drehimpuls, <strong>in</strong> die Berechnung e<strong>in</strong>fließen.Ebenfalls s<strong>in</strong>d Faktoren, die die physikalischen Eigenschaften der Bahn, wie etwa Reibung oderUnebenheiten, zu berücksichtigen, da diese die Bewegung der Kugel bee<strong>in</strong>flussen. Die Bewegungder Kugel muss unter Bee<strong>in</strong>flussung durch diese Faktoren, berechnet werden. Ebenfallsmuss die Kollision zwischen der Kugel und den Kegeln, sowie der Kegel untere<strong>in</strong>ander, berücksichtigtwerden. Bei der Kollision entstehen abhängig von Kollisionsort und -geschw<strong>in</strong>digkeitverschiedene Kräfte, die auf die Kugel oder die Kegel wirken. Diese müssen mit ihren darausresultierenden Kräften und Momenten für e<strong>in</strong>e Simulation berechnet werden.Da der Fokus bei „Bowl-AR-<strong>am</strong>a“ nicht auf der Umsetzung realistischer Physik liegt,sondern auf der <strong>Interaktion</strong> mit dem Spiel an sich, wurde hier auf e<strong>in</strong>e existierende Physik-Berechnung zurückgegriffen. Hierbei handelt es sich um die „Open Dyn<strong>am</strong>ics Eng<strong>in</strong>e (ODE)“,die auf Berechnungen von dyn<strong>am</strong>ischen Körperbewegungen im Raum spezialisiert ist [79].Diese eignet sich daher optimal zur Berechnung von Bewegungen der Kugel und Kegel <strong>in</strong> derAR-Umgebung. „ODE“ ist e<strong>in</strong>e frei verfügbare Bibilothek <strong>in</strong> C++ und benötigt e<strong>in</strong>en sogenanntenWrapper, der diese Bibilothek für andere Progr<strong>am</strong>miersprachen zugänglich macht.Hierbei wurde auf das „Tao“ Fr<strong>am</strong>ework [24] zurückgegriffen, da dieses die Unterstützung derhier verwendeten Progr<strong>am</strong>miersprache C# bietet.„ODE“ stellt für die Berechnung der Physik bereits alle notwendigen Basisfunktionenbereit. Dazu zählen z.B. die Erstellung von dyn<strong>am</strong>ischen Körpern unter Berücksichtigung ihrerEigenschaften, wie etwa Masse, Dichte oder Oberfläche, sowie deren Positionierung im Raum.Weiterh<strong>in</strong> übernimmt „ODE“ die Kollisionsdetektion von Körpern und deren Verarbeitungunter Berücksichtigung von Reibung und anderen E<strong>in</strong>flüssen. Dabei lässt sich das Zeit<strong>in</strong>tervallzwischen zwei Simulationsschritten frei wählen und somit die Simulationsgenauigkeit und derRechenaufwand festlegen.Die Simulation der Physik beg<strong>in</strong>nt mit der Detektion e<strong>in</strong>es Wurfes der Kugel, also sobalde<strong>in</strong>e gegriffene Kugel losgelassen wird. Hierbei werden zu diesem Zeitpunkt die aktuellexistierenden starren und beweglichen Körper, wie etwa Bahn, Kugel oder Kegel, im Kollisionsraumder Welt erzeugt. Diese stellen die virtuellen Objekte der AR-Szene dar und werdenmöglichst an deren physikalische Eigenschaften angepasst. Um die Berechnung zu erleichtern,werden die Kegel als abgerundete Zyl<strong>in</strong>der approximiert. Nach der Erzeugung und Positionierungder Körper werden diese mit Geschw<strong>in</strong>digkeiten oder Drehmomenten belegt. Hierbeikommen die Daten des Gestenerkenners bzgl. der Geschw<strong>in</strong>digkeit und Richtung der Kugelzum E<strong>in</strong>satz. Um die Komplexität der Simulation möglichst ger<strong>in</strong>g zu halten, wurde auf dieBerücksichtigung e<strong>in</strong>es Drehmomentes sowie auf e<strong>in</strong>e geölte, unebene Bowl<strong>in</strong>gbahn verzichtet.Daraus resultiert e<strong>in</strong>e Bewegung, die geradl<strong>in</strong>ig ist und nicht <strong>in</strong> e<strong>in</strong>e Richtung während desRollvorganges abgelenkt wird. Der Nutzer kann also se<strong>in</strong>en Wurf nur mit der Aufsetzposition93


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENund der Richtung des Wurfes variieren. Nach der Übergabe der Par<strong>am</strong>eter an die Simulationbeg<strong>in</strong>nt diese mit der Berechnung der vorgegebenen Zeitschritte.Die Simulation wird hier mit e<strong>in</strong>er Dauer von 120 Sekunden durchgeführt, die Berechnungerfolgt also für e<strong>in</strong>en Simulationszeitraum von 2 M<strong>in</strong>uten, <strong>in</strong> denen die Bewegungen der Körperberechnet werden. Die Berechnung erfolgt für Zeit<strong>in</strong>tervalle von jeweils 0,5 Sekunden. Eswerden also <strong>in</strong>sges<strong>am</strong>t 240 Simulationsschritte berechnet. Hierbei werden die vorhergehendenInformationen <strong>in</strong> die Berechnung der folgenden Schritte <strong>in</strong>tegriert, sodass Kollisionen zwischenKörpern erkannt werden und <strong>in</strong> die Berechnung mit e<strong>in</strong>fließen. Die Daten aller Körper(Translation und Rotation) werden für jeden Simulationsschritt gespeichert, um diese anschließendzur Visualisierung der Simulation verwenden zu können. Dazu werden die Translationund Rotation jedes Körpers für jeden Simulationsschritt <strong>in</strong> die Darstellung übernommen, dievirtuellen Objekte der AR-Szene also verändert. Durch die fortwährende Manipulation derObjekte entsteht der E<strong>in</strong>druck der Bewegung der virtuellen Objekte für den Nutzer.Um die Anzahl der umgefallenen Kegel zu ermitteln, wird für jeden der letzte Rotationswertuntersucht. Ist die Ges<strong>am</strong>trotation ungleich null, so ist der Kegel umgefallen und wirdbeim zweiten Wurf nicht mehr aufgestellt, d.h. er ist unsichtbar und wird bei der Physik-Simulation nicht berücksichtigt. Erst wenn der nächste Spieler an der Reihe ist, werden alleKegel von neuem aufgestellt und <strong>in</strong> die Simulation e<strong>in</strong>bezogen.6.2.4 Integration bestehender FunktionalitätenNeben der Simulation physikalischer Eigenschaften verwaltet die Logiksteuerung auch die<strong>Interaktion</strong>smöglichkeiten zwischen der Applikation und dem Nutzer. Die Integration dieserwird im Folgenden beschrieben:GestenerkennerZur Detektion von Gesten des Nutzers kommt für „Bowl-AR-<strong>am</strong>a“, wie bei „BillARd“, der <strong>in</strong>Kapitel 4.1 vorgestellte Gestenerkenner zum E<strong>in</strong>satz.Für „Bowl-AR-<strong>am</strong>a werden nur die Gesten „Greifen“ und „Loslassen“ benötigt, da diesedie <strong>Interaktion</strong> des Nutzers mit der Kugel beschreiben. Über den Client des Gestenerkenners,der <strong>in</strong> die Logiksteuerung e<strong>in</strong>gebunden ist, können Events bezüglich dieser Gesten abgefragtwerden. Hierbei wird zwischen den Events „Greifen“ und „Loslassen“ unterschieden, die jeweilsmit zwei eigenen CallBackFunktionen verknüpft s<strong>in</strong>d. Wird also e<strong>in</strong>e der beiden Gestenerkannt, führt das Progr<strong>am</strong>m automatisch die zugehörige Funktion auf.BallBallvomvomF<strong>in</strong>gerF<strong>in</strong>gertrennentrennenEvent: LoslassenBallBallananF<strong>in</strong>gerF<strong>in</strong>gerb<strong>in</strong>denb<strong>in</strong>denRuheRuheEvent: GreifenBerechnungBerechnungAbstandAbstandF<strong>in</strong>gerF<strong>in</strong>ger--KugelKugelBallBallgreifengreifenAbstandpassendSchwellwertvergleichSchwellwertvergleichAbstandzu großBallBallnichtnichtgreifengreifenAbbildung 6.13: Behandlung von Gesten <strong>in</strong> „Bowl-AR-<strong>am</strong>a“94


6.2. BOWL-AR-AMA - AUGMENTED REALITY BOWLINGAbb. 6.13 zeigt, dass sich das System <strong>in</strong>itial <strong>in</strong> e<strong>in</strong>em Ruhezustand bef<strong>in</strong>det, der nur durchdas Event „Greifen“ verlassen werden kann. Bei dieser erkannten Geste wird der Abstand A K,Fzwischen der Position x K der Kugel und der Position x F des F<strong>in</strong>gers des Nutzers berechnet.Ausgehend von e<strong>in</strong>em festgelegten Schwellwert S, der etwas höher als der Radius der Kugelgewählt wurde, ermittelt das System, ob tatsächlich e<strong>in</strong>e Intention des Nutzers vorliegt, dieKugel zu ergreifen. Diese Intention wird dem Nutzer unterstellt, wenn der berechnete Abstandunter dem Schwellwert liegt, die F<strong>in</strong>ger also nahe der Kugel ist.√A K,F = (x K − x F ) 2 + (y K − y F ) 2 + (z K − z F ) 2Ist der Abstand größer als der Schwellwert, wird die Geste verworfen und das System kehrt<strong>in</strong> den Ruhezustand zurück. Bei e<strong>in</strong>em Abstand, der kle<strong>in</strong>er als der Schwellwert ist, wirddie Kugel aus dem WeltKOS herausgelöst und an das KOS des Daumens gebunden (vgl.Abb. 6.14). Dabei berechnet sich die Position der Kugel x K,D im KOS des Daumens ausihrer Position x K,W im WeltKOS, der Position des Daumens x D,W im WeltKOS und dessenRotationsmatrix R zux K,D = R −1 (x K,W − x D,W )(a) Blick e<strong>in</strong>es Beobachters(b) Blick aus Sicht des NutzersAbbildung 6.14: Greifen der Kugel mittels GestenerkennungSo kann der Nutzer die Kugel mit se<strong>in</strong>er Hand beliebig im Raum verschieben. DieserZustand kann nur durch das Event „Loslassen“ verlassen werden. Diese wird ausgelöst, sobaldsich der Abstand zwischen den beiden F<strong>in</strong>gern den Schwellwert wieder übersteigt. Wird alsodiese Geste erkannt, wird die Kugel vom KOS des F<strong>in</strong>gers zurück <strong>in</strong> die Weltkoord<strong>in</strong>atentransformiert.x K,W = x D,W + x K,D · RZeitgleich erfolgt die Berechnung der Geschw<strong>in</strong>digkeit v K,n sowie der Richtung d K,n der Kugelbeim Loslassen. Die Geschw<strong>in</strong>digkeit des Daumens v D,n zu e<strong>in</strong>er Position des Daumens x D,nberechnet sich aus den Positionsänderungen zwischen der aktuellen Position x D,n und derzuvor gemessenen Position x D,n−1 und deren zeitlichen Abständen t D,n − t D,n−1 .√(xD,n − x D,n−1 ) 2 + (y D,n − y D,n−1 ) 2 + (z D,n − z D,n−1 ) 2v D,n =t n − t n−195


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENUm die Geschw<strong>in</strong>digkeitsmessung robuster gegen e<strong>in</strong>malige Fehlberechnungen, verursachtdurch Aussetzer der Messreihe des Track<strong>in</strong>gsystems, zu machen, wird über die letzten fünfGeschw<strong>in</strong>digkeiten gemittelt. Daraus berechnet sich die aktuelle Geschw<strong>in</strong>digkeit der Kugelzuv K,n =−4 ∑n=0v D,n5Der Richtungsvektor d K,n der Kugel zum Zeitpunkt n errechnet sich aus der Differenz derPositionsvektoren x D,n und x D,n−1 des Daumens zu den Zeitpunkten n und n − 1.d K,n = x D,n − x D,n−1Diese dienen dann der Simulation als Par<strong>am</strong>eter.Virtuelle AkustikUm die Darstellung von „Bowl-AR-<strong>am</strong>a“ nicht nur visuell zu ermöglichen, wurde das Systemzur Erzeugung von VA aus Kapitel 3.3 <strong>in</strong>tegriert.Hierbei wird der Client des VA-Systems <strong>in</strong> die Logiksteuerung e<strong>in</strong>gebunden. Dieser Clientregelt ausgehend von zuvor festzulegenden Eigenschaften die klanglichen E<strong>in</strong>stellungen desVA-Systems, wie etwa das zu verwendende HRIR Set, sowie die Berechnung und Wiedergabeder Schalle.Um Schalle abzuspielen, müssen dem System zuvor Informationen bzgl. der zu verwendendenAbtastrate übermittelt werden, welche sich hierbei nach der Rate der abzuspielendenSchalle richtet. E<strong>in</strong>e falsche Zuweisung würde <strong>in</strong> e<strong>in</strong>er falschen Wiedergabe der Schalle resultieren.Anschließend erfolgt die Zuweisung der zu verwendenden HRIR-Sets, <strong>in</strong> denen zuvorgespeicherte Sätze von Impulsantworten geladen s<strong>in</strong>d. Wichtigste Information ist die Angabeder Pfade, die zu den abzuspielenden Schallen gehören und sich lokal auf dem Rechner derVA bef<strong>in</strong>den. Hierbei stehen acht Kanäle zur Verfügung, mit denen acht Schalle gleichzeitigan verschiedenen Positionen abgespielt werden können. Nach diesen Def<strong>in</strong>itionen wartet dasVA-System auf Steuerungsbefehle des Clients.„Bowl-AR-<strong>am</strong>a“ bedient zwei verschiedene Ereignisse, denen akustische Informationen zugeordnets<strong>in</strong>d. Hierzu zählt das Auftreffen und Rollen der Kugel auf der Bahn sowie dasKollidieren und Umfallen e<strong>in</strong>er bestimmten Anzahl von Kegeln. Um verschiedene Geräuscheder Kollision bereitzustellen, wurden verschiedene Schalle geladen, die jeweils e<strong>in</strong>e bestimmteAnzahl von Kollisionen wiedergeben. Beim Loslassen der Kugel wird das Abspielen des Schalles<strong>in</strong>itiiert, der den Aufprall auf der Bahn und anschließendes Rollen der Kugel abspielt.Beim Aufprall auf die Kegel wird berechnet, wie viele Kegel beim Wurf umgefallen s<strong>in</strong>d, derentsprechende Schall ausgewählt und abgespielt. Dabei wird dem VA-System übermittelt, anwelcher Stelle im Raum die jeweiligen Schalle simuliert werden sollen. Hier wurde die Positionfür die beiden Ereignisse auf den Anfang der Bahn sowie den ersten Kegel gesetzt. Da beidiesem System die Entfernung zwischen Nutzer und Schallquelle nicht berücksichtigt wird, istdie Lautstärke <strong>in</strong> den Schallen bereits an diesen Umstand angepasst, das Rollen wird also imVerlauf leiser.Virtuelle K<strong>am</strong>eraUm auch Zuschauern die Möglichkeit zu bieten, <strong>am</strong> Spielgeschehen teilzunehmen, wurde dievirtuelle K<strong>am</strong>era aus Kapitel 3.2 e<strong>in</strong>gebunden. Diese ermöglicht die Darstellung der AR-Szene96


6.2. BOWL-AR-AMA - AUGMENTED REALITY BOWLINGmittels VR, berücksichtigt aber nicht die reale Umgebung, <strong>in</strong> der die Darstellung der AR e<strong>in</strong>gebettetist.Dazu stellt der Client der virtuellen K<strong>am</strong>era verschiedene Optionen zur Verfügung, dieaktuelle Szene darzustellen. Über die Oberfläche der Logiksteuerung ist es möglich, direktdie Position und Blickrichtung der K<strong>am</strong>era festzulegen. Diese E<strong>in</strong>stellungen bestimmen denSichtbereich, der anschließend dargestellt wird. Um die Bedienung für den Nutzer zu erleichtern,wurden feste K<strong>am</strong>erapositionen vordef<strong>in</strong>iert (vgl. Abb. 6.15). Hierzu zählen statische,aber auch dyn<strong>am</strong>ische Positionen. Statisch s<strong>in</strong>d Positionen, bei denen sich der Blickw<strong>in</strong>kelim Verlauf nicht ändert, also zum Beispiel an der Stelle des ersten Kegels mit Blickrichtungauf die Bahn oder die Draufsicht auf die Kegel. Dagegen können auch dyn<strong>am</strong>ische Positionengewählt werden, zu denen die Verfolgung der Kugel von der Startposition aus gehört. Hierbeibef<strong>in</strong>det sich die K<strong>am</strong>era über dem Anfang der Bahn und blickt nach unten. Die rollendeKugel wird von dieser Position aus verfolgt, es ändert sich lediglich die Neigung der K<strong>am</strong>era.Dabei bleibt also die Position x Ka der K<strong>am</strong>era immer gleich⎛ ⎞ ⎛ ⎞x Ka 0⎜ ⎟ ⎜ ⎟x Ka = ⎝y Ka ⎠ = ⎝ 0 ⎠z Ka 2000Da der Anfang der Bahn genau auf die Position (0, 0, 0) gelegt wurde, muss also die K<strong>am</strong>eranur <strong>in</strong> Richtung der Z-Achse um 2000mm verschoben werden. Die Blickrichtung der K<strong>am</strong>eraist <strong>in</strong> Richtung der negativen Z-Achse des WeltKOS def<strong>in</strong>iert. Sobald also die Kugel losrollt,muss die virtuelle K<strong>am</strong>era um die X-Achse gedreht werden, da die Bahn entlang der Y-Achseangeordnet ist. Dazu wird die Rotationsmatrix R Ka der K<strong>am</strong>era verändert.⎛⎞1 0 0⎜⎟R Ka = ⎝0 cos η − s<strong>in</strong> η⎠0 s<strong>in</strong> η cos ηDer W<strong>in</strong>kel η berechnet sich hierbei aus der Höhe der K<strong>am</strong>era h Ka und der Entfernung x Kuder rollenden Kugel vom Startpunkt aus.η = tan x Kuh KaAlternativ kann auch die K<strong>am</strong>eraposition über der Kugel gehalten werden, sodass sich dieK<strong>am</strong>era über der Kugel mit bewegt. Dabei wird also die Position der K<strong>am</strong>era stets über derPosition der Kugel gehalten und ergibt sich daher zu⎛ ⎛ ⎞⎞x Ka x Ku⎜ ⎟ ⎜x Ka = ⎝y Ka ⎠ = ⎝ y Kuz Ka 2000⎟⎠Die Rotation der K<strong>am</strong>era entfällt hierbei, da der Blickw<strong>in</strong>kel immer entlang der negativenZ-Achse verläuft. Auf diese Weise werden Ansichten möglich, die bei e<strong>in</strong>em realen Bowl<strong>in</strong>g-Spiel nicht möglich wären. Beispielsweise kann durch die virtuelle K<strong>am</strong>era das Geschehenaus Sicht der rollenden Kugel dargestellt werden. Dabei wird die Position der K<strong>am</strong>era <strong>in</strong> denMittelpunkt der rollenden Kugel gesetzt, <strong>in</strong> Höhe des halben Radius r Ku der Kugel⎛ ⎞ ⎛ ⎞x Ka x Ku⎜ ⎟ ⎜ ⎟x Ka = ⎝y Ka ⎠ = ⎝ y Ku ⎠z Ka 0, 5 · r Ku97


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELENDer Blickw<strong>in</strong>kel beträgt hierbei 90 Grad gedreht um die X-Achse, blickt also parallel zur Bahnentlang der Y-Achse und kann daher vere<strong>in</strong>facht werden zu⎛ ⎞1 0 0⎜ ⎟R Ka = ⎝0 0 −1⎠0 1 0(a) Blick auf Ball <strong>in</strong>itial(b) Blick aus Sicht des ersten P<strong>in</strong>s(c) P<strong>in</strong>s von oben(d) P<strong>in</strong>s von h<strong>in</strong>tenAbbildung 6.15: Ansichten der virtuellen K<strong>am</strong>era <strong>in</strong> „Bowl-AR-<strong>am</strong>a“Bei der Verwendung der virtuellen K<strong>am</strong>era wird e<strong>in</strong>e Darstellung e<strong>in</strong>er K<strong>am</strong>era <strong>in</strong> die Szenee<strong>in</strong>gefügt, um den Nutzern der AR den aktuellen Blickw<strong>in</strong>kel der Zuschauer mitzuteilen.VideokonferenzUm auch e<strong>in</strong>e <strong>Interaktion</strong> zwischen Nutzern an verschiedenen Orten zu ermöglichen, wurdehier das Videokonferenzsystem aus Kapitel 5.2 verwendet. Über die Oberfläche der Logiksteuerungkann hier gewählt werden, welche Teilnehmer <strong>in</strong> die Szene e<strong>in</strong>gebunden werdensollen. Hierbei ist generell e<strong>in</strong>e Anzahl von maximal zwei Teilnehmern vorgesehen, welcheaber beliebig erhöht werden könnte.Die Teilnehmer können sowohl an festen Positionen als auch an dyn<strong>am</strong>ischen Positionen,ähnlich der virtuellen K<strong>am</strong>era, im Raum dargestellt werden. Abb. 6.16 zeigt hierbei die98


6.2. BOWL-AR-AMA - AUGMENTED REALITY BOWLINGAbbildung 6.16: Videokonferenz <strong>in</strong> „Bowl-AR-<strong>am</strong>a“Darstellung e<strong>in</strong>es Teilnehmers der Videokonferenz, e<strong>in</strong>gebettet <strong>in</strong> die Umgebung des „Bowl-AR-<strong>am</strong>a“.99


KAPITEL 6. MULTIMODALE INTERAKTION BEI ZWEIEXEMPLARISCHEN SPIELEN100


KAPITEL 7EvaluierungDas folgende Kapitel beschreibt die Untersuchungen, die für die e<strong>in</strong>zelnen <strong>Interaktion</strong>smöglichkeitendurchgeführt wurden. Hierbei werden sowohl der Versuchsaufbau und -ablaufals auch die Ergebnisse beschrieben.7.1 Gestenerkennung durch Infrarottrack<strong>in</strong>gDas <strong>in</strong> Kapitel 4.1 vorgestellte System zur Erkennung von Gesten wurde <strong>in</strong> e<strong>in</strong>er Evaluierunguntersucht. Ziel der Untersuchung war hierbei sowohl die objektive Messung der Zuverlässigkeitals auch die subjektive Bewertung dieser E<strong>in</strong>gabemöglichkeit durch die Nutzer. Bei derMessung der Zuverlässigkeit sollte die Erkennungsleistung der richtig erkannten dyn<strong>am</strong>ischenGesten ermittelt werden. Bei der Bewertung der <strong>Interaktion</strong>smöglichkeit durch die Nutzerwurden der Tragekomfort der Targets, die Intuitivität, die E<strong>in</strong>arbeitungszeit, die Immersionund der Unterhaltungswert untersucht.Die subjektive Bewertung sollte also zeigen, ob sich das System für E<strong>in</strong>steiger zur <strong>Interaktion</strong><strong>in</strong>nerhalb von AR eignet, es also <strong>in</strong>tuitiv zu bedienen und schnell erlernbar ist. Weiterh<strong>in</strong>sollte die Untersuchung zeigen, ob das System auch für e<strong>in</strong>e längere Verwendung geeignetist, da das System zusätzliche Hardware an der Hand des Nutzers erfordert. Schließlich warauch von Interesse, wie sehr diese E<strong>in</strong>gabemöglichkeit dem Nutzer das Gefühl vermittelt, sich<strong>in</strong>nerhalb der AR-Szene zu bef<strong>in</strong>den.Für die Untersuchung wurden beide entwickelten Ansätze (vgl. Kapitel 4.1.3.2) gegenübergestellt.Des Weiteren wurde bei der verwendeten Hardware die Unterscheidung zwischenpassiven und aktiven Targets berücksichtigt (vgl. Kapitel 4.1.4).7.1.1 Versuchsaufbau/-ablaufDie Evaluierung erfolgte im AR-Labor des Lehrstuhls und war <strong>in</strong> zwei Abschnitte untergliedert.Im ersten Teil erfolgte die objektive Messung der erkannten Gesten anhand e<strong>in</strong>erfestgelegten Zeichenfolge, im zweiten Abschnitt wurde e<strong>in</strong>e Beispielapplikation verwendet,<strong>in</strong>nerhalb derer die Nutzer Gesten zur <strong>Interaktion</strong> verwenden sollten (vgl. Abb. 7.1).Für e<strong>in</strong>en Vergleich der zugrunde liegenden Technik und ihrer Auswirkungen auf die Erkennungsleistungwurden für e<strong>in</strong>en Durchgang jeweils zuerst die passiven Targets verwendet101


KAPITEL 7.EVALUIERUNGE<strong>in</strong>führungE<strong>in</strong>führungDurchgangDurchgang11LängentreueLängentreueTransformationTransformation//passivepassiveTargetsTargetsDurchgangDurchgang22RotationRotationalsalsTransformationTransformation//passivepassiveTargetsTargetsDurchgangDurchgang33LängentreueLängentreueTransformationTransformation//aktiveaktivevollständigevollständigeTargetsTargetsDurchgangDurchgang44RotationRotationalsalsTransformationTransformation//aktiveaktivevollständigevollständigeTargetsTargetsE<strong>in</strong>weisungE<strong>in</strong>weisung<strong>in</strong><strong>in</strong>dasdasSystemSystemDurchgangDurchgang55LängentreueLängentreueTransformationTransformation//passivepassiveTargetsTargetsDurchgangDurchgang66RotationRotationalsalsTransformationTransformation//passivepassiveTargetsTargetsDurchgangDurchgang77LängentreueLängentreueTransformationTransformation//aktiveaktivevollständigevollständigeTargetsTargetsDurchgangDurchgang88RotationRotationalsalsTransformationTransformation//aktiveaktivevollständigevollständigeTargetsTargetsDurchgangDurchgang99BeispielapplikationBeispielapplikationalsalsEvaluierungsszenarioEvaluierungsszenarioAbbildung 7.1: Versuchsablauf der Evaluierung des Gestenerkennersund im Anschluss daran die aktiven Targets. Auf diese Weise lassen sich Unterschiede der beidenVerfahren feststellen. Ebenfalls wurden beide Ansätze der Gestenerkennung untersucht,die <strong>in</strong> Kapitel 4.1.3.2 vorgestellte Rotation und längentreue Abbildung. Zur Untersuchungder Erkennungsrate wurden als Gesten die Buchstaben und Zahlen <strong>in</strong> der ZeichenfolgeX – O – W – L – K – 1 – 2 – 3 – 4 – 5 – 1 – 3 – X – W – 2 – O – K – 4 – 5 – L – Wvorgegeben, die die Testperson der Reihe nach ausführen sollte. Dabei wurde für jeden Durchlaufprotokolliert, wie viele Gesten gar nicht, falsch oder richtig erkannt wurden. Die Messungerfolgte hierbei e<strong>in</strong>mal ohne E<strong>in</strong>weisung <strong>in</strong> das System, also ohne spezifische Vorgaben, unde<strong>in</strong>mal mit E<strong>in</strong>weisung. Dies diente der Feststellung, ob das System von Nutzern erlernt werdenmuss, d.h. e<strong>in</strong>e Verbesserung der Erkennungsleistung durch e<strong>in</strong> gezieltes Tra<strong>in</strong><strong>in</strong>g derNutzer möglich ist. Insges<strong>am</strong>t bestand der erste Abschnitt aus acht Durchläufen, die spätermite<strong>in</strong>ander verglichen werden konnten. Um Aussagen h<strong>in</strong>sichtlich der Intuitivität, der E<strong>in</strong>arbeitungszeitund des Tragekomforts bewerten zu können, stand den Versuchspersonen nachjedem der acht Durchläufe e<strong>in</strong> Fragebogen zur Verfügung, <strong>in</strong> dem die Eigenschaften „Intuitivität“,„E<strong>in</strong>arbeitungszeit“ sowie „Komfort“ auf e<strong>in</strong>er Skala von 1 (sehr positiv) bis 6 (sehrnegativ) zu bewerten waren.Im Anschluss an die Messung der Erkennungsrate folgte das Evaluierungsszenario anhande<strong>in</strong>er Beispielapplikation. Hierbei wurden weder Ansätze noch Targets variiert, sondern festder Ansatz der längentreuen Abbildung mit den passiven Targets verwendet. Dieses Szenariodient nicht mehr der Erfassung der Erkennungsrate, sondern der Bewertung subjektiverKriterien durch die Nutzer. Daher liegt der Fokus dieser Applikation auf der <strong>Interaktion</strong> mitder AR-Umgebung mittels des Gestenerkenners. Dabei stehen dem Nutzer verschiedene dyn<strong>am</strong>ischeGesten zur Verfügung (Zeichen „L“, „W“, „K“, „X“, „O“ sowie Zahlen 1 bis 5), mitdenen sich zuvor def<strong>in</strong>ierte Aktionen steuern lassen:102• Das Zeichen „L“ ermöglicht das Laden von neuen Objekten. Im Anschluss daran erwartetdas System e<strong>in</strong> weiteres Symbol, welches den zu ladenden Objekttyp def<strong>in</strong>iert (Zeichen„W“ oder „K“).• Das Zeichen „W“ lädt, wenn es im Anschluss an das Zeichen „L“ vom Nutzer ausgeführtwird, e<strong>in</strong>en Würfel <strong>in</strong> den Raum. Diesem wird zur Identifikation e<strong>in</strong>e e<strong>in</strong>deutige ID


7.1. GESTENERKENNUNG DURCH INFRAROTTRACKINGzugewiesen. Die IDs werden von 1 an aufsteigend verteilt und s<strong>in</strong>d aktuell auf fünfObjekte begrenzt.• Das Zeichen „K“ lädt, analog zu Zeichen „W“, e<strong>in</strong>e Kugel <strong>in</strong> die aktuelle Umgebungund vergibt e<strong>in</strong>e ID.• Wird das Zeichen „X“ ausgeführt, wird das Objekt, welches derzeit an die Hand gebundenist, genau an der Stelle losgelassen, an der die Bewegung des „X“ endet. Falls ke<strong>in</strong>Objekt an die Hand gebunden ist, führt das System ke<strong>in</strong>e Aktion aus.• Auf das Zeichen „O“ reagiert das System, <strong>in</strong>dem das aktuell an die Hand des Nutzersgebundene Objekt losgelassen wird. Von dieser Position der Hand aus durchfliegt dasObjekt danach automatisch e<strong>in</strong>en Kreis im Raum. Auch bei diesem Zeichen wird ke<strong>in</strong>eAktion ausgeführt, wenn ke<strong>in</strong> Objekt an die Hand gebunden ist.• Die Zeichen für die Zahlen „1“ bis „5“ haben zur Folge, dass das System überprüft,ob e<strong>in</strong> Objekt mit der ID der aktuellen dyn<strong>am</strong>ischen Geste geladen ist. Wenn dies derFall ist, bewegt sich das Objekt mit dieser ID von se<strong>in</strong>er aktuellen Position zur rechtenHand. Dort angekommen, wird es fest an die Hand gebunden und ist so lange an dieser,bis es wieder mit e<strong>in</strong>er der Zeichen „X“ oder „O“ losgelassen wird. Zu beachten ist, dassimmer nur e<strong>in</strong> Objekt an die Hand gebunden werden kann.Abbildung 7.2 zeigt e<strong>in</strong>e Versuchsperson bei der <strong>Interaktion</strong> <strong>in</strong>nerhalb des Evaluierungsszenariossowie die Darstellung der Szene aus Nutzersicht.(a) Ansicht extern(b) Ansicht <strong>in</strong>ternAbbildung 7.2: Ansichten des Evaluierungsszenarios des GestenerkennersÄhnlich wie nach dem ersten Abschnitt erfolgt nach dem Evaluierungsszenario e<strong>in</strong>e Befragungder Nutzer mithilfe e<strong>in</strong>es Fragebogens. Hierbei werden die Eigenschaften Immersion,Tragekomfort, Intuitivität, E<strong>in</strong>arbeitungszeit und Unterhaltungswert auf e<strong>in</strong>er Skala von 1(sehr positiv) bis 6 (sehr negativ) bewertet. Dadurch können Stärken oder Schwächen desGestenerkenners unter Verwendung von AR deutlich werden.103


KAPITEL 7.EVALUIERUNG7.1.2 ErgebnisseAn der Untersuchung beteiligten sich <strong>in</strong>sges<strong>am</strong>t zehn Personen. Davon waren 70% männlichund 30% weiblich. Das Durchschnittsalter der Versuchspersonen betrug 25 Jahre.Vor der Diskussion der Ergebnisse der Messung und der Fragebögen werden Beobachtungenfestgehalten, die während der Versuche mit den Versuchspersonen zu Tage traten. Diesewurden nicht durch die Messung oder Befragung ermittelt und werden daher gesondert behandelt.Dabei konnten diese Beobachtungen <strong>in</strong> folgende Kategorien e<strong>in</strong>geordnet werden:Misstrauen <strong>in</strong> die TechnikAuffallend bei der Verwendung des Systems ohne E<strong>in</strong>weisung war das fehlende Vertrauen <strong>in</strong>das Gestenerkennersystem. Die Testpersonen versuchten, die Gesten so zu zeichnen, wie sie ihrerMe<strong>in</strong>ung nach möglichst ideal erkannt werden könnten. Daraus resultierten nicht natürlichvollzogene Gesten, die aufgrund der Abwandlung nicht korrekt erkannt werden konnten. Sowurden Zahlen beispielsweise ähnlich der digitalen Darstellung mit sieben Strichen gezeichnet.Physikalische ProblemeE<strong>in</strong>e wichtige Rolle bei der Erkennung der Gesten spielt die Sichtbarkeit der Targets. Eshat sich gezeigt, dass sehr große Personen außerhalb des Sichtbereichs der K<strong>am</strong>eras gerieten.D<strong>am</strong>it konnte die Bewegung der Targets, und somit der F<strong>in</strong>ger des Nutzers, nicht mehr aufgezeichnetwerden. Speziell bei der Verwendung der aktiven Targets fiel dieser Effekt starkauf, da diese Targets bauartbed<strong>in</strong>gt bereits e<strong>in</strong>e wesentlich engere Abstrahlcharakteristik aufweisenals die passiven, reflektierenden Targets. Die Fehlerrate aufgrund von nicht erkanntenMarkern stieg aus diesem Grund bei großen Personen auf 50% der falsch erkannten Gestenan. Im Durchschnitt lag dieser Wert nur bei ca. 33%.PausendetektionGroße Probleme bereitete auch die Erkennung von Anfang und Ende e<strong>in</strong>er Geste. Im aktuellenSystem wird diese Segmentierung durch e<strong>in</strong>e Pausendetektion vorgenommen. Zu Beg<strong>in</strong>n undzu Ende e<strong>in</strong>er Geste muss also die Hand des Nutzers e<strong>in</strong>en Augenblick <strong>in</strong> Ruhe bleiben, ume<strong>in</strong>e Pause erkennen zu können. Viele Testpersonen starteten die Geste jedoch ohne vorherigePause oder beendeten die Geste mit dem Herablassen des zeichnenden Arms, sodass die Gestenicht korrekt erkannt wurde. Dies liegt daran, dass die Pause erst mit dem ruhendem Arm <strong>am</strong>Körper erreicht wurde und somit die Geste bis zu diesem Zeitpunkt klassifiziert wurde. Diebeschriebenen Probleme lassen sich jedoch durch die gezielte Schulung der Versuchspersonenverr<strong>in</strong>gern. Auf diese Weise lassen sich die Erkennungsraten im Vergleich zu ungeübten Nutzernstark verbessern. Im Folgenden werden die Ergebnisse der Messung der Erkennungsratensowie die Auswertung der Fragebögen vorgestellt.Messung der Erkennungsrate ohne E<strong>in</strong>weisungIm ersten Durchlauf erhielten die Testpersonen ke<strong>in</strong>erlei E<strong>in</strong>führung <strong>in</strong> das System und se<strong>in</strong>eBesonderheiten. Abb. 7.3 zeigt, dass ke<strong>in</strong>e der Systemaufbauten e<strong>in</strong>e befriedigende Erkennungsleistungder dyn<strong>am</strong>ischen Gesten ermöglicht. Die nicht erkannten Gesten reichen von2,38% bei der längentreuen Abbildung bei Verwendung von LEDs bis h<strong>in</strong> zu 21,86% bei derRotation mit passiven Targets. Die höchsten Werte richtig erkannter Gesten erreichten diebeiden Ansätze mit LEDs bei Erkennungsraten von etwa 38%. E<strong>in</strong>zelne Personen erzielten jedochbereits ohne E<strong>in</strong>weisung Erkennungsraten zwischen 60% und 90%. Die Erkennungsratendieser Testpersonen veränderten sich im Verlauf der nachfolgenden Versuche nur ger<strong>in</strong>gfügig.104


7.1. GESTENERKENNUNG DURCH INFRAROTTRACKING100,00%Erkennungsrate <strong>in</strong> %80,00%60,00%40,00%20,00%0,00%60%63,81%46,67%37,62% 44,81%38,57%33,33%29,52%21,86%14,29%2,38%7,14%LED/Rotation LED/Längentreu Rotation Längentreunicht erkanntfalsch erkanntrichtig erkanntVerfahrenAbbildung 7.3: Erkennungsrate im ersten TestUrsache für die niedrige Erkennungsrate s<strong>in</strong>d die genannten Probleme, denen sich die Versuchspersonennicht bewusst waren (Misstrauen, physikalische Probleme und Schwierigkeitenbei der Pausendetektion).Messung der Erkennungsrate mit E<strong>in</strong>weisungNach dem ersten Durchlauf aller Komb<strong>in</strong>ationen erfolgte e<strong>in</strong>e E<strong>in</strong>weisung <strong>in</strong> das System sowiee<strong>in</strong>e <strong>in</strong>dividuelle Schulung der Versuchspersonen anhand der Fehler, die beim ersten Durchgangbei dieser zu e<strong>in</strong>er schlechten Erkennungsrate geführt hatten. So konnte sichergestelltwerden, dass jede Versuchsperson wichtige Methoden bei der Darstellung von Gesten berücksichtigenkonnte.Erkennungsrate <strong>in</strong> %100,00%80,00%60,00%40,00%20,00%0,00%75,24%78,17%76,19%83,81%20,48%20%23,33%15,24%4,29%1,90%0,95%0,00%LED/Rotation LED/Längentreu Rotation LängentreuVerfahrennicht erkanntfalsch erkanntrichtig erkanntAbbildung 7.4: Erkennungsrate im zweiten TestDaraus resultierend erkennt man <strong>in</strong> Abb. 7.4 e<strong>in</strong>en Rückgang der nicht erkannten Gestenauf 0% bei der längentreuen Abbildung mit passiven Targets und e<strong>in</strong>er maximalen Rate von4,29% bei LEDs, die mittels des Rotationsverfahrens transformiert wurden. Die Erkennungsrateder Gesten stieg bei allen Methoden stark an. Im Durchschnitt erreichte die Erkennungsratezwischen 75% und 80%. Am besten schnitten hierbei das längentreue Abbildungsverfahrensowie die Verwendung von passiven Targets ab. Es zeigt sich also, dass sowohl die Wahl derHardware als auch die Wahl der Transformation e<strong>in</strong>en E<strong>in</strong>fluss auf die Erkennungsleistungdes Systems haben.Der Unterschied zwischen aktiven und passiven Targets lässt sich durch die bauartbed<strong>in</strong>gteAbstrahlcharakteristik erklären. Passive Targets reflektieren das e<strong>in</strong>fallende Licht <strong>in</strong>105


KAPITEL 7.EVALUIERUNGalle Richtungen, können also von mehreren K<strong>am</strong>eras gleichzeitig erkannt werden. Aktive Targetsdagegen strahlen <strong>in</strong> e<strong>in</strong>en bestimmten Sichtbereich (Begrenzung auf etwa 120 Grad) undkönnen somit nur von e<strong>in</strong>em Teil der K<strong>am</strong>eras gleichzeitig detektiert werden.Betrachtet man die Ursachen für die Fehler genauer, so zeigt sich, dass etwa e<strong>in</strong> Drittel derFehlerkennungen bei fehlenden Positionsdaten der Targets auftrat. Lediglich bei der Verwendungvon passiven Targets mittels des längentreuen Abbildungsverfahren sank dieser Fehlerauf etwa 10% ab. Diese hohen Werte verdeutlichen den großen E<strong>in</strong>fluss der Sichtbarkeit derTargets auf die Erkennungsrate. Auch durch die Interpolation der fehlenden Positionsdatenlässt sich dieser Fehler nur bis zu e<strong>in</strong>em bestimmten Grad senken. Der Verlust e<strong>in</strong>es Targetskann zwar für kurze Abschnitte <strong>in</strong>terpoliert werden, fehlt jedoch e<strong>in</strong> Target über e<strong>in</strong>engrößeren Zeitraum h<strong>in</strong>weg, kann auch mit der Interpolation ke<strong>in</strong>e korrekte Erkennung mehrerreicht werden.Auswertung der FragebögenNach der Messung und nach dem Evaluierungsszenario wurden mithilfe e<strong>in</strong>es Fragebogensdie Eigenschaften des Systems durch die Versuchspersonen bewertet. Nach der Messung derErkennungsrate handelte es sich hierbei um den Tragekomfort von aktiven und passiven Targets,der Intuitivität der <strong>Interaktion</strong> mit dem System und der subjektiv gefühlten notwendigenE<strong>in</strong>arbeitungszeit. Alle Eigenschaften wurden auf e<strong>in</strong>er Skala von 1 (sehr positiv) bis 6 (sehrnegativ) bewertet. Nach der <strong>Interaktion</strong> im Evaluierungsszenario wurden die Testpersonennochmals h<strong>in</strong>sichtlich dieser Eigenschaften befragt (ausgenommen der Tragekomfort der aktivenTargets, da hier nur noch passive Verwendung fanden). Zusätzlich wurden jedoch dieEigenschaften Unterhaltungswert und Immersion ergänzt, die hierbei die Stärke des Gefühls,Teil der Szene bei der <strong>Interaktion</strong> mit dieser Szene zu se<strong>in</strong>, beschreibt.6Bewertungspunkte543213,123,483,012,162,921,562,132,131,72MessungEvaluierungsszenario0KomfortaktivKomfortpassivImmersionIntuitivität E<strong>in</strong>arbeitungszeitEigenschaftUnterhaltungswertAbbildung 7.5: Ergebnisse der FragebögenBetrachtet man den Komfort der Targets (vgl. Abb. 7.5), fällt die durchwegs neutraleBewertung auf. Sowohl der Tragekomfort der aktiven als auch der passiven Targets wird mit3,12 bzw. 3,48 bewertet. Die Versuchspersonen gaben an, dass ke<strong>in</strong>er der beiden Typen alskomfortabel empfunden wurde. Die aktiven Targets waren den passiven zwar im Bereich derGröße und Masse an den F<strong>in</strong>gern deutlich überlegen, büßten diesen Vorsprung aber durch diezusätzlich notwendige Batterie und Verkabelung wieder e<strong>in</strong>. Bei der Verwendung im Evaluierungsszenariofiel der Wert gegenüber der Messung leicht ab, was auf die Komb<strong>in</strong>ation vonHMD und den Targets zurückzuführen ist. Der Tragekomfort des Displays ist ebenfalls nichtoptimal, sodass der Komfort des Targets hierbei im Vergleich etwas besser abschneiden kannund somit als ger<strong>in</strong>gfügig komfortabler wahrgenommen wurde.106


7.1. GESTENERKENNUNG DURCH INFRAROTTRACKINGDie Intuitivität der <strong>Interaktion</strong> wurde von den Versuchspersonen durchwegs als hoch e<strong>in</strong>gestuft.Bei der Messung erreichte der Wert durchschnittlich 2,16, dieser stieg beim Evaluierungsszenariojedoch auf 2,92 an. Diese Verschlechterung lässt sich direkt mit den Bedienmetaphern<strong>in</strong> Verb<strong>in</strong>dung br<strong>in</strong>gen. Bei der Messung mussten die Versuchspersonen lediglichvorgegebene Gesten zeichnen. Hierbei traten nur bei Symbolen Probleme auf, bei denen e<strong>in</strong>mehrfaches Ansetzen notwendig war (beispielsweise „K“). Beim Evaluierungsszenario dagegenmussten bestimmte Operationen mittels passender Verkettungen von Gesten gesteuertwerden. So musste e<strong>in</strong> Objekt zum Laden nach der Geste „L“ noch spezifiziert werden (TypWürfel „W“ oder Kugel „K“). Ebenfalls fehlte e<strong>in</strong>igen Nutzern die Möglichkeit, die IDs vonObjekten <strong>in</strong> Erfahrung zu br<strong>in</strong>gen und waren somit gezwungen, durch e<strong>in</strong>faches Testen dieID e<strong>in</strong>es Objektes herauszuf<strong>in</strong>den.Die E<strong>in</strong>arbeitungszeit wurde von allen Testpersonen durchgehend als sehr niedrig e<strong>in</strong>gestuft.Die Bewertung erreichte hier bei der Messung e<strong>in</strong>en durchschnittlichen Wert von 1,56,beim Evaluierungsszenario 2,13. Da die Symbole <strong>in</strong> Form von Zahlen und Buchstaben bereitsaus dem Alltag vertraut waren, fiel hier die Zeit zum Erlernen sehr kurz aus. Ähnlich wie beider Intuitivität litt die E<strong>in</strong>arbeitungszeit unter der Verkettung von Gesten, um Aktionen imEvaluierungsszenario zu steuern.Die Immersion des ges<strong>am</strong>ten Systems zur <strong>Interaktion</strong> wurde als sehr hoch e<strong>in</strong>gestuft.Auch der Unterhaltungswert wurde sehr positiv bewertet. Mit e<strong>in</strong>er Bewertung von 2,13 bzw.1,72 fiel das Urteil hierbei sehr positiv aus. Die Versuchspersonen <strong>in</strong>teragierten länger, als esfür die Untersuchung notwendig war, und begründeten dies mit dem Spaß an dieser neuenMöglichkeit der <strong>Interaktion</strong> mit e<strong>in</strong>em Computersystem. Ebenfalls war e<strong>in</strong> deutliches Interesseanhand reger Nachfrage nach weiteren <strong>Interaktion</strong>smöglichkeiten festzustellen.7.1.3 Diskussion der ErgebnisseDie Untersuchung hat folgende Ergebnisse geliefert: Der längentreue Ansatz zur Transformationder 3-D-Daten <strong>in</strong> 2-D-Daten hat sich <strong>in</strong> der Untersuchung als das beste Verfahrenherausgestellt. Die Erkennungsraten fallen mit diesem Ansatz gegenüber der Transformationmittels der Rotation um drei bzw. sieben Prozentpunkte höher aus. Ebenfalls zeigte sich,dass die Verwendung von passiven Targets bessere Klassifikationsergebnisse lieferte als dieVerwendung von aktiven Targets. Dieser Unterschied beruht jedoch größtenteils auf der engerenAbstrahlcharakteristik der LEDs gegenüber der reflektierenden Eigenschaft der passivenTargets. Betrachtet man nur ideale Fälle, bei denen die Targets also erkannt werden, liegendie aktiven Targets vor den passiven. Generell hat sich gezeigt, dass der Verlust e<strong>in</strong>es Targetsdie Erkennung stark verr<strong>in</strong>gert. In der Evaluierung wurden etwa e<strong>in</strong> Drittel aller Fehler durchdas Verlieren der Targets im Track<strong>in</strong>gsystem verursacht. E<strong>in</strong>e Verbesserung der physikalischenErkennung der Targets würde also e<strong>in</strong>e Steigerung der Erkennungsrate mit sich br<strong>in</strong>gen.Betrachtet man die subjektive Bewertung der Versuchspersonen, so wird deutlich, dassdieses Verfahren zur <strong>Interaktion</strong> gut angenommen wurde. Schwachpunkte bilden lediglich derTragekomfort der Targets sowie die Umsetzung der Steuerung auf Basis der Gesten. Hiers<strong>in</strong>d möglichst <strong>in</strong>tuitive E<strong>in</strong>gaben erforderlich, um den sonst sehr <strong>in</strong>tuitiven Umgang mitdem System, das sich auch durch die kurze E<strong>in</strong>arbeitungszeit auszeichnet, beizubehalten. DasSystem erzeugt bei den Versuchspersonen e<strong>in</strong>en hohen Grad der Immersion, was sich letztlichsehr positiv auf den Unterhaltungswert e<strong>in</strong>es solchen Systems auswirkt.Das vorgestellte System zur <strong>Interaktion</strong> mittels Gesten ist also für die Verwendung <strong>in</strong>nerhalbder AR gut geeignet. Jedoch müssen zur Optimierung noch physikalische Probleme<strong>in</strong> Angriff genommen werden. Hierzu zählt sowohl der Aufbau des Track<strong>in</strong>gsystems (also die107


KAPITEL 7.EVALUIERUNGüberlappende Abdeckung des Raumes durch den E<strong>in</strong>satz mehrerer K<strong>am</strong>eras) als auch derAufbau der verwendeten Targets, deren Bauform e<strong>in</strong>erseits möglichst kle<strong>in</strong> und leicht werdenmuss, um den Tragekomfort zu erhöhen, andererseits aber auch e<strong>in</strong>e breite Abstrahlcharakteristikbesitzen muss, um e<strong>in</strong>e gute Sichtbarkeit im Track<strong>in</strong>gsystem zu gewährleisten.7.2 Vergleich passive und aktive Infrarot-TargetsDas <strong>in</strong> Kapitel 4.1.4 vorgestellte System, aktive LEDs statt passiver Kugeln für das IR-Track<strong>in</strong>gsystem als Targets zu verwenden, wurde <strong>in</strong> e<strong>in</strong>er Untersuchung mit dem bisherigenAnsatz verglichen. Dabei waren nur objektive Messwerte ausschlaggebend, die Evaluierungumfasste also nur Messungen zum Vergleich von Eigenschaften passiver und aktiver Targets.Subjektive Bewertungen durch Versuchspersonen fanden hierbei nicht statt.Die relevanten Eigenschaften waren die maximale Leuchtdauer der aktiven Marker, diemaximale Distanz zu e<strong>in</strong>er K<strong>am</strong>era, <strong>in</strong> der der Marker noch erkannt wird, der m<strong>in</strong>imaleAbstand zweier Marker, <strong>in</strong> dem sie noch als eigene Marker detektiert werden können und derAbstrahlw<strong>in</strong>kel, unter dem sie von e<strong>in</strong>er K<strong>am</strong>era noch erfasst werden können.7.2.1 Versuchsaufbau/-ablaufUm die maximale Leuchtdauer zu messen, wurde e<strong>in</strong>e LED im Bereich des Track<strong>in</strong>gsystemsplatziert und mit e<strong>in</strong>er voll aufgeladenen 9V Batterie <strong>in</strong> Betrieb genommen. Zeitgleich startetee<strong>in</strong> Messprogr<strong>am</strong>m die Zeitmessung. Dieses Progr<strong>am</strong>m wertete jede Sekunde die Daten desTrack<strong>in</strong>gsystems h<strong>in</strong>sichtlich der Sichtbarkeit des Markers aus. Sobald der Marker über 30Sekunden nicht mehr sichtbar war, wurde die Zeitmessung gestoppt und der Wert gespeichert.Das Messprogr<strong>am</strong>m wurde ebenfalls zur Messung des maximalen Abstandes e<strong>in</strong>es Markerszu e<strong>in</strong>er K<strong>am</strong>era verwendet. Hierbei wertete das Progr<strong>am</strong>m die Sichtbarkeit des Markers überdie Daten des Track<strong>in</strong>gsystems aus. Wurde der Marker über e<strong>in</strong>en Zeitraum von 3 Sekundennicht erkannt, berechnete das Progr<strong>am</strong>m aus der Position der K<strong>am</strong>era und der zuletzt gemessenenPosition des Markers den Abstand und speicherte diesen ab. Zur Messung bewegte e<strong>in</strong>Versuchsleiter jeweils e<strong>in</strong>e aktive LED und e<strong>in</strong>e passive Kugel von der K<strong>am</strong>era weg, solangebis der Marker nicht mehr von dieser erkannt wurde. Dabei wurde e<strong>in</strong>mal e<strong>in</strong> aktiver Markermit und e<strong>in</strong>mal ohne Diffusionskugel verwendet.Ebenfalls konnte mit dem Progr<strong>am</strong>m der m<strong>in</strong>imale Abstand zweier Marker zue<strong>in</strong>anderbestimmt werden, um noch als zwei getrennte Marker detektiert zu werden. Dazu wurden vorder K<strong>am</strong>era zwei gleichartige Marker platziert. Deren Position wurde vom Track<strong>in</strong>gsystemausgegeben. Sobald vom Track<strong>in</strong>gsystem, bei e<strong>in</strong>er Bewegung der Marker aufe<strong>in</strong>ander zu, nurmehr e<strong>in</strong> e<strong>in</strong>zelner Marker erkannt wurde, speicherte das Progr<strong>am</strong>m den letzten Wert derbeiden Positionen der Marker und berechnete den Abstand dieser Positionen.Um den Abstrahlw<strong>in</strong>kel zu bestimmen, wurden die Marker auf e<strong>in</strong>er Kreisbahn <strong>in</strong> derK<strong>am</strong>eraebene um die K<strong>am</strong>era bewegt. Dabei wurde die Ausrichtung der LED beibehalten,wodurch sich e<strong>in</strong>e Drehung der LED relativ zur K<strong>am</strong>era e<strong>in</strong>stellte. Sobald der Marker nichtmehr erkannt werden konnte, wertete das Messprogr<strong>am</strong>m die Position des Markers aus undberechnete aufgrund dieser den W<strong>in</strong>kel, unter dem der Marker <strong>in</strong> der K<strong>am</strong>era erschien.108


7.2. VERGLEICH PASSIVE UND AKTIVE INFRAROT-TARGETS7.2.2 ErgebnisseIn der Untersuchung zeigte sich, dass die maximale Leuchtdauer e<strong>in</strong>er aktiven IR-LED im hiervorliegenden Systemaufbau bei etwa neun Stunden betrug. Dieser Wert ergab sich aus demMittelwert zweier getesteter LEDs, die jeweils acht bzw. zehn Stunden aktiv erkannt werdenkonnten.Bei der Bestimmung des maximalen Abstandes e<strong>in</strong>es Markers zur K<strong>am</strong>era ergab sich für diepassiven Marker e<strong>in</strong>e Entfernung von 5,80 Meter. Aktive Marker konnten ohne Verwendunge<strong>in</strong>er Diffusionskugel auf e<strong>in</strong>en Anstand von maximal 6,80 Meter erkannt werden. Wurdejedoch die Diffusionskugel verwendet, sank dieser Wert auf 4,40 Meter.Als m<strong>in</strong>imaler Abstand zwischen zwei Markern ergab sich, dass passive Marker m<strong>in</strong>destense<strong>in</strong>en Abstand von 1,5 cm vone<strong>in</strong>ander haben müssen, um <strong>in</strong> e<strong>in</strong>em Abstand von drei Meternzur K<strong>am</strong>era noch getrennt vone<strong>in</strong>ander ersche<strong>in</strong>en und somit unterscheidbar bleiben. Dagegenkonnte der M<strong>in</strong>destabstand bei der Verwendung von aktiven Markern, sowohl mit als auchohne Diffusionskugeln, auf e<strong>in</strong>en Zentimeter bestimmt werden.Die gemessenen Abstrahlw<strong>in</strong>kel der passiven Marker betrugen etwa 300 Grad. Dagegenkonnten für aktive Marker mit Diffusionskugeln e<strong>in</strong> W<strong>in</strong>kel von 190 Grad ermittelt werden.Dieser sank bei der Verwendung ohne dieser Kugeln auf e<strong>in</strong>en Wert von etwa 120 Grad ab.7.2.3 Diskussion der ErgebnisseVergleicht man nun aktive und passive Targets, die aus den untersuchten Markern aufgebauts<strong>in</strong>d, kommt man zu folgendem Ergebnis:Passive Marker s<strong>in</strong>d <strong>in</strong> ihrer Abstrahlcharakteristik durch ihre geometrische Form mit300 Grad deutlich w<strong>in</strong>kelunabhängiger als aktive Marker mit 120 bzw. 190 Grad. Ihre Größevon etwa 14mm Kugeldurchmesser führen jedoch zu unhandlichen Targets, die sich vor allembei Anwendungen negativ auswirken, bei denen e<strong>in</strong> Target möglichst kle<strong>in</strong> gehalten werdensollte. Hier können aktive Targets aufgrund der kle<strong>in</strong>en LEDs besser abschneiden. Ebenfallsbegünstigt dies der m<strong>in</strong>imale Abstand von 1,5cm bei passiven Markern gegenüber 1cm beiaktiven Markern. Durch die höhere Leuchtstärke der aktiven Marker können diese bis zu 6,80Meter Entfernung detektiert werden. Passive Marker dagegen werden nur auf e<strong>in</strong>e Distanzvon 5,80 erkannt. Jedoch schneiden hier die aktiven Marker mit Diffusionskugeln mit 4,40Metern nochmals schlechter ab.Betrachtet man wirtschaftliche Aspekte, so zeigt sich, dass aktive Marker <strong>in</strong> der Anschaffungdeutlich günstiger s<strong>in</strong>d als passive Marker. E<strong>in</strong> passives Target mit vier Markern kostetetwa 30 Euro, dagegen e<strong>in</strong> aktives nur etwa fünf Euro. Durch den physikalischen Verschleißder Oberfläche durch Stöße oder Kratzer bei passiven Markern müssen diese abhängig vonihrer Nutzung nach etwa e<strong>in</strong>em Jahr ersetzt werden. Die Lebensdauer von LEDs dagegen istdeutlich länger.Passive Marker s<strong>in</strong>d sehr mobil e<strong>in</strong>setzbar, da sie ke<strong>in</strong>e Stromversorgung benötigen. Dagegenmüssen zum Betrieb e<strong>in</strong>es aktiven Targets entweder an e<strong>in</strong>e Batterie gekoppelt se<strong>in</strong>,oder mittels e<strong>in</strong>es Kabels an e<strong>in</strong>e Stromversorgung angebunden se<strong>in</strong>. Dies schränkt den Bewegungsfreiraumdeutlich e<strong>in</strong>.109


KAPITEL 7.EVALUIERUNG7.3 Tangible User Interface als E<strong>in</strong>gabeIn e<strong>in</strong>er Untersuchung wurde das <strong>in</strong> Kapitel 4.2 beschriebene System zur <strong>Interaktion</strong> mitvirtuellen Objekten anhand e<strong>in</strong>es TUIs evaluiert. Dabei stand im Vordergrund, verschiedene<strong>Interaktion</strong>sarten bei verschiedenen <strong>Interaktion</strong>soperationen zu vergleichen. <strong>Interaktion</strong>mit virtuellen Objekten kann als Selektion und Manipulation oder e<strong>in</strong>er Komb<strong>in</strong>ation dieserbeiden Arten betrachtet werden. Zur <strong>Interaktion</strong> stehen verschiedene E<strong>in</strong>gabesysteme zurVerfügung. Als Basissystem dient e<strong>in</strong>e Maus s<strong>am</strong>t Keyboard. Dieses System wird neben dem<strong>in</strong> Kapitel 4.1 vorgestellten und <strong>in</strong> Kapitel 7.1 untersuchten System zur Gestenerkennungverwendet. Daher soll <strong>in</strong> dieser Evaluierung untersucht werden, welches der drei Systeme fürwelche Manipulationsart <strong>am</strong> besten geeignet ist. Als Referenz für alle drei Systeme dient die<strong>Interaktion</strong> <strong>in</strong> der realen Umgebung. Die Funktionen von Gestenerkenner und TUI s<strong>in</strong>d <strong>in</strong>den entsprechenden Kapiteln nachzulesen.Die <strong>Interaktion</strong> <strong>in</strong> der realen Umgebung erfolgt mit der Hand des Nutzers und mit realenObjekten, die für die späteren virtuellen Versuche auch virtuell existieren. Auf diese Weise lässtsich die <strong>Interaktion</strong> <strong>in</strong> der virtuellen Umgebung mit der <strong>Interaktion</strong> <strong>in</strong> der realen Umgebungdirekt vergleichen. Die <strong>Interaktion</strong> mit Maus und Keyboard bedient sich zuvor def<strong>in</strong>ierterTastenkomb<strong>in</strong>ationen, um bestimmte Funktionen zu starten. Diese s<strong>in</strong>d anschließend <strong>in</strong> derVersuchsbeschreibung, ebenso wie die Funktionsweise aller anderen <strong>Interaktion</strong>stypen, erklärt.Die Evaluierung zielte darauf ab, die e<strong>in</strong>zelnen Systeme <strong>in</strong> Abhängigkeit der <strong>Interaktion</strong>sartauf bestimmte Eigenschaften zu untersuchen. Hierzu zählt die Immersion, bei der aufgrundder verschiedenen bauartbed<strong>in</strong>gten <strong>Interaktion</strong>sarten große Bewertungsunterschiede zu erwartens<strong>in</strong>d. So b<strong>in</strong>det die <strong>Interaktion</strong> mittels Maus/Keyboard den Nutzer an e<strong>in</strong> E<strong>in</strong>gabegerätohne direkte Verb<strong>in</strong>dung zu den zu manipulierenden virtuellen Objekten. Die <strong>Interaktion</strong>sartenwerden jeweils e<strong>in</strong>e <strong>in</strong>dividuelle mentale Beanspruchung des Nutzers erzeugen. Dies istbed<strong>in</strong>gt durch das Level der Abstraktion, um Aktionen mit Reaktionen des Systems <strong>in</strong> Verb<strong>in</strong>dungzu br<strong>in</strong>gen. Ebenso spielt hier e<strong>in</strong>e Rolle, ob die <strong>Interaktion</strong> vom Nutzer <strong>in</strong> echter3-D ausgeführt werden kann, oder ob er, wie etwa bei der Maus, e<strong>in</strong> 2-D-E<strong>in</strong>gabegerät nutzenmuss. Hierbei ist e<strong>in</strong>e Transformation von 3-D <strong>in</strong> 2-D durch den Nutzer erforderlich. Nebender mentalen Beanspruchung unterscheiden sich die Systeme auch h<strong>in</strong>sichtlich der physischenBelastung. Jedes System hat se<strong>in</strong>e <strong>in</strong>dividuelle Hardware, dessen Verwendung für den Nutzerjeweils e<strong>in</strong> bestimmtes Maß an Kraft und Ausdauer erfordert. So kann der Nutzer beispielsweisebei der <strong>Interaktion</strong> mit der Maus se<strong>in</strong>e Hand auf dem Tisch liegen lassen, während erbei der Gestenerkennung die Hand durchgehend <strong>in</strong> der Luft halten muss. Aus diesen beidenEigenschaften ergibt sich die Bewertung <strong>in</strong> Bezug auf den Komfort, den das System <strong>in</strong>sges<strong>am</strong>tbei der <strong>Interaktion</strong> bietet. E<strong>in</strong> wichtiges Kriterium für e<strong>in</strong> <strong>Interaktion</strong>ssystem stellt dieLeistung dar, die e<strong>in</strong> Nutzer mithilfe des Systems erreichen kann. Hierzu zählen Eigenschaftenwie die Intuitivität der Bedienung, die daraus resultierende notwendige E<strong>in</strong>arbeitungszeitsowie die Schnelligkeit, mit der Manipulationen von virtuellen Objekten durchgeführt werdenkönnen. Auch hier s<strong>in</strong>d große Unterschiede zwischen den Systemen zu erwarten.Die Untersuchung soll also zeigen, welche der <strong>Interaktion</strong>smöglichkeiten für welche der <strong>Interaktion</strong>sarten(Selektion, Manipulation) den besten Zugang liefert. Gemessen werden hierbeiE<strong>in</strong>flussgrößen, die den <strong>in</strong>dividuellen Zugang abbilden (Intuitivität, E<strong>in</strong>arbeitungszeit undSchnelligkeit), Größen, die ergonomische Aspekte betrachten (mentale und physische Beanspruchungsowie Komfort) und der Immersionsgrad, der zeigt, wie stark sich der Nutzer alsTeil der virtuellen Szene fühlt.110


KAPITEL 7.EVALUIERUNG(a) Versuch 1: Buchstaben(b) Versuch 3: BaukastenAbbildung 7.7: Virtuelle Szenarien bei der Evaluierung des Tangible User InterfacesVersuch 2 (Ziffern-Würfel mit Städten<strong>am</strong>en)Versuch 2 zielte dagegen nur auf die Untersuchung der <strong>Interaktion</strong>sart Rotation ab. Objektesollten hierbei also nicht verschoben, sondern nur gedreht werden. Dazu gab es <strong>in</strong> dieserAufgabe e<strong>in</strong>en Würfel, auf dessen Seiten Zahlen und Städten<strong>am</strong>en notiert waren. Die Startausrichtungdes Würfels war für jeden Nutzer sowie für jede <strong>Interaktion</strong>sart gleich.(a) Versuch 2: Würfel(b) Versuch 3: BaukastenAbbildung 7.8: Reale Szenarien bei der Evaluierung des Tangible User InterfacesAufgabe war es, die Städten<strong>am</strong>en entsprechend der Zahlen auf den Würfelseiten <strong>in</strong> aufsteigenderReihenfolge zu nennen. Abbildung 7.8 (a) zeigt hier den Würfel <strong>in</strong> der realen Umgebungzu Beg<strong>in</strong>n der Aufgabe.Versuch 3 (Baukasten)Versuch 3 komb<strong>in</strong>ierte nun die <strong>Interaktion</strong>sarten der beiden vorhergehenden Versuche 1 und2. Hierbei sollten Objekte sowohl verschoben als auch gedreht werden. Daher stand <strong>in</strong> dieserAufgabe e<strong>in</strong> Baukasten zur Verfügung, der Bauklötze <strong>in</strong> bestimmten Formen und Farbenbereitstellte. Diese Bauklötze existierten sowohl <strong>in</strong> der realen (vgl. Abb 7.8 (b)) als auch <strong>in</strong>der virtuellen Umgebung (vgl. Abb. 7.7 (b)). Die Anordnung der Bauklötze wurde für denBeg<strong>in</strong>n der Aufgabe jeweils gleich gewählt. Ziel der Aufgabe war es, die Bauklötze <strong>in</strong> die <strong>in</strong>den Abbildungen sichtbare, vorgegebene Gestalt zu br<strong>in</strong>gen.112


7.3. TANGIBLE USER INTERFACE ALS EINGABEBei allen drei Versuchen wurden objektive und subjektive Daten erhoben. Als objektiveDaten wurde die Zeitdauer zur Lösung der jeweiligen Aufgabe gemessen, um e<strong>in</strong>e Aussageüber die Schnelligkeit der <strong>Interaktion</strong>sart treffen zu können. Subjektive Daten wurden mittelsFragebögen nach jedem Versuch erhoben. Dazu bewerteten die Versuchspersonen für jede<strong>Interaktion</strong>sart und jeden Versuch die Eigenschaften Immersion, physische sowie mentale Beanspruchung,Intuitivität, Komfort, E<strong>in</strong>arbeitungszeit und Schnelligkeit. Die Bewertungsskalareichte jeweils von 1 (sehr negativ) bis 6 (sehr positiv).Versuch 4/5 (Beispielapplikationen TUI)In Versuch 4 und 5 wurde e<strong>in</strong> Szenario verwendet, das speziell auf das TUI h<strong>in</strong> entwickeltwurde. Die beiden Szenarien nutzten hier also direkt die Vorteile des entwickelten Systems.Versuch 4 stellte e<strong>in</strong>e virtuelle Landkarte dar, die mithilfe des TUIs gedreht und verschobenwerden konnte. Ebenfalls konnte die Größe und Skala der Karte verändert werden. Versuch5 simulierte e<strong>in</strong> virtuelles, ferngesteuertes Modellauto, das auf dem Boden des Labors fuhrund mit dem TUI gesteuert werden konnte. Ziel dieser beiden Versuche war nicht mehr derVergleich von bestimmten Eigenschaften, sondern vielmehr e<strong>in</strong>e Demonstration der Möglichkeitendieses Interfaces und e<strong>in</strong>e generelle Kritik an diesem System. Auf diese Weise konntensich die Nutzer frei über Vor- und Nachteile des Systems äußern.Bedienfunktionalität der <strong>Interaktion</strong>sartenFür die <strong>Interaktion</strong> der e<strong>in</strong>zelnen Systeme erfolgte e<strong>in</strong>e konkrete Umsetzung, mit der bestimmteFunktionen gesteuert werden konnten. Im Folgenden sollen nun diese Funktionalitätenbeschrieben werden.Bei der <strong>Interaktion</strong> mit realen Objekten <strong>in</strong> der realen Umgebung erfolgt die <strong>Interaktion</strong>mit der Hand des Nutzers und den realen Objekten. Translation und Rotation e<strong>in</strong>es Objektesals Reaktion stehen hier also <strong>in</strong> direktem Bezug zur Aktion des Nutzers.Bei Verwendung von Maus und Keyboard als <strong>Interaktion</strong>ssystem erfolgt die Selektion e<strong>in</strong>esObjektes durch anklicken dieses Objektes mit der Maus. E<strong>in</strong>e Selektion ist hier notwendig,um das zu manipulierende Objekt zu kennzeichnen. Da die Maus nur e<strong>in</strong> 2-D-E<strong>in</strong>gabegerätist, müssen bestimmte Tastenkomb<strong>in</strong>ationen verwendet werden, um alle drei Achsen zu berücksichtigen.Translation <strong>in</strong> der X-Y-Ebene erfolgt durch Anklicken des Objektes und gleichzeitigesDrücken der mittleren Maustaste. E<strong>in</strong>e Verschiebung entlang der Z-Achse wird durchzusätzliches Drücken der „ALT GR“ Taste des Keyboards ermöglicht. Die Rotation e<strong>in</strong>es Objekteserfolgt durch Anklicken mit der l<strong>in</strong>ken Maustaste. Die Rotation ist hierbei auf zweiFreiheitsgrade beschränkt, so dass nur Rotationen um die X- und Y-Achse erfolgen.Der Gestenerkenner benötigt sogenannte Targets an Daumen und Zeigef<strong>in</strong>ger des Nutzers(vgl. Kapitel 4.1). Für die Evaluierung beschränkt sich das System auf die Erkennung derGreifgeste, da dyn<strong>am</strong>ische Gesten nicht mit der realen <strong>Interaktion</strong> oder den anderen Systemenvergleichbar wären. Die Translation und Rotation von virtuellen Objekten erfolgt hierbeialso durch das Greifen e<strong>in</strong>es Objektes und anschließendes Verschieben oder Drehen der Handdes Nutzers bei greifenden F<strong>in</strong>gern. Die Selektion des Objektes erfolgt über das Greifen desObjektes. Für e<strong>in</strong>e realistischere Darstellung wurden die F<strong>in</strong>ger des Nutzers grob durch e<strong>in</strong>virtuelles Abbild modelliert, das es erlaubt, Verdeckungen von F<strong>in</strong>gern und virtuellen Objektenkorrekt darzustellen.Das TUI bietet ke<strong>in</strong>e direkte Selektionsmöglichkeit, wie etwa Maus oder Gestenerkennung.Daher erfolgt die Selektion mittels der beiden oberen Momentkontakt-Taster, die die Objekte<strong>in</strong> der Reihenfolge ihrer <strong>in</strong>ternen ID auswählt. Um das aktuell sichtbare Objekt kenntlich113


KAPITEL 7.EVALUIERUNGzu machen, ändert dieses bei Selektion kurz se<strong>in</strong>e Größe. Mithilfe dieser Taster kann also<strong>in</strong>nerhalb der Objekte vor oder zurück gesprungen werden. Für e<strong>in</strong>e kont<strong>in</strong>uierliche Translation<strong>in</strong>nerhalb der X-Y-Ebene e<strong>in</strong>es selektierten Objektes muss der rechte Taster gedrücktwerden. Dies aktiviert die Translation als Manipulation solange, bis der Taster erneut gedrücktwird. E<strong>in</strong>e Translation entlang der Z-Achse erfolgt bei zusätzlich gedrücktem rechtenMomentkontakt-Taster. Zur Verschiebung muss das TUI um se<strong>in</strong>e eigene X- bzw. Y-Achsegeneigt werden. Um e<strong>in</strong>e ungewollte Translation <strong>in</strong> kle<strong>in</strong>en Bereichen zu unterb<strong>in</strong>den, gibtes e<strong>in</strong>en Schwellwert, der überschritten werden muss, um die Translation zu starten (hier20 Grad). E<strong>in</strong>e beschleunigte Translation ist durch e<strong>in</strong>en weiteren Schwellwert geregelt, derbei Überschreiten die Translationsgeschw<strong>in</strong>digkeit um den Faktor 4 erhöht (hier 65 Grad).Die kont<strong>in</strong>uierliche Rotation e<strong>in</strong>es Objektes um die X- bzw. Y-Achse wird mittels des l<strong>in</strong>kenTasters aktiviert. Das Neigen des Interfaces um se<strong>in</strong>e X- bzw. Y-Achse aktiviert hierbei die Rotation,wobei die Drehgeschw<strong>in</strong>digkeit direkt proportional zum Neigungsw<strong>in</strong>kel des Interfacesist. E<strong>in</strong>e Rotation um die Z-Achse erfolgt durch Drücken des l<strong>in</strong>ken oberen Momentkontakt-Tasters. Danach lässt sich durch Drehung um die Z-Achse e<strong>in</strong> virtuelles Objekt um denselbenW<strong>in</strong>kel drehen.7.3.2 ErgebnisseDie Evaluierung wurde mit 15 Versuchspersonen durchgeführt, wobei die Teilnehmer zwischen23 und 27 Jahre alt waren und das Durchschnittsalter bei etwa 25 Jahren lag. Unter den Probandenbefanden sich vier Frauen und elf Männer.Messung der AusführungsdauerVergleicht man die Messergebnisse der Ausführungsdauer, fällt auf, dass die <strong>Interaktion</strong> <strong>in</strong>der realen Umgebung mit Abstand die schnellste darstellt.Bei der <strong>Interaktion</strong>, die sich auf die Translation beschränkt (Versuch 1), wurde die Aufgabeim Schnitt <strong>in</strong>nerhalb von 6,7 Sekunden gelöst (vgl. Abb. 7.9).Dauer <strong>in</strong> [s]140120100806040200411896,3102,883,666,760,443,740,8 42,112,16,7Real Maus Gesten TUI<strong>Interaktion</strong>sartM<strong>in</strong>imumMittelwertMaximumAbbildung 7.9: Zeiten für Versuch 1 (Schriftzug: AR TUI)Be<strong>in</strong>ahe gleich schnitten hier die <strong>Interaktion</strong>sarten Maus/Keyboard mit 66,7 Sekundenund Gesten mit 60,4 Sekunden ab. Die <strong>Interaktion</strong> mit dem TUI ist mit 83,6 Sekunden knapp30% langs<strong>am</strong>er als die beiden anderen Methoden. Diese Ergebnisse zeigen, dass ke<strong>in</strong>e der virtuellen<strong>Interaktion</strong>en an die Ausführungszeiten der realen <strong>Interaktion</strong> heranreicht. Im Schnitts<strong>in</strong>d diese um den Faktor 10 bis 13 langs<strong>am</strong>er. Dies liegt dar<strong>in</strong> begründet, dass für die <strong>Interaktion</strong>mit den realen Objekten beide Hände verwendet werden konnten. Ebenfalls unterscheidet114


7.3. TANGIBLE USER INTERFACE ALS EINGABEsich diese <strong>Interaktion</strong> dar<strong>in</strong>, dass physikalische E<strong>in</strong>flüsse bei der virtuellen <strong>Interaktion</strong> nichtberücksichtigt wurden. So können Objekte nicht e<strong>in</strong>fach auf dem Tisch verschoben werden,da ke<strong>in</strong>e E<strong>in</strong>flüsse von Schwerkraft berücksichtigt wurden. Das TUI hat <strong>in</strong> diesem Versuchden Nachteil, dass mehrere Objekte <strong>in</strong> der Szene manipuliert werden müssen. Es ist also e<strong>in</strong>eSelektion durch e<strong>in</strong>e Listenauswahl notwendig, die mit dem TUI nur sehr umständlich ausführbarist, während Maus/Keyboard und Gesten e<strong>in</strong>e direkte Auswahl des Objektes erlauben.Betrachtet man jedoch die m<strong>in</strong>imale Ausführungszeit, so zeigt sich, dass es Nutzer gibt, diemit allen drei virtuellen <strong>Interaktion</strong>smethoden ähnlich schnelle Zeiten erreichen konnten.Vergleicht man die Zeiten, die bei der Rotation (Versuch 2) gemessen wurden, fällt auf,dass die <strong>Interaktion</strong> mit Maus/Keyboard hier deutlich schlechter abschneidet. In der realenUmgebung erfolgte die Lösung der Aufgabe im Schnitt <strong>in</strong>nerhalb von 8,8 Sekunden (vgl.Abb. 7.10).Dauer <strong>in</strong> [s]454035302520151050442,73529,928,920,117,218,213,18,811,28,7Real Maus Gesten TUI<strong>Interaktion</strong>sartM<strong>in</strong>imumMittelwertMaximumAbbildung 7.10: Zeiten für Versuch 2 (Ziffern-Würfel mit Städten<strong>am</strong>en)Die durchschnittliche Dauer bei Verwendung von Maus/Keyboard liegt hier bei 29,9 Sekunden.Dagegen schneiden Gestenerkennung und TUI be<strong>in</strong>ahe gleich gut mit 17,2 und 18,2Sekunden mit etwa der halben Zeit ab. Auch hier zeigt sich, dass die reale <strong>Interaktion</strong> vonke<strong>in</strong>er der virtuellen erreicht werden kann. Jedoch liegt der Faktor mit etwa 2 bis 3 hierbeideutlich niedriger als bei der Translation. Begründen lässt sich diese Verbesserung gegenüberder Translation mit dem TUI mit der Beschränkung auf e<strong>in</strong> e<strong>in</strong>ziges Objekt, das zu rotierenwar. Das schlechte Abschneiden von Maus/Keyboard lässt sich hier leicht d<strong>am</strong>it begründen,dass bei der Rotation die Nachteile der Transformation von e<strong>in</strong>er 2-D-E<strong>in</strong>gabemöglichkeit aufe<strong>in</strong>e 3-D-Manipulation voll zum Tragen kommen. Für die Rotation muss neben der Maustastenoch zusätzlich e<strong>in</strong>e Taste auf der Tastatur gedrückt werden. In diesem Versuch schneiden dasTUI und das Gestenerkennungssystem um den Faktor 2 besser ab, da das Objekt direkt manipuliertwerden kann. Die Aktion des Nutzers ist also direkt mit der Reaktion des Objektesverknüpft.E<strong>in</strong> Vergleich der Zeiten für die Komb<strong>in</strong>ation von Translation und Rotation (Versuch 3)zeigt, dass hier ähnliche Differenzen wie bei Versuch 1 zu messen s<strong>in</strong>d. Die reale <strong>Interaktion</strong>ist hier nach etwa 9,9 Sekunden beendet (vgl. Abb. 7.11). Die <strong>Interaktion</strong> mittels Gestenzeigt sich hier mit 93 Sekunden im Mittel als die schnellste Methode. Das TUI benötigt hierdie längste Zeit mit 138 Sekunden, die <strong>Interaktion</strong> mit Maus/Keyboard reiht sich zwischendie beiden anderen mit 111,3 Sekunden e<strong>in</strong>. In diesem Versuch tritt der Effekt der fehlendenphysikalischen Simulation von Kollisionen und Schwerkraft deutlich hervor. In der realen <strong>Interaktion</strong>können Objekte e<strong>in</strong>fach aufe<strong>in</strong>ander abgestellt werden, woh<strong>in</strong>gegen <strong>in</strong> der virtuellen<strong>Interaktion</strong> Objekte durch fehlende Kollisionserkennung <strong>in</strong>e<strong>in</strong>ander gestellt werden können.115


KAPITEL 7.EVALUIERUNGDauer <strong>in</strong> [s]250200150100500200,4158138111,3122,1939470,950,66,4 9,9 13,5Real Maus Gesten TUI<strong>Interaktion</strong>sartM<strong>in</strong>imumMittelwertMaximumAbbildung 7.11: Zeiten für Versuch 3 (Baukasten)Das Gestenerkennungssystem schneidet hier <strong>am</strong> besten ab, da die Selektion e<strong>in</strong>es Objektesdirekt möglich ist und die Manipulation direkt erfolgt. Durch die notwendige Selektion verliertdas TUI Zeit während des Auswählens e<strong>in</strong>es Objektes aus e<strong>in</strong>er Liste. Dabei gew<strong>in</strong>nt es aberdurch die direkte Manipulationsmöglichkeit. Die Maus/Keyboard-Komb<strong>in</strong>ation dagegen ermöglichte<strong>in</strong>e direkte Selektion durch Anklicken, kann jedoch ke<strong>in</strong>e direkte Manipulation zurVerfügung stellen. Die Ergebnisse zeigen jedoch, dass die Selektion hier den größeren E<strong>in</strong>flussauf die Ausführungszeiten hat.FragebogenNeben e<strong>in</strong>er objektiven Untersuchung anhand der Ausführungsdauern wurden <strong>in</strong> der Evaluierungauch subjektive Daten erfasst. Abbildung 7.12 und 7.13 zeigen die Ergebnisse derAuswertung des Fragebogens, wobei jeweils der Durchschnitt der Werte für die jeweilige Eigenschaftangegeben wird.Bewertungspunkte65432104,964 4,243,763,64 3,523,283,282,922,81,841,61 1 1 1Schnelligkeit Immersion Intuitivität E<strong>in</strong>arbeitungszeitEigenschaftRealMausGestenTUIAbbildung 7.12: Auswertung des Fragebogenteils der ersten beiden Versuche IDie Bewertung der realen <strong>Interaktion</strong> erreichte bei der Schnelligkeit, der Immersion, derIntuitiviät, dem Komfort sowie der mentalen und physischen Beanspruchung erwartungsgemäßimmer den besten Wert. Die Bewertung der subjektiv wahrgenommenen Schnelligkeit(Maus/Keyboard mit 3,76, Gesten und TUI mit je 3,28) unterscheidet sich bei den <strong>Interaktion</strong>sverfahrenkaum. Immersion und Intuitivität s<strong>in</strong>d bei Maus/Keyboard deutlich höherbewertet (4,96 und 4) als bei Gesten (1,84 und 1,6) und TUI (2,92 und 2,8). Dies lässt sichdar<strong>in</strong> begründen, dass ke<strong>in</strong>e direkte Verb<strong>in</strong>dung zwischen den Aktionen des Nutzers und den116


7.3. TANGIBLE USER INTERFACE ALS EINGABEReaktionen der Objekte vorhanden waren. Ebenfalls zeigt sich, dass die <strong>Interaktion</strong> mittelsGesten be<strong>in</strong>ahe den Immersionsgrad und die Intuitivität der realen <strong>Interaktion</strong> erreicht. Diesist hier auf die Verb<strong>in</strong>dung von Aktionen und Reaktionen zurückzuführen, da Objekte, wieaus der realen <strong>Interaktion</strong> gewohnt, mit der eigenen Hand manipuliert werden können. DieE<strong>in</strong>arbeitungszeit wurde bei allen Methoden ähnlich bewertet (Maus mit 3,64, Gesten mit4,24 und TUI mit 3,52).6Bewertungspunkte5432113,963,483,482,8 3,162,88 2,562,41,44 1,681,36RealMausGestenTUI0Mentale Beanspruchung Physische Beanspruchung KomfortEigenschaftAbbildung 7.13: Auswertung des Fragebogenteils der ersten beiden Versuche IIDie Bewertung der mentalen Beanspruchung war bei der Verwendung von Maus/Keyboardmit 3,96 <strong>am</strong> höchsten. Die ger<strong>in</strong>gste mentale Beanspruchung verzeichnet die <strong>Interaktion</strong>mittels Gesten mit 2,88, das TUI wurde hier mit 3,48 bewertet. Dagegen ist die physischeBeanspruchung bei Maus/Keyboard mit e<strong>in</strong>er Wertung von 1,68 deutlich ger<strong>in</strong>ger, als diebeiden anderen Methoden (Gesten mit 3,48 und TUI mit 2,4). Die mentale Beanspruchungsteigt bei der Verwendung der Maus/Keyboard-Komb<strong>in</strong>ation stark durch die Verknüpfungverschiedener Tastenkomb<strong>in</strong>ationen an. Ähnlich wie bei der Verwendung des TUI muss derNutzer sich bestimmte Befehle merken, um die Aufgaben zu lösen. Dagegen erfordert die Verwendungvon Gesten e<strong>in</strong>e erhöhte physische Beanspruchung, da der Nutzer zum e<strong>in</strong>en se<strong>in</strong>eHand immer <strong>in</strong> der Luft halten muss und er zum anderen die Objekte nicht aus der Entfernungverändern kann. Er muss sich also zu e<strong>in</strong>em Objekt h<strong>in</strong> bewegen, um e<strong>in</strong>e Manipulationauszuführen, was bei den anderen beiden Methoden auch aus der Ferne geschehen kann. Daherwird diese Methode auch mit dem schlechtesten Wert für Komfort (3,16) bewertet. Dieanderen <strong>Interaktion</strong>smethoden schneiden etwa gleich ab (Maus mit 2,8 und TUI mit 2,56).Die Bewertungen des Versuchs 3 zeigen e<strong>in</strong> ähnliches Bild. Auch hier gew<strong>in</strong>nt die reale<strong>Interaktion</strong> <strong>in</strong> allen Eigenschaften (vgl. Abb. 7.14 und 7.15).Die subjektive Schnelligkeit wird im Gegensatz zu den ersten beiden Versuchen äquivalentder realen Geschw<strong>in</strong>digkeit e<strong>in</strong>geschätzt, nämlich Gesten als schnellste <strong>Interaktion</strong>smöglichkeitanschließend die Maus und als langs<strong>am</strong>ste das TUI. Auffallend ist die Bewertung der mentalenBeanspruchung für diesen Versuch. Aufgrund der höheren Komplexität der Anwendung, diesowohl den E<strong>in</strong>satz von Rotation als auch von Translation erfordert, liegt die mentale Beanspruchungmit 4,2 beim TUI höher als bei der Maus mit 3,6. Die vielen Tastenkomb<strong>in</strong>ationen,die vom Benutzer ausgewählt werden müssen, um die gewollte Manipulation auszuführen,erfordern e<strong>in</strong> hohes Maß an Konzentration. Die restlichen Eigenschaften Immersion, Intuitivität,physische Beanspruchung und Komfort wurden ähnlich e<strong>in</strong>geschätzt, wie nach den erstenbeiden Versuchen. Sowohl Immersion als auch Intuitivität wurden von den Probanden fürdie <strong>Interaktion</strong> mit Hilfe des TUIs besser e<strong>in</strong>gestuft als mit der Maus. Die Gesten erreichten117


KAPITEL 7.EVALUIERUNGBewertungspunkte65432104,96443,763,16 2,83,161,841,841 1 1Schnelligkeit Immersion IntuitivitätEigenschaftRealMausGestenTUIAbbildung 7.14: Auswertung des Fragebogenteils zum dritten Versuch I6Bewertungspunkte543214,23,6 3,6 3,523,042,762,761,56 1,681 1,122,8RealMausGestenTUI0Mentale Beanspruchung Physische Beanspruchung KomfortEigenschaftAbbildung 7.15: Auswertung des Fragebogenteils zum dritten Versuch IIwiederum das beste Ergebnis. Im H<strong>in</strong>blick auf die physische Beanspruchung und den Komfortist erneut der Vorteil der Maus und des TUIs gegenüber den Gesten zu erwähnen.Abbildung 7.16 verdeutlicht abschließend die unterschiedliche Bewertung der Schnelligkeitund mentalen Beanspruchung der <strong>Interaktion</strong> mithilfe des TUIs nach den jeweiligen Versuchen.Beide Eigenschaften wurden aufgrund der Komplexität des letzten Tests um mehr alse<strong>in</strong>en halben Bewertungspunkt schlechter e<strong>in</strong>gestuft. E<strong>in</strong> Vergleich der anderen Eigenschaftennach den jeweiligen Versuchen zeigt ke<strong>in</strong>e bzw. nur ger<strong>in</strong>ge Unterschiede.Testen der implementierten AnwendungenDer Umgang mit der virtuellen Karte fiel den Probanden auf Anhieb sehr leicht, weshalbNavigieren <strong>in</strong> der Karte mit dem Referenzpunkt ke<strong>in</strong>e Probleme darstellte. Es wurde vorallem die <strong>in</strong>tuitive und e<strong>in</strong>fache Steuerung der Karte mithilfe des TUIs hervorgehoben. Kritisierth<strong>in</strong>gegen wurde die schlechte Auflösung der Karte, die das Lesen der Straßenn<strong>am</strong>enerschwerte. Der Grund dafür lag <strong>in</strong> der großen Komprimierung der Bilddateien, die zur flüssigenBewegung der Karten notwendig war. Des Weiteren kritisierten die Anwender die hohenLadezeiten der Karten beim H<strong>in</strong>e<strong>in</strong>- bzw. Herauszoomen, welche auf die trotz Komprimierungnoch sehr großen VRML-Dateien zurückzuführen s<strong>in</strong>d.In der zweiten Anwendung gab es e<strong>in</strong>ige Versuchspersonen, die mit der Steuerung desvirtuellen Autos nicht von Anfang an zurecht k<strong>am</strong>en und sich erst daran gewöhnen mussten.Die Probanden hatten Probleme mit der Lenkung des Fahrzeugs, da ihnen unklar war, wie siedas TUI kippen sollten, um e<strong>in</strong>e gewünschte Richtungsänderung des Fahrzeugs zu erreichen.118


7.4. VIRTUELLE AKUSTIK ALS AUSGABEMEDIUM6Bewertungspunkte543213,2843,484,2Versuch 1+2Versuch 30SchnelligkeitMentale BeanspruchungEigenschaftAbbildung 7.16: Vergleich der Bewertung der Schnelligkeit und mentalen Beanspruchung nachVersuch 1 + 2 und Versuch 3Deshalb wurde vorgeschlagen, die Geschw<strong>in</strong>digkeit mithilfe der Tasten steuern zu können.Trotz der anfänglichen Schwierigkeiten bei der Steuerung des Autos bereitete die Anwendungden Probanden e<strong>in</strong>e Menge Spaß. Durch die VA wurde die Anwendung als sehr realistische<strong>in</strong>gestuft.7.3.3 Diskussion der ErgebnisseDie Untersuchung hat gezeigt, dass das TUI im Vergleich zu Maus/Keyboard oder den Gestenvor allem für komplexe Anwendungen mehr Zeit <strong>in</strong> Anspruch nimmt, da ke<strong>in</strong>e direkteAuswahl von Objekten möglich ist. Dennoch bietet dieses Interface bei der Manipulation vonvirtuellen Objekten <strong>in</strong> der AR den Vorteil e<strong>in</strong>es höheren Maßes der Immersion gegenüber derMaus/Keyboard-Komb<strong>in</strong>ation. Die <strong>Interaktion</strong> mit der Maus, bei welcher der Anwender anden Arbeitsplatz gebunden ist, vermittelt den E<strong>in</strong>druck, wie bei GUIs, auf e<strong>in</strong>em Monitorzu agieren anstatt <strong>in</strong> e<strong>in</strong>er 3-D-Szene <strong>in</strong>tegriert zu se<strong>in</strong>. Ebenfalls hat sich gezeigt, dass diesesInterface e<strong>in</strong> höheres Maß an Intuitivität aufweist als e<strong>in</strong>e Komb<strong>in</strong>ation von Maus undKeyboard.Gegenüber der Manipulation virtueller Objekte durch Gesten hat das TUI vor allem Vorteile<strong>in</strong> Bezug auf physische Belastung und Komfort, da zum Agieren ke<strong>in</strong>e großen Bewegungennotwendig s<strong>in</strong>d. So muss der Nutzer bei der <strong>Interaktion</strong> mittels Gesten an den Ort desvirtuellen Objektes laufen und kann dieses Objekt nicht aus der Ferne auswählen. Ebenfallsbietet es diesem System gegenüber den Vorteil, dass der Nutzer ke<strong>in</strong>e zusätzliche Hardwaretragen muss, die sich negativ auf die Belastung auswirkt. Die Unabhängigkeit e<strong>in</strong>es externenTrack<strong>in</strong>gsystems stellt e<strong>in</strong>en weiteren Vorteil des TUIs dar.Das TUI bietet also e<strong>in</strong>e gute Alternative zur <strong>Interaktion</strong> mit Gesten, vor allem für spezifischeAnwendungen, die nicht alle sechs möglichen Freiheitsgrade benötigen oder für diee<strong>in</strong>e direkte Manipulation nicht s<strong>in</strong>nvoll ersche<strong>in</strong>t. Die vier Tasten, die für beliebige Aktionenverwendet werden können, bieten e<strong>in</strong> hohes Maß an Flexibilität.7.4 Virtuelle Akustik als AusgabemediumMithilfe e<strong>in</strong>er Untersuchung sollte das <strong>in</strong> Kapitel 3.3 vorgestellte System zur Erzeugung vonVA evaluiert werden. Dabei wurden zwei Schwerpunkte unterschieden: In Teil 1 sollte der119


KAPITEL 7.EVALUIERUNGE<strong>in</strong>fluss auf die Wahrnehmung von AR-<strong>Umgebungen</strong> gemessen werden, <strong>in</strong> Teil 2 dagegen derE<strong>in</strong>fluss von AR auf die Lokalisation von virtuellen Schallquellen.Im ersten Teil sollte untersucht werden, ob die Verwendung von verschiedenen Arten derakustischen Darstellung (ohne Schall, „Mono-Schall“, „Stereo-Schall“, VA) E<strong>in</strong>fluss auf bestimmteEigenschaften der Wahrnehmung der Testpersonen hat. Relevante Eigenschaften warenhierbei die Realitätstreue, d.h. wie realistisch die Darstellung <strong>in</strong>sges<strong>am</strong>t wahrgenommenwurde, die Präsenz des virtuellen Objektes, die durch das Objekt verursachte geistige Beanspruchung,Ablenkung, die Spannung, die die Szene vermittelte, und wie stark der Zus<strong>am</strong>menhangzwischen Objekt und Schall empfunden wurde, d.h. ob e<strong>in</strong> Objekt zus<strong>am</strong>men mitvirtuellem Schall als e<strong>in</strong>e E<strong>in</strong>heit wahrgenommen wurde.Der zweite Teil konzentrierte sich auf den E<strong>in</strong>fluss der Darstellung virtueller Objekte aufdie Wahrnehmung von virtuellen Schallen. Ziel dieses Versuches war es, den E<strong>in</strong>fluss von zumSchall passenden und nicht passenden virtuell sichtbaren Objekten auf die Lokalisation desSchalls herauszuf<strong>in</strong>den. Der Versuch wurde so ausgelegt, dass hierbei die Lokalisation gestörtund auch unterstützt werden konnte. Vor dem Versuch wurde die Vermutung aufgestellt, dassdie Versuchspersonen den Schall an der Stelle des passenden Objektes lokalisieren würden,obwohl die Schalle <strong>in</strong> gewissen Abständen zum Objekt positioniert s<strong>in</strong>d. Das virtuelle Objektzieht also die „Aufmerks<strong>am</strong>keit“ der Schallquelle auf sich.7.4.1 Versuchsaufbau/-ablaufDie Evaluierung wurde im AR-Labor des Lehrstuhls durchgeführt und war <strong>in</strong> elf Durchgängeunterteilt (vgl. Abb. 7.17)E<strong>in</strong>führungE<strong>in</strong>führungDurchgangDurchgang11DurchgangDurchgang22DurchgangDurchgang33DurchgangDurchgang44DurchgangDurchgang55DurchgangDurchgang66DurchgangDurchgang77DurchgangDurchgang88DurchgangDurchgang99DurchgangDurchgang1010DurchgangDurchgang1111visuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:ke<strong>in</strong>ke<strong>in</strong>SchallSchall//ke<strong>in</strong>eke<strong>in</strong>eWiedergabeWiedergabevisuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:HubschrauberHubschrauber//Mono-WiedergabeMono-Wiedergabevisuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:HubschrauberHubschrauber//Stereo-WiedergabeStereo-Wiedergabevisuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:HubschrauberHubschrauber//VirtuelleVirtuelleAkustikAkustikvisuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:BienenschwarmBienenschwarm//Mono-WiedergabeMono-Wiedergabevisuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:BienenschwarmBienenschwarm//Stereo-WiedergabeStereo-Wiedergabevisuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:BienenschwarmBienenschwarm//VirtuelleVirtuelleAkustikAkustikvisuell:visuell:ke<strong>in</strong>ke<strong>in</strong>ObjektObjekt//akustisch:akustisch:HubschrauberHubschrauber//VirtuelleVirtuelleAkustikAkustikvisuell:visuell:roteroteKugelKugel//akustisch:akustisch:HubschrauberHubschrauber//VirtuelleVirtuelleAkustikAkustikvisuell:visuell:LibelleLibelle//akustisch:akustisch:HubschrauberHubschrauber//VirtuelleVirtuelleAkustikAkustikvisuell:visuell:HubschrauberHubschrauber//akustisch:akustisch:HubschrauberHubschrauber//VirtuelleVirtuelleAkustikAkustikAbbildung 7.17: Versuchsablauf der Evaluierung der Virtuellen AkustikUm den E<strong>in</strong>fluss verschiedener akustischer Darbietungen zu bewerten, wurde der Versuchspersone<strong>in</strong>e virtuelle Szene mit e<strong>in</strong>em Hubschrauber dargestellt, bei dem zu Beg<strong>in</strong>nke<strong>in</strong>e akustische Unterstützung erfolgte. Darauf folgend wurde jede der drei akustischen Methodenmit jeweils e<strong>in</strong>em Schall, der zum Objekt passte (Hubschraubergeräusch), und e<strong>in</strong>emSchall, der nicht dazu passte (Geräusch e<strong>in</strong>es Bienenschwarms), abgespielt. Hierbei wurde dieakustische Darbietung <strong>in</strong> jedem Schritt verbessert, beg<strong>in</strong>nend mit der Mono-Darbietung, beider der Schall <strong>in</strong>nerhalb des Kopfes wahrgenommen wird (also ke<strong>in</strong>e Richtungs<strong>in</strong>formationberücksichtigt wird), gefolgt von der Stereo-Darbietung (die nur das dem Objekt zugewandteOhr mit Schall versorgte), bis h<strong>in</strong> zur VA, die die Richtung des virtuellen Schalls simulierte.120


7.4. VIRTUELLE AKUSTIK ALS AUSGABEMEDIUMDie Versuchspersonen waren hierzu etwa mittig im Bereich des Track<strong>in</strong>gsystems platziertund trugen e<strong>in</strong> HMD zur visuellen Darstellung der virtuellen Szene sowie e<strong>in</strong>en Kopfhörer,der die akustische Darbietung der virtuellen Schalle übernahm. Abb. 7.18 zeigt hier e<strong>in</strong>eVersuchsperson mit HMD und Kopfhörer sowie die Szene, die zur Untersuchung dargestelltwurde.(a) Versuchsperson für Untersuchung VirtuelleAkustik(b) Darstellung Hubschrauber für Untersuchungder Virtuellen AkustikAbbildung 7.18: Ansichten des Evaluierungsszenarios der Virtuellen AkustikWährend des Versuches kreiste der virtuelle Hubschrauber um die Versuchsperson, die sichfrei im Raum bewegen konnte. Ebenfalls konnte die Versuchsperson ihren Kopf frei bewegen,um der Flugrichtung des Hubschraubers bei Bedarf folgen zu können.Nach jedem Durchlauf bewerteten die Versuchspersonen auf e<strong>in</strong>er Skala von 1 (sehr positiv)bis 6 (sehr negativ) die Eigenschaften nach ihrer subjektiven Wahrnehmung.Für den zweiten Teil wurde derselbe Versuchsaufbau verwendet. Lediglich die Darstellungwurde verändert. So wurden im ersten Durchlauf ke<strong>in</strong> virtuelles Objekt, im zweiten e<strong>in</strong>e roteKugel, im dritten e<strong>in</strong>e Libelle und im vierten der virtuelle Hubschrauber dargestellt. Akustischwurde zu jedem der Objekte der Schall e<strong>in</strong>es fliegenden Hubschraubers dargeboten. Dieserwurde jedoch für jedes Objekt nicht nur auf die exakt gleiche Position gelegt, sondern auchmit Abweichungen von 10 ◦ , 20 ◦ und 40 ◦ <strong>in</strong> beide Richtungen zum Objekt abgespielt. DieVersuchspersonen blickten daraufh<strong>in</strong> <strong>in</strong> die Richtung aus der sie den Schall wahrnahmen,um zu messen, welche Abweichung von der realen Position zu der wahrgenommenen Positionvorlag. Insges<strong>am</strong>t lokalisierte jede Versuchsperson also sieben Positionen pro Objekt.7.4.2 ErgebnisseAn der Untersuchung nahmen <strong>in</strong>sges<strong>am</strong>t 12 Versuchspersonen im Alter von 21 bis 55 Jahrenteil. Das durchschnittliche Alter lag bei 28 Jahren.Teil 1: Bewertung der ARAbb. 7.19 zeigt die Bewertung der Eigenschaften bei den verschiedenen akustischen Darbietungsarten,wenn der Schalles e<strong>in</strong>es fliegenden Hubschraubers zu hören ist. Dagegen ist <strong>in</strong>Abbildung 7.20 die Bewertung dieser Eigenschaften bei der Verwendung e<strong>in</strong>es Schalles, dere<strong>in</strong>en fliegenden Bienenschwarm, aufgeführt.121


KAPITEL 7.EVALUIERUNGBewertungspunkte65432104,25 4,333,423,753,673,42 3,17 3,253,25 3,173,082,832,922,752,582,33PräsenzRealitätstreueBeanspruchunggeistigEigenschaft4,753,833,922,7503,4241,92Ablenkung Spannung Zus<strong>am</strong>menhangohne SchallDarbietung:MonoDarbietung:StereoDarbietung:VirtuelleAkustikAbbildung 7.19: Bewertung der Szenarien mit HubschrauberschallBewertungspunkte65432105,25 5,254,754,254,333,92 4,173,42Präsenz3,833,583,582,83RealitätstreueBeanspruchunggeistigEigenschaft4,754,25 4,423,53,753,253,333,2505,424,833,58Ablenkung Spannung Zus<strong>am</strong>menhangohne SchallDarbietung:MonoDarbietung:StereoDarbietung:VirtuelleAkustikAbbildung 7.20: Bewertung der Szenarien mit BienenschwarmschallEs wird deutlich, dass die Darbietung mit dem zum Objekt passenden Hubschraubergräuschbesser wahrgenommen wurde als die mit dem nicht passenden Geräusch. Die Realitätstreuewurde hier mit e<strong>in</strong>em Wert von 4,25 bewertet, für den Fall, dass ke<strong>in</strong> Schall abgespieltwurde. Die Realitätstreue bei Verwendung des Hubschrauberschalles reicht von 3,67 für dieMono-Darbietung über 4,33 für die Stereo-Darbietung bis h<strong>in</strong> zu 2,75 für die VA. Die VA vermitteltalso den realitätsnähesten E<strong>in</strong>druck der ges<strong>am</strong>ten Szene. Im Vergleich dazu zeigt sichbei der Verwendung des Bienenschwarmschalles, dass auch hier die VA den höchsten Grad anRealitätsnähe erzeugt. Diese liegt jedoch zwischen e<strong>in</strong> bis zwei Bewertungsstufen unter derBewertung zuvor.Die Bewertung der Präsenz des virtuellen Objektes zeigt e<strong>in</strong>en ähnlichen Verlauf. Die Präsenzohne Schall liegt bei 3,42. Bei Mono-Darbietung beträgt sie 3,17, bei Stereo-Darbietung3,42 und bei VA 2,33. Die VA erzeugt hier also auch die höchste Präsenz des virtuellen Objektes.Diese liegt für jede Schallart stets niedriger als bei der Verwendung des Bienenschwarmgeräusches.Hier liegen die Bewertungen bei 3,92 im Mono-Betrieb, 4,33 für Stereo-Darbietungund 4,17 für VA. Die Darstellung e<strong>in</strong>es objektfremden Schalles bee<strong>in</strong>flusst die Präsenz desvirtuellen Objektes also deutlich <strong>in</strong> negativer Form.Die Bewertung der geistigen Beanspruchung zeigt, dass die Darbietung von Schallen <strong>in</strong>jedem Fall die Beanspruchung erhöht. So wird diese ohne Schall mit 2,83 bewertet, für dieVerwendung von Hubschrauber- bzw. Bienenschwarmschall liegt sie dagegen bei Werten zwischen3,83 und 3,08. Beiden Schallen jedoch ist geme<strong>in</strong>, dass die Beanspruchung bei Stereo-122


7.4. VIRTUELLE AKUSTIK ALS AUSGABEMEDIUMDarbietung die höchste ist (Wert von 3,75 bzw. 3,83).Die Ablenkung, die durch die ges<strong>am</strong>te Szene verursacht wird, bleibt durchgehend auf e<strong>in</strong>emannähernd gleichen Niveau. Die Bewertung für den Hubschrauberschall liegt zwischen 3,25ohne Schall bis zu 2,58 bei Verwendung der VA. Bei e<strong>in</strong>em objektfremden Schall liegt dieserWert zwischen 3,5 und 3,25.Betrachtet man die durch die Szene erzeugte Spannung, stellt sich heraus, dass die Verwendunge<strong>in</strong>es zum Objekt passenden Schalls stets e<strong>in</strong>e bessere Bewertung erzielt. Durch dieDarbietung e<strong>in</strong>es Schalles (auch objektfremd) steigt die Spannung der Szene immer an. DieVA erzielt hierbei e<strong>in</strong>e Wertung von 2,75 bzw. 3,75 und ist d<strong>am</strong>it deutlich positiver bewertet,als die Verwendung von Mono-Darbietung (3,92 und 4,25) oder Stereo-Darbietung (3,83 und4,42). Ebenfalls zeigt sich, dass die Wahl, ob Mono- oder Stereo-Darbietung, ke<strong>in</strong>en großenEffekt auf die Spannung hat.Der Zus<strong>am</strong>menhang zwischen Schall und Objekt ist bei der VA <strong>am</strong> höchsten. Selbst mit derBewertung von 3,58 für den objektfremden Schall liegt diese deutlich vor den beiden anderenMethoden mit Werten von 5,42 bzw. 4,83. Mit 1,92 erreicht hier die VA bei der Darbietungdes zum Objekt passenden Schalles e<strong>in</strong>en Höchstwert.Abb. 7.21 stellt nochmals die Wertungen der Eigenschaften im direkten Vergleich zwischenHubschrauberschall und Bienenschwarmschall gegenüber, wobei hier auch die Unterscheidungzwischen der Mono-Darbietung und der VA getroffen wird.Bewertungspunkte65432105,25 5,424,754,173,674,25 3,923,923,58 3,583,53,75 3,583,173,253,253,422,753,08 2,922,582,752,331,92PräsenzRealitätstreueBeanspruchunggeistigEigenschaftAblenkung Spannung Zus<strong>am</strong>menhangBienenschwarmMonoBienenschwarmVirtuelle AkustikHubschrauberMonoHubschrauberVirtuelle AkustikAbbildung 7.21: Vergleich der Szenarien mit unterschiedlichen SchalldarbietungenDie Bewertung des zum Objekt passenden Schalles liegt also stets niedriger. Mit Ausnahmeder Präsenz beim objektfremden Schall erhält die VA immer e<strong>in</strong>e bessere Bewertung alsdie Stereo-Darbietung des Schalles.Teil 2: E<strong>in</strong>fluss AR auf die WahrnehmungIn Abb. 7.22 s<strong>in</strong>d die Ergebnisse des zweiten Teils der Untersuchung dargestellt. Das Diagr<strong>am</strong>mzeigt den W<strong>in</strong>kel zwischen Objekt und Schall, den die Versuchspersonen wahrgenommenhaben, aufgetragen über den tatsächlichen Abweichungen zwischen dem Objekt und demSchall.Die Ergebnisse zeigen, dass die Versuchspersonen den Schall nicht an der Stelle des Objekteslokalisiert haben, wenn dieser nicht auch an der Stelle des Objektes wiedergegeben wurde.Hierbei s<strong>in</strong>d die Mediane <strong>in</strong> den Bereichen +10 ◦ und +20 ◦ nur unwesentlich <strong>in</strong> Richtung der 0 ◦verschoben. In den Bereichen -20 ◦ und +20 ◦ , bei denen das Objekt noch bei Blick <strong>in</strong> Richtungdes Schalls zu sehen war, s<strong>in</strong>d die Mediane der Lokalisation bei „ke<strong>in</strong>em Objekt“ und dem123


KAPITEL 7.EVALUIERUNGAbbildung 7.22: Darstellung der Ergebnisse der Lokalisation von Schallen mit visuellem Stimulusmit Medianen und Interquartilbereichen„Hubschrauber“ identisch, sodass hierbei e<strong>in</strong>e Bee<strong>in</strong>flussung der Lokalisation durch den zumObjekt passenden Schall nicht nachgewiesen werden kann.Selbst e<strong>in</strong>e m<strong>in</strong>imale Hilfe zur Lokalisation durch die visuellen Objekte lässt sich an denVersuchspersonen nicht nachweisen. Die Interquartilbereiche, wenn Schall und Objekt an derselbenStelle dargestellt werden, s<strong>in</strong>d zwar ger<strong>in</strong>ger, jedoch existieren diese auch für die Lokalisation„ohne Objekt“. Dieses Phänomen lässt sich womöglich d<strong>am</strong>it begründen, dass es sichdabei um die Ausgangsblickrichtung und die Ausrichtung der Füße zu Beg<strong>in</strong>n des Versucheshandelt.7.4.3 Diskussion der ErgebnisseVergleicht man nun die Ergebnisse der Evaluierung, so stellt man fest, dass die Darstellungder AR durch die Verwendung von Schall verbessert wird. Jedoch muss der verwendete Schallhierbei zu dem virtuellen Objekt passen, das diesen Schall aussendet. Die Untersuchung hathier klar herausgestellt, dass Schall, der nicht zum Objekt passt, e<strong>in</strong>en negativen Effekt aufdie Wahrnehmung des Nutzers hat. Die Realitätstreue und Präsenz der AR-Szene werden <strong>in</strong>diesem Fall schlechter wahrgenommen als e<strong>in</strong>e Darstellung, die auf Schall gänzlich verzichtet.Die Verwendung von VA steigert diese Werte der Realitätstreue und Präsenz im Vergleichzu e<strong>in</strong>er re<strong>in</strong>en Mono- oder Stereo-Darbietung stark. So erhielt <strong>in</strong> der Untersuchung dasSzenario mit VA und Hubschrauberschall <strong>in</strong> diesen Eigenschaften e<strong>in</strong>e deutlich niedrigere124


7.5. VIDEOKONFERENZSYSTEMBewertung als die beiden anderen Methoden zur Darbietung von Schallen.Es zeigt sich also, dass die Art der Schallwiedergabe und die Wahl des Schalles e<strong>in</strong>enstarken E<strong>in</strong>fluss auf die Wahrnehmung der Realitätstreue und Präsenz e<strong>in</strong>er AR-Szene hat.Betrachtet man die Messungen der Lokalisation von Schallquellen <strong>in</strong> Abhängigkeit vonder Darstellung virtueller Objekte, so wird <strong>in</strong> dieser Untersuchung ke<strong>in</strong> Effekt deutlich. DieLokalisation von Schall wurde <strong>in</strong> dieser Evaluierung nicht von der Darstellung e<strong>in</strong>es virtuellenObjektes bee<strong>in</strong>flusst. Weder Objekte mit passendem Schall noch Objekte mit nicht zumObjekt passendem Schall konnten die Lokalisation der virtuellen Schallquelle <strong>in</strong> Richtung derPosition des virtuellen Objektes bee<strong>in</strong>flussen.7.5 VideokonferenzsystemDas <strong>in</strong> Kapitel 5.2 entwickelte System zur Integration e<strong>in</strong>es Videokonferenzsystems <strong>in</strong> e<strong>in</strong>eAR-Szene wurde <strong>in</strong> e<strong>in</strong>er Evaluierung untersucht. Hierbei sollten verschiedene Anzeigeartenfür die Videokonferenz verglichen werden. Als grafische Visualisierung stehen e<strong>in</strong> Monitorund e<strong>in</strong> HMD zur Verfügung, als zugrunde liegendes Track<strong>in</strong>gsystem kann e<strong>in</strong> bildbasiertesVerfahren anhand von Papiermarkern oder IR-Targets verwendet werden. Zusätzlich kann dieDarstellung des Gesprächspartners mit Darstellung des H<strong>in</strong>tergrundes oder mit segmentiertemGesprächspartner ohne H<strong>in</strong>tergrund erfolgen. Alle daraus resultierenden Komb<strong>in</strong>ationenwurden auf bestimmte Eigenschaften re<strong>in</strong> subjektiv durch Versuchspersonen h<strong>in</strong> bewertet. Zubeurteilen waren Eigenschaften, die die Darstellung selbst betreffen, sowie Eigenschaften, dieden Umgang mit dem System und se<strong>in</strong>er Hardware beschreiben. Zur Darstellung wurden dieBildqualität (wie etwa Auflösung oder Pixelfehler), der Realitätse<strong>in</strong>druck (also, wie real derGesprächspartner ersche<strong>in</strong>t) sowie die empfundene Präsenz (also die empfundene Anwesenheit)des Gegenüber untersucht. Zum Umgang mit dem System wurde der Komfort bewertet,wie angenehm also die Komb<strong>in</strong>ation aus Hardwarekomponenten ist, sowie das Handl<strong>in</strong>g, d.h.wie unproblematisch das System zu bedienen ist. Zusätzlich wurde noch die subjektive Empf<strong>in</strong>dungdes Zeitversatzes zwischen Audio- und Video<strong>in</strong>formationen abgefragt.7.5.1 Versuchsaufbau/-ablaufDie Untersuchung fand im AR-Labor des Lehrstuhles statt, wofür es an die erforderlichenVorgaben angepasst wurde. So wurde hier die Videokonferenz als unidirektionales System aufgebaut.Das heißt, der Versuchsleiter war selbst der Gesprächspartner der Versuchspersonen,erhielt jedoch ke<strong>in</strong> Videobild der Versuchsteilnehmer und befand sich selbst nicht <strong>in</strong>nerhalbe<strong>in</strong>er AR-Umgebung. In der AR-Umgebung befand sich also lediglich die Testperson, die denVersuchsleiter als Gesprächspartner <strong>in</strong> se<strong>in</strong>e reale Umgebung virtuell e<strong>in</strong>geblendet bek<strong>am</strong>.Um den Versuchsleiter und die Testpersonen <strong>in</strong>nerhalb des Labors räumlich vone<strong>in</strong>ander zutrennen, wurde e<strong>in</strong>e Trennwand <strong>in</strong> das Labor e<strong>in</strong>gebracht, die den direkten visuellen Kontaktzwischen den beiden Gesprächspartnern unterband. Da das System ke<strong>in</strong>e akustischen Signaleübertragen konnte, wurde für die Untersuchung der direkte Weg zwischen den Teilnehmerngewählt, die Gesprächspartner kommunizierten somit also nicht über e<strong>in</strong> technisches Übertragungssystem,sondern durch die Trennwand. Das System war so e<strong>in</strong>gestellt, dass das Gesichtund e<strong>in</strong> kle<strong>in</strong>er Teil des Oberkörpers des Versuchsleiters im Videobild sichtbar waren.Die Untersuchung war <strong>in</strong> acht Durchgänge unterteilt (vgl. Abb. 7.23), die sich jeweils<strong>in</strong> der Komb<strong>in</strong>ation der Hardware unterschieden. Die ersten vier Durchläufe erfolgten mit125


KAPITEL 7.EVALUIERUNGE<strong>in</strong>führungE<strong>in</strong>führungDurchgangDurchgang11DurchgangDurchgang22DurchgangDurchgang33DurchgangDurchgang44DurchgangDurchgang55DurchgangDurchgang66DurchgangDurchgang77DurchgangDurchgang88Darstellung:Darstellung:MonitorMonitor//Track<strong>in</strong>g:Track<strong>in</strong>g:PapierPapier//H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:mitmitDarstellung:Darstellung:MonitorMonitor//Track<strong>in</strong>g:Track<strong>in</strong>g:PapierPapier//H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:ohneohneDarstellung:Darstellung:MonitorMonitor//Track<strong>in</strong>g:Track<strong>in</strong>g:IRIR//H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:mitmitDarstellung:Darstellung:MonitorMonitor//Track<strong>in</strong>g:Track<strong>in</strong>g:IRIR//H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:ohneohneDarstellung:Darstellung:HMDHMD//Track<strong>in</strong>g:Track<strong>in</strong>g:Papier/Papier/H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:mitmitDarstellung:Darstellung:HMDHMD//Track<strong>in</strong>g:Track<strong>in</strong>g:PapierPapier//H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:ohneohneDarstellung:Darstellung:HMDHMD//Track<strong>in</strong>g:Track<strong>in</strong>g:IRIR//H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:mitmitDarstellung:Darstellung:HMDHMD//Track<strong>in</strong>g:Track<strong>in</strong>g:IRIR//H<strong>in</strong>tergrund:H<strong>in</strong>tergrund:ohneohneAbbildung 7.23: Versuchsablauf der Evaluierung der Videokonferenze<strong>in</strong>em Monitor, die letzten vier mit dem HMD als visuelles Ausgabesystem. Jeweils die erstenbeiden dieser Versuche wurden mittels e<strong>in</strong>es Papiermarkers, die letzten beiden mittelse<strong>in</strong>es IR-Targets durchgeführt. Abb. 7.24 zeigt hier den Unterschied im Systemaufbau bei derVerwendung e<strong>in</strong>es Monitors und bei Verwendung des HMDs.Bei der Darstellung des Gesprächspartners konnte der H<strong>in</strong>tergrund vom Teilnehmer abgetrenntwerden. Auf diese Weise erschien nur noch der Gesprächspartner <strong>in</strong> der AR-Umgebung.Abb. 7.25 zeigt hier das Videobild mit und ohne H<strong>in</strong>tergrund bei Verwendung des IR-Targetsund bei der Nutzung e<strong>in</strong>es Papiermarkers.Bei jedem der acht Durchläufe führte der Versuchsleiter e<strong>in</strong>en Dialog mit dem Versuchsteilnehmerüber e<strong>in</strong>e Dauer von 3 M<strong>in</strong>uten. Dabei sollte die Versuchsperson das System erfahrensowie se<strong>in</strong>e Vor- und Nachteile kennenlernen. Der Versuchsleiter besprach hierbei Themen,bei denen Gesten notwendig waren (Verdeutlichung von Größen, etc.), um die Möglichkeitene<strong>in</strong>er Videokonferenz auszunutzen.Im Anschluss an jeden Durchlauf bewertete die Versuchsperson das vorgestellte Systemmithilfe e<strong>in</strong>es Fragebogens h<strong>in</strong>sichtlich bestimmter Eigenschaften. Hierzu zählten die EigenschaftenKomfort und Handl<strong>in</strong>g, die den Umgang mit den System beschrieben, die Qualitätdes Systems h<strong>in</strong>sichtlich der Bildqualität und der Audioeigenschaften sowie der wahrgenommeneRealitätse<strong>in</strong>druck und die Präsenz. Dazu diente e<strong>in</strong>e Bewertungsskala mit Werten von1 (sehr positiv) bis 6 (sehr negativ). Die Eigenschaften Komfort, Handl<strong>in</strong>g und Audio musstenbei zwei aufe<strong>in</strong>ander folgenden Versuchen, die sich lediglich durch die Darstellung oderAusblendung des H<strong>in</strong>tergrunds unterschieden, nicht bewertet werden, da dies auf sie ke<strong>in</strong>enE<strong>in</strong>fluss hatte.In e<strong>in</strong>er E<strong>in</strong>führung wurde den Versuchsteilnehmern vor den Durchgängen e<strong>in</strong> Überblicküber AR und die nachfolgenden Systemaufbauten gegeben. Ebenfalls erhielten sie hierbeie<strong>in</strong>en Überblick über die zu beurteilenden Eigenschaften und die zugrunde liegende Skala zurBewertung.7.5.2 ErgebnisseDie Versuche wurden mit <strong>in</strong>sges<strong>am</strong>t zehn Personen durchgeführt. Das Alter der Versuchsteilnehmerlag zwischen 25 und 51 Jahren. Das Durchschnittsalter betrug 33 Jahre. 50% derTeilnehmer waren Frauen, 50% Männer. 40% gaben an, dass ihnen AR bereits vor diesemVersuch e<strong>in</strong> Begriff war. Von diesen 40% würden sich 50% als Anfänger auf diesem Gebietbezeichnen, 50% hatten bereits so viel Umgang mit e<strong>in</strong>em AR-System, dass sie sich selbst126


7.5. VIDEOKONFERENZSYSTEM(a) Monitor und Papiermarker(b) Monitor und IR-Target(c) HMD und Papiermarker(d) HMD und IR-TargetAbbildung 7.24: Videokonferenz mit unterschiedlichen Systemkomb<strong>in</strong>ationenals Fortgeschrittene e<strong>in</strong>stufen. Ke<strong>in</strong> Teilnehmer schätzte sich selbst als Profi e<strong>in</strong>. 70% derVersuchsteilnehmer hatten bisher noch nie e<strong>in</strong> Videokonferenzsystem angewandt und auch anke<strong>in</strong>er Videokonferenz teilgenommen. 20% gaben an, selten an Videokonferenzen teilzunehmen,und 10% nutzten regelmäßig e<strong>in</strong> solches System.Abb. 7.26 und 7.27 stellen die Ergebnisse der Fragebögen dar. Im Folgenden werden nundie Ergebnisse für die e<strong>in</strong>zelnen Versuche mit den acht verschiedenen Systemaufbauten präsentiert.Versuch 1: Monitor, Papiermarker, mit H<strong>in</strong>tergrundDie Versuchspersonen bewerten die Bildqualität des übertragenen Bildes mit 2,5. Die Auflösungwurde von allen als ausreichend empfunden, um auch die Mimik des Gesprächspartnerserkennen zu können. Mit e<strong>in</strong>er durchschnittliche Bewertung von 3,6 wurde der Realitätse<strong>in</strong>druckals nicht optimal empfunden, wofür hauptsächlich die etwas „ruckartigen“ Bewegungsabläufeim Bild und der Papiermarker im H<strong>in</strong>tergrund verantwortlich waren. Die Versuchspersonenhatten auch nicht den E<strong>in</strong>druck, der Gesprächspartner würde sich tatsächlich im Raumbef<strong>in</strong>den, was sich <strong>in</strong> der Benotung der Präsenz mit 3,7 ausdrückt. Komfort und Handl<strong>in</strong>gdieser Komb<strong>in</strong>ation wurden mit 3,5 und 4,3 gewertet, woraus sich schließen lässt, dass derUmgang mit diesem System als nicht gut empfunden wurde. Negativ im Umgang mit demPapiermarker ist den Teilnehmern vor allem aufgefallen, dass dieser stets voll im K<strong>am</strong>erabildse<strong>in</strong> muss, also nicht zufällig von e<strong>in</strong>em F<strong>in</strong>ger der haltenden Hand verdeckt werden darf, und127


KAPITEL 7.EVALUIERUNG(a) Papiermarker mit H<strong>in</strong>tergrund(b) Papiermarker ohne H<strong>in</strong>tergrund(c) IR-Target mit H<strong>in</strong>tergrund(d) IR-Target ohne H<strong>in</strong>tergrundAbbildung 7.25: Videokonferenz mit und ohne H<strong>in</strong>tergrundgenerell e<strong>in</strong>e wenig robuste Erkennung lieferte. Bei der Tonübertragung gab hauptsächlichdie Tatsache, dass das Gesehene dem Gehörten erst mit e<strong>in</strong>em zeitlichen Versatz folgte, denAusschlag. Dies resultierte aus der Verarbeitung der Bild<strong>in</strong>formationen, wodurch diese zeitlichnach dem unverarbeiteten, akustischen Signal bei der Versuchsperson ank<strong>am</strong>. Dass sie denGesprächspartner nicht aus der Richtung hören konnten, <strong>in</strong> der sie ihn auch sahen, spielteh<strong>in</strong>gegen nur e<strong>in</strong>e beiläufige Rolle und wurde bei diesem Versuchsaufbau von den meisten garnicht wahrgenommen.Versuch 2: Monitor, Papiermarker, ohne H<strong>in</strong>tergrundDas Entfernen des H<strong>in</strong>tergrunds führte zu Löchern im Bild (verursacht durch Lichtverhältnisse,die bestimmte Regionen im Gesprächspartner als H<strong>in</strong>tergrund erkennen ließen) und zue<strong>in</strong>er unscharfen Kontur des Gesprächspartners. Diese Defizite zeigen sich <strong>in</strong> der Bewertungder Bildqualität mit e<strong>in</strong>em Ergebnis von 4. Die Wahrnehmung des Teilnehmers wurde jedochleicht verbessert. Der Realitätse<strong>in</strong>druck stieg leicht auf 3,4 und die Präsenz stieg auf 3,1. Hierist also e<strong>in</strong>e Verbesserung der Wahrnehmung erkennbar, die sich allerd<strong>in</strong>gs negativ auf dieQualität des Bildes auswirkte.Versuch 3: Monitor, IR-Target, mit H<strong>in</strong>tergrundDie Qualität des Bildes wurde mit 2,4 ähnlich gut wie <strong>in</strong> Versuch 1 bewertet. Durch die Verwendungdes IR-Targets statt des Papiermarkers konnte der Realitätse<strong>in</strong>druck im Vergleich128


7.5. VIDEOKONFERENZSYSTEMBewertungspunkte6543213,63,12,5 2,6 2,82,8 32,44,84 4,33,73,53,5 4 3,533,32,8 2,84,6 4,64,5 4,3Versuch 1Versuch 3Versuch 5Versuch 70BildqualitätRealitätse<strong>in</strong>druckPräsenz Komfort Handl<strong>in</strong>g AudioEigenschaftAbbildung 7.26: Ergebnisse Versuche 1, 3, 5 und 7 mit H<strong>in</strong>tergrund6Bewertungspunkte543214 4,432,93,43,92,92,53,13,53,22,2Versuch 2Versuch 4Versuch 6Versuch 80BildqualitätRealitätse<strong>in</strong>druckPräsenzEigenschaftAbbildung 7.27: Ergebnisse Versuche 2, 4, 6 und 8 ohne H<strong>in</strong>tergrundzu Versuch 1 mit 2,8 um fast e<strong>in</strong>e ganze Bewertungse<strong>in</strong>heit gesteigert werden. Auf die Präsenzh<strong>in</strong>gegen hat der Wechsel des Markers jedoch kaum e<strong>in</strong>en E<strong>in</strong>fluss, was e<strong>in</strong>e ähnlicheBewertung von 3,5 deutlich macht. Dieser spezielle Versuchsaufbau macht es notwendig, dassdie Versuchspersonen sowohl das IR-Target als auch die K<strong>am</strong>era mit dem sich darauf bef<strong>in</strong>dendenMarker so zue<strong>in</strong>ander ausrichten müssen, dass der virtuelle Konferenzteilnehmer aufdem Monitor ersche<strong>in</strong>t. Diese Koord<strong>in</strong>ation von zwei Targets gleichzeitig führte bei e<strong>in</strong>igenVersuchsteilnehmern zu größeren Problemen, weshalb der Komfort mit 4 und das Handl<strong>in</strong>gmit 4,8 als sehr schlecht e<strong>in</strong>geschätzt wurden. Die Bewertung der Audioeigenschaften unterscheidetsich mit e<strong>in</strong>em Wert von 4,3 nur unwesentlich von Versuch 1.Versuch 4: Monitor, IR-Target, ohne H<strong>in</strong>tergrundAnalog zu Versuch 2 zeigt sich auch hier e<strong>in</strong>e Verschlechterung der Bildqualität auf 4,4. Diesefällt sogar noch gravierender aus als, da nun die Löcher im angezeigten Bild noch deutlichersichtbar werden und das IR-Target im Gegensatz zum Papiermarker ke<strong>in</strong>e neutraleH<strong>in</strong>tergrundfläche mehr bietet. Dieser Umstand wirkt sich auch auf die Bewertung des Realitätse<strong>in</strong>drucksaus, der mit 3,9 schlechter beurteilt wurde als <strong>in</strong> Versuch 2. Ebenfalls s<strong>in</strong>kt diePräsenz des Gesprächspartners auf 3,5.Versuch 5: HMD, Papiermarker, mit H<strong>in</strong>tergrundVersuch 5 nutzte erstmals das HMD zur visuellen Darstellung. Aufgrund der Bauart s<strong>in</strong>ddie <strong>in</strong> der Brille verwendeten Displays qualitativ m<strong>in</strong>derwertiger als der zuvor verwendete129


KAPITEL 7.EVALUIERUNGMonitor. Dies äußert sich beispielsweise <strong>in</strong> der niedrigeren Auflösung oder der Qualität derFarbwiedergabe. Dennoch wirkte sich diese Darstellung nur wenig auf die Bewertung der Bildqualitätaus, die mit 2,6 kaum niedriger ausfällt als die vorhergehenden Versuche 1 und 3.Der Realitätse<strong>in</strong>druck wird mit 3,1 ähnlich wie <strong>in</strong> Versuch 3 bewertet, die Präsenz gew<strong>in</strong>nthier dagegen deutlich (bewertet mit 2,8). Dies ist darauf zurückzuführen, dass das Sichtfeldmit HMD dem realen Sichtfeld des Nutzers entspricht. Bei Verwendung des Monitors wurdeh<strong>in</strong>gegen die Umgebung <strong>in</strong> Richtung der Versuchsperson dargestellt, da die K<strong>am</strong>era <strong>in</strong> derNähe des Monitors angebracht war und <strong>in</strong> Richtung des Benutzers blickte. Durch Verwendungdes HMDs war es den Versuchspersonen nun möglich, sich frei im Raum zu bewegen.Diese Bewegungsfreiheit wirkt sich dennoch nicht auf Komfort und Handl<strong>in</strong>g aus (Wertung 4bzw. 3,3), da die Trageeigenschaften des HMDs als äußerst unangenehm empfunden wurden.Das Handl<strong>in</strong>g des Papiermarkers wurde von den Versuchsteilnehmern mit 3,3 deutlich besserbewertet als <strong>in</strong> den vorangegangenen Versuchen. Die Bewertung der Audioeigenschaften mit4,6 änderte sich auch <strong>in</strong> diesem Versuch nicht.Versuch 6: HMD, Papiermarker, ohne H<strong>in</strong>tergrundbildÄhnlich der Versuche zuvor ist auch hier e<strong>in</strong>e Verschlechterung der Bildqualität erkennbar,sobald der H<strong>in</strong>tergrund entfernt wird. Die Bewertung s<strong>in</strong>kt hier auf 3. Der Realitätse<strong>in</strong>drucksteigt <strong>in</strong> dieser Komb<strong>in</strong>ation auf 2,9, während die Präsenz auf e<strong>in</strong>e Bewertung von 2,9 abs<strong>in</strong>kt.Versuch 7: HMD, IR-Target, mit H<strong>in</strong>tergrundDurch die Verwendung des IR-Targets, statt des Papiermarkers aus Versuch 5, ließ sich ke<strong>in</strong>deutlicher E<strong>in</strong>fluss des Markers auf die Bildqualität, den Realitätse<strong>in</strong>duck und die Präsenznachweisen. Die Werte <strong>in</strong> diesen Kategorien s<strong>in</strong>d bei beiden Markertypen bei sonst identischemVersuchsaufbau mit Werten von 2,8, 3 und 3 nahezu identisch. Der Komfort des HMDshat sich bei diesem Versuch mit e<strong>in</strong>em Wert von 3,5 etwas verbessert, was sich durch dielangs<strong>am</strong>e Gewöhnung der Testpersonen an das ungewohnte Anzeigegerät erklären lässt. BeimHandl<strong>in</strong>g, bewertet mit 2,8, konnte das IR-Target nun aber se<strong>in</strong>e Überlegenheit gegenüberdem Papiermarker deutlich zeigen. Die Audioeigenschaften haben sich, wie erwartet, mit e<strong>in</strong>emWert von 4,6 nicht verbessert.Versuch 8: HMD, IR-Target, ohne H<strong>in</strong>tergrundIm Gegensatz zu allen vorangegangenen Versuchen hat sich die Bildqualität, bewertet mit2,9, dieses Mal durch die Entfernung des H<strong>in</strong>tergrunds nicht wesentlich verschlechtert. Auchder Realitätse<strong>in</strong>druck konnte mit 2,5 deutlich gesteigert werden. Der Gew<strong>in</strong>n durch die ausschließlicheDarstellung des Gesprächspartners überwog dieses Mal deutlich gegenüber denE<strong>in</strong>bußen durch ausgefranste Ränder oder Löcher im Bild. Zu diesem Ergebnis passt auchdie positive E<strong>in</strong>schätzung der Präsenz durch die Versuchsteilnehmer. Mit e<strong>in</strong>er Bewertungvon 2,2 brachten sie e<strong>in</strong>deutig zum Ausdruck, dass der Gesprächspartner nun gut <strong>in</strong> die realeUmgebung <strong>in</strong>tegriert war und er tatsächlich anwesend wirkte.7.5.3 Diskussion der ErgebnisseZiel der Untersuchung war es festzustellen, welche der Komb<strong>in</strong>ationen für die Verwendung mite<strong>in</strong>em Videokonferenzsystem <strong>am</strong> besten geeignet ist. Außerdem sollte die Evaluierung zeigen,welche Auswirkungen die Wahl bestimmter Eigenschaften auf die Bewertung des Ges<strong>am</strong>tsystemeshat. Folgende Feststellungen konnten bei der Auswertung der Ergebnisse getroffenwerden.130


7.5. VIDEOKONFERENZSYSTEMBetrachtet man im Vergleich die Bewertungen von Komb<strong>in</strong>ationen mit und ohne der Darstellungdes H<strong>in</strong>tergrunds, zeigt sich, dass sich die Entfernung des H<strong>in</strong>tergrunds h<strong>in</strong>ter demGesprächspartner <strong>in</strong> allen Komb<strong>in</strong>ationen negativ auf die empfundene Bildqualität auswirkte.Diese Verschlechterung kann auf die d<strong>am</strong>it verbundenen Fehler (Löcher und unscharfeKanten des Gesprächspartners) im Bild zurückgeführt werden. Die Bewertung ist hier bei derVerwendung des Monitors deutlich stärker ausgefallen als bei der Verwendung des HMDs.Der E<strong>in</strong>fluss auf den Realitätse<strong>in</strong>druck ist dagegen ger<strong>in</strong>g. Lediglich bei Versuch 4 (also dieKomb<strong>in</strong>ation aus Monitor und IR-Target) verschlechtert sich der Realitätse<strong>in</strong>druck, bei allenanderen Fällen steigt dieser Wert leicht an. Die Präsenz des Gesprächspartners sche<strong>in</strong>t vonder Wahl des H<strong>in</strong>tergrunds nicht abhängig zu se<strong>in</strong>, da ke<strong>in</strong>e e<strong>in</strong>deutige Tendenz ersichtlichist. Lediglich bei der Komb<strong>in</strong>ation aus HMD und IR-Target ohne H<strong>in</strong>tergrund zeigt sich e<strong>in</strong>edeutliche Steigerung der Präsenz.Die Wahl des Targets, mit dem der Gesprächspartner im Raum platziert wird, hat aufdie Bildqualität ke<strong>in</strong>en E<strong>in</strong>fluss. Verwendet man das HMD zur Darstellung, schneidet das IR-Target <strong>in</strong> Bezug auf den Realitätse<strong>in</strong>druck leicht besser ab als der Papiermarker. Am Monitorzeigt sich dieser Effekt nur bei der Darstellung des Gegenübers mit H<strong>in</strong>tergrund. Lediglichbei der Verwendung des IR-Targets im Zus<strong>am</strong>menspiel mit dem HMD und der H<strong>in</strong>tergrundentfernungkann dieser Marker se<strong>in</strong>e Überlegenheit <strong>in</strong> der Kategorie Präsenz zeigen. DieseKonfiguration suggeriert dem Benutzer <strong>am</strong> meisten, dass der andere Videokonferenzteilnehmertatsächlich anwesend ist. Dies gel<strong>in</strong>gt bei allen anderen Konfigurationen nur bed<strong>in</strong>gt. DerPapiermarker vermittelt e<strong>in</strong> höheres Maß an Komfort <strong>in</strong> Komb<strong>in</strong>ation mit dem Monitor, beiVerwendung mit dem HMD dagegen das IR-Target. Betrachtet man das Handl<strong>in</strong>g, stellt manfest, dass <strong>in</strong> Versuch 3 und 4 das IR-Target das schlechteste Ergebnis auf diesem Gebiet imganzen Versuchsfeld liefert, <strong>in</strong> Versuch 7 und 8 dagegen das beste. In Bezug auf das Handl<strong>in</strong>glässt sich das IR-Target besser mit dem HMD komb<strong>in</strong>ieren als mit dem Monitor.E<strong>in</strong> Vergleich der Darstellungsart stellt heraus, dass die Bildqualität des HMDs etwasbesser bewertet wird als die Darstellung mittels e<strong>in</strong>es Monitors. Die gleiche Tendenz ist auchbeim Realitätse<strong>in</strong>druck erkennbar, wobei das HMD im Durchschnitt etwas besser abschneidetals der Monitor. In der Kategorie Präsenz werden diese Unterschiede <strong>in</strong> der Bewertungebenfalls nur bei der Verwendung des Monitors deutlich sichtbar. In Versuch 8 wird mit demHMD der beste Wert für die Präsenz erreicht. Weder das HMD noch der Monitor kann sichim Bereich Komfort deutlich vom anderen absetzen. Der Gew<strong>in</strong>n an Bewegungsfreiheit, derdurch das HMD erlangt wird, wird durch den schlechten Tragekomfort wieder ausgeglichen.Den Umgang mit den Markern empfanden die Versuchspersonen <strong>in</strong> Komb<strong>in</strong>ation mit demHMD e<strong>in</strong>facher als mit dem Monitor.Zus<strong>am</strong>menfassend lässt sich also festhalten, dass nur für die Komb<strong>in</strong>ation aus HMD undIR-Target e<strong>in</strong>e durchgehende Verbesserung des Systems sichtbar wurde. Bei allen anderenVersuchen glichen sich Steigerungen des Realitätse<strong>in</strong>druckes und der Präsenz mit der deutlichschlechteren Bildqualität wieder aus. Um dem entgegen zu wirken, muss e<strong>in</strong> besserer Algorithmuszur Segmentierung des H<strong>in</strong>tergrunds zum E<strong>in</strong>satz kommen. E<strong>in</strong>e Verbesserung derBewertungen des IR-Targets im Vergleich zum Papiermarker zeigt sich nur bei der Verwendunge<strong>in</strong>es HMDs. Wird e<strong>in</strong> Monitor als Ausgabe verwendet, schneiden die beiden Targetsähnlich ab. Der störende H<strong>in</strong>tergrund des Papiermarkers wird <strong>am</strong> Monitor kaum wahrgenommen,bei der Entfernung des H<strong>in</strong>tergrunds tritt er sogar positiv <strong>in</strong> Ersche<strong>in</strong>ung, da dieLöcher im Bild dadurch nicht so hervortreten. Die Verwendung des IR-Targets steigert dieBewertungen erst bei Verwendung <strong>in</strong> Komb<strong>in</strong>ation mit dem HMD. Dieses wäre als Anzeigegeräte<strong>in</strong>deutig zu bevorzugen, jedoch leidet dieses System <strong>am</strong> schlechten Tragekomfort des131


KAPITEL 7.EVALUIERUNGGerätes. Die positiven Effekte, die durch die höhere Bewegungsfreiheit und die stärkere Integrationder virtuellen Umgebung <strong>in</strong> die reale entstehen, würden stärker ausfallen, wenn dasHMD angenehmer zu Tragen wäre. Als bestes System hat sich die Komb<strong>in</strong>ation aus HMD,IR-Target und H<strong>in</strong>tergrundentfernung herausgestellt. Sie liefert mit Abstand die besten Ergebnisse<strong>in</strong> den Kategorien Realitätse<strong>in</strong>druck, Präsenz und Handl<strong>in</strong>g. Die Bildqualität istzwar nicht ideal, mit e<strong>in</strong>er durchschnittlichen Bewertung von 2,9 aber immer noch <strong>in</strong> e<strong>in</strong>emakzeptablen Bereich. In der ges<strong>am</strong>ten Evaluierung hat die Übertragung der Audiosignale ohnetechnisches System zu e<strong>in</strong>er Asynchronität zwischen Bild und Ton geführt. Dies resultierte<strong>in</strong> e<strong>in</strong>er schlechten Bewertung über alle Versuche h<strong>in</strong>weg. Aus diesem Grund muss der Übertragungder akustischen Daten sowie deren Aufbereitung (beispielsweise mittels der VA ausKapitel 3.3) große Aufmerks<strong>am</strong>keit geschenkt werden.7.6 BillARd - <strong>Augmented</strong> <strong>Reality</strong> BillardUm das <strong>in</strong> Kap. 6.1 entwickelte „BillARd“ auf die Eignung als Demonstrator zu testen, wurdeauf dem System e<strong>in</strong>e Evaluierung durchgeführt. Vorrangiger Aspekt der Untersuchung lag aufder subjektiven Bewertung des Demonstrators. Die Evaluierung beschränkte sich daher ausschließlichauf die Bewertung subjektiver Par<strong>am</strong>eter durch die Probanden. Diese Par<strong>am</strong>eterwaren <strong>in</strong> drei Gruppen untergliedert. Diese Gruppen behandelten Aspekte der Umsetzung desHardwaresetups, wie etwa die Positionierung von e<strong>in</strong>zelnen Komponenten oder Markern, undder Darstellung mittels AR, Eigenschaften des umgesetzten „BillARd“ selbst, also beispielsweisedie Spielbarkeit, und die Bewertung der umgesetzten Physik der Applikation. Weiterh<strong>in</strong>wurde auch die Bewertung der E<strong>in</strong>- und Ausgabemöglichkeit mittels des WII-Controllerse<strong>in</strong>gebunden, da diese Umsetzung stark an e<strong>in</strong>e konkrete Anwendung gebunden ist (Menüsbenötigen Inhalte, hier im Kontext zu „BillARd“).7.6.1 Versuchsaufbau/-ablaufFür die Untersuchung wurden die Probanden <strong>in</strong> Gruppen zu je zwei Personen e<strong>in</strong>geladen. ZuBeg<strong>in</strong>n erhielten diese e<strong>in</strong>e E<strong>in</strong>führung <strong>in</strong> die Thematik der AR, sowie der im Labor als Testumgebungverwendeten Hardware und deren Aufbau. Anschließend wurde den Testpersonen„BillARd“ vorgestellt, sowohl theoretisch, also die Spielsteuerung, als auch praktisch anhande<strong>in</strong>es kurzen Spielzuges als Demonstration. Die Durchführung der Untersuchung konnte jeweilsnur abwechselnd erfolgen, da nur e<strong>in</strong> HMD für die Evaluierung zur Verfügung stand.Durch die Darstellung der Szene auf dem Monitor konnte jedoch die Person ohne HMD jederzeitdem Spielgeschehen folgen. Der Versuch gliederte sich <strong>in</strong> drei Teile. Im ersten Teilsollten die Versuchspersonen unter Anleitung des Spielleiters (Versuchsleiters) sich mit allenMöglichkeiten des Systems vertraut machen. Hierbei erhielten sie direkte Unterstützungdurch den Spielleiter bei auftretenden Problemen. Im zweiten Teil wurde die bildbasierte Kollisionserkennungh<strong>in</strong>zugefügt. Dabei wurden verschiedene Gegenstände auf dem realen Tischplatziert, die nun aktiv <strong>in</strong> das Spielgeschehen e<strong>in</strong>gebunden wurden. Dazu wurden die Probandenaufgefordert, diese Objekte direkt mit <strong>in</strong> ihren Spielzug e<strong>in</strong>zub<strong>in</strong>den (beispielsweisedurch direktes Anspielen). Im dritten Teil erfolgte e<strong>in</strong> freies Spielen, das nicht mehr durchden Spielleiter betreut wurde. Jeder Teil der Evaluierung dauerte fünf M<strong>in</strong>uten. Abschließendsollten die Versuchspersonen e<strong>in</strong>en Fragebogen ausfüllen mit den zu bewerteten Eigenschaftenauf e<strong>in</strong>er Skala von 1 (sehr positiv) bis 6 (sehr negativ).132


7.6. BILLARD - AUGMENTED REALITY BILLARD7.6.2 ErgebnisseAn der Untersuchung nahmen <strong>in</strong>sges<strong>am</strong>t zehn Personen teil. Diese waren im Alter von 22bis 58 Jahren, das durchschnittliche Alter betrug 28 Jahre. 50% der Personen hatte bis zumZeitpunkt der Untersuchung ke<strong>in</strong>erlei Erfahrung mit AR ges<strong>am</strong>melt. 80% der Personen hattendagegen bereits Erfahrungen im Bereich Spiele ges<strong>am</strong>melt, die mittels VR dargestelltwerden. Im Folgenden werden die Ergebnisse der Fragebögen zu den jeweiligen Eigenschaftenaufgeführt. Dabei wird zwischen der Bewertung des „BillARd“ und der Bewertung derMenüsteuerung mittels des WII-Controllers als E<strong>in</strong>- und Ausgabegerät unterschieden.7.6.2.1 BillARdAbb. 7.28 zeigt die Ergebnisse der Bewertung von „BillARd“ h<strong>in</strong>sichtlich der Umsetzung <strong>in</strong>AR. Dabei zeigt sich, dass der Tragekomfort des HMDs mit e<strong>in</strong>er Wertung von 4 als nicht besondersgut e<strong>in</strong>gestuft wird. Der Realismus der virtuellen Objekte und deren Integration <strong>in</strong> diereale Umgebung der Versuchspersonen wurde jeweils mit 3 bewertet. Die Bewegungsfreiheitder Personen wurde im Schnitt mit e<strong>in</strong>er Wertung von 2,6 versehen, dabei wurde das Queuemit den Markern mit e<strong>in</strong>er Wertung von 2 deutlich besser bewertet, als der Gerüstaufbau fürdie Kollisionserkennung mit 2,9.Bewertungspunkte65432104Komfort HMD3 3RealismusvirtuellerObjekteIntegrationvirtuelleObjekte2Marker <strong>am</strong>Queue2,9StörfaktorGerüst2,6BewegungsfreiheitEigenschaftAbbildung 7.28: Ergebnisse der Fragebögen zu <strong>Augmented</strong> <strong>Reality</strong>Die Ergebnisse der Bewertung des Spieles „BillARd“ selbst zeigt Abb. 7.29. Die generelleSpielbarkeit von „BillARd“ wurde im Mittel mit 3,2 bewertet. Die Eignung des Spieles alsDemonstrator für AR wurde mit 2,1 als positiv e<strong>in</strong>gestuft. Dabei wurde die Schwierigkeit, virtuelleKugeln durch das reale Queue anzustoßen mit 2,3 als e<strong>in</strong>fach bewertet. Hilfreich wurdehierbei auch der virtuelle Schatten der Spitze des Queue mit 2,2 benotet, der die aktuellePosition der Spitze über dem Tisch anzeigte. Der <strong>am</strong> Queue angebrachte WII-Controller alsMenüsteuerung und Gerät für das haptische Feedback wurde mit 1,9 als nicht störend empfunden.Die Erkennbarkeit der Optionen, die mittels der Menüsteuerung e<strong>in</strong>gestellt werdenkönnen, wurde mit 1,6 als sehr gut bewertet.In Abb. 7.30 s<strong>in</strong>d die Ergebnisse der Bewertung bzgl. der Umsetzung der Physik dargestellt.Der Realismus der Stöße der Kugeln wurde im Schnitt mit 2,9 als durchschnittlichbewertet. Der Bewegungsablauf wurde dagegen mit 1,6 als sehr flüssig und realistisch bewertet.Das haptische Feedback, das beim Stoßen e<strong>in</strong>er Kugel durch den WII-Controller über dasQueue an den Nutzer abgegeben wird, wurde dagegen lediglich mit e<strong>in</strong>em Wert von 3,6 bewertet.Die realen Objekte, die durch die Kollisionserkennung <strong>in</strong> die AR Umgebung e<strong>in</strong>gebrachtwurden, wurden mit 2,4 als realistisch e<strong>in</strong>gestuft. Die <strong>Interaktion</strong> mit der AR Umgebung,133


KAPITEL 7.EVALUIERUNGBewertungspunkte65432103,2Spielbarkeit Eignung fürAR2,1 1,9 2,3 2,2Störungdurch WIIEigenschaftE<strong>in</strong>fachheitKugeln zutreffenQueueSchatten1,6ErkennbarkeitvonOptionenAbbildung 7.29: Ergebnisse der Fragebögen zu BillardBewertungspunkte65432102,9RealismusStoßen derKugeln1,6FlüssigeBewegungKugeln3,6HaptischesFeedbackEigenschaft2,4Realismusreale Objekte(Szene)2Realismusreale Objekte(Physik)Abbildung 7.30: Ergebnisse der Fragebögen zu Physikalso die E<strong>in</strong>b<strong>in</strong>dung <strong>in</strong> die Physik, wurde sogar noch besser mit e<strong>in</strong>er Bewertung von 2,0e<strong>in</strong>geschätzt.7.6.2.2 WII-Controller als E<strong>in</strong>- und AusgabegerätDa die Bewertung e<strong>in</strong>es E<strong>in</strong>- und Ausgabegerätes sehr stark an die Applikation gebunden ist,wurde die Evaluierung des WII-Controllers anhand der Steuerung der Optionen von „BillARd“durchgeführt. Abb. 7.31 zeigt, dass die Gestaltung des Menüs mit e<strong>in</strong>em Wert von 1,5 als sehrpositiv bewertet wurde. Die Möglichkeit, die Menüs mittels des WII-Controllers zu steuernwurde ebenfalls mit e<strong>in</strong>er Wertung von 1,6 als sehr positiv e<strong>in</strong>gestuft. Die Intuitivität desMenüs wurde mit 1,5 als sehr <strong>in</strong>tuitiv bewertet.7.6.3 Diskussion der ErgebnisseDie Evaluierung hat gezeigt, dass das umgesetzte „BillARd“ durchaus als Demonstrator fürdie Möglichkeiten der AR herangezogen werden kann. Die Bewertungen zeigen deutlich, dassdas Umfeld, das zur Erzeugung von AR verwendet wird, noch nicht den Anforderungen derProbanden genügt hat. So wurde beispielsweise der Tragekomfort des HMDs als eher schlechte<strong>in</strong>gestuft. Zum anderen zeigte sich, dass die Darstellungsqualität durch das HMD noch nichtüberzeugen konnte. Die zusätzliche Hardware neben dem HMD <strong>in</strong> Form e<strong>in</strong>es Gerüstes zurBefestigung der K<strong>am</strong>era, die der Kollisionserkennung dient, hat ebenfalls e<strong>in</strong>e Verschlechterungder empfundenen Bewegungsfreiheit zur Folge. Insges<strong>am</strong>t zeigt sich also, dass sich dieHardware noch nicht genügend <strong>in</strong> die reale Umgebung des Nutzers e<strong>in</strong>gliedert. Neben diesen134


7.7. BOWL-AR-AMA - AUGMENTED REALITY BOWLINGBewertungspunkte65432101,5 1,6 1,5GestaltungMenüsteuerung durchWIIEigenschaftFunktionenAbbildung 7.31: Ergebnisse der Fragebögen zu WII-ControllerProblemen mit der Hardware taucht auch die Problematik der korrekten Kalibrierung desHMDs auf, das bei ungenauer Kalibrierung e<strong>in</strong>en Versatz zwischen dem rechten und l<strong>in</strong>kenAuge aufweist, so dass virtuelle Objekte nicht als e<strong>in</strong>ziges stereoskopes Objekt wahrgenommenwerden können. Die Umsetzung von Billard <strong>in</strong> die AR konnte jedoch <strong>in</strong> großen Teilen dieProbanden überzeugen. Zwar wurde die generelle Spielbarkeit nur neutral bewertet, aber dieseWertung kann durchaus auf die Probleme der Hardware zurückgeführt werden. Durchwegs gutwurden die e<strong>in</strong>zelnen Möglichkeiten bewertet, mit der virtuellen Umgebung <strong>in</strong> <strong>Interaktion</strong> zutreten. Daher fiel auch die generelle Wertung der Eignung als Demonstrator gut aus. Lediglichdie physikalische Simulation des Spieles und der e<strong>in</strong>gebundenen realen Objekte kann nichtüberzeugen. So wurde das haptische Feedback mittels des WII-Controllers als schlecht bewertet,was sich auf die mangelnde Intensität zurückführen ließ. Die Integration realer Objektekonnte dagegen ebenfalls nur etwas besser als neutral abschneiden. Da „BillARd“ jedoch alsDemonstrator der <strong>Interaktion</strong>smöglichkeiten konzipiert wurde, kann man zus<strong>am</strong>menfassendfeststellen, dass sich dieses Spiel für die Darstellung von <strong>Interaktion</strong>smöglichkeiten <strong>in</strong>nerhalbder AR gut verwenden lässt.7.7 Bowl-AR-<strong>am</strong>a - <strong>Augmented</strong> <strong>Reality</strong> Bowl<strong>in</strong>gDas <strong>in</strong> Kapitel 6.2 vorgestellte Anwendungsszenario „Bowl-AR-<strong>am</strong>a“ wurde <strong>in</strong> e<strong>in</strong>er Evaluierunguntersucht. Da es sich hierbei um e<strong>in</strong>e Applikation handelt, die erstellt wurde, um dieMöglichkeiten der <strong>in</strong> dieser Arbeit entwickelten <strong>Interaktion</strong>smöglichkeiten zu demonstrieren,lag der Fokus dieser Studie nicht auf der Evaluierung der e<strong>in</strong>zelnen <strong>Interaktion</strong>smöglichkeiten,sondern auf der Bewertung der Applikation und der Integration der <strong>Interaktion</strong>sarten selbst.Im Vordergrund standen also die Bewertung von Eigenschaften, die die Wirkung auf dieVersuchsperson beschreiben. Hierzu zählen das Design der Applikation (also die Modellierungder virtuellen Objekte <strong>in</strong>nerhalb von „Bowl-AR-<strong>am</strong>a“), die Umsetzung von der zugrunde liegendenPhysik (bzw. ihrer Simulation) und ihrer Visualisierung (Flüssigkeit der Bewegungen),der daraus resultierende ges<strong>am</strong>te E<strong>in</strong>druck der Realitätstreue und den dadurch hervorgerufenenGrad der Immersion. Weiterh<strong>in</strong> wurden Eigenschaften bewertet, die den Umgang mitdem Ges<strong>am</strong>tsystem beschreiben, wie etwa der Komfort (Tragekomfort Hardware) oder derGrad der Freiheit, die e<strong>in</strong>e Bewegung <strong>in</strong>nerhalb von „Bowl-AR-<strong>am</strong>a“ ermöglicht.Zusätzlich wurden auch die <strong>Interaktion</strong>skomponenten h<strong>in</strong>sichtlich ihrer Integration <strong>in</strong>“Bowl-AR-<strong>am</strong>a” abgefragt. Zu diesen zählten die Integration der Videokonferenz aus Kapitel5.2 (also die Präsenz des Gesprächspartners), die Darstellung der Szene mittels der135


KAPITEL 7.EVALUIERUNGvirtuellen K<strong>am</strong>era aus Kapitel 3.2 (Flüssigkeit der Bewegungen sowie Platzierungsmöglichkeiten)sowie das Handl<strong>in</strong>g mit den Targets der Gestenerkennung aus Kapitel 4.1.Ausgehend von diesen Ergebnissen sollte also sichergestellt werden, ob die entwickelteApplikation „Bowl-AR-<strong>am</strong>a“ als Demonstration zur <strong>Interaktion</strong> <strong>in</strong> AR <strong>in</strong> der Spieledomänegeeignet ist.7.7.1 Versuchsaufbau/-ablaufZur Durchführung der Testspiele wurden die Personen <strong>in</strong> kle<strong>in</strong>en Gruppen <strong>in</strong> das AR-Labordes Lehrstuhls e<strong>in</strong>geladen. Hier stand den Personen „Bowl-AR-<strong>am</strong>a“ zur Verfügung.Zu Beg<strong>in</strong>n konnte jeder Spieler se<strong>in</strong>en N<strong>am</strong>en <strong>in</strong>s User Interface des Bowl<strong>in</strong>gspiels e<strong>in</strong>tragen.Nachdem das Spiel gestartet wurde, erhielten alle Teilnehmer e<strong>in</strong>e kurze E<strong>in</strong>führung <strong>in</strong>die AR, die Funktionsweise des IR-Track<strong>in</strong>gsystems sowie den Umgang mit dem HMD undden F<strong>in</strong>gertargets.Im Anschluss daran folgten e<strong>in</strong>e kurze E<strong>in</strong>weisung <strong>in</strong> die Spielregeln von Bowl<strong>in</strong>g und dereigentliche Beg<strong>in</strong>n des Spieles. E<strong>in</strong>e Person war Teil der AR und konnte die <strong>Interaktion</strong>smöglichkeitenvon „Bowl-AR-<strong>am</strong>a“ nutzen. Hierbei wurden sämtliche <strong>Interaktion</strong>smöglichkeitenverwendet, um e<strong>in</strong>e anschließende Wertung aller Möglichkeiten vornehmen zu können. Zeitgleichkonnten die restlichen Teilnehmer, die nicht Teil der AR waren, das Geschehen mithilfeder virtuellen K<strong>am</strong>era mitverfolgen und die E<strong>in</strong>stellung dieser frei wählen. Nach jeder Spielrundewurde die aktive Person gewechselt, um e<strong>in</strong>e gleichmäßige Verteilung auf aktive undpassive Spieler zu erreichen. E<strong>in</strong>er der passiven Spieler diente dabei als Gesprächspartner dervirtuellen Videokonferenz und wurde somit <strong>in</strong> die Umgebung des aktiven Spielers e<strong>in</strong>geblendet.Nach Beendigung des Spiels füllte jeder Teilnehmer e<strong>in</strong>en Fragebogen aus, auf dem dieEigenschaften mittels e<strong>in</strong>er Skala von 1 (sehr positiv) bis 6 (sehr negativ) bewertet werdenkonnten.7.7.2 ErgebnisseInsges<strong>am</strong>t wurden zwölf Testpersonen im Alter von 11 bis 27 Jahren e<strong>in</strong>geladen. Hiervonwaren 50% Schüler und 50% Studenten. 42% der Personen gaben an, bereits Erfahrungenmit AR ges<strong>am</strong>melt zu haben. Dagegen werden VR-Spiele von 49% der Befragten von Zeit zuZeit und von 33% regelmäßig gespielt. Lediglich e<strong>in</strong>e Person machte die Aussage, noch nie e<strong>in</strong>Spiel <strong>in</strong> VR gespielt zu haben.Im Folgenden werden die Ergebnisse der Befragung zu den e<strong>in</strong>zelnen Eigenschaften aufgeführt.Abb. 7.32 und 7.33 stellen diese Ergebnisse dar.Als besonders positiv ist den Befragten das Design der virtuellen Objekte sowie die Bewegungsfreiheitim Raum aufgefallen. Dies zeigt die Bewertung mit 1,75 bzw. 2,5. Der Komfortdes HMD dagegen wurde mit 4,25 als unkomfortabel empfunden. Auch die Flüssigkeit derBewegungen der virtuellen Objekte <strong>in</strong> der AR-Szene wurde mit 3,25 eher negativ beurteilt.Der Grad der Immersion wurde durchschnittlich mit 2,83 bewertet, der Realitätse<strong>in</strong>druck mit3.Die Möglichkeit, die Bowl<strong>in</strong>gkugel mit den F<strong>in</strong>gern greifen zu können, wurde von den Spielernpositiv aufgenommen und als e<strong>in</strong>e <strong>in</strong>tuitive Methode bezeichnet. Der Umgang mit denTargets, also deren Handl<strong>in</strong>g, wurde durchschnittlich mit 2,58 bewertet. Allerd<strong>in</strong>gs traten immerwieder Probleme mit der Erkennung der F<strong>in</strong>gertargets auf, was von den Versuchspersonenstark bemängelt wurde. Sobald sich e<strong>in</strong> Target außerhalb des Sichtbereichs der IR-K<strong>am</strong>eras136


7.7. BOWL-AR-AMA - AUGMENTED REALITY BOWLINGBewertungspunkte65432104,2533,252,832,51,75Design Realität Bewegung Immersion Komfort FreiheitEigenschaftAbbildung 7.32: Ergebnisse der Fragebögen IBewertungspunkte65432102,583,722,1732,15Handl<strong>in</strong>g Präsenz VirtuelleBewegung Platzierung PhysikK<strong>am</strong>eraEigenschaft2,9Abbildung 7.33: Ergebnisse der Fragebögen IIbefand, konnte dieses nicht identifiziert werden und folglich konnten weder Gesten erkanntwerden, noch konnte die Kugel, die an dieses Target gebunden war, angezeigt werden.Die Testpersonen hatten nicht das Gefühl, dass sich die von der virtuellen Konferenze<strong>in</strong>geblendete Person tatsächlich im Raum befand. Die Präsenz des Gesprächspartners wurdehier nur mit e<strong>in</strong>em Wert von 3,72 bewertet. Als Grund hierfür wurde angegeben, dass dasvirtuelle Abbild des Konferenzteilnehmers zu kle<strong>in</strong> war, um es als realistisch empf<strong>in</strong>den zukönnen. Außerdem war die Qualität des K<strong>am</strong>erabildes nicht hochwertig genug.Die virtuelle K<strong>am</strong>era, generell bewertet mit 2,17, konnte bei den meisten Personen den E<strong>in</strong>druckerwecken, die Geschehnisse der AR live mitverfolgen zu können. Leider war die Wiedergabeder Aufnahmen immer wieder stark ruckartig, weshalb die Flüssigkeit der Bewegungender Objekte nur mit 3 bewertet wurde. Die verschiedenen Möglichkeiten zur Positionierungder K<strong>am</strong>era wurden mit 2,15 bewertet.Die Realitätstreue der Physik, welche der Simulation der Objektbewegungen zugrunde lag,wurde mit 2,9 bewertet.Am Ende des Spiels stimmten alle Personen der Aussage zu, dass ihnen das Bowl<strong>in</strong>gspielSpaß gemacht habe und dass ihnen e<strong>in</strong> guter Überblick über die Arbeiten im Bereich der ARdes Lehrstuhls vermittelt wurde. E<strong>in</strong> Teil der Personen war durch das Bowl<strong>in</strong>gspiel überzeugt,dass AR <strong>in</strong> der Spieledomäne <strong>in</strong> naher Zukunft e<strong>in</strong>e echte Konkurrenz zu Spielen der VR se<strong>in</strong>kann.7.7.3 Diskussion der ErgebnisseDie Untersuchung hat gezeigt, dass „Bowl-AR-<strong>am</strong>a“ als Demonstration der <strong>Interaktion</strong>smöglichkeiten<strong>in</strong>nerhalb der AR geeignet ist. Die Bewertungen zeigen, dass die Versuchspersonen137


KAPITEL 7.EVALUIERUNGsowohl das Spiel selbst als auch deren <strong>in</strong>tegrierte <strong>Interaktion</strong>smöglichkeiten gut beurteilen.Mängel im Umgang mit dem System traten durch das IR-Track<strong>in</strong>g auf, auf dem die Gestenerkennungbasiert. Durch Lücken beim Erkennen der Targets an den F<strong>in</strong>gern der Nutzertraten teilweise Probleme bei der <strong>Interaktion</strong> auf, die sich <strong>in</strong> e<strong>in</strong>er schlechteren Bewertungausdrücken.Weiterh<strong>in</strong> konnte die Flüssigkeit der Bewegungen nicht überzeugen. Durch e<strong>in</strong>e große Anzahlvon Objekten und Bewegungen entstand e<strong>in</strong>e hohe Auslastung durch die Visualisierung,die zu Verzögerungen <strong>in</strong> der Berechnung der Darstellung führte. Dies resultierte sowohl fürdie Darstellung der AR als auch der VR mittels der virtuellen K<strong>am</strong>era <strong>in</strong> e<strong>in</strong>er schlechterenBewertung.Ebenfalls litt die Bewertung des Komforts unter den Trageeigenschaften des verwendetenHMDs. Dieses ist für e<strong>in</strong>en Dauerbetrieb ergonomisch nicht geeignet und verursachte e<strong>in</strong>edeutlich schlechtere Wahrnehmung des Komforts für die Nutzer. Dazu trugen auch die verwendetenTargets des Gestenerkenners bei, die nicht für e<strong>in</strong>en Dauerbetrieb für den Nutzergeeignet s<strong>in</strong>d.138


KAPITEL 8ResumeeAbschließend fasst das folgende Kapitel die Ergebnisse, die <strong>in</strong> dieser Arbeit gewonnenwurden, zus<strong>am</strong>men und diskutiert diese. Daraufh<strong>in</strong> folgt e<strong>in</strong> kurzer Ausblick auf möglichesVerbesserungspotential und weitere Forschungsrichtungen, die sich im Laufe dieser Arbeitherausgestellt haben.8.1 Zus<strong>am</strong>menfassungDie hier vorliegende Arbeit hat die Zielsetzung, multimodale <strong>Interaktion</strong> mit e<strong>in</strong>em <strong>Augmented</strong><strong>Reality</strong>-System <strong>in</strong> der Spieledomäne zu ermöglichen. Fokus der Arbeit ist hierbei nicht dieFusion bestehender E<strong>in</strong>gabemöglichkeiten zu e<strong>in</strong>er Nutzer<strong>in</strong>tention, sondern die Entwicklunggeeigneter <strong>Interaktion</strong>smöglichkeiten zwischen dem Nutzer und dem System speziell für die<strong>Augmented</strong> <strong>Reality</strong>. Die <strong>Interaktion</strong>smöglichkeiten bestehen hierbei aus der <strong>Interaktion</strong> desSystems zum Nutzer, also aus Ausgabemöglichkeiten, sowie der <strong>Interaktion</strong> des Nutzers zumSystem, also der E<strong>in</strong>gabemöglichkeiten. Weiterh<strong>in</strong> steht auch die <strong>Interaktion</strong> zwischen realenund virtuellen Objekten im Fokus dieser Arbeit sowie <strong>in</strong>terpersonelle <strong>Interaktion</strong> <strong>in</strong> Forme<strong>in</strong>es Videokonferenzsystems.Die Arbeit beruht auf e<strong>in</strong>er eigens entwickelten Softwareplattform, die alle umgesetztenFunktionalitäten <strong>in</strong> e<strong>in</strong>em ges<strong>am</strong>ten Paket vere<strong>in</strong>t. Das Konzept dieser Plattform sieht dieVerteilung e<strong>in</strong>zelner, modular zus<strong>am</strong>menstellbarer Komponenten auf verschiedene Rechnervor. Somit kann die Rechenlast auf verschiedene Systeme verteilt werden und spezielle Applikationenkönnen auf dafür optimierten Plattformen ausgeführt werden. Die Kommunikationerfolgt hier mittels Netzwerkverb<strong>in</strong>dungen.Auf dieser Plattform basieren drei <strong>Interaktion</strong>sarten, die die Ausgaben des Systems anden Nutzer übertragen. Diese gliedern sich <strong>in</strong> zwei visuelle und e<strong>in</strong>e akustische Methode. Dievisuelle Ausgabe ist sowohl über <strong>Augmented</strong>, als auch Virtual <strong>Reality</strong> möglich. Dabei wird <strong>in</strong>beiden Fällen auf e<strong>in</strong>e bereits kommerziell existierende Software („Unifeye“) zurückgegriffen,die im Rahmen dieser Arbeit um die Verteilbarkeit auf e<strong>in</strong>e beliebig große Anzahl Rechnererweitert wurde. Dabei liegt der Schwerpunkt auf der Umsetzung e<strong>in</strong>er performanten undgleichzeitig synchron ablaufenden Steuerung aller angeschlossener Rechner, die die virtuelleSzene mit <strong>Augmented</strong> oder Virtual <strong>Reality</strong> darstellen. Dies wird durch die Verwendung e<strong>in</strong>esspeziellen Fr<strong>am</strong>eworks gewährleistet, das für verteilte Netze entwickelt und optimiert wurde(„ICE“).139


KAPITEL 8.RESUMEEDie Umsetzung von virtueller Akustik erfolgt durch b<strong>in</strong>aurale Methoden. Durch die Filterungvirtueller Schallquellen lässt sich mittels Head Related Transfer Functions die Positione<strong>in</strong>er solchen Quelle simulieren. Dabei wird die Blickrichtung des Nutzers mithilfe des IR-Track<strong>in</strong>gsystems verfolgt und für die Berechnung der virtuellen Schallquelle herangezogen.Die so gewonnenen akustischen Signale werden über e<strong>in</strong>en Kopfhörer an den Nutzer abgegeben.Für E<strong>in</strong>gaben an das System stehen <strong>in</strong> dieser Arbeit drei Möglichkeiten zur Verfügung. Umspeziell die Vorteile der <strong>Augmented</strong> <strong>Reality</strong> zu wahren, ist <strong>in</strong> das System e<strong>in</strong> Gestenerkenner<strong>in</strong>tegriert, der die Position von Daumen und Zeigef<strong>in</strong>ger des Nutzers über das IR-Track<strong>in</strong>gverfolgt. Basierend auf diesen Daten können sowohl statische Gesten (wie etwa Greifen undZeigen) sowie dyn<strong>am</strong>ische Gesten (wie etwa W<strong>in</strong>ken) unterschieden werden. Dadurch könnenGesten nicht nur als Auslöser für Funktionen genutzt werden, sondern stehen <strong>in</strong> direktemräumlichen Zus<strong>am</strong>menhang mit der Szene. So kann e<strong>in</strong> virtuelles Objekt mit e<strong>in</strong>er Greifgestedirekt verschoben werden. Die Erkennung statischer Gesten erfolgt <strong>in</strong> dieser Arbeit mittelsEuklid’scher Abstandsmessung, die Erkennung dyn<strong>am</strong>ischer Gesten basiert auf der Klassifizierungmittels Hidden-Markov-Modellen. Um den Tragekomfort zu erhöhen, stehen passiveund aktive IR-Targets zur Verfügung.Weiterh<strong>in</strong> besteht die Möglichkeit, E<strong>in</strong>gaben mit e<strong>in</strong>em Tangible User Interfaces vorzunehmen.Dabei wurden Sensoren, die Neigungsw<strong>in</strong>kel und W<strong>in</strong>kelgeschw<strong>in</strong>digkeiten messenkönnen, <strong>in</strong> e<strong>in</strong> Gehäuse verbaut. Zus<strong>am</strong>men mit vier Tastern entstehen so Bedienmöglichkeiten,virtuelle Objekte direkt manipulieren zu können, <strong>in</strong>dem das Interface bewegt oder geneigtwird.Als e<strong>in</strong> komb<strong>in</strong>iertes E<strong>in</strong>- und Ausgabegerät besteht im System e<strong>in</strong> WII Controller, dersowohl E<strong>in</strong>gaben <strong>in</strong> Form von Tastern verarbeiten kann, als auch Ausgaben bereit stellt. Dazuzählt e<strong>in</strong> visuelles und e<strong>in</strong> haptisches Feedback. Durch die Verwendung dieses Controllerskönnen also haptische Informationen <strong>in</strong> Form von Vibrationen an den Nutzer übertragenwerden. Weiterh<strong>in</strong> bildet dieser Controller die Basis für e<strong>in</strong> generisches Menüsystem für 3D-Menüs <strong>in</strong> <strong>Augmented</strong> <strong>Reality</strong> Applikationen. Dieses System bildet abstrakt Menüs ab, die sovon beliebigen Anwendungen gestaltet und verwendet werden können.Um die <strong>Interaktion</strong>en nicht nur auf die E<strong>in</strong>- und Ausgabe zu beschränken, stellt das Systemauch die Wechselwirkung von realen und virtuellen Objekten zur Verfügung. Hierbei werdenmithilfe e<strong>in</strong>er K<strong>am</strong>era reale Objekte auf der Oberfläche e<strong>in</strong>es Tisches, über dem die K<strong>am</strong>er<strong>am</strong>ontiert ist, detektiert, durch Algorithmen der Bildverarbeitung vom Tisch segmentiertund schließlich <strong>in</strong> e<strong>in</strong> 3-D-Modell übergeführt. Dieses Modell kann dann <strong>in</strong> die <strong>Augmented</strong><strong>Reality</strong>-Szene <strong>in</strong>tegriert werden, wodurch auch Kollisionen zwischen dem Modell und weiterenvirtuellen Objekten möglich s<strong>in</strong>d. Diese Kollisionen können mit Aktionen verknüpft werden,die den E<strong>in</strong>druck von <strong>Interaktion</strong> zwischen dem realen und dem virtuellen Objekt entstehenlässt.Um die <strong>in</strong>terpersonelle <strong>Interaktion</strong> zu bedienen, bietet das System e<strong>in</strong>e Videokonferenzan, die sich <strong>in</strong> die virtuelle Umgebung des Nutzers e<strong>in</strong>fügt. Der Gesprächspartner wird dabeivon e<strong>in</strong>er K<strong>am</strong>era aufgenommen, optional vom H<strong>in</strong>tergrund befreit und <strong>in</strong> die <strong>Augmented</strong><strong>Reality</strong>-Szene e<strong>in</strong>gebunden.Um die <strong>Interaktion</strong>smöglichkeiten anschaulich darstellen zu können, zeigt diese Arbeitzwei Beispiele aus der Spieledomäne. Zum e<strong>in</strong>en e<strong>in</strong> virtuelles Billardspiel („BillARd“), zumanderen e<strong>in</strong> virtuelles Bowl<strong>in</strong>gspiel („Bowl-AR-<strong>am</strong>a“). Diese beiden Beispielszenarien zeigendemonstrativ die Möglichkeiten auf, die durch die zuvor beschriebenen <strong>Interaktion</strong>sarten bestehen.140


8.2. DISKUSSIONSämtliche grundlegenden <strong>Interaktion</strong>sarten wurden <strong>in</strong> Nutzerstudien untersucht. Die Ergebnisseder Evaluierung zeigen e<strong>in</strong>e durchweg positive Bilanz und Akzeptanz durch die Anwender.Das zugrunde liegende Track<strong>in</strong>gsystem verursachte die größten Probleme, da sichherausstellt, dass ungenaue oder gar fehlende Information über die Position und Orientierungvon Nutzer oder Objekten zu großen E<strong>in</strong>bußen <strong>in</strong> der Wahrnehmung der Versuchspersonenführt. Ebenfalls zeigt sich, dass die Ansätze für Nutzere<strong>in</strong>gaben <strong>in</strong> speziellen Szenarien unterschiedlichgut abschneiden.8.2 DiskussionBetrachtet man die e<strong>in</strong>zelnen <strong>Interaktion</strong>smöglichkeiten genauer, zeigt sich, dass Defizite festzustellens<strong>in</strong>d.Die Performance der Darstellung mittels der <strong>Augmented</strong> <strong>Reality</strong> ist direkt abhängig vonder Anzahl der geladenen Objekte. E<strong>in</strong>e höhere Anzahl von virtuellen Objekten verr<strong>in</strong>gertalso die Anzahl der pro Sekunde berechneten Bilder. Ebenfalls ist nur e<strong>in</strong>e begrenzte Anzahlvon Manipulationen pro Sekunde möglich. Flüssige Bewegungen können daher nur schwerabgebildet werden. Hier muss e<strong>in</strong> Kompromiss zwischen Schrittweite der Bewegung und derBewegungsgeschw<strong>in</strong>digkeit getroffen werden. E<strong>in</strong> weiteres Problem stellt die Notwendigkeitder exakten Kalibrierung dar. Um e<strong>in</strong>e exakte Überlagerung von realen und virtuellen Objektenzu erhalten, muss das System sehr genau kalibriert werden, was jedoch sehr schwierig ist.Da die Darstellung der Virtual <strong>Reality</strong> auf derselben Grundlage basiert, gilt die Problematikhier ebenso.Die virtuelle Akustik bereichert zwar die <strong>Augmented</strong> <strong>Reality</strong>, jedoch ist diese <strong>in</strong> dieserArbeit auf e<strong>in</strong>e re<strong>in</strong>e Simulation der Richtung, aus der e<strong>in</strong> virtueller Schall wahrgenommenwird, beschränkt. Das umgesetzte System ist weder <strong>in</strong> der Lage die Elevation noch die Entfernunge<strong>in</strong>es Schalles zu simulieren. Diese kann lediglich durch die Lautstärke der virtuellenSchallquelle nachgeahmt werden.Die Erkennung von Gesten mithilfe des <strong>in</strong>fraroten Track<strong>in</strong>gsystems ermöglicht die Steuerungvon ortsgebundenen Funktionen <strong>in</strong>nerhalb der <strong>Augmented</strong> <strong>Reality</strong>. Dies erlaubt demNutzer e<strong>in</strong>e sehr realistische <strong>Interaktion</strong> mit se<strong>in</strong>er virtuellen Umgebung, da sie sehr starkan die <strong>Interaktion</strong> mit der realen Umgebung angelehnt ist. Diese Methode jedoch be<strong>in</strong>haltetgroße Probleme, falls das Track<strong>in</strong>gsystem nicht e<strong>in</strong>wandfrei läuft. Werden die Targets, dieder Nutzer an se<strong>in</strong>en F<strong>in</strong>gern tragen muss, nicht erkannt, verliert das System jegliche <strong>Interaktion</strong>smöglichkeit.In der Evaluierung zeigte sich, dass der Verlust der Targets sehr häufigauftritt und d<strong>am</strong>it die Zuverlässigkeit der Gestenerkennung stark ver<strong>in</strong>gert wird.Die vom Track<strong>in</strong>gsystem unabhängige Gestenerkennung mittels des Tangible User Interfacesermöglicht e<strong>in</strong>en neuen Zugang für den Nutzer, Manipulationen auf virtuelle Objekteanzuwenden. In der vorliegenden Umsetzung jedoch zeigt sich, dass das Interface zwar dieManipulation von Objekten e<strong>in</strong>fach ermöglicht, aber die Selektion, also die Auswahl e<strong>in</strong>esvirtuellen Objektes, nur schwer durchführbar ist. Weiterh<strong>in</strong> ist das Interface aktuell auf dreiFreiheitsgrade beschränkt und bildet somit nicht alle sechs möglichen Grade der Translationund Rotation ab.Die Verwendung des WII Controllers als haptisches Ausgabegerät ist noch nicht ausreichend.Bei diesem Gerät können bislang ke<strong>in</strong>e Par<strong>am</strong>eter h<strong>in</strong>sichtlich der Vibrationsstärkeoder Frequenz vorgegeben werden. Aus diesem Grund können ke<strong>in</strong>e unterschiedlichen Artenvon Feedback vom Nutzer differenziert werden.Mit der Kollisionserkennung von realen und virtuellen Objekten werden Wechselwirkungen141


KAPITEL 8.RESUMEEder realen und virtuellen Umgebung des Nutzers <strong>in</strong> Echtzeit ermöglicht, ohne dabei zuvor dierealen Objekte modellieren oder tracken zu müssen. Beim aktuellen Systemaufbau ist jedochnur die Erfassung von Konturen möglich, da nur e<strong>in</strong>e e<strong>in</strong>zelne K<strong>am</strong>era für die Bilderfassungzum E<strong>in</strong>satz kommt. Somit können ke<strong>in</strong>e komplexen 3-D-Objekte für e<strong>in</strong>e <strong>Interaktion</strong> herangezogenwerden. Weiterh<strong>in</strong> ermöglicht das System ke<strong>in</strong>e Kollisionserkennung <strong>in</strong> verschiedenenEbenen, die Erkennung arbeitet aufgrund der Projektion aller Objekte auf e<strong>in</strong>e e<strong>in</strong>zige Ebenenur <strong>in</strong> 2-D. Die Erkennung von Kollisionen ist aufgrund der Performance auf e<strong>in</strong> speziellesSzenario optimiert, <strong>in</strong>dem virtuelle Objekte nur <strong>in</strong> Form von Kugeln berücksichtigt werden.Kollisionen können also nur zwischen e<strong>in</strong>em realen Objekt und virtuellen Kugeln detektiertwerden.Die <strong>Interaktion</strong> zwischen vone<strong>in</strong>ander entfernten Nutzern ermöglicht die Integration e<strong>in</strong>esVideokonferenzsystems. Dieses erlaubt die Kollaboration mehrerer Nutzer <strong>in</strong>nerhalb derselben<strong>Augmented</strong> <strong>Reality</strong>-Szene und stellt zeitgleich die Kommunikation zwischen den Nutzernher. Die Darstellung ist hierbei jedoch auf 2-D beschränkt und die Qualität der Aufnahmewird durch die Verwendung von Algorithmen der Bildverarbeitung zur Trennung von H<strong>in</strong>tergrundund Gesprächspartner limitiert. Diese verursachen e<strong>in</strong> Rauschen im Bild, das sich durchLöcher im Dialogpartner oder Artefakte aus dem H<strong>in</strong>tergrund zeigen. Weiterh<strong>in</strong> besteht dieProblematik, dass der Gesprächspartner ortsfest vor der K<strong>am</strong>era bef<strong>in</strong>dlich se<strong>in</strong> muss, um ihnfür die anderen Gesprächsteilnehmer zu erfassen. Möchte der Teilnehmer nun auch <strong>in</strong>nerhalbse<strong>in</strong>er <strong>Augmented</strong> <strong>Reality</strong>-Umgebung <strong>in</strong>teragieren, ist er auf den kle<strong>in</strong>en Raum vor der K<strong>am</strong>erabegrenzt und wird mit se<strong>in</strong>em Head-Mounted-Display dargestellt, das er tragen muss,um se<strong>in</strong>e Szene dargestellt zu bekommen.8.3 AusblickNimmt man nun die Diskussion der Probleme als Ausgangsbasis, ergeben sich zunächst fürdie e<strong>in</strong>zelnen <strong>Interaktion</strong>smöglichkeiten weiterführende Entwicklungsmöglichkeiten.Um die Darstellung der <strong>Augmented</strong> und Virtual <strong>Reality</strong> zu verbessern, wird e<strong>in</strong>e größereRechenleistung benötigt. Gleichzeitig könnte auch die Verwendung e<strong>in</strong>es anderen Softwarepakets,als das <strong>in</strong> dieser Arbeit verwendete, e<strong>in</strong>e Steigerung der Performance mit sich br<strong>in</strong>gen.Die Entwicklung verbesserter Algorithmen zur Kalibrierung des Ges<strong>am</strong>tsystems kann die Genauigkeitbei der Überlagerung von realen und virtuellen Objekten verbessern.Die Verbesserung der virtuellen Akustik ist bereits Schwerpunkt der Forschung. Die Simulationder Elevation der virtuellen Schallquelle sowie deren Abstand zum Nutzer könnte dieImmersion des Nutzers weiter erhöhen. Ebenfalls könnte die Umsetzung e<strong>in</strong>es Systems, dasnicht auf e<strong>in</strong>em Kopfhörer, sondern e<strong>in</strong>em Lautsprecherarray basiert, e<strong>in</strong>e Verbesserung zurFolge haben.Die Erkennung von Gesten mit dem Track<strong>in</strong>gsystem kann auf verschiedene Arten weitergeführtwerden. Allem voran muss die Verbesserung der Erkennungsrate der Targets stehen.Das Bestreben <strong>in</strong> dieser Arbeit, alternativ auf aktive Targets auszuweichen, sollte weiterverfolgtwerden. Dabei kann durch die Reduktion der e<strong>in</strong>zelnen LEDs auf e<strong>in</strong>e je F<strong>in</strong>ger derTragekomfort erheblich verbessert werden. Dazu muss jedoch noch e<strong>in</strong> Weg gefunden werden,e<strong>in</strong>zelne LEDs zuverlässig dem zugehörigen F<strong>in</strong>ger zuzuordnen. Ist dies geschehen, könnendurch die Verbesserung der Klassifikation durch neue Ansätze die Erkennungsrate und derWortschatz der dyn<strong>am</strong>ischen Gesten erhöht werden.Das Tangible User Interface könnte durch die Erweiterung der Sensorik auf die Erfassungvon sechs Freiheitsgraden profitieren, da d<strong>am</strong>it alle Manipulationen durch dieses Interface142


8.3. AUSBLICKabgedeckt werden könnten. Dabei ist jedoch die genaue Kalibrierung der Sensorik notwendig,die den Messdaten <strong>in</strong>sbesondere bei der Messung von Bewegungen (statt Rotationen) demDrift der Hardware gegenüberstehen. Um exakte Bewegungsabstände erfassen zu können,muss diese Problematik weiterer Forschungsgegenstand se<strong>in</strong>.Um e<strong>in</strong>e Differenzierung von haptischem Feedback zu ermöglichen, können weitere Geräte<strong>in</strong>tegriert werden, die <strong>in</strong> der Lage s<strong>in</strong>d haptisches Feedback zu erzeugen. Hierbei kann <strong>in</strong>Zukunft der Fokus auf Geräten liegen, sowohl Vibrationen, als auch Stöße erzeugen können.Dies könnte beispielsweise durch e<strong>in</strong> mechanisches Federsystem ermöglicht werden, das e<strong>in</strong>egespannte Feder ruckartig entspannt und somit e<strong>in</strong>en Stoß generiert.Die <strong>Interaktion</strong> zwischen realer und virtueller Umgebung kann durch den E<strong>in</strong>satz vonzwei K<strong>am</strong>eras verbessert werden. Mit e<strong>in</strong>er zweiten K<strong>am</strong>era können Tiefen<strong>in</strong>formationen überdie realen Objekte ermittelt werden und somit nicht nur als Kontur <strong>in</strong> 2-D sondern <strong>in</strong> 3-Dmodelliert werden. D<strong>am</strong>it wäre auch die Kollisionserkennung nicht nur auf e<strong>in</strong>e e<strong>in</strong>zige Ebenebeschränkt, sondern könnte <strong>in</strong> Abhängigkeit der Höhe der Objekte erfolgen. Die Steigerung derPerformance durch optimierte Algorithmen kann die Detektion von Kollisionen verbessern,e<strong>in</strong>e Erweiterung auf e<strong>in</strong>e größere Anzahl von Objekten, die nicht mehr als Kugel idealisierts<strong>in</strong>d, wäre dadurch erreichbar.Verbesserte Algorithmen der Bildverarbeitung könnten auch die Qualität der Videokonferenzpositiv bee<strong>in</strong>flussen. E<strong>in</strong>e robustere Trennung zwischen H<strong>in</strong>tergrund und Teilnehmerführt zu e<strong>in</strong>er erhöhten Realitätstreue der Darstellung. Die Verwendung von zwei K<strong>am</strong>eras zurErfassung des Dialogpartners könnte auch hier die Darstellung von 2-D <strong>in</strong> 3-D ermöglichen.Denkbar wäre auch, Modelle des Gesprächspartners zu erstellen, die dann <strong>in</strong> Abhängigkeitdes aktuellen Zustandes <strong>in</strong> Echtzeit modelliert würden. Somit könnten die Ortsgebundenheitdes Teilnehmers und der störende E<strong>in</strong>fluss des sichtbaren Head-Mounted-Displays elim<strong>in</strong>iertwerden.Das umgesetzte System kann durch das H<strong>in</strong>zufügen weiterer <strong>Interaktion</strong>smöglichkeitenverbessert werden. So kann die Ausgabeseite durch die Erweiterung von visueller und akustischerDarstellung um die taktile Ausgabe ergänzt werden. D<strong>am</strong>it ist die Szene nicht nur sichtundhörbar, sondern auch tastbar. Fügt man der E<strong>in</strong>gabe klassische Elemente, wie etwa dieSpracherkennung, h<strong>in</strong>zu, kann die Nutzer<strong>in</strong>tention durch die Fusion bestehender <strong>Interaktion</strong>sartenrobuster gestaltet werden.Die vorliegende Arbeit hat also die Grundlage dafür geschaffen, Spiele aus der Virtual<strong>Reality</strong> <strong>in</strong> die <strong>Augmented</strong> <strong>Reality</strong> zu übertragen. Werden die bestehenden Methoden verbessertund neuartige Möglichkeiten h<strong>in</strong>zugefügt, kann <strong>in</strong> Zukunft die <strong>Interaktion</strong> mit Spielen <strong>in</strong>der realen Umgebung des Nutzers erfolgen.143


KAPITEL 8.RESUMEE144


ABBILDUNGSVERZEICHNISAbbildungsverzeichnis1.1 Beg<strong>in</strong>n der Computerspiele: „Spacewar“ und „Pong“ . . . . . . . . . . . . . . . 21.2 Weiterentwicklung der Computerspiele: „Pacman“ und „The Eidolon“ . . . . . 31.3 Sony’s Eyetoy für die Playstation 2 [23] . . . . . . . . . . . . . . . . . . . . . . 52.1 Realitäts-Virtualitäts-Kont<strong>in</strong>uum nach [57] . . . . . . . . . . . . . . . . . . . . 82.2 Schematischer Aufbau e<strong>in</strong>es <strong>Augmented</strong> <strong>Reality</strong> Systems . . . . . . . . . . . . 92.3 Schematischer Aufbau e<strong>in</strong>es Virtual <strong>Reality</strong> Systems . . . . . . . . . . . . . . . 102.4 Zus<strong>am</strong>menhang der Koord<strong>in</strong>atensysteme <strong>in</strong> 2-D . . . . . . . . . . . . . . . . . 112.5 Translation e<strong>in</strong>es Koord<strong>in</strong>atensystems . . . . . . . . . . . . . . . . . . . . . . . 112.6 Rotation (um die Z-Achse) e<strong>in</strong>es Koord<strong>in</strong>atensystems . . . . . . . . . . . . . . 122.7 Skalierung e<strong>in</strong>es Koord<strong>in</strong>atensystems . . . . . . . . . . . . . . . . . . . . . . . 122.8 Schematischer Aufbau e<strong>in</strong>es Head-Mounted-Displays mit Video-See-Through . 162.9 Schematischer Aufbau e<strong>in</strong>es Head-Mounted-Displays mit Optical-See-Through 172.10 Nutzer mit Head-Mounted-Displays . . . . . . . . . . . . . . . . . . . . . . . . 172.11 Darstellung mittels mobiler Endgeräte [88] . . . . . . . . . . . . . . . . . . . . 182.12 Darstellung e<strong>in</strong>es roten Quaders mittels e<strong>in</strong>es Head-Up-Displays . . . . . . . . 192.13 Informationsverarbeitung des Menschen . . . . . . . . . . . . . . . . . . . . . . 202.14 Schematischer Aufbau des „Unifeye SDK“ . . . . . . . . . . . . . . . . . . . . 212.15 Komponenten des Track<strong>in</strong>gsystems: K<strong>am</strong>era und Target . . . . . . . . . . . . . 222.16 Schematischer Aufbau des Track<strong>in</strong>gsystems . . . . . . . . . . . . . . . . . . . . 222.17 Versendetes Datenpaket des Track<strong>in</strong>gsystems . . . . . . . . . . . . . . . . . . . 232.18 Schichtenmodell der Softwarestruktur . . . . . . . . . . . . . . . . . . . . . . . 242.19 Schematischer Aufbau der Softwarestruktur . . . . . . . . . . . . . . . . . . . 253.1 Überlagerung von virtuellen Patientendaten <strong>in</strong> e<strong>in</strong>er Operation [54] . . . . . . 283.2 <strong>Augmented</strong> <strong>Reality</strong> <strong>in</strong> der Spieledomäne . . . . . . . . . . . . . . . . . . . . . 293.3 <strong>Augmented</strong> <strong>Reality</strong> im Fernsehen [49] . . . . . . . . . . . . . . . . . . . . . . . 293.4 Methoden zur Synchronisation e<strong>in</strong>er virtuellen Szene . . . . . . . . . . . . . . 303.5 Virtual <strong>Reality</strong> <strong>in</strong> der Spieledomäne . . . . . . . . . . . . . . . . . . . . . . . . 323.6 Umsetzung Virtual <strong>Reality</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.7 Darstellungsarten e<strong>in</strong>er virtuellen Szene . . . . . . . . . . . . . . . . . . . . . . 34I


ABBILDUNGSVERZEICHNISII3.8 Schematischer Aufbau der Komb<strong>in</strong>ation von <strong>Augmented</strong> <strong>Reality</strong> und VirtuellerAkustik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.9 Umsetzung Virtuelle Akustik . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.10 Overlap-Save Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.11 Partitionierung des E<strong>in</strong>gangssignals . . . . . . . . . . . . . . . . . . . . . . . . 393.12 Partitionierung der Impulsantwort des Filters . . . . . . . . . . . . . . . . . . 393.13 Faltung des partitionierten E<strong>in</strong>gangssignals und Impulsantwort des Filters . . 403.14 Erzeugung des Ausgangssignals . . . . . . . . . . . . . . . . . . . . . . . . . . 404.1 Beispiel für <strong>in</strong>strumentierte Gestenerkennung: F<strong>in</strong>gARTips [9] . . . . . . . . . 424.2 Beispiel für „nicht-<strong>in</strong>strumentierte“ Gestenerkennung: VTM - VideobasiertesTrack<strong>in</strong>g-Modul [58] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3 Schematischer Aufbau des Gestenerkenners . . . . . . . . . . . . . . . . . . . . 444.4 Vergleich aktiver und passiver F<strong>in</strong>gertargets . . . . . . . . . . . . . . . . . . . 444.5 Greifen e<strong>in</strong>es virtuellen Objektes mittels Gestenerkenner . . . . . . . . . . . . 454.6 Hermitsche Spl<strong>in</strong>e Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . 464.7 Längentreue Abbildung als Transformation . . . . . . . . . . . . . . . . . . . . 474.8 Rotation der Bewegungsebene als Transformation . . . . . . . . . . . . . . . . 484.9 Teilbewegungen e<strong>in</strong>er Geste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.10 <strong>Interaktion</strong> mittels Gesten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.11 Vergleich vollständige Targets mit passiven und aktiven Markern . . . . . . . . 514.12 Serienschaltung des Targets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.13 Befestigungsmöglichkeiten der Batterie des aktiven Targets . . . . . . . . . . . 524.14 Beispiele für Tangible User Interfaces . . . . . . . . . . . . . . . . . . . . . . . 534.15 Schematischer Aufbau des Tangible User Interfaces . . . . . . . . . . . . . . . 544.16 Sensormodul mit Beschleunigungssensor (1), Gyroskop (2)) und e<strong>in</strong>gezeichnetenMessrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.17 Pull-Up-Schaltung für die Tasten des Tangible User Interfaces . . . . . . . . . 564.18 Design des Tangible User Interfaces . . . . . . . . . . . . . . . . . . . . . . . . 574.19 Schematischer Aufbau des WII-Controllers als E<strong>in</strong>- und Ausgabegerät . . . . . 604.20 WII-Controller von N<strong>in</strong>tendo [63] . . . . . . . . . . . . . . . . . . . . . . . . . 614.21 Exemplarische Umsetzung des Filestre<strong>am</strong>s des WII-Controllers . . . . . . . . . 614.22 Hierarchie der Menüstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.23 Aufbau e<strong>in</strong>es Elements im Menü . . . . . . . . . . . . . . . . . . . . . . . . . . 634.24 Exemplarischer Ablauf e<strong>in</strong>er Statusänderung . . . . . . . . . . . . . . . . . . . 635.1 Ansichten des Aufbaus des Kollisionserkenners . . . . . . . . . . . . . . . . . . 675.2 Schematischer Aufbau der Kollisionserkennung . . . . . . . . . . . . . . . . . . 675.3 Schritte der Objekterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.4 Dünnes Objekt bei der Objekterkennung . . . . . . . . . . . . . . . . . . . . . 715.5 R<strong>in</strong>g bei der Objekterkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.6 Modellierung von realen Objekten und deren Kollisionen mit virtuellen Objekten<strong>in</strong> <strong>Augmented</strong> <strong>Reality</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.7 Videokonferenzsystem nach [40] . . . . . . . . . . . . . . . . . . . . . . . . . . 755.8 Schematischer Aufbau des Videokonferenzsystem . . . . . . . . . . . . . . . . . 765.9 Kommunikation zwischen Client und Server . . . . . . . . . . . . . . . . . . . 775.10 Schematischer Aufbau des Servers . . . . . . . . . . . . . . . . . . . . . . . . . 785.11 Darstellung von Media Daten <strong>in</strong> e<strong>in</strong>er <strong>Augmented</strong> <strong>Reality</strong> Szene . . . . . . . . 78


ABBILDUNGSVERZEICHNIS5.12 Differenzbilder mit verschiedenen Schwellwerten . . . . . . . . . . . . . . . . . 796.1 Schematischer Aufbau von „BillARd“ . . . . . . . . . . . . . . . . . . . . . . . 826.2 Tisch und K<strong>am</strong>erahalterung von „BillARd“ . . . . . . . . . . . . . . . . . . . . 836.3 Queue mit WII-Controller von „BillARd“ . . . . . . . . . . . . . . . . . . . . . 836.4 „BillARd“ aus Sicht e<strong>in</strong>es Beobachters . . . . . . . . . . . . . . . . . . . . . . 846.5 Berechnung der Geschw<strong>in</strong>digkeiten bei Kollision zweier Kugeln . . . . . . . . . 866.6 Berechnung der Geschw<strong>in</strong>digkeiten bei Kollision mit der Bande . . . . . . . . . 866.7 Kollisionserkennung bei „BillARd“ . . . . . . . . . . . . . . . . . . . . . . . . 886.8 Queue mit WII Controller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 896.9 Ablauf bei der Navigation im Menü . . . . . . . . . . . . . . . . . . . . . . . . 906.10 Schematischer Aufbau von „Bowl-AR-<strong>am</strong>a“ . . . . . . . . . . . . . . . . . . . . 916.11 „Bowl-AR-<strong>am</strong>a“ im E<strong>in</strong>satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 926.12 Das Graphical User Interface von „Bowl-AR-<strong>am</strong>a“ . . . . . . . . . . . . . . . . 926.13 Behandlung von Gesten <strong>in</strong> „Bowl-AR-<strong>am</strong>a“ . . . . . . . . . . . . . . . . . . . . 946.14 Greifen der Kugel mittels Gestenerkennung . . . . . . . . . . . . . . . . . . . . 956.15 Ansichten der virtuellen K<strong>am</strong>era <strong>in</strong> „Bowl-AR-<strong>am</strong>a“ . . . . . . . . . . . . . . . 986.16 Videokonferenz <strong>in</strong> „Bowl-AR-<strong>am</strong>a“ . . . . . . . . . . . . . . . . . . . . . . . . 997.1 Versuchsablauf der Evaluierung des Gestenerkenners . . . . . . . . . . . . . . . 1027.2 Ansichten des Evaluierungsszenarios des Gestenerkenners . . . . . . . . . . . . 1037.3 Erkennungsrate im ersten Test . . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.4 Erkennungsrate im zweiten Test . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.5 Ergebnisse der Fragebögen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067.6 Versuchsablauf der Evaluierung des Tangible User Interfaces . . . . . . . . . . 1117.7 Virtuelle Szenarien bei der Evaluierung des Tangible User Interfaces . . . . . . 1127.8 Reale Szenarien bei der Evaluierung des Tangible User Interfaces . . . . . . . . 1127.9 Zeiten für Versuch 1 (Schriftzug: AR TUI) . . . . . . . . . . . . . . . . . . . . 1147.10 Zeiten für Versuch 2 (Ziffern-Würfel mit Städten<strong>am</strong>en) . . . . . . . . . . . . . 1157.11 Zeiten für Versuch 3 (Baukasten) . . . . . . . . . . . . . . . . . . . . . . . . . 1167.12 Auswertung des Fragebogenteils der ersten beiden Versuche I . . . . . . . . . . 1167.13 Auswertung des Fragebogenteils der ersten beiden Versuche II . . . . . . . . . 1177.14 Auswertung des Fragebogenteils zum dritten Versuch I . . . . . . . . . . . . . 1187.15 Auswertung des Fragebogenteils zum dritten Versuch II . . . . . . . . . . . . . 1187.16 Vergleich der Bewertung der Schnelligkeit und mentalen Beanspruchung nachVersuch 1 + 2 und Versuch 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1197.17 Versuchsablauf der Evaluierung der Virtuellen Akustik . . . . . . . . . . . . . 1207.18 Ansichten des Evaluierungsszenarios der Virtuellen Akustik . . . . . . . . . . . 1217.19 Bewertung der Szenarien mit Hubschrauberschall . . . . . . . . . . . . . . . . 1227.20 Bewertung der Szenarien mit Bienenschwarmschall . . . . . . . . . . . . . . . 1227.21 Vergleich der Szenarien mit unterschiedlichen Schalldarbietungen . . . . . . . . 1237.22 Darstellung der Ergebnisse der Lokalisation von Schallen mit visuellem Stimulusmit Medianen und Interquartilbereichen . . . . . . . . . . . . . . . . . . . 1247.23 Versuchsablauf der Evaluierung der Videokonferenz . . . . . . . . . . . . . . . 1267.24 Videokonferenz mit unterschiedlichen Systemkomb<strong>in</strong>ationen . . . . . . . . . . 1277.25 Videokonferenz mit und ohne H<strong>in</strong>tergrund . . . . . . . . . . . . . . . . . . . . 1287.26 Ergebnisse Versuche 1, 3, 5 und 7 mit H<strong>in</strong>tergrund . . . . . . . . . . . . . . . 1297.27 Ergebnisse Versuche 2, 4, 6 und 8 ohne H<strong>in</strong>tergrund . . . . . . . . . . . . . . . 129III


ABBILDUNGSVERZEICHNIS7.28 Ergebnisse der Fragebögen zu <strong>Augmented</strong> <strong>Reality</strong> . . . . . . . . . . . . . . . . 1337.29 Ergebnisse der Fragebögen zu Billard . . . . . . . . . . . . . . . . . . . . . . . 1347.30 Ergebnisse der Fragebögen zu Physik . . . . . . . . . . . . . . . . . . . . . . . 1347.31 Ergebnisse der Fragebögen zu WII-Controller . . . . . . . . . . . . . . . . . . 1357.32 Ergebnisse der Fragebögen I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1377.33 Ergebnisse der Fragebögen II . . . . . . . . . . . . . . . . . . . . . . . . . . . 137IV


ABKÜRZUNGSVERZEICHNISAbkürzungsverzeichnisAR . . . . . . . . . . . . . .BRIR . . . . . . . . . . . .FFT . . . . . . . . . . . . .HMD . . . . . . . . . . . .HMM . . . . . . . . . . . .HRIR . . . . . . . . . . . .HSI . . . . . . . . . . . . . .IFS . . . . . . . . . . . . . .IR . . . . . . . . . . . . . . .KOS . . . . . . . . . . . . .LED . . . . . . . . . . . . .MMK . . . . . . . . . . . .OST . . . . . . . . . . . . .TCP . . . . . . . . . . . . .TUI . . . . . . . . . . . . .UDP . . . . . . . . . . . . .USB . . . . . . . . . . . . .VA . . . . . . . . . . . . . .VR . . . . . . . . . . . . . .VRML . . . . . . . . . . .VST . . . . . . . . . . . . .<strong>Augmented</strong> <strong>Reality</strong>B<strong>in</strong>aural Room Impulse ResponseFast-Fourier TransformationHead-Mounted-DisplayHidden-Markov-ModellHead Related Impulse ResponseHermitsche-Spl<strong>in</strong>e-InterpolationIndexedFaceSetInfrarotKoord<strong>in</strong>atensystemLight Emitt<strong>in</strong>g DiodeMensch-Masch<strong>in</strong>e-KommunikationOptical-See-ThroughTransmission Control ProtocolTangible User InterfaceUser Datagr<strong>am</strong> ProtocolUniversal Serial BusVirtuelle AkustikVirtual <strong>Reality</strong>Virtual <strong>Reality</strong> Modell<strong>in</strong>g LanguageVideo-See-ThroughV


ABKÜRZUNGSVERZEICHNISVI


STICHWORTVERZEICHNISStichwortverzeichnis<strong>Augmented</strong> <strong>Reality</strong>, 7, 27Basistransformation, 11B<strong>in</strong>aural Room Impulse Response (BRIR), 35Bluetooth, 59DatenMedia, 75Offl<strong>in</strong>e, 75Onl<strong>in</strong>e, 75Differenzbild, 79Differenzbildanalyse, 66Dilatation, 70Dunkelstufe, 68Erosion, 70Faltung, 39Farbton, 68FilterHSV, 68RGB, 68GestenDyn<strong>am</strong>isch, 44Erkennung, 41Statisch, 44Teilbewegungen, 48Head Related Impulse Response (HRIR), 35Head-Mounted-Display, 11, 23InfrarotTrack<strong>in</strong>g, 43<strong>Interaktion</strong>Multimodal, 19InterfaceTangible User, 52Interpolation, 46K<strong>am</strong>eraInfrarot, 22Virtuell, 35Kollisionserkennung, 65, 74Konturensuche, 71Koord<strong>in</strong>atenhomogene, 14kartesische, 12Koord<strong>in</strong>atensystem, 7K<strong>am</strong>era, 10Objekt, 10Target, 22Welt, 9, 10, 22Media Daten, 75Morphologische OperationDilatation, 70Erosion, 70Schließen, 70Offl<strong>in</strong>e Daten, 75Onl<strong>in</strong>e Daten, 75Overlap-Save Algorithmus, 38Pacman, 2PartitionierungE<strong>in</strong>gangssignal, 39Filterimpulsantwort, 39Pong, 2Projektion, 74VII


STICHWORTVERZEICHNISRotation, 11WII-Controller, 59Sättigung, 68Schließen, 70Segmentierung, 45Skalierung, 11Space Invaders, 2Spacewar, 1Spl<strong>in</strong>e Interpolation, 46Tangible User Interface, 52TargetAktiv, 43F<strong>in</strong>ger, 43Infrarot, 43Passiv, 43The Eidolon, 3Track<strong>in</strong>g, 9bildbasiert, 66DatenInterpolation, 46Segmentierung, 45Infrarot, 22, 41K<strong>am</strong>era, 22Target, 22TargetAktiv, 50Transformation, 11, 47Basis-, 11Ebenenrotation, 47Längentreu, 47Rotation, 11Skalierung, 11Translation, 11Translation, 11Unifeye SDK, 21VideoKonferenz, 74Konferenzsystem, 74Stre<strong>am</strong>, 75Videokonferenzsystem, 742D, 76Virtual <strong>Reality</strong>, 9, 32Virtual <strong>Reality</strong> Modell<strong>in</strong>g Language, 75Virtuelle Akustik, 35VRML, 72, 75IndexedFaceSet, 72VIII


LITERATURVERZEICHNISLiteraturverzeichnis[1] Dyn<strong>am</strong>ic virtual convergence for video see-through head-mounted displays: Ma<strong>in</strong>ta<strong>in</strong><strong>in</strong>gmaximum stereo overlap throughout a close-range work space. In ISAR ’01: Proceed<strong>in</strong>gsof the IEEE and ACM International Symposium on <strong>Augmented</strong> <strong>Reality</strong> (ISAR’01), page137, Wash<strong>in</strong>gton, DC, USA, 2001. IEEE Computer Society.[2] A.R.T. advanced realtime track<strong>in</strong>g GmbH. http://www.ar-track<strong>in</strong>g.com. Website, Zugriffvon, 2006.[3] Marco Andreetto, Nicola Brusco, and Guido M. Cortelazzo. Automatic 3d model<strong>in</strong>gof archaeological objects. In Conference on Computer Vision and Pattern RecognitionWorkshop - Volume 1, 2003.[4] Ronald Azuma and Gary Bishop. Improv<strong>in</strong>g static and dyn<strong>am</strong>ic registration <strong>in</strong> an opticalsee-through hmd. In SIGGRAPH ’94: Proceed<strong>in</strong>gs of the 21st annual conference onComputer graphics and <strong>in</strong>teractive techniques, pages 197–204, New York, NY, USA, 1994.ACM.[5] Ronald T. Azuma. A survey of augmented reality. Presence: Teleoperators and VirtualEnvironments, 6(4):355–385, August 1997.[6] Istvan Barakonyi, T<strong>am</strong>er Fahmy, and Dieter Schmalstieg. Remote collaboration us<strong>in</strong>gaugmented reality videoconferenc<strong>in</strong>g. In GI ’04: Proceed<strong>in</strong>gs of Graphics Interface 2004,pages 89–96, School of Computer Science, University of Waterloo, Waterloo, Ontario,Canada, 2004. Canadian Human-Computer Communications Society.[7] István Barakonyi, Markus Weilguny, Thomas Psik, and Dieter Schmalstieg. Monkeybridge:autonomous agents <strong>in</strong> augmented reality g<strong>am</strong>es. In ACE ’05: Proceed<strong>in</strong>gs of the2005 ACM SIGCHI International Conference on Advances <strong>in</strong> computer enterta<strong>in</strong>menttechnology, pages 172–175, New York, NY, USA, 2005. ACM.[8] C. Benoit, J. Mart<strong>in</strong>, C. Pelachaud, L. Schomaker, and B. Suhm. Audio-visual andmultimodal speech systems.[9] Volkert Buchmann, Stephen Violich, Mark Bill<strong>in</strong>ghurst, and Andy Cockburn. F<strong>in</strong>gartips:gesture based direct manipulation <strong>in</strong> augmented reality. In GRAPHITE ’04: Proceed<strong>in</strong>gsIX


LITERATURVERZEICHNISof the 2nd <strong>in</strong>ternational conference on Computer graphics and <strong>in</strong>teractive techniques <strong>in</strong>Australasia and South East Asia, pages 212–221, New York, NY, USA, 2004. ACM.[10] O. Cakmakci and J. Rolland. Head-worn displays: a review. Display Technology, Journalof, 2(3):199–216, 2006.[11] Denis Chekhlov, Andrew Gee, Andrew Calway, and Walterio Mayol-Cuevas. N<strong>in</strong>ja on aplane: Automatic discovery of physical planes for augmented reality us<strong>in</strong>g visual sl<strong>am</strong>. InInternational Symposium on Mixed and <strong>Augmented</strong> <strong>Reality</strong> (ISMAR), November 2007.[12] Adrian David Cheok, Siew Wan Fong, Kok Hwee Goh, Xubo Yang, Wei Liu, and Farz<strong>am</strong>Farzbiz. Human pacman: a sens<strong>in</strong>g-based mobile enterta<strong>in</strong>ment system with ubiquitouscomput<strong>in</strong>g and tangible <strong>in</strong>teraction. In NetG<strong>am</strong>es ’03: Proceed<strong>in</strong>gs of the 2nd workshopon Network and system support for g<strong>am</strong>es, pages 106–117, New York, NY, USA, 2003.ACM.[13] Adrian David Cheok, Kok Hwee Goh, Wei Liu, Farz<strong>am</strong> Farbiz, Sze Lee Teo, Hui SiangTeo, Shang P<strong>in</strong>g Lee, Yu Li, Siew Wan Fong, and Xubo Yang. Human pacman: a mobilewide-area enterta<strong>in</strong>ment system based on physical, social, and ubiquitous comput<strong>in</strong>g. InAdvances <strong>in</strong> Computer Enterta<strong>in</strong>ment Technology, pages 360–361. ACM, 2004.[14] BioWare Corp. http://nwn.bioware.com/. Website, Zugriff von, 2008.[15] Intel Corp. http://www.<strong>in</strong>tel.com/technology/comput<strong>in</strong>g/opencv/<strong>in</strong>dex.htm. Website,Zugriff von, 2007.[16] Valve Corp. http://orange.half-life2.com/hl2.html. Website, Zugriff von, 2007.[17] Ascension Technology Corporation. http://www.ascension-tech.com/. Website, Zugriffvon, 2008.[18] E. Corteel. Synthesis of directional sources us<strong>in</strong>g wave field synthesis, possibilities, andlimitations. EURASIP J. Appl. Signal Process., 2007(1):188–188, 2007.[19] F. Dai and M. Goebel. Virtual prototyp<strong>in</strong>g - an approach us<strong>in</strong>g virtual reality techniques.In Proceed<strong>in</strong>gs of 14th ASME Int. Computers <strong>in</strong> Eng<strong>in</strong>eer<strong>in</strong>g Conference, 1994.[20] C<strong>am</strong>bridge University Eng<strong>in</strong>eer<strong>in</strong>g Department. http://htk.eng.c<strong>am</strong>.ac.uk/. Website,Zugriff von, 2007.[21] Gerhard Eckel. Immersive audio-augmented environments: The listen project. In IV ’01:Proceed<strong>in</strong>gs of the Fifth International Conference on Information Visualisation, pages571–573, Wash<strong>in</strong>gton, DC, USA, 2001. IEEE Computer Society.[22] Jens Eckste<strong>in</strong> and Elmar Schömer. Dyn<strong>am</strong>ic collision detection <strong>in</strong> virtual reality applications.In V. Skala, editor, WSCG’99 Conference Proceed<strong>in</strong>gs, 1999.[23] Sony Computer Enterta<strong>in</strong>ment Europe. http://de.playstation.com/g<strong>am</strong>esmedia/g<strong>am</strong>es/detail/item32241/eyetoy:-play-3/.Website, Zugriff von, 2008.[24] The Tao Fr<strong>am</strong>ework. http://www.taofr<strong>am</strong>ework.com. Website, Zugriff von, 2007.X


LITERATURVERZEICHNIS[25] Henry Fuchs, Mark A. Liv<strong>in</strong>gston, R<strong>am</strong>esh Raskar, D‘nardo Colucci, Kurtis Keller, AndreiState, Jessica R. Crawford, Paul Rademacher, S<strong>am</strong>uel H. Drake, and Anthony A.Meyer. <strong>Augmented</strong> reality visualization for laparoscopic surgery. In MICCAI ’98: Proceed<strong>in</strong>gsof the First International Conference on Medical Image Comput<strong>in</strong>g and Computer-Assisted Intervention, pages 934–943, London, UK, 1998. Spr<strong>in</strong>ger-Verlag.[26] V. Garcia, E. Debreuve, and M. Barlaud. A contour track<strong>in</strong>g algorithm for rotoscopy. InIEEE International Conference on Acoustics, Speech, and Signal Process<strong>in</strong>g (ICASSP),Toulouse, France, May 2006.[27] Y. Genc, F. Sauer, F. Wenzel, M. Tuceryan, and N. Navab. Optical see-through hmdcalibration: A stereo method validated with a video see-through system. In InternationalSymposium for <strong>Augmented</strong> <strong>Reality</strong>, 2000.[28] Anders Henrysson, Mark Bill<strong>in</strong>ghurst, and Mark Ollila. Face to face collaborative ar onmobile phones. In ISMAR ’05: Proceed<strong>in</strong>gs of the Fourth IEEE and ACM InternationalSymposium on Mixed and <strong>Augmented</strong> <strong>Reality</strong>, pages 80–89, Wash<strong>in</strong>gton, DC, USA, 2005.IEEE Computer Society.[29] Gerrit Hillebrand, Mart<strong>in</strong> Bauer, Kurt Achatz, and Gudrun Kl<strong>in</strong>ker. Inverse k<strong>in</strong>ematic<strong>in</strong>frared optical f<strong>in</strong>ger track<strong>in</strong>g. In 9th International Conference on Humans andComputers (HC 2006), September 2006.[30] Charles E. Hughes, Eileen Smith, Christopher Stapleton, and Dar<strong>in</strong> E. Hughes. Augment<strong>in</strong>gmuseum experiences with mixed reality. In KSCE 2004: Proceed<strong>in</strong>gs of KnowledgeShar<strong>in</strong>g and Collaborative Eng<strong>in</strong>eer<strong>in</strong>g - 2004, 2004.[31] Dar<strong>in</strong> E. Hughes, Scott Vogelpohl, and Charles E. Hughes. Design<strong>in</strong>g a system for effectiveuse of immersive audio <strong>in</strong> mixed reality. In SIMCHI’05: Proceed<strong>in</strong>gs of 2005International Conference on Human-Computer Interface Advances <strong>in</strong> Model<strong>in</strong>g and Simulation,pages 51–57, 2005.[32] Atari Inc. http://www.atari.com. Website, Zugriff von, 2008.[33] Electronic Arts Inc. http://www.uo.com/. Website, Zugriff von, 2008.[34] InterSense Inc. http://www.<strong>in</strong>tersense.com. Website, Zugriff von, 2008.[35] L<strong>in</strong>den Research Inc. http://secondlife.com. Website, Zugriff von, 2007.[36] ZeroC Inc. http://www.zeroc.com. Website, Zugriff von, 2008.[37] S. Julier, Y. Baillot, M. Lanzagorta, D. Brown, and L. Rosenblum. Bars: Battlefieldaugmented reality system. In NATO Symposium on Information Process<strong>in</strong>g Techniquesfor Military Systems, October 2000.[38] Ed Kaiser, Alex Olwal, David McGee, Hrvoje Benko, Andrea Corrad<strong>in</strong>i, Xiaoguang Li,Phil Cohen, and Steven Fe<strong>in</strong>er. Mutual dis<strong>am</strong>biguation of 3d multimodal <strong>in</strong>teraction<strong>in</strong> augmented and virtual reality. In ICMI ’03: Proceed<strong>in</strong>gs of the 5th <strong>in</strong>ternationalconference on Multimodal <strong>in</strong>terfaces, pages 12–19, New York, NY, USA, 2003. ACM.XI


LITERATURVERZEICHNIS[39] H. Kato and M. Bill<strong>in</strong>ghurst. Marker track<strong>in</strong>g and hmd calibration for a video-basedaugmented reality conferenc<strong>in</strong>g system. In Proceed<strong>in</strong>gs of the 2nd International Workshopon <strong>Augmented</strong> <strong>Reality</strong> (IWAR 99), October.[40] H. Kato, M. Bill<strong>in</strong>ghurst, K. Mor<strong>in</strong>aga, and K. Tachibanaa. The effect of spatial cues <strong>in</strong>augmented reality video conferenc<strong>in</strong>g. In Proceed<strong>in</strong>gs of the 9th International Conferenceon Human-Computer Interaction, pages 478–481, New York, NY, USA, 2001. LawrenceErlbaum Associates.[41] Yoshifumi Kit<strong>am</strong>ura, Andrew Smith, Haruo Takemura, and Fumio Kish<strong>in</strong>o. A real-timealgorithm for accurate collision detection for deformable polyhedral objects. Presence:Teleoper. Virtual Environ., 7(1):36–52, 1998.[42] Kiyoshi Kiyokawa, Yosh<strong>in</strong>ori Kurata, and Hiroyuki Ohno. An optical see-through displayfor mutual occlusion with a real-time stereovision system. Computers and Graphics,25(5):765–779, 2001.[43] Matthias Kranz, Dom<strong>in</strong>ik Schmidt, Paul Holleis, and Albrecht Schmidt. A display cube astangible user <strong>in</strong>terface. In In Adjunct Proceed<strong>in</strong>gs of the Seventh International Conferenceon Ubiquitous Comput<strong>in</strong>g (Demo 22), September 2005.[44] S. Kuschfeldt, M. Schulz, T. Reud<strong>in</strong>g, M. Holzner, and T. Ertl. Advanced visualizationof crashworth<strong>in</strong>ess simulations us<strong>in</strong>g virtual reality techniques. In Proceed<strong>in</strong>gs of theConference on High Performance Comput<strong>in</strong>g <strong>in</strong> Automotive Design, Eng<strong>in</strong>eer<strong>in</strong>g, andManufactur<strong>in</strong>g, Paris, Paris, October 7-10 1996. Silicon Graphics Inc. / Cray Research.[45] Shaun W. Lawson, John R. G. Pretlove, Alison C. Wheeler, and Grah<strong>am</strong> A. Parker.<strong>Augmented</strong> reality as a tool to aid the telerobotic exploration and characterization ofremote environments. Presence: Teleoperators and Virtual Environments, 11(4):352–367,2002.[46] C. Lee and Y. Xu. Onl<strong>in</strong>e, <strong>in</strong>teractive learn<strong>in</strong>g of gestures for human/robot <strong>in</strong>terfaces.In Proceed<strong>in</strong>gs of IEEE International Conference on Robotics and Automation, 1996.[47] T. Lee and T. Höllerer. Handy ar: Markerless <strong>in</strong>spection of augmented reality objectsus<strong>in</strong>g f<strong>in</strong>gertip track<strong>in</strong>g. In International Symposium on Wearable Computers (IEEEISWC) 2007, October 2007.[48] M. A. Liv<strong>in</strong>gston, L. J. Rosenblum, S. J. Julier, D. Brown, Y. Baillot, J. E. Swan II, J. L.Gabbard, and D. Hix. An augmented reality system for military operations <strong>in</strong> urbanterra<strong>in</strong>. In Proceed<strong>in</strong>gs of Interservice/Industry Tra<strong>in</strong><strong>in</strong>g, Simulation, and EducationConference, 2002.[49] Orad Hi Tec Systems Ltd. http://www.orad.tv. Website, Zugriff von, 2007.[50] LucasArts. http://www.lucasarts.com. Website, Zugriff von, 2008.[51] H. Maas. Robust automatic surface reconstruction with structured light. 29:709–713,1992.XII


LITERATURVERZEICHNIS[52] Blair MacIntyre, Maribeth Gandy, Jay Bolter, Steven Dow, and Brendan Hannigan.Dart: The designer’s augmented reality toolkit. In ISMAR ’03: Proceed<strong>in</strong>gs of the The2nd IEEE and ACM International Symposium on Mixed and <strong>Augmented</strong> <strong>Reality</strong>, pages329–330, Wash<strong>in</strong>gton, DC, USA, 2003. IEEE Computer Society.[53] Ph. Mackensen. Auditive Localization. Head movements, an additional cue to localization.PhD thesis, 2004.[54] J. Marescaux, F. Rub<strong>in</strong>o, M. Arenas, D. Mutter, , and L. Soler. <strong>Augmented</strong>-realityassistedlaparoscopic adrenalectomy. JAMA, 292(18):2214–2215, 2004.[55] Frank Melchior, Tobias Laubach, and Diemer de Vries. Author<strong>in</strong>g and user <strong>in</strong>teraction forthe production of wave field synthesis content <strong>in</strong> an augmented reality system. In ISMAR’05: Proceed<strong>in</strong>gs of the Fourth IEEE and ACM International Symposium on Mixed and<strong>Augmented</strong> <strong>Reality</strong>, pages 48–51, Wash<strong>in</strong>gton, DC, USA, 2005. IEEE Computer Society.[56] Metaio. http://www.metaio.com. Website, Zugriff von, 2006.[57] Paul Milgr<strong>am</strong> and Fumio Kish<strong>in</strong>o. A taxonomy of mixed reality visual displays. IEICETransactions on Information Systems, E77-D(12), December 1994.[58] H. Müller. Vtm - Videobasiertes Track<strong>in</strong>g-modul, 2003.[59] Thomas B. Moeslund, Moritz Störr<strong>in</strong>g, and Erik Granum. Po<strong>in</strong>t<strong>in</strong>g and command gesturesfor augmented reality. 2004.[60] W. Niem. Robust and fast modell<strong>in</strong>g of 3-d natural objects from multiple views. In SPIEProceed<strong>in</strong>gs - Image and Video Process<strong>in</strong>g II, pages 388–397, 1994.[61] Trond Nilsen. Tankwar: Ar g<strong>am</strong>es at gencon <strong>in</strong>dy 2005. In ICAT ’05: Proceed<strong>in</strong>gs of the2005 <strong>in</strong>ternational conference on <strong>Augmented</strong> tele-existence, pages 243–244, New York,NY, USA, 2005. ACM.[62] Marleigh Norton and Blair MacIntyre. Butterfly effect: An augmented reality puzzleg<strong>am</strong>e. In ISMAR ’05: Proceed<strong>in</strong>gs of the Fourth IEEE and ACM International Symposiumon Mixed and <strong>Augmented</strong> <strong>Reality</strong>, pages 212–213, Wash<strong>in</strong>gton, DC, USA, 2005. IEEEComputer Society.[63] N<strong>in</strong>tendo of Europe GmbH. http://www.n<strong>in</strong>tendo.de. Website, Zugriff von, 2008.[64] Sharon Oviatt. Ten myths of multimodal <strong>in</strong>teraction. Communications of the ACM,42(11):74–81, 1999.[65] Wouter Pasman, Charles Woodward, Mika Hakkara<strong>in</strong>en, Petri Honk<strong>am</strong>aa, and JoukoHyväkkä. <strong>Augmented</strong> reality with large 3d models on a pda: implementation, performanceand use experiences. In VRCAI ’04: Proceed<strong>in</strong>gs of the 2004 ACM SIGGRAPH<strong>in</strong>ternational conference on Virtual <strong>Reality</strong> cont<strong>in</strong>uum and its applications <strong>in</strong> <strong>in</strong>dustry,pages 344–351, New York, NY, USA, 2004. ACM.[66] J<strong>am</strong>es Patten. http://www.j<strong>am</strong>espatten.com/audiopad. Website, Zugriff von, 2007.[67] Brian Peek. http://blogs.msdn.com/cod<strong>in</strong>g4fun/archive/2007/03/14/1879033.aspx.Website, Zugriff von, 2008.XIII


LITERATURVERZEICHNIS[68] Wayne Piekarski and Bruce Thomas. Arquake: the outdoor augmented reality g<strong>am</strong><strong>in</strong>gsystem. Communications of the ACM, 45(1):36–38, 2002.[69] Polhemus. http://www.polhemus.com/. Website, Zugriff von, 2008.[70] Muriel Pressigout. Real-time markerless track<strong>in</strong>g for augmented reality: The virtualvisual servo<strong>in</strong>g fr<strong>am</strong>ework. IEEE Transactions on Visualization and Computer Graphics,12(4):615–628, 2006. Member-Andrew I. Comport and Member-Eric Marchandand Member-Francois Chaumette.[71] F. Raab, E. Blood, T. Ste<strong>in</strong>er, and R. Jones. Magnetic position and orientation track<strong>in</strong>gsystem. September 1979.[72] Aditya R<strong>am</strong><strong>am</strong>oorthy, N<strong>am</strong>rata Vaswani, Santanu Chaudhury, and Subhashis Banerjee.Recognition of dyn<strong>am</strong>ic hand gestures. Pattern Recognition, 36(9):2069–2081, 2003.[73] H. Regenbrecht, C. Ott, M. Wagner, T. Lum, P. Kohler, W. Wilke, and E. Mueller. Anaugmented virtuality approach to 3d videoconferenc<strong>in</strong>g. In ISMAR ’03: Proceed<strong>in</strong>gs ofthe The 2nd IEEE and ACM International Symposium on Mixed and <strong>Augmented</strong> <strong>Reality</strong>,page 290, Wash<strong>in</strong>gton, DC, USA, 2003. IEEE Computer Society.[74] Stefan Reif<strong>in</strong>ger, Frank Wallhoff, Markus Ablaßmeier, Tony Poitschke, and Gerhard Rigoll.Static and dyn<strong>am</strong>ic hand-gesture recognition for augmented reality applications.In HCI Intern. ’07: Proceed<strong>in</strong>gs of the 12th Conference of Human-Computer-Interaction,pages 728–737, Heidelberg, Germany, 2007. Spr<strong>in</strong>ger-Verlag.[75] Steve Russell. http://de.wikipedia.org/wiki/spacewar. Website, Zugriff von, 2008.[76] Robert Sablatnig, Srdan Tosovic, and Mart<strong>in</strong> K<strong>am</strong>pel. Comb<strong>in</strong><strong>in</strong>g shape from silhouetteand shape from structured light for volume estimation of archaeological vessels. In ICPR’02: Proceed<strong>in</strong>gs of the 16 th International Conference on Pattern Recognition (ICPR’02)Volume 1, pages 364–367, Wash<strong>in</strong>gton, DC, USA, 2002. IEEE Computer Society.[77] B. Schuller, M. Ablaßmeier, R. Müller, S. Reif<strong>in</strong>ger, T. Poitschke, and G. Rigoll. Speechcommunication and multimodal <strong>in</strong>terfaces. In Advanced Man Mach<strong>in</strong>e Interaction, pages141–190, Heidelberg, Germany, 2006. Spr<strong>in</strong>ger-Verlag.[78] ADXL320: Small and Th<strong>in</strong> ±5g Accelerometer. http://www.analog.com. Website, Zugriffvon, 2006.[79] Russel Smith. http://www.ode.org. Website, Zugriff von, 2007.[80] Didier Stricker and Thomas Kettenbach. Real-time and markerless vision-based track<strong>in</strong>gfor outdoor augmented reality applications. In ISAR ’01: Proceed<strong>in</strong>gs of the IEEE andACM International Symposium on <strong>Augmented</strong> <strong>Reality</strong> (ISAR’01), page 189, Wash<strong>in</strong>gton,DC, USA, 2001. IEEE Computer Society.[81] Satoshi Suzuki and Keiichi Abe. Topological structural analysis of digitized b<strong>in</strong>ary imagesby border follow<strong>in</strong>g. Computer Vision, Graphics, and Image Process<strong>in</strong>g, 30(1):32–46,1985.[82] Gunther Theile and Helmut Wittek. Wave field synthesis : A promis<strong>in</strong>g spatial audiorender<strong>in</strong>g concept. Acoustical science and technology, 25(6):393–399, 2004.XIV


LITERATURVERZEICHNIS[83] A. Torger and A. Far<strong>in</strong>a. Real-time partitioned convolution for <strong>am</strong>biophonics surroundsound. pages 195–198, 2001.[84] Trivisio. http://www.trivisio.com. Website, Zugriff von, 2007.[85] Mihran Tuceryan, Yakup Genc, and Nassir Navab. S<strong>in</strong>gle-po<strong>in</strong>t active alignment method(spa<strong>am</strong>) for optical see-through hmd calibration for augmented reality. Presence:Teleoper. Virtual Environ., 11(3):259–276, 2002.[86] Ellison C. Urban. The <strong>in</strong>formation warrior. pages 493–501, 2000.[87] Florian Völk, Stefan Kerber, Hugo Fastl, and Stefan Reif<strong>in</strong>ger. Design und Realisierungvon virtueller Akustik für e<strong>in</strong> <strong>Augmented</strong>-<strong>Reality</strong>-Labor. In Tagungsband DAGA 2007,März 2007.[88] D. Wagner, T. P<strong>in</strong>taric, F. Ledermann, and D. Schmalstieg. Towards massively multiuseraugmented reality on handheld devices. In Proceed<strong>in</strong>gs of the Third InternationalConference on Pervasive Comput<strong>in</strong>g (Pervasive 2005), pages 208–219, 2005.[89] Daniel Wagner and Dieter Schmalstieg. Artoolkitplus for pose track<strong>in</strong>g on mobile devices.In Proceed<strong>in</strong>gs of 12th Computer Vision W<strong>in</strong>ter Workshop (CVWW’07), Februar.[90] U. Zölzer. Digitale Audiosignalverarbeitung. 2005.[91] M. Zollner and E. Zwicker. Elektroakustik. 1993.XV

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!