Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Weitere Magazine

Empfehlungen

Info

– Erkenner mit stochastischen Sprachmodellen: Alle Wortfolgen sind möglich; der Befehl muss auf der erkannten Wortkette in geeigneter Weise extrahiert werden. Wortfolgen, die Befehle repräsentieren, erhalten eine höhere Wahrscheinlichkeit. Die Wahrscheinlichkeiten werden auf einer Trainingsmenge geschätzt. • Dialog-Systeme Unter Umständen enthält der Befehl an ein Kommando- und Kontroll- System nicht genügend Information oder ein im aktuellen Kontext nicht mögliches Kommando. In diesen Fällen, oder wenn aus Sicherheitsgründen vor Ausführung des Kommandos eine Bestätigung durch den Anwender notwendig ist, muss ein Dialogsystem verwendet werden. Im folgenden Beispiel interagiert ein Benutzer mit einem Roboterarm: B: Drehe die Schraube fest. S: Für diesen Befehl ist eine Angabe in Newtonmeter notwenig. Mit wieviel Newtonmeter soll ich festdrehen? B: Mit 5 Zur korrekten Interpretation der letzten Benutzeräußerung benötigt das System die Dialoggeschichte der vorangegangenen Befehle und Aktionen. • Benutzer-/System-initiierte Interaktion Die Art der Interaktion und die Komplexität des Interaktions-Systems wird stark davon beeinflusst, ob das System nur auf Benutzeräußerungen reagieren kann, oder auch von sich aus Interaktionen initiieren kann, etwa um den Benutzer auf eine kritische Situation aufmerksam zu machen (z.B. ein ” intelligenter Beifahrer“: Es kann sein, dass ein Lager im rechten Vorderrad defekt ist; bitte reduzieren Sie Ihre Geschwindigkeit und fahren Sie die nächste Werkstatt an). • ” Push-to-talk“-Syteme In vielen Situationen kann es sinnvoll sein, dass das Interaktionssystem erst durch einen Funktionsknopf aktiviert werden muss. Der Funktionsknopf bzw. -hebel hat den Vorteil, dass die Aktivierung “fehlerfrei” ist (kommt der Benutzer aus Versehen an den Knopf, so sieht er das als seinen Fehler an und nicht als Systemfehler) und dass das System nicht ständig mithören muss und somit keine Rechenzeit verbraucht. Typische Anwendungen sind – Fahrerassistenzsysteme (Fahrer unterhält sich viel mit Beifahrer, schlechte akustische Bedingungen), bei denen sonst unverhältnismäßig oft ein Befehl aufgrund einer Fehlerkennung ausgeführt werden würde, – Systeme, die sicherheitsrelevante Aktionen ausführen können, – Handys, die nur wenig Rechenleistung haben. • ” Aktivierungswort“-Systeme Bei dieser Art von Systemen wird der Aktivierungsknopf durch ein Befehlswort ersetzt (z.B. Sesam oder Butler). Durch die Einschränkung auf nur ein Wort kann die fehlerhafte Auslösung von Befehlen und der erforderliche Rechenaufwand während der nicht-aktiven Phase gering gehalten werden. • ” Online-“-Systeme Bei dieser Art von Systemen kann der Benutzer beliebig zwischen für das System relevanten Befehlen und irrelevanten Äußerungen hin- und herschalten. Diese Art von Systemsteuerung ist die für den Anwender bequemste und für das System rechenintensivste Lösung. Da das System ständig zuhört, aber nur auf seine Befehle reagieren soll, müssen alle möglichen irrelevanten Äußerungen ebenfalls modelliert werden. Dies geschieht mit sogenannten Müll- oder Hintergrundmodellen. • multimodale Systeme das System erlaubt mehrere Eingabe-Modi, z.B. Tastatur, Maus, Joystick, Mikrofon • multimediale Systeme das System kann über verschiedene Medien dem Benutzer Information ausgeben, z.B. Bildschirm und Lautsprecher.
4 Ein sprachgesteuertes Stenose-Vermessungsmodul 4.1 Beschreibung des Spracherkennungsmoduls Im folgenden soll der in dem Stenose-Analyse-System verwendete Erkenner kurz charaktersiert werden: In dem System wurde der Sprecherkenner SymRec der Firma <strong>Sympalog</strong> eingesetzt. Er basiert, wie praktisch alle im wissenschaftlichen und kommerziellen Bereich verfügbaren sprecherunabhängigen Erkenner, auf der Hidden-Markov-Technologie. Ein vergleichbarer Spracherkenner aus dem wissenschaftlichen Umfeld und aktuelle Forschungsarbeiten zu diesem Thema sind in [1, 4] beschrieben. Im Sinne der Kategorisierung des letzten Kapitels handelt es sich um ein Kommando- und Kontroll-System, das mit einem stochastischen Sprachmodell arbeitet. Alle Interaktionen sind Benutzer-initiiert. Es handelt sich um ein ” Online“-System. Da die Kommandos sowohl über Mikrofon als auch mit der Maus und Tastatur bzw. einem Joystik eingegeben werden können und alle Reaktionen des Systems am Bildschirm dargestellt werden, liegt ein multimodales und monomediales System vor. Der Erkenner hat einen Anwendungswortschatz von 275 Wörtern (ca. 50% deutsche, 50% englische Wörter). Dazu kommt noch ein komplexes Hintergrundmodell zur Kompensation von quasi beliebigen Äußerungen außerhalb des Anwendungsbereichs. Der Erkenner hat nur ein stochastisches Sprachmodell, d.h. der Systemzustand des Anwendungssystems ” Stenose-Analyse“ wird nicht ausgenutzt, um Befehle, die im aktuellen Zustand des Systems nicht sinnvoll sind, von der Erkennung auszuschließen. Sobald der Erkenner einen möglichen Befehl erkannt hat, liefert er die am wahrscheinlichsten gesprochene Wortkette an das Verstehensmodul. Dieses sucht mit Hilfe von 20 endlichen Automaten (sogenannten Infoscannern) in der Wortkette nach Unterketten, die gültige Befehle darstellen. Beispielbefehle sind (Wörter in () sind optional, Wörter in {} sind Parameter): • {erhöhe, erniedrige} den Schwellwert um {Zahl} • analysiere (die) Stenose • analyze (the) stenosis • rotiere (das) Volumen • rotate (the) volume • bewege (den) Zeiger nach {links, rechts, unten, oben} • (bewege die) blaue Ebene nach {links, rechts} • schneller Der erkannte Befehl wird an die Anwendung Stenose-Vermessung weitergegeben. Diese überprüft, ob der Befehl im aktuellen Kontext sinnvoll bzw. möglich ist (z.B. setzt der Befehl schneller voraus, dass vorher ein Bewegungs-/Rotationsbefehl ausgeführt wurde). Falls der Befehl möglich ist, wird er ausgeführt, falls nicht, wird er ignoriert. Es wird keine Fehlermeldung oder Bestätigung ausgegeben. Das Erkennungsmodul benötigt ca. 36 MB Hauptspeicher. Der Erkenner ist so implementiert, dass er immer in etwa in Echtzeit arbeitet, d.h. dass immer wenige Millisekunden nach Erkennung einer Sprechpause von 200 Millisekunden der erkannte Befehl an die Anwendung übergeben wird. Dies wird dadurch erreicht, dass der Erkenner bei der Suche nach der besten Wortkette
Seite 1 und 2: Sprachgesteuerte 3D-Angiographie
Seite 3: Abbildung 2: C-Bogen-System zur 3D-
Seite 7 und 8: Abbildung 3: Selektion einer Stenos

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?