Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...
Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...
Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Sprachgesteuerte</strong> <strong>3D</strong>-<strong>Angiographie</strong> —<br />
Die Software folgt dem Arzt aufs Wort<br />
Elmar Nöth 1 , Marcus Prümmer 1 , Joachim Hornegger 1 , Florian Gallwitz 2 , Richard<br />
Huber 2<br />
1 Lehrstuhl für Mustererkennung (Informatik 5),<br />
Friedrich-Alexander-Universität Erlangen-Nürnberg,<br />
Martensstr. 3, 91058 Erlangen, Germany<br />
Tel.: +49-9131-8527888, Fax: +49-9131-303811<br />
noeth@informatik.uni-erlangen.de<br />
http://www5.informatik.uni-erlangen.de<br />
2 <strong>Sympalog</strong> <strong>Voice</strong> <strong>Solutions</strong> GmbH<br />
Karl-Zucker-Str. 10, 91052 Erlangen, Germany<br />
Tel.: +49-61661-0, Fax: +49-61661-20<br />
gallwitz@sympalog.de<br />
http://www.sympalog.de<br />
Zusammenfassung<br />
In diesem Beitrag beschreiben wir die Möglichkeiten der Steuerung von Geräten mittels<br />
natürlicher Sprache am Beispiel eines sprachgesteuerten <strong>3D</strong>-Gefäßanalysesystems. Das System<br />
versteht ganze Sätze und erkennt selbständig, ob eine Äußerung an das System gerichtet<br />
ist oder an eine andere Person. Die Sprachsteuerung wurde am Lehrstuhl für Mustererkennung<br />
der Universität Erlangen-Nürnberg in Zusammenarbeit mit der Firma <strong>Sympalog</strong> <strong>Voice</strong><br />
<strong>Solutions</strong> GmbH für ein Gerät zur Stenosenvermessung der Firma Siemens Medical <strong>Solutions</strong><br />
(Leonardo Workstation) entwickelt, und kürzlich erfolgreich einer klinischen Erprobung<br />
unterzogen.<br />
1 Einleitung<br />
Wenn die Durchblutung des Gehirns durch Engstellen beeinträchtigt wird, kann ein Stent 1 das<br />
verengte Gefäß von innen her offen halten. Beim Einführen des Stent ist es wichtig, eine 3-<br />
dimensionale Darstellung der Gefäße zu haben, so wie es mit der <strong>3D</strong>-<strong>Angiographie</strong> 2 möglich ist.<br />
Die Visualisierung der <strong>3D</strong>-rekonstruierten Gefäße erfolgt während des klinischen Workflows und<br />
wird weitgehend per Joystick gesteuert, da beispielweise eine Maus als Eingabegerät aus hygienetechnischen<br />
Gründen am OP-Tisch nicht verwendbar ist. Am Lehrstuhl für Mustererkennung<br />
der Universität Erlangen-Nürnberg wurde zusammen mit der Firma <strong>Sympalog</strong> <strong>Voice</strong> <strong>Solutions</strong><br />
GmbH eine Sprachsteuerung für ein Gerät zur Stenosenvermessung (Leonardo Workstation der<br />
Firma Siemens Medical <strong>Solutions</strong>) entwickelt und einer klinischen Erprobung unterworfen. In diesem<br />
Beitrag wollen wir die medizinische Anwendung ”<br />
Stenosenmessung“ beschreiben (Kap. 2),<br />
sprachliche Mensch-Maschine-Interaktion im Allgemeinen betrachten (Kapitel 3), das sprachgesteuerte<br />
Stenose-Vermessungsmodul beschreiben (Kapitel 4) und mit einem Ausblick auf weitere<br />
Arbeiten schließen (Kapitel 5).<br />
1 Maschenförmige Gefäßwandnachbildung zum Ausweiten einer Gefäßverengung. Weitet eine Gefäßwand von<br />
innen.<br />
2 Aufnahme einer Röntgenbildsequenz entlang einer Halbkreisbahn um den Patienten. Ermöglicht eine <strong>3D</strong>-<br />
Rekonstruktion.
2 Analyse von Stenosen<br />
Abbildung 1: Gefäßprofil einer Stenose (links) und der quantifizierte Gefäßabschnitt (rechts).<br />
Stenosen sind Engstellen in Blutgefäßen, die beispielsweise durch Kalkablagerungen entstehen<br />
können und eine gestörte Durchblutung zur Folge haben. Eine Durchblutungsstörung des Gehirns<br />
ist oft die Ursache eines Schlaganfalls. Zur Risikoeinschätzung bedarf es einer gründlichen Analyse<br />
der Stenose, wobei der Verengungsgrad darüber entscheidet ob eine entsprechende Gefäßverengung<br />
behandelt werden muss. Zur Behandlung einer Stenose wird interventionell ein Stent<br />
mittels eines Katheters beispielsweise an der Leiste eingeführt und durch das Gefäßsystem zum<br />
krankhaften Gefäß durchgeschoben. Anschließend wird mit dem Stent die Gefäßwand geweitet<br />
und bei erfolgreicher Behandlung die ursprüngliche Anatomie wieder hergestellt. Um den Stent<br />
möglichst präzise auszuwählen und schnell zu plazieren, ist es erforderlich, eine <strong>3D</strong>-Gefäßkarte<br />
zu erstellen und eine Quantifizierung des pathologischen Gefäßabschnittes vorzunehmen. Für<br />
die richtige Wahl des Stents wird der Gefäßdurchmesserverlauf und die Länge des stenotisierten<br />
Gefäßabschnittes benötigt (Abbildung 1).<br />
Die <strong>3D</strong>-<strong>Angiographie</strong> ermöglicht vor dem Eingriff eine Visualisierung der Gefäße, die der Arzt<br />
zur Wegplanung des Katheters verwendet. Im Verlauf einer Intervention (Abbildung 2) können<br />
mehrere Aufnahmen notwendig sein, um in schwierigen Fällen einen Katheter richtig zu platzieren.<br />
Die <strong>3D</strong>-<strong>Angiographie</strong> ist eine in der Praxis oft angewandte Methode um hochauflösende<br />
<strong>3D</strong>-Bilder zu rekonstruieren. Technisch realisiert durch ein C-Bogen System werden im Verlauf<br />
einer Rotationsbewegung um den Patienten ca. 50-300 Röntgenaufnahmen geliefert aus denen<br />
innerhalb weniger Minuten eine <strong>3D</strong>-Rekonstruktion des Gefäßbaumes berechnet wird.<br />
3 Sprachliche Mensch-Maschine-Interaktion<br />
Im Folgenden wollen wir einige Aspekte der sprachlichen Mensch-Maschine-Interaktion (MMI)<br />
untersuchen. Technische Aspekte der MMI sind zum Beispiel in [2, 1, 4] beschrieben. Wir beschränken<br />
uns dabei auf die Interaktion zur Gerätesteuerung. Automatische Systeme zur Abfrage<br />
von Information (z.B. Fahrplan-Auskunft) oder Transaktionssysteme (z.B. Banküberweisungssysteme)<br />
bleiben hier unberücksichtigt. Mensch-Maschine-Interaktionssysteme lassen sich<br />
in verschiedene Richtungen kategorisieren:
Abbildung 2: C-Bogen-System zur <strong>3D</strong>-Darstellung von Gefäßen (Quelle: Siemens Medical <strong>Solutions</strong>).<br />
• Kommandowort-Systeme: Diese Kategorie von Systemen ist immer noch sehr weit verbreitet,<br />
da sie wenig Rechenaufwand erfordert, es billige Chips dafür gibt und da der Anwender<br />
den Wortschatz selbst festlegen kann. Ein System kann ca. 10 bis 100 Einzelwörter<br />
erkennen, jedes davon löst eine Aktion aus. Der Anwender muß jedes der Kommandowörter<br />
ein- oder mehrmals sprechen. Aus den Sprachsignalen werden Merkmale berechnet und abgespeichert.<br />
Wird ein neuer Befehl gesprochen, so werden die daraus berechneten Merkmale<br />
mit allen gespeicherten Befehlen verglichen (Dynamische Zeitverzerrung) und das System<br />
entscheidet sich für den Befehl mit dem kleinsten Abstand. Ein wichtiger Nachteil dieses<br />
Ansatzes ist die Sprecherabhängigkeit des Systems: Wechselt der Anwender, so muss<br />
das gesamte System neu trainiert werden. Typische Anwendungen sind die Sprachwahl<br />
bei Handys (siehe die Telekom-Werbung “Wenn Sie Ihre Oma anrufen wollen, sagen Sie<br />
einfach ‘Oma’!”) oder einfache Gerätesteuerungen (“links”, “rechts”, “stop”).<br />
• Kommando- und Kontroll-Systeme: Die oben genannten Systeme stoßen sehr schnell<br />
an ihre Grenze, wenn es um die Parametrierbarkeit der Befehle geht (“nach links um<br />
Grad”). Die Tatsache, dass man einer Benutzeräußerung nicht mehr eine Aktion<br />
zuordnen kann, hat wichtige Konsequenzen: die erkannte Wortkette muß analysiert werden;<br />
der einzelne Anwender kann nicht mehr alle kombinatorisch möglichen Äußerungen<br />
vorab sprechen. Daher wird die Erkennung und Interpretation der Befehle mit grundsätzlich<br />
anderen Verfahren durchgeführt: statt sprecherabhängigem Schablonvergleich werden<br />
Verfahren zur sprecherunabhängigen Erkennung (insbesondere “Hidden Markov Modelle”)<br />
und zur Interpretation der erkannten Kette der am wahrscheinlichsten gesprochenen<br />
Wörter (insbesondere “Endliche Automaten”) verwendet. Eine wichtige Unterscheidung<br />
besteht zwischen folgenden Erkennertypen:<br />
– Grammatik-basierte Erkenner: Die Menge der möglichen Befehle wird vorab exakt<br />
festgelegt und in einem Graph abgespeichert. Der Erkenner benutzt den Graphen<br />
und lässt nur Pfade in dem Graphen als gültige Kommandos zu. Jedem Pfad wird<br />
eine Interpretation zugeordnet. Damit steht die Bedeutung des Kommandos nach<br />
der Erkennung fest. Da nicht alle Wörter zu jedem Zeitpunkt möglich sind, wird die<br />
Zahl der Erkennungsfehler stark reduziert. Ein Nachteil ist, dass der Benutzer die<br />
Wortfolge der Befehle exakt kennen muss.
– Erkenner mit stochastischen Sprachmodellen: Alle Wortfolgen sind möglich;<br />
der Befehl muss auf der erkannten Wortkette in geeigneter Weise extrahiert werden.<br />
Wortfolgen, die Befehle repräsentieren, erhalten eine höhere Wahrscheinlichkeit. Die<br />
Wahrscheinlichkeiten werden auf einer Trainingsmenge geschätzt.<br />
• Dialog-Systeme Unter Umständen enthält der Befehl an ein Kommando- und Kontroll-<br />
System nicht genügend Information oder ein im aktuellen Kontext nicht mögliches Kommando.<br />
In diesen Fällen, oder wenn aus Sicherheitsgründen vor Ausführung des Kommandos<br />
eine Bestätigung durch den Anwender notwendig ist, muss ein Dialogsystem verwendet<br />
werden. Im folgenden Beispiel interagiert ein Benutzer mit einem Roboterarm:<br />
B: Drehe die Schraube fest.<br />
S: Für diesen Befehl ist eine Angabe in Newtonmeter notwenig. Mit wieviel Newtonmeter<br />
soll ich festdrehen?<br />
B: Mit 5<br />
Zur korrekten Interpretation der letzten Benutzeräußerung benötigt das System die Dialoggeschichte<br />
der vorangegangenen Befehle und Aktionen.<br />
• Benutzer-/System-initiierte Interaktion Die Art der Interaktion und die Komplexität<br />
des Interaktions-Systems wird stark davon beeinflusst, ob das System nur auf Benutzeräußerungen<br />
reagieren kann, oder auch von sich aus Interaktionen initiieren kann,<br />
etwa um den Benutzer auf eine kritische Situation aufmerksam zu machen (z.B. ein ”<br />
intelligenter<br />
Beifahrer“: Es kann sein, dass ein Lager im rechten Vorderrad defekt ist; bitte<br />
reduzieren Sie Ihre Geschwindigkeit und fahren Sie die nächste Werkstatt an).<br />
• ”<br />
Push-to-talk“-Syteme In vielen Situationen kann es sinnvoll sein, dass das Interaktionssystem<br />
erst durch einen Funktionsknopf aktiviert werden muss. Der Funktionsknopf<br />
bzw. -hebel hat den Vorteil, dass die Aktivierung “fehlerfrei” ist (kommt der Benutzer aus<br />
Versehen an den Knopf, so sieht er das als seinen Fehler an und nicht als Systemfehler)<br />
und dass das System nicht ständig mithören muss und somit keine Rechenzeit verbraucht.<br />
Typische Anwendungen sind<br />
– Fahrerassistenzsysteme (Fahrer unterhält sich viel mit Beifahrer, schlechte akustische<br />
Bedingungen), bei denen sonst unverhältnismäßig oft ein Befehl aufgrund einer<br />
Fehlerkennung ausgeführt werden würde,<br />
– Systeme, die sicherheitsrelevante Aktionen ausführen können,<br />
– Handys, die nur wenig Rechenleistung haben.<br />
• ”<br />
Aktivierungswort“-Systeme Bei dieser Art von Systemen wird der Aktivierungsknopf<br />
durch ein Befehlswort ersetzt (z.B. Sesam oder Butler). Durch die Einschränkung auf nur<br />
ein Wort kann die fehlerhafte Auslösung von Befehlen und der erforderliche Rechenaufwand<br />
während der nicht-aktiven Phase gering gehalten werden.<br />
• ”<br />
Online-“-Systeme Bei dieser Art von Systemen kann der Benutzer beliebig zwischen<br />
für das System relevanten Befehlen und irrelevanten Äußerungen hin- und herschalten.<br />
Diese Art von Systemsteuerung ist die für den Anwender bequemste und für das System<br />
rechenintensivste Lösung. Da das System ständig zuhört, aber nur auf seine Befehle reagieren<br />
soll, müssen alle möglichen irrelevanten Äußerungen ebenfalls modelliert werden.<br />
Dies geschieht mit sogenannten Müll- oder Hintergrundmodellen.<br />
• multimodale Systeme das System erlaubt mehrere Eingabe-Modi, z.B. Tastatur, Maus,<br />
Joystick, Mikrofon<br />
• multimediale Systeme das System kann über verschiedene Medien dem Benutzer Information<br />
ausgeben, z.B. Bildschirm und Lautsprecher.
4 Ein sprachgesteuertes Stenose-Vermessungsmodul<br />
4.1 Beschreibung des Spracherkennungsmoduls<br />
Im folgenden soll der in dem Stenose-Analyse-System verwendete Erkenner kurz charaktersiert<br />
werden:<br />
In dem System wurde der Sprecherkenner SymRec der Firma <strong>Sympalog</strong> eingesetzt. Er basiert,<br />
wie praktisch alle im wissenschaftlichen und kommerziellen Bereich verfügbaren sprecherunabhängigen<br />
Erkenner, auf der Hidden-Markov-Technologie. Ein vergleichbarer Spracherkenner<br />
aus dem wissenschaftlichen Umfeld und aktuelle Forschungsarbeiten zu diesem Thema sind in<br />
[1, 4] beschrieben.<br />
Im Sinne der Kategorisierung des letzten Kapitels handelt es sich um ein Kommando- und<br />
Kontroll-System, das mit einem stochastischen Sprachmodell arbeitet. Alle Interaktionen sind<br />
Benutzer-initiiert. Es handelt sich um ein ”<br />
Online“-System. Da die Kommandos sowohl über<br />
Mikrofon als auch mit der Maus und Tastatur bzw. einem Joystik eingegeben werden können<br />
und alle Reaktionen des Systems am Bildschirm dargestellt werden, liegt ein multimodales und<br />
monomediales System vor.<br />
Der Erkenner hat einen Anwendungswortschatz von 275 Wörtern (ca. 50% deutsche, 50% englische<br />
Wörter). Dazu kommt noch ein komplexes Hintergrundmodell zur Kompensation von quasi<br />
beliebigen Äußerungen außerhalb des Anwendungsbereichs.<br />
Der Erkenner hat nur ein stochastisches Sprachmodell, d.h. der Systemzustand des Anwendungssystems<br />
”<br />
Stenose-Analyse“ wird nicht ausgenutzt, um Befehle, die im aktuellen Zustand<br />
des Systems nicht sinnvoll sind, von der Erkennung auszuschließen. Sobald der Erkenner einen<br />
möglichen Befehl erkannt hat, liefert er die am wahrscheinlichsten gesprochene Wortkette an<br />
das Verstehensmodul. Dieses sucht mit Hilfe von 20 endlichen Automaten (sogenannten Infoscannern)<br />
in der Wortkette nach Unterketten, die gültige Befehle darstellen. Beispielbefehle sind<br />
(Wörter in () sind optional, Wörter in {} sind Parameter):<br />
• {erhöhe, erniedrige} den Schwellwert um {Zahl}<br />
• analysiere (die) Stenose<br />
• analyze (the) stenosis<br />
• rotiere (das) Volumen<br />
• rotate (the) volume<br />
• bewege (den) Zeiger nach {links, rechts, unten, oben}<br />
• (bewege die) blaue Ebene nach {links, rechts}<br />
• schneller<br />
Der erkannte Befehl wird an die Anwendung Stenose-Vermessung weitergegeben. Diese überprüft,<br />
ob der Befehl im aktuellen Kontext sinnvoll bzw. möglich ist (z.B. setzt der Befehl schneller<br />
voraus, dass vorher ein Bewegungs-/Rotationsbefehl ausgeführt wurde). Falls der Befehl<br />
möglich ist, wird er ausgeführt, falls nicht, wird er ignoriert. Es wird keine Fehlermeldung oder<br />
Bestätigung ausgegeben.<br />
Das Erkennungsmodul benötigt ca. 36 MB Hauptspeicher. Der Erkenner ist so implementiert,<br />
dass er immer in etwa in Echtzeit arbeitet, d.h. dass immer wenige Millisekunden nach Erkennung<br />
einer Sprechpause von 200 Millisekunden der erkannte Befehl an die Anwendung übergeben<br />
wird. Dies wird dadurch erreicht, dass der Erkenner bei der Suche nach der besten Wortkette
mehr/weniger Alternativen zulässt, wenn er mehr/weniger CPU-Zeit zur Verfügung hat. Somit<br />
wirkt sich eine schlechtere Rechnerausstattung weniger auf die Reaktionszeit und mehr auf die<br />
Güte der Erkennung aus (weniger Alternativen bedeutet, dass gelegentlich ein gültiger Befehl<br />
verworfen wird). Eine ”<br />
vernünftige“ Minimalanforderung an das System (nur für das Spracherkennungsmodul)<br />
ist:<br />
• Pentium III - CPU mit 800 MHZ<br />
• 512 MB Hauptspeicher<br />
• 100 MB Festplattenplatz (fuer Konfiguration und Logfiles)<br />
Wenn eine High-End Grafikkarte mit <strong>3D</strong>-Beschleuniger und mindestens 256 MB Onboard vorhanden<br />
ist, dann beeinträchtigt der Spracherkenner die Anwendung fast gar nicht. Der Grund<br />
dafür ist, dass der rechenintensivste Teil der Anwendung fast vollständig von der Graphikkarte<br />
mit der eigenen CPU und eigenem <strong>3D</strong>-Beschleuniger berechnet wird und dem Spracherkenner<br />
die CPU des Rechners praktisch alleine zur Verfügung steht.<br />
Im nächsten Abschnitt soll das Stenose-Vermessungsmodul mit der Spracherkennung beschrieben<br />
werden.<br />
4.2 Beschreibung des Gesamtsystems<br />
Die Entwicklung von Algorithmen zur quantitativen Auswertung von Blutgefäßen [3] sowie zur<br />
computerunterstützten Gefäßnavigation konzentriert sich zunehmend auf deren Einsatz im interventionellen<br />
Umfeld. Da im Verlauf einer interventionellen Behandlung der Arzt den OP-Tisch<br />
und somit den sterilen Bereich verlassen muss, um an einer Workstation die Gefäßanalyse durchzuführen,<br />
stellt eine sprachgesteuerte Gefäßanalyse eine wertvolle Bereicherung dar. Dabei sollte<br />
die Sprachsteuerung nicht als Ersatz des bisher in der Praxis verwendeten Joysticks gesehen werden,<br />
sondern als zusätzliches Eingabemedium.<br />
Weit verbreitet ist ein am OP-Tisch angebrachter in Folie verpackter Joystick der als direktes<br />
Eingabeinstrument dient. Damit kann die <strong>3D</strong>-Ansicht der Gefäße verändert werden. Dazu selektiert<br />
der Benutzer im Menu die entsprechende Funktion, wie beispielsweise “rotieren”, “zoom”<br />
oder “verschieben”. Dieser Workflow kann durch direkte Spracheingabe erheblich verkürzt werden.<br />
Eine Sprachsteuerung bietet den Vorteil, dass alle Steuerbefehle in einer Kommandoebene<br />
angeordnet und somit umständliche hierarchische Menüs vermieden werden können. Eine quantitative<br />
Analyse der Blutgefäße kann somit direkt am OP-Tisch vollzogen werden.<br />
Da eine Gefäßanalyse noch nicht vollautomatisch durchgeführt werden kann, bedarf es einiger<br />
manueller Eingaben. Der zu analysierende Gefäßabschnitt wird dabei vom Arzt in der <strong>3D</strong>-<br />
Ansicht oder in einem Gefäßschnittbild via Mausklick angewählt, und bevor das Gefäßprofil automatisch<br />
erstellt werden kann, bedarf es noch einer Feinjustierung der Gefäßsegmentierung. Für<br />
diesen Workflow wurden spezielle Algorithmen entwickelt, die eine <strong>3D</strong>-Selektion eines Gefäßabschnittes<br />
und die Segmentierung auf ein notwendiges Minimum an Benutzerinteraktion reduzieren.<br />
Ein mit einem Funkmikrofon ausgestatteter Arzt ist damit in der Lage, eine Gefäßanalyse<br />
via Sprache durchzuführen, ohne den OP-Tisch verlassen zu müssen.
Abbildung 3: Selektion einer Stenose<br />
Für eine klinische Evaluierung wurde ein Prototyp<br />
realisiert, der es ermöglicht, eine Stenosen-<br />
Selektion und Quantifizierung mittels Sprachkommandos<br />
durchzuführen. Funktionell kann eine semiautomatische<br />
Schwellwertsegmentierung (Sprachbefehl:<br />
Erhöhe bitte den Schwellwert um 32 ),<br />
die Orientierung und Größe eines <strong>3D</strong>-Volumens<br />
(Sprachbefehl: Vergrößere/verkleinere das Volumen<br />
oder Rotiere das Volumen nach unten) sowie<br />
die Selektion einer Stenose mittels eines computerunterstützten<br />
<strong>3D</strong>-Zeigers via Sprachbefehl durchgeführt<br />
werden. Ein <strong>3D</strong>-Zeiger folgt dabei einem<br />
sprachgesteuerten 2D-Cursor permanent entlang<br />
der Gefäßschwerpunktlinie (Abbildung 3). Somit<br />
kann schnell und unkompliziert via Sprache der<br />
gewünschte <strong>3D</strong>-Gefäßabschnitt angewählt werden.<br />
Der entwickelte Prototyp wurde in eine Siemens Leonardo Workstation integriert und erlaubt<br />
eine Sprachsteuerung eines typischen Workflows einer Gefäßanalyse. Der Prototyp wurde am Institut<br />
für Röntgendiagnostik der Universität Würzburg klinisch evaluiert. Darüberhinaus wurde<br />
untersucht, in welchem Umfang die sprachgesteuerte Gefäßanalyse besser in den derzeitigen<br />
klinischen Workflow integriert werden kann.<br />
5 Ausblick<br />
Die Sprachsteuerung wurde von den in die Erprobung eingebundenen Ärzten insgesamt sehr<br />
positiv beurteilt. Besonders für die Bedienung von Geräten im sterilen Umfeld sehen sie durch<br />
die Sprachbedienung eine spürbare Erleichterung im beruflichen Alltag.<br />
Als möglicherweise problematisch für die Akzeptanz eines solchen Systems wird lediglich die<br />
Tatsache beurteilt, dass das System das Tragen eines Headsets verlangt. Obwohl sich hier für<br />
bestimmte Einsatzszenarien sehr komfortable Lösungen finden lassen (etwa die Integration des<br />
Mikrophons in den Mundschutz), so wird doch in Zweifel gezogen, ob jeder Arzt bereit ist,<br />
für den Komfort- und Effizienzgewinn bei der Bedienung des Systems die hierfür notwendigen<br />
Handgriffe in Kauf zu nehmen.<br />
Ohne besondere technische Maßnahmen sinkt die Erkennungsqualität mit zunehmendem Abstand<br />
zwischen Mund und Mikrophon drastisch. Verantwortlich hierfür sind der abnehmende<br />
Signal-Rausch-Abstand des Signals, Störgeräusche und besonders auch die auftretenden Echobzw.<br />
Hall-Effekte. Um zukünftig auch ein freies Sprechen mit Sprachsteuerungen ohne Headset<br />
zu ermöglichen, arbeiten wir zur Zeit intensiv an der Verwendung von Mikrophon-Arrays als<br />
Eingabemedium für die Spracherkennung und an der entsprechenden Optimierung des Spracherkenners.<br />
Mikrophon-Arrays fokussieren auf den Sprecher und kompensieren dadurch bis zu einem gewissen<br />
Grade störende Geräuschquellen, soweit sich diese nicht in Richtung des Sprechers befinden.<br />
Ohne weitere Maßnahmen sind jedoch bereits Entfernungen von mehr als 0,5m weiterhin problematisch.<br />
Durch ein neu entwickeltes Verfahren zur Anpassung des Spracherkenners an solche<br />
Bedingungen ist es uns bereits gelungen, auch bei einem Abstand von 1,5m und mehr den<br />
überwiegenden Teil der durch die verbleibenden Störungen verursachten Erkennungsfehler zu<br />
kompensieren, ohne hierfür neue, entsprechend gestörte Sprachdaten zur Adaption des Spracherkenners<br />
aufnehmen zu müssen.
Als eine realistische Alternative zur Verwendung eines Headsets erscheint daher etwa im Fall<br />
der sprachgesteuerten <strong>3D</strong>-Gefäßanalyse das Anbringen eines Mikrophon-Arrays im Bereich der<br />
Bildschirme, die an einem Schwenkarm oberhalb des Patienten positioniert sind (vgl. Abbildung<br />
2). Ob die hierdurch im OP-Alltag erzielbare Erkennungsgenauigkeit ausreicht, um die<br />
Funktionalität des bestehenden Systems in vollem Umfang beizubehalten, ist derzeit noch eine<br />
offene Frage.<br />
Literatur<br />
[1] F. Gallwitz. Integrated Stochastic Models for Spontaneous Speech Recognition, volume 6 of<br />
Studien zur Mustererkennung. Logos Verlag, Berlin, 2002.<br />
[2] X. Huang, A. Acero, and H.-W. Hon. Spoken Language Processing – A Guide to Theory,<br />
Algorithm, and System Development. Prentice Hall, Upper Saddle River, 2001.<br />
[3] M. Prümmer. Algorithmen zur quantitativen Analyse von Volumendaten. Diplomarbeit,<br />
CVGPR-Group, Universität Mannheim, Siemens Medical <strong>Solutions</strong>, Forchheim, 2002.<br />
[4] G. Stemmer. Modeling Variability in Speech Recognition. PhD thesis, Chair for Pattern<br />
Recognition, University of Erlangen-Nuremberg, 2004.