18.11.2014 Aufrufe

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Sprachgesteuerte</strong> <strong>3D</strong>-<strong>Angiographie</strong> —<br />

Die Software folgt dem Arzt aufs Wort<br />

Elmar Nöth 1 , Marcus Prümmer 1 , Joachim Hornegger 1 , Florian Gallwitz 2 , Richard<br />

Huber 2<br />

1 Lehrstuhl für Mustererkennung (Informatik 5),<br />

Friedrich-Alexander-Universität Erlangen-Nürnberg,<br />

Martensstr. 3, 91058 Erlangen, Germany<br />

Tel.: +49-9131-8527888, Fax: +49-9131-303811<br />

noeth@informatik.uni-erlangen.de<br />

http://www5.informatik.uni-erlangen.de<br />

2 <strong>Sympalog</strong> <strong>Voice</strong> <strong>Solutions</strong> GmbH<br />

Karl-Zucker-Str. 10, 91052 Erlangen, Germany<br />

Tel.: +49-61661-0, Fax: +49-61661-20<br />

gallwitz@sympalog.de<br />

http://www.sympalog.de<br />

Zusammenfassung<br />

In diesem Beitrag beschreiben wir die Möglichkeiten der Steuerung von Geräten mittels<br />

natürlicher Sprache am Beispiel eines sprachgesteuerten <strong>3D</strong>-Gefäßanalysesystems. Das System<br />

versteht ganze Sätze und erkennt selbständig, ob eine Äußerung an das System gerichtet<br />

ist oder an eine andere Person. Die Sprachsteuerung wurde am Lehrstuhl für Mustererkennung<br />

der Universität Erlangen-Nürnberg in Zusammenarbeit mit der Firma <strong>Sympalog</strong> <strong>Voice</strong><br />

<strong>Solutions</strong> GmbH für ein Gerät zur Stenosenvermessung der Firma Siemens Medical <strong>Solutions</strong><br />

(Leonardo Workstation) entwickelt, und kürzlich erfolgreich einer klinischen Erprobung<br />

unterzogen.<br />

1 Einleitung<br />

Wenn die Durchblutung des Gehirns durch Engstellen beeinträchtigt wird, kann ein Stent 1 das<br />

verengte Gefäß von innen her offen halten. Beim Einführen des Stent ist es wichtig, eine 3-<br />

dimensionale Darstellung der Gefäße zu haben, so wie es mit der <strong>3D</strong>-<strong>Angiographie</strong> 2 möglich ist.<br />

Die Visualisierung der <strong>3D</strong>-rekonstruierten Gefäße erfolgt während des klinischen Workflows und<br />

wird weitgehend per Joystick gesteuert, da beispielweise eine Maus als Eingabegerät aus hygienetechnischen<br />

Gründen am OP-Tisch nicht verwendbar ist. Am Lehrstuhl für Mustererkennung<br />

der Universität Erlangen-Nürnberg wurde zusammen mit der Firma <strong>Sympalog</strong> <strong>Voice</strong> <strong>Solutions</strong><br />

GmbH eine Sprachsteuerung für ein Gerät zur Stenosenvermessung (Leonardo Workstation der<br />

Firma Siemens Medical <strong>Solutions</strong>) entwickelt und einer klinischen Erprobung unterworfen. In diesem<br />

Beitrag wollen wir die medizinische Anwendung ”<br />

Stenosenmessung“ beschreiben (Kap. 2),<br />

sprachliche Mensch-Maschine-Interaktion im Allgemeinen betrachten (Kapitel 3), das sprachgesteuerte<br />

Stenose-Vermessungsmodul beschreiben (Kapitel 4) und mit einem Ausblick auf weitere<br />

Arbeiten schließen (Kapitel 5).<br />

1 Maschenförmige Gefäßwandnachbildung zum Ausweiten einer Gefäßverengung. Weitet eine Gefäßwand von<br />

innen.<br />

2 Aufnahme einer Röntgenbildsequenz entlang einer Halbkreisbahn um den Patienten. Ermöglicht eine <strong>3D</strong>-<br />

Rekonstruktion.


2 Analyse von Stenosen<br />

Abbildung 1: Gefäßprofil einer Stenose (links) und der quantifizierte Gefäßabschnitt (rechts).<br />

Stenosen sind Engstellen in Blutgefäßen, die beispielsweise durch Kalkablagerungen entstehen<br />

können und eine gestörte Durchblutung zur Folge haben. Eine Durchblutungsstörung des Gehirns<br />

ist oft die Ursache eines Schlaganfalls. Zur Risikoeinschätzung bedarf es einer gründlichen Analyse<br />

der Stenose, wobei der Verengungsgrad darüber entscheidet ob eine entsprechende Gefäßverengung<br />

behandelt werden muss. Zur Behandlung einer Stenose wird interventionell ein Stent<br />

mittels eines Katheters beispielsweise an der Leiste eingeführt und durch das Gefäßsystem zum<br />

krankhaften Gefäß durchgeschoben. Anschließend wird mit dem Stent die Gefäßwand geweitet<br />

und bei erfolgreicher Behandlung die ursprüngliche Anatomie wieder hergestellt. Um den Stent<br />

möglichst präzise auszuwählen und schnell zu plazieren, ist es erforderlich, eine <strong>3D</strong>-Gefäßkarte<br />

zu erstellen und eine Quantifizierung des pathologischen Gefäßabschnittes vorzunehmen. Für<br />

die richtige Wahl des Stents wird der Gefäßdurchmesserverlauf und die Länge des stenotisierten<br />

Gefäßabschnittes benötigt (Abbildung 1).<br />

Die <strong>3D</strong>-<strong>Angiographie</strong> ermöglicht vor dem Eingriff eine Visualisierung der Gefäße, die der Arzt<br />

zur Wegplanung des Katheters verwendet. Im Verlauf einer Intervention (Abbildung 2) können<br />

mehrere Aufnahmen notwendig sein, um in schwierigen Fällen einen Katheter richtig zu platzieren.<br />

Die <strong>3D</strong>-<strong>Angiographie</strong> ist eine in der Praxis oft angewandte Methode um hochauflösende<br />

<strong>3D</strong>-Bilder zu rekonstruieren. Technisch realisiert durch ein C-Bogen System werden im Verlauf<br />

einer Rotationsbewegung um den Patienten ca. 50-300 Röntgenaufnahmen geliefert aus denen<br />

innerhalb weniger Minuten eine <strong>3D</strong>-Rekonstruktion des Gefäßbaumes berechnet wird.<br />

3 Sprachliche Mensch-Maschine-Interaktion<br />

Im Folgenden wollen wir einige Aspekte der sprachlichen Mensch-Maschine-Interaktion (MMI)<br />

untersuchen. Technische Aspekte der MMI sind zum Beispiel in [2, 1, 4] beschrieben. Wir beschränken<br />

uns dabei auf die Interaktion zur Gerätesteuerung. Automatische Systeme zur Abfrage<br />

von Information (z.B. Fahrplan-Auskunft) oder Transaktionssysteme (z.B. Banküberweisungssysteme)<br />

bleiben hier unberücksichtigt. Mensch-Maschine-Interaktionssysteme lassen sich<br />

in verschiedene Richtungen kategorisieren:


Abbildung 2: C-Bogen-System zur <strong>3D</strong>-Darstellung von Gefäßen (Quelle: Siemens Medical <strong>Solutions</strong>).<br />

• Kommandowort-Systeme: Diese Kategorie von Systemen ist immer noch sehr weit verbreitet,<br />

da sie wenig Rechenaufwand erfordert, es billige Chips dafür gibt und da der Anwender<br />

den Wortschatz selbst festlegen kann. Ein System kann ca. 10 bis 100 Einzelwörter<br />

erkennen, jedes davon löst eine Aktion aus. Der Anwender muß jedes der Kommandowörter<br />

ein- oder mehrmals sprechen. Aus den Sprachsignalen werden Merkmale berechnet und abgespeichert.<br />

Wird ein neuer Befehl gesprochen, so werden die daraus berechneten Merkmale<br />

mit allen gespeicherten Befehlen verglichen (Dynamische Zeitverzerrung) und das System<br />

entscheidet sich für den Befehl mit dem kleinsten Abstand. Ein wichtiger Nachteil dieses<br />

Ansatzes ist die Sprecherabhängigkeit des Systems: Wechselt der Anwender, so muss<br />

das gesamte System neu trainiert werden. Typische Anwendungen sind die Sprachwahl<br />

bei Handys (siehe die Telekom-Werbung “Wenn Sie Ihre Oma anrufen wollen, sagen Sie<br />

einfach ‘Oma’!”) oder einfache Gerätesteuerungen (“links”, “rechts”, “stop”).<br />

• Kommando- und Kontroll-Systeme: Die oben genannten Systeme stoßen sehr schnell<br />

an ihre Grenze, wenn es um die Parametrierbarkeit der Befehle geht (“nach links um<br />

Grad”). Die Tatsache, dass man einer Benutzeräußerung nicht mehr eine Aktion<br />

zuordnen kann, hat wichtige Konsequenzen: die erkannte Wortkette muß analysiert werden;<br />

der einzelne Anwender kann nicht mehr alle kombinatorisch möglichen Äußerungen<br />

vorab sprechen. Daher wird die Erkennung und Interpretation der Befehle mit grundsätzlich<br />

anderen Verfahren durchgeführt: statt sprecherabhängigem Schablonvergleich werden<br />

Verfahren zur sprecherunabhängigen Erkennung (insbesondere “Hidden Markov Modelle”)<br />

und zur Interpretation der erkannten Kette der am wahrscheinlichsten gesprochenen<br />

Wörter (insbesondere “Endliche Automaten”) verwendet. Eine wichtige Unterscheidung<br />

besteht zwischen folgenden Erkennertypen:<br />

– Grammatik-basierte Erkenner: Die Menge der möglichen Befehle wird vorab exakt<br />

festgelegt und in einem Graph abgespeichert. Der Erkenner benutzt den Graphen<br />

und lässt nur Pfade in dem Graphen als gültige Kommandos zu. Jedem Pfad wird<br />

eine Interpretation zugeordnet. Damit steht die Bedeutung des Kommandos nach<br />

der Erkennung fest. Da nicht alle Wörter zu jedem Zeitpunkt möglich sind, wird die<br />

Zahl der Erkennungsfehler stark reduziert. Ein Nachteil ist, dass der Benutzer die<br />

Wortfolge der Befehle exakt kennen muss.


– Erkenner mit stochastischen Sprachmodellen: Alle Wortfolgen sind möglich;<br />

der Befehl muss auf der erkannten Wortkette in geeigneter Weise extrahiert werden.<br />

Wortfolgen, die Befehle repräsentieren, erhalten eine höhere Wahrscheinlichkeit. Die<br />

Wahrscheinlichkeiten werden auf einer Trainingsmenge geschätzt.<br />

• Dialog-Systeme Unter Umständen enthält der Befehl an ein Kommando- und Kontroll-<br />

System nicht genügend Information oder ein im aktuellen Kontext nicht mögliches Kommando.<br />

In diesen Fällen, oder wenn aus Sicherheitsgründen vor Ausführung des Kommandos<br />

eine Bestätigung durch den Anwender notwendig ist, muss ein Dialogsystem verwendet<br />

werden. Im folgenden Beispiel interagiert ein Benutzer mit einem Roboterarm:<br />

B: Drehe die Schraube fest.<br />

S: Für diesen Befehl ist eine Angabe in Newtonmeter notwenig. Mit wieviel Newtonmeter<br />

soll ich festdrehen?<br />

B: Mit 5<br />

Zur korrekten Interpretation der letzten Benutzeräußerung benötigt das System die Dialoggeschichte<br />

der vorangegangenen Befehle und Aktionen.<br />

• Benutzer-/System-initiierte Interaktion Die Art der Interaktion und die Komplexität<br />

des Interaktions-Systems wird stark davon beeinflusst, ob das System nur auf Benutzeräußerungen<br />

reagieren kann, oder auch von sich aus Interaktionen initiieren kann,<br />

etwa um den Benutzer auf eine kritische Situation aufmerksam zu machen (z.B. ein ”<br />

intelligenter<br />

Beifahrer“: Es kann sein, dass ein Lager im rechten Vorderrad defekt ist; bitte<br />

reduzieren Sie Ihre Geschwindigkeit und fahren Sie die nächste Werkstatt an).<br />

• ”<br />

Push-to-talk“-Syteme In vielen Situationen kann es sinnvoll sein, dass das Interaktionssystem<br />

erst durch einen Funktionsknopf aktiviert werden muss. Der Funktionsknopf<br />

bzw. -hebel hat den Vorteil, dass die Aktivierung “fehlerfrei” ist (kommt der Benutzer aus<br />

Versehen an den Knopf, so sieht er das als seinen Fehler an und nicht als Systemfehler)<br />

und dass das System nicht ständig mithören muss und somit keine Rechenzeit verbraucht.<br />

Typische Anwendungen sind<br />

– Fahrerassistenzsysteme (Fahrer unterhält sich viel mit Beifahrer, schlechte akustische<br />

Bedingungen), bei denen sonst unverhältnismäßig oft ein Befehl aufgrund einer<br />

Fehlerkennung ausgeführt werden würde,<br />

– Systeme, die sicherheitsrelevante Aktionen ausführen können,<br />

– Handys, die nur wenig Rechenleistung haben.<br />

• ”<br />

Aktivierungswort“-Systeme Bei dieser Art von Systemen wird der Aktivierungsknopf<br />

durch ein Befehlswort ersetzt (z.B. Sesam oder Butler). Durch die Einschränkung auf nur<br />

ein Wort kann die fehlerhafte Auslösung von Befehlen und der erforderliche Rechenaufwand<br />

während der nicht-aktiven Phase gering gehalten werden.<br />

• ”<br />

Online-“-Systeme Bei dieser Art von Systemen kann der Benutzer beliebig zwischen<br />

für das System relevanten Befehlen und irrelevanten Äußerungen hin- und herschalten.<br />

Diese Art von Systemsteuerung ist die für den Anwender bequemste und für das System<br />

rechenintensivste Lösung. Da das System ständig zuhört, aber nur auf seine Befehle reagieren<br />

soll, müssen alle möglichen irrelevanten Äußerungen ebenfalls modelliert werden.<br />

Dies geschieht mit sogenannten Müll- oder Hintergrundmodellen.<br />

• multimodale Systeme das System erlaubt mehrere Eingabe-Modi, z.B. Tastatur, Maus,<br />

Joystick, Mikrofon<br />

• multimediale Systeme das System kann über verschiedene Medien dem Benutzer Information<br />

ausgeben, z.B. Bildschirm und Lautsprecher.


4 Ein sprachgesteuertes Stenose-Vermessungsmodul<br />

4.1 Beschreibung des Spracherkennungsmoduls<br />

Im folgenden soll der in dem Stenose-Analyse-System verwendete Erkenner kurz charaktersiert<br />

werden:<br />

In dem System wurde der Sprecherkenner SymRec der Firma <strong>Sympalog</strong> eingesetzt. Er basiert,<br />

wie praktisch alle im wissenschaftlichen und kommerziellen Bereich verfügbaren sprecherunabhängigen<br />

Erkenner, auf der Hidden-Markov-Technologie. Ein vergleichbarer Spracherkenner<br />

aus dem wissenschaftlichen Umfeld und aktuelle Forschungsarbeiten zu diesem Thema sind in<br />

[1, 4] beschrieben.<br />

Im Sinne der Kategorisierung des letzten Kapitels handelt es sich um ein Kommando- und<br />

Kontroll-System, das mit einem stochastischen Sprachmodell arbeitet. Alle Interaktionen sind<br />

Benutzer-initiiert. Es handelt sich um ein ”<br />

Online“-System. Da die Kommandos sowohl über<br />

Mikrofon als auch mit der Maus und Tastatur bzw. einem Joystik eingegeben werden können<br />

und alle Reaktionen des Systems am Bildschirm dargestellt werden, liegt ein multimodales und<br />

monomediales System vor.<br />

Der Erkenner hat einen Anwendungswortschatz von 275 Wörtern (ca. 50% deutsche, 50% englische<br />

Wörter). Dazu kommt noch ein komplexes Hintergrundmodell zur Kompensation von quasi<br />

beliebigen Äußerungen außerhalb des Anwendungsbereichs.<br />

Der Erkenner hat nur ein stochastisches Sprachmodell, d.h. der Systemzustand des Anwendungssystems<br />

”<br />

Stenose-Analyse“ wird nicht ausgenutzt, um Befehle, die im aktuellen Zustand<br />

des Systems nicht sinnvoll sind, von der Erkennung auszuschließen. Sobald der Erkenner einen<br />

möglichen Befehl erkannt hat, liefert er die am wahrscheinlichsten gesprochene Wortkette an<br />

das Verstehensmodul. Dieses sucht mit Hilfe von 20 endlichen Automaten (sogenannten Infoscannern)<br />

in der Wortkette nach Unterketten, die gültige Befehle darstellen. Beispielbefehle sind<br />

(Wörter in () sind optional, Wörter in {} sind Parameter):<br />

• {erhöhe, erniedrige} den Schwellwert um {Zahl}<br />

• analysiere (die) Stenose<br />

• analyze (the) stenosis<br />

• rotiere (das) Volumen<br />

• rotate (the) volume<br />

• bewege (den) Zeiger nach {links, rechts, unten, oben}<br />

• (bewege die) blaue Ebene nach {links, rechts}<br />

• schneller<br />

Der erkannte Befehl wird an die Anwendung Stenose-Vermessung weitergegeben. Diese überprüft,<br />

ob der Befehl im aktuellen Kontext sinnvoll bzw. möglich ist (z.B. setzt der Befehl schneller<br />

voraus, dass vorher ein Bewegungs-/Rotationsbefehl ausgeführt wurde). Falls der Befehl<br />

möglich ist, wird er ausgeführt, falls nicht, wird er ignoriert. Es wird keine Fehlermeldung oder<br />

Bestätigung ausgegeben.<br />

Das Erkennungsmodul benötigt ca. 36 MB Hauptspeicher. Der Erkenner ist so implementiert,<br />

dass er immer in etwa in Echtzeit arbeitet, d.h. dass immer wenige Millisekunden nach Erkennung<br />

einer Sprechpause von 200 Millisekunden der erkannte Befehl an die Anwendung übergeben<br />

wird. Dies wird dadurch erreicht, dass der Erkenner bei der Suche nach der besten Wortkette


mehr/weniger Alternativen zulässt, wenn er mehr/weniger CPU-Zeit zur Verfügung hat. Somit<br />

wirkt sich eine schlechtere Rechnerausstattung weniger auf die Reaktionszeit und mehr auf die<br />

Güte der Erkennung aus (weniger Alternativen bedeutet, dass gelegentlich ein gültiger Befehl<br />

verworfen wird). Eine ”<br />

vernünftige“ Minimalanforderung an das System (nur für das Spracherkennungsmodul)<br />

ist:<br />

• Pentium III - CPU mit 800 MHZ<br />

• 512 MB Hauptspeicher<br />

• 100 MB Festplattenplatz (fuer Konfiguration und Logfiles)<br />

Wenn eine High-End Grafikkarte mit <strong>3D</strong>-Beschleuniger und mindestens 256 MB Onboard vorhanden<br />

ist, dann beeinträchtigt der Spracherkenner die Anwendung fast gar nicht. Der Grund<br />

dafür ist, dass der rechenintensivste Teil der Anwendung fast vollständig von der Graphikkarte<br />

mit der eigenen CPU und eigenem <strong>3D</strong>-Beschleuniger berechnet wird und dem Spracherkenner<br />

die CPU des Rechners praktisch alleine zur Verfügung steht.<br />

Im nächsten Abschnitt soll das Stenose-Vermessungsmodul mit der Spracherkennung beschrieben<br />

werden.<br />

4.2 Beschreibung des Gesamtsystems<br />

Die Entwicklung von Algorithmen zur quantitativen Auswertung von Blutgefäßen [3] sowie zur<br />

computerunterstützten Gefäßnavigation konzentriert sich zunehmend auf deren Einsatz im interventionellen<br />

Umfeld. Da im Verlauf einer interventionellen Behandlung der Arzt den OP-Tisch<br />

und somit den sterilen Bereich verlassen muss, um an einer Workstation die Gefäßanalyse durchzuführen,<br />

stellt eine sprachgesteuerte Gefäßanalyse eine wertvolle Bereicherung dar. Dabei sollte<br />

die Sprachsteuerung nicht als Ersatz des bisher in der Praxis verwendeten Joysticks gesehen werden,<br />

sondern als zusätzliches Eingabemedium.<br />

Weit verbreitet ist ein am OP-Tisch angebrachter in Folie verpackter Joystick der als direktes<br />

Eingabeinstrument dient. Damit kann die <strong>3D</strong>-Ansicht der Gefäße verändert werden. Dazu selektiert<br />

der Benutzer im Menu die entsprechende Funktion, wie beispielsweise “rotieren”, “zoom”<br />

oder “verschieben”. Dieser Workflow kann durch direkte Spracheingabe erheblich verkürzt werden.<br />

Eine Sprachsteuerung bietet den Vorteil, dass alle Steuerbefehle in einer Kommandoebene<br />

angeordnet und somit umständliche hierarchische Menüs vermieden werden können. Eine quantitative<br />

Analyse der Blutgefäße kann somit direkt am OP-Tisch vollzogen werden.<br />

Da eine Gefäßanalyse noch nicht vollautomatisch durchgeführt werden kann, bedarf es einiger<br />

manueller Eingaben. Der zu analysierende Gefäßabschnitt wird dabei vom Arzt in der <strong>3D</strong>-<br />

Ansicht oder in einem Gefäßschnittbild via Mausklick angewählt, und bevor das Gefäßprofil automatisch<br />

erstellt werden kann, bedarf es noch einer Feinjustierung der Gefäßsegmentierung. Für<br />

diesen Workflow wurden spezielle Algorithmen entwickelt, die eine <strong>3D</strong>-Selektion eines Gefäßabschnittes<br />

und die Segmentierung auf ein notwendiges Minimum an Benutzerinteraktion reduzieren.<br />

Ein mit einem Funkmikrofon ausgestatteter Arzt ist damit in der Lage, eine Gefäßanalyse<br />

via Sprache durchzuführen, ohne den OP-Tisch verlassen zu müssen.


Abbildung 3: Selektion einer Stenose<br />

Für eine klinische Evaluierung wurde ein Prototyp<br />

realisiert, der es ermöglicht, eine Stenosen-<br />

Selektion und Quantifizierung mittels Sprachkommandos<br />

durchzuführen. Funktionell kann eine semiautomatische<br />

Schwellwertsegmentierung (Sprachbefehl:<br />

Erhöhe bitte den Schwellwert um 32 ),<br />

die Orientierung und Größe eines <strong>3D</strong>-Volumens<br />

(Sprachbefehl: Vergrößere/verkleinere das Volumen<br />

oder Rotiere das Volumen nach unten) sowie<br />

die Selektion einer Stenose mittels eines computerunterstützten<br />

<strong>3D</strong>-Zeigers via Sprachbefehl durchgeführt<br />

werden. Ein <strong>3D</strong>-Zeiger folgt dabei einem<br />

sprachgesteuerten 2D-Cursor permanent entlang<br />

der Gefäßschwerpunktlinie (Abbildung 3). Somit<br />

kann schnell und unkompliziert via Sprache der<br />

gewünschte <strong>3D</strong>-Gefäßabschnitt angewählt werden.<br />

Der entwickelte Prototyp wurde in eine Siemens Leonardo Workstation integriert und erlaubt<br />

eine Sprachsteuerung eines typischen Workflows einer Gefäßanalyse. Der Prototyp wurde am Institut<br />

für Röntgendiagnostik der Universität Würzburg klinisch evaluiert. Darüberhinaus wurde<br />

untersucht, in welchem Umfang die sprachgesteuerte Gefäßanalyse besser in den derzeitigen<br />

klinischen Workflow integriert werden kann.<br />

5 Ausblick<br />

Die Sprachsteuerung wurde von den in die Erprobung eingebundenen Ärzten insgesamt sehr<br />

positiv beurteilt. Besonders für die Bedienung von Geräten im sterilen Umfeld sehen sie durch<br />

die Sprachbedienung eine spürbare Erleichterung im beruflichen Alltag.<br />

Als möglicherweise problematisch für die Akzeptanz eines solchen Systems wird lediglich die<br />

Tatsache beurteilt, dass das System das Tragen eines Headsets verlangt. Obwohl sich hier für<br />

bestimmte Einsatzszenarien sehr komfortable Lösungen finden lassen (etwa die Integration des<br />

Mikrophons in den Mundschutz), so wird doch in Zweifel gezogen, ob jeder Arzt bereit ist,<br />

für den Komfort- und Effizienzgewinn bei der Bedienung des Systems die hierfür notwendigen<br />

Handgriffe in Kauf zu nehmen.<br />

Ohne besondere technische Maßnahmen sinkt die Erkennungsqualität mit zunehmendem Abstand<br />

zwischen Mund und Mikrophon drastisch. Verantwortlich hierfür sind der abnehmende<br />

Signal-Rausch-Abstand des Signals, Störgeräusche und besonders auch die auftretenden Echobzw.<br />

Hall-Effekte. Um zukünftig auch ein freies Sprechen mit Sprachsteuerungen ohne Headset<br />

zu ermöglichen, arbeiten wir zur Zeit intensiv an der Verwendung von Mikrophon-Arrays als<br />

Eingabemedium für die Spracherkennung und an der entsprechenden Optimierung des Spracherkenners.<br />

Mikrophon-Arrays fokussieren auf den Sprecher und kompensieren dadurch bis zu einem gewissen<br />

Grade störende Geräuschquellen, soweit sich diese nicht in Richtung des Sprechers befinden.<br />

Ohne weitere Maßnahmen sind jedoch bereits Entfernungen von mehr als 0,5m weiterhin problematisch.<br />

Durch ein neu entwickeltes Verfahren zur Anpassung des Spracherkenners an solche<br />

Bedingungen ist es uns bereits gelungen, auch bei einem Abstand von 1,5m und mehr den<br />

überwiegenden Teil der durch die verbleibenden Störungen verursachten Erkennungsfehler zu<br />

kompensieren, ohne hierfür neue, entsprechend gestörte Sprachdaten zur Adaption des Spracherkenners<br />

aufnehmen zu müssen.


Als eine realistische Alternative zur Verwendung eines Headsets erscheint daher etwa im Fall<br />

der sprachgesteuerten <strong>3D</strong>-Gefäßanalyse das Anbringen eines Mikrophon-Arrays im Bereich der<br />

Bildschirme, die an einem Schwenkarm oberhalb des Patienten positioniert sind (vgl. Abbildung<br />

2). Ob die hierdurch im OP-Alltag erzielbare Erkennungsgenauigkeit ausreicht, um die<br />

Funktionalität des bestehenden Systems in vollem Umfang beizubehalten, ist derzeit noch eine<br />

offene Frage.<br />

Literatur<br />

[1] F. Gallwitz. Integrated Stochastic Models for Spontaneous Speech Recognition, volume 6 of<br />

Studien zur Mustererkennung. Logos Verlag, Berlin, 2002.<br />

[2] X. Huang, A. Acero, and H.-W. Hon. Spoken Language Processing – A Guide to Theory,<br />

Algorithm, and System Development. Prentice Hall, Upper Saddle River, 2001.<br />

[3] M. Prümmer. Algorithmen zur quantitativen Analyse von Volumendaten. Diplomarbeit,<br />

CVGPR-Group, Universität Mannheim, Siemens Medical <strong>Solutions</strong>, Forchheim, 2002.<br />

[4] G. Stemmer. Modeling Variability in Speech Recognition. PhD thesis, Chair for Pattern<br />

Recognition, University of Erlangen-Nuremberg, 2004.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!