Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Sprachgesteuerte 3D-Angiographie — 

Die Software folgt dem Arzt aufs Wort 

Elmar Nöth 1 , Marcus Prümmer 1 , Joachim Hornegger 1 , Florian Gallwitz 2 , Richard 

Huber 2 

1 Lehrstuhl für Mustererkennung (Informatik 5), 

Friedrich-Alexander-Universität Erlangen-Nürnberg, 

Martensstr. 3, 91058 Erlangen, Germany 

Tel.: +49-9131-8527888, Fax: +49-9131-303811 

noeth@informatik.uni-erlangen.de 

http://www5.informatik.uni-erlangen.de 

2 Sympalog Voice Solutions GmbH 

Karl-Zucker-Str. 10, 91052 Erlangen, Germany 

Tel.: +49-61661-0, Fax: +49-61661-20 

gallwitz@sympalog.de 

http://www.sympalog.de 

Zusammenfassung 

In diesem Beitrag beschreiben wir die Möglichkeiten der Steuerung von Geräten mittels 

natürlicher Sprache am Beispiel eines sprachgesteuerten 3D-Gefäßanalysesystems. Das System 

versteht ganze Sätze und erkennt selbständig, ob eine Äußerung an das System gerichtet 

ist oder an eine andere Person. Die Sprachsteuerung wurde am Lehrstuhl für Mustererkennung 

der Universität Erlangen-Nürnberg in Zusammenarbeit mit der Firma Sympalog Voice 

Solutions GmbH für ein Gerät zur Stenosenvermessung der Firma Siemens Medical Solutions 

(Leonardo Workstation) entwickelt, und kürzlich erfolgreich einer klinischen Erprobung 

unterzogen. 

1 Einleitung 

Wenn die Durchblutung des Gehirns durch Engstellen beeinträchtigt wird, kann ein Stent 1 das 

verengte Gefäß von innen her offen halten. Beim Einführen des Stent ist es wichtig, eine 3- 

dimensionale Darstellung der Gefäße zu haben, so wie es mit der 3D-Angiographie 2 möglich ist. 

Die Visualisierung der 3D-rekonstruierten Gefäße erfolgt während des klinischen Workflows und 

wird weitgehend per Joystick gesteuert, da beispielweise eine Maus als Eingabegerät aus hygienetechnischen 

Gründen am OP-Tisch nicht verwendbar ist. Am Lehrstuhl für Mustererkennung 

der Universität Erlangen-Nürnberg wurde zusammen mit der Firma Sympalog Voice Solutions 

GmbH eine Sprachsteuerung für ein Gerät zur Stenosenvermessung (Leonardo Workstation der 

Firma Siemens Medical Solutions) entwickelt und einer klinischen Erprobung unterworfen. In diesem 

Beitrag wollen wir die medizinische Anwendung ” 

Stenosenmessung“ beschreiben (Kap. 2), 

sprachliche Mensch-Maschine-Interaktion im Allgemeinen betrachten (Kapitel 3), das sprachgesteuerte 

Stenose-Vermessungsmodul beschreiben (Kapitel 4) und mit einem Ausblick auf weitere 

Arbeiten schließen (Kapitel 5). 

1 Maschenförmige Gefäßwandnachbildung zum Ausweiten einer Gefäßverengung. Weitet eine Gefäßwand von 

innen. 

2 Aufnahme einer Röntgenbildsequenz entlang einer Halbkreisbahn um den Patienten. Ermöglicht eine 3D- 

Rekonstruktion.

2 Analyse von Stenosen 

Abbildung 1: Gefäßprofil einer Stenose (links) und der quantifizierte Gefäßabschnitt (rechts). 

Stenosen sind Engstellen in Blutgefäßen, die beispielsweise durch Kalkablagerungen entstehen 

können und eine gestörte Durchblutung zur Folge haben. Eine Durchblutungsstörung des Gehirns 

ist oft die Ursache eines Schlaganfalls. Zur Risikoeinschätzung bedarf es einer gründlichen Analyse 

der Stenose, wobei der Verengungsgrad darüber entscheidet ob eine entsprechende Gefäßverengung 

behandelt werden muss. Zur Behandlung einer Stenose wird interventionell ein Stent 

mittels eines Katheters beispielsweise an der Leiste eingeführt und durch das Gefäßsystem zum 

krankhaften Gefäß durchgeschoben. Anschließend wird mit dem Stent die Gefäßwand geweitet 

und bei erfolgreicher Behandlung die ursprüngliche Anatomie wieder hergestellt. Um den Stent 

möglichst präzise auszuwählen und schnell zu plazieren, ist es erforderlich, eine 3D-Gefäßkarte 

zu erstellen und eine Quantifizierung des pathologischen Gefäßabschnittes vorzunehmen. Für 

die richtige Wahl des Stents wird der Gefäßdurchmesserverlauf und die Länge des stenotisierten 

Gefäßabschnittes benötigt (Abbildung 1). 

Die 3D-Angiographie ermöglicht vor dem Eingriff eine Visualisierung der Gefäße, die der Arzt 

zur Wegplanung des Katheters verwendet. Im Verlauf einer Intervention (Abbildung 2) können 

mehrere Aufnahmen notwendig sein, um in schwierigen Fällen einen Katheter richtig zu platzieren. 

Die 3D-Angiographie ist eine in der Praxis oft angewandte Methode um hochauflösende 

3D-Bilder zu rekonstruieren. Technisch realisiert durch ein C-Bogen System werden im Verlauf 

einer Rotationsbewegung um den Patienten ca. 50-300 Röntgenaufnahmen geliefert aus denen 

innerhalb weniger Minuten eine 3D-Rekonstruktion des Gefäßbaumes berechnet wird. 

3 Sprachliche Mensch-Maschine-Interaktion 

Im Folgenden wollen wir einige Aspekte der sprachlichen Mensch-Maschine-Interaktion (MMI) 

untersuchen. Technische Aspekte der MMI sind zum Beispiel in [2, 1, 4] beschrieben. Wir beschränken 

uns dabei auf die Interaktion zur Gerätesteuerung. Automatische Systeme zur Abfrage 

von Information (z.B. Fahrplan-Auskunft) oder Transaktionssysteme (z.B. Banküberweisungssysteme) 

bleiben hier unberücksichtigt. Mensch-Maschine-Interaktionssysteme lassen sich 

in verschiedene Richtungen kategorisieren:

Abbildung 2: C-Bogen-System zur 3D-Darstellung von Gefäßen (Quelle: Siemens Medical Solutions). 

• Kommandowort-Systeme: Diese Kategorie von Systemen ist immer noch sehr weit verbreitet, 

da sie wenig Rechenaufwand erfordert, es billige Chips dafür gibt und da der Anwender 

den Wortschatz selbst festlegen kann. Ein System kann ca. 10 bis 100 Einzelwörter 

erkennen, jedes davon löst eine Aktion aus. Der Anwender muß jedes der Kommandowörter 

ein- oder mehrmals sprechen. Aus den Sprachsignalen werden Merkmale berechnet und abgespeichert. 

Wird ein neuer Befehl gesprochen, so werden die daraus berechneten Merkmale 

mit allen gespeicherten Befehlen verglichen (Dynamische Zeitverzerrung) und das System 

entscheidet sich für den Befehl mit dem kleinsten Abstand. Ein wichtiger Nachteil dieses 

Ansatzes ist die Sprecherabhängigkeit des Systems: Wechselt der Anwender, so muss 

das gesamte System neu trainiert werden. Typische Anwendungen sind die Sprachwahl 

bei Handys (siehe die Telekom-Werbung “Wenn Sie Ihre Oma anrufen wollen, sagen Sie 

einfach ‘Oma’!”) oder einfache Gerätesteuerungen (“links”, “rechts”, “stop”). 

• Kommando- und Kontroll-Systeme: Die oben genannten Systeme stoßen sehr schnell 

an ihre Grenze, wenn es um die Parametrierbarkeit der Befehle geht (“nach links um 

Grad”). Die Tatsache, dass man einer Benutzeräußerung nicht mehr eine Aktion 

zuordnen kann, hat wichtige Konsequenzen: die erkannte Wortkette muß analysiert werden; 

der einzelne Anwender kann nicht mehr alle kombinatorisch möglichen Äußerungen 

vorab sprechen. Daher wird die Erkennung und Interpretation der Befehle mit grundsätzlich 

anderen Verfahren durchgeführt: statt sprecherabhängigem Schablonvergleich werden 

Verfahren zur sprecherunabhängigen Erkennung (insbesondere “Hidden Markov Modelle”) 

und zur Interpretation der erkannten Kette der am wahrscheinlichsten gesprochenen 

Wörter (insbesondere “Endliche Automaten”) verwendet. Eine wichtige Unterscheidung 

besteht zwischen folgenden Erkennertypen: 

– Grammatik-basierte Erkenner: Die Menge der möglichen Befehle wird vorab exakt 

festgelegt und in einem Graph abgespeichert. Der Erkenner benutzt den Graphen 

und lässt nur Pfade in dem Graphen als gültige Kommandos zu. Jedem Pfad wird 

eine Interpretation zugeordnet. Damit steht die Bedeutung des Kommandos nach 

der Erkennung fest. Da nicht alle Wörter zu jedem Zeitpunkt möglich sind, wird die 

Zahl der Erkennungsfehler stark reduziert. Ein Nachteil ist, dass der Benutzer die 

Wortfolge der Befehle exakt kennen muss.

– Erkenner mit stochastischen Sprachmodellen: Alle Wortfolgen sind möglich; 

der Befehl muss auf der erkannten Wortkette in geeigneter Weise extrahiert werden. 

Wortfolgen, die Befehle repräsentieren, erhalten eine höhere Wahrscheinlichkeit. Die 

Wahrscheinlichkeiten werden auf einer Trainingsmenge geschätzt. 

• Dialog-Systeme Unter Umständen enthält der Befehl an ein Kommando- und Kontroll- 

System nicht genügend Information oder ein im aktuellen Kontext nicht mögliches Kommando. 

In diesen Fällen, oder wenn aus Sicherheitsgründen vor Ausführung des Kommandos 

eine Bestätigung durch den Anwender notwendig ist, muss ein Dialogsystem verwendet 

werden. Im folgenden Beispiel interagiert ein Benutzer mit einem Roboterarm: 

B: Drehe die Schraube fest. 

S: Für diesen Befehl ist eine Angabe in Newtonmeter notwenig. Mit wieviel Newtonmeter 

soll ich festdrehen? 

B: Mit 5 

Zur korrekten Interpretation der letzten Benutzeräußerung benötigt das System die Dialoggeschichte 

der vorangegangenen Befehle und Aktionen. 

• Benutzer-/System-initiierte Interaktion Die Art der Interaktion und die Komplexität 

des Interaktions-Systems wird stark davon beeinflusst, ob das System nur auf Benutzeräußerungen 

reagieren kann, oder auch von sich aus Interaktionen initiieren kann, 

etwa um den Benutzer auf eine kritische Situation aufmerksam zu machen (z.B. ein ” 

intelligenter 

Beifahrer“: Es kann sein, dass ein Lager im rechten Vorderrad defekt ist; bitte 

reduzieren Sie Ihre Geschwindigkeit und fahren Sie die nächste Werkstatt an). 

• ” 

Push-to-talk“-Syteme In vielen Situationen kann es sinnvoll sein, dass das Interaktionssystem 

erst durch einen Funktionsknopf aktiviert werden muss. Der Funktionsknopf 

bzw. -hebel hat den Vorteil, dass die Aktivierung “fehlerfrei” ist (kommt der Benutzer aus 

Versehen an den Knopf, so sieht er das als seinen Fehler an und nicht als Systemfehler) 

und dass das System nicht ständig mithören muss und somit keine Rechenzeit verbraucht. 

Typische Anwendungen sind 

– Fahrerassistenzsysteme (Fahrer unterhält sich viel mit Beifahrer, schlechte akustische 

Bedingungen), bei denen sonst unverhältnismäßig oft ein Befehl aufgrund einer 

Fehlerkennung ausgeführt werden würde, 

– Systeme, die sicherheitsrelevante Aktionen ausführen können, 

– Handys, die nur wenig Rechenleistung haben. 

• ” 

Aktivierungswort“-Systeme Bei dieser Art von Systemen wird der Aktivierungsknopf 

durch ein Befehlswort ersetzt (z.B. Sesam oder Butler). Durch die Einschränkung auf nur 

ein Wort kann die fehlerhafte Auslösung von Befehlen und der erforderliche Rechenaufwand 

während der nicht-aktiven Phase gering gehalten werden. 

• ” 

Online-“-Systeme Bei dieser Art von Systemen kann der Benutzer beliebig zwischen 

für das System relevanten Befehlen und irrelevanten Äußerungen hin- und herschalten. 

Diese Art von Systemsteuerung ist die für den Anwender bequemste und für das System 

rechenintensivste Lösung. Da das System ständig zuhört, aber nur auf seine Befehle reagieren 

soll, müssen alle möglichen irrelevanten Äußerungen ebenfalls modelliert werden. 

Dies geschieht mit sogenannten Müll- oder Hintergrundmodellen. 

• multimodale Systeme das System erlaubt mehrere Eingabe-Modi, z.B. Tastatur, Maus, 

Joystick, Mikrofon 

• multimediale Systeme das System kann über verschiedene Medien dem Benutzer Information 

ausgeben, z.B. Bildschirm und Lautsprecher.

4 Ein sprachgesteuertes Stenose-Vermessungsmodul 

4.1 Beschreibung des Spracherkennungsmoduls 

Im folgenden soll der in dem Stenose-Analyse-System verwendete Erkenner kurz charaktersiert 

werden: 

In dem System wurde der Sprecherkenner SymRec der Firma Sympalog eingesetzt. Er basiert, 

wie praktisch alle im wissenschaftlichen und kommerziellen Bereich verfügbaren sprecherunabhängigen 

Erkenner, auf der Hidden-Markov-Technologie. Ein vergleichbarer Spracherkenner 

aus dem wissenschaftlichen Umfeld und aktuelle Forschungsarbeiten zu diesem Thema sind in 

[1, 4] beschrieben. 

Im Sinne der Kategorisierung des letzten Kapitels handelt es sich um ein Kommando- und 

Kontroll-System, das mit einem stochastischen Sprachmodell arbeitet. Alle Interaktionen sind 

Benutzer-initiiert. Es handelt sich um ein ” 

Online“-System. Da die Kommandos sowohl über 

Mikrofon als auch mit der Maus und Tastatur bzw. einem Joystik eingegeben werden können 

und alle Reaktionen des Systems am Bildschirm dargestellt werden, liegt ein multimodales und 

monomediales System vor. 

Der Erkenner hat einen Anwendungswortschatz von 275 Wörtern (ca. 50% deutsche, 50% englische 

Wörter). Dazu kommt noch ein komplexes Hintergrundmodell zur Kompensation von quasi 

beliebigen Äußerungen außerhalb des Anwendungsbereichs. 

Der Erkenner hat nur ein stochastisches Sprachmodell, d.h. der Systemzustand des Anwendungssystems 

” 

Stenose-Analyse“ wird nicht ausgenutzt, um Befehle, die im aktuellen Zustand 

des Systems nicht sinnvoll sind, von der Erkennung auszuschließen. Sobald der Erkenner einen 

möglichen Befehl erkannt hat, liefert er die am wahrscheinlichsten gesprochene Wortkette an 

das Verstehensmodul. Dieses sucht mit Hilfe von 20 endlichen Automaten (sogenannten Infoscannern) 

in der Wortkette nach Unterketten, die gültige Befehle darstellen. Beispielbefehle sind 

(Wörter in () sind optional, Wörter in {} sind Parameter): 

• {erhöhe, erniedrige} den Schwellwert um {Zahl} 

• analysiere (die) Stenose 

• analyze (the) stenosis 

• rotiere (das) Volumen 

• rotate (the) volume 

• bewege (den) Zeiger nach {links, rechts, unten, oben} 

• (bewege die) blaue Ebene nach {links, rechts} 

• schneller 

Der erkannte Befehl wird an die Anwendung Stenose-Vermessung weitergegeben. Diese überprüft, 

ob der Befehl im aktuellen Kontext sinnvoll bzw. möglich ist (z.B. setzt der Befehl schneller 

voraus, dass vorher ein Bewegungs-/Rotationsbefehl ausgeführt wurde). Falls der Befehl 

möglich ist, wird er ausgeführt, falls nicht, wird er ignoriert. Es wird keine Fehlermeldung oder 

Bestätigung ausgegeben. 

Das Erkennungsmodul benötigt ca. 36 MB Hauptspeicher. Der Erkenner ist so implementiert, 

dass er immer in etwa in Echtzeit arbeitet, d.h. dass immer wenige Millisekunden nach Erkennung 

einer Sprechpause von 200 Millisekunden der erkannte Befehl an die Anwendung übergeben 

wird. Dies wird dadurch erreicht, dass der Erkenner bei der Suche nach der besten Wortkette

mehr/weniger Alternativen zulässt, wenn er mehr/weniger CPU-Zeit zur Verfügung hat. Somit 

wirkt sich eine schlechtere Rechnerausstattung weniger auf die Reaktionszeit und mehr auf die 

Güte der Erkennung aus (weniger Alternativen bedeutet, dass gelegentlich ein gültiger Befehl 

verworfen wird). Eine ” 

vernünftige“ Minimalanforderung an das System (nur für das Spracherkennungsmodul) 

ist: 

• Pentium III - CPU mit 800 MHZ 

• 512 MB Hauptspeicher 

• 100 MB Festplattenplatz (fuer Konfiguration und Logfiles) 

Wenn eine High-End Grafikkarte mit 3D-Beschleuniger und mindestens 256 MB Onboard vorhanden 

ist, dann beeinträchtigt der Spracherkenner die Anwendung fast gar nicht. Der Grund 

dafür ist, dass der rechenintensivste Teil der Anwendung fast vollständig von der Graphikkarte 

mit der eigenen CPU und eigenem 3D-Beschleuniger berechnet wird und dem Spracherkenner 

die CPU des Rechners praktisch alleine zur Verfügung steht. 

Im nächsten Abschnitt soll das Stenose-Vermessungsmodul mit der Spracherkennung beschrieben 

werden. 

4.2 Beschreibung des Gesamtsystems 

Die Entwicklung von Algorithmen zur quantitativen Auswertung von Blutgefäßen [3] sowie zur 

computerunterstützten Gefäßnavigation konzentriert sich zunehmend auf deren Einsatz im interventionellen 

Umfeld. Da im Verlauf einer interventionellen Behandlung der Arzt den OP-Tisch 

und somit den sterilen Bereich verlassen muss, um an einer Workstation die Gefäßanalyse durchzuführen, 

stellt eine sprachgesteuerte Gefäßanalyse eine wertvolle Bereicherung dar. Dabei sollte 

die Sprachsteuerung nicht als Ersatz des bisher in der Praxis verwendeten Joysticks gesehen werden, 

sondern als zusätzliches Eingabemedium. 

Weit verbreitet ist ein am OP-Tisch angebrachter in Folie verpackter Joystick der als direktes 

Eingabeinstrument dient. Damit kann die 3D-Ansicht der Gefäße verändert werden. Dazu selektiert 

der Benutzer im Menu die entsprechende Funktion, wie beispielsweise “rotieren”, “zoom” 

oder “verschieben”. Dieser Workflow kann durch direkte Spracheingabe erheblich verkürzt werden. 

Eine Sprachsteuerung bietet den Vorteil, dass alle Steuerbefehle in einer Kommandoebene 

angeordnet und somit umständliche hierarchische Menüs vermieden werden können. Eine quantitative 

Analyse der Blutgefäße kann somit direkt am OP-Tisch vollzogen werden. 

Da eine Gefäßanalyse noch nicht vollautomatisch durchgeführt werden kann, bedarf es einiger 

manueller Eingaben. Der zu analysierende Gefäßabschnitt wird dabei vom Arzt in der 3D- 

Ansicht oder in einem Gefäßschnittbild via Mausklick angewählt, und bevor das Gefäßprofil automatisch 

erstellt werden kann, bedarf es noch einer Feinjustierung der Gefäßsegmentierung. Für 

diesen Workflow wurden spezielle Algorithmen entwickelt, die eine 3D-Selektion eines Gefäßabschnittes 

und die Segmentierung auf ein notwendiges Minimum an Benutzerinteraktion reduzieren. 

Ein mit einem Funkmikrofon ausgestatteter Arzt ist damit in der Lage, eine Gefäßanalyse 

via Sprache durchzuführen, ohne den OP-Tisch verlassen zu müssen.

Abbildung 3: Selektion einer Stenose 

Für eine klinische Evaluierung wurde ein Prototyp 

realisiert, der es ermöglicht, eine Stenosen- 

Selektion und Quantifizierung mittels Sprachkommandos 

durchzuführen. Funktionell kann eine semiautomatische 

Schwellwertsegmentierung (Sprachbefehl: 

Erhöhe bitte den Schwellwert um 32 ), 

die Orientierung und Größe eines 3D-Volumens 

(Sprachbefehl: Vergrößere/verkleinere das Volumen 

oder Rotiere das Volumen nach unten) sowie 

die Selektion einer Stenose mittels eines computerunterstützten 

3D-Zeigers via Sprachbefehl durchgeführt 

werden. Ein 3D-Zeiger folgt dabei einem 

sprachgesteuerten 2D-Cursor permanent entlang 

der Gefäßschwerpunktlinie (Abbildung 3). Somit 

kann schnell und unkompliziert via Sprache der 

gewünschte 3D-Gefäßabschnitt angewählt werden. 

Der entwickelte Prototyp wurde in eine Siemens Leonardo Workstation integriert und erlaubt 

eine Sprachsteuerung eines typischen Workflows einer Gefäßanalyse. Der Prototyp wurde am Institut 

für Röntgendiagnostik der Universität Würzburg klinisch evaluiert. Darüberhinaus wurde 

untersucht, in welchem Umfang die sprachgesteuerte Gefäßanalyse besser in den derzeitigen 

klinischen Workflow integriert werden kann. 

5 Ausblick 

Die Sprachsteuerung wurde von den in die Erprobung eingebundenen Ärzten insgesamt sehr 

positiv beurteilt. Besonders für die Bedienung von Geräten im sterilen Umfeld sehen sie durch 

die Sprachbedienung eine spürbare Erleichterung im beruflichen Alltag. 

Als möglicherweise problematisch für die Akzeptanz eines solchen Systems wird lediglich die 

Tatsache beurteilt, dass das System das Tragen eines Headsets verlangt. Obwohl sich hier für 

bestimmte Einsatzszenarien sehr komfortable Lösungen finden lassen (etwa die Integration des 

Mikrophons in den Mundschutz), so wird doch in Zweifel gezogen, ob jeder Arzt bereit ist, 

für den Komfort- und Effizienzgewinn bei der Bedienung des Systems die hierfür notwendigen 

Handgriffe in Kauf zu nehmen. 

Ohne besondere technische Maßnahmen sinkt die Erkennungsqualität mit zunehmendem Abstand 

zwischen Mund und Mikrophon drastisch. Verantwortlich hierfür sind der abnehmende 

Signal-Rausch-Abstand des Signals, Störgeräusche und besonders auch die auftretenden Echobzw. 

Hall-Effekte. Um zukünftig auch ein freies Sprechen mit Sprachsteuerungen ohne Headset 

zu ermöglichen, arbeiten wir zur Zeit intensiv an der Verwendung von Mikrophon-Arrays als 

Eingabemedium für die Spracherkennung und an der entsprechenden Optimierung des Spracherkenners. 

Mikrophon-Arrays fokussieren auf den Sprecher und kompensieren dadurch bis zu einem gewissen 

Grade störende Geräuschquellen, soweit sich diese nicht in Richtung des Sprechers befinden. 

Ohne weitere Maßnahmen sind jedoch bereits Entfernungen von mehr als 0,5m weiterhin problematisch. 

Durch ein neu entwickeltes Verfahren zur Anpassung des Spracherkenners an solche 

Bedingungen ist es uns bereits gelungen, auch bei einem Abstand von 1,5m und mehr den 

überwiegenden Teil der durch die verbleibenden Störungen verursachten Erkennungsfehler zu 

kompensieren, ohne hierfür neue, entsprechend gestörte Sprachdaten zur Adaption des Spracherkenners 

aufnehmen zu müssen.

Als eine realistische Alternative zur Verwendung eines Headsets erscheint daher etwa im Fall 

der sprachgesteuerten 3D-Gefäßanalyse das Anbringen eines Mikrophon-Arrays im Bereich der 

Bildschirme, die an einem Schwenkarm oberhalb des Patienten positioniert sind (vgl. Abbildung 

2). Ob die hierdurch im OP-Alltag erzielbare Erkennungsgenauigkeit ausreicht, um die 

Funktionalität des bestehenden Systems in vollem Umfang beizubehalten, ist derzeit noch eine 

offene Frage. 

Literatur 

[1] F. Gallwitz. Integrated Stochastic Models for Spontaneous Speech Recognition, volume 6 of 

Studien zur Mustererkennung. Logos Verlag, Berlin, 2002. 

[2] X. Huang, A. Acero, and H.-W. Hon. Spoken Language Processing – A Guide to Theory, 

Algorithm, and System Development. Prentice Hall, Upper Saddle River, 2001. 

[3] M. Prümmer. Algorithmen zur quantitativen Analyse von Volumendaten. Diplomarbeit, 

CVGPR-Group, Universität Mannheim, Siemens Medical Solutions, Forchheim, 2002. 

[4] G. Stemmer. Modeling Variability in Speech Recognition. PhD thesis, Chair for Pattern 

Recognition, University of Erlangen-Nuremberg, 2004.

Sprachgesteuerte 3D-Angiographie - Sympalog Voice Solutions ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?