Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...

Akustische Stimmanalyse aus fortlaufender Sprache 

- Untersuchung von Tumorgruppen – 

Jan Lessing, Matthias Fröhlich, Dir Michaelis, Hans Werner Strube, Eberhard Kruse 

Einleitung: 

Ein Großteil der akustischen Analysemethoden zur quantitativen Stimmgütebeschreibung 

basiert auf der Analyse von gehaltenen, isoliert gesprochenen Vokalen. Der zu analysierende 

Bereich ist dabei klar durch Beginn und Ende der Phonation bestimmt. Anders dagegen verhält 

es sich bei der Analyse von fortlaufender Sprache, bei der die zu analysierenden Segmente 

stimmhafter Phonation erst aus dem fortlaufenden Signal selektiert werden müssen. Ein 

wesentlicher Vorteil der Analyse fortlaufender Sprache liegt in einer natürlicheren und einfacheren 

Sprechsituation für den Patienten, im Gegensatz zur möglichst stabilen, meist mehrere 

Sekunden andauernden gehaltenen Phonation der Vokale. Die Textanalyse liefert zum einen 

zusätzliche Informationen, die aus einer alleinigen Vokalanalyse nicht hervorgehen, zum anderen 

stellen die Ergebnisse aber auch eine wichtige Vergleichsmöglichkeit für die Interpretation 

der Vokalanalyseergebnisse dar 1 . 

Die Problematik der Analyse fortlaufender Sprache liegt allerdings in der notwendigen 

Segmentierung des Sprachsignals zur Selektion der Bereiche stimmhafter Phonation. Diese 

Selektion ist erforderlich, da lediglich die stimmhaften Anteile in die akustische Analyse einfließen 

sollen. Mit „stimmhaften Bereichen“ ist in diesem Zusammenhang nicht eine Stimmhaftigkeit 

aufgrund einer klar erkennbaren Periodizität im Zeitsignal gemeint, sondern die 

Stimmhaftigkeit des vom Sprecher artikulierten Phonems. Bei einem aphonen Sprecher z.B. 

ist in der Regel keinerlei Periodizität im Zeitsignal zu erkennen, ein von ihm artikulierter Vokal 

wird im Rahmen der hier kurz dargestellten Methode 2 aber trotzdem als stimmhaft bezeichnet. 

Methode: 

Das digital vorliegende Sprachsignal wird durch Kurzzeitfensterung in kürzere Abschnitte 

zerlegt. Durch Bestimmung der Signalenergie in jedem Fenster werden Sprechpausen ausgeschlossen. 

Unter Verwendung einer LPC-Analyse wird die Einhüllende des Signalkurzzeitspektrums 

bestimmt. Diese LPC-Spektren werden barkskaliert, dynamikkomprimiert und 

normiert. Die so transformierten Kurzzeitspektren jedes dieser einzelnen Fenster werden einem 

Neuronalen Netz zur Klassifikation zugeführt. Das Neuronale Netz selektiert anhand der 

1

während der Trainingsphase erworbenen Generalisierungsfähigkeit die Segmente stimmhafter 

Phonation aus dem fortlaufenden Sprachsignal. Diese stimmhaften Segmente werden anschließend 

zur Bestimmung akustischer Parameter herangezogen werden. Zur Beschreibung 

der Stimmgüte im Heiserkeits-Diagramm, mit seinen beiden Achsen Irregularitätskomponente 

-horizontal aufgetragen- und Rauschkomponente –vertikal aufgetragen- sind dazu die Parameter 

Jitter, Shimmer, Periodenkorrelationskoeffizient und GNE zu bestimmen 3 . Dies erfolgt 

unter Verwendung des Waveform Matching Algorithmus, mit dem die einzelnen Periodenmarken 

in den stimmhaften Bereichen des Sprachsignals ermittelt werden. 

Die für die Analyse fortlaufender Sprache notwendige Selektion der Bereiche stimmhafter 

Phonation ist mit dieser Methode für Stimmen beliebiger Stimmgüte möglich. Auch der 

Inhalt des fortlaufenden Textes ist beliebig. 

Ergebnisse: 

Unter Verwendung dieser hier nur kurz skizzierten Methode sind verschiedene Gruppen unterschiedlicher 

Phonationsmechanismen nach Tumorresektion akustisch analysiert worden 4 . 

Untersucht wurden Patienten der Gruppe glottische Ersatzphonation mit Schwingung (gl. 

phon.), pseudoglottische Ersatzphonation (ps. gl. phon.), ventrikuläre Ersatzphonation (vent. 

phon.) und ary-epiglottische Ersatzphonation (ary-epigl. phon.). Von diesen Sprechern sind 

jeweils getrennte Untersuchungen von gehaltener Phonation und fortlaufender Sprache 

durchgeführt worden. Die Einzelergebnisse der Stimmanalyse der jeweiligen Sprecher sind 

entsprechend der Pathologie zu einem Gruppenergebnis zusammengefaßt worden. Dazu sind 

die Mittelpunkte der Einzelsprecherellipsen gemittelt worden und mit ihrem jeweiligen Fehlermaß 

als Ellipse der gesamten Tumorgruppe im Heiserkeits-Diagramm dargestellt. In den 

beiden Abbildungen sind diese Ellipsen sowie die Analyseergebnisse für Normalstimmen und 

aphone Stimmen mit angegeben. 

Im Vergleich der Ergebnisse von Text- und Vokalanalyse ist deutlich die Übereinstimmung 

der Positionen der Ellipsen der einzelnen Tumorgruppen zueinander zu erkennen. 

Wie zu erwarten liegt die Irregularitätskomponente für die Textanalyse generell bei etwas 

höheren Werten, da bei fortlaufender Sprache die akustischen Parameter Jitter und Shimmer, 

die in die Irregularitätskomponente eingehen, höhere Werte als in gehaltener Phonation aufweisen. 

2

In einer statistischen Untersuchung der Ergebnisse dieser Tumorgruppen spiegelt sich 

diese Übereinstimmung ebenfalls wider. In den beiden Tabellen (Textanalyse links, Vokalanalyse 

rechts) sind die Ergebnisse eines zweidimensionalen Kolmogorov-Smirnov-Tests 

für die angeführten Tumorgruppen dargestellt. Angegeben ist in den beiden Tabellen der Abstand 

der Mittelpunkte der Ellipsen im Heiserkeits-Diagramm voneinander. Alle nicht gekennzeichneten 

Werte in der Tabelle trennen sich mit einem Signifikanzlevel von p = 0,05. 

Textanalyse 

gl. phon. 

ps. gl. phon. 

vent. phon. 

aryepigl. phon. 

Vokalanalyse 

gl. phon. 

ps. gl. phon. 

vent. phon. 

aryepigl. phon. 

aphon 

normal (32) 0,66 2,23 2,58 3,82 normal (37) 1,16 3,09 4,34 5,44 6,67 

gl. phon (13) 1,64 2,15 3,43 gl. phon (18) 1,93 3,23 4,32 5,54 

ps.gl. phon (6) 0,93 † 2,09 ps. gl. phon (8) 1,67 † 2,69 3,83 

vent.phon. (6) 1,28 † vent.phon. (6) 1,10 † 2,32 

aryepigl. phon. (5) 1,23 

Ziel dieser Untersuchung war zu ermitteln, ob sich die einzelnen Gruppen signifikant voneinander 

trennen lassen. Lediglich die Gruppe der ventrikulären Ersatzphonation läßt sich sowohl 

für die Textanalyse als auch für die Vokalanalyse nicht von der glottischen Ersatzphonation 

ohne Schwingung und der ary-epiglottischen trennen. Die anderen Gruppen lassen sich 

sowohl für die Textanalyse als auch für die Vokalanalyse signifikant voneinander trennen. 

Zusammenfassung: 

Die mit der entwickelten Methode erhaltenen Ergebnisse der akustischen Analyse fortlaufender 

Sprache decken sich gut mit denen aus der Analyse gehaltener Phonation. Die einzelnen 

untersuchten Phonationsgruppen lassen sich größtenteils statistisch signifikant voneinander 

trennen. Die Positionen der im Heiserkeits-Diagramm dargestellten Ellipsen der einzelnen 

Tumorgruppen weisen eine gute Übereinstimmung zwischen beiden Methoden auf. Die mit 

dieser Methode mögliche unüberwachte Analyse beliebigen fortlaufenden Textes ist für alle 

Stimmstörungen, einschließlich aphoner Stimmen, möglich und stellt eine wichtige Ergänzung 

zu den Analysemethoden gehaltener Phonation dar. 

3

Literatur: 

1 

J. Lessing, H.W. Strube, E. Kruse: Akustische Analyse pathologischer Stimmen aus fortlaufender 

Sprache; Aktuelle phoniatrisch pädaudiologische Aspekte 1997/98, M. Gross 

(Hrsg.), 53-59 (1997) 

2 

J. Lessing, M. Fröhlich, D. Michaelis, H.W. Strube, E. Kruse: Verwendung Neuronaler 

Netze zur Stimmgütebeschreibung pathologischer Stimmen. Aktuelle phoniatrisch pädaudiologische 

Aspekte 1998/99, M. Gross (Hrsg.), zur Veröffentlichung angenommen 

3 

D. Michaelis, M. Fröhlich, H.W. Strube: Selection and combination of acoustic parameters 

for the description of pathological voices; J. Acoust. Soc. Am. 103, 1628-1639 (1998) 

4 

M. Fröhlich, D. Michaelis, E. Kruse: Objektive Beschreibung der Stimmgüte unter Verwendung 

des Heiserkeits-Diagramms; HNO 64, 684-689 (1998) 

Autoren: 

Dipl. Phys. Jan Lessing, Dr. Hans Werner Strube 

Drittes Physikalisches Institut, Georg-August Universität, Bürgerstr. 42-44, 37073 Göttingen, 

Tel: 0551/397731, Fax: 0551/397720 

Dipl. Phys. Matthias Fröhlich, Dipl. Phys. Dirk Michaelis, Prof. Dr. med Eberhard Kruse 

Abt. Phoniatrie und Pädaudiologie, Georg-August Universität, Robert-Koch-Straße 40, 37075 

Göttingen 

4

Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?