Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...
Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...
Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Akustische</strong> <strong>Stimmanalyse</strong> <strong>aus</strong> <strong>fortlaufender</strong> <strong>Sprache</strong><br />
- <strong>Untersuchung</strong> von Tumorgruppen –<br />
Jan Lessing, Matthias Fröhlich, Dir Michaelis, Hans Werner Strube, Eberhard Kruse<br />
Einleitung:<br />
Ein Großteil der akustischen Analysemethoden zur quantitativen Stimmgütebeschreibung<br />
basiert auf der Analyse von gehaltenen, isoliert gesprochenen Vokalen. Der zu analysierende<br />
Bereich ist dabei klar durch Beginn und Ende der Phonation bestimmt. Anders dagegen verhält<br />
es sich bei der Analyse von <strong>fortlaufender</strong> <strong>Sprache</strong>, bei der die zu analysierenden Segmente<br />
stimmhafter Phonation erst <strong>aus</strong> dem fortlaufenden Signal selektiert werden müssen. Ein<br />
wesentlicher Vorteil der Analyse <strong>fortlaufender</strong> <strong>Sprache</strong> liegt in einer natürlicheren und einfacheren<br />
Sprechsituation für den Patienten, im Gegensatz zur möglichst stabilen, meist mehrere<br />
Sekunden andauernden gehaltenen Phonation der Vokale. Die Textanalyse liefert zum einen<br />
zusätzliche Informationen, die <strong>aus</strong> einer alleinigen Vokalanalyse nicht hervorgehen, zum anderen<br />
stellen die Ergebnisse aber auch eine wichtige Vergleichsmöglichkeit für die Interpretation<br />
der Vokalanalyseergebnisse dar 1 .<br />
Die Problematik der Analyse <strong>fortlaufender</strong> <strong>Sprache</strong> liegt allerdings in der notwendigen<br />
Segmentierung des Sprachsignals zur Selektion der Bereiche stimmhafter Phonation. Diese<br />
Selektion ist erforderlich, da lediglich die stimmhaften Anteile in die akustische Analyse einfließen<br />
sollen. Mit „stimmhaften Bereichen“ ist in diesem Zusammenhang nicht eine Stimmhaftigkeit<br />
aufgrund einer klar erkennbaren Periodizität im Zeitsignal gemeint, sondern die<br />
Stimmhaftigkeit des vom Sprecher artikulierten Phonems. Bei einem aphonen Sprecher z.B.<br />
ist in der Regel keinerlei Periodizität im Zeitsignal zu erkennen, ein von ihm artikulierter Vokal<br />
wird im Rahmen der hier kurz dargestellten Methode 2 aber trotzdem als stimmhaft bezeichnet.<br />
Methode:<br />
Das digital vorliegende Sprachsignal wird durch Kurzzeitfensterung in kürzere Abschnitte<br />
zerlegt. Durch Bestimmung der Signalenergie in jedem Fenster werden Sprechp<strong>aus</strong>en <strong>aus</strong>geschlossen.<br />
Unter Verwendung einer LPC-Analyse wird die Einhüllende des Signalkurzzeitspektrums<br />
bestimmt. Diese LPC-Spektren werden barkskaliert, dynamikkomprimiert und<br />
normiert. Die so transformierten Kurzzeitspektren jedes dieser einzelnen Fenster werden einem<br />
Neuronalen Netz zur Klassifikation zugeführt. Das Neuronale Netz selektiert anhand der<br />
1
während der Trainingsphase erworbenen Generalisierungsfähigkeit die Segmente stimmhafter<br />
Phonation <strong>aus</strong> dem fortlaufenden Sprachsignal. Diese stimmhaften Segmente werden anschließend<br />
zur Bestimmung akustischer Parameter herangezogen werden. Zur Beschreibung<br />
der Stimmgüte im Heiserkeits-Diagramm, mit seinen beiden Achsen Irregularitätskomponente<br />
-horizontal aufgetragen- und R<strong>aus</strong>chkomponente –vertikal aufgetragen- sind dazu die Parameter<br />
Jitter, Shimmer, Periodenkorrelationskoeffizient und GNE zu bestimmen 3 . Dies erfolgt<br />
unter Verwendung des Waveform Matching Algorithmus, mit dem die einzelnen Periodenmarken<br />
in den stimmhaften Bereichen des Sprachsignals ermittelt werden.<br />
Die für die Analyse <strong>fortlaufender</strong> <strong>Sprache</strong> notwendige Selektion der Bereiche stimmhafter<br />
Phonation ist mit dieser Methode für Stimmen beliebiger Stimmgüte möglich. Auch der<br />
Inhalt des fortlaufenden Textes ist beliebig.<br />
Ergebnisse:<br />
Unter Verwendung dieser hier nur kurz skizzierten Methode sind verschiedene Gruppen unterschiedlicher<br />
Phonationsmechanismen nach Tumorresektion akustisch analysiert worden 4 .<br />
Untersucht wurden Patienten der Gruppe glottische Ersatzphonation mit Schwingung (gl.<br />
phon.), pseudoglottische Ersatzphonation (ps. gl. phon.), ventrikuläre Ersatzphonation (vent.<br />
phon.) und ary-epiglottische Ersatzphonation (ary-epigl. phon.). Von diesen Sprechern sind<br />
jeweils getrennte <strong>Untersuchung</strong>en von gehaltener Phonation und <strong>fortlaufender</strong> <strong>Sprache</strong><br />
durchgeführt worden. Die Einzelergebnisse der <strong>Stimmanalyse</strong> der jeweiligen Sprecher sind<br />
entsprechend der Pathologie zu einem Gruppenergebnis zusammengefaßt worden. Dazu sind<br />
die Mittelpunkte der Einzelsprecherellipsen gemittelt worden und mit ihrem jeweiligen Fehlermaß<br />
als Ellipse der gesamten Tumorgruppe im Heiserkeits-Diagramm dargestellt. In den<br />
beiden Abbildungen sind diese Ellipsen sowie die Analyseergebnisse für Normalstimmen und<br />
aphone Stimmen mit angegeben.<br />
Im Vergleich der Ergebnisse von Text- und Vokalanalyse ist deutlich die Übereinstimmung<br />
der Positionen der Ellipsen der einzelnen Tumorgruppen zueinander zu erkennen.<br />
Wie zu erwarten liegt die Irregularitätskomponente für die Textanalyse generell bei etwas<br />
höheren Werten, da bei <strong>fortlaufender</strong> <strong>Sprache</strong> die akustischen Parameter Jitter und Shimmer,<br />
die in die Irregularitätskomponente eingehen, höhere Werte als in gehaltener Phonation aufweisen.<br />
2
In einer statistischen <strong>Untersuchung</strong> der Ergebnisse dieser Tumorgruppen spiegelt sich<br />
diese Übereinstimmung ebenfalls wider. In den beiden Tabellen (Textanalyse links, Vokalanalyse<br />
rechts) sind die Ergebnisse eines zweidimensionalen Kolmogorov-Smirnov-Tests<br />
für die angeführten Tumorgruppen dargestellt. Angegeben ist in den beiden Tabellen der Abstand<br />
der Mittelpunkte der Ellipsen im Heiserkeits-Diagramm voneinander. Alle nicht gekennzeichneten<br />
Werte in der Tabelle trennen sich mit einem Signifikanzlevel von p = 0,05.<br />
Textanalyse<br />
gl. phon.<br />
ps. gl. phon.<br />
vent. phon.<br />
aryepigl. phon.<br />
Vokalanalyse<br />
gl. phon.<br />
ps. gl. phon.<br />
vent. phon.<br />
aryepigl. phon.<br />
aphon<br />
normal (32) 0,66 2,23 2,58 3,82 normal (37) 1,16 3,09 4,34 5,44 6,67<br />
gl. phon (13) 1,64 2,15 3,43 gl. phon (18) 1,93 3,23 4,32 5,54<br />
ps.gl. phon (6) 0,93 † 2,09 ps. gl. phon (8) 1,67 † 2,69 3,83<br />
vent.phon. (6) 1,28 † vent.phon. (6) 1,10 † 2,32<br />
aryepigl. phon. (5) 1,23<br />
Ziel dieser <strong>Untersuchung</strong> war zu ermitteln, ob sich die einzelnen Gruppen signifikant voneinander<br />
trennen lassen. Lediglich die Gruppe der ventrikulären Ersatzphonation läßt sich sowohl<br />
für die Textanalyse als auch für die Vokalanalyse nicht von der glottischen Ersatzphonation<br />
ohne Schwingung und der ary-epiglottischen trennen. Die anderen Gruppen lassen sich<br />
sowohl für die Textanalyse als auch für die Vokalanalyse signifikant voneinander trennen.<br />
Zusammenfassung:<br />
Die mit der entwickelten Methode erhaltenen Ergebnisse der akustischen Analyse <strong>fortlaufender</strong><br />
<strong>Sprache</strong> decken sich gut mit denen <strong>aus</strong> der Analyse gehaltener Phonation. Die einzelnen<br />
untersuchten Phonationsgruppen lassen sich größtenteils statistisch signifikant voneinander<br />
trennen. Die Positionen der im Heiserkeits-Diagramm dargestellten Ellipsen der einzelnen<br />
Tumorgruppen weisen eine gute Übereinstimmung zwischen beiden Methoden auf. Die mit<br />
dieser Methode mögliche unüberwachte Analyse beliebigen fortlaufenden Textes ist für alle<br />
Stimmstörungen, einschließlich aphoner Stimmen, möglich und stellt eine wichtige Ergänzung<br />
zu den Analysemethoden gehaltener Phonation dar.<br />
3
Literatur:<br />
1<br />
J. Lessing, H.W. Strube, E. Kruse: <strong>Akustische</strong> Analyse pathologischer Stimmen <strong>aus</strong> <strong>fortlaufender</strong><br />
<strong>Sprache</strong>; Aktuelle phoniatrisch pädaudiologische Aspekte 1997/98, M. Gross<br />
(Hrsg.), 53-59 (1997)<br />
2<br />
J. Lessing, M. Fröhlich, D. Michaelis, H.W. Strube, E. Kruse: Verwendung Neuronaler<br />
Netze zur Stimmgütebeschreibung pathologischer Stimmen. Aktuelle phoniatrisch pädaudiologische<br />
Aspekte 1998/99, M. Gross (Hrsg.), zur Veröffentlichung angenommen<br />
3<br />
D. Michaelis, M. Fröhlich, H.W. Strube: Selection and combination of acoustic parameters<br />
for the description of pathological voices; J. Acoust. Soc. Am. 103, 1628-1639 (1998)<br />
4<br />
M. Fröhlich, D. Michaelis, E. Kruse: Objektive Beschreibung der Stimmgüte unter Verwendung<br />
des Heiserkeits-Diagramms; HNO 64, 684-689 (1998)<br />
Autoren:<br />
Dipl. Phys. Jan Lessing, Dr. Hans Werner Strube<br />
Drittes Physikalisches Institut, Georg-August Universität, Bürgerstr. 42-44, 37073 Göttingen,<br />
Tel: 0551/397731, Fax: 0551/397720<br />
Dipl. Phys. Matthias Fröhlich, Dipl. Phys. Dirk Michaelis, Prof. Dr. med Eberhard Kruse<br />
Abt. Phoniatrie und Pädaudiologie, Georg-August Universität, Robert-Koch-Straße 40, 37075<br />
Göttingen<br />
4