05.11.2013 Aufrufe

Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...

Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...

Akustische Stimmanalyse aus fortlaufender Sprache - Untersuchung ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Akustische</strong> <strong>Stimmanalyse</strong> <strong>aus</strong> <strong>fortlaufender</strong> <strong>Sprache</strong><br />

- <strong>Untersuchung</strong> von Tumorgruppen –<br />

Jan Lessing, Matthias Fröhlich, Dir Michaelis, Hans Werner Strube, Eberhard Kruse<br />

Einleitung:<br />

Ein Großteil der akustischen Analysemethoden zur quantitativen Stimmgütebeschreibung<br />

basiert auf der Analyse von gehaltenen, isoliert gesprochenen Vokalen. Der zu analysierende<br />

Bereich ist dabei klar durch Beginn und Ende der Phonation bestimmt. Anders dagegen verhält<br />

es sich bei der Analyse von <strong>fortlaufender</strong> <strong>Sprache</strong>, bei der die zu analysierenden Segmente<br />

stimmhafter Phonation erst <strong>aus</strong> dem fortlaufenden Signal selektiert werden müssen. Ein<br />

wesentlicher Vorteil der Analyse <strong>fortlaufender</strong> <strong>Sprache</strong> liegt in einer natürlicheren und einfacheren<br />

Sprechsituation für den Patienten, im Gegensatz zur möglichst stabilen, meist mehrere<br />

Sekunden andauernden gehaltenen Phonation der Vokale. Die Textanalyse liefert zum einen<br />

zusätzliche Informationen, die <strong>aus</strong> einer alleinigen Vokalanalyse nicht hervorgehen, zum anderen<br />

stellen die Ergebnisse aber auch eine wichtige Vergleichsmöglichkeit für die Interpretation<br />

der Vokalanalyseergebnisse dar 1 .<br />

Die Problematik der Analyse <strong>fortlaufender</strong> <strong>Sprache</strong> liegt allerdings in der notwendigen<br />

Segmentierung des Sprachsignals zur Selektion der Bereiche stimmhafter Phonation. Diese<br />

Selektion ist erforderlich, da lediglich die stimmhaften Anteile in die akustische Analyse einfließen<br />

sollen. Mit „stimmhaften Bereichen“ ist in diesem Zusammenhang nicht eine Stimmhaftigkeit<br />

aufgrund einer klar erkennbaren Periodizität im Zeitsignal gemeint, sondern die<br />

Stimmhaftigkeit des vom Sprecher artikulierten Phonems. Bei einem aphonen Sprecher z.B.<br />

ist in der Regel keinerlei Periodizität im Zeitsignal zu erkennen, ein von ihm artikulierter Vokal<br />

wird im Rahmen der hier kurz dargestellten Methode 2 aber trotzdem als stimmhaft bezeichnet.<br />

Methode:<br />

Das digital vorliegende Sprachsignal wird durch Kurzzeitfensterung in kürzere Abschnitte<br />

zerlegt. Durch Bestimmung der Signalenergie in jedem Fenster werden Sprechp<strong>aus</strong>en <strong>aus</strong>geschlossen.<br />

Unter Verwendung einer LPC-Analyse wird die Einhüllende des Signalkurzzeitspektrums<br />

bestimmt. Diese LPC-Spektren werden barkskaliert, dynamikkomprimiert und<br />

normiert. Die so transformierten Kurzzeitspektren jedes dieser einzelnen Fenster werden einem<br />

Neuronalen Netz zur Klassifikation zugeführt. Das Neuronale Netz selektiert anhand der<br />

1


während der Trainingsphase erworbenen Generalisierungsfähigkeit die Segmente stimmhafter<br />

Phonation <strong>aus</strong> dem fortlaufenden Sprachsignal. Diese stimmhaften Segmente werden anschließend<br />

zur Bestimmung akustischer Parameter herangezogen werden. Zur Beschreibung<br />

der Stimmgüte im Heiserkeits-Diagramm, mit seinen beiden Achsen Irregularitätskomponente<br />

-horizontal aufgetragen- und R<strong>aus</strong>chkomponente –vertikal aufgetragen- sind dazu die Parameter<br />

Jitter, Shimmer, Periodenkorrelationskoeffizient und GNE zu bestimmen 3 . Dies erfolgt<br />

unter Verwendung des Waveform Matching Algorithmus, mit dem die einzelnen Periodenmarken<br />

in den stimmhaften Bereichen des Sprachsignals ermittelt werden.<br />

Die für die Analyse <strong>fortlaufender</strong> <strong>Sprache</strong> notwendige Selektion der Bereiche stimmhafter<br />

Phonation ist mit dieser Methode für Stimmen beliebiger Stimmgüte möglich. Auch der<br />

Inhalt des fortlaufenden Textes ist beliebig.<br />

Ergebnisse:<br />

Unter Verwendung dieser hier nur kurz skizzierten Methode sind verschiedene Gruppen unterschiedlicher<br />

Phonationsmechanismen nach Tumorresektion akustisch analysiert worden 4 .<br />

Untersucht wurden Patienten der Gruppe glottische Ersatzphonation mit Schwingung (gl.<br />

phon.), pseudoglottische Ersatzphonation (ps. gl. phon.), ventrikuläre Ersatzphonation (vent.<br />

phon.) und ary-epiglottische Ersatzphonation (ary-epigl. phon.). Von diesen Sprechern sind<br />

jeweils getrennte <strong>Untersuchung</strong>en von gehaltener Phonation und <strong>fortlaufender</strong> <strong>Sprache</strong><br />

durchgeführt worden. Die Einzelergebnisse der <strong>Stimmanalyse</strong> der jeweiligen Sprecher sind<br />

entsprechend der Pathologie zu einem Gruppenergebnis zusammengefaßt worden. Dazu sind<br />

die Mittelpunkte der Einzelsprecherellipsen gemittelt worden und mit ihrem jeweiligen Fehlermaß<br />

als Ellipse der gesamten Tumorgruppe im Heiserkeits-Diagramm dargestellt. In den<br />

beiden Abbildungen sind diese Ellipsen sowie die Analyseergebnisse für Normalstimmen und<br />

aphone Stimmen mit angegeben.<br />

Im Vergleich der Ergebnisse von Text- und Vokalanalyse ist deutlich die Übereinstimmung<br />

der Positionen der Ellipsen der einzelnen Tumorgruppen zueinander zu erkennen.<br />

Wie zu erwarten liegt die Irregularitätskomponente für die Textanalyse generell bei etwas<br />

höheren Werten, da bei <strong>fortlaufender</strong> <strong>Sprache</strong> die akustischen Parameter Jitter und Shimmer,<br />

die in die Irregularitätskomponente eingehen, höhere Werte als in gehaltener Phonation aufweisen.<br />

2


In einer statistischen <strong>Untersuchung</strong> der Ergebnisse dieser Tumorgruppen spiegelt sich<br />

diese Übereinstimmung ebenfalls wider. In den beiden Tabellen (Textanalyse links, Vokalanalyse<br />

rechts) sind die Ergebnisse eines zweidimensionalen Kolmogorov-Smirnov-Tests<br />

für die angeführten Tumorgruppen dargestellt. Angegeben ist in den beiden Tabellen der Abstand<br />

der Mittelpunkte der Ellipsen im Heiserkeits-Diagramm voneinander. Alle nicht gekennzeichneten<br />

Werte in der Tabelle trennen sich mit einem Signifikanzlevel von p = 0,05.<br />

Textanalyse<br />

gl. phon.<br />

ps. gl. phon.<br />

vent. phon.<br />

aryepigl. phon.<br />

Vokalanalyse<br />

gl. phon.<br />

ps. gl. phon.<br />

vent. phon.<br />

aryepigl. phon.<br />

aphon<br />

normal (32) 0,66 2,23 2,58 3,82 normal (37) 1,16 3,09 4,34 5,44 6,67<br />

gl. phon (13) 1,64 2,15 3,43 gl. phon (18) 1,93 3,23 4,32 5,54<br />

ps.gl. phon (6) 0,93 † 2,09 ps. gl. phon (8) 1,67 † 2,69 3,83<br />

vent.phon. (6) 1,28 † vent.phon. (6) 1,10 † 2,32<br />

aryepigl. phon. (5) 1,23<br />

Ziel dieser <strong>Untersuchung</strong> war zu ermitteln, ob sich die einzelnen Gruppen signifikant voneinander<br />

trennen lassen. Lediglich die Gruppe der ventrikulären Ersatzphonation läßt sich sowohl<br />

für die Textanalyse als auch für die Vokalanalyse nicht von der glottischen Ersatzphonation<br />

ohne Schwingung und der ary-epiglottischen trennen. Die anderen Gruppen lassen sich<br />

sowohl für die Textanalyse als auch für die Vokalanalyse signifikant voneinander trennen.<br />

Zusammenfassung:<br />

Die mit der entwickelten Methode erhaltenen Ergebnisse der akustischen Analyse <strong>fortlaufender</strong><br />

<strong>Sprache</strong> decken sich gut mit denen <strong>aus</strong> der Analyse gehaltener Phonation. Die einzelnen<br />

untersuchten Phonationsgruppen lassen sich größtenteils statistisch signifikant voneinander<br />

trennen. Die Positionen der im Heiserkeits-Diagramm dargestellten Ellipsen der einzelnen<br />

Tumorgruppen weisen eine gute Übereinstimmung zwischen beiden Methoden auf. Die mit<br />

dieser Methode mögliche unüberwachte Analyse beliebigen fortlaufenden Textes ist für alle<br />

Stimmstörungen, einschließlich aphoner Stimmen, möglich und stellt eine wichtige Ergänzung<br />

zu den Analysemethoden gehaltener Phonation dar.<br />

3


Literatur:<br />

1<br />

J. Lessing, H.W. Strube, E. Kruse: <strong>Akustische</strong> Analyse pathologischer Stimmen <strong>aus</strong> <strong>fortlaufender</strong><br />

<strong>Sprache</strong>; Aktuelle phoniatrisch pädaudiologische Aspekte 1997/98, M. Gross<br />

(Hrsg.), 53-59 (1997)<br />

2<br />

J. Lessing, M. Fröhlich, D. Michaelis, H.W. Strube, E. Kruse: Verwendung Neuronaler<br />

Netze zur Stimmgütebeschreibung pathologischer Stimmen. Aktuelle phoniatrisch pädaudiologische<br />

Aspekte 1998/99, M. Gross (Hrsg.), zur Veröffentlichung angenommen<br />

3<br />

D. Michaelis, M. Fröhlich, H.W. Strube: Selection and combination of acoustic parameters<br />

for the description of pathological voices; J. Acoust. Soc. Am. 103, 1628-1639 (1998)<br />

4<br />

M. Fröhlich, D. Michaelis, E. Kruse: Objektive Beschreibung der Stimmgüte unter Verwendung<br />

des Heiserkeits-Diagramms; HNO 64, 684-689 (1998)<br />

Autoren:<br />

Dipl. Phys. Jan Lessing, Dr. Hans Werner Strube<br />

Drittes Physikalisches Institut, Georg-August Universität, Bürgerstr. 42-44, 37073 Göttingen,<br />

Tel: 0551/397731, Fax: 0551/397720<br />

Dipl. Phys. Matthias Fröhlich, Dipl. Phys. Dirk Michaelis, Prof. Dr. med Eberhard Kruse<br />

Abt. Phoniatrie und Pädaudiologie, Georg-August Universität, Robert-Koch-Straße 40, 37075<br />

Göttingen<br />

4

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!