Somnologie - Prof. Dr. Jarek Krajewski
Somnologie - Prof. Dr. Jarek Krajewski
Somnologie - Prof. Dr. Jarek Krajewski
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Originalien<br />
Tab. 1 Grundlegende phonetisch-akustische Kennzahlenfamilien und ihre Indikatorfunktion<br />
für auditiv-perzeptuelle Stimmphänomene und Vokaltraktmerkmale<br />
Akustische Beschreibungskategorie Indikatorbereich<br />
Intensität<br />
Lautstärke, Betonungsstruktur<br />
Fundamentalfrequenz (F0)<br />
Intonationsverlauf, Tonhöhe<br />
Langzeitspektrum<br />
Stimmklang, Stimmfülle, Stimmqualität<br />
Cepstrale Koeffizienten<br />
Ganzheitliche Repräsentation des Spektrums<br />
Formantpositionen (F1–F6)<br />
Artikulatorenposition (Kieferwinkel, Zungenposition)<br />
Formantbandbreiten<br />
Schwingungseigenschaften der Vokaltraktwände<br />
und Elastizität und somit zu einer Reduktion<br />
der Vibrationsrate der Stimmlippen.<br />
Darüber hinaus kann es durch eine schläfrigkeitsinduzierte<br />
verringerte Spannung<br />
des M. vocalis und eine verringerte Myoelastizität<br />
der Stimmlippen zu einem unvollständigen<br />
Stimmlippenschluss kommen<br />
– die Folge sind weiche Stimmeinsätze<br />
und eine behauchte Stimme, bei der<br />
die Stimmlippen vibrieren, aber keinen<br />
kompletten Kontakt in der Schließungsphase<br />
haben. Ferner kann es zur Knarrstimme<br />
kommen, bei der der hintere Teil<br />
der Stimmlippen während der Stimmhaftigkeit<br />
geschlossen bleibt, da aufgrund des<br />
verminderten subglottalen <strong>Dr</strong>ucks der<br />
Verschluss der Stimmlippen nicht vollständig<br />
gesprengt wird.<br />
Der verringerte Muskeltonus wirkt<br />
sich neben der Phonation auch auf die<br />
Artikulation aus. Reduzierte Präzision,<br />
Geschwindigkeit und Fluidität der Zungen-<br />
und Kieferbewegungen sowie eine –<br />
über einen gedämpften emotionalen Befindenszustand<br />
vermittelte – ausdrucksärmere<br />
Mimik verändern die Filter- und<br />
Abstrahlungscharakteristika und somit<br />
die Artikulationspräzision von schläfrigen<br />
Sprechern [10, 29]. Eine weitere mögliche<br />
Folge des verringerten Muskeltonus<br />
ist das Absinken des Velums und somit<br />
die Zuschaltung nasaler Resonanzräume,<br />
die auditiv die Wahrnehmung stimmlicher<br />
Nasalität hervorruft. Nach Laver [17]<br />
ist die „sensuous nasality“ auf eine allgemeine<br />
Entspannung des oropharyngealen<br />
Bereichs (zwischen Epiglottis und Velum)<br />
zurückzuführen. Eine schläfrigkeitsbedingte<br />
reduzierte Wärmeabstrahlung der<br />
Vokaltraktwände in den Vokaltrakt könnte<br />
Strömungsverhältnisse und Turbulenzphänomene<br />
zusätzlich beeinflussen. Auch<br />
könnte ein schläfrigkeitsbedingt reduzierter<br />
Muskeltonus die Elastizität der Vokaltraktwände<br />
erhöhen und somit zu einer<br />
Dämpfung des Schallsignals beitragen.<br />
Phonetisch-akustische<br />
Stimmanalyse<br />
Der Einsatz akustischer Kennzahlen zur<br />
Bestimmung des Befindlichkeitszustands<br />
ist schon seit vielen Jahren anvisiert [23].<br />
Aber erst mit Hilfe aktueller Prozessorleistungen<br />
ist es teilweise möglich, auditiv-perzeptuelle<br />
Höreindrücke in akustisch<br />
messbare Kennzahlen zu überführen.<br />
Beispiele für die Prosodie-, Artikulations-<br />
und Stimmqualitätsphänomene<br />
beschreibenden akustischen Merkmale<br />
sind in . Tab. 1 aufgeführt und werden<br />
im Folgenden näher erläutert.<br />
Intensität<br />
Zur Bestimmung der Lautstärke werden<br />
die quadrierten Beträge der Signalamplitude<br />
aufsummiert. Wichtig ist bei der<br />
Messung von intensitätsbezogenen Lautstärkegrößen,<br />
dass Aufnahmerichtung<br />
und Mikrophondistanz annähernd konstant<br />
gehalten werden (wie in Fahrzeugszenarien<br />
umgesetzt) oder nur normalisierte<br />
Änderungen der Energie berechnet<br />
werden. Abgleitet aus dem Intensitätsverlauf<br />
ist das stimmqualitätbeschreibende<br />
Shimmer-Merkmal, das eine prozentuelle<br />
Bewertung der Peak-zu-Peak-Variabilität<br />
der Intensität leistet.<br />
Grundfrequenz (F0)<br />
Zur Bestimmung der Tonhöhe (Vibrationsrate<br />
der Stimmlippen) und Sprechmelodie<br />
wird die Grundfrequenz über das<br />
Maximum der Autokorrelationsfunktion<br />
berechnet [5]. Die Sprachgrundfrequenz<br />
(auch Fundamentalfrequenz, F0) ist das<br />
akustische Korrelat zur perzeptiv wahrgenommenen<br />
Tonhöhe einer Äußerung<br />
(Pitch).<br />
Spektrale Kenngrößen<br />
Die Quotienten der spektralen Leistungsdichte<br />
(„power spectral density“, PSD) diverser<br />
Frequenzbänder, die Verhältnisse<br />
der Energien einzelner Harmonischer<br />
zur Gesamtenergie (Harmonics-to-Noise-Ratio)<br />
und die Regressionssteigung<br />
der Energieverteilung im Frequenzbandbereich<br />
über 1 kHz prägen im Wesentlichen<br />
den Stimmqualitätseindruck. So<br />
ist die Klangfarbe z. B. abhängig von der<br />
Teiltonstruktur sowie der Anzahl und der<br />
Stärke der im Klang enthaltenen Obertöne.<br />
In diesem Sinn indiziert eine große<br />
Anzahl an Obertönen eine tragfähige<br />
Stimme. Energiekonzentrationen in hohen<br />
Frequenzen hingegen erzeugen einen<br />
hellen Stimmklang.<br />
Ferner dient die Charakterisierung des<br />
spektralen Leistungsdichteverlaufs über<br />
Hammarberg-Indizes [8] zur Abschätzung<br />
der Stimmqualität.<br />
F Hammarberg 1: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD der F0;<br />
F Hammarberg 2: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD an der Frequenzposition<br />
von 1600 Hz;<br />
F Hammarberg 3: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD an der Frequenzposition<br />
von 5000 Hz;<br />
F Hammarberg 4: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD an der Frequenzposition<br />
über 5000 Hz.<br />
Cepstrum-Koeffizienten<br />
Ziel der routinemäßig in der Sprachemotionserkennung<br />
zum Einsatz kommenden<br />
Berechnung der Mel-Frequenz-<br />
Cepstrum-Koeffizienten („Mel frequency<br />
cepstral coefficients“, MFCCs; [1]) ist<br />
es, das abgestrahlte Sprachsignal in das<br />
ursprüngliche Stimmlippen-Anregungssignal<br />
und ein die sprecherspezifischen<br />
Eigenschaften des Vokaltrakts repräsentierendes<br />
Signal zu trennen. Ein wichtiges<br />
Charakteristikum der Cepstrum-Koeffizienten<br />
ist die Unkorreliertheit ihrer Ko-<br />
26 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011