20.11.2014 Aufrufe

Somnologie - Prof. Dr. Jarek Krajewski

Somnologie - Prof. Dr. Jarek Krajewski

Somnologie - Prof. Dr. Jarek Krajewski

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Originalien<br />

Tab. 1 Grundlegende phonetisch-akustische Kennzahlenfamilien und ihre Indikatorfunktion<br />

für auditiv-perzeptuelle Stimmphänomene und Vokaltraktmerkmale<br />

Akustische Beschreibungskategorie Indikatorbereich<br />

Intensität<br />

Lautstärke, Betonungsstruktur<br />

Fundamentalfrequenz (F0)<br />

Intonationsverlauf, Tonhöhe<br />

Langzeitspektrum<br />

Stimmklang, Stimmfülle, Stimmqualität<br />

Cepstrale Koeffizienten<br />

Ganzheitliche Repräsentation des Spektrums<br />

Formantpositionen (F1–F6)<br />

Artikulatorenposition (Kieferwinkel, Zungenposition)<br />

Formantbandbreiten<br />

Schwingungseigenschaften der Vokaltraktwände<br />

und Elastizität und somit zu einer Reduktion<br />

der Vibrationsrate der Stimmlippen.<br />

Darüber hinaus kann es durch eine schläfrigkeitsinduzierte<br />

verringerte Spannung<br />

des M. vocalis und eine verringerte Myoelastizität<br />

der Stimmlippen zu einem unvollständigen<br />

Stimmlippenschluss kommen<br />

– die Folge sind weiche Stimmeinsätze<br />

und eine behauchte Stimme, bei der<br />

die Stimmlippen vibrieren, aber keinen<br />

kompletten Kontakt in der Schließungsphase<br />

haben. Ferner kann es zur Knarrstimme<br />

kommen, bei der der hintere Teil<br />

der Stimmlippen während der Stimmhaftigkeit<br />

geschlossen bleibt, da aufgrund des<br />

verminderten subglottalen <strong>Dr</strong>ucks der<br />

Verschluss der Stimmlippen nicht vollständig<br />

gesprengt wird.<br />

Der verringerte Muskeltonus wirkt<br />

sich neben der Phonation auch auf die<br />

Artikulation aus. Reduzierte Präzision,<br />

Geschwindigkeit und Fluidität der Zungen-<br />

und Kieferbewegungen sowie eine –<br />

über einen gedämpften emotionalen Befindenszustand<br />

vermittelte – ausdrucksärmere<br />

Mimik verändern die Filter- und<br />

Abstrahlungscharakteristika und somit<br />

die Artikulationspräzision von schläfrigen<br />

Sprechern [10, 29]. Eine weitere mögliche<br />

Folge des verringerten Muskeltonus<br />

ist das Absinken des Velums und somit<br />

die Zuschaltung nasaler Resonanzräume,<br />

die auditiv die Wahrnehmung stimmlicher<br />

Nasalität hervorruft. Nach Laver [17]<br />

ist die „sensuous nasality“ auf eine allgemeine<br />

Entspannung des oropharyngealen<br />

Bereichs (zwischen Epiglottis und Velum)<br />

zurückzuführen. Eine schläfrigkeitsbedingte<br />

reduzierte Wärmeabstrahlung der<br />

Vokaltraktwände in den Vokaltrakt könnte<br />

Strömungsverhältnisse und Turbulenzphänomene<br />

zusätzlich beeinflussen. Auch<br />

könnte ein schläfrigkeitsbedingt reduzierter<br />

Muskeltonus die Elastizität der Vokaltraktwände<br />

erhöhen und somit zu einer<br />

Dämpfung des Schallsignals beitragen.<br />

Phonetisch-akustische<br />

Stimmanalyse<br />

Der Einsatz akustischer Kennzahlen zur<br />

Bestimmung des Befindlichkeitszustands<br />

ist schon seit vielen Jahren anvisiert [23].<br />

Aber erst mit Hilfe aktueller Prozessorleistungen<br />

ist es teilweise möglich, auditiv-perzeptuelle<br />

Höreindrücke in akustisch<br />

messbare Kennzahlen zu überführen.<br />

Beispiele für die Prosodie-, Artikulations-<br />

und Stimmqualitätsphänomene<br />

beschreibenden akustischen Merkmale<br />

sind in . Tab. 1 aufgeführt und werden<br />

im Folgenden näher erläutert.<br />

Intensität<br />

Zur Bestimmung der Lautstärke werden<br />

die quadrierten Beträge der Signalamplitude<br />

aufsummiert. Wichtig ist bei der<br />

Messung von intensitätsbezogenen Lautstärkegrößen,<br />

dass Aufnahmerichtung<br />

und Mikrophondistanz annähernd konstant<br />

gehalten werden (wie in Fahrzeugszenarien<br />

umgesetzt) oder nur normalisierte<br />

Änderungen der Energie berechnet<br />

werden. Abgleitet aus dem Intensitätsverlauf<br />

ist das stimmqualitätbeschreibende<br />

Shimmer-Merkmal, das eine prozentuelle<br />

Bewertung der Peak-zu-Peak-Variabilität<br />

der Intensität leistet.<br />

Grundfrequenz (F0)<br />

Zur Bestimmung der Tonhöhe (Vibrationsrate<br />

der Stimmlippen) und Sprechmelodie<br />

wird die Grundfrequenz über das<br />

Maximum der Autokorrelationsfunktion<br />

berechnet [5]. Die Sprachgrundfrequenz<br />

(auch Fundamentalfrequenz, F0) ist das<br />

akustische Korrelat zur perzeptiv wahrgenommenen<br />

Tonhöhe einer Äußerung<br />

(Pitch).<br />

Spektrale Kenngrößen<br />

Die Quotienten der spektralen Leistungsdichte<br />

(„power spectral density“, PSD) diverser<br />

Frequenzbänder, die Verhältnisse<br />

der Energien einzelner Harmonischer<br />

zur Gesamtenergie (Harmonics-to-Noise-Ratio)<br />

und die Regressionssteigung<br />

der Energieverteilung im Frequenzbandbereich<br />

über 1 kHz prägen im Wesentlichen<br />

den Stimmqualitätseindruck. So<br />

ist die Klangfarbe z. B. abhängig von der<br />

Teiltonstruktur sowie der Anzahl und der<br />

Stärke der im Klang enthaltenen Obertöne.<br />

In diesem Sinn indiziert eine große<br />

Anzahl an Obertönen eine tragfähige<br />

Stimme. Energiekonzentrationen in hohen<br />

Frequenzen hingegen erzeugen einen<br />

hellen Stimmklang.<br />

Ferner dient die Charakterisierung des<br />

spektralen Leistungsdichteverlaufs über<br />

Hammarberg-Indizes [8] zur Abschätzung<br />

der Stimmqualität.<br />

F Hammarberg 1: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD der F0;<br />

F Hammarberg 2: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD an der Frequenzposition<br />

von 1600 Hz;<br />

F Hammarberg 3: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD an der Frequenzposition<br />

von 5000 Hz;<br />

F Hammarberg 4: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD an der Frequenzposition<br />

über 5000 Hz.<br />

Cepstrum-Koeffizienten<br />

Ziel der routinemäßig in der Sprachemotionserkennung<br />

zum Einsatz kommenden<br />

Berechnung der Mel-Frequenz-<br />

Cepstrum-Koeffizienten („Mel frequency<br />

cepstral coefficients“, MFCCs; [1]) ist<br />

es, das abgestrahlte Sprachsignal in das<br />

ursprüngliche Stimmlippen-Anregungssignal<br />

und ein die sprecherspezifischen<br />

Eigenschaften des Vokaltrakts repräsentierendes<br />

Signal zu trennen. Ein wichtiges<br />

Charakteristikum der Cepstrum-Koeffizienten<br />

ist die Unkorreliertheit ihrer Ko-<br />

26 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!