20.11.2014 Aufrufe

Somnologie - Prof. Dr. Jarek Krajewski

Somnologie - Prof. Dr. Jarek Krajewski

Somnologie - Prof. Dr. Jarek Krajewski

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Somnologie</strong><br />

Schlafforschung und Schlafmedizin<br />

Somnology<br />

Sleep Research and Sleep Medicine<br />

Offizielles Organ der DGSM und der ÖGSM • Official Journal of the DGSM and of the ASRA<br />

Elektronischer Sonderdruck für<br />

J. <strong>Krajewski</strong><br />

Ein Service von Springer Medizin<br />

<strong>Somnologie</strong> 2011 · 15:24–31 · DOI 10.1007/s11818-010-0497-2<br />

© Springer-Verlag 2010<br />

zur nichtkommerziellen Nutzung auf der<br />

privaten Homepage und Institutssite des Autors<br />

J. <strong>Krajewski</strong> · M. Sauerland · D. Sommer · M. Golz<br />

Phonetisch-akustische Schläfrigkeitsdetektion<br />

Eine Pilotstudie<br />

www.somnologie.springer.de


Originalien<br />

<strong>Somnologie</strong> 2010 · 15:24–31<br />

DOI 10.1007/s11818-010-0497-2<br />

Eingegangen: 4. Juni 2010<br />

Angenommen: 10. September 2010<br />

Online publiziert: 14. Oktober 2010<br />

© Springer-Verlag 2010<br />

J. <strong>Krajewski</strong> 1 · M. Sauerland 2 · D. Sommer 3 · M. Golz 3<br />

1<br />

Experimentelle Wirtschaftspsychologie, Universität Wuppertal<br />

2<br />

Psychologie der Arbeit, Universität Landau<br />

3<br />

Neuroinformatik und Signalverarbeitung, Fachhochschule Schmalkalden<br />

Phonetisch-akustische<br />

Schläfrigkeitsdetektion<br />

Eine Pilotstudie<br />

Musterkennungsbasierte<br />

Verfahrensentwicklung<br />

In der Vergangenheit wurden vielfältige<br />

Anstrengungen unternommen, Verfahren<br />

zu entwickeln, die Schläfrigkeitszustände<br />

objektiv und automatisiert quantifizieren<br />

können. Die auf ein Schläfrigkeitsmonitoring<br />

abzielenden Systeme beinhalten<br />

hauptsächlich Messkanäle wie die Instabilität<br />

der Pupillengröße [30], Lidschlüsse<br />

[12], posturographisches Gleichgewichtsverhalten<br />

[24], motorisches Verhalten<br />

[16] sowie kardiovaskuläre [11]<br />

und elektroenzephalographische Aktivität<br />

[6, 26]. Bisher ungenutzt blieben die<br />

schläfrigkeitsbezogenen Informationen<br />

aus dem stimmlichen Ausdruck. Anders<br />

als die stimmakustische Schläfrigkeitsdetektion<br />

weckte die Emotionsdetektion in<br />

den letzten Jahren ein reges Forschungsinteresse.<br />

Gründe für die wachsende Beschäftigung<br />

mit phonetisch-akustischen<br />

Stimmanalysen ist die zunehmende Präsenz<br />

von sprachlicher Mensch-Maschine-<br />

Interaktion (MMI) sowie die Entwicklung<br />

der notwendigen Prozessorleistungen und<br />

Speicherkapazitäten.<br />

Vorzüge akustischer<br />

Schläfrigkeitsmessverfahren<br />

Aus der Anwendungsperspektive laborund<br />

feldexperimenteller Schläfrigkeitsforschung<br />

besitzen akustische Messansätze<br />

prinzipiell eine Reihe von Vorzügen<br />

gegenüber bisherigen Messansätzen. Dies<br />

↓ Vokaltraktspannung<br />

(“yielding wall effect”)<br />

↑ Velumabsenkung<br />

(Verbindung zum Nasaltrakt)<br />

↓ Wärmeabstrahlung<br />

(↓ Reibungs- u.<br />

Turbulenzphänomene)<br />

↓ Stimmlippenspannung, -<br />

steifigkeit und -viskosität<br />

↓ Atemtiefe u. -frequenz<br />

gilt v. a. für ihren Einsatz als Fit-for-Duty-<br />

Schnelltest, d. h. die Primärtätigkeit wird<br />

unterbrochen und eine isolierte Testsituation<br />

hergestellt. Im Gegensatz zu elektrophysiologischen<br />

Ansätzen bietet der akustische<br />

Stimmanalyseansatz die Vorzüge<br />

eines berührungsfreien Messzugangs,<br />

der ohne die Applikation von Elektroden<br />

auskommt. Gegenüber (infrarot)kamerabasierten<br />

Systemen erlauben mikrophonbasierte<br />

Systeme einen kostengünstigen,<br />

von widrigen, wechselnden Licht- und<br />

Probandenbedingungen (Gesichtsbehaarung,<br />

schmale Lidspalten, Brille, Bildokklusionen)<br />

unbeeinflussten Messzugang.<br />

Ein weiterer Vorzug gegenüber bisherigen<br />

Fit-for-Duty-Testsystemen (z. B. Psychomotorischer<br />

Vigilanztest oder Pupillographischer<br />

Schläfrigkeitstest, 11 min Messdauer)<br />

wäre die kurze – maximal einminütige<br />

– Messstrecke.<br />

Anwendungen<br />

Im Bereich des kontinuierlichen Schläfrigkeitsmonitorings<br />

bieten sich für die<br />

akustische Schläfrigkeitsanalyse v. a. Tätigkeiten<br />

mit regelmäßigen Spracheingaben<br />

an, wie sie Z. B. im Flugverkehrskontext<br />

vorliegen. Denkbar sind darüber hinaus<br />

auch Anwendungen im Rahmen<br />

von sprachgesteuerten Mensch-Maschine-Interaktionen<br />

(MMI; z. B. Telecare-<br />

Anwendungen oder Fahrerassistenzsysteme).<br />

Zu diesem Zweck würden Fahrzeugführer<br />

im stündlichen Rhythmus zu<br />

einer kurzen Spracheingabe aufgefordert<br />

werden. Ferner könnten phonetisch-akus-<br />

zentralisierte Zungenposition,<br />

↓ Fluidität der Zungenbewegung<br />

↑ eingefallene Körperhaltung<br />

(Vokaltraktverkürzung)<br />

↓ feinmotorische Ansteuerung<br />

der Artikulatoren<br />

↓ Veränderung des<br />

Zahnreihenabstands<br />

↓ Lächeln, ↓ Lippenspreizung<br />

und -stülpung<br />

Abb. 1 8 Mögliche schläfrigkeitsbedingte Veränderungen des Sprachproduktionssystems<br />

24 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011


Zusammenfassung · Abstract<br />

tische Messkanäle zum Aufbau von (vielfach<br />

geforderten) multimodalen Messsystemen<br />

beitragen, indem sie elektrophysiologische<br />

(z. B. Elektroenzephalographie,<br />

EEG; Elektrookulographie, EOG; elektrodermale<br />

Aktivität, EDA; Elektromyographie,<br />

EMG) oder kamerabasierte Schläfrigkeitssysteme<br />

mit zusätzlichen Informationen<br />

versorgen.<br />

Schläfrigkeit und<br />

Sprachveränderungen<br />

Kognitiv-phonetisches<br />

Mediatormodell<br />

Das kognitiv-phonetische Mediatormodell<br />

verknüpft<br />

F schläfrigkeitsinduzierte kognitive Beeinträchtigungen<br />

mit<br />

F Sprachproduktionsmodellen und vermuteten<br />

Veränderungen der Stimme<br />

zu<br />

F einem Erklärungsmodell schläfrigkeitsinduzierter<br />

Sprachveränderungen<br />

[14, 15].<br />

Diese im Hypothesenkomplex des kognitiv-phonetischen<br />

Mediatormodells schläfrigkeitsinduzierter<br />

Sprachveränderung<br />

zusammengefassten kognitiven Wirkpfade<br />

haben ihren Ursprung im Sprachproduktionsmodell<br />

Levelts [18]. Parallel zu<br />

diesen kognitiven Prozessen werden auch<br />

eine Reihe physiologischer Komponenten<br />

der Sprachproduktion durch Schläfrigkeit<br />

beeinflusst (. Abb. 1).<br />

So ist wachsende Schläfrigkeit mit<br />

einer Abnahme der zentralnervösen und<br />

autonomen sympathischen Aktivierung<br />

verbunden. Damit assoziiert nehmen<br />

Herzfrequenz sowie Atemfrequenz und<br />

-tiefe ab, der Blutdruck sinkt, die Körpertemperatur<br />

fällt, und der Muskeltonus<br />

wird schwächer. Die Respirationsphase<br />

der Sprachproduktion wird daher beeinträchtigt.<br />

Dies wird über eine reduzierte<br />

Aktivität der Brustraummuskeln (Diaphragma<br />

und Mm. intercostales externi)<br />

vermittelt, die zu einem reduzierten<br />

Atemzugvolumen und einem verringerten<br />

subglottalen <strong>Dr</strong>uck führt [21].<br />

In der nächsten Phase der Sprachproduktion,<br />

der Phonation, führt der reduzierte<br />

Muskeltonus der Stimmlippenmuskulatur<br />

zu einer Abnahme der Spannung<br />

<strong>Somnologie</strong> 2010 · 15:24–31<br />

© Springer-Verlag 2010<br />

DOI 10.1007/s11818-010-0497-2<br />

J. <strong>Krajewski</strong> · M. Sauerland · D. Sommer · M. Golz<br />

Phonetisch-akustische Schläfrigkeitsdetektion. Eine Pilotstudie<br />

Zusammenfassung<br />

Das Ziel des vorliegenden Beitrags ist die<br />

Darstellung der Entwicklung und Validierung<br />

eines phonetisch-akustischen Messverfahrens<br />

zur stimmbasierten Schläfrigkeitsdetektion.<br />

Der Vorzug dieses automatisierten<br />

Mess ansatzes liegt in der belästigungsarmen,<br />

sensorapplikationsfreien Handhabung.<br />

Das hier gewählte Stimmanalyseprozedere<br />

folgt dem aus der Sprachemotionserkennung<br />

entlehnten Standardvorgehen: (1) Aufnahme<br />

des Testsatzes, (2) Berechnung von<br />

170 Prosodie, Artikulation und Stimmqualität<br />

beschreibenden Kennzahlen, (3) maschinelles<br />

Lernen und (4) Evaluation. In einer Schlafdeprivationsstudie<br />

(n=32; 20.00–04.00 Uhr)<br />

wurden insgesamt 380 simulierte Fahrerassistenzsätze<br />

aufgezeichnet. Als externer Validierungsanker<br />

diente der aus einem Selbstund<br />

2 Fremdberichten gemittelte Karolinska-<br />

Schläfrigkeitsskala (KSS) Schläfrigkeitswert.<br />

Als besonders schläfrigkeitssensitiv erwiesen<br />

sich die Merkmalsfamilien der Cepstrum-<br />

Koeffizienten, Formantbandbreiten, Intensitäten<br />

und spektralen Kenngrößen. Das beste<br />

multivariate Verfahren, die „support vector<br />

machine“, erreichte eine signifikante Validitätskorrelation<br />

von r=0,46 in der Vorhersage<br />

von Schläfrigkeit auf ungesehene Sprecher.<br />

Schlüsselwörter<br />

Phonetik · Sprachakustik · Maschinelles<br />

Lernen · Schläfrigkeit · „Support vector<br />

machine“<br />

Phonetic–acoustic sleepiness detection. A pilot study<br />

Abstract<br />

This paper describes the development and<br />

validation of a phonetic–acoustic measurement<br />

procedure for a speech-based detection<br />

of sleepiness. The advantages of this automatic<br />

real-time approach are that obtaining<br />

speech data is unobtrusive and free from<br />

sensor application and calibration efforts.<br />

The chosen measurement process follows<br />

the speech-adapted steps of pattern recognition:<br />

(1) recording speech, (2) computation of<br />

170 features describing prosody, articulation,<br />

and voice quality, (3) machine learning, and<br />

(4) evaluation. In a sleep deprivation study, a<br />

total of 380 simulated driver assistance samples<br />

(n=32; 8:00 p.m.–4:00 a.m.) were recorded.<br />

One self and two observer assessments<br />

were used to obtain a Karolinska Sleepiness<br />

Scale (KSS) value, which served as an external<br />

validation reference. Features that proved to<br />

be especially sensitive to sleepiness are cepstral<br />

coefficients, formant bandwidth, intensity,<br />

and spectral measures. The best machine<br />

learning method, the support vector machine<br />

(SVM), achieved a significant validation<br />

correlation of r=0.46 in predicting sleepiness<br />

on unseen speakers.<br />

Keywords<br />

Phonetics · Speech acoustics · Machine<br />

learning · Sleepiness · Support vector<br />

machine<br />

<strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011 |<br />

25


Originalien<br />

Tab. 1 Grundlegende phonetisch-akustische Kennzahlenfamilien und ihre Indikatorfunktion<br />

für auditiv-perzeptuelle Stimmphänomene und Vokaltraktmerkmale<br />

Akustische Beschreibungskategorie Indikatorbereich<br />

Intensität<br />

Lautstärke, Betonungsstruktur<br />

Fundamentalfrequenz (F0)<br />

Intonationsverlauf, Tonhöhe<br />

Langzeitspektrum<br />

Stimmklang, Stimmfülle, Stimmqualität<br />

Cepstrale Koeffizienten<br />

Ganzheitliche Repräsentation des Spektrums<br />

Formantpositionen (F1–F6)<br />

Artikulatorenposition (Kieferwinkel, Zungenposition)<br />

Formantbandbreiten<br />

Schwingungseigenschaften der Vokaltraktwände<br />

und Elastizität und somit zu einer Reduktion<br />

der Vibrationsrate der Stimmlippen.<br />

Darüber hinaus kann es durch eine schläfrigkeitsinduzierte<br />

verringerte Spannung<br />

des M. vocalis und eine verringerte Myoelastizität<br />

der Stimmlippen zu einem unvollständigen<br />

Stimmlippenschluss kommen<br />

– die Folge sind weiche Stimmeinsätze<br />

und eine behauchte Stimme, bei der<br />

die Stimmlippen vibrieren, aber keinen<br />

kompletten Kontakt in der Schließungsphase<br />

haben. Ferner kann es zur Knarrstimme<br />

kommen, bei der der hintere Teil<br />

der Stimmlippen während der Stimmhaftigkeit<br />

geschlossen bleibt, da aufgrund des<br />

verminderten subglottalen <strong>Dr</strong>ucks der<br />

Verschluss der Stimmlippen nicht vollständig<br />

gesprengt wird.<br />

Der verringerte Muskeltonus wirkt<br />

sich neben der Phonation auch auf die<br />

Artikulation aus. Reduzierte Präzision,<br />

Geschwindigkeit und Fluidität der Zungen-<br />

und Kieferbewegungen sowie eine –<br />

über einen gedämpften emotionalen Befindenszustand<br />

vermittelte – ausdrucksärmere<br />

Mimik verändern die Filter- und<br />

Abstrahlungscharakteristika und somit<br />

die Artikulationspräzision von schläfrigen<br />

Sprechern [10, 29]. Eine weitere mögliche<br />

Folge des verringerten Muskeltonus<br />

ist das Absinken des Velums und somit<br />

die Zuschaltung nasaler Resonanzräume,<br />

die auditiv die Wahrnehmung stimmlicher<br />

Nasalität hervorruft. Nach Laver [17]<br />

ist die „sensuous nasality“ auf eine allgemeine<br />

Entspannung des oropharyngealen<br />

Bereichs (zwischen Epiglottis und Velum)<br />

zurückzuführen. Eine schläfrigkeitsbedingte<br />

reduzierte Wärmeabstrahlung der<br />

Vokaltraktwände in den Vokaltrakt könnte<br />

Strömungsverhältnisse und Turbulenzphänomene<br />

zusätzlich beeinflussen. Auch<br />

könnte ein schläfrigkeitsbedingt reduzierter<br />

Muskeltonus die Elastizität der Vokaltraktwände<br />

erhöhen und somit zu einer<br />

Dämpfung des Schallsignals beitragen.<br />

Phonetisch-akustische<br />

Stimmanalyse<br />

Der Einsatz akustischer Kennzahlen zur<br />

Bestimmung des Befindlichkeitszustands<br />

ist schon seit vielen Jahren anvisiert [23].<br />

Aber erst mit Hilfe aktueller Prozessorleistungen<br />

ist es teilweise möglich, auditiv-perzeptuelle<br />

Höreindrücke in akustisch<br />

messbare Kennzahlen zu überführen.<br />

Beispiele für die Prosodie-, Artikulations-<br />

und Stimmqualitätsphänomene<br />

beschreibenden akustischen Merkmale<br />

sind in . Tab. 1 aufgeführt und werden<br />

im Folgenden näher erläutert.<br />

Intensität<br />

Zur Bestimmung der Lautstärke werden<br />

die quadrierten Beträge der Signalamplitude<br />

aufsummiert. Wichtig ist bei der<br />

Messung von intensitätsbezogenen Lautstärkegrößen,<br />

dass Aufnahmerichtung<br />

und Mikrophondistanz annähernd konstant<br />

gehalten werden (wie in Fahrzeugszenarien<br />

umgesetzt) oder nur normalisierte<br />

Änderungen der Energie berechnet<br />

werden. Abgleitet aus dem Intensitätsverlauf<br />

ist das stimmqualitätbeschreibende<br />

Shimmer-Merkmal, das eine prozentuelle<br />

Bewertung der Peak-zu-Peak-Variabilität<br />

der Intensität leistet.<br />

Grundfrequenz (F0)<br />

Zur Bestimmung der Tonhöhe (Vibrationsrate<br />

der Stimmlippen) und Sprechmelodie<br />

wird die Grundfrequenz über das<br />

Maximum der Autokorrelationsfunktion<br />

berechnet [5]. Die Sprachgrundfrequenz<br />

(auch Fundamentalfrequenz, F0) ist das<br />

akustische Korrelat zur perzeptiv wahrgenommenen<br />

Tonhöhe einer Äußerung<br />

(Pitch).<br />

Spektrale Kenngrößen<br />

Die Quotienten der spektralen Leistungsdichte<br />

(„power spectral density“, PSD) diverser<br />

Frequenzbänder, die Verhältnisse<br />

der Energien einzelner Harmonischer<br />

zur Gesamtenergie (Harmonics-to-Noise-Ratio)<br />

und die Regressionssteigung<br />

der Energieverteilung im Frequenzbandbereich<br />

über 1 kHz prägen im Wesentlichen<br />

den Stimmqualitätseindruck. So<br />

ist die Klangfarbe z. B. abhängig von der<br />

Teiltonstruktur sowie der Anzahl und der<br />

Stärke der im Klang enthaltenen Obertöne.<br />

In diesem Sinn indiziert eine große<br />

Anzahl an Obertönen eine tragfähige<br />

Stimme. Energiekonzentrationen in hohen<br />

Frequenzen hingegen erzeugen einen<br />

hellen Stimmklang.<br />

Ferner dient die Charakterisierung des<br />

spektralen Leistungsdichteverlaufs über<br />

Hammarberg-Indizes [8] zur Abschätzung<br />

der Stimmqualität.<br />

F Hammarberg 1: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD der F0;<br />

F Hammarberg 2: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD an der Frequenzposition<br />

von 1600 Hz;<br />

F Hammarberg 3: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD an der Frequenzposition<br />

von 5000 Hz;<br />

F Hammarberg 4: Maximum der PSD<br />

im Frequenzband von 400 bis 600 Hz<br />

minus PSD an der Frequenzposition<br />

über 5000 Hz.<br />

Cepstrum-Koeffizienten<br />

Ziel der routinemäßig in der Sprachemotionserkennung<br />

zum Einsatz kommenden<br />

Berechnung der Mel-Frequenz-<br />

Cepstrum-Koeffizienten („Mel frequency<br />

cepstral coefficients“, MFCCs; [1]) ist<br />

es, das abgestrahlte Sprachsignal in das<br />

ursprüngliche Stimmlippen-Anregungssignal<br />

und ein die sprecherspezifischen<br />

Eigenschaften des Vokaltrakts repräsentierendes<br />

Signal zu trennen. Ein wichtiges<br />

Charakteristikum der Cepstrum-Koeffizienten<br />

ist die Unkorreliertheit ihrer Ko-<br />

26 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011


effizienten, die einen redundanzarmen<br />

eigenständigen informatorischen Gehalt<br />

der Kennzahlen sichert. Die MFCCs liefern<br />

über die Spektralzerlegung des Amplitudenspektrums<br />

(„Spektrum des Spektrums“)<br />

eine holistische Repräsentation<br />

des Spektrums, die über die Transformation<br />

in die Mel-Frequenzskala eine Nachbildung<br />

der Frequenz-Orts-Transformation<br />

im menschlichen Gehör vornimmt.<br />

Peaks im Cepstrum korrespondieren mit<br />

den Harmonischen des Leistungsspektrums.<br />

Formantenposition<br />

Zu den wichtigsten stimmlichen Kennzahlen<br />

zählen die Resonanzfrequenzen<br />

des Vokaltrakts (Maxima der Transferfunktion<br />

des Vokaltrakts), die Formanten.<br />

Sie sind sensitiv für kleine Veränderungen<br />

der Vokaltraktform, wie sie durch<br />

Veränderung des Kieferöffnungswinkels,<br />

der Lage des Zungenkörpers, des Zungenspitzenwinkels,<br />

der relativen Lippenhöhe,<br />

der Lippenstülpung oder der Oberkörperkrümmung<br />

bewirkt werden. In diesem<br />

Zusammenhang sind die Lage der ersten<br />

5 Formanten (F1–F5) sowie ihr Bezug zu<br />

phonetischen Normwerten (Formantenpräzision)<br />

typische Kenngrößen [13].<br />

Formantenbandbreite<br />

Bei der Berechnung der Formantenbandbreite<br />

wird der Frequenzbereich um einen<br />

Peak ermittelt, in dem das Signal 3 dB an<br />

Energie verliert. Je kleiner die spektrale<br />

Bandbreite ist, desto konzentrierter die<br />

Energieverteilung im Signal. Somit enthält<br />

die Bandbreite wichtige Informationen<br />

zur Dämpfung und damit zum Energieverlust<br />

des akustischen Signals im Vokaltrakt.<br />

Je entspannter die Vokaltraktmuskulatur<br />

und je stärker die Vokaltraktwände<br />

vom Sprachsignal angeregt mitschwingen<br />

(„yielding wall effect“; [23]), je<br />

weniger schallhart diese Wände also sind,<br />

umso mehr verliert das Signal an Energie<br />

und umso größer wird die Formantenbandbreite.<br />

Schalldruck<br />

Frequenz (Hz)<br />

0,4<br />

0,2<br />

0<br />

-0,2<br />

-0,4<br />

0<br />

5000<br />

4000<br />

3000<br />

2000<br />

1000<br />

Auditive und akustische<br />

Korrelate der Schläfrigkeit<br />

Die ersten dokumentierten Untersuchungen<br />

beschäftigten sich mit der Analyse<br />

einzelner auditiver (über den Höreindruck<br />

eingeschätzter, nicht automatisiert<br />

erfasster) Schläfrigkeitskorrelate. Dokumentiert<br />

wurde eine abgeflachte Intonation,<br />

reduzierte Wortflüssigkeit und verlängerte<br />

Wortdauer [9, 29]. Auf phonbasierter<br />

Ebene fand Vollrath [28] eine<br />

Aufweichung (Lenisierung) der Stimme.<br />

Die bisherigen Forschungsbemühungen<br />

zur Entwicklung phonetisch-akustischer<br />

Schläfrigkeitsinstrumente blieben bis jetzt<br />

jedoch auf anekdotischen und bezüglich<br />

einer automatisierten ausreichend messgenauen<br />

Perspektive auf eher rudimentärem<br />

Niveau. Ziel dieses Beitrags ist es daher,<br />

ein diese Defizite aufarbeitendes, aus<br />

der Sprachemotionserkennung entlehntes<br />

Analyseprozedere zur Detektion kritischer<br />

Schläfrigkeitszustände anzuwenden<br />

[1, 4, 27].<br />

Methode<br />

0,2<br />

0,4<br />

wach<br />

0 0,2 0,4 0,6 0,8 1 1,2 1,4<br />

Zeit (s)<br />

Stichprobe, Prozedere<br />

und Instrumente<br />

0,6 0,8 1 1,2 1,4<br />

Zeit (s)<br />

Die 32 (17 w., 15 m.) freiwillig an der<br />

Studie teilnehmenden Probanden<br />

(24,64±4,32 Jahre) wurden instruiert, ihre<br />

normalen Schlafgewohnheiten und ihr<br />

normales Schlafverhalten beizubehalten.<br />

Schalldruck<br />

Frequenz (Hz)<br />

0,4<br />

0,2<br />

0<br />

-0,2<br />

-0,4<br />

0<br />

5000<br />

4000<br />

3000<br />

2000<br />

1000<br />

0,2<br />

0,4<br />

schläfrig<br />

0,6 0,8 1 1,2 1,4<br />

Zeit (s)<br />

0 0,2 0,4 0,6 0,8 1 1,2 1,4<br />

Zeit (s)<br />

Abb. 2 8 Waveform und Spektrogramm und des Satzes „Rufen Sie den Notdienst an“ für einen wachen<br />

(links; Karolinska-Schläfrigkeitsskala, KSS: 4) und einen schläfrigen Sprecher (rechts; KSS: 8). Weiß<br />

hohe spektrale Leistungsdichten (PSD, „power spectral density“), schwarz niedrige PSD<br />

Als Exklusionskriterien fungierten ernsthafte<br />

Schlafstörungen oder Schlafprobleme<br />

(PSQI >5). Die Studie folgte einem<br />

Within-Subject-Design mit partieller<br />

Schlafdeprivation (20.00–04.00 Uhr).<br />

Während der Nacht der Schlafdeprivation<br />

wurde ein gut etabliertes und standardisiertes<br />

Schläfrigkeitsmessinstrument,<br />

die Karolinska-Schläfrigkeitsskala<br />

(KSS), von den Probanden (Selbstbeurteilung)<br />

und zusätzlich von 2 Versuchsassistenten<br />

(Fremdbeurteilung) unmittelbar<br />

vor den Sprachaufnahmen angewendet.<br />

In der hier verwendeten Version reichen<br />

die Scores von 1 bis 10: äußerst wach<br />

(1), weder wach noch schläfrig (5), äußerst<br />

schläfrig, kann nicht wach bleiben (10).<br />

Als Hilfestellung zur Beurteilung wurde,<br />

wie in beobachtungsbasierten Schläfrigkeitsmessverfahren<br />

üblich [20], eine Liste<br />

mit möglichen Schläfrigkeitsindikatoren<br />

wie Manierismen, Lidschlussverhalten,<br />

Blickbewegungen und fehlender gestischer<br />

oder mimischer Aktivität verteilt.<br />

Um die Reliabilität der Messung über<br />

Messwiederholungen zu erhöhen, wurden<br />

im Einklang mit dem in der Sprachemotionsforschung<br />

üblichen Standardvorgehen<br />

[1, 2, 3, 4, 25, 27] jeweils 3 KSS-Scores<br />

(eine Selbstbeurteilung und 2 Fremdbeurteilungen)<br />

ungewichtet gemittelt („intraclass<br />

correlation“: 0,86). Im Lauf der<br />

Nacht war der Aufenthalt der Probanden<br />

auf das Labor beschränkt, wo sie während<br />

der gesamten Dauer beaufsichtigt wur-<br />

<strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011 |<br />

27


Originalien<br />

Tab. 2 Phonetisch-akustische Korrelate von Schläfrigkeit<br />

Stimmmerkmale r Stimmmerkmale r<br />

Fundamentalfrequenz, Regressionssteigung<br />

−0,26 ** Intensität, Mittelwert −0,23 **<br />

Formant 1, zeitliche Position des Minimums<br />

0,22 ** Intensität, Maximum −0,22 **<br />

Formant 2, Standardabweichung −0,20 ** Intensität, 25. Perzentil −0,21 **<br />

Formant 2, zeitliche Position des Minimums<br />

0,18 ** Intensität, 75. Perzentil −0,24 **<br />

Formant 4, Standardabweichung −0,20 ** Intensität, zeitliche Position des Maximums<br />

0,26 **<br />

Formant 5, zeitliche Position des Minimums<br />

0,21 ** Intensität, relative zeitliche Position 0,20 **<br />

des Minimums<br />

Formant 5, Standardabweichung −0,19 ** Mel-Frequenz-Cepstrum-Koeffizient 1 −0,32 **<br />

Formant 1, Bandbreite, 50. Perzentil 0,25 ** Mel-Frequenz-Cepstrum-Koeffizient 2 −0,26 **<br />

Formant 1, Bandbreite, Position −0,20 ** Mel-Frequenz-Cepstrum-Koeffizient 3 −0,31 **<br />

Formant 2, Bandbreite, 25. Perzentil 0,21 ** Mel-Frequenz-Cepstrum-Koeffizient 4 0,20 **<br />

Formant 2, Bandbreite, 50. Perzentil −0,19 ** Mel-Frequenz-Cepstrum-Koeffizient 5 −0,29 **<br />

Formant 3, Bandbreite, Standardabweichung<br />

−0,21 ** Mel-Frequenz-Cepstrum-Koeffizient 12 0,26 **<br />

Langzeitspektrum, Minimum 0,22 ** Maximum der PSD im Frequenzband −0,23 **<br />

0–2000 Hz<br />

Langzeitspektrum, Maximum −0,23 ** Maximum der PSD im Frequenzband −0,23 **<br />

2000–5000 Hz<br />

Langzeitspektrum, Standardabweichung −0,26 ** Maximum der PSD 0–2000 Hz minus −0,23 **<br />

Maximum der PSD 2000–5000 Hz<br />

*<br />

p


Originalien<br />

KSS: Referenz<br />

10<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

1 2 3 4 5 6 7<br />

KSS: Akustischer Messwert<br />

nachgewiesen werden (r KSS-Maxium der Intensität<br />

=−0,22; r KSS-Median der Formant-2-Bandbreite<br />

=0,27) und gehört zu den 30 stimmlichen<br />

Merkmalen mit dem stärksten linear-korrelativen<br />

Zusammenhang zur gemessenen<br />

Schläfrigkeit. Die 5 schläfrigkeitssensitivsten<br />

Merkmale hingegen sind<br />

F MFCC 1 =−0,32;<br />

F MFCC 3 =−0,31;<br />

F 25. Perzentil der Formant-2-Bandbreite<br />

=0,30;<br />

F MFCC 5 =−0,29 und<br />

F 50. Perzentil der Formant-2-Bandbreite<br />

=0,27.<br />

Ergebnisse des<br />

maschinellen Lernens<br />

Um die multivariate Vorhersageperformanz<br />

durch Kombination vieler Einzelmerkmale<br />

zu optimieren, wurden Standardverfahren<br />

der Sprachemotionserkennung<br />

angewendet. Die jeweils erzielten<br />

mittleren absoluten Abweichungen („median<br />

absolute deviation“, MAD) zwischen<br />

vorhergesagten und realen KSS-Schläfrigkeitswerten<br />

sowie ihre korrespondierenden<br />

Validitätskorrelationen sind im Folgenden<br />

aufgeführt:<br />

F lineare Regression, MAD=1,91,<br />

r=0,32 ** ;<br />

F künstliches neuronales Netz („multilayer<br />

perceptron“, 2 verdeckte Schichten,<br />

je 5 „perceptrons“ pro Schicht),<br />

MAD=1,87, r=0,40 ** ;<br />

F SVM (radialer Kernel, γ=1, C=0),<br />

MAD=1,69, r=0,46 ** (p5,5).<br />

Die genaueste Modellierung der über<br />

selbst- und fremdberichtete Schläfrigkeit<br />

geschätzten „ground truth“ konnte, wie<br />

schon in anderen Benchmarkingstudien<br />

gezeigt wurde, über SVM erzielt werden.<br />

Sowohl lineare Regression als auch künstliche<br />

neuronale Netze erzielten schlechtere<br />

Modellanpassungen.<br />

Limitationen und<br />

Forschungsdesiderate<br />

Eine Reihe von Sachverhalten limitieren<br />

die Aussagekraft und Generalisierbarkeit<br />

unserer Ergebnisse. Die Hauptkritik<br />

bezieht sich auf die Wahl der angewandten<br />

Grundgenauigkeit. Die verwendete<br />

Fusion von Selbstbericht und 2 Beobachterberichten<br />

zur Messung könnten<br />

wegen ihrer (semi)subjektiven Natur kritisiert<br />

werden. Zukünftige Studien könnten<br />

das hier gewählte Konsensusprozedere<br />

mit weiteren physiologischen Schläfrigkeitsindikatoren<br />

anreichern. Insbesondere<br />

die in Kürze zu erwartenden EEG-/<br />

EOG-basierten Goldstandardverfahren<br />

[26] könnten zu einer wichtigen Ergänzung<br />

des hier gewählten Validitätsansatzes<br />

beitragen. Eine weitere Optimierung<br />

könnte über<br />

F eine differenziertere Beobachtungsskala<br />

[7, 20],<br />

F einen erhöhten Raterumfang (in<br />

der Sprachemotionserkennung wer-<br />

30 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011


den 5–10 Rater zur Bestimmung der<br />

„ground truth“ genutzt) und<br />

F einen prototypbasierten Ansatz (Vorselektion<br />

der Fälle mit Konkordanz<br />

aller Validierungsinstrumente) erzielt<br />

werden.<br />

Vor dem Hintergrund der genannten Einschränkungen<br />

müssen die Validierungsergebnisse<br />

als vorläufig interpretiert werden.<br />

Replikationen mit umfangreichen<br />

und diversifizierten Probandenkollektiven<br />

sind wichtig, um die für einen breiten<br />

Einsatz notwendige Evidenzgrundlage<br />

aufzubauen. Zudem sollten zukünftige<br />

Forschungsbemühungen die Weiterentwicklung<br />

der phonetisch-akustischen<br />

Schläfrigkeitsanalyse insbesondere<br />

über die Anwendung diverser Mustererkennungs-<br />

und Machine-Learning-Verfahren<br />

(„support vector machine“) sowie<br />

über eine geschlechtsspezifische Modellierung<br />

angehen.<br />

Fazit für die Praxis<br />

F Die anwendungspraktische Bedeutung<br />

des vorgestellten Verfahrens<br />

liegt darin, dass für moderate Nebengeräuschbedingungen<br />

eine Messung<br />

von Schläfrigkeit insbesondere im<br />

mittleren und starken Schläfrigkeitsbereich<br />

umgesetzt werden kann.<br />

F Diese Messung kann bislang jedoch<br />

nur als Fit-for-Duty-Testsituation realisiert<br />

werden.<br />

Korrespondenzadresse<br />

<strong>Prof</strong>. <strong>Dr</strong>. J. <strong>Krajewski</strong><br />

Experimentelle Wirtschaftspsychologie,<br />

Universität Wuppertal<br />

Gaußstraße 20, 42097 Wuppertal<br />

Deutschland<br />

krajewsk@uni-wuppertal.de<br />

Interessenkonflikt. Der korrespondierende Autor<br />

gibt an, dass kein Interessenkonflikt besteht.<br />

Literatur<br />

1. Batliner A, Steidl S, Schuller B et al (2011) Whodunnit<br />

– searching for the most important feature<br />

types signalling emotion-related user states in<br />

speech. Computer Speech Language 25:4–28 (in<br />

press)<br />

2. Batliner A, Steidl S, Nöth E (2008) Releasing a thoroughly<br />

annotated and processed spontaneous<br />

emotional database: The FAU Aibo Emotion Corpus.<br />

In: Devillers L, Martin J-C, Cowie R et al. (eds)<br />

Proc. of a satellite workshop of LREC 2008 on corpora<br />

for research on emotion and affect (Workshop<br />

on Corpora for Research on Emotion and Affect<br />

Marrakesh 26.5.2008). LREC 2008, Marrakesh,<br />

pp 28–31<br />

3. Batliner A, Steidl S, Schuller B et al (2006) Combining<br />

efforts for improving automatic classification<br />

of emotional user states. In: Erjavec T, Gros JZ<br />

(Hrsg) Language technologies, IS-LTC 2006. Infornacijska<br />

<strong>Dr</strong>uzba, Ljubljana, Slovenia, S 240–245<br />

4. Batliner A, Seppi D, Steidl S, Schuller B (2010) On<br />

the impact of childrens emotional speech on<br />

acoustic and language models. EURASIP J Audio<br />

Speech Music Process, doi:10.1155/2010/783954<br />

5. Boersma P (2001) PRAAT, a system for doing phonetics<br />

by computer. Glot Int 5:341–345<br />

6. Davidson PR, Jones RD, Peiris MT (2007) EEG-based<br />

behavioral microsleep detection with high temporal<br />

resolution. IEEE Trans Biomed Eng 54:832–839<br />

7. Dittrich E, Brandenburg S, Thüring M (2009) Beobachtungsbasierte<br />

Erfassung von Müdigkeit im Kfz<br />

– die TUBS-Skala. In: Lichtenstein A, Stößel C, Clemens<br />

C (Hrsg) Der Mensch im Mittelpunkt technischer<br />

Systeme. 8. Berliner Werkstatt Mensch-Maschine-Systeme.<br />

VDI, Düsseldorf, S 123–128<br />

8. Hammarberg B, Fritzell B, Gauffin J et al (1980) Perceptual<br />

and acoustic correlates of abnormal voice<br />

qualities. Acta Otolaryngol 90:441–451<br />

9. Haslam DR (1981) The military performance of soldiers<br />

in continuous operations. In: Johnson LC, Tepas<br />

DI, Colquhoun WP, Colligan MJ (Hrsg) Biological<br />

rhythms, sleep and shift work. SP Medical &<br />

Scientific Books, New York, S 217–230<br />

10. Harrison Y, Horne JA (1997) Sleep deprivation affects<br />

speech. J Sleep 20:871–877<br />

11. Heinze C, Trutschel U, Schnupp T et al (2009) Operator<br />

fatigue estimation using heart rate measures.<br />

World Congress on Medical Physics and Biomedical<br />

Engineering, IFMBE Proceeding 25(9):930–934<br />

12. Ingre M, Åkerstedt T, Peters B et al (2006) Subjective<br />

sleepiness, simulated driving performance and<br />

blink duration: Examining individual differences. J<br />

Sleep Res 15:47–53<br />

13. Kienast M, Sendlmeier WF (2000) Acoustical analysis<br />

of spectral and temporal changes in emotional<br />

speech. In: Sendlmeier W (Hrsg) Speech and<br />

signals: Aspects of speech synthesis and automatic<br />

speech recognition: Forum phoneticum. Hector,<br />

Frankfurt a. M., S 157–168<br />

14. <strong>Krajewski</strong> J (2008) Acoustic sleepiness analysis.<br />

PhD thesis. University of Wuppertal, Wuppertal<br />

15. <strong>Krajewski</strong> J, Kröger B (2007) Using prosodic and<br />

spectral characteristics for sleepiness detection. In:<br />

Hamme H van, Son R van (Hrsg) Interspeech proceedings.<br />

University Antwerp, Antwerp, S 1841–<br />

1844<br />

16. <strong>Krajewski</strong> J, Sommer D, Trutschel U et al (2009)<br />

Steering wheel behavior based estimating of fatigue.<br />

Proc Int <strong>Dr</strong>iv Symp Hum Factors <strong>Dr</strong>iv Assess<br />

Train Veh Des 4:118–124<br />

17. Laver J (1980) The phonetic description of voice<br />

quality. Cambridge University, Cambridge, England<br />

18. Levelt WJM, Roelfs A, Meyer AS (1999) A theory of<br />

lexical access in speech production. J Behav Brain<br />

Sci 22:1–75<br />

19. Lewis D, Yang Y, Rose T, Li F (2004) RCV1: A new<br />

benchmark collection for text categorization research.<br />

J Mach Learn Res 5:361–397<br />

20. Muttray A, Weirich O, Du Prel JB et al (2009) Beurteilung<br />

von Fahrerschläfrigkeit von Berufskraftfahrern<br />

mittels Videoanalyse. Arbeitsmed Sozialmed<br />

Umweltmed 44:114<br />

21. Podszus T (2007) Atmung. In: Peter H, Penzel T,<br />

Peter JH (Hrsg) Enzyklopädie der Schlafmedizin.<br />

Springer, Heidelberg, S 80–85<br />

22. Rabiner C, Schafer R (1978) Digital processing of<br />

speech signals. Prentice-Hall International, Inc.<br />

Englewood Cliffs, New Jersey<br />

23. Scherer KR (1974) Acoustic concomitants of emotional<br />

dimensions: Judging affect from synthesized<br />

tone sequences. In: Weitz S (Hrsg) Nonverbal<br />

communication. Oxford University, New York, S<br />

249–253<br />

24. Schnupp T, Schenka A, Edwards D et al (2009) Is<br />

posturography a candidate for a vigilance test?<br />

World Congress on Medical Physics and Biomedical<br />

Engineering, IFMBE Proc 25(9):388–392<br />

25. Schuller B, Wimmer M, Mösenlechner L et al (2008)<br />

Brute-forcing hierarchical functionals for paralinguistics:<br />

A waste of feature space? Proc IEEE Int<br />

Conf Acoust Speech Signal Process 33:4501–4504<br />

26. Sommer D, Golz M, <strong>Krajewski</strong> J (2008) Consecutive<br />

detection of driver’s microsleep events. In: Vander<br />

Sloten J, Verdonck P, Nyssen M, Haueisen J (Hrsg)<br />

IFMBE Proceedings 22. Springer, Berlin, S 243–247<br />

27. Vlasenko B, Schuller B, Wendemuth A, Rigoll G<br />

(2007) Combining frame and turnlevel information<br />

for robust recognition of emotions within speech.<br />

Proc Interspeech 8:2249–2252<br />

28. Vollrath M (1993) Mikropausen im Sprechen. Apparative<br />

Registrierung und psychologische Bedeutung.<br />

Peter Lang, Frankfurt<br />

29. Whitmore J, Fisher S (1996) Speech during sustained<br />

operations. Speech Commun 20:55–70<br />

30. Wilhelm B, Giedke H, Lüdtke H et al (2001) Daytime<br />

variations in central nervous system activation<br />

measured by a pupillographic sleepiness test. J<br />

Sleep Res 10:1–7<br />

<strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011 |<br />

31

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!