Somnologie - Prof. Dr. Jarek Krajewski

Somnologie 

Schlafforschung und Schlafmedizin 

Somnology 

Sleep Research and Sleep Medicine 

Offizielles Organ der DGSM und der ÖGSM • Official Journal of the DGSM and of the ASRA 

Elektronischer Sonderdruck für 

J. Krajewski 

Ein Service von Springer Medizin 

Somnologie 2011 · 15:24–31 · DOI 10.1007/s11818-010-0497-2 

© Springer-Verlag 2010 

zur nichtkommerziellen Nutzung auf der 

privaten Homepage und Institutssite des Autors 

J. Krajewski · M. Sauerland · D. Sommer · M. Golz 

Phonetisch-akustische Schläfrigkeitsdetektion 

Eine Pilotstudie 

www.somnologie.springer.de

Originalien 

Somnologie 2010 · 15:24–31 

DOI 10.1007/s11818-010-0497-2 

Eingegangen: 4. Juni 2010 

Angenommen: 10. September 2010 

Online publiziert: 14. Oktober 2010 


J. Krajewski 1 · M. Sauerland 2 · D. Sommer 3 · M. Golz 3 

1 

Experimentelle Wirtschaftspsychologie, Universität Wuppertal 

2 

Psychologie der Arbeit, Universität Landau 

3 

Neuroinformatik und Signalverarbeitung, Fachhochschule Schmalkalden 

Phonetisch-akustische 

Schläfrigkeitsdetektion 

Eine Pilotstudie 

Musterkennungsbasierte 

Verfahrensentwicklung 

In der Vergangenheit wurden vielfältige 

Anstrengungen unternommen, Verfahren 

zu entwickeln, die Schläfrigkeitszustände 

objektiv und automatisiert quantifizieren 

können. Die auf ein Schläfrigkeitsmonitoring 

abzielenden Systeme beinhalten 

hauptsächlich Messkanäle wie die Instabilität 

der Pupillengröße [30], Lidschlüsse 

[12], posturographisches Gleichgewichtsverhalten 

[24], motorisches Verhalten 

[16] sowie kardiovaskuläre [11] 

und elektroenzephalographische Aktivität 

[6, 26]. Bisher ungenutzt blieben die 

schläfrigkeitsbezogenen Informationen 

aus dem stimmlichen Ausdruck. Anders 

als die stimmakustische Schläfrigkeitsdetektion 

weckte die Emotionsdetektion in 

den letzten Jahren ein reges Forschungsinteresse. 

Gründe für die wachsende Beschäftigung 

mit phonetisch-akustischen 

Stimmanalysen ist die zunehmende Präsenz 

von sprachlicher Mensch-Maschine- 

Interaktion (MMI) sowie die Entwicklung 

der notwendigen Prozessorleistungen und 

Speicherkapazitäten. 

Vorzüge akustischer 

Schläfrigkeitsmessverfahren 

Aus der Anwendungsperspektive laborund 

feldexperimenteller Schläfrigkeitsforschung 

besitzen akustische Messansätze 

prinzipiell eine Reihe von Vorzügen 

gegenüber bisherigen Messansätzen. Dies 

↓ Vokaltraktspannung 

(“yielding wall effect”) 

↑ Velumabsenkung 

(Verbindung zum Nasaltrakt) 

↓ Wärmeabstrahlung 

(↓ Reibungs- u. 

Turbulenzphänomene) 

↓ Stimmlippenspannung, - 

steifigkeit und -viskosität 

↓ Atemtiefe u. -frequenz 

gilt v. a. für ihren Einsatz als Fit-for-Duty- 

Schnelltest, d. h. die Primärtätigkeit wird 

unterbrochen und eine isolierte Testsituation 

hergestellt. Im Gegensatz zu elektrophysiologischen 

Ansätzen bietet der akustische 

Stimmanalyseansatz die Vorzüge 

eines berührungsfreien Messzugangs, 

der ohne die Applikation von Elektroden 

auskommt. Gegenüber (infrarot)kamerabasierten 

Systemen erlauben mikrophonbasierte 

Systeme einen kostengünstigen, 

von widrigen, wechselnden Licht- und 

Probandenbedingungen (Gesichtsbehaarung, 

schmale Lidspalten, Brille, Bildokklusionen) 

unbeeinflussten Messzugang. 

Ein weiterer Vorzug gegenüber bisherigen 

Fit-for-Duty-Testsystemen (z. B. Psychomotorischer 

Vigilanztest oder Pupillographischer 

Schläfrigkeitstest, 11 min Messdauer) 

wäre die kurze – maximal einminütige 

– Messstrecke. 

Anwendungen 

Im Bereich des kontinuierlichen Schläfrigkeitsmonitorings 

bieten sich für die 

akustische Schläfrigkeitsanalyse v. a. Tätigkeiten 

mit regelmäßigen Spracheingaben 

an, wie sie Z. B. im Flugverkehrskontext 

vorliegen. Denkbar sind darüber hinaus 

auch Anwendungen im Rahmen 

von sprachgesteuerten Mensch-Maschine-Interaktionen 

(MMI; z. B. Telecare- 

Anwendungen oder Fahrerassistenzsysteme). 

Zu diesem Zweck würden Fahrzeugführer 

im stündlichen Rhythmus zu 

einer kurzen Spracheingabe aufgefordert 

werden. Ferner könnten phonetisch-akus- 

zentralisierte Zungenposition, 

↓ Fluidität der Zungenbewegung 

↑ eingefallene Körperhaltung 

(Vokaltraktverkürzung) 

↓ feinmotorische Ansteuerung 

der Artikulatoren 

↓ Veränderung des 

Zahnreihenabstands 

↓ Lächeln, ↓ Lippenspreizung 

und -stülpung 

Abb. 1 8 Mögliche schläfrigkeitsbedingte Veränderungen des Sprachproduktionssystems 

24 | Somnologie - Schlafforschung und Schlafmedizin 1 · 2011

Zusammenfassung · Abstract 

tische Messkanäle zum Aufbau von (vielfach 

geforderten) multimodalen Messsystemen 

beitragen, indem sie elektrophysiologische 

(z. B. Elektroenzephalographie, 

EEG; Elektrookulographie, EOG; elektrodermale 

Aktivität, EDA; Elektromyographie, 

EMG) oder kamerabasierte Schläfrigkeitssysteme 

mit zusätzlichen Informationen 

versorgen. 

Schläfrigkeit und 

Sprachveränderungen 

Kognitiv-phonetisches 

Mediatormodell 

Das kognitiv-phonetische Mediatormodell 

verknüpft 

F schläfrigkeitsinduzierte kognitive Beeinträchtigungen 

mit 

F Sprachproduktionsmodellen und vermuteten 

Veränderungen der Stimme 

zu 

F einem Erklärungsmodell schläfrigkeitsinduzierter 

Sprachveränderungen 

[14, 15]. 

Diese im Hypothesenkomplex des kognitiv-phonetischen 

Mediatormodells schläfrigkeitsinduzierter 

Sprachveränderung 

zusammengefassten kognitiven Wirkpfade 

haben ihren Ursprung im Sprachproduktionsmodell 

Levelts [18]. Parallel zu 

diesen kognitiven Prozessen werden auch 

eine Reihe physiologischer Komponenten 

der Sprachproduktion durch Schläfrigkeit 

beeinflusst (. Abb. 1). 

So ist wachsende Schläfrigkeit mit 

einer Abnahme der zentralnervösen und 

autonomen sympathischen Aktivierung 

verbunden. Damit assoziiert nehmen 

Herzfrequenz sowie Atemfrequenz und 

-tiefe ab, der Blutdruck sinkt, die Körpertemperatur 

fällt, und der Muskeltonus 

wird schwächer. Die Respirationsphase 

der Sprachproduktion wird daher beeinträchtigt. 

Dies wird über eine reduzierte 

Aktivität der Brustraummuskeln (Diaphragma 

und Mm. intercostales externi) 

vermittelt, die zu einem reduzierten 

Atemzugvolumen und einem verringerten 

subglottalen Druck führt [21]. 

In der nächsten Phase der Sprachproduktion, 

der Phonation, führt der reduzierte 

Muskeltonus der Stimmlippenmuskulatur 

zu einer Abnahme der Spannung 

Somnologie 2010 · 15:24–31 


DOI 10.1007/s11818-010-0497-2 

J. Krajewski · M. Sauerland · D. Sommer · M. Golz 

Phonetisch-akustische Schläfrigkeitsdetektion. Eine Pilotstudie 

Zusammenfassung 

Das Ziel des vorliegenden Beitrags ist die 

Darstellung der Entwicklung und Validierung 

eines phonetisch-akustischen Messverfahrens 

zur stimmbasierten Schläfrigkeitsdetektion. 

Der Vorzug dieses automatisierten 

Mess ansatzes liegt in der belästigungsarmen, 

sensorapplikationsfreien Handhabung. 

Das hier gewählte Stimmanalyseprozedere 

folgt dem aus der Sprachemotionserkennung 

entlehnten Standardvorgehen: (1) Aufnahme 

des Testsatzes, (2) Berechnung von 

170 Prosodie, Artikulation und Stimmqualität 

beschreibenden Kennzahlen, (3) maschinelles 

Lernen und (4) Evaluation. In einer Schlafdeprivationsstudie 

(n=32; 20.00–04.00 Uhr) 

wurden insgesamt 380 simulierte Fahrerassistenzsätze 

aufgezeichnet. Als externer Validierungsanker 

diente der aus einem Selbstund 

2 Fremdberichten gemittelte Karolinska- 

Schläfrigkeitsskala (KSS) Schläfrigkeitswert. 

Als besonders schläfrigkeitssensitiv erwiesen 

sich die Merkmalsfamilien der Cepstrum- 

Koeffizienten, Formantbandbreiten, Intensitäten 

und spektralen Kenngrößen. Das beste 

multivariate Verfahren, die „support vector 

machine“, erreichte eine signifikante Validitätskorrelation 

von r=0,46 in der Vorhersage 

von Schläfrigkeit auf ungesehene Sprecher. 

Schlüsselwörter 

Phonetik · Sprachakustik · Maschinelles 

Lernen · Schläfrigkeit · „Support vector 

machine“ 

Phonetic–acoustic sleepiness detection. A pilot study 

Abstract 

This paper describes the development and 

validation of a phonetic–acoustic measurement 

procedure for a speech-based detection 

of sleepiness. The advantages of this automatic 

real-time approach are that obtaining 

speech data is unobtrusive and free from 

sensor application and calibration efforts. 

The chosen measurement process follows 

the speech-adapted steps of pattern recognition: 

(1) recording speech, (2) computation of 

170 features describing prosody, articulation, 

and voice quality, (3) machine learning, and 

(4) evaluation. In a sleep deprivation study, a 

total of 380 simulated driver assistance samples 

(n=32; 8:00 p.m.–4:00 a.m.) were recorded. 

One self and two observer assessments 

were used to obtain a Karolinska Sleepiness 

Scale (KSS) value, which served as an external 

validation reference. Features that proved to 

be especially sensitive to sleepiness are cepstral 

coefficients, formant bandwidth, intensity, 

and spectral measures. The best machine 

learning method, the support vector machine 

(SVM), achieved a significant validation 

correlation of r=0.46 in predicting sleepiness 

on unseen speakers. 

Keywords 

Phonetics · Speech acoustics · Machine 

learning · Sleepiness · Support vector 

machine 

Somnologie - Schlafforschung und Schlafmedizin 1 · 2011 | 

25

Originalien 

Tab. 1 Grundlegende phonetisch-akustische Kennzahlenfamilien und ihre Indikatorfunktion 

für auditiv-perzeptuelle Stimmphänomene und Vokaltraktmerkmale 

Akustische Beschreibungskategorie Indikatorbereich 

Intensität 

Lautstärke, Betonungsstruktur 

Fundamentalfrequenz (F0) 

Intonationsverlauf, Tonhöhe 

Langzeitspektrum 

Stimmklang, Stimmfülle, Stimmqualität 

Cepstrale Koeffizienten 

Ganzheitliche Repräsentation des Spektrums 

Formantpositionen (F1–F6) 

Artikulatorenposition (Kieferwinkel, Zungenposition) 

Formantbandbreiten 

Schwingungseigenschaften der Vokaltraktwände 

und Elastizität und somit zu einer Reduktion 

der Vibrationsrate der Stimmlippen. 

Darüber hinaus kann es durch eine schläfrigkeitsinduzierte 

verringerte Spannung 

des M. vocalis und eine verringerte Myoelastizität 

der Stimmlippen zu einem unvollständigen 

Stimmlippenschluss kommen 

– die Folge sind weiche Stimmeinsätze 

und eine behauchte Stimme, bei der 

die Stimmlippen vibrieren, aber keinen 

kompletten Kontakt in der Schließungsphase 

haben. Ferner kann es zur Knarrstimme 

kommen, bei der der hintere Teil 

der Stimmlippen während der Stimmhaftigkeit 

geschlossen bleibt, da aufgrund des 

verminderten subglottalen Drucks der 

Verschluss der Stimmlippen nicht vollständig 

gesprengt wird. 

Der verringerte Muskeltonus wirkt 

sich neben der Phonation auch auf die 

Artikulation aus. Reduzierte Präzision, 

Geschwindigkeit und Fluidität der Zungen- 

und Kieferbewegungen sowie eine – 

über einen gedämpften emotionalen Befindenszustand 

vermittelte – ausdrucksärmere 

Mimik verändern die Filter- und 

Abstrahlungscharakteristika und somit 

die Artikulationspräzision von schläfrigen 

Sprechern [10, 29]. Eine weitere mögliche 

Folge des verringerten Muskeltonus 

ist das Absinken des Velums und somit 

die Zuschaltung nasaler Resonanzräume, 

die auditiv die Wahrnehmung stimmlicher 

Nasalität hervorruft. Nach Laver [17] 

ist die „sensuous nasality“ auf eine allgemeine 

Entspannung des oropharyngealen 

Bereichs (zwischen Epiglottis und Velum) 

zurückzuführen. Eine schläfrigkeitsbedingte 

reduzierte Wärmeabstrahlung der 

Vokaltraktwände in den Vokaltrakt könnte 

Strömungsverhältnisse und Turbulenzphänomene 

zusätzlich beeinflussen. Auch 

könnte ein schläfrigkeitsbedingt reduzierter 

Muskeltonus die Elastizität der Vokaltraktwände 

erhöhen und somit zu einer 

Dämpfung des Schallsignals beitragen. 

Phonetisch-akustische 

Stimmanalyse 

Der Einsatz akustischer Kennzahlen zur 

Bestimmung des Befindlichkeitszustands 

ist schon seit vielen Jahren anvisiert [23]. 

Aber erst mit Hilfe aktueller Prozessorleistungen 

ist es teilweise möglich, auditiv-perzeptuelle 

Höreindrücke in akustisch 

messbare Kennzahlen zu überführen. 

Beispiele für die Prosodie-, Artikulations- 

und Stimmqualitätsphänomene 

beschreibenden akustischen Merkmale 

sind in . Tab. 1 aufgeführt und werden 

im Folgenden näher erläutert. 

Intensität 

Zur Bestimmung der Lautstärke werden 

die quadrierten Beträge der Signalamplitude 

aufsummiert. Wichtig ist bei der 

Messung von intensitätsbezogenen Lautstärkegrößen, 

dass Aufnahmerichtung 

und Mikrophondistanz annähernd konstant 

gehalten werden (wie in Fahrzeugszenarien 

umgesetzt) oder nur normalisierte 

Änderungen der Energie berechnet 

werden. Abgleitet aus dem Intensitätsverlauf 

ist das stimmqualitätbeschreibende 

Shimmer-Merkmal, das eine prozentuelle 

Bewertung der Peak-zu-Peak-Variabilität 

der Intensität leistet. 

Grundfrequenz (F0) 

Zur Bestimmung der Tonhöhe (Vibrationsrate 

der Stimmlippen) und Sprechmelodie 

wird die Grundfrequenz über das 

Maximum der Autokorrelationsfunktion 

berechnet [5]. Die Sprachgrundfrequenz 

(auch Fundamentalfrequenz, F0) ist das 

akustische Korrelat zur perzeptiv wahrgenommenen 

Tonhöhe einer Äußerung 

(Pitch). 

Spektrale Kenngrößen 

Die Quotienten der spektralen Leistungsdichte 

(„power spectral density“, PSD) diverser 

Frequenzbänder, die Verhältnisse 

der Energien einzelner Harmonischer 

zur Gesamtenergie (Harmonics-to-Noise-Ratio) 

und die Regressionssteigung 

der Energieverteilung im Frequenzbandbereich 

über 1 kHz prägen im Wesentlichen 

den Stimmqualitätseindruck. So 

ist die Klangfarbe z. B. abhängig von der 

Teiltonstruktur sowie der Anzahl und der 

Stärke der im Klang enthaltenen Obertöne. 

In diesem Sinn indiziert eine große 

Anzahl an Obertönen eine tragfähige 

Stimme. Energiekonzentrationen in hohen 

Frequenzen hingegen erzeugen einen 

hellen Stimmklang. 

Ferner dient die Charakterisierung des 

spektralen Leistungsdichteverlaufs über 

Hammarberg-Indizes [8] zur Abschätzung 

der Stimmqualität. 

F Hammarberg 1: Maximum der PSD 

im Frequenzband von 400 bis 600 Hz 

minus PSD der F0; 



minus PSD an der Frequenzposition 

von 1600 Hz; 




von 5000 Hz; 




über 5000 Hz. 

Cepstrum-Koeffizienten 

Ziel der routinemäßig in der Sprachemotionserkennung 

zum Einsatz kommenden 

Berechnung der Mel-Frequenz- 

Cepstrum-Koeffizienten („Mel frequency 

cepstral coefficients“, MFCCs; [1]) ist 

es, das abgestrahlte Sprachsignal in das 

ursprüngliche Stimmlippen-Anregungssignal 

und ein die sprecherspezifischen 

Eigenschaften des Vokaltrakts repräsentierendes 

Signal zu trennen. Ein wichtiges 

Charakteristikum der Cepstrum-Koeffizienten 

ist die Unkorreliertheit ihrer Ko- 


effizienten, die einen redundanzarmen 

eigenständigen informatorischen Gehalt 

der Kennzahlen sichert. Die MFCCs liefern 

über die Spektralzerlegung des Amplitudenspektrums 

(„Spektrum des Spektrums“) 

eine holistische Repräsentation 

des Spektrums, die über die Transformation 

in die Mel-Frequenzskala eine Nachbildung 

der Frequenz-Orts-Transformation 

im menschlichen Gehör vornimmt. 

Peaks im Cepstrum korrespondieren mit 

den Harmonischen des Leistungsspektrums. 

Formantenposition 

Zu den wichtigsten stimmlichen Kennzahlen 

zählen die Resonanzfrequenzen 

des Vokaltrakts (Maxima der Transferfunktion 

des Vokaltrakts), die Formanten. 

Sie sind sensitiv für kleine Veränderungen 

der Vokaltraktform, wie sie durch 

Veränderung des Kieferöffnungswinkels, 

der Lage des Zungenkörpers, des Zungenspitzenwinkels, 

der relativen Lippenhöhe, 

der Lippenstülpung oder der Oberkörperkrümmung 

bewirkt werden. In diesem 

Zusammenhang sind die Lage der ersten 

5 Formanten (F1–F5) sowie ihr Bezug zu 

phonetischen Normwerten (Formantenpräzision) 

typische Kenngrößen [13]. 

Formantenbandbreite 

Bei der Berechnung der Formantenbandbreite 

wird der Frequenzbereich um einen 

Peak ermittelt, in dem das Signal 3 dB an 

Energie verliert. Je kleiner die spektrale 

Bandbreite ist, desto konzentrierter die 

Energieverteilung im Signal. Somit enthält 

die Bandbreite wichtige Informationen 

zur Dämpfung und damit zum Energieverlust 

des akustischen Signals im Vokaltrakt. 

Je entspannter die Vokaltraktmuskulatur 

und je stärker die Vokaltraktwände 

vom Sprachsignal angeregt mitschwingen 

(„yielding wall effect“; [23]), je 

weniger schallhart diese Wände also sind, 

umso mehr verliert das Signal an Energie 

und umso größer wird die Formantenbandbreite. 

Schalldruck 

Frequenz (Hz) 

0,4 

0,2 

0 

-0,2 

-0,4 

0 

5000 

4000 

3000 

2000 

1000 

Auditive und akustische 

Korrelate der Schläfrigkeit 

Die ersten dokumentierten Untersuchungen 

beschäftigten sich mit der Analyse 

einzelner auditiver (über den Höreindruck 

eingeschätzter, nicht automatisiert 

erfasster) Schläfrigkeitskorrelate. Dokumentiert 

wurde eine abgeflachte Intonation, 

reduzierte Wortflüssigkeit und verlängerte 

Wortdauer [9, 29]. Auf phonbasierter 

Ebene fand Vollrath [28] eine 

Aufweichung (Lenisierung) der Stimme. 

Die bisherigen Forschungsbemühungen 

zur Entwicklung phonetisch-akustischer 

Schläfrigkeitsinstrumente blieben bis jetzt 

jedoch auf anekdotischen und bezüglich 

einer automatisierten ausreichend messgenauen 

Perspektive auf eher rudimentärem 

Niveau. Ziel dieses Beitrags ist es daher, 

ein diese Defizite aufarbeitendes, aus 

der Sprachemotionserkennung entlehntes 

Analyseprozedere zur Detektion kritischer 

Schläfrigkeitszustände anzuwenden 

[1, 4, 27]. 

Methode 

0,2 

0,4 

wach 

0 0,2 0,4 0,6 0,8 1 1,2 1,4 

Zeit (s) 

Stichprobe, Prozedere 

und Instrumente 

0,6 0,8 1 1,2 1,4 

Zeit (s) 

Die 32 (17 w., 15 m.) freiwillig an der 

Studie teilnehmenden Probanden 

(24,64±4,32 Jahre) wurden instruiert, ihre 

normalen Schlafgewohnheiten und ihr 

normales Schlafverhalten beizubehalten. 

Schalldruck 

Frequenz (Hz) 

0,4 

0,2 

0 

-0,2 

-0,4 

0 

5000 

4000 

3000 

2000 

1000 

0,2 

0,4 

schläfrig 

0,6 0,8 1 1,2 1,4 

Zeit (s) 

0 0,2 0,4 0,6 0,8 1 1,2 1,4 

Zeit (s) 

Abb. 2 8 Waveform und Spektrogramm und des Satzes „Rufen Sie den Notdienst an“ für einen wachen 

(links; Karolinska-Schläfrigkeitsskala, KSS: 4) und einen schläfrigen Sprecher (rechts; KSS: 8). Weiß 

hohe spektrale Leistungsdichten (PSD, „power spectral density“), schwarz niedrige PSD 

Als Exklusionskriterien fungierten ernsthafte 

Schlafstörungen oder Schlafprobleme 

(PSQI >5). Die Studie folgte einem 

Within-Subject-Design mit partieller 

Schlafdeprivation (20.00–04.00 Uhr). 

Während der Nacht der Schlafdeprivation 

wurde ein gut etabliertes und standardisiertes 

Schläfrigkeitsmessinstrument, 

die Karolinska-Schläfrigkeitsskala 

(KSS), von den Probanden (Selbstbeurteilung) 

und zusätzlich von 2 Versuchsassistenten 

(Fremdbeurteilung) unmittelbar 

vor den Sprachaufnahmen angewendet. 

In der hier verwendeten Version reichen 

die Scores von 1 bis 10: äußerst wach 

(1), weder wach noch schläfrig (5), äußerst 

schläfrig, kann nicht wach bleiben (10). 

Als Hilfestellung zur Beurteilung wurde, 

wie in beobachtungsbasierten Schläfrigkeitsmessverfahren 

üblich [20], eine Liste 

mit möglichen Schläfrigkeitsindikatoren 

wie Manierismen, Lidschlussverhalten, 

Blickbewegungen und fehlender gestischer 

oder mimischer Aktivität verteilt. 

Um die Reliabilität der Messung über 

Messwiederholungen zu erhöhen, wurden 

im Einklang mit dem in der Sprachemotionsforschung 

üblichen Standardvorgehen 

[1, 2, 3, 4, 25, 27] jeweils 3 KSS-Scores 

(eine Selbstbeurteilung und 2 Fremdbeurteilungen) 

ungewichtet gemittelt („intraclass 

correlation“: 0,86). Im Lauf der 

Nacht war der Aufenthalt der Probanden 

auf das Labor beschränkt, wo sie während 

der gesamten Dauer beaufsichtigt wur- 


27

Originalien 

Tab. 2 Phonetisch-akustische Korrelate von Schläfrigkeit 

Stimmmerkmale r Stimmmerkmale r 

Fundamentalfrequenz, Regressionssteigung 

−0,26 ** Intensität, Mittelwert −0,23 ** 

Formant 1, zeitliche Position des Minimums 

0,22 ** Intensität, Maximum −0,22 ** 

Formant 2, Standardabweichung −0,20 ** Intensität, 25. Perzentil −0,21 ** 


0,18 ** Intensität, 75. Perzentil −0,24 ** 

Formant 4, Standardabweichung −0,20 ** Intensität, zeitliche Position des Maximums 

0,26 ** 


0,21 ** Intensität, relative zeitliche Position 0,20 ** 

des Minimums 

Formant 5, Standardabweichung −0,19 ** Mel-Frequenz-Cepstrum-Koeffizient 1 −0,32 ** 

Formant 1, Bandbreite, 50. Perzentil 0,25 ** Mel-Frequenz-Cepstrum-Koeffizient 2 −0,26 ** 

Formant 1, Bandbreite, Position −0,20 ** Mel-Frequenz-Cepstrum-Koeffizient 3 −0,31 ** 

Formant 2, Bandbreite, 25. Perzentil 0,21 ** Mel-Frequenz-Cepstrum-Koeffizient 4 0,20 ** 

Formant 2, Bandbreite, 50. Perzentil −0,19 ** Mel-Frequenz-Cepstrum-Koeffizient 5 −0,29 ** 

Formant 3, Bandbreite, Standardabweichung 

−0,21 ** Mel-Frequenz-Cepstrum-Koeffizient 12 0,26 ** 

Langzeitspektrum, Minimum 0,22 ** Maximum der PSD im Frequenzband −0,23 ** 

0–2000 Hz 

Langzeitspektrum, Maximum −0,23 ** Maximum der PSD im Frequenzband −0,23 ** 

2000–5000 Hz 

Langzeitspektrum, Standardabweichung −0,26 ** Maximum der PSD 0–2000 Hz minus −0,23 ** 

Maximum der PSD 2000–5000 Hz 

* 

p

Originalien 

KSS: Referenz 

10 

9 

8 

7 

6 

5 

4 

3 

2 

1 

1 2 3 4 5 6 7 

KSS: Akustischer Messwert 

nachgewiesen werden (r KSS-Maxium der Intensität 

=−0,22; r KSS-Median der Formant-2-Bandbreite 

=0,27) und gehört zu den 30 stimmlichen 

Merkmalen mit dem stärksten linear-korrelativen 

Zusammenhang zur gemessenen 

Schläfrigkeit. Die 5 schläfrigkeitssensitivsten 

Merkmale hingegen sind 

F MFCC 1 =−0,32; 

F MFCC 3 =−0,31; 

F 25. Perzentil der Formant-2-Bandbreite 

=0,30; 

F MFCC 5 =−0,29 und 

F 50. Perzentil der Formant-2-Bandbreite 

=0,27. 

Ergebnisse des 

maschinellen Lernens 

Um die multivariate Vorhersageperformanz 

durch Kombination vieler Einzelmerkmale 

zu optimieren, wurden Standardverfahren 

der Sprachemotionserkennung 

angewendet. Die jeweils erzielten 

mittleren absoluten Abweichungen („median 

absolute deviation“, MAD) zwischen 

vorhergesagten und realen KSS-Schläfrigkeitswerten 

sowie ihre korrespondierenden 

Validitätskorrelationen sind im Folgenden 

aufgeführt: 

F lineare Regression, MAD=1,91, 

r=0,32 ** ; 

F künstliches neuronales Netz („multilayer 

perceptron“, 2 verdeckte Schichten, 

je 5 „perceptrons“ pro Schicht), 

MAD=1,87, r=0,40 ** ; 

F SVM (radialer Kernel, γ=1, C=0), 

MAD=1,69, r=0,46 ** (p5,5). 

Die genaueste Modellierung der über 

selbstund fremdberichtete Schläfrigkeit 

geschätzten „ground truth“ konnte, wie 

schon in anderen Benchmarkingstudien 

gezeigt wurde, über SVM erzielt werden. 

Sowohl lineare Regression als auch künstliche 

neuronale Netze erzielten schlechtere 

Modellanpassungen. 

Limitationen und 

Forschungsdesiderate 

Eine Reihe von Sachverhalten limitieren 

die Aussagekraft und Generalisierbarkeit 

unserer Ergebnisse. Die Hauptkritik 

bezieht sich auf die Wahl der angewandten 

Grundgenauigkeit. Die verwendete 

Fusion von Selbstbericht und 2 Beobachterberichten 

zur Messung könnten 

wegen ihrer (semi)subjektiven Natur kritisiert 

werden. Zukünftige Studien könnten 

das hier gewählte Konsensusprozedere 

mit weiteren physiologischen Schläfrigkeitsindikatoren 

anreichern. Insbesondere 

die in Kürze zu erwartenden EEG-/ 

EOG-basierten Goldstandardverfahren 

[26] könnten zu einer wichtigen Ergänzung 

des hier gewählten Validitätsansatzes 

beitragen. Eine weitere Optimierung 

könnte über 

F eine differenziertere Beobachtungsskala 

[7, 20], 

F einen erhöhten Raterumfang (in 

der Sprachemotionserkennung wer- 


den 5–10 Rater zur Bestimmung der 

„ground truth“ genutzt) und 

F einen prototypbasierten Ansatz (Vorselektion 

der Fälle mit Konkordanz 

aller Validierungsinstrumente) erzielt 

werden. 

Vor dem Hintergrund der genannten Einschränkungen 

müssen die Validierungsergebnisse 

als vorläufig interpretiert werden. 

Replikationen mit umfangreichen 

und diversifizierten Probandenkollektiven 

sind wichtig, um die für einen breiten 

Einsatz notwendige Evidenzgrundlage 

aufzubauen. Zudem sollten zukünftige 

Forschungsbemühungen die Weiterentwicklung 

der phonetisch-akustischen 

Schläfrigkeitsanalyse insbesondere 

über die Anwendung diverser Mustererkennungs- 

und Machine-Learning-Verfahren 

(„support vector machine“) sowie 

über eine geschlechtsspezifische Modellierung 

angehen. 

Fazit für die Praxis 

F Die anwendungspraktische Bedeutung 

des vorgestellten Verfahrens 

liegt darin, dass für moderate Nebengeräuschbedingungen 

eine Messung 

von Schläfrigkeit insbesondere im 

mittleren und starken Schläfrigkeitsbereich 

umgesetzt werden kann. 

F Diese Messung kann bislang jedoch 

nur als Fit-for-Duty-Testsituation realisiert 

werden. 

Korrespondenzadresse 

Prof. Dr. J. Krajewski 

Experimentelle Wirtschaftspsychologie, 

Universität Wuppertal 

Gaußstraße 20, 42097 Wuppertal 

Deutschland 

krajewsk@uni-wuppertal.de 

Interessenkonflikt. Der korrespondierende Autor 

gibt an, dass kein Interessenkonflikt besteht. 

Literatur 

1. Batliner A, Steidl S, Schuller B et al (2011) Whodunnit 

– searching for the most important feature 

types signalling emotion-related user states in 

speech. Computer Speech Language 25:4–28 (in 

press) 

2. Batliner A, Steidl S, Nöth E (2008) Releasing a thoroughly 

annotated and processed spontaneous 

emotional database: The FAU Aibo Emotion Corpus. 

In: Devillers L, Martin J-C, Cowie R et al. (eds) 

Proc. of a satellite workshop of LREC 2008 on corpora 

for research on emotion and affect (Workshop 

on Corpora for Research on Emotion and Affect 

Marrakesh 26.5.2008). LREC 2008, Marrakesh, 

pp 28–31 

3. Batliner A, Steidl S, Schuller B et al (2006) Combining 

efforts for improving automatic classification 

of emotional user states. In: Erjavec T, Gros JZ 

(Hrsg) Language technologies, IS-LTC 2006. Infornacijska 

Druzba, Ljubljana, Slovenia, S 240–245 

4. Batliner A, Seppi D, Steidl S, Schuller B (2010) On 

the impact of childrens emotional speech on 

acoustic and language models. EURASIP J Audio 

Speech Music Process, doi:10.1155/2010/783954 

5. Boersma P (2001) PRAAT, a system for doing phonetics 

by computer. Glot Int 5:341–345 

6. Davidson PR, Jones RD, Peiris MT (2007) EEG-based 

behavioral microsleep detection with high temporal 

resolution. IEEE Trans Biomed Eng 54:832–839 

7. Dittrich E, Brandenburg S, Thüring M (2009) Beobachtungsbasierte 

Erfassung von Müdigkeit im Kfz 

– die TUBS-Skala. In: Lichtenstein A, Stößel C, Clemens 

C (Hrsg) Der Mensch im Mittelpunkt technischer 

Systeme. 8. Berliner Werkstatt Mensch-Maschine-Systeme. 

VDI, Düsseldorf, S 123–128 

8. Hammarberg B, Fritzell B, Gauffin J et al (1980) Perceptual 

and acoustic correlates of abnormal voice 

qualities. Acta Otolaryngol 90:441–451 

9. Haslam DR (1981) The military performance of soldiers 

in continuous operations. In: Johnson LC, Tepas 

DI, Colquhoun WP, Colligan MJ (Hrsg) Biological 

rhythms, sleep and shift work. SP Medical & 

Scientific Books, New York, S 217–230 

10. Harrison Y, Horne JA (1997) Sleep deprivation affects 

speech. J Sleep 20:871–877 

11. Heinze C, Trutschel U, Schnupp T et al (2009) Operator 

fatigue estimation using heart rate measures. 

World Congress on Medical Physics and Biomedical 

Engineering, IFMBE Proceeding 25(9):930–934 

12. Ingre M, Åkerstedt T, Peters B et al (2006) Subjective 

sleepiness, simulated driving performance and 

blink duration: Examining individual differences. J 

Sleep Res 15:47–53 

13. Kienast M, Sendlmeier WF (2000) Acoustical analysis 

of spectral and temporal changes in emotional 

speech. In: Sendlmeier W (Hrsg) Speech and 

signals: Aspects of speech synthesis and automatic 

speech recognition: Forum phoneticum. Hector, 

Frankfurt a. M., S 157–168 

14. Krajewski J (2008) Acoustic sleepiness analysis. 

PhD thesis. University of Wuppertal, Wuppertal 

15. Krajewski J, Kröger B (2007) Using prosodic and 

spectral characteristics for sleepiness detection. In: 

Hamme H van, Son R van (Hrsg) Interspeech proceedings. 

University Antwerp, Antwerp, S 1841– 

1844 

16. Krajewski J, Sommer D, Trutschel U et al (2009) 

Steering wheel behavior based estimating of fatigue. 

Proc Int Driv Symp Hum Factors Driv Assess 

Train Veh Des 4:118–124 

17. Laver J (1980) The phonetic description of voice 

quality. Cambridge University, Cambridge, England 

18. Levelt WJM, Roelfs A, Meyer AS (1999) A theory of 

lexical access in speech production. J Behav Brain 

Sci 22:1–75 

19. Lewis D, Yang Y, Rose T, Li F (2004) RCV1: A new 

benchmark collection for text categorization research. 

J Mach Learn Res 5:361–397 

20. Muttray A, Weirich O, Du Prel JB et al (2009) Beurteilung 

von Fahrerschläfrigkeit von Berufskraftfahrern 

mittels Videoanalyse. Arbeitsmed Sozialmed 

Umweltmed 44:114 

21. Podszus T (2007) Atmung. In: Peter H, Penzel T, 

Peter JH (Hrsg) Enzyklopädie der Schlafmedizin. 

Springer, Heidelberg, S 80–85 

22. Rabiner C, Schafer R (1978) Digital processing of 

speech signals. Prentice-Hall International, Inc. 

Englewood Cliffs, New Jersey 

23. Scherer KR (1974) Acoustic concomitants of emotional 

dimensions: Judging affect from synthesized 

tone sequences. In: Weitz S (Hrsg) Nonverbal 

communication. Oxford University, New York, S 

249–253 

24. Schnupp T, Schenka A, Edwards D et al (2009) Is 

posturography a candidate for a vigilance test? 

World Congress on Medical Physics and Biomedical 

Engineering, IFMBE Proc 25(9):388–392 

25. Schuller B, Wimmer M, Mösenlechner L et al (2008) 

Brute-forcing hierarchical functionals for paralinguistics: 

A waste of feature space? Proc IEEE Int 

Conf Acoust Speech Signal Process 33:4501–4504 

26. Sommer D, Golz M, Krajewski J (2008) Consecutive 

detection of driver’s microsleep events. In: Vander 

Sloten J, Verdonck P, Nyssen M, Haueisen J (Hrsg) 

IFMBE Proceedings 22. Springer, Berlin, S 243–247 

27. Vlasenko B, Schuller B, Wendemuth A, Rigoll G 

(2007) Combining frame and turnlevel information 

for robust recognition of emotions within speech. 

Proc Interspeech 8:2249–2252 

28. Vollrath M (1993) Mikropausen im Sprechen. Apparative 

Registrierung und psychologische Bedeutung. 

Peter Lang, Frankfurt 

29. Whitmore J, Fisher S (1996) Speech during sustained 

operations. Speech Commun 20:55–70 

30. Wilhelm B, Giedke H, Lüdtke H et al (2001) Daytime 

variations in central nervous system activation 

measured by a pupillographic sleepiness test. J 

Sleep Res 10:1–7 


31

Somnologie - Prof. Dr. Jarek Krajewski

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?