Somnologie - Prof. Dr. Jarek Krajewski
Somnologie - Prof. Dr. Jarek Krajewski
Somnologie - Prof. Dr. Jarek Krajewski
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Somnologie</strong><br />
Schlafforschung und Schlafmedizin<br />
Somnology<br />
Sleep Research and Sleep Medicine<br />
Offizielles Organ der DGSM und der ÖGSM • Official Journal of the DGSM and of the ASRA<br />
Elektronischer Sonderdruck für<br />
J. <strong>Krajewski</strong><br />
Ein Service von Springer Medizin<br />
<strong>Somnologie</strong> 2011 · 15:24–31 · DOI 10.1007/s11818-010-0497-2<br />
© Springer-Verlag 2010<br />
zur nichtkommerziellen Nutzung auf der<br />
privaten Homepage und Institutssite des Autors<br />
J. <strong>Krajewski</strong> · M. Sauerland · D. Sommer · M. Golz<br />
Phonetisch-akustische Schläfrigkeitsdetektion<br />
Eine Pilotstudie<br />
www.somnologie.springer.de
Originalien<br />
<strong>Somnologie</strong> 2010 · 15:24–31<br />
DOI 10.1007/s11818-010-0497-2<br />
Eingegangen: 4. Juni 2010<br />
Angenommen: 10. September 2010<br />
Online publiziert: 14. Oktober 2010<br />
© Springer-Verlag 2010<br />
J. <strong>Krajewski</strong> 1 · M. Sauerland 2 · D. Sommer 3 · M. Golz 3<br />
1<br />
Experimentelle Wirtschaftspsychologie, Universität Wuppertal<br />
2<br />
Psychologie der Arbeit, Universität Landau<br />
3<br />
Neuroinformatik und Signalverarbeitung, Fachhochschule Schmalkalden<br />
Phonetisch-akustische<br />
Schläfrigkeitsdetektion<br />
Eine Pilotstudie<br />
Musterkennungsbasierte<br />
Verfahrensentwicklung<br />
In der Vergangenheit wurden vielfältige<br />
Anstrengungen unternommen, Verfahren<br />
zu entwickeln, die Schläfrigkeitszustände<br />
objektiv und automatisiert quantifizieren<br />
können. Die auf ein Schläfrigkeitsmonitoring<br />
abzielenden Systeme beinhalten<br />
hauptsächlich Messkanäle wie die Instabilität<br />
der Pupillengröße [30], Lidschlüsse<br />
[12], posturographisches Gleichgewichtsverhalten<br />
[24], motorisches Verhalten<br />
[16] sowie kardiovaskuläre [11]<br />
und elektroenzephalographische Aktivität<br />
[6, 26]. Bisher ungenutzt blieben die<br />
schläfrigkeitsbezogenen Informationen<br />
aus dem stimmlichen Ausdruck. Anders<br />
als die stimmakustische Schläfrigkeitsdetektion<br />
weckte die Emotionsdetektion in<br />
den letzten Jahren ein reges Forschungsinteresse.<br />
Gründe für die wachsende Beschäftigung<br />
mit phonetisch-akustischen<br />
Stimmanalysen ist die zunehmende Präsenz<br />
von sprachlicher Mensch-Maschine-<br />
Interaktion (MMI) sowie die Entwicklung<br />
der notwendigen Prozessorleistungen und<br />
Speicherkapazitäten.<br />
Vorzüge akustischer<br />
Schläfrigkeitsmessverfahren<br />
Aus der Anwendungsperspektive laborund<br />
feldexperimenteller Schläfrigkeitsforschung<br />
besitzen akustische Messansätze<br />
prinzipiell eine Reihe von Vorzügen<br />
gegenüber bisherigen Messansätzen. Dies<br />
↓ Vokaltraktspannung<br />
(“yielding wall effect”)<br />
↑ Velumabsenkung<br />
(Verbindung zum Nasaltrakt)<br />
↓ Wärmeabstrahlung<br />
(↓ Reibungs- u.<br />
Turbulenzphänomene)<br />
↓ Stimmlippenspannung, -<br />
steifigkeit und -viskosität<br />
↓ Atemtiefe u. -frequenz<br />
gilt v. a. für ihren Einsatz als Fit-for-Duty-<br />
Schnelltest, d. h. die Primärtätigkeit wird<br />
unterbrochen und eine isolierte Testsituation<br />
hergestellt. Im Gegensatz zu elektrophysiologischen<br />
Ansätzen bietet der akustische<br />
Stimmanalyseansatz die Vorzüge<br />
eines berührungsfreien Messzugangs,<br />
der ohne die Applikation von Elektroden<br />
auskommt. Gegenüber (infrarot)kamerabasierten<br />
Systemen erlauben mikrophonbasierte<br />
Systeme einen kostengünstigen,<br />
von widrigen, wechselnden Licht- und<br />
Probandenbedingungen (Gesichtsbehaarung,<br />
schmale Lidspalten, Brille, Bildokklusionen)<br />
unbeeinflussten Messzugang.<br />
Ein weiterer Vorzug gegenüber bisherigen<br />
Fit-for-Duty-Testsystemen (z. B. Psychomotorischer<br />
Vigilanztest oder Pupillographischer<br />
Schläfrigkeitstest, 11 min Messdauer)<br />
wäre die kurze – maximal einminütige<br />
– Messstrecke.<br />
Anwendungen<br />
Im Bereich des kontinuierlichen Schläfrigkeitsmonitorings<br />
bieten sich für die<br />
akustische Schläfrigkeitsanalyse v. a. Tätigkeiten<br />
mit regelmäßigen Spracheingaben<br />
an, wie sie Z. B. im Flugverkehrskontext<br />
vorliegen. Denkbar sind darüber hinaus<br />
auch Anwendungen im Rahmen<br />
von sprachgesteuerten Mensch-Maschine-Interaktionen<br />
(MMI; z. B. Telecare-<br />
Anwendungen oder Fahrerassistenzsysteme).<br />
Zu diesem Zweck würden Fahrzeugführer<br />
im stündlichen Rhythmus zu<br />
einer kurzen Spracheingabe aufgefordert<br />
werden. Ferner könnten phonetisch-akus-<br />
zentralisierte Zungenposition,<br />
↓ Fluidität der Zungenbewegung<br />
↑ eingefallene Körperhaltung<br />
(Vokaltraktverkürzung)<br />
↓ feinmotorische Ansteuerung<br />
der Artikulatoren<br />
↓ Veränderung des<br />
Zahnreihenabstands<br />
↓ Lächeln, ↓ Lippenspreizung<br />
und -stülpung<br />
Abb. 1 8 Mögliche schläfrigkeitsbedingte Veränderungen des Sprachproduktionssystems<br />
24 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011
Zusammenfassung · Abstract<br />
tische Messkanäle zum Aufbau von (vielfach<br />
geforderten) multimodalen Messsystemen<br />
beitragen, indem sie elektrophysiologische<br />
(z. B. Elektroenzephalographie,<br />
EEG; Elektrookulographie, EOG; elektrodermale<br />
Aktivität, EDA; Elektromyographie,<br />
EMG) oder kamerabasierte Schläfrigkeitssysteme<br />
mit zusätzlichen Informationen<br />
versorgen.<br />
Schläfrigkeit und<br />
Sprachveränderungen<br />
Kognitiv-phonetisches<br />
Mediatormodell<br />
Das kognitiv-phonetische Mediatormodell<br />
verknüpft<br />
F schläfrigkeitsinduzierte kognitive Beeinträchtigungen<br />
mit<br />
F Sprachproduktionsmodellen und vermuteten<br />
Veränderungen der Stimme<br />
zu<br />
F einem Erklärungsmodell schläfrigkeitsinduzierter<br />
Sprachveränderungen<br />
[14, 15].<br />
Diese im Hypothesenkomplex des kognitiv-phonetischen<br />
Mediatormodells schläfrigkeitsinduzierter<br />
Sprachveränderung<br />
zusammengefassten kognitiven Wirkpfade<br />
haben ihren Ursprung im Sprachproduktionsmodell<br />
Levelts [18]. Parallel zu<br />
diesen kognitiven Prozessen werden auch<br />
eine Reihe physiologischer Komponenten<br />
der Sprachproduktion durch Schläfrigkeit<br />
beeinflusst (. Abb. 1).<br />
So ist wachsende Schläfrigkeit mit<br />
einer Abnahme der zentralnervösen und<br />
autonomen sympathischen Aktivierung<br />
verbunden. Damit assoziiert nehmen<br />
Herzfrequenz sowie Atemfrequenz und<br />
-tiefe ab, der Blutdruck sinkt, die Körpertemperatur<br />
fällt, und der Muskeltonus<br />
wird schwächer. Die Respirationsphase<br />
der Sprachproduktion wird daher beeinträchtigt.<br />
Dies wird über eine reduzierte<br />
Aktivität der Brustraummuskeln (Diaphragma<br />
und Mm. intercostales externi)<br />
vermittelt, die zu einem reduzierten<br />
Atemzugvolumen und einem verringerten<br />
subglottalen <strong>Dr</strong>uck führt [21].<br />
In der nächsten Phase der Sprachproduktion,<br />
der Phonation, führt der reduzierte<br />
Muskeltonus der Stimmlippenmuskulatur<br />
zu einer Abnahme der Spannung<br />
<strong>Somnologie</strong> 2010 · 15:24–31<br />
© Springer-Verlag 2010<br />
DOI 10.1007/s11818-010-0497-2<br />
J. <strong>Krajewski</strong> · M. Sauerland · D. Sommer · M. Golz<br />
Phonetisch-akustische Schläfrigkeitsdetektion. Eine Pilotstudie<br />
Zusammenfassung<br />
Das Ziel des vorliegenden Beitrags ist die<br />
Darstellung der Entwicklung und Validierung<br />
eines phonetisch-akustischen Messverfahrens<br />
zur stimmbasierten Schläfrigkeitsdetektion.<br />
Der Vorzug dieses automatisierten<br />
Mess ansatzes liegt in der belästigungsarmen,<br />
sensorapplikationsfreien Handhabung.<br />
Das hier gewählte Stimmanalyseprozedere<br />
folgt dem aus der Sprachemotionserkennung<br />
entlehnten Standardvorgehen: (1) Aufnahme<br />
des Testsatzes, (2) Berechnung von<br />
170 Prosodie, Artikulation und Stimmqualität<br />
beschreibenden Kennzahlen, (3) maschinelles<br />
Lernen und (4) Evaluation. In einer Schlafdeprivationsstudie<br />
(n=32; 20.00–04.00 Uhr)<br />
wurden insgesamt 380 simulierte Fahrerassistenzsätze<br />
aufgezeichnet. Als externer Validierungsanker<br />
diente der aus einem Selbstund<br />
2 Fremdberichten gemittelte Karolinska-<br />
Schläfrigkeitsskala (KSS) Schläfrigkeitswert.<br />
Als besonders schläfrigkeitssensitiv erwiesen<br />
sich die Merkmalsfamilien der Cepstrum-<br />
Koeffizienten, Formantbandbreiten, Intensitäten<br />
und spektralen Kenngrößen. Das beste<br />
multivariate Verfahren, die „support vector<br />
machine“, erreichte eine signifikante Validitätskorrelation<br />
von r=0,46 in der Vorhersage<br />
von Schläfrigkeit auf ungesehene Sprecher.<br />
Schlüsselwörter<br />
Phonetik · Sprachakustik · Maschinelles<br />
Lernen · Schläfrigkeit · „Support vector<br />
machine“<br />
Phonetic–acoustic sleepiness detection. A pilot study<br />
Abstract<br />
This paper describes the development and<br />
validation of a phonetic–acoustic measurement<br />
procedure for a speech-based detection<br />
of sleepiness. The advantages of this automatic<br />
real-time approach are that obtaining<br />
speech data is unobtrusive and free from<br />
sensor application and calibration efforts.<br />
The chosen measurement process follows<br />
the speech-adapted steps of pattern recognition:<br />
(1) recording speech, (2) computation of<br />
170 features describing prosody, articulation,<br />
and voice quality, (3) machine learning, and<br />
(4) evaluation. In a sleep deprivation study, a<br />
total of 380 simulated driver assistance samples<br />
(n=32; 8:00 p.m.–4:00 a.m.) were recorded.<br />
One self and two observer assessments<br />
were used to obtain a Karolinska Sleepiness<br />
Scale (KSS) value, which served as an external<br />
validation reference. Features that proved to<br />
be especially sensitive to sleepiness are cepstral<br />
coefficients, formant bandwidth, intensity,<br />
and spectral measures. The best machine<br />
learning method, the support vector machine<br />
(SVM), achieved a significant validation<br />
correlation of r=0.46 in predicting sleepiness<br />
on unseen speakers.<br />
Keywords<br />
Phonetics · Speech acoustics · Machine<br />
learning · Sleepiness · Support vector<br />
machine<br />
<strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011 |<br />
25
Originalien<br />
Tab. 1 Grundlegende phonetisch-akustische Kennzahlenfamilien und ihre Indikatorfunktion<br />
für auditiv-perzeptuelle Stimmphänomene und Vokaltraktmerkmale<br />
Akustische Beschreibungskategorie Indikatorbereich<br />
Intensität<br />
Lautstärke, Betonungsstruktur<br />
Fundamentalfrequenz (F0)<br />
Intonationsverlauf, Tonhöhe<br />
Langzeitspektrum<br />
Stimmklang, Stimmfülle, Stimmqualität<br />
Cepstrale Koeffizienten<br />
Ganzheitliche Repräsentation des Spektrums<br />
Formantpositionen (F1–F6)<br />
Artikulatorenposition (Kieferwinkel, Zungenposition)<br />
Formantbandbreiten<br />
Schwingungseigenschaften der Vokaltraktwände<br />
und Elastizität und somit zu einer Reduktion<br />
der Vibrationsrate der Stimmlippen.<br />
Darüber hinaus kann es durch eine schläfrigkeitsinduzierte<br />
verringerte Spannung<br />
des M. vocalis und eine verringerte Myoelastizität<br />
der Stimmlippen zu einem unvollständigen<br />
Stimmlippenschluss kommen<br />
– die Folge sind weiche Stimmeinsätze<br />
und eine behauchte Stimme, bei der<br />
die Stimmlippen vibrieren, aber keinen<br />
kompletten Kontakt in der Schließungsphase<br />
haben. Ferner kann es zur Knarrstimme<br />
kommen, bei der der hintere Teil<br />
der Stimmlippen während der Stimmhaftigkeit<br />
geschlossen bleibt, da aufgrund des<br />
verminderten subglottalen <strong>Dr</strong>ucks der<br />
Verschluss der Stimmlippen nicht vollständig<br />
gesprengt wird.<br />
Der verringerte Muskeltonus wirkt<br />
sich neben der Phonation auch auf die<br />
Artikulation aus. Reduzierte Präzision,<br />
Geschwindigkeit und Fluidität der Zungen-<br />
und Kieferbewegungen sowie eine –<br />
über einen gedämpften emotionalen Befindenszustand<br />
vermittelte – ausdrucksärmere<br />
Mimik verändern die Filter- und<br />
Abstrahlungscharakteristika und somit<br />
die Artikulationspräzision von schläfrigen<br />
Sprechern [10, 29]. Eine weitere mögliche<br />
Folge des verringerten Muskeltonus<br />
ist das Absinken des Velums und somit<br />
die Zuschaltung nasaler Resonanzräume,<br />
die auditiv die Wahrnehmung stimmlicher<br />
Nasalität hervorruft. Nach Laver [17]<br />
ist die „sensuous nasality“ auf eine allgemeine<br />
Entspannung des oropharyngealen<br />
Bereichs (zwischen Epiglottis und Velum)<br />
zurückzuführen. Eine schläfrigkeitsbedingte<br />
reduzierte Wärmeabstrahlung der<br />
Vokaltraktwände in den Vokaltrakt könnte<br />
Strömungsverhältnisse und Turbulenzphänomene<br />
zusätzlich beeinflussen. Auch<br />
könnte ein schläfrigkeitsbedingt reduzierter<br />
Muskeltonus die Elastizität der Vokaltraktwände<br />
erhöhen und somit zu einer<br />
Dämpfung des Schallsignals beitragen.<br />
Phonetisch-akustische<br />
Stimmanalyse<br />
Der Einsatz akustischer Kennzahlen zur<br />
Bestimmung des Befindlichkeitszustands<br />
ist schon seit vielen Jahren anvisiert [23].<br />
Aber erst mit Hilfe aktueller Prozessorleistungen<br />
ist es teilweise möglich, auditiv-perzeptuelle<br />
Höreindrücke in akustisch<br />
messbare Kennzahlen zu überführen.<br />
Beispiele für die Prosodie-, Artikulations-<br />
und Stimmqualitätsphänomene<br />
beschreibenden akustischen Merkmale<br />
sind in . Tab. 1 aufgeführt und werden<br />
im Folgenden näher erläutert.<br />
Intensität<br />
Zur Bestimmung der Lautstärke werden<br />
die quadrierten Beträge der Signalamplitude<br />
aufsummiert. Wichtig ist bei der<br />
Messung von intensitätsbezogenen Lautstärkegrößen,<br />
dass Aufnahmerichtung<br />
und Mikrophondistanz annähernd konstant<br />
gehalten werden (wie in Fahrzeugszenarien<br />
umgesetzt) oder nur normalisierte<br />
Änderungen der Energie berechnet<br />
werden. Abgleitet aus dem Intensitätsverlauf<br />
ist das stimmqualitätbeschreibende<br />
Shimmer-Merkmal, das eine prozentuelle<br />
Bewertung der Peak-zu-Peak-Variabilität<br />
der Intensität leistet.<br />
Grundfrequenz (F0)<br />
Zur Bestimmung der Tonhöhe (Vibrationsrate<br />
der Stimmlippen) und Sprechmelodie<br />
wird die Grundfrequenz über das<br />
Maximum der Autokorrelationsfunktion<br />
berechnet [5]. Die Sprachgrundfrequenz<br />
(auch Fundamentalfrequenz, F0) ist das<br />
akustische Korrelat zur perzeptiv wahrgenommenen<br />
Tonhöhe einer Äußerung<br />
(Pitch).<br />
Spektrale Kenngrößen<br />
Die Quotienten der spektralen Leistungsdichte<br />
(„power spectral density“, PSD) diverser<br />
Frequenzbänder, die Verhältnisse<br />
der Energien einzelner Harmonischer<br />
zur Gesamtenergie (Harmonics-to-Noise-Ratio)<br />
und die Regressionssteigung<br />
der Energieverteilung im Frequenzbandbereich<br />
über 1 kHz prägen im Wesentlichen<br />
den Stimmqualitätseindruck. So<br />
ist die Klangfarbe z. B. abhängig von der<br />
Teiltonstruktur sowie der Anzahl und der<br />
Stärke der im Klang enthaltenen Obertöne.<br />
In diesem Sinn indiziert eine große<br />
Anzahl an Obertönen eine tragfähige<br />
Stimme. Energiekonzentrationen in hohen<br />
Frequenzen hingegen erzeugen einen<br />
hellen Stimmklang.<br />
Ferner dient die Charakterisierung des<br />
spektralen Leistungsdichteverlaufs über<br />
Hammarberg-Indizes [8] zur Abschätzung<br />
der Stimmqualität.<br />
F Hammarberg 1: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD der F0;<br />
F Hammarberg 2: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD an der Frequenzposition<br />
von 1600 Hz;<br />
F Hammarberg 3: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD an der Frequenzposition<br />
von 5000 Hz;<br />
F Hammarberg 4: Maximum der PSD<br />
im Frequenzband von 400 bis 600 Hz<br />
minus PSD an der Frequenzposition<br />
über 5000 Hz.<br />
Cepstrum-Koeffizienten<br />
Ziel der routinemäßig in der Sprachemotionserkennung<br />
zum Einsatz kommenden<br />
Berechnung der Mel-Frequenz-<br />
Cepstrum-Koeffizienten („Mel frequency<br />
cepstral coefficients“, MFCCs; [1]) ist<br />
es, das abgestrahlte Sprachsignal in das<br />
ursprüngliche Stimmlippen-Anregungssignal<br />
und ein die sprecherspezifischen<br />
Eigenschaften des Vokaltrakts repräsentierendes<br />
Signal zu trennen. Ein wichtiges<br />
Charakteristikum der Cepstrum-Koeffizienten<br />
ist die Unkorreliertheit ihrer Ko-<br />
26 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011
effizienten, die einen redundanzarmen<br />
eigenständigen informatorischen Gehalt<br />
der Kennzahlen sichert. Die MFCCs liefern<br />
über die Spektralzerlegung des Amplitudenspektrums<br />
(„Spektrum des Spektrums“)<br />
eine holistische Repräsentation<br />
des Spektrums, die über die Transformation<br />
in die Mel-Frequenzskala eine Nachbildung<br />
der Frequenz-Orts-Transformation<br />
im menschlichen Gehör vornimmt.<br />
Peaks im Cepstrum korrespondieren mit<br />
den Harmonischen des Leistungsspektrums.<br />
Formantenposition<br />
Zu den wichtigsten stimmlichen Kennzahlen<br />
zählen die Resonanzfrequenzen<br />
des Vokaltrakts (Maxima der Transferfunktion<br />
des Vokaltrakts), die Formanten.<br />
Sie sind sensitiv für kleine Veränderungen<br />
der Vokaltraktform, wie sie durch<br />
Veränderung des Kieferöffnungswinkels,<br />
der Lage des Zungenkörpers, des Zungenspitzenwinkels,<br />
der relativen Lippenhöhe,<br />
der Lippenstülpung oder der Oberkörperkrümmung<br />
bewirkt werden. In diesem<br />
Zusammenhang sind die Lage der ersten<br />
5 Formanten (F1–F5) sowie ihr Bezug zu<br />
phonetischen Normwerten (Formantenpräzision)<br />
typische Kenngrößen [13].<br />
Formantenbandbreite<br />
Bei der Berechnung der Formantenbandbreite<br />
wird der Frequenzbereich um einen<br />
Peak ermittelt, in dem das Signal 3 dB an<br />
Energie verliert. Je kleiner die spektrale<br />
Bandbreite ist, desto konzentrierter die<br />
Energieverteilung im Signal. Somit enthält<br />
die Bandbreite wichtige Informationen<br />
zur Dämpfung und damit zum Energieverlust<br />
des akustischen Signals im Vokaltrakt.<br />
Je entspannter die Vokaltraktmuskulatur<br />
und je stärker die Vokaltraktwände<br />
vom Sprachsignal angeregt mitschwingen<br />
(„yielding wall effect“; [23]), je<br />
weniger schallhart diese Wände also sind,<br />
umso mehr verliert das Signal an Energie<br />
und umso größer wird die Formantenbandbreite.<br />
Schalldruck<br />
Frequenz (Hz)<br />
0,4<br />
0,2<br />
0<br />
-0,2<br />
-0,4<br />
0<br />
5000<br />
4000<br />
3000<br />
2000<br />
1000<br />
Auditive und akustische<br />
Korrelate der Schläfrigkeit<br />
Die ersten dokumentierten Untersuchungen<br />
beschäftigten sich mit der Analyse<br />
einzelner auditiver (über den Höreindruck<br />
eingeschätzter, nicht automatisiert<br />
erfasster) Schläfrigkeitskorrelate. Dokumentiert<br />
wurde eine abgeflachte Intonation,<br />
reduzierte Wortflüssigkeit und verlängerte<br />
Wortdauer [9, 29]. Auf phonbasierter<br />
Ebene fand Vollrath [28] eine<br />
Aufweichung (Lenisierung) der Stimme.<br />
Die bisherigen Forschungsbemühungen<br />
zur Entwicklung phonetisch-akustischer<br />
Schläfrigkeitsinstrumente blieben bis jetzt<br />
jedoch auf anekdotischen und bezüglich<br />
einer automatisierten ausreichend messgenauen<br />
Perspektive auf eher rudimentärem<br />
Niveau. Ziel dieses Beitrags ist es daher,<br />
ein diese Defizite aufarbeitendes, aus<br />
der Sprachemotionserkennung entlehntes<br />
Analyseprozedere zur Detektion kritischer<br />
Schläfrigkeitszustände anzuwenden<br />
[1, 4, 27].<br />
Methode<br />
0,2<br />
0,4<br />
wach<br />
0 0,2 0,4 0,6 0,8 1 1,2 1,4<br />
Zeit (s)<br />
Stichprobe, Prozedere<br />
und Instrumente<br />
0,6 0,8 1 1,2 1,4<br />
Zeit (s)<br />
Die 32 (17 w., 15 m.) freiwillig an der<br />
Studie teilnehmenden Probanden<br />
(24,64±4,32 Jahre) wurden instruiert, ihre<br />
normalen Schlafgewohnheiten und ihr<br />
normales Schlafverhalten beizubehalten.<br />
Schalldruck<br />
Frequenz (Hz)<br />
0,4<br />
0,2<br />
0<br />
-0,2<br />
-0,4<br />
0<br />
5000<br />
4000<br />
3000<br />
2000<br />
1000<br />
0,2<br />
0,4<br />
schläfrig<br />
0,6 0,8 1 1,2 1,4<br />
Zeit (s)<br />
0 0,2 0,4 0,6 0,8 1 1,2 1,4<br />
Zeit (s)<br />
Abb. 2 8 Waveform und Spektrogramm und des Satzes „Rufen Sie den Notdienst an“ für einen wachen<br />
(links; Karolinska-Schläfrigkeitsskala, KSS: 4) und einen schläfrigen Sprecher (rechts; KSS: 8). Weiß<br />
hohe spektrale Leistungsdichten (PSD, „power spectral density“), schwarz niedrige PSD<br />
Als Exklusionskriterien fungierten ernsthafte<br />
Schlafstörungen oder Schlafprobleme<br />
(PSQI >5). Die Studie folgte einem<br />
Within-Subject-Design mit partieller<br />
Schlafdeprivation (20.00–04.00 Uhr).<br />
Während der Nacht der Schlafdeprivation<br />
wurde ein gut etabliertes und standardisiertes<br />
Schläfrigkeitsmessinstrument,<br />
die Karolinska-Schläfrigkeitsskala<br />
(KSS), von den Probanden (Selbstbeurteilung)<br />
und zusätzlich von 2 Versuchsassistenten<br />
(Fremdbeurteilung) unmittelbar<br />
vor den Sprachaufnahmen angewendet.<br />
In der hier verwendeten Version reichen<br />
die Scores von 1 bis 10: äußerst wach<br />
(1), weder wach noch schläfrig (5), äußerst<br />
schläfrig, kann nicht wach bleiben (10).<br />
Als Hilfestellung zur Beurteilung wurde,<br />
wie in beobachtungsbasierten Schläfrigkeitsmessverfahren<br />
üblich [20], eine Liste<br />
mit möglichen Schläfrigkeitsindikatoren<br />
wie Manierismen, Lidschlussverhalten,<br />
Blickbewegungen und fehlender gestischer<br />
oder mimischer Aktivität verteilt.<br />
Um die Reliabilität der Messung über<br />
Messwiederholungen zu erhöhen, wurden<br />
im Einklang mit dem in der Sprachemotionsforschung<br />
üblichen Standardvorgehen<br />
[1, 2, 3, 4, 25, 27] jeweils 3 KSS-Scores<br />
(eine Selbstbeurteilung und 2 Fremdbeurteilungen)<br />
ungewichtet gemittelt („intraclass<br />
correlation“: 0,86). Im Lauf der<br />
Nacht war der Aufenthalt der Probanden<br />
auf das Labor beschränkt, wo sie während<br />
der gesamten Dauer beaufsichtigt wur-<br />
<strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011 |<br />
27
Originalien<br />
Tab. 2 Phonetisch-akustische Korrelate von Schläfrigkeit<br />
Stimmmerkmale r Stimmmerkmale r<br />
Fundamentalfrequenz, Regressionssteigung<br />
−0,26 ** Intensität, Mittelwert −0,23 **<br />
Formant 1, zeitliche Position des Minimums<br />
0,22 ** Intensität, Maximum −0,22 **<br />
Formant 2, Standardabweichung −0,20 ** Intensität, 25. Perzentil −0,21 **<br />
Formant 2, zeitliche Position des Minimums<br />
0,18 ** Intensität, 75. Perzentil −0,24 **<br />
Formant 4, Standardabweichung −0,20 ** Intensität, zeitliche Position des Maximums<br />
0,26 **<br />
Formant 5, zeitliche Position des Minimums<br />
0,21 ** Intensität, relative zeitliche Position 0,20 **<br />
des Minimums<br />
Formant 5, Standardabweichung −0,19 ** Mel-Frequenz-Cepstrum-Koeffizient 1 −0,32 **<br />
Formant 1, Bandbreite, 50. Perzentil 0,25 ** Mel-Frequenz-Cepstrum-Koeffizient 2 −0,26 **<br />
Formant 1, Bandbreite, Position −0,20 ** Mel-Frequenz-Cepstrum-Koeffizient 3 −0,31 **<br />
Formant 2, Bandbreite, 25. Perzentil 0,21 ** Mel-Frequenz-Cepstrum-Koeffizient 4 0,20 **<br />
Formant 2, Bandbreite, 50. Perzentil −0,19 ** Mel-Frequenz-Cepstrum-Koeffizient 5 −0,29 **<br />
Formant 3, Bandbreite, Standardabweichung<br />
−0,21 ** Mel-Frequenz-Cepstrum-Koeffizient 12 0,26 **<br />
Langzeitspektrum, Minimum 0,22 ** Maximum der PSD im Frequenzband −0,23 **<br />
0–2000 Hz<br />
Langzeitspektrum, Maximum −0,23 ** Maximum der PSD im Frequenzband −0,23 **<br />
2000–5000 Hz<br />
Langzeitspektrum, Standardabweichung −0,26 ** Maximum der PSD 0–2000 Hz minus −0,23 **<br />
Maximum der PSD 2000–5000 Hz<br />
*<br />
p
Originalien<br />
KSS: Referenz<br />
10<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
1 2 3 4 5 6 7<br />
KSS: Akustischer Messwert<br />
nachgewiesen werden (r KSS-Maxium der Intensität<br />
=−0,22; r KSS-Median der Formant-2-Bandbreite<br />
=0,27) und gehört zu den 30 stimmlichen<br />
Merkmalen mit dem stärksten linear-korrelativen<br />
Zusammenhang zur gemessenen<br />
Schläfrigkeit. Die 5 schläfrigkeitssensitivsten<br />
Merkmale hingegen sind<br />
F MFCC 1 =−0,32;<br />
F MFCC 3 =−0,31;<br />
F 25. Perzentil der Formant-2-Bandbreite<br />
=0,30;<br />
F MFCC 5 =−0,29 und<br />
F 50. Perzentil der Formant-2-Bandbreite<br />
=0,27.<br />
Ergebnisse des<br />
maschinellen Lernens<br />
Um die multivariate Vorhersageperformanz<br />
durch Kombination vieler Einzelmerkmale<br />
zu optimieren, wurden Standardverfahren<br />
der Sprachemotionserkennung<br />
angewendet. Die jeweils erzielten<br />
mittleren absoluten Abweichungen („median<br />
absolute deviation“, MAD) zwischen<br />
vorhergesagten und realen KSS-Schläfrigkeitswerten<br />
sowie ihre korrespondierenden<br />
Validitätskorrelationen sind im Folgenden<br />
aufgeführt:<br />
F lineare Regression, MAD=1,91,<br />
r=0,32 ** ;<br />
F künstliches neuronales Netz („multilayer<br />
perceptron“, 2 verdeckte Schichten,<br />
je 5 „perceptrons“ pro Schicht),<br />
MAD=1,87, r=0,40 ** ;<br />
F SVM (radialer Kernel, γ=1, C=0),<br />
MAD=1,69, r=0,46 ** (p5,5).<br />
Die genaueste Modellierung der über<br />
selbst- und fremdberichtete Schläfrigkeit<br />
geschätzten „ground truth“ konnte, wie<br />
schon in anderen Benchmarkingstudien<br />
gezeigt wurde, über SVM erzielt werden.<br />
Sowohl lineare Regression als auch künstliche<br />
neuronale Netze erzielten schlechtere<br />
Modellanpassungen.<br />
Limitationen und<br />
Forschungsdesiderate<br />
Eine Reihe von Sachverhalten limitieren<br />
die Aussagekraft und Generalisierbarkeit<br />
unserer Ergebnisse. Die Hauptkritik<br />
bezieht sich auf die Wahl der angewandten<br />
Grundgenauigkeit. Die verwendete<br />
Fusion von Selbstbericht und 2 Beobachterberichten<br />
zur Messung könnten<br />
wegen ihrer (semi)subjektiven Natur kritisiert<br />
werden. Zukünftige Studien könnten<br />
das hier gewählte Konsensusprozedere<br />
mit weiteren physiologischen Schläfrigkeitsindikatoren<br />
anreichern. Insbesondere<br />
die in Kürze zu erwartenden EEG-/<br />
EOG-basierten Goldstandardverfahren<br />
[26] könnten zu einer wichtigen Ergänzung<br />
des hier gewählten Validitätsansatzes<br />
beitragen. Eine weitere Optimierung<br />
könnte über<br />
F eine differenziertere Beobachtungsskala<br />
[7, 20],<br />
F einen erhöhten Raterumfang (in<br />
der Sprachemotionserkennung wer-<br />
30 | <strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011
den 5–10 Rater zur Bestimmung der<br />
„ground truth“ genutzt) und<br />
F einen prototypbasierten Ansatz (Vorselektion<br />
der Fälle mit Konkordanz<br />
aller Validierungsinstrumente) erzielt<br />
werden.<br />
Vor dem Hintergrund der genannten Einschränkungen<br />
müssen die Validierungsergebnisse<br />
als vorläufig interpretiert werden.<br />
Replikationen mit umfangreichen<br />
und diversifizierten Probandenkollektiven<br />
sind wichtig, um die für einen breiten<br />
Einsatz notwendige Evidenzgrundlage<br />
aufzubauen. Zudem sollten zukünftige<br />
Forschungsbemühungen die Weiterentwicklung<br />
der phonetisch-akustischen<br />
Schläfrigkeitsanalyse insbesondere<br />
über die Anwendung diverser Mustererkennungs-<br />
und Machine-Learning-Verfahren<br />
(„support vector machine“) sowie<br />
über eine geschlechtsspezifische Modellierung<br />
angehen.<br />
Fazit für die Praxis<br />
F Die anwendungspraktische Bedeutung<br />
des vorgestellten Verfahrens<br />
liegt darin, dass für moderate Nebengeräuschbedingungen<br />
eine Messung<br />
von Schläfrigkeit insbesondere im<br />
mittleren und starken Schläfrigkeitsbereich<br />
umgesetzt werden kann.<br />
F Diese Messung kann bislang jedoch<br />
nur als Fit-for-Duty-Testsituation realisiert<br />
werden.<br />
Korrespondenzadresse<br />
<strong>Prof</strong>. <strong>Dr</strong>. J. <strong>Krajewski</strong><br />
Experimentelle Wirtschaftspsychologie,<br />
Universität Wuppertal<br />
Gaußstraße 20, 42097 Wuppertal<br />
Deutschland<br />
krajewsk@uni-wuppertal.de<br />
Interessenkonflikt. Der korrespondierende Autor<br />
gibt an, dass kein Interessenkonflikt besteht.<br />
Literatur<br />
1. Batliner A, Steidl S, Schuller B et al (2011) Whodunnit<br />
– searching for the most important feature<br />
types signalling emotion-related user states in<br />
speech. Computer Speech Language 25:4–28 (in<br />
press)<br />
2. Batliner A, Steidl S, Nöth E (2008) Releasing a thoroughly<br />
annotated and processed spontaneous<br />
emotional database: The FAU Aibo Emotion Corpus.<br />
In: Devillers L, Martin J-C, Cowie R et al. (eds)<br />
Proc. of a satellite workshop of LREC 2008 on corpora<br />
for research on emotion and affect (Workshop<br />
on Corpora for Research on Emotion and Affect<br />
Marrakesh 26.5.2008). LREC 2008, Marrakesh,<br />
pp 28–31<br />
3. Batliner A, Steidl S, Schuller B et al (2006) Combining<br />
efforts for improving automatic classification<br />
of emotional user states. In: Erjavec T, Gros JZ<br />
(Hrsg) Language technologies, IS-LTC 2006. Infornacijska<br />
<strong>Dr</strong>uzba, Ljubljana, Slovenia, S 240–245<br />
4. Batliner A, Seppi D, Steidl S, Schuller B (2010) On<br />
the impact of childrens emotional speech on<br />
acoustic and language models. EURASIP J Audio<br />
Speech Music Process, doi:10.1155/2010/783954<br />
5. Boersma P (2001) PRAAT, a system for doing phonetics<br />
by computer. Glot Int 5:341–345<br />
6. Davidson PR, Jones RD, Peiris MT (2007) EEG-based<br />
behavioral microsleep detection with high temporal<br />
resolution. IEEE Trans Biomed Eng 54:832–839<br />
7. Dittrich E, Brandenburg S, Thüring M (2009) Beobachtungsbasierte<br />
Erfassung von Müdigkeit im Kfz<br />
– die TUBS-Skala. In: Lichtenstein A, Stößel C, Clemens<br />
C (Hrsg) Der Mensch im Mittelpunkt technischer<br />
Systeme. 8. Berliner Werkstatt Mensch-Maschine-Systeme.<br />
VDI, Düsseldorf, S 123–128<br />
8. Hammarberg B, Fritzell B, Gauffin J et al (1980) Perceptual<br />
and acoustic correlates of abnormal voice<br />
qualities. Acta Otolaryngol 90:441–451<br />
9. Haslam DR (1981) The military performance of soldiers<br />
in continuous operations. In: Johnson LC, Tepas<br />
DI, Colquhoun WP, Colligan MJ (Hrsg) Biological<br />
rhythms, sleep and shift work. SP Medical &<br />
Scientific Books, New York, S 217–230<br />
10. Harrison Y, Horne JA (1997) Sleep deprivation affects<br />
speech. J Sleep 20:871–877<br />
11. Heinze C, Trutschel U, Schnupp T et al (2009) Operator<br />
fatigue estimation using heart rate measures.<br />
World Congress on Medical Physics and Biomedical<br />
Engineering, IFMBE Proceeding 25(9):930–934<br />
12. Ingre M, Åkerstedt T, Peters B et al (2006) Subjective<br />
sleepiness, simulated driving performance and<br />
blink duration: Examining individual differences. J<br />
Sleep Res 15:47–53<br />
13. Kienast M, Sendlmeier WF (2000) Acoustical analysis<br />
of spectral and temporal changes in emotional<br />
speech. In: Sendlmeier W (Hrsg) Speech and<br />
signals: Aspects of speech synthesis and automatic<br />
speech recognition: Forum phoneticum. Hector,<br />
Frankfurt a. M., S 157–168<br />
14. <strong>Krajewski</strong> J (2008) Acoustic sleepiness analysis.<br />
PhD thesis. University of Wuppertal, Wuppertal<br />
15. <strong>Krajewski</strong> J, Kröger B (2007) Using prosodic and<br />
spectral characteristics for sleepiness detection. In:<br />
Hamme H van, Son R van (Hrsg) Interspeech proceedings.<br />
University Antwerp, Antwerp, S 1841–<br />
1844<br />
16. <strong>Krajewski</strong> J, Sommer D, Trutschel U et al (2009)<br />
Steering wheel behavior based estimating of fatigue.<br />
Proc Int <strong>Dr</strong>iv Symp Hum Factors <strong>Dr</strong>iv Assess<br />
Train Veh Des 4:118–124<br />
17. Laver J (1980) The phonetic description of voice<br />
quality. Cambridge University, Cambridge, England<br />
18. Levelt WJM, Roelfs A, Meyer AS (1999) A theory of<br />
lexical access in speech production. J Behav Brain<br />
Sci 22:1–75<br />
19. Lewis D, Yang Y, Rose T, Li F (2004) RCV1: A new<br />
benchmark collection for text categorization research.<br />
J Mach Learn Res 5:361–397<br />
20. Muttray A, Weirich O, Du Prel JB et al (2009) Beurteilung<br />
von Fahrerschläfrigkeit von Berufskraftfahrern<br />
mittels Videoanalyse. Arbeitsmed Sozialmed<br />
Umweltmed 44:114<br />
21. Podszus T (2007) Atmung. In: Peter H, Penzel T,<br />
Peter JH (Hrsg) Enzyklopädie der Schlafmedizin.<br />
Springer, Heidelberg, S 80–85<br />
22. Rabiner C, Schafer R (1978) Digital processing of<br />
speech signals. Prentice-Hall International, Inc.<br />
Englewood Cliffs, New Jersey<br />
23. Scherer KR (1974) Acoustic concomitants of emotional<br />
dimensions: Judging affect from synthesized<br />
tone sequences. In: Weitz S (Hrsg) Nonverbal<br />
communication. Oxford University, New York, S<br />
249–253<br />
24. Schnupp T, Schenka A, Edwards D et al (2009) Is<br />
posturography a candidate for a vigilance test?<br />
World Congress on Medical Physics and Biomedical<br />
Engineering, IFMBE Proc 25(9):388–392<br />
25. Schuller B, Wimmer M, Mösenlechner L et al (2008)<br />
Brute-forcing hierarchical functionals for paralinguistics:<br />
A waste of feature space? Proc IEEE Int<br />
Conf Acoust Speech Signal Process 33:4501–4504<br />
26. Sommer D, Golz M, <strong>Krajewski</strong> J (2008) Consecutive<br />
detection of driver’s microsleep events. In: Vander<br />
Sloten J, Verdonck P, Nyssen M, Haueisen J (Hrsg)<br />
IFMBE Proceedings 22. Springer, Berlin, S 243–247<br />
27. Vlasenko B, Schuller B, Wendemuth A, Rigoll G<br />
(2007) Combining frame and turnlevel information<br />
for robust recognition of emotions within speech.<br />
Proc Interspeech 8:2249–2252<br />
28. Vollrath M (1993) Mikropausen im Sprechen. Apparative<br />
Registrierung und psychologische Bedeutung.<br />
Peter Lang, Frankfurt<br />
29. Whitmore J, Fisher S (1996) Speech during sustained<br />
operations. Speech Commun 20:55–70<br />
30. Wilhelm B, Giedke H, Lüdtke H et al (2001) Daytime<br />
variations in central nervous system activation<br />
measured by a pupillographic sleepiness test. J<br />
Sleep Res 10:1–7<br />
<strong>Somnologie</strong> - Schlafforschung und Schlafmedizin 1 · 2011 |<br />
31