Unser Gehirn verknüpft Gesicht und Stimme - Schnecke Online

FORSCHUNG | WISSENSCHAFT 

Unser Gehirn verknüpft Gesicht und Stimme 

Absehen von den Lippen: neue Erkenntnisse zur Gesichts-/Stimmerkennung 

Während wir mit anderen Menschen sprechen, verbinden wir ständig 

Informationen von Gesicht und Stimme, um die Identität unseres 

Gesprächspartners zu erkennen und seine Sprachnachricht zu 

verstehen. Selbst wenn wir eine Person nur sprechen hören, aktiviert 

das Gehirn gelernte Assoziationen des Gesichts, um die Stimmerkennung 

zu verbessern. Das ist möglich, weil Gesichts- und 

Stimmerkennungsareale direkt miteinander verknüpft sind. Umgekehrt 

werden akustische Vorinformationen genutzt, um die visuelle 

Sprachverarbeitung, etwa beim Lippenlesen, zu verbessern. 

Stimmen wiedererkennen, werden im Gehirn Areale 

aktiviert, die beim Erkennen von Gesichtern eine zentrale 

Rolle spielen [1, 2]. Auch im Bereich der Sprachverarbeitung 

gibt es Beispiele für solche Verbindungen 

zwischen Hören und Sehen. So wurde gezeigt, dass 

beim Lippenabsehen Gehirnareale aktiviert werden, 

die vorrangig akustische Information verarbeiten [3]. 

Wie wir Gesichter nutzen, um Stimmen zu erkennen 

In traditionellen kognitiven Modellen wurde die Personenerkennung 

als ein hierarchischer Verarbeitungsprozess 

beschrieben, der mit einer für visuelle und 

akustische Informationen getrennt ablaufenden Analyse 

des sensorischen Inputs beginnt (Abb. 1). Daraufhin 

würden Gesichter und Stimmen erkannt und Gefühle 

der Vertrautheit ausgelöst. Erst in einem späteren Stadium, 

nachdem die Identität der Person bereits erkannt 

sei, würde die Information von Gesicht und Stimme zusammengeführt. 

Dem widersprachen jedoch neuere 

Ergebnisse aus Studien mithilfe funktioneller Magnetresonanztomografie, 

in denen gezeigt wurde, dass 

beim Erkennen bekannter Stimmen Hirnareale aktiv 

werden, die eigentlich Gesichter verarbeiten. Ein gesichtssensitives 

Areal (englisch: Fusiform Face Area 

Abb. 2: Zwischen zwei Stimmerkennungsarealen (blaue und rote Kugel) 

und dem Gesichtserkennungsareal (gelb) bestehen direkte strukturelle 

Verbindungen. Für allgemeinere akustische Informationen ist das zuständige 

Areal (grün) weniger stark ausgebildet. © MPI 

Abb. 1: Modell für die Verarbeitung von Gesichtern und Stimmen während 

zwischenmenschlicher Kommunikation. © MPI 

Warum Stimme und Gesicht so wichtig sind 

Zwei Prozesse sind von entscheidender Bedeutung für 

unsere tägliche Interaktion und Kommunikation mit 

anderen Menschen: Wir müssen die Identität unseres 

Gesprächspartners erkennen und seine Sprachnachricht 

verstehen. In unserer alltäglichen Kommunikation 

stehen uns dafür in der Regel sowohl Gesichts- als 

auch Stimminformationen zur Verfügung (Abb. 1). Das 

ist jedoch nicht immer der Fall: Heute kommunizieren 

wir regelmäßig mithilfe technischer Hilfsmittel, z.B. 

über Handy, Telefon oder Internet. Zudem befinden wir 

uns häufig in lauten Umgebungen, in denen Hintergrundgeräusche 

die Kommunikation erschweren, wie 

etwa auf Partys oder im Straßenverkehr. In diesen Situationen 

können wir Identität und Sprachinformationen 

in erster Linie von nur einer Sinnesmodalität, das 

heißt, entweder von der Stimme oder von dem Gesicht 

ableiten. Studien haben jedoch gezeigt, dass unser Gehirn 

selbst unter diesen Bedingungen Informationen 

aus beiden Modalitäten nutzen kann. Beispielsweise 

können wir Stimmen ohne zusätzliche visuelle Information 

besser identifizieren, wenn uns das Gesicht des 

Sprechers bekannt ist. Dafür gibt es auch eine neurowissenschaftliche 

Erklärung: Während wir vertraute 

oder FFA) erwies sich als funktionell gekoppelt mit Arealen 

im oberen Temporallappen, dem Superior Temporal 

Sulcus oder STS, die bei der Stimmerkennung involviert 

sind [2]. Das weist darauf hin, dass Gesichts- und 

Stimmerkennung schon auf niedriger Verarbeitungsebene 

interagieren (vgl. Abb. 1 B/D). 

Mithilfe der Traktografie – einer mathematischen Modellierungstechnik, 

die es ermöglicht, den Verlauf von 

Nervenfaserbündeln des Gehirns sichtbar zu machen – 

konnten später auch auf anatomischer Ebene direkte 

Verbindungen zwischen FFA und STS nachgewiesen werden 

(Abb. 2) [5]. Stark ausgeprägt waren besonders die 

Verbindungen der FFA zu den für die Erkennung der 

Stimmidentität zuständigen mittleren und vorderen Tei- 

44 | Schnecke 81 | September 2013

FORSCHUNG | WISSENSCHAFT 

len des STS. Zu Arealen im hinteren STS, die eher akustische 

Merkmale der Stimme extrahieren, war die Verbindung 

schwächer ausgeprägt. Die Nervenfaserbahnen 

scheinen also tatsächlich vorrangig dem Informationsaustausch 

zwischen auditorischer und visueller Personenerkennung 

zu dienen. Diese Erkenntnisse erweitern 

die traditionellen Modelle der Personenerkennung und 

erklären, auf welche Weise gelernte Assoziationen von 

Gesichtern und Stimmen bei der Personenerkennung 

selbst dann zusammen genutzt werden können, wenn 

nur Informationen aus einer Sinnesmodalität zur Verfügung 

stehen. Im Alltag könnte uns dies dabei helfen, 

vertraute Personen schnell und unter widrigen Bedingungen 

zu identifizieren. 

Wie wir akustische Informationen nutzen, um das 

Absehen von den Lippen zu verbessern 

Auch bei der Sprachverarbeitung verwenden wir wenn 

möglich visuelle Information, um unser Sprachverständnis 

zu unterstützen [6], z.B. mit dem Absehen von den 

Lippen. Dabei handelt es sich um einen sehr anspruchsvollen 

Prozess, bei dem es große individuelle Unterschiede 

gibt. Die Fähigkeit, von den Lippen abzusehen, kann 

einerseits durch zusätzliche akustische Informationen 

verbessert und beeinflusst werden, andererseits durch 

visuelle Vorinformationen, indem man z.B. auf den 

Gegenstand zeigt, über den gesprochen wird. 

Im Gehirn ist ein Netzwerk von Regionen für das Lippenabsehen 

relevant. Eine Region im linken hinteren 

STS scheint besonders wichtig für den Abgleich von 

visueller und akustischer Information zu sein: Sie 

Personenerkennung und des Verstehens von Sprache 

eng zusammen. Studien der letzten Jahre haben das 

Wissen über die zugrunde liegenden Prozesse vermehrt. 

Die Ergebnisse können dazu beitragen, Defizite in der 

Personenerkennung, wie etwa Prosopagnosie oder 

Phonagnosie, die Unfähigkeit, andere an Gesicht oder 

Stimme zu erkennen, besser zu verstehen. Im weiteren 

Bereich der klinischen Anwendung könnten sie zur 

Entwicklung wirksamer Behandlungen und Kompensationsstrategien 

für hörgeschädigte Menschen beitragen. 

Literatur 

[1] von Kriegstein, K.; Dogan, O.; Gruter, M.; Giraud, A. L.; 

Kell, C. A.; Gruter, T.; et al., Simulation of talking faces in the 

human brain improves auditory speech recognition, Proceedings 

of the National Academy of Sciences USA 105, 6747-6752 (2008). [2] 

von Kriegstein, K.; Giraud, A. L. Implicit multisensory associations 

influence voice recognition, PLoS Biology 4(10), e326 (2006). 

[3] Calvert, G. A.; Bullmore, E. T.; Brammer, M. J.; Campbell, 

R.; Williams, S. C.; McGuire, P. K.; et al., Activation of auditory 

cortex during silent lipreading, Science 276, 593-596 (1997). [4] Bruce, 

V.; Young, A., Understanding face recognition, British Journal 

of Psychology 77, 305-327 (1986). [5] Blank, H.; Anwander, A.; von 

Kriegstein, K., Direct structural connections between voice- and 

face-recognition areas, The Journal of Neuroscience 31, 12906- 

12915 (2011). 6] Sumby, W. H.; Pollack, I., Visual contribution to 

speech intelligibility in noise, Journal of the Acoustical, Society of 

America 26, 212-215 (1954). [7] Blank, H.; von Kriegstein, K., Mechanisms 

of enhancing visual-speech recognition by prior auditory 

information, Neuroimage 65C, 109-118 (2012) © 2003-2013, Max- 

Planck-Gesellschaft, München. 

Dr. Helen Blank 

Prof. Dr. Katharina von Kriegstein 

Max-Planck-Institut für 

Kognitions- und Neurowissenschaften Leipzig 

Stephanstr. 1a, 04103 Leipzig 

Erklärungen der Fachbegriffe 

im Glossar auf Seite 9 

Abb. 3: Ein Areal im linken „Superior Temporal Sulcus“ (STS, blau) reagierte 

mit erhöhter Aktivität, wenn beim Lippenlesen die Mundbewegung nicht 

mit erwarteten Wörtern zusammenpasste. Es war funktionell mit einem 

auditorischen Sprachareal im vord./mittleren STS (rot) verbunden. © MPI 

zeigt erhöhte Aktivität, wenn akustische Vorinformation 

nicht mit der visuellen Sprachinformation übereinstimmt. 

Bei besseren Lippenlesern fällt dieses Fehlersignal 

besonders stark aus (Abb. 3) [7]. Interessant ist, 

dass auch hier zwischen auditorischen und visuellen 

Spracharealen im STS eine funktionelle Verbindung besteht. 

Auch in diesem Fall könnten direkte Verbindungen 

zwischen auditorischen und visuellen Arealen es 

unserem Gehirn ermöglichen, Vorinformationen zu 

nutzen, um Lippenabsehen zu optimieren. 

Wie wir dieses Wissen nutzen können 

Hirnregionen, die auf die Verarbeitung von Stimmen 

und Gesichtern spezialisiert sind, arbeiten während der 

Dr. Helen Blank, Doktorandin Max-Planck- 

Forschungsgruppe „Neuronale Mechanismen 

zwischenmenschlicher Kommunikation“; 

2004-2009 Psychologiestudium Westfälische 

Wilhelms-Univ. Münster; 2009-2013 Promotion 

am Max-Planck-Institut für Kognitionsund 

Neurowissenschaften in Leipzig; seit 

2013 PostDoc-Stelle an der Cognitive Brain 

Sciences Unit, Cambridge, UK. 

Prof. Dr. Katharina von Kriegstein, 

1994-2001 Stud. Humanmedizin, Göttingen; 

1995-1997 Stud. Philosophie, Gött.; 1996-2000 

Doktorandin u. Hilfswissensch. Mitarb. Abt. 

Molekulare Neurobiologie, MPI für Experimentielle 

Medizin, Gött.; 2001 Dr. med.; 2001-2004 

Assistenzärztin Klinik für Neurologie, J.W.G.- 

Univ. FFM; 2004-2009 Wissensch. Mitarb. 

Funct. Imaging Laboratory, castle, GB; 02/09 

Leiterin MPI „Neuronale Mechanismen...“ MPI f. 

Kognitions- und Neurowissenschaften, Leipzig; 02/13 Prof. f. Kognitive 

u. Klin. Neurowiss., Inst. Psychologie, Humb.-Univ. Berlin. 

Schnecke 81 | September 2013 | 45

Unser Gehirn verknüpft Gesicht und Stimme - Schnecke Online

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?