DA Myung.pdf - Erich-Thienhaus-Institut - Hochschule für Musik ...

Diplomarbeit 

Untersuchungen zum Klang digitaler Mikrofone: 

Zum Einfluss der AES42-Betriebsmodi 

Je-Young Myung, HfM Detmold, Erich–Thienhaus–Institut 

Studiengang: Musikübertragung 

Abgabetermin: 27. März 2007 

Erstgutachter: Prof. Thomas Görne, HfM Detmold 

Zweitgutachter: Stephan Peus, Entwicklung der Georg Neumann GmbH

Inhaltsverzeichnis 

1 Einleitung 2 

2 Technischer Hintergrund 4 

2.1 Digitale Übertragung und Taktsynchronisierung . . . . . . . . . . . . . 4 

2.2 Grundlagen der Abtastratenwandlung . . . . . . . . . . . . . . . . . . . 5 

2.3 Erläuterungen zur verwendeten Technik . . . . . . . . . . . . . . . . . . 8 

2.3.1 Digitale Mikrofone . . . . . . . . . . . . . . . . . . . . . . . . . 8 

2.3.2 Die verwendeten Geräte mit Abtastratenwandler . . . . . . . . . 10 

2.4 Messungen mit Testsignalen . . . . . . . . . . . . . . . . . . . . . . . . 12 

3 Vorüberlegungen und Gedanken zum Hörtest 14 

3.1 Forced-Choice und Signalentdeckungstheorie . . . . . . . . . . . . . . . 15 

3.2 Aufnahmen für den Hörtest . . . . . . . . . . . . . . . . . . . . . . . . 18 

3.3 Kriterien zur Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

4 Versuchsaufbau und -durchführung 20 

4.1 Versuchsaufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

4.2 Versuchsdurchführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4.3 Vortests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

5 Auswertung 25 

5.1 Allgemeines zur Auswertung des Hörtests . . . . . . . . . . . . . . . . . 25 

5.2 Deskriptive Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

5.3 Interpretative Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . 39 

6 Fazit 44 

Abbildungsverzeichnis 46 

Tabellenverzeichnis 46 

Literatur 47 

1

1 Einleitung 

In den Aufnahmestudios setzt sich die digitale Audiotechnik immer mehr durch. Der 

Vorteil von miteinander vernetzten digitalen Geräten ist, dass zwischen diesen die feh- 

lerbehaftete Wandlung von analogen zu digitalen Signalen und umgekehrt entfällt. 

Jedoch muss bei der Vernetzung von digitalen Geräten eine saubere Lösung der Syn- 

chronisation jedes einzelnen Gerätes realisiert werden, um Synchronisationsprobleme 

und den dadurch verursachten Qualitätsverlust zu vermeiden. 

Relativ neu in der digitalen Audiobearbeitungskette ist das digitale Mikrofon. Das 

analoge Signal wird im Mikrofon selbst in ein digitales Signal gewandelt, so dass am 

Ausgang des Mikrofons ein digitales Signal im AES42-Standard (s.u.) anliegt. Dadurch 

können Daten- und Qualitätsverluste in der weiteren Audiosignalverarbeitung mini- 

miert werden: 

• Durch das Wegfallen von zusätzlichem Mikrofon-Vorverstärker und AD-Wandler, 

die für die Qualität des noch zu verarbeitenden Audiosignals entscheidend sind, 

kann der Datenverlust verringert werden. 

• Durch die vollständig digitale Kette in der Audiosignalverarbeitung kann auch 

bei Verwendung weniger hochwertigen Equipments mit geringem Qualitätsverlust 

des Audiosignals gearbeitet werden, da die AD-Wandlung entfällt. 

Die digitalen Mikrofone müssen wie alle digitalen Geräte mit dem Empfangsgerät 

synchronisiert werden. Zur Lösung des Synchronisationsproblems der digitalen Mikro- 

fone wurde im Jahr 2001 von der Audio Engineering Society das Format AES42 1 stan- 

dardisiert. Der AES42-Standard erlaubt zwei technische Wege für die Synchronisation 

der digitalen Mikrofone: 

• Mode 1: der interne Taktgenerator arbeitet asynchron oder 

• Mode 2: der interne Taktgenerator arbeitet synchron, indem er durch die Über- 

tragung der extern zugeführten Word Clock stabilisiert wird (siehe Kapitel 2.3.1). 

Bei der ersten Möglichkeit Mode 1 ist ein zusätzlicher Abtastratenwandler (eng- 

lisch: Sample Rate Converter, SRC) am Eingang des Anschlussgerätes des digitalen 

Mikrofons notwendig. Ohne diesen käme es zu Taktsynchronisationsfehlern, die durch 

beispielsweise Knistern im Audiosignal oder Dropouts 2 zu hören sein würden. Ein Sam- 

ple Rate Converter (SRC) führt eine zusätzliche Datenwandlung durch (siehe Kapitel 

2.2). 

Die Abtastratenwandlung ist in jedem Fall eine zusätzliche Fehlerquelle, insbesondere 

1 Der AES42-Standard wird im Kapitel 2.3.1 genauer erläutert. 

2 fehlende Samples 

2

wenn mehrere Mikrofone (bereits bei einem Stereopaar) gleichzeitig in Betrieb ge- 

nommen werden. Zwischen den beiden Mikrofonen, die in Mode 1 betrieben werden, 

kommt es durch den intern freilaufenden Taktgenerator zum Auseinanderdriften des 

Takts, d.h. die Anzahl der pro Sekunde generierten Samples am Mikrofon 1 und 2 ist 

nicht identisch. Ein exaktes Generieren der Abtastrate ist für freilaufende Taktgenera- 

toren nicht möglich. Die Abtastrate verändert sich ständig, da sie nicht stabil ist. Dies 

kann zu Jitter, also Zeitfehlern in Abfolge der Samples führen. Das Jitter kann eine 

instabile Taktgeneration verursachen, wodurch das Ausgangssignal verzerrt sein kann 

[3]. Um diese Fehler zu vermeiden, ist es die beste Lösung, die digitalen Mikrofone vom 

Anschlussgerät per externer Word Clock Leitung synchronisieren zu lassen (Mode 2), 

so dass die Signale beider Mikrofone (1 und 2) digital phasenstarr gekoppelt sind. 

Die Qualität des Audiosignals in Mode 1 ist zudem abhängig von der Qualität des 

jeweiligen Abtastratenwandlers. Sind die heutzutage in professionellen Studios verwen- 

deten SRC qualitativ so gut, dass man den technisch bedingten Qualitätsverlust des 

Audiomaterials bei Verwendung dieser SRC auditiv nicht wahrnehmen kann? 

Die zentrale Fragestellung in dieser Arbeit lautet: 

Ist ein Unterschied zwischen den Aufnahmen mit digitalen Mikrofonen in verschiedenen 

AES42-Modi auditiv eindeutig festzustellen? Inwieweit beeinflussen die angeschlosse- 

nen digitalen Geräte, insbesondere SRC die Klangqualität der digitalen Mikrofone? 

Wird die Verwendung von digitalen Mikrofonen die Qualität des zu verarbeitenden 

Audiomaterials unabhängig von weiteren angeschlossenen digitalen Geräten im Studio 

gemacht? Ist dies ein entscheidender Vorteil des digitalen Mikrofons im Vergleich zum 

analogen Mikrofon? 

Im folgenden soll am Beispiel der Neumann-Mikrofone durch Hörtests mit Hilfe 

von Testpersonen, die im kritischen Hören geübt sind, festgestellt werden, ob man den 

Unterschied zwischen den Aufnahmen in Mode 1 und 2 tatsächlich hören kann; ob also 

ein SRC in der Audiosignalverarbeitungskette zusätzlich verwendet wurde oder nicht. 

Um diesen klanglichen Unterschied, der durch die Abtastratenwandlung in Echtzeit 

(die nicht fehlerfrei funktionieren kann; siehe Kapitel 2.2) am Empfangsgerät verur- 

sacht wird, im Hörtest richtig darstellen zu können, müssen die Beispiele in beiden 

Modi parallel und gleichzeitig aufgezeichnet werden. Zur Darstellung des Synchroni- 

sationsproblems ist die mehrkanalige Aufzeichnung des Signals ausschlaggebend. Bei 

der Verwendung mehrerer Mikrofone in Mode 1 ergibt sich, wie bereits oben erwähnt, 

das Problem des Auseineinanderdriftens des instabilen, freilaufenden Taktgenerators 

zwischen den Mikrofonen. Die Anzahl der pro Sekunde generierten Samples stimmt in 

diesem Fall zwischen den Mikrofonen nicht überein. Das Mikrofon 1 könnte z.B. mit 

44.002 Samples pro Sekunde getaktet sein und das Mikrofon 2 mit 43.997 Samples pro 

Sekunde. Die dann benötigte neue Abtastung der Signale mit dieser unterschiedlichen 

Anzahl der Samples durch die SRC am Empfangsgerät verursacht eine technisch nach- 

3

weisbare Veränderung des Signals. 

Wird die mehrkanalige Aufnahme in Mode 2 betrieben, sind die Signale der Kanäle 

digital phasenstarr gekoppelt, so dass es zu keinem Taktproblem führen kann. 

Dieser technisch wesentliche Unterschied kann nur durch eine gleichzeitige, parallele 

und mehrkanalige Aufzeichnung (mindestens stereophon) einer Quelle (z.B. Instru- 

mente oder Sprache) realisiert werden. Dies wird hier mit zwei verschiedenen Mikro- 

fonpaaren umgesetzt, d.h. es werden zwei verschiedene Stereopaare (insgesamt vier 

Mikrofone) aufgestellt. 

Die verlangte Situation kann also nur durch die parallele Signalaufzeichnung in Mode 

1 und 2 in Echtzeit erreicht werden. Die Idee, die Aufnahme mit einem Mikrofon- 

paar in Mode 2 durchzuführen und anschließend das in Mode 2 aufgezeichnete Signal 

über einen SRC zu schicken, würde das Synchronisationsproblem des Mode 1 in ei- 

ner Live-Aufnahme Situation nicht nachstellen können, da das bereits in Mode 2 auf- 

gezeichnete, verwendete Signal kein Taktproblem enthält. Das Signal kann ebenfalls 

nicht von einem Mikrofonpaar aufgezeichnet und dann gesplittet werden, da die Infor- 

mation des gewählten Synchronisationsmodes über die AES42 Leitung zum Mikrofon 

übertragen wird. Über diese Leitung können selbstverständlich nicht beide Modi auf 

einmal übertragen werden. 

2 Technischer Hintergrund 

2.1 Digitale Übertragung und Taktsynchronisierung 

Bei der digitalen Übertragung von Daten in der Audiotechnik ist die Synchronisierung 

der miteinander verbundenen digitalen Geräte unumgänglich. Um verschiedene digitale 

Studiogeräte in ihrer Übertragungskette fehlerfrei bedienen zu können, müssen diese 

in einem gleichen synchronen Takt betrieben werden. Geschieht dies nicht und läuft 

jedes digitale Gerät mit der eigenen intern generierten Taktfrequenz, kommt es zu Da- 

tenübertragungsfehlern wie z. B. Dropouts oder Glitches 3 [3], die man in Form von 

Knacksern oder Amplitudenschwankungen hören kann. 

Die Taktsynchronisierung in der digitalen Übertragungskette kann folgendermaßen rea- 

lisiert werden: 

• durch einen Wordclock-Master in Form des ersten Gerätes in der Übertragungskette, 

der allen weiteren Anschlussgeräten den Takt über selbsttaktende Schnittstellen, 

wie z.B. AES3, vorgibt 

• durch einen zentralen Wordclock-Generator, der allen Geräten den Takt vorgibt. 

Bei dieser Lösung sind alle Geräte ” sternförmig“ mit dem Wordclock-Generator 

verbunden. Dafür muss jedoch gewährleistet sein, dass jedes Gerät einen externen 

3 Diskontinuitäten im Ampiltudenverlauf 

4

Wordclock-Eingang besitzt (z.B. BNC Leitung), was in der Realität oft nicht 

zutrifft. 

Sind beide Möglichkeiten ausgeschlossen, müssen die Geräte trotzdem mit der sel- 

ben synchronen Taktfrequenz laufen. Dies kann durch eine zusätzliche Abtastraten- 

wandlung am Eingang des jeweiligen Anschlussgerätes erfolgen. Einige digitale Misch- 

pulte bieten daher einen SRC an den digitalen Eingangsanschlüssen in Form einer 

zusätzlichen ” digitalen I/O Karte“ an. Eine Abtastratenwandlung ist jedoch eine hin- 

zukommende Fehlerquelle, denn die Daten werden hierbei ein weiteres, zusätzliches 

Mal be- und verarbeitet. Bei schlechter Qualität des SRC (hierauf wird im nächsten 

Unterkapitel näher eingegangen) kann es zu Audioqualitätsverlusten kommen. 

2.2 Grundlagen der Abtastratenwandlung 

In der heutigen Studiotechnik gibt es in verschiedenen Bereichen der Medienwelt histo- 

risch und entwicklungstechnisch bedingt zahlreiche und verschiedene Abtastraten: 44.1 

kHz bei CD’s, 48 kHz in den Rundfunkanstalten im Zusammenhang mit der Bildtech- 

nik, 32 kHz in Broadcast etc. Es kann bei dieser Vielzahl von gängigen Abtastraten 

erforderlich sein, mehrfache Abtastratenwandlungen in der Audioverarbeitungskette 

durchzuführen. 

Es gibt drei verschiedene Fälle der Abtastratenwandlung. Die Abtastratenwandlung 

um einen 

1. ganzzahligen Faktor: z. B. von 48 kHz auf 96 kHz (a) 

2. rationalen Faktor: z. B. von 48 kHz auf 32 kHz (b) 

3. reellwertigen Faktor: z. B. von 44.1 kHz auf 48 kHz (c) 

In den beiden ersten Fällen kann die Wandlung durch Oversampling und anschlie- 

ßend ganzzahlige Dezimation fehlerfrei ausgeführt werden. Im dritten Fall jedoch ist die 

Wandlung komplexer. Dieser Fall ermöglicht aber die Abtastratenwandlung für jedes 

Verhältnis zwischen der Eingangs- und Ausgangsabtastrate. Daher ist diese Art der 

Wandlung in der Praxis weit verbreitet. 

In Prinzip funktioniert der SRC gemäß der dritten Art, die auch als ” asynchrone Ab- 

tastratenwandlung“ bezeichnet wird, folgendermaßen: 

Das Eingangssignal mit seiner Abtastrate wird durch im Idealfall unendlich hohe In- 

terpolation überabgetastet (Oversampling), so dass daraus durch die darauf folgende 

Dezimation jede beliebige Abtastrate am Ausgang realisiert werden kann. Zum Schluss 

wird das Ausgangssignal mit der neuen Abtastrate durch einen linearphasigen FIR- 

Filter (Tiefpassfilter) geschickt, damit die Aliasingfehler herausgefiltert werden. 

Die Qualität des Abtastratenwandlers hängt von der Höhe der Interpolation ab: Je 

höher desto besser die Qualität. Im Idealfall wäre die Interpolation unendlich hoch, 

5

Abbildung 1: Veranschaulichung der oben genannten drei Fälle der Abtastratenwand- 

lung (aus [1] S. 138) 

was einer Analogwandlung gleich käme. Die asynchrone Abtastratenwandlung kann al- 

so auch mit D/A- und A/D-Wandlung ausgeführt werden. Da dies aber sehr aufwendig 

ist, bleibt man in der digitalen Ebene und gibt sich mit einer begrenzten Höhe der 

Interpolation zufrieden. Die notwendigen Werte lägen zwischen 16 Bit und 24 Bit. Da 

es jedoch zu einer riesigen Datenmenge führen würde, pro Sample 2 24 Abtastwerte zu 

produzieren, hat man ein Verfahren entwickelt, das ” Segment-Interpolation“ genannt 

wird. Wenn das umzurechnende Abtastraten-Verhältnis vorher bekannt ist und das 

Verhältnis konstant bleibt, kann man die Zeitpunkte der zur Wandlung benötigten 

Werte errechnen und damit nur diese Werte berechnen lassen. Somit werden nur die 

ausschlaggebenden Werte berechnet und die Datenmenge vergrößert sich nicht unnötig. 

In der Realität jedoch bleibt das Verhältnis zwischen der Eingangs- und Ausgangsab- 

tastrate nicht korrekt konstant, da es sich um eine Wandlung im reellwertigen Faktor 

handelt. Um den Jitterfehler zu verringern, der durch neues Abtasten zum falschen 

Zeitpunkt zustande kommt, wird ein Durchschnittswert des Verhältnisses aus einer 

bestimmten Zeiteinheit (mehrere Perioden) stetig berechnet, mit dem der Wandler ar- 

beitet. Die Qualität der Wandlung ist abhängig von der Stärke der Mittelung: Je stärker 

die Mittelung desto Jitter-unempfindlicher der Wandler. Die zunehmende Stärke der 

Mittelung bringt jedoch eine größere Latenz mit sich. Zur Berechnung des Mittelungs- 

wertes wird ein Speicher namens FIFO (First In First Out) benötigt, in dem der Mit- 

telungswert zwischengespeichert wird. Wenn die Zeiteinheit der Mittelung groß ist, 

6

wodurch der Jitterfehler verringert wird, benötigt man einen größeren FIFO-Speicher. 

Hierbei muss man dann allerdings die wachsende Latenz in Kauf nehmen. Umgekehrt 

reicht ein kleiner FIFO-Speicher aus, wenn die Zeiteinheit kleiner ist. Dann nimmt zwar 

die Latenz ab, aber der Wandler reagiert empfindlicher auf Jitterfehler [4]. 

An dieser Stelle soll der Begriff Jitter im allgemeinen erklärt werden, denn dies ist 

der ausschlaggebende Fehler, der sich bei der qualitativ schlechten Abtastratenwand- 

lung hörbar bemerkbar machen kann. 

Der Begriff Jitter stammt aus der englischen Sprache und bedeutet Fluktuation oder 

Schwankung. Jitter ist ein Zeitfehler, der durch ” falsches“ Abtasten (Fluktuation oder 

Schwankung in der zeitlichen Komponente der Abtastung von Audiosignalen) entsteht. 

Hierbei handelt es sich sowohl um die Abtastung von analogen als auch digitalen Signa- 

len: Es kommt sowohl in der A/D- und D/A-Wandlung, als auch in der Abtastraten- 

wandlung vor. Jitter kann bei jeder neuen Abtastung vorkommen. Mit der ” falschen“ 

Abtastung ist die Ungenauigkeit in der zeitlichen Abfolge der Abtastung gemeint, d.h. 

die Abtastung geschieht an falschen Stellen des abzutastenden Signals (aufgrund von 

Schwankungen in der Zeit des Abtastens) und es kommt so zur Verfälschung des ur- 

sprünglichen Signals. Dieser Fehler bildet sich sowohl in der Amplitude als auch in der 

Phasenlage und kann zu hörbaren Artefakten führen. 

Abtastung mit Jitter korrekte Übertragung verzerrtes Ausgangssignal 

korrekt abgetastetes Signal 

t t t 

t 

Jitter bei der Übertragung verzerrtes Ausgangssignal 

t t 

Abbildung 2: Veranschaulichung von verzerrtem Signal durch Jitter (nach [3] S. 223) 

Hier wollen wir das Augenmerk auf den Fall der Abtastratenwandlung richten. Die 

Jitterempfindlichkeit wird mit zunehmender Höhe der Überabtastung reduziert, da sich 

mit sehr hoher Überabtastung so gut wie jede neue Abtastrate mit weniger Ungenauig- 

keiten bzw. weniger Abweichung von neuen gewünschten Abtaststellen erstellen lässt. 

Die Methode der Mittelung des Eingangs- und Ausgangsabtastraten-Verhältnisses, die 

zur Stabilisierung des idealerweise nicht schwankenden Takts benötigt wird, wurde im 

Kapitel 2.2 näher erläutert. 

7

2.3 Erläuterungen zur verwendeten Technik 

2.3.1 Digitale Mikrofone 

Die ” Georg Neumann GmbH“ stellte zwei Stereo-Paare des Typs digitaler Mikrofone 

KMD aus der Serie ” Blue Diamonds“ mit Nieren-Charakteristik für die Aufnahmen 

des Audiomaterials für den Hörtest zur Verfügung. Diese Mikrofone haben die identi- 

sche Mikrofonkapsel wie die Nierenmikrofone der analogen Serie KM 140. 

Zu je zwei Mikrofonen gehört ein ” Digital Microphone Interface DMI-2“ , an das die 

Mikrofone direkt mit einem XLR3 Kabel angeschlossen werden. Das Interface bietet 

je zwei einzelne XLR Eingangs- und Ausgangssteckfelder an. Jedes Mikrofon sendet 

ein digitales Signal im AES42 Datenformat an das Interface und das Interface wieder- 

um sendet Informationen wie z.B. die digitale Phantomspeisung und den Synchroni- 

sationsmode zum Mikrofon über den AES42-2001 Standard. Das Interface dient zur 

Umwandlung des AES42 Datenformats in ein AES3 Signal, auch AES/EBU genannt. 

Das AES3 ist ein professionelles digitales Datenformat für die Übertragung von 

zwei digitalen Audiosignalen in einer Leitung. Die Leitung ist mit Biphase Mark 4 ko- 

diert. Der Anschluss ist symmetrisch und erfolgt über XLR. Die Pinbelegung sieht wie 

folgt aus: 1 = Abschirmung, 2 = Signal (+), 3 = Signal (-). Ein ” Block“ in der AES3- 

Übertragung enthält einen AES3-Frame, der wiederum zwei AES3-Subframes enthält. 

Ein AES3-Subframe besteht aus 32 Bit, wobei 24 Bit Audiodaten enthalten und 8 Bit 

weitere Zusatzdaten. Ein Frame besteht also aus 64 Bit. 192 Frames bilden einen Block 

bei der Übertragung [3]. Jedes Subframe enthält abwechselnd entweder die Audiodaten 

des ersten oder des zweiten Kanals. Zur Kennzeichnung von neuen Anfängen des jewei- 

ligen Subframes wird eine Präambel gesetzt, deren Länge 4 Bit beträgt. Die digitalen 

Mikrofone könnten beispielsweise natürlich auch direkt an den Eingang eines digitalen 

Mischpultes angeschlossen werden, wenn dieser den AES42-2001 Standard unterstützt. 

Da dies aber heute noch nicht der Fall ist (es sind bis heute noch keine digitalen Misch- 

pulte auf dem Markt, die den AES42-2001 Standard unterstützen), wird das Interface 

benötigt. 

Der AES24-2001 Standard ist ein digitales Datenformat. Dieses Format ist eine 

Weiterentwicklung des AES3 Standards für digitale Mikrofone. Es wurde im Jahr 2001 

von der Audio Engineering Society standardisiert. Dieses Format unterstützt den An- 

schluss von monophonen und stereophonen digitalen Audiosignalen. Bei einem mono- 

phonen Signal wird das Signal zweimal hintereinander in beiden Subframes übertragen 

[7]. 

4 Der Biphase Mark-Code ist einer der Manchester-Codes, welche halfbauded sind (d.h. die Pulsbreite 

entspricht einer halben Bitdauer) und deren Clockgehalt maximal ist. Biphase Mark ist selbsttaktend 

und phasentolerant. Er wird in mehreren Übertragungsstandards in der digitalen Audiotechnik 

eingesetzt [3]. 

8

Abbildung 3: Veranschaulichung vom Aufbau des Frames mit seinen Subframes (aus 

[1] S.451) 

Über AES24 lässt sich die Übertragung von digitaler Phantomspeisung (DPP), digita- 

len Audiosignalen (AES3 kompatibler Datenstrom) und die Fernsteuerung der digitalen 

Mikrofone realisieren. Es gibt einen spezifischen Anschluss für digitale Mikrofone: den 

XLD Anschluss. Dieser Kabelanschluss hat wie ein XLR Anschluss drei Kontakte, de- 

ren Pinbelegung identisch ist mit der des XLR (s.o.). Dieser XLD Anschluss ist optional 

mit einem so genannten ” Zebra coding ring“ am Stecker gekennzeichnet, welcher dar- 

auf hinweist, dass dieses Kabel zur Übertragung von digitalen Audiosignalen gedacht 

ist [6]. 

Das Interface DMI-2 wird mit der von ” Neumann“ entwickelten ” RCS “ (Neu- 

mann Remote Control Software) bedient, die auf einem Computer installiert wird. 

Die Verbindung vom Interface zum Computer erfolgt durch eine Konvertierung von 

USB-Schnittstelle auf RS 485 (Netzwerkstecker). Bei mehr als zwei Mikrofonen können 

mehrere Interfaces miteinander kaskadiert werden. Dabei ist jedes einzelne Mikrofon 

individuell per Fernsteuerung einstellbar. Die einstellbaren Parameter sind: Gain, Fil- 

ter (Low Cut), Vordämpfung, Limiter, Phase, Abtastrate (44.1, 48, 88.2, 96, 176.4, 192 

kHz), Synchronisationsmode, Testsignale und Signallicht. 

Wie bereits in der Einleitung erwähnt, müssen die digitalen Mikrofone mit allen an- 

deren digitalen Geräten in der Übertragungskette synchronisiert werden. In der Fern- 

steuerung der digitalen Mikrofone ist ein Wahlfeld eingerichtet, das die Auswahl zwi- 

schen 2 Modi zur Sychronisation der Mikrofone ermöglicht. 

Für den Mode 2, in welchem ein externes Word Clock-Signal empfangen wird, gibt es 

einen BNC Anschluss am DMI-2 Interface. Es wird dem AES42-2001 Standard entspre- 

chend gearbeitet; d.h. auf der Empfängerseite des Mikrofonsignals wird ein Frequenzen- 

Phasenvergleich mit einer Masterclock durchgeführt. Hierbei entsteht ein träges Regel- 

signal (engl.: control voltage) zum Steuern eines VCXOs (Voltage controlled crystal 

9

oscillator), das im Mikrofon verwendet wird. Es kommt zu einem so genannten PLL 

(Phase Locked Loop), eine geschlossene phasenlineare Schleife. Das durch PLL erzeug- 

te Regelsignal wird über den Remote-Control-Datenstrom zum Mikrofon übertragen. 

Wird eine Word Clock von außen angeschlossen, schaltet sich der Synchronisations- 

modus automatisch darauf ein. 

Im Mode 1 werden die digitalen Mikrofone vom intern generierten Takt asynchron ge- 

taktet (siehe Einleitung). In diesem Fall benötigt man jedoch wie bereits erwähnt einen 

zusätzlichen SRC am Eingang des Anschlussgeräts [6]. 

2.3.2 Die verwendeten Geräte mit Abtastratenwandler 

Als Anschlussgeräte, die den digitalen Mikrofonen entweder die externe Word Clock lie- 

fern oder den Sample Rate Converter an ihren Eingängen ” anbieten“ , wurden folgende 

Geräte verwendet: 

• die digitale Kreuzschiene ” Nexus“ (im Erich-Thienhaus-Institut installiert) von 

der ” Stage Tec Entwicklungsgesellschaft für professionelle Audiotechnik mbH“ 

mit der AES/EBU Karte mit SRC, 

• das digitale Mischpult ” DM 1000“ von der ” Yamaha Corporation“ mit der digi- 

talen Schnittstellenkarte (engl.: Digital I/O Card) ” MY8-AE96S“ (Es sind keine 

Herstellerangaben über die technischen Daten der SRC zu finden), 

• der Format- und Abtastratenwandler (engl.: Triple Universal Format and Sample 

Rate Converter) ” ADI-192DD“ von ” RME-Intelligence Audio Solutions“ . Die 

technischen Daten über die SRC des Format- und Abtastratenwandlers ADI- 

192DD sind der Bedienungsanleitung zu entnehmen (siehe Abbildung 4). 

Abbildung 4: technische Daten über SRC des ADI-192DD 

Diese drei Geräte verfügen über AES3 Schnittstellen (sowohl Ein- als auch Ausgänge) 

mit optional einschaltbaren Abtastratenwandlern am Eingang, so dass das Signal vom 

digitalen Mikrofon, das im Interface DMI-2 von AES42 auf AES3 umgewandelt wird, 

10

ohne jegliche zusätzliche Formatwandlung direkt an den Eingang des Virtual-Studio- 

Systems ” Pyramix“ angeschlossen werden kann. Es wurde darauf geachtet, dass es zu 

so wenig Bearbeitung des Audiosignals wie möglich kommt, um eventuelle Fehlerquel- 

len und damit jegliche Qualitätsverluste zu vermeiden. 

Bei allen drei genannten Geräten ist es möglich, die Aufnahme mit den KMD Mikro- 

fonen entweder in Mode 1 oder 2 durchzuführen. 

Leider ist es nicht möglich, über den Format- und Abtastratenwandler ” ADI-192DD“ 

die beiden oben genannten Synchronisationsmöglichkeiten (Mode 1 und 2) in verschie- 

denen Kanälen gleichzeitig durchzuführen, was mit den beiden anderen Geräten möglich 

ist. Bei diesem Gerät kann man die SRC für die verwendete Schnittstelle (in diesem 

Fall AES3) komplett ein- oder einschalten, aber nicht für jeden einzelnen Kanal sepa- 

rat. Das ist bei den beiden anderen Geräten möglich. 

Alle drei Geräte verfügen über je 4 AES3 Ein- und Ausgangssteckfelder. Für die Auf- 

nahmen für den Hörtest wurden genau je 4 Eingänge und Ausgänge mit jeweiligem 

Steckfeld benötigt 5 . 

Bei der gleichzeitigen Aufzeichnung des identischen Audiomaterials mit den verschie- 

denen Synchronisationsmöglichkeiten musste man im Falle des Converters ADI-192DD 

also auf eine Ausnahme eingehen: das Audiomaterial des einen Mikrofonpaares wurde 

über den Converter ADI-192DD mit eingeschalteten SRC am Eingang aufgezeichnet 

und das Audiomaterial des anderen Mikrofonpaares musste über ein anderes Gerät (in 

diesem Fall DM 1000) mit Word Clock Eingang aufzeichnet werden. Dies beeinträchtigt 

jedoch nicht die Qualität der Aufzeichnungen, denn es ist im Grunde genommen für 

die Qualität der Audiodaten gleichgültig, über welches Gerät man ein digitales Signal 

aufzeichnet, wenn es über die Taktsynchronisierung mit externem Word Clock Eingang 

arbeitet. Die Gültigkeit des Testaufbau ist demnach nicht gefährdet. 

Es war also möglich, das identische Audiomaterial gleichzeitig durch die beiden KMD 

Stereo Pärchen sowohl im Mode 1 als auch mit externem Word Clock Eingang vom 

jeweiligen (oben genannten) Gerät aufzuzeichnen. 

Die Aufzeichnung geschah auf dem Virtual-Studio-System ” Pyramix“ der Firma ” Mer- 

ging Technologies“ , das im Erich-Thienhaus-Institut vorhanden ist. Dabei wurden die 

Audiodaten mit 24 Bit und 44.1 kHz aufgezeichnet. 

Die oben genannten drei Geräte spielen in dem in der Arbeit vorgesehenen Hörtest 

die zentrale Rolle. Die eventuell hörbaren klanglichen Unterschiede, nach welchen hier 

gesucht wird, sind in erster Linie abhängig von der Qualität dieser Geräte, präziser 

ausgedrückt, von der Qualität der SRC, die in diesen Geräten eingebaut sind. Das 

Ziel des Hörtests ist ja gerade, herauszufinden, ob verschiedene Geräte durch die un- 

terschiedliche Qualität der eingebauten SRC die resultierende Qualität der mit den 

digitalen Mikrofonen aufgezeichneten Audiodaten derart beeinflussen, dass das geübte 

5 Zwei Stereopaare mit je einzelnen Ausgängen 

11

Gehör diesen Unterschied tatsächlich und nachweislich wahrnehmen kann. 

Es ist leider nicht möglich, Information über die genauen technischen Daten und 

Arbeitsweise der einzelnen SRC des jeweiligen Gerätes zu erhalten (außer die Daten von 

ADI-192DD, siehe Abbildung 4). Es wird in dieser Arbeit die Hypothese aufgestellt, 

dass es einen hörbaren Unterschied zwischen den Aufnahmen im Mode 1 und 2 geben 

kann. Es ist anhand der optischen Darstellung der Wellenformen und der Überprüfung 

der technischen Daten erkennbar, dass das Signal verändert wird, wenn es zusätzlich 

über einen SRC läuft. Es sei zunächst dahingestellt, ob die Veränderung durch den 

SRC sich positiv oder negativ auswirkt. Hier steht die Frage im Mittelpunkt, ob dieser 

technisch nachweisbare Unterschied für Personen, die im kritischen Hören geübt sind, 

auditiv wahrnehmbar ist. 

2.4 Messungen mit Testsignalen 

Die Signale der Aufnahmen sind zur Überprüfung in ihrer Wellenform optisch um ein 

Vielfaches vergrößert worden. Die Wellenform der beiden Signale, 1. Aufnahme mit 

WCLK und 2. Aufnahme mit SRC, sind optisch nicht identisch. 

Hier stellt sich die Frage nach der Reproduzierbarkeit des Signals. Die drei Geräte 

weisen jeweils unterschiedlich lange Verzögerungszeit bzw. Latenz bei eingeschaltetem 

Abtastratenwandler auf. Diese scheinen aber bei allen drei konstant zu sein. 

Zur Überprüfung der Reproduzierbarkeit wurden Proben mit ausgeglichener Verzögerungszeit 

(richtige Delay Einstellung) und Phasendrehung durchgeführt: wenn die Signale iden- 

tisch, d. h. genau reproduzierbar wären, müsste ein digitales Null-Signal resultieren. 

Das war bei den Aufnahmen für den Hörtest im Modus 1 und 2 nicht der Fall. Die 

Gegenprobe erfolgte mit zwei identischen Signalen, also beide Signale mit entweder 

WCLK oder SRC aufgenommen, woraus eine digitale Null resultierte. Beim Versuch, 

WCKL gegen SRC phasengedreht gegeneinander auszulöschen, blieb dagegen immer 

ein Restsignal überig, das zwar im Pegel deutlich verringert ist, sich aber nie völlig 

auslöscht. Dies bedeutet, dass es bei einer Verwendung des SRCs zur Veränderung des 

Audiosignals kommt. 

Zur weiteren Absicherung wurden Testsignale aufgezeichnet: Sinus bei 1 kHz, weis- 

ses und rosa Rauschen. Die Aufnahmen für den Hörtest können eventuell aus gegebenen 

Umständen nicht wirklich identisch sein, da die Mikrofone nicht exakt an der selben 

Stelle positioniert waren. Diese Testsignale wurden über die Geräte DM 1000 und ADI- 

192DD geschickt, liefen über die jeweiligen SRC und wurden wieder auf der Festplatte 

des Pyramix Rechners aufgezeichnet. Bei dem Sinus Signal ist optisch kein Unterschied 

zu erkennen. Es bleibt jedoch trotz Ausgleichung der Latenz ein Restsignal bei der Ad- 

dition beider Signale mit einer Phasendrehung übrig. Das Signal, das über den SRC 

des DM 1000 geschickt wurde, ergibt, addiert mit dem Originalsignal bei Phasendre- 

12

hung und Latenzausgleich (111 Samples) -31,9 dB. Dabei klingt das Restsignal nicht 

verzerrt, sondern lediglich leiser. 

ADI-192DD weist bei einer Latenz von 150 Samples noch -26,2 dB Restsignal auf. Da- 

bei ist auffällig, dass es beim Restsignal zu regelmäßigem, hörbaren Ausschlagen bis 

zu -14,9 dB kommt. Man kann vermuten, dass der Ausschlag einer Zeiteinheit für eine 

bestimmte Komponente entspricht, mit der der Converter arbeitet, was bei normaler 

Wiedergabe von Signalen nicht hörbar ist. 

Bei der Probe mit Rauschen ist der Sachverhalt komplizierter. Es fällt auf, dass die Si- 

gnale, die durch einen SRC geschickt wurden, optisch nicht identisch sind und vor allem 

einen höheren Pegelunterschied aufweisen. Dabei kommt es zu Pegelveränderungen von 

bis zu +2 dB. Es ist zu beobachten, dass ADI-192DD die Pegelveränderung im linken 

und rechten Kanal parallel durchführt, DM 1000 dagegen zwischen dem linken und 

rechten Kanal unterschiedliche Pegelveränderungen aufzeigt. 

Das weisse Rauschen wurde ursprünglich mit -6,4 dB aufgezeichnet, DM 1000 zeichnet 

jedoch mit L -4,6 dB und R -5,9 dB auf; ADI-192DD mit L und R je -4,4 dB. Für das 

rosa Rauschen gilt im Prinzip das gleiche: ursprüngliche Aufzeichnung -4,5 dB, DM 

1000 L -4,1 und R -4,4 dB; ADI-192DD L und R -4,1 dB. Der Sinus wurde wie gesagt 

in seinem Pegel nicht verändert. 

Ein Versuch, die Pegelveränderung (hier Pegelverstärkung) zu erklären, wäre die Tatsa- 

che, dass der Abtastratenwandler mit Oversampling durch Prädiktion arbeitet, indem 

er vorausschauend interpoliert. Bei der Interpolation wird eine ” Vorhersage“ durch 

einen Algorithmus berechnet, d.h. es werden Zwischenwerte durch ” Vorausschauen“ 

zwischen den vorhandenen Samples (vor und hinter dem zu berechnenden Sample) 

berechnet. Bei deterministischen Signalen 6 wie Musik funktioniert die Prädiktion mit 

der heutigen Technik sehr gut. Bei stochastischen Signalen wie Rauschen kann der 

Algorithmus nicht wirklich ” vorhersehen“ , welcher Zwischenwert der richtige wäre. 

Dadurch lässt sich vielleicht die verfälschte Pegelwiedergabe bei der Abtastratenwand- 

lung erklären. 

Manche Testpersonen fragten nach Durchführung des Test, ob es vielleicht möglich 

sei, dass sich der Pegel zwischen den Beispielen innerhalb mancher Paare unterscheide. 

Aufnahmetechnisch kann dies nicht verursacht worden sein, denn die Entfernung der 

Mikrofonpaare von der Quelle und die digitale Vorverstärkung waren stets genau gleich. 

Eine Erklärung für den geäußerten Eindruck, die Beispiele seien unterschiedlich laut, 

kann in diesem Zusammenhang gegeben werden: Das vom Mikrofon aufgezeichnete 

akustische Raumrauschen kommt dem weissen Rauschen sehr nah. Das im Hintergrund 

stetig hörbare Raumrauschen erklingt lauter auf den Aufnahmen im Modus 1, daher 

erscheint die gesamte Aufnahme etwas lauter. 

6 sich periodisch wiederholende Signale 

13

3 Vorüberlegungen und Gedanken zum Hörtest 

Das Ziel dieses Hörtests ist es, herauszufinden, ob man tatsächlich klangliche Unter- 

schiede zwischen den beiden Varianten der Einstellungen (Mode 1: Synchronisation 

mit Hilfe von Sample Rate Converter am Anschlussgerät und Mode 2: Synchronisa- 

tion der Mikrofone mit externer Word Clock) wahrnehmen kann. Da es hier um sehr 

feine und aufnahmetechnisch spezielle Unterschiede geht, wurden die Testpersonen im 

Voraus ausgewählt: im genauen und kritischen Hören geübte Tonmeister, insbesondere 

Tonmeister Studenten des Erich-Thienhaus-Institus. 

Um ein vernünftiges Ergebnis erhalten zu können, muss der Hörtest vernünftig kon- 

struiert werden. Daher ist es notwendig, sich im Voraus differenzierte Gedanken über 

das Design des Tests zu machen. 

Es bieten sich in diesem Fall zwei geeignete Möglichkeiten des Versuchsaufbaus, die 

sinnvoll erscheinen: ABX Test oder Paarvergleich in Form von Forced Choice [8]. 

Beim ABX Test werden der Versuchsperson zunächst zwei unterschiedliche Referenz- 

signale A und B vorgestellt. Die Versuchsperson kann sich in einer so genannten Lern- 

phase die zwei Referenzsignale einprägen. Anschließend werden der Versuchsperson die 

beiden unterschiedlichen Signale in einer beliebigen Reihenfolge immer wieder vorge- 

spielt und sie hat die Aufgabe, das jeweilige Signal (X) dem entsprechenden Referenzsi- 

gnal (A oder B) zuzuordnen. Dabei trifft sie mit jeder Entscheidung eine richtige oder 

falsche Antwort, d.h. sie ordnet das Signal X entweder dem richtigen oder falschen 

Referenzsignal A oder B zu. Damit stellt sich heraus, ob die jeweilige Versuchperson 

in der Lage ist, die Beispiele mit dem richtigen Referenzsignal zu identifizieren. Diese 

Tatsache versetzt die Versuchsperson in eine Stresssituation. 

Speziell im tonmeisterlichen Bereich ist bei der Befragung nach einer Wahrnehmung 

klanglich feiner Unterschiede das Verhalten der Versuchsperson unvermeidlich mit dem 

Druck, dem man sich selbst unterzieht, verbunden, als Tonmeister, der im kritischen 

Hören geübt ist, diesen spezifischen Fehler heraushören zu müssen und zu wollen. Die- 

ses Verhalten kann das Ergebnis des Hörtests verzerren. 

Um diese Gefahr zu minimieren, fiel die Entscheidung für den vorgesehenen Hörtest 

auf den Paarvergleich nach dem Forced-Choice Verfahren. Es gibt mehrere Gründe für 

diese Wahl. Das wichtigste Argument für den Paarvergleich ist wie bereits erläutert 

der geringere Stressfaktor für die Testperson. Dieser Stress wird beim Paarvergleich 

eliminiert, da es keine ” richtige“ oder ” falsche“ Entscheidung gibt. Es werden stets 

zwei Signale angeboten; das eine mit und das andere ohne einen zusätzlichen Reiz. Die 

Entscheidung fällt dabei lediglich auf ein Beispiel jeden Beispielpaares, ohne den Druck 

zu spüren, sich genau für das richtige Beispiel entscheiden zu müssen. 

Ein weiterer Grund für den Paarvergleich ist der Aspekt, dass man bei diesem eine viel 

höhere Anzahl von Audiobeispielen je Testperson pro Test durchführen kann, denn der 

14

ABX Test erfordert allein von seiner Struktur her sehr viel mehr Zeitaufwand. 

Es ist von großer Wichtigkeit, sich vor dem Zusammenstellen des Hörtests mit 

der Messtheorie vertraut zu machen. Besonders wichtig ist dies, wenn man versucht 

herauszufinden, ” ob eine bestimmte Eigenschaft überhaupt messbar ist“ [8] (S. 215). 

3.1 Forced-Choice und Signalentdeckungstheorie 

Die ” Forced-Choice“ Methode ist eine Möglichkeit, die Verzerrung der Ergebnisse durch 

das Antwortkriterium 7 zu minimieren. 

Im klassischen Messverfahren der Empfindung kann das Ergebnis durch bewusstes Ver- 

halten der Testperson verzerrt werden. Jede Testperson muss eine innere Schwelle für 

sich selbst setzen, ab welcher Intensität des Reizes, die im Test angeboten wird, sie eine 

bejahende Antwort gibt, wie z.B. bei einem Audiogramm, in dem nach der Hörbarkeit 

eines Tons bezüglich des Pegels gefragt wird 8 . Um sich ” besser“ zu präsentieren, kann 

es dazu kommen, dass eine Testperson ein ” Ja“ zur Antwort gibt, obwohl sie den Ton 

noch gar nicht gehört hat. Diese Verfälschung kann durch das ” Forced-Choice“ Verfah- 

ren ausgeschaltet werden. 

Im Forced-Choice Verfahren werden zwei Beobachtungsintervalle definiert. Diese bei- 

den Beobachtungsintervalle enthalten zwei Signale; das eine Signal enthält einen zu- 

sätzlichen Reiz und das andere Signal nicht. In diesem speziellen Hörtest sind die 

beiden Beobachtungsintervalle wie folgt definiert: 1. Aufnahmen mit zwischengeschal- 

tetem SRC und 2. Aufnahmen ohne zwischengeschaltetem SRC. Diese zwei Aufnahmen 

desselben Audiobeispiels werden stets paarweise angeboten und die Aufgabe der Ver- 

suchsperson ist es, anhand der vorgegebenen Kriterien eine Entscheidung zwischen den 

Beispielen innerhalb eines Paares zu treffen. Der zwischengeschaltete SRC ist das ein- 

zige Merkmal, das sich zwischen den Audiobeispielen stets unterscheidet. Damit ist 

also die Bedingung für die ” Forced-Choice“ Methode gegeben: feste Reizintensitäten. 

Für diese festen Reizintensitäten, die in jedem Entscheidungsprozess (in jedem Paar- 

vergleich) enthalten sind, wird der Prozentsatz ” richtiger“ Antworten bestimmt. Im 

vorliegenden Hörtest gibt es keine ” richtigen“ oder ” falschen“ Antworten. Hier wird 

der Prozentsatz der Tendenz zu einer der beiden Aufnahme-Modi berechnet, um her- 

auszufinden, ob diese klanglich unterschieden werden können. 

In diesem Fall, speziell in diesem Hörtest, ist die Reizintensität bereits vorgegeben: 

der Unterschied, den ein SRC bei einer Aufnahme verursacht. Anhand dieser vorge- 

gebenen Reizintensität soll nun herausgefunden werden, ob die Testpersonen eine ein- 

deutige Unterscheidungsleistung hervorbringen können oder ob sie auf ein Rateniveau 

zurückfallen. 

Mit dem ” Forced-Choice“ Verfahren wird allein die ” sensorische Empfindlichkeit“ ge- 

7 Das Problem, für sich die Schwelle für eine Entscheidung zu bestimmen. 

8 Dieses Problem wird in der Fachsprache ” Kriterienproblem“ genannt, was nicht mit dem im fol- 

genden verwendeten Begriff ” Kriterium“ zu verwechseln ist. 

15

messen und dabei wird das ” Problem des Antwortkriteriums“ minimiert [8] (S. 230). 

Die sogenannte ” Signalentdeckungstheorie“ ist eine erweiterte Form des ” Forced- 

Choice“ Verfahrens. Der wesentliche Unterschied zwischen dem ” Forced-Choice“ Ver- 

fahren und der ” Signalentdeckungstheorie“ ist, dass letzteres nicht nur das sensorische 

Empfinden zu messen versucht, sondern auch die ” nicht-sensorischen Anteile einer psy- 

chophysischen Messung“ [8] (S.230). In diesem Hörtest ist jedoch zunächst nur die sen- 

sorische Empfindlichkeit interessant. Das für diesen Hörtest gedachte Design kommt 

von seinem Aufbau her der Signalentdeckungstheorie näher. 

Es gibt vier Fälle bei der Signalentdeckungstheorie: Treffer, Verpasser, falschen 

Alarm und korrekte Zurückweisung. Wird ein Reiz angeboten und ist es die Aufgabe der 

Versuchsperson, diesen Reiz herauszuerkennen, gilt folgendes: Als Treffer werden die 

Antworten gewertet, mit denen die Aufgabe mit einem ” Ja“ korrekt (bei vorhandenem 

Reiz = Aufnahme mit SRC) beantwortet wurden. Ein ” Nein“ trotz dargebotenem 

Reiz wird als Verpasser gewertet. Falscher Alarm tritt auf, wenn die Versuchsperson 

bei fehlendem Reiz die Aufgabe mit ” Ja“ beantwortet. Bei korrekter Zurückweisung 

verneint die Versuchsperson die Aufgabe bei fehlendem Reizangebot. 

Die vier möglichen Ausgänge des Signalentdeckungsexperiments im vorliegenden 

Hörtest sind in der Tabelle 1 aufgelistet. 

Aufnahmen im Modus 1 Aufnahmen im Modus 2 

dargebotene Reize Antwort der Vpn: mit SRC Antwort der Vpn: ohne SRC 

Aufnahme im Modus 1 Treffer Verpasser 

mit SRC (engl.: hit) (engl.: miss) 

Aufnahme im Modus 2 Falscher Alarm Korrekte Zurückweisung 

ohne SRC (engl.: false alarm) (engl.: corr.reject.) 

Tabelle 1: Vier mögliche Ausgänge des Signalentdeckungsexperiments im vorliegenden 

Hörtest (nach [8] S.231) 

Den vorliegenden Hörtest kann man nicht mit ” Ja“oder ” Nein“ beantworten. Den- 

noch kann er als eine Art des so genannten ” Ja/Nein“-Experiments geltend gemacht 

werden. Treffer und korrekte Zurückweisung stellen die richtige Zuweisung von Auf- 

nahme-Mode 1 oder 2 dar. Hier ist es jedoch nicht wichtig, dass die Versuchsperson 

die angebotenen Reize ” richtig“ zuweist. Vielmehr ist in erster Linie interessant, ob 

sich eine signifikante Tendenz zeigt. Dabei spielt es keine Rolle, ob der Treffer und 

die korrekte Zurückweisung (richtige Zuordnung) überwiegen, oder der Verpasser und 

der falsche Alarm (falsche Zuordnung). Es ist lediglich interessant, ob sich durch den 

Hörtest ein hörbares Merkmal finden lässt (dies wäre der Fall, wenn sich eine signifi- 

16

kante Tendenz zeigt). 

Es werden immer zwei verschiedene Arten von Aufnahmen, also zwei Beobachtung- 

intervalle vorgespielt (zwei Beispiele des gleichen Audiobeispiels in Modus 1 oder 2). 

Dies wird in der Signalentdeckungstheorie als ” zwei Reizsituaitionen“ ([8] S.231) be- 

zeichnet, die es grundsätzlich gibt. Hier sind es 1. ” Audiobeispiel in Mode 1“ und 2. 

” Audiobeispiel in Mode 2“ . 

Es werden feste Reizintensitäten angeboten9 , wobei nicht geklärt ist, wie groß diese 

Reize sind. Die verschiedenen Reizintensitäten werden durch die drei verschiedenen 

Geräte bestimmt. Es wird angenommen, dass es sich hier um drei verschiedene Inten- 

sitäten des Reizes handelt. Es soll nun auch herausgefunden werden, ob es Reizinten- 

sitätsunterschiede gibt und wenn ja, wie groß der Unterschied ist. 

Im in dieser Arbeit vorgesehenen Hörtest sind sowohl Aspekte des ” Forced-Choice“ 

Verfahrens als auch der ” Signalentdeckungstheorie“ wie oben beschrieben, enthalten. 

Entgegen gewöhnlicher Testverfahren, bei denen das Merkmal bekannt ist und 

durch kontrolliertes Variieren von Reizintensitäten und deren Auswirkung (Merkmal) 

nach der Unterschiedsschwelle gesucht wird, kennt man weder die Größe noch die 

Verhältnisse der angebotenen Reizintensitäten. Da diese vermutlich, wenn sie sich 

überhaupt voneinander unterschieden, in einem sehr kleinen Bereich variieren, bewegt 

man sich von vornherein im Unterschiedsschwellenbereich. Es wird also nicht nach der 

Unterschiedsschwelle selbst gesucht, sondern es wird untersucht, ob diese angenomme- 

ne Schwelle bei Verwendung qualitativ weniger guter Geräte überschritten wird und es 

dadurch zur Unterscheidbarkeit der Aufnahme-Modi kommt. 

Es ist vor der Durchführung des Hörtests nicht bekannt, ob es überhaupt ein Merkmal 

zur auditiv wahrnehmbaren Unterscheidung zwischen den verschiedenen Aufnahme- 

Modi bei digitalen Mikrofonen gibt. Aufgrund der technischen Vorkenntnisse und tech- 

nischen Messungen wird angenommen, dass es bei nicht optimaler Abtastratenwand- 

lung zur Veränderung und Beeinträchtigung des ursprünglichen Signals kommen kann. 

Dabei lassen sich die Stufen der Reizintensitäten im Vergleich zum klassischen Test- 

verfahren nicht kontrolliert verstellen. Diese sind in erster Linie durch die Verwendung 

von verschiedenen Geräten mit ihren verschiedenen SRC vorgegeben, aber auch durch 

die verschiedenen Audiobeispiele gegeben. Da man annimmt, dass die sich klanglich 

bemerkbaren Unterschiede, die durch die unterschiedlichen Qualitäten der SRC zu- 

stande kommen, in einem sehr engen Bereich bewegen, werden sich die Versuchsperso- 

nen vermutlich im Bereich der Unterschiedsschwelle bewegen. Mit Hilfe dieses Hörtests 

soll nach dem Merkmal gesucht werden, das möglicherweise in Abhängigkeit von den 

gegebenen Reizintensitäten (verschiedene SRC und Quellen) mehr oder weniger gut 

9 Dies entspricht dem Forced-Chioce Verfahren. 

17

wahrzunehmen sein wird. 

Auf die Möglichkeit, eine Rückmeldung zur Antwort bezüglich der Richtigkeit der 

jeweiligen Angabe zu geben, wurde bewusst verzichtet, da es sich in diesem Hörtest 

um minimale klangliche Unterschiede handelt und die hier zu erwartende Unsicherheit 

durch ein Feedback eher vergrößert würde. Darüberhinaus unterbricht ein Feedback die 

Konzentration und das Gefühl der Ungestörtheit. 

3.2 Aufnahmen für den Hörtest 

Alle Aufnahmen für den Hörtest wurden aus technischen Gründen in der Neuen Aula 

der Hochschule für Musik Detmold durchgeführt. Dabei wurden zwei Stereo-Mikrofon- 

paare aufgestellt. Die beiden Mikrofonpaare konnten selbsverständlich nicht gleichzeitig 

exakt an der gleichen Stelle positioniert werden. Der Abstand zwischen den jeweiligen 

Mikrofonkapseln (zwischen den beiden Mikrofonpaaren), betrug ca. 2,5 cm. Mit Aus- 

nahme der Aufnahmen des Streichorchesters, des Gesangs, und zum Teil der Sprache 

(Test B: Track 7/8 und 29/30) waren die Mikrofonpaare übereinander aufgestellt (bei 

den genannten Ausnahmen waren die Mikrofonpaare nebeneinander befestigt). 

Bei der Aufnahme wurde darauf geachtet, dass die Mikrofone weit genug von der Schall- 

quelle entfernt standen, damit die Abstrahlcharakteristik der Schallquelle im Raum 

nicht mehr ausschlaggebend für den unterschiedlichen Klang an unterschiedlichen Po- 

sitionen sein konnte. 

Abbildung 5: Skizze des Signalflusses 

Um die Möglichkeit zu haben, die Testpersonen an mehreren verschiedenen Schall- 

quellen (Instrumente oder Sprache) zu testen, wurden sieben verschiedene Besetzungen 

aufgezeichnet: 

Die Daten der Aufnahmen: 

Basisbreite des jeweiligen Mikrofonpaares: 0,36 m bzw. 0,26 m 

18

——Liste über Aufnahmen zum Hörtest—— 

Klavier Solo Julia Habiger/ 

(in Test B) F. Chopin, Ballade g-Moll Nexus 

Gitarre Solo Tim Büchsenschütz/ 

(in Test A und B) Jazz Improvisation und Nexus, 

J.S. Bach, Gavotte aus Partita in E-Dur DM1000, ADI-192DD 

Sprache Emma Laín/ Nexus, 

(in Test A und B) aus Werken von P. Coelho und A.S. Pinol DM1000, ADI-192DD 

Gesang Bineta Diouf/ 

(in Test A und B) F. Schubert, Der Tod und das Mädchen DM1000 

Oboe Solo Jung-Kyeom Kim/ Nexus, 

(in Test A und B) A. Pascolli, La Favorita Konzert DM1000, ADI-192DD 

Violoncello Solo Min-A Kim/ 

(in Test A und B) D. Popper, Etüde op.73, Nr.1 DM1000, ADI-192DD 

Streichorchester Detmolder Kammerorchester/ 

(in Test B) D. Schostakowitsch, Bearbeitung vom 

Tabelle 2: Liste über Aufnahmen zum Hörtest 

Höhe: 3,6 m 

Winkel zur Seite: ca. 5 ◦ 

Neigung nach unten: ca. 10 ◦ 

Streichquartett op. Nexus 

Abstand zur Schallquelle: ca. 4,5 m bei Musik 

ca. 3,4 m bei Sprache. 

Da jeder Mensch unterschiedlich auf verschiedene Reize reagiert, war es wichtig, den 

Testpersonen verschiedene Reize anzubieten. Darüberhinaus bringt jeder eine andere 

Voraussetzung an Hörerfahrung und Hörerwartung mit sich. Hinzu kommt, dass die 

Testperson vor dem Hörtest noch nicht weiss, bei welcher Art der Schallquelle der feine 

Unterschied zwischen den Aufnahmen in Mode 1 oder 2 am besten zu hören sein wird. 

3.3 Kriterien zur Bewertung 

Um die Testperson nach einer Bewertung befragen zu können, müssen für den Hörtest 

geeignete Kriterien gefunden werden, denn nur so kann die Auswertung erfolgreich wer- 

den. Die Kriterien müssen für die Testperson eindeutig zu verstehen sein. Die Suche 

nach ” richtigen“ Kriterien entspricht in diesem Fall der Suche nach den vermutlichen 

Merkmalen für die eventuelle Unterscheidungmöglichkeit. 

Da es bei diesem Hörtest darum geht, herauszufinden, ob professionell ausgebildete, in 

19

kritischem Hören geübte Personen überhaupt in der Lage sind, den feinen Unterschied 

zwischen den Aufnahmen mit oder ohne Abtastratenwandler herauszuhören, gilt es 

zunächst zu klären, in welcher Weise sich der Unterschied hörbar äußern kann. 

Daher wird die Frage gestellt, welche Fehler sich durch ein zusätzliches Abtasten von 

digitalen Signalen überhaupt ergeben könnten. Im Grunde genommen sucht man nach 

einer ” black box“ [8], denn man sucht nach Kriterien, anhand deren Reizen man ei- 

ne bestimmte Reaktion hervorrufen kann. ” Die zwischen Reiz und Reaktion liegenden 

Vorgänge werden, da sie methodisch prinzipiell oder vorläufig nicht erschließbar sind, 

als black box behandelt“ [8] (S. 213). 

Der größte Fehler, der bei einer Abtastratenwandlung auftreten kann, ist wie oben 

bereits erläutert, der Jitterfehler. Jitter kann sowohl die Amplitude als auch die Pha- 

senlage des Signals beeinträchtigen. Der Fehler äußert sich in Form eines zusätzlich 

entstandenen sogenannten Jitterrauschens. Es kann aber auch zu Knacksern oder Fluk- 

tuatuion in der Amplitude kommen (Vergleiche Kapitel 2.2.1). 

Da der Abtastratenwandler mit ähnlichen Methoden wie denen der A/D- und D/A- 

Wandler arbeitet, kann man zunächst nach bekannten Fehlern bei den A/D- und D/A- 

Wandlern suchen, um Anhaltspunkte zu finden. Bei ihnen sind bestimmte Abbildungs- 

fehler bekannt, u.a. Verschlechterung der Lokalisationsschärfe, Tiefenabbildung und 

Räumlichkeit. Eine Verzerrung des Frequenzgangs ist dagegen eher unwahrscheinlich. 

Bezüglich dieser speziellen Suche nach Fehlern der Abtastratenwandlung lässt sich die 

Vermutung aufstellen, dass es eventuell durch die Verzerrung des abgetasteten Signals 

zur verstärkten Wiedergabe von Obertönen kommen kann. 

Hier wurden folgende Kriterien als geeignet bewertet: 

• die Nähe (bzw. Entfernung) zur Quelle, 

• die Luftigkeit bzw. Offenheit 

• die Klarheit und 

• die Natürlichkeit. 

Der natürliche Klang des Raumrauschens wurde nach den Vortests auf Anregung 

der Testpersonen als vierte Kategorie für die Beispielpaare hinzugenommen, die mit 

wenig Signalpegel aufgenommen wurden und bei denen daher wegen der hohen Vor- 

verstärkung das Raumrauschen gut zu hören ist. 

4 Versuchsaufbau und -durchführung 

4.1 Versuchsaufbau 

Es wurden 20 Audiobeispielpaare für den Hörtest verwendet. Jedes wurde, wie unten 

näher erläutert wird, jeweils zweimal innerhalb eines Tests eingesetzt. Die Beispiele 

20

wurden durch Mastering in ihrem Pegel aneinander angeglichen, damit es nicht zu 

großen Pegelunterschiede innerhalb eines Hörtests kam. Abgesehen von der Pegelan- 

gleichung wurden die Audiodaten bewusst nicht bearbeitet (kein nachträglicher Hall, 

kein Schnitt), damit die Daten so wenig wie möglich von weiteren technischen Kompo- 

nenten beeinflusst wurden. 

Die Anordnung der Reihenfolge der Beispiele wurde willkürlich zusammengestellt, wo- 

bei auf eine abwechslungsreiche Abfolge der Klangbeispiele geachtet wurde. 

Um die Länge des Tests zu begrenzen und damit die Konzentrationsfähigkeit der 

Testpersonen nicht zu überstrapazieren, wurden zwei verschiedene Hörtests, Hörtest A 

und B, mit je 20 Audiobeispielpaaren (10 verschiedene je zweimal) zusammengestellt. 

Außerdem wurden die Beispiele mit einer Länge zwischen 12 und 22 Sekunden kurz 

gehalten. Dies entspricht in etwa der EBU 2000 Assessment-listening Norm von 10 bis 

20 Sekunden für die Länge von Audiobeispielen. Den Empfehlungen von ” Recommen- 

dation ITU-R BS. 1284-1*, general methods for the subjective assessment of sound 

quality“ entsprechend, sind die Beispielen der jeweiligen Paare 0,5 bis 1 Sekunde und 

die jeweiligen Paaren ca. 1,5 Sekunden voneinander getrennt [5]. 

Da es in diesem Test darum geht, ob Unterschiede wahrnehmbar oder lediglich 

Einbildungen sind, war es wichtig, dass die Testperson unbedingt eine eindeutige Ent- 

scheidung pro Beispielpaar trifft. Dies ist auch im Sinne der ” Forced-Choice“ Methode. 

Daher wurde bewusst darauf verzichtet, der Testperson auch die Auswahlmöglichkeit 

zu geben, keinerlei Unterschiede wahrnehmen zu können. Somit wird ” die Tendenz zur 

Mitte “ vermieden, was ” nicht förderlich für die angestrebte Differenzierung“ wäre [10] 

(S. 49). 

Um der Gefahr vorzubeugen, dass eine Testperson das Testergebnis dadurch verzerrt 

anfängt, dass sie willkürlich rät, da sie keinen Unterschied feststellen zu können glaubt, 

wurde jedes Audiobeispielpaar im Hörtest zweimal verwendet: in der ersten Hälfte des 

Tests einmal in einer bestimmten Reihenfolge (1. Beispiel: Aufnahme mit Word Clock 

Synchronisation, 2. Beispiel: Aufnahme mit Sample Rate Converter) und in der zweiten 

Hälfte des Testaufbaus in inverser Reihenfolge der Paarung (1.Beispiel: Aufnahme mit 

Sample Rate Converter, 2. Beispiel: Aufnahme mit Word Clock Synchronisation). Somit 

müsste sich eine 50 zu 50 Verteilung ergeben, falls sich jemand entschiede, einfach bei 

jedem Paar das erste Beispiel anzukreuzen. 

Jedes Beispiel wurde mit einem Track versehen, damit die Testperson die Möglichkeit 

bekam, zum Vergleichen beliebig hin- und herzuschalten. Den Testpersonen wurde je- 

doch empfohlen, sich auf den ersten Eindruck zu verlassen, da es sich um sehr klei- 

ne Unterschiede handelt, falls diese denn überhaupt wahrnehmbar sind. Durch diese 

persönliche Einweisung vor dem Beginn der Testdurchführung wurde versucht, der Test- 

person den Druck und Illusion zu nehmen, unbedingt Unterschiede hören zu müssen. 

21

Als weiteren Vorsichtsmaßnahme wurde der Test unter der so genannten ” Blindbedin- 

gung “ durchgeführt, d. h. die Versuchspersonen wurden so wenig wie möglich über 

das Thema und Ziel des Tests informiert [10]. Dadurch wurde beabsichtigt, das Verhal- 

ten der Versuchspersonen unbeeinflusst zu lassen und ihnen den zusätzlichen Stress zu 

nehmen, eine so spezielle und Tonmeister-spezifische Streitfrage ” richtig “ beantworten 

zu müssen. 

22

Hörtest A 

Diplomarbeit: Je-Young Myung 

Thema: Untersuchungen zum Klang digitaler Mikrofone 

Die folgenden Hörbeispiel-Paare sollen anhand der darunter angegebenen Kriterien miteinander 

verglichen werden. Dabei gibt es keine „richtigen“ oder „falschen“ Antworten. 

Bitte kreuzen Sie im Folgenden das zutreffende Feld an und verlassen Sie sich dabei auf Ihren 

ersten Eindruck! 

1. Track 01 Track 02 

Die Quelle scheint näher zu sein ٱ ٱ 

Es klingt luftiger/ offener ٱ ٱ 

Es klingt klarer ٱ ٱ 









Es klingt natürlicher (auf das Rauschen achten) ٱ ٱ 















Abbildung 6: Auszug aus dem Hörtest A zur Ansicht 

23

Abbildung 7: Zusatzinformation für den verschickten Hörtest 

4.2 Versuchsdurchführung 

Der größte Teil des Hörtest wurde im Erich-Thienhaus-Institut der Hochschule für 

Musik Detmold in 7 Tagen durchgeführt. Damit die Standardsituation [10] (S.53) 

gewährleistet wurde, fanden 40 von 50 Hörtests im Seminarraum 1 statt, der im Insti- 

tut als Referenz-Mehrkanalabhörraum genutzt wird (siehe Abbildung 8). Somit waren 

alle 40 Testteilnehmer gleichen Bedingungen ausgesetzt. Die übrigen 10 Tests wur- 

den per Post an verschiedene Personen verschickt. Diese 10 Tests wurden zu Hause 

an Kopfhörern (8 Tests) oder am eigenen Lautsprecher (2 Tests) durchgeführt. Da in 

diesen Fällen die persönliche Einweisung entfällt, wurde eine Zusatzinformation am 

Anfang des Hörtestbogens hinzugefügt (siehe Abbildung 7). 

Der Seminarraum 1 ist 2005/ 2006 neu erbaut und professionell eingemessen worden. Es 

stehen in diesem Raum Lautsprecher der ” musikelectronic geithain gmbh“ : ” RL901K“ 

und alle 40 Testpersonen führten den Hörtest an diesen Lautsprechern durch. 

Dieser Raum ist schallisoliert, so dass die Testpersonen keiner akustischen Störung 

von außen ausgesetzt waren. Zudem wurde darauf geachtet, dass sie während der 

Durchführung des Hörtests nicht unterbrochen oder in ihrer Konzentration gestört 

wurden. 

Raumdaten: 

Raumgröße: Länge = 8,00 m; Breite = 8,00 m; Höhe = 2,96 m 

Raumvolumen: 189 m3 

rel. Luftfeuchtigkeit: 59 

Temperatur: 22 ◦ C 

Nachhallzeit (200Hz - 4 kHz) 10 : 0,277 s Vorhang geschlossen 

empf. Nachhallzeit nach ITU: 0,31 s 

0,337 s Vorhang offen 

Der Hörtest wurde bei halb geschlossenem Vorhang durchgeführt. 

24

Abbildung 8: Der Seminarraum 1 des Erich-Thienhaus-Instituts der Hochschule für 

Musik Detmold. 

Wie oben bereits erwähnt, wurden die Testpersonen zunächst kurz eingewiesen. Die 

Testpersonen wurden darauf aufmerksam gemacht, dass es ihre Aufgabe sei, sich bei 

jedem Beispielpaar für eines zu entscheiden. Während der Durchführung des Hörtests 

wurden die Testpersonen allein gelassen, damit sie sich nicht beobachtet und sich nicht 

in ihrer Verhaltensweise beeinträchtigt fühlen. 

In der Regel betrug die Testzeit nicht mehr als 25 Minuten, in einzelnen Fällen jedoch 

bis zu 45 Minuten. Jeder Testperson wurde jedoch so viel Zeit gewährt wie benötigt. Die 

Abhörlautstärke (in der Regel im Bereich von 70 dB) wurde der jeweiligen Testperson 

überlassen. 

4.3 Vortests 

Den endgültigen Hörtests gingen mehrere Vortests voraus, um zum einen die Kriterien 

zu optimieren, anhand welcher die Testperson die Entscheidung zwischen den angebo- 

tenen Beispielen treffen sollte und zum anderen um sicher zu stellen, dass die Länge 

der vorgegebenen Audiobeispiele für den Entscheidungsprozess der Testperson passend 

gewählt sind. 

Diese Vortests wurden sowohl an den Referenz-Regielautsprechern RL901K im Semi- 

narraum 1 als auch an Kopfhörern (AKG501) durchgeführt und es wurde dabei fest- 

gestellt, dass diese beiden Abhörbedingungen keine wesentlichen Unterschiede in den 

Ergebnissen verursachen. Dies ist ein wichtiger Punkt, denn die Tests wurden zum Teil 

per Post verschickt, so dass diese auf verschiedene Art und Weise abgehört wurden. 

5 Auswertung 

5.1 Allgemeines zur Auswertung des Hörtests 

Das Ziel des vorliegenden Hörvergleichs ist es, herauszufinden, ob es einen klanglichen 

Unterschied zwischen Mode 1 und 2 der AES42-Betriebsmodi in der Aufnahme mit di- 

25

gitalen Mikrofonen gibt. Wird ein klanglicher Unterschied wahrgenommen, stellt sich 

die Frage, ob diese Beobachtung reproduzierbar ist, um ein Ergebnis des Zufalls aus- 

schließen zu können. 

Der Hörtest wurde nach dem Prinzip der ” Signalentdeckungstheorie“ (siehe Kapitel 

3.1) speziell für die Zwecke der oben genannten Untersuchung zusammengestellt. Wie 

bereits oben genannt bezeichnet der ” Reiz“ , der hier dargeboten wird, den anzuneh- 

menden klanglichen Unterschied der Aufnahme, der durch zusätzliches Verwenden von 

SRC am Eingang des Anschlussgerätes verursacht wird. Die Hypothese, die aufgestellt 

wird, lautet daher: ” Es gibt hörbar klangliche Unterschiede zwischen der Aufnahme im 

Mode 1 und der Aufnahme in Mode 2“ . 

Ob diese Hypothese sich anhand der Hörtest-Auswertung bestätigen lässt, hängt zum 

einem von den Reizintensitäten und zum anderen von der Hörempfindlichkeit der Ver- 

suchspersonen ab. 

Die Auswertungen werden im Folgenden in Prozentsätzen angegeben. 

Ab welchem Prozentwert die Auswertung des vorliegenden Hörtests als signifikant, also 

eindeutig als Unterschiedserkennung zu bewerten ist, muss für diesen speziellen Hörtest 

angepasst beurteilt werden. Das allgemein geltende ” Signifikanzniveau“ des klassischen 

Verfahrens, die ” 5%-Hürde für die Irrwahrscheinlichkeit“ ([9] S.30), kann hier nicht an- 

gewandt werden, da sich der vorliegende Test im Unterschiedsschwellenbereich bewegt 

(siehe Kapitel 3.1). 

5.2 Deskriptive Auswertung 

Es wurden insgesamt 50 Hörtests durchgeführt. Davon wurden 40 im Seminarraum 1 

des Erich-Thienhaus-Instituts an den oben genannten Lautsprechern ” RL901K“ durch- 

geführt und 10 außerhalb, davon 8 Tests am Kopfhörer und 2 Tests am eigenen Laut- 

sprecher. Die 50 Tests setzen sich zusammen aus 26 Hörtests vom Typ A und 24 

Hörtests vom Typ B. Betrachtet man jedes einzelne Beispielpaar als eigene Wertung, 

so erhält man aus den 50 Tests 1000 Wertungen (50 Tests x 20 Beispielpaare). 

In der Auswertung werden die Kategorien folgendermaßen bezeichnet: 

a: Die Quelle scheint näher zu sein; 

b: Es klingt luftiger/ offener; 

c: Es klingt klarer 

d: Es klingt natürlicher (auf das Rauschen achten) 

Aufgrund von technischen Fehlern konnten die Beispiele mit den Klavier-Aufnahmen 

(96 Wertungen) nicht in die Auswertung einbezogen werden. 

Insgesamt wurden in der Kategorie a 834, b 884, c 886 und d 256 Wertungen abge- 

geben 11 . Die Differenz zu 904, der gesamten Anzahl der Wertungen (1000 Wertungen 

11 Klavier-Beispiele bereits herausgenommen 

26

- 96 Wertungen der Klavier-Beispiele), sind die fehlenden Werte; entweder von der 

Testperson nicht bewertet oder im Test nicht zur Bewertung angeboten (die Kategorie 

” Rauschen“ wurde nur bei Bespielen mit wenig Signal und gut hörbarem Raumrauschen 

angeboten). 

Nach der deskriptiven Auswertung der Hörtests zeigt sich zunächst in keiner Kate- 

gorie eine eindeutige bzw. ausschlaggebende Tendenz zu einer der beiden Aufnahme- 

Modi. In der Gesamtauswertung (siehe Tabelle 3), in der alle Ergebnisse 12 enthalten 

sind, sowohl die des Hörtests A als auch des Hörtests B, ergibt sich folgendes 13 : 

——Auswertung der Ergebnisse, Hörtest A und B—— 

näher luftiger klarer natürlicher 

Gesamtauswertung W 46,5% (388) W 49,1% (434) W 49,4% (438) W 51,6% (132) 

Hörtest A und B S 53,5% (535) S 50,9% (450) S 50,6% (448) S 48,4% (124) 

Auswertung W 46,0% (219) W 49,6% (256) W 49,5% (255) W 50,0% (80) 

Hörtest A S 54,0% (257) S 50,4% (260) S 50,5% (260) S 50,0% (80) 

Auswertung W 47,2% (169) W 48,4% (178) W 49,3% (183) W 54,2% (52) 

Hörtest B S 52,8% (189) S 51,6% (190) S 50,7% (188) S 45,8% (44) 

Tabelle 3: Auswertung der Ergebnisse, Hörtest A und B. Die Anzahl der Wertungen 

sind in Klammern angegeben; W: WCLK, S: SRC 

Obwohl viele der Testpersonen nach den Tests mitteilten, dass sie am Klang des 

Rauschens Unterschiede hätten deutlich festmachen können, zeigt die Auswertung in 

dieser Kategorie kein eindeutiges Bevorzugen eines der Aufnahme-Modi. Es ist inter- 

essant zu beobachten, dass es einen deutlichen Unterschied zwischen den Ergebnissen 

von Test A und B in der Kategorie d: ” Es klingt natürlicher (auf das Rauschen achten)“ 

gibt. Während sich bei Test A eine Verteilung von 50% zu 50% zeigt, zeigt sich bei Test 

B eine Tendenz von 54,2% zu Aufnahmen in Mode 2. Möglicherweise sind im Hörtest 

B mehr Beispiele enthalten, bei denen die Unterschiedschwelle wegen größerer Rei- 

zintensität stärker überschritten werden. Diese beiden Prozentsätze bilden zusammen 

in ihrem arithmetischen Mittelwert eine relativiertes Ergebnis von 51,6% für WCLK. 

Auch wenn diese Tendenz sehr gering ist, ist es interessant zu sehen, dass bei der Ge- 

samtauswertung der Antworten aller Testpersonen der Klang in Aufnahme-Mode 2 als 

natürlicher empfunden wird. 

12 bis auf die Klavier-Beispiele, da diese ja aus der Wertung herausgenommen wurden 

13 Es ist zu beachten, dass alle einzelnen Beispielpaare als eine Wertung gezählt werden, d.h. es 

ergeben sich 1000 Wertungen bei 50 Tests je 20 Beispielpaare 

27

In der Kategorie a: ” Es klingt näher“ ist eine gewisse Tendenz von 53,5% zu Auf- 

nahmen in Mode 1 zu erkennen. Sie ist zwar ebenfalls gering, dennoch ist die Tendenz 

auffällig (im Vergleich zu anderen Kategorien). Vor allem ist diese Tendenz hier sowohl 

in Test A als auch in Test B zu erkennen. 

Diese Beobachtung in der Kategorie a ist in Untersuchungen von Untergruppen immer 

wieder zu bestätigen. In dieser Kategorie zeigt sich die deutlichste Tendenz in der Ge- 

samtauswertung über alle Tests aller Testpersonen. 

Im Folgenden werden die Auswertungen in verschiedenen Untergruppen nacheinan- 

der im Überblick wiedergegeben. 

Zunächst werden die einzelnen Geräte mit ihren SRC betrachtet: 

——Auswertung der Ergebnisse einzelner Geräte—— 


Beispiele W 46,2% (108) W 49,0% (121) W 50,2% (125) W 56,4% (53) 

Nexus S 53,8% (126) S 51,0% (126) S 49,8% (126) S 43,6% (41) 


DM 1000 S 53,1% (172) S 52,9% (181) S 51,0% (176) S 51,6% (33) 


ADI-192DD S 53,6% (148) S 48,5% (143) S 50,7% (148) S 51,0% (50) 

Tabelle 4: Auswertung der Ergebnisse einzelner Geräte 

Hier fällt wieder die Tendenz in der Kategorie a zu den Aufnahmen in Mode 1 

(SRC) bei allen drei Geräten auf. Außerdem ist die Tendenz bei Kategorie d von 56,4% 

für Mode 2 (WCLK) bei den Beispielen, die mit Nexus aufgezeichnet sind, eindeutig 

größer als bei den anderen beiden Geräten. Bei DM 1000 und ADI-192DD zeigt sich 

in der Kategorie d sogar eine kleine Tendenz zu SRC-Aufnahmen, die Aufnahme mit 

WCLK wird also nicht bevorzugt. 

DM 1000 zeigt in allen vier Kategorien leichte Tendenzen zu SRC-Aufnahmen. In der 

Kategorie ” luftiger“ gibt es hier die größte Tendenz von 52,9% zu SRC-Aufnahmen. 

In den Abbildungen 9 bis 12 werden die Auswertungen der jeweiligen Kategorie einzel- 

ner Geräte grafisch veranschaulicht. 

In Tabelle 5 sind die sechs verschiedenen Quellen ausgewertet und gegenübergestellt. 

Die Ergebnisse der einzelnen Quellenarten unterscheiden sich in manchen Punkten. So 

ist hier auffällig, dass die Auswertung der Kategorie c bei dem Beispiel Violoncello die 

größte Tendenz überhaupt zeigt (63,9%). Dies ist bemerkenswert, zumal in der Ge- 

28

Abbildung 9: Grafik zur Veranschaulichung von Ergebnissen der verschiedenen Geräte: 

Kategorie a 


Kategorie b 

29


Kategorie c 


Kategorie d 

30

——Auswertung der Ergebnisse einzelner Schallquellen—— 


Gitarre W 47,2% (67) W 51,7% (78) W 49,3% (74) W 49,5% (47) 

S 52,8% (75) S 48,3% (73) S 50,7% (76) S 50,5% (48) 

Violoncello W 39,1% (36) W 51,0% (50) W 36,1% (35) no offer 

S 60,1% (56) S 49,0% (48) S 63,9% (62) no offer 

Sprache W 48,1% (111) W 49,2% (121) W 54,3% (134) W 51,9% (67) 

S 51,9% (120) S 50,8% (125) S 45,7% (113) S 48,1% (62) 

Oboe W 43,1% (81) W 52,2% (106) W 50,7% (102) no offer 

S 56,9% (107) S 47,8% (97) S 49,3% (99) no offer 

Gesang W 50,5% (46) W 44,2% (42) W 49,0% (48) no offer 

S 49,5% (43) S 55,8% (53) S 51,0% (50) no offer 

Streichorchester W 52,2% (47) W 40,7% (37) W 48,4% (45) W 60,0% (60) 

S 47,8% (43) S 59,3% (54) S 51,6% (48) S 40,0% (40) 

Tabelle 5: Auswertung der Ergebnisse einzelner Schallquellen 

samtauswertung in dieser Kategorie ein Ergebnis von nahezu 50% resultiert. Auch die 

Kategorie a zeigt bei der Quelle Vc die deutlichste Tendenz (60,1%). Beide Kategorien 

deuten auf eine Wertung zu Gunsten von Aufnahmen in Mode 1. In diesem Zusam- 

menhang sei erwähnt, dass es generell eine positive Korrelation zwischen der Kategorie 

a und c, näher und klarer, zu geben scheint. Dies ist hörpsychologisch bedingt, da das 

Beispiel, das näher zu sein scheint, als klarer empfunden wird. 

Weitere auffällige Tendenzen zeigen sich bei der Oboe in der Kategorie a: die Aufnah- 

men in Mode 1 werden zu 56,9% als näher empfunden. Weiterhin wurde der Klang der 

Aufnahmen mit WCLK beim Streichorchester-Beispiel zu 60% als natürlicher bewertet. 

In den Abbildungen 13 bis 16 werden die Auswertungen der jeweiligen Kategorie 

einzelner Quellen grafisch veranschaulicht. 

Da sich in der Auswertung einzelner Versuchspersonen eine gewisse Diskrepanz 

von Tendenzen zeigt, wurde eine zusätzliche gruppierte Auswertung vorgenommen, 

mit dem Ziel, herauszufinden, wie groß die jeweilige Tendenz in beide Richtungen ist. 

Die Ergebnisse, die eine 50 zu 50 Verteilung ergaben, wurden aus der Auswertung 

herausgenommen und die Wertungen wurden für jede Kategorie in zwei verschiedene 

Gruppen aufgeteilt: 1. Tendenzen < 50% und 2. Tendenzen > 50%. Die Werte der 

Ergebnisse sind in Tabelle 6 wiedergegeben 

Aus der Anzahl (in Klammern angegeben) der abgegebenen Wertungen in den bei- 

31

Abbildung 13: Grafik zur Veranschaulichung von Ergebnissen der verschiedenen Quelle: 

Kategorie a 


Kategorie b 

32


Kategorie c 


Kategorie d 

33

——Auswertung der Ergebnisse, Tendenz-Diskrepanz—— 


Ergebnisse W 40,4% (186) W 39,3% (148) W 40,5% (191) W 31,9% (15) 

< 50% S 59,2% (274) S 60,7% (229) S 59,5% (281) S 68,1% (32) 

Ergebnisse W 57,7% (142) W 60,4% (200) W 62,0% (202) W 63,2% (60) 

> 50% S 42,3% (104) S 39,6% (131) S 38,0% (124) S 36,8% (35) 

Tabelle 6: Auswertung der Ergebnisse, Tendenz-Diskrepanz 

den Tendenz-Gruppen erkennt man, dass in der Kategorie a, b und c die Gruppe der 

Tendenz < 50% größer ist; in der Kategorie d überwiegt die Gruppe der Tendenz > 

50%. Die Unterschiede der Wertungsanzahl der Kategorien b und c sind relativ gering, 

so dass man sie als nicht signifikant ansehen kann. Die Unterschiede der Wertungs- 

anzahl der Kategorien a und d allerdings lassen sich interpretieren. Die Tendenz der 

Empfindung der Nähe der Quelle geht zu 65,15% zu Gunsten der Aufnahmen in Mode 

1, mit SRC (Tendenzgruppe < 50%). Für den natürlichen Klang mit besonderer Auf- 

merksamkeit auf das Raumrauschen werden die Aufnahmen in Mode 2, mit WCLK 

(Tendenzgruppe > 50%), von der Mehrzahl der Versuchspersonen bevorzugt. 

Zur Vollständigkeit sei die Anzahl der =50% Wertungen aufgelistet: a N = 120; b N = 

200; c N = 100; d N = 280. 

Es gibt zwei von der allgemeinen Gesamtauswertung abweichende Sonderfälle. Ein 

Test ist durch seine überdurchschnittlich eindeutigen Tendenzen im Ergebnis aufgefal- 

len: Vp 18 (Test B). 

Die Ergebnisse des Tests B lauten: 

Kategorie a: W: 20%, S: 80% 

Kategorie b: W: 80%, S: 20% 

Kategorie c: W: 20%, S: 80% 

Da diese Vp sowohl am Test B als auch am Test A teilgenommen hatte, wurden 

die Ergebnisse des Tests A 14 ebenfalls genauer betrachtet. 

Die Ergebnisse des Tests A lauten: 




Im Ergebnis des Tests A zeigt sich keine so eindeutige Tendenz mehr, gleichwohl 

ist sie vorhanden. 

14 für Test A wird die Person unter der Vp Nummer 33 geführt 

34

Um beurteilen zu können, ob dieses Einzelergebnis signifikant ist oder ob es sich ledig- 

lich um einen ” Zufall“ handelt, wurde diese Person nochmals dem Hörtest unterzogen 

(ebenfalls für den Test B). Zwischen dem ersten und zweiten Test B liegt ein Zeitraum 

von über einem Monat, so dass nicht zu befürchten ist, dass die Person den ersten Test 

dubliziert. Beim zweiten Test relativierte sich das Ergebnis, jedoch zeigt sich da auch 

eine eindeutige Tendenz: 




Kategorie d: W: 54,54%, S: 45,46% 

Alle drei Ergebnisse zeigen die Tendenz in gleicher Richtung auf. Daher ist anzu- 

nehmen, dass die Versuchsperson die Aufnahme-Modi zu unterscheiden weiss. Welchen 

Modus die Vp 18 bzw. 33 ” bevorzugt“ , sei hier nicht ausschlaggebend. Es geht in 

diesem Test in erster Linie um die Frage, ob und wenn ja, wie signifikant, im kritischen 

Hören geübte Personen im Stande sind, den Unterschied festzustellen. 

Es gibt auch weitere vereinzelte Ergebnisse bei anderen Versuchspersonen, die ebenfalls 

eine deutliche Tendenz < oder > 50% aufzeigen, jedoch geschieht dies nur in einzelnen 

Kategorien. 

Überdurchschnittlich große Tendenzen, die sich vereinzelt in verschiedenen Kategorien 

bei verschiedenen Versuchspersonen zeigen: 

Kategorie a: Es klingt näher 

Vpn 18: W: 20%, S: 80% 

Vpn 22: W: 25%, S: 75% 

Vpn 25: W: 25%, S: 75% 

Vpn 28: W: 30%, S: 70% 

Kategorie b: Es klingt luftiger/ offener 

Vpn 1: W: 20%, S: 80% 

Vpn 9: W: 75%, S: 25% 

Vpn 18: W: 80%, S: 20% 

Vpn 19: W: 22,2%, S: 77,8% 

Vpn 32: W: 30%, S: 70% 

Kategorie c: Es klingt klarer 

Vpn 3: W: 70%, S: 30% 

Vpn 15: W: 70%, S: 30% 

Vpn 18: W: 20%, S: 80% 

Vpn 21: W: 30%, S: 70% 

Vpn 26: W: 70%, S: 30% 

Vpn 36: W: 75%, S: 25% 

Kategorie d: Es klingt natürlicher/ Rauschen 

35

Vpn 31: W: 70%, S: 30% 

Vpn 42: W: 30%, S: 70% 

Vpn 44: W: 30%, S: 70% 

Vpn 49: W: 30%, S: 70% 

Im Vergleich der Ergebnisse fällt es auf, dass die Tendenzen innerhalb der selben 

Kategorien zum Teil gegensätzlich sind. Es ist anzunehmen, dass das Verständnis der 

Kategorien bei den verschiedenen Versuchsperson differiert, da jede andere Vorausset- 

zungen, Erwartungen und Hörerfahrungen zum Test mitbringt. 

Es ist aber auch möglich, diese Gegebenheit anders zu interpretieren. Es ist ebenso 

denkbar, dass die ausgewählten Kategorien, die im Test zur Beurteilung vorgegeben 

wurden, nicht ideal geeignet sind. Möglicherweise sind sie nicht eindeutig zu verstehen; 

es gibt zu viel Spielraum für die Auslegung der Kategorien. 

Die Kategorie a (näher) zeigt in allen vier oben genannten Fällen die Tendenz zu Auf- 

nahmen mit SRC. Diese Kategorie ist also wohl eindeutig zu verstehen. 

In den Kategorien b und c gibt es sowohl Tendenz zu Aufnahmen mit WCLK als auch 

zu Aufnahmen mit SRC. 

Die Tendenz bei der Kategorie d scheint bei den überdurchschnittlich großen Tenden- 

zen eher zu Gunsten der Aufnahmen mit SRC zu gehen. 

Es kann außerdem sogar zum Variieren bzw. zur Verschiebung des Verständnisses kom- 

men, da es sich um sensorische Empfindungs-Fragen handelt. 

Der zweite Sonderfall ist nicht durch ein überdurchschnittliches Ergebnis in der all- 

gemeinen Gesamtauswertung aufgefallen, sondern durch differenzierte Anmerkungen 

zu den einzelnen Beispielpaaren. Versuchsperson 17 bzw. 42 (diese beiden Vp Num- 

mern entsprechen der gleichen Person, da sie an beiden Tests, A und B, teilgenommen 

hat) notierte am Rand des Hörtestbogens, bei welchen Paaren sie meint, Unterschiede 

tatsächlich hören zu können. Sie führte sowohl Test A als auch Test B durch und von 

den insgesamt 40 Paaren griff sie 5 Paare heraus, bei denen sie meinte, tatsächlich 

Unterschiede feststellen zu können. Hier zeigte sich ihre Tendenz eindeutig zu den Auf- 

nahmen mit WCLK. Das Ergebnis lautet 4:1 für WCLK. Diese Beispiele sind folgende: 

aus Test A Track 5/6: Gitarre aufgenommen mit Nexus 

Track 35/36: Gitarre aufgenommen mit ADI-192DD 

aus Test B Track 7/8: Sprache aufgenommen mit DM 1000 

(hier entschied sich die Vpn für die Aufnahme mit SRC) 

Track13/14: Streichorchester aufgenommen mit Nexus 

Track 29/30: Sprache aufgenommen mit DM 1000 

(das inverse Beispiel zu Track 7/8) 

36

Für diese Person wurde ein neuer Hörtest erstellt, in dem nur die besagten 5 Paare 

zur Bewertung angeboten wurden. Jedes dieser Beispiele wurde je viermal in verschie- 

denen Paarungen angeboten. 

Die Auswertung dieses Tests ergibt: 


Kategorie b: W: 45%, S: 55% 15 


Kategorie d: W: 65%, S: 35% 

Die Versuchsperson kommentierte wieder die einzelnen Beispiele und zählte je Au- 

diobeispiel die von ihr favorisierte Version auf. Bis auf ein Beispiel (Gitarre Aufnahme 

mit ADI-192DD) entschied sie sich zu 100% für Aufnahmen mit WCLK. Beim Bei- 

spiel der Gitarren-Aufnahme mit ADI-192DD entschied sich die Person jedes mal für 

die Aufnahme mit SRC, so dass man mit Sicherheit behaupten kann, dass diese Person 

in der Lage ist, zwischen den Aufnahme-Modi mit großer Sicherheit zu unterscheiden 

und diese Unterscheidung sogar sicher zu reproduzieren. 

Die Versuchsperson traf ihre Entscheidungen anhand von Unterschieden, die sie wahr- 

genommen hat, diese sind die Präsenzanhebung bei den Aufnahmen mit SRC (Audio- 

beispiele: Sprache und Gitarre) und die bessere Tiefenabbildung bei Aufnahmen mit 

WCLK (Audiobeispiel: Streichorchester). 

Es ist noch zu erwähnen, dass die Person den Test nicht am Erich-Thienhaus-Institut 

durchgeführt hat, sondern am eigenen Lautsprecher, der mit großer Wahrscheinlichkeit 

nicht der Qualität des ” RL901K“ Lautsprechers entsprechen wird. 

Da die Möglichkeit bestand, die anderen Versuchspersonen könnten genau bei den 

von der Vp 17 bzw. 42 herausgesuchten Beispielen ebenfalls deutlichere Unterschiede 

der Aufnahme-Modi gehört haben, wurden diese Beispiele einzeln ausgewertet. Die 

erwähnenswerten Ergebnisse sind in der Tabelle 7 eingetragen. 

In diesem Zusammenhang wurden auch alle anderen Gerät-Quelle-Kombinationen 

einzeln ausgewertet und es ergaben sich tatsächlich eine bessere Übersicht. Nun gelingt 

eine Aussage über die einzelnen Geräte. Zur Veranschaulichung sind Grafiken der Aus- 

wertungen des jeweiligen Geräts unten in den Abbildungen 17 bis 19 angegeben. 

Bei Nexus sieht man bei Oboe (64,6% für SRC) und Gitarre (56,3% für SRC) eine 

Tendenz in der Kategorie a. In der Kategorie b sind sich bei Aufnahmen von Sprache 

(59,6% für WCLK) und Streichorchester (59,3% für SRC) verschiedene Tendenzen 

bemerkbar. Bei der Frage nach dem klareren Klang zeigt sich so gut wie keine Tendenz, 

in keiner Quellen-Art. Sowohl bei der Sprache (62,5% für WCLK) als auch bei dem 

15 luftiger/ offener wurde nicht unbedingt als positiv bewertet, eher als eine Art Sirren und negativ 

auffällige Verstärkung von Zischlauten bei Sprach-Beispielen 

37

——Auswertung der Ergebnisse, 4 bestimmte Kombinationen—— 


DM 1000 W 45,4% (44) W 60,2% (59) W 45,5% (15) 

Sprache S 54,6% (53) S 39,8% (39) S 54,5% (18) 

Nexus W 40,7% (37) W 60,0% (18) 

Streichorchester S 59,3% (54) S 40,0% (12) 

Nexus W 43,8% (21) 

Gitarre S 56,3% (27) 

ADI-192DD W 57,7% (30) 

Gitarre S 42,3% (20) 

Tabelle 7: Auswertung der Ergebnisse, 4 bestimmte Kombinationen 

Streichorchester (60% für WCLK) wird für den natürlichen Klang (mit besonderer 

Aufmerksamkeit auf das Rauschen) mit einer sehr deutlichen Tendenz die Aufnahme 

mit WCLK bevorzugt. 

Bei DM 1000 fällt das Violoncello in der Kategorie a mit der Tendenz von 68,1% 

für SRC sehr deutlich auf. In der Kategorie b, in der es um den luftigen bzw. offenen 

Klang geht, fallen mehrere Instrumente auf: Oboe mit 55,8% für SRC, Sprache mit 

54,6% für SRC, Gesang mit 55,8%für SRC und Violoncello entgegengesetzt mit 56,9% 

für WCLK. Es fallen in der dritten Grafik ” klarer“ die Oboe mit 53,8% für SRC und 

die Sprache mit 60,2% für WCLK auf. Für den natürlichen Klang wird bei der Sprache 

zu 54,5% für Aufnahmen mit SRC gestimmt. 

ADI-192DD zeigt in der Kategorie a nur für die Oboe mit 55,6% für SRC eine 

erwähnenswerte Tendenz. Bei der Frage nach dem luftigen Klang fällt das Violoncello 

mit 55,3% für SRC auf sowie die Oboe mit 55,6% für WCLK und die Gitarre mit 57,7% 

für WCLK. Für den klareren Klang zeigt das Violoncello-Beispiel eine Tendenz zu SRC 

mit 58,7%. Der Klang wird bei beiden Aufnahme-Modi als natürlich empfunden. 

38

5.3 Interpretative Auswertung 

Aufgrund der Gesamtauswertung der Hörtests kann die Hypothese nicht für allgemein 

gültig erklärt werden. Die Mehrheit der Versuchspersonen ist nicht in der Lage, bei ei- 

ner Gegenüberstellung der beiden Aufnahme-Modi einen Unterschied festzustellen. Die 

Hypothese kann aber auch nicht gänzlich für allgemein ungültig erklärt werden, denn 

bestimmte Personen sind in der Lage, klangliche Unterschiede der Aufnahme-Modi zu 

erkennen und diese Erkennung zu reproduzieren. 

Die Berechnung des arithmetischen Mittelwerts von allen Hörtests ergibt keine Tenden- 

zen, die aussagekräftig wären. Die Mittelwerte weichen maximal 3,5% von der Mitte, 

also 50%, ab. 

Bei näherer Betrachtung der Untergruppen der Hörtests, also Untersuchungen einzel- 

ner Geräte und Quellen, zeigen sich vereinzelte Tendenzen, die zwar nicht sehr groß 

sind aber sich durchaus aus der Menge des mittleren Durchschnitts (50%) hervorheben. 

Bei der genaueren Betrachtung der drei verwendeten Geräte fällt in der Gesamt- 

auswertung keine wirklich ausschlaggebende Tendenz auf. Doch geht man weiter in die 

Details hinein, zeigen sich bestimmte Merkmale (Vergleiche Abbildungen 17 - 19). 

Besonders bei der Frage nach dem natürlichen Klang zeigt sich bei Nexus der Firma 

Stage Tec die Bevorzugung von Aufnahmen im Modus 2, mit WCLK. Die Tendenzen 

betragen beim Streichorchester 60% und bei der Sprache sogar 62,5%. Das ist ein nicht 

zu vernachlässigendes Ergebnis. 

Bei Aufnahmen mit dem digitalen Pult DM 1000 von Yamaha zeigen viele Instrumente 

zu erwähnende Tendenzen auf (siehe Kapitel 5.2, 18). Die Kombination Violoncello und 

DM 1000 scheint den klanglichen Unterschied der Aufnahmen im Modus 1 und 2 gut 

erkennbar zu machen. Die Sprache zeigt ebenfalls in den Kategorien b und c eindeutige 

Unterschiede auf. An der Gesangstimme erkennt man auch eine Tendenz in der Frage 

nach dem luftigen Klang. 

Der Formatwandler ADI-192DD der Firma RME lässt keinen Unterschied im natürlichen 

Klang erkennen. Dafür zeigen sich in den Kategorien b und c bei den verschiedenen 

Instrumenten deutbare Tendenzen. 

Das Instrument Violoncello fällt bei den beiden letzteren Geräten in verschiedenen 

Kategorien mit relativ großen Tendenzen auf. Dabei stimmen aber die Tendenzrichtun- 

gen nicht immer überein. Bei der Frage nach dem luftigeren Klang gehen die Tendenzen 

auseinander. Möglicherweise sind bei dem obertonreichen Instrument die möglichen Un- 

terschiede im Frequenzgang und in der Klangfarbe gut zu erkennen ([12] S.83). 

Wie bereits oben erwähnt, zeigen sich bei der Kategorie a die größten Tendenzen, 

stets für Aufnahmen im Modus 1. Die Kategorie a: ” Es klingt näher“ ist eigentlich 

nicht wertend aufzufassen. Es ist lediglich eine Kategorie zur Feststellung, ob man 

39

Percent 

Percent 

70 

60 

50 

40 

30 

20 

10 

0 

60 

50 

40 

30 

20 

10 

0 

WC LK 

naeher 

klarer 

WCLK 

SRC 

SRC 

Instrumente 

Gitarre 

Sprache 

Oboe 

Streichorchester 

Instrumente 

Gitarre 

Sprache 

Oboe 


Percent 

Percent 

70 

60 

50 

40 

30 

20 

10 

0 

70 

60 

50 

40 

30 

20 

10 

0 

luftiger 

WCLK 

WCLK 

natürlicher/ Rauschen 

SRC 

SRC 

Instrumente 

Gitarre 

Sprache 

Oboe 


Instrumente 

Gitarre 

Sprache 


Abbildung 17: Grafiken: Auswertungen von bestimmten Kombinationen von Nexus und 

verschiedenen Quellen 

40

Percent 

Percent 

80 

70 

60 

50 

40 

30 

20 

10 

0 

80 

60 

40 

20 

0 

WC LK 

naeher 

klarer 

WCLK 

SRC 

SRC 

Instrumente 

Gitarre 

Vc 

Sprache 

Oboe 

Gesang&Klav ier 

Instrumente 

Gitarre 

Vc 

Sprache 

Oboe 


Percent 

Percent 

60 

50 

40 

30 

20 

10 

0 

60 

50 

40 

30 

20 

10 

0 

luftiger 

WC LK 

WCLK 


SRC 

SRC 

Instrumente 

Gitarre 

Vc 

Sprache 

Oboe 


Instrumente 

Abbildung 18: Grafiken: Auswertungen von bestimmten Kombinationen von DM 1000 

und verschiedenen Quellen 

41 

Gitarre 

Sprache

Percent 

Percent 

60 

50 

40 

30 

20 

10 

0 

60 

50 

40 

30 

20 

10 

0 

naeher 

klarer 

WCLK 

WCLK 

SRC 

SRC 

Instrumente 

Gitarre 

Vc 

Sprache 

Oboe 

Instrumente 

Gitarre 

Vc 

Sprache 

Oboe 

Percent 

Percent 

60 

50 

40 

30 

20 

10 

0 

60 

50 

40 

30 

20 

10 

0 

luftiger 

WCLK 

WCLK 


SRC 

SRC 

Instrumente 

Gitarre 

Vc 

Sprache 

Oboe 

Instrumente 

Abbildung 19: Grafiken: Auswertungen von bestimmten Kombinationen von ADI- 

192DD und verschiedenen Quellen 

42 

Gitarre 

Sprache

einen Unterschied in der klanglichen Abbildung wahrnehmen kann, ohne im Voraus zu 

wissen, ob der SRC die Abbildung positiv oder negativ beeinflusst. Die Aufnahmen im 

Modus 1 (mit SRC) scheinen also in ihrer Tiefenabbildung der Quelle zu beeinflusst 

zu werden. Sie klingen näher, was mit ” flacher“ , weniger Tiefenabbildung ” übersetzt“ 

werden kann. 

In der Kategorie b: ” Es klingt luftiger“ zeigt sich nur in zwei bestimmten Untergrup- 

pen eine erwähnenswerte Tendenz: bei den Gesang-Aufnahmen (55,8% für SRC) und 

den Streichorchster-Aufnahmen (59,3% für SRC). Es ist fraglich, ob diese zwei Tenden- 

zen aussagekräftig genug sind, um eine Aussage treffen zu können. Da es sich jedoch um 

eine Auswertung von allen Tests handelt, kann dieser Mittelwert über alle Tests nicht 

unbeachtet bleiben. Die Tendenz geht hier ebenfalls zu Gunsten der Aufnahmen im 

Modus 1. Man könnte vermuten, dass es durch den zusätzlichen Einsatz von SRC zur 

verzerrten Wiedergabe von hohen Frequenzen kommt, da die Obertöne verstärkt wer- 

den. Es sind Spektralanalysen (FFT) von Aufnahmen in beiden Modi gemacht worden, 

woraus man aber keine auffälligen Spektralunterschiede erkennen konnte. Also bleibt 

die Verzerrung von hohen Frequenzen eher eine Vermutung, ein Versuch, diese Tendenz 

zu erklären. 

Diese Vermutungen über die Ergebnisse in den Kategorien a und b würden der Be- 

obachtung der Versuchperson 17 bzw. 42 entsprechen. Sie nannte genau diese beiden 

Merkmale, an denen sie sich orientiert habe: die Präsenzanhebung und die Tie- 

fenabbildung. 

Bei der Kategorie c: ” Es klingt klarer“ zeigen sich folgende Tendenzen in zwei ver- 

schiedenen Untergruppen: bei den Violoncello-Aufnahmen (63,9% für SRC) und bei 

den Sprache-Aufnahmen (54,3% für WCLK). Hier gehen die Tendenzen in entgegen- 

gesetzte Richtungen. Diese Kategorie scheint entweder nicht eindeutig aufzufassen zu 

sein oder sie äußert sich je nach Art der Quelle/Instrumente verschieden. 

Die Kategorie d: ” Es klingt natürlicher (auf das Rauschen achten)“ zeigt in der 

Gesamtauswertung keine wirkliche Tendenz (51,6% für WCLK). Bei Fallunterschei- 

dungen sieht man bei der Auswertung von Test B (54,2% für WCLK), der gesonderte 

Auswertung von Aufnahmen mit Nexus (56,4% für WCLK) und der Auswertung von 

Streichorchester-Aufnahmen (60% für WCLK) eine Tendenz, die etwas größer ist als 

die in den restlichen Fällen. Hier gehen die Tendenzen alle in Richtung des Aufnahme- 

Modus 2, mit WCLK. Es stellt sich die Frage, ob der SRC eine Verschlechterung des 

Raumrauschens verursacht (Vgl. Kapitel 2.4). 

Es scheint für ein geübtes Gehör sehr wohl möglich zu sein, gewisse Unterschiede 

43

zwischen den Aufnahmen in den verschiedenen Modi festmachen zu können, wenn auch 

nicht mit bestimmter, größter Sicherheit in der Mehrheit. Bei Aufnahmen (im Modus 

1) mit bestimmen Geräten in Kombination mit bestimmten Instrumenten wird der 

Unterschied möglicherweise hörbar. Ob man den klanglichen Unterschied wahrnimmt 

oder nicht, hängt im wesentlichen von der Qualität des verwendeten Geräts und seinem 

SRC ab, aber auch die Art von Schallquelle scheint eine Rolle zu spielen. 

Man kann auf kleine Qualitätsunterschiede der Geräte und deren SRC schließen. Wenn 

es um die Frage nach dem natürlichen Klang geht, scheint der SRC des Nexus den 

eindeutigsten klanglichen Unterschied zu verursachen. In der Frage nach dem lufti- 

gen Klang zeigt sich bei DM 1000 die größte Tendenz, besonders in Kombination mit 

Violoncello. In der Kategorie a, wo es um die Frage der Tiefenabbildung geht, zeigen 

alle drei Geräte die gleiche Tendenz auf, so dass man sogar eine allgemeine Aussa- 

ge treffen kann: Die Benutzung von SRC verursacht eine kleine aber immerhin bei 

allen drei Geräten gleichartig wahrnehmbare verzerrte Wiedergabe der Tiefenabbil- 

dung (die Tiefe des Raumes verringert sich). Die in den Vorüberlegungen zum Hörtest 

eher ausgeschlossenen vage Vermutung über die Verzerrung von hohen Frequenzen ist 

möglicherweise doch in bestimmen Fällen (Nexus: Streichorchester; DM 1000: Sprache, 

Oboe, Gesangstimme; ADI-192DD: Violoncello, Sprache) anzunehmen. 

Man kann keine allgemeine Aussage über die Qualität der jeweiligen Abtastratenwand- 

ler der drei Geräte treffen. Sie scheinen auf verschiedene Weise unterschiedlich auf ver- 

schiedene Signale zu reagieren. Eine allgemeine Aussage ist schwer zu treffen. Es ist 

jedenfalls ersichtlich, dass alle drei Abtastratenwandler eine gewisse Veränderung des 

Originalsignals zu verursachen, die bei bestimmten Gegebenheiten sogar auditiv wahr- 

zunehmen sind. 

Der klangliche Unterschied, der durch den SRC verursacht wird, ist nicht auffällig, 

insbesondere nicht negativ. Manche Personen empfinden die Präsenzanhebung sogar 

angenehm. Gerade in der Frage nach dem natürlichen Klang ist keine negative Tendenz 

für die Aufnahmen im Modus 1 erkennbar. 

6 Fazit 

Die Testpersonen erkennen im Allgemeinen keinen eindeutigen Unterschied zwischen 

den Aufnahmen mit und ohne Abtastratenwandler. Bei Untersuchungen verschiedener 

differenzierter Zusammenhänge werden die klanglichen Unterschiede zwischen den Auf- 

nahmen im Modus 1 und 2 deutlicher ersichtlich. Da diese Unterschiede, die durch SRC 

entstehen, nicht von jedem als negativ empfunden werden und diese Unterschiede sehr 

gering sind, so dass nicht mal die Mehrheit der im kritischen Hören geübte Tonmeister- 

Studenten signifikante Unterschiede feststellen können, kann man die Aussage treffen, 

44

dass die SRC in den getesteten Geräten von hoher Qualität sind. Es gibt jedoch hörbare 

klangliche Unterschiede, die von SRC verursacht werden (siehe Kapitel 5.3). Eine Ab- 

tastratenwandlung ist daher eine zusätzliche potentielle Fehlerquelle. Es existieren auf 

dem Markt noch weitere digitale Mikrofone, wobei nicht alle beide Aufnahme-Modi 

im AES42-Standard anbieten, sondern nur den Modus 1. In diesen Fällen wird dann 

unbedingt ein SRC am Anschlussgerät benötigt. und zweitens vertraut man bereits auf 

die mittlerweile weit entwickelte, qualitativ hochwertige SRC. 

Die in dieser Arbeit untersuchten Geräte sind von hoher Qualität. Selbst bei diesen 

hochwertigen SRC werden bestimmte Signale verändert, auch wenn diese Änderungen 

nicht immer eindeutig hörbar sind. 

Aus den Ergebnissen des Hörtests ist ersichtlich, dass es nicht zu signifikanten Pro- 

blemen führt, wenn SRCs verwendet werden, vorausgesetzt, sie sind hochwertig. 

Grundsätzlich sollte das Signal aber in seiner Audiobearbeitungskette so wenig wie 

möglich bearbeitet werden. Eine zusätzliche Abtastratenwandlung ist nun mal eine 

zusätzliche Fehlerquelle, die im Zweifel besser vermieden werden sollte. Im Aufnahme- 

Modus 1 ist man stets von der jeweiligen Qualität des Abtastratenwandlers abhängig. 

45

Abbildungsverzeichnis 

1 Veranschaulichung der oben genannten drei Fälle der Abtastratenwand- 

lung (aus [1] S. 138) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2 Veranschaulichung von verzerrtem Signal durch Jitter (nach [3] S. 223) 7 

3 Veranschaulichung vom Aufbau des Frames mit seinen Subframes (aus 

[1] S.451) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

4 technische Daten über SRC des ADI-192DD . . . . . . . . . . . . . . . 10 

5 Skizze des Signalflusses . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

6 Auszug aus dem Hörtest A zur Ansicht . . . . . . . . . . . . . . . . . . 23 

7 Zusatzinformation für den verschickten Hörtest . . . . . . . . . . . . . 24 

8 Der Seminarraum 1 des Erich-Thienhaus-Instituts der Hochschule für 

Musik Detmold. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

9 Grafik zur Veranschaulichung von Ergebnissen der verschiedenen Geräte: 

Kategorie a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 


Kategorie b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 


Kategorie c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 


Kategorie d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

13 Grafik zur Veranschaulichung von Ergebnissen der verschiedenen Quelle: 

Kategorie a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 


Kategorie b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 


Kategorie c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 


Kategorie d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

17 Grafiken: Auswertungen von bestimmten Kombinationen von Nexus und 

verschiedenen Quellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

18 Grafiken: Auswertungen von bestimmten Kombinationen von DM 1000 

und verschiedenen Quellen . . . . . . . . . . . . . . . . . . . . . . . . . 41 

19 Grafiken: Auswertungen von bestimmten Kombinationen von ADI-192DD 

und verschiedenen Quellen . . . . . . . . . . . . . . . . . . . . . . . . . 42 

Tabellenverzeichnis 

1 Vier mögliche Ausgänge des Signalentdeckungsexperiments im vorlie- 

genden Hörtest (nach [8] S.231) . . . . . . . . . . . . . . . . . . . . . . 16 

46

2 Liste über Aufnahmen zum Hörtest . . . . . . . . . . . . . . . . . . . . 19 

3 Auswertung der Ergebnisse, Hörtest A und B. Die Anzahl der Wertungen 

sind in Klammern angegeben; W: WCLK, S: SRC . . . . . . . . . . . . 27 

4 Auswertung der Ergebnisse einzelner Geräte . . . . . . . . . . . . . . . 28 

5 Auswertung der Ergebnisse einzelner Schallquellen . . . . . . . . . . . . 31 

6 Auswertung der Ergebnisse, Tendenz-Diskrepanz . . . . . . . . . . . . . 34 

7 Auswertung der Ergebnisse, 4 bestimmte Kombinationen . . . . . . . . 38 

Literatur 

[1] Watkinson, J.: The art of digital audio. Focal Press, Third Version, 2001. 

[2] Pohlmann, K.C.: Principles of digital audio. Mc Graw Hill, 2004. 

[3] Görne, T.: Tontechnik. Fachbuchverlag Leipzig, 2006. 

[4] Werwein, M.: ” Kapitel 17.1 und 17.2: Wandler.“ Digitale Audiotechnik: Wandler, 

Prozessoren, Systemarchitektur, 2007. 

[5] Recommendation ITU-R BS.1284-1*: General methods for the subjective as- 

sessment of sound quality. Rec. ITU-R BS.1284-1, 1997-2003. 

[6] Audio Engineering Society: AES Standard for Acoustics - Digital interface for 

microphones. AES, INC., New York, USA, 30.09.2003. 

[7] Audio Engineering Society: ” AES3-2003“ AES Recommanded Practice for Digital 

Audio Engineering - Serial transmission format for two-channel linearly represen- 

ted digital audio data. AES, INC., New York, USA, 09.09.2003. 

[8] Hellbrück, J.; Ellermeyer, W.: Physiologie, Psychologie und Pathologie. Hogrefe, 

2004. 

[9] Bortz, J.; Döring, N.: Forschungsmethoden und Evaluation für Human- und Sozi- 

alwissenschaftler. Springer, 2001. 

[10] Maiello, C.: Verhaltenswissenschaftliche Forschung für Einsteiger. VEP, 2006. 

[11] Kiesler; August, O. : ” Detmold Seminarraum 1 Referenz-Mehrkanalabhörraum: 

Akustischer Prüfbericht Nr. 1/2006. Geithain, 10.01.2006. 

[12] Meyer, J.: Akustik und musikalische Aufführungspraxis. Erwin Bochinsky, 1999. 

47

DA Myung.pdf - Erich-Thienhaus-Institut - Hochschule für Musik ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?