Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Feature Extraktion 56<br />
de drei Annahmen, die für die meisten Musikrichtungen jedoch ke<strong>in</strong>e E<strong>in</strong>schränkung<br />
darstellen.<br />
• Melodie- <strong>und</strong> Bass-Töne werden – wie <strong>in</strong> Abschnitt 2.2.3 beschrieben – jeweils<br />
<strong>von</strong> e<strong>in</strong>er Reihe an Obertönen begleitet.<br />
• Die Bassstimme ist <strong>in</strong> den tiefen Frequenzbereichen zu f<strong>in</strong>den; dagegen bewegt<br />
sich die Melodie <strong>in</strong> den mittleren bis hohen Bändern. Die Grenze ist unabhängig<br />
<strong>von</strong> den angewandten Algorithmen <strong>und</strong> durch e<strong>in</strong>en entsprechenden Parameter<br />
festzulegen.<br />
• Sowohl Melodie- als auch Bassstimme haben vorwiegend kont<strong>in</strong>uierliche Verläufe<br />
über die Zeit. An e<strong>in</strong>e Melodie-Note knüpft e<strong>in</strong>e andere an – ebenso folgt im<br />
Signal e<strong>in</strong> Melodie-Ton direkt auf den vorherigen. Pausen s<strong>in</strong>d die Ausnahme.<br />
3.6.1.1 Augenblicksfrequenzen <strong>und</strong> Kandidaten<br />
Gr<strong>und</strong>lage für alle weiteren Schritte der Methode ist die Transformation des Audiosi-<br />
gnals <strong>in</strong> den Frequenzbereich anhand der STFT <strong>und</strong> e<strong>in</strong>er Filterbank mit unterschied-<br />
lichen Frequenz-/Zeit-Auflösungen. Der dadurch erzielte Effekt ist mit jenem, der <strong>in</strong><br />
Abschnitt 3.2.5 beschriebenen, Constant Q Transformation zu vergleichen. Die Fre-<br />
quenzauflösung nimmt nach oben h<strong>in</strong> ab – so werden Bereiche, die das menschliche<br />
Gehör unschärfer wahrnimmt weniger genau erfasst als die unteren Frequenzbänder,<br />
bei denen der Mensch auch ger<strong>in</strong>ge Unterschiede gut erkennen kann. Der eigentliche<br />
Vorteil liegt <strong>in</strong> der M<strong>in</strong>imierung der Daten bei ausreichender Frequenzauflösung <strong>in</strong> al-<br />
len Bereichen.<br />
Anhand des Spektrums werden im nächsten Schritt die <strong>von</strong> Abe et al. <strong>in</strong> [1] vor-<br />
geschlagenen Augenblicksfrequenzen λ(ω, t) gemäß Formel 3.50 errechnet. Das Spek-<br />
trum als Ergebnis der STFT ist aufgr<strong>und</strong> <strong>von</strong> Unschärfen durch die verwendete Fens-<br />
terfunktion (vgl. Abschnitt 3.2.3) verschmiert. Gegen die somit relativ grobe Zeit-<br />
/Frequenzauflösung soll das IF (Instataneous Frequency) Spektrum Abhilfe schaffen,<br />
um Obertöne genau abgrenzen <strong>und</strong> identifizieren zu können.<br />
λ(ω, t) = ∂<br />
∂t arctan X(ω, t)e jωt<br />
= ω +<br />
∂b ∂a a ∂t − b ∂t<br />
a2 + b2 (3.50)