10.10.2013 Aufrufe

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Feature Extraktion 56<br />

de drei Annahmen, die für die meisten Musikrichtungen jedoch ke<strong>in</strong>e E<strong>in</strong>schränkung<br />

darstellen.<br />

• Melodie- <strong>und</strong> Bass-Töne werden – wie <strong>in</strong> Abschnitt 2.2.3 beschrieben – jeweils<br />

<strong>von</strong> e<strong>in</strong>er Reihe an Obertönen begleitet.<br />

• Die Bassstimme ist <strong>in</strong> den tiefen Frequenzbereichen zu f<strong>in</strong>den; dagegen bewegt<br />

sich die Melodie <strong>in</strong> den mittleren bis hohen Bändern. Die Grenze ist unabhängig<br />

<strong>von</strong> den angewandten Algorithmen <strong>und</strong> durch e<strong>in</strong>en entsprechenden Parameter<br />

festzulegen.<br />

• Sowohl Melodie- als auch Bassstimme haben vorwiegend kont<strong>in</strong>uierliche Verläufe<br />

über die Zeit. An e<strong>in</strong>e Melodie-Note knüpft e<strong>in</strong>e andere an – ebenso folgt im<br />

Signal e<strong>in</strong> Melodie-Ton direkt auf den vorherigen. Pausen s<strong>in</strong>d die Ausnahme.<br />

3.6.1.1 Augenblicksfrequenzen <strong>und</strong> Kandidaten<br />

Gr<strong>und</strong>lage für alle weiteren Schritte der Methode ist die Transformation des Audiosi-<br />

gnals <strong>in</strong> den Frequenzbereich anhand der STFT <strong>und</strong> e<strong>in</strong>er Filterbank mit unterschied-<br />

lichen Frequenz-/Zeit-Auflösungen. Der dadurch erzielte Effekt ist mit jenem, der <strong>in</strong><br />

Abschnitt 3.2.5 beschriebenen, Constant Q Transformation zu vergleichen. Die Fre-<br />

quenzauflösung nimmt nach oben h<strong>in</strong> ab – so werden Bereiche, die das menschliche<br />

Gehör unschärfer wahrnimmt weniger genau erfasst als die unteren Frequenzbänder,<br />

bei denen der Mensch auch ger<strong>in</strong>ge Unterschiede gut erkennen kann. Der eigentliche<br />

Vorteil liegt <strong>in</strong> der M<strong>in</strong>imierung der Daten bei ausreichender Frequenzauflösung <strong>in</strong> al-<br />

len Bereichen.<br />

Anhand des Spektrums werden im nächsten Schritt die <strong>von</strong> Abe et al. <strong>in</strong> [1] vor-<br />

geschlagenen Augenblicksfrequenzen λ(ω, t) gemäß Formel 3.50 errechnet. Das Spek-<br />

trum als Ergebnis der STFT ist aufgr<strong>und</strong> <strong>von</strong> Unschärfen durch die verwendete Fens-<br />

terfunktion (vgl. Abschnitt 3.2.3) verschmiert. Gegen die somit relativ grobe Zeit-<br />

/Frequenzauflösung soll das IF (Instataneous Frequency) Spektrum Abhilfe schaffen,<br />

um Obertöne genau abgrenzen <strong>und</strong> identifizieren zu können.<br />

λ(ω, t) = ∂<br />

∂t arctan X(ω, t)e jωt<br />

= ω +<br />

∂b ∂a a ∂t − b ∂t<br />

a2 + b2 (3.50)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!