10.10.2013 Aufrufe

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Feature Extraktion 57<br />

a <strong>und</strong> b stehen dabei für den Real- bzw. Imag<strong>in</strong>ärteil (ℜ(X), ℑ(X)) des komplexen<br />

Spektrums X des Signals x(t). Die Augenblicksfrequenzen drücken somit die momenta-<br />

nen Änderungsraten der Phase aus. Diese ist bei stabilen S<strong>in</strong>usoiden gleich der Frequenz<br />

ω der Bandmitte <strong>und</strong> vergrößert sich <strong>in</strong> ihrer Abweichung umso mehr, je schwankender<br />

das Signal ist.<br />

Mit Hilfe der Augenblicksfrequenzen werden <strong>in</strong> weiterer Folge stabile Kandidaten für<br />

Melodie <strong>und</strong> Bass aus dem Spektrum gefiltert. Die entsprechende Menge Ψ (t)<br />

f ergibt<br />

sich als<br />

Ψ (t)<br />

f<br />

= {ψ | λ(ψ, t) − ψ = 0, ∂(λ(ψ, t) − ψ)<br />

∂ψ<br />

< 0} (3.51)<br />

Die Energie Verteilungsfunktion der Frequenzen folgt daraus entsprechend folgender<br />

Formel.<br />

Ψ (t)<br />

p (ω) =<br />

<br />

| X(ω, t) | : wenn ωɛΨ (t)<br />

f<br />

0 : sonst<br />

(3.52)<br />

S<strong>in</strong>d alle möglichen Kandidaten ermittelt, werden sie <strong>in</strong> zwei Gruppen getrennt, je nach-<br />

dem ob sie für die Melodie- oder die Bass-Stimme <strong>in</strong> Frage kommen. Im ursprünglichen<br />

Verfahren aus [20] wird e<strong>in</strong>e Frequenz <strong>von</strong> 261.6Hz, was dem Ton c’ entspricht, als<br />

Schwellwert angenommen. Die Energieverteilungsfunktion wird nun für beide Gruppen<br />

e<strong>in</strong>erseits auf die cent-Skala übertragen <strong>und</strong> andererseits so normiert, dass die Summe<br />

der Energien aller Frequenzen e<strong>in</strong>es Frames stets 1 beträgt. Das Resultat zu e<strong>in</strong>em<br />

bestimmten Zeitpunkt t wird <strong>in</strong> der Folge mit p (t)<br />

Ψ (x) bezeichnet.<br />

3.6.1.2 Gr<strong>und</strong>töne<br />

Die zentrale Annahme ist nun jene, dass diese beobachtete Energieverteilung <strong>von</strong> ei-<br />

ner Menge an gewichteten Gr<strong>und</strong>frequenzen <strong>und</strong> deren Obertönen erzeugt wurde. Ziel<br />

ist es, alle Oberschw<strong>in</strong>gungen zu elim<strong>in</strong>ieren <strong>und</strong> lediglich die Gr<strong>und</strong>töne zu erhalten.<br />

Als Ausgangspunkt dazu dient e<strong>in</strong> statistisches Tonmodell. Die Wahrsche<strong>in</strong>lichkeit, dass<br />

e<strong>in</strong>e Frequenz x durch den Gr<strong>und</strong>ton F erzeugt wird, entspricht p(x | F ). Das Gesamtsi-

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!