Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Feature Extraktion 57<br />
a <strong>und</strong> b stehen dabei für den Real- bzw. Imag<strong>in</strong>ärteil (ℜ(X), ℑ(X)) des komplexen<br />
Spektrums X des Signals x(t). Die Augenblicksfrequenzen drücken somit die momenta-<br />
nen Änderungsraten der Phase aus. Diese ist bei stabilen S<strong>in</strong>usoiden gleich der Frequenz<br />
ω der Bandmitte <strong>und</strong> vergrößert sich <strong>in</strong> ihrer Abweichung umso mehr, je schwankender<br />
das Signal ist.<br />
Mit Hilfe der Augenblicksfrequenzen werden <strong>in</strong> weiterer Folge stabile Kandidaten für<br />
Melodie <strong>und</strong> Bass aus dem Spektrum gefiltert. Die entsprechende Menge Ψ (t)<br />
f ergibt<br />
sich als<br />
Ψ (t)<br />
f<br />
= {ψ | λ(ψ, t) − ψ = 0, ∂(λ(ψ, t) − ψ)<br />
∂ψ<br />
< 0} (3.51)<br />
Die Energie Verteilungsfunktion der Frequenzen folgt daraus entsprechend folgender<br />
Formel.<br />
Ψ (t)<br />
p (ω) =<br />
<br />
| X(ω, t) | : wenn ωɛΨ (t)<br />
f<br />
0 : sonst<br />
(3.52)<br />
S<strong>in</strong>d alle möglichen Kandidaten ermittelt, werden sie <strong>in</strong> zwei Gruppen getrennt, je nach-<br />
dem ob sie für die Melodie- oder die Bass-Stimme <strong>in</strong> Frage kommen. Im ursprünglichen<br />
Verfahren aus [20] wird e<strong>in</strong>e Frequenz <strong>von</strong> 261.6Hz, was dem Ton c’ entspricht, als<br />
Schwellwert angenommen. Die Energieverteilungsfunktion wird nun für beide Gruppen<br />
e<strong>in</strong>erseits auf die cent-Skala übertragen <strong>und</strong> andererseits so normiert, dass die Summe<br />
der Energien aller Frequenzen e<strong>in</strong>es Frames stets 1 beträgt. Das Resultat zu e<strong>in</strong>em<br />
bestimmten Zeitpunkt t wird <strong>in</strong> der Folge mit p (t)<br />
Ψ (x) bezeichnet.<br />
3.6.1.2 Gr<strong>und</strong>töne<br />
Die zentrale Annahme ist nun jene, dass diese beobachtete Energieverteilung <strong>von</strong> ei-<br />
ner Menge an gewichteten Gr<strong>und</strong>frequenzen <strong>und</strong> deren Obertönen erzeugt wurde. Ziel<br />
ist es, alle Oberschw<strong>in</strong>gungen zu elim<strong>in</strong>ieren <strong>und</strong> lediglich die Gr<strong>und</strong>töne zu erhalten.<br />
Als Ausgangspunkt dazu dient e<strong>in</strong> statistisches Tonmodell. Die Wahrsche<strong>in</strong>lichkeit, dass<br />
e<strong>in</strong>e Frequenz x durch den Gr<strong>und</strong>ton F erzeugt wird, entspricht p(x | F ). Das Gesamtsi-