Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Feature Extraktion 39<br />
di = ∆i − ro<strong>und</strong>(∆i) (3.26)<br />
mit diɛ[−0.5, 0.5[<br />
Um nun den Verstimmungsfaktor aller e<strong>in</strong>zelnen Peaks e<strong>in</strong>es Frames zu e<strong>in</strong>er Zahl<br />
zu akkumulieren, wird e<strong>in</strong> Histogramm mit e<strong>in</strong>er, der nötigen Genauigkeit entspre-<br />
chenden Auflösung r über das Intervall [−0.5, 0.5[ gebildet. Aus dem Modalwert<br />
argmaxn(hist(n)) kann somit der Verstimmungsfaktor als<br />
d = −0.5 + r argmaxn(hist(n)) (3.27)<br />
abgeleitet werden. Daraus ergibt sich e<strong>in</strong>e Referenzfrequenz <strong>von</strong><br />
fref = 440 2 d<br />
12 (3.28)<br />
Der Gr<strong>und</strong>, wieso es nicht zielführend ist, den Mittelwert µd aller E<strong>in</strong>zelwerte di zur<br />
Akkumulierung heranzuziehen ist, dass er <strong>in</strong> bestimmten Fällen falsche Werte liefern<br />
würde. Liegt die tatsächliche Verstimmung relativ knapp bei e<strong>in</strong>em halben Halbton, so<br />
würden die errechneten Werte aufgr<strong>und</strong> der Ungenauigkeiten der STFT <strong>und</strong> den auf<br />
ihr aufbauenden Berechnungen (nur <strong>in</strong>terpolierte <strong>und</strong> ke<strong>in</strong>e exakten Frequenzen) teils<br />
dem Halbton darüber <strong>und</strong> teils dem Halbton darunter zugerechnet werden. Die Werte<br />
di wären somit entweder ganz am unteren oder ganz am oberen Ende des Intervalls<br />
<strong>und</strong> würden sich bei der Bildung des arithmetischen Mittels auf e<strong>in</strong>en Wert nahe 0<br />
ausgleichen. Dies wäre jedoch genau das Gegenteil des eigentlichen Sachverhalts.<br />
Um <strong>von</strong> diesen Werten für die Referenzfrequenz, die sich auf jeweils e<strong>in</strong>en Frame be-<br />
ziehen, auf das gesamte Stück schließen zu können, ist e<strong>in</strong> weiterer Schritt nötig. Aus<br />
denselben Gründen, wie bereits oben genannt, wird auch hier nicht das arithmetische<br />
Mittel zur Akkumulierung herangezogen, sondern wieder e<strong>in</strong> Histogramm. Dieses hat<br />
ebenfalls e<strong>in</strong>en Wertebereich <strong>von</strong> [−0.5, 0.5[ <strong>und</strong> e<strong>in</strong>e beliebig wählbare Auflösung r.<br />
Das Resultat d wird analog zu den Teilergebnissen gemäß Formel 3.27 ermittelt. Dabei<br />
ist es nicht e<strong>in</strong>mal nötig alle Frames <strong>in</strong> die Berechnung des Histogramms e<strong>in</strong>zubezie-<br />
hen, sondern es macht durchaus S<strong>in</strong>n nur e<strong>in</strong>en bestimmten Abschnitt– etwa 30 bis<br />
60 Sek<strong>und</strong>en – aus der Mitte des Stücks herauszunehmen. Der Gr<strong>und</strong> dafür ist, dass<br />
dort möglichst viele Instrumente <strong>und</strong> Stimmlagen vertreten s<strong>in</strong>d, im Gegensatz zu In-<br />
tro sowie Schlussteil, die oft nur <strong>von</strong> wenigen Stimmen gespielt werden. Die endgültige