10.10.2013 Aufrufe

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Feature Extraktion 39<br />

di = ∆i − ro<strong>und</strong>(∆i) (3.26)<br />

mit diɛ[−0.5, 0.5[<br />

Um nun den Verstimmungsfaktor aller e<strong>in</strong>zelnen Peaks e<strong>in</strong>es Frames zu e<strong>in</strong>er Zahl<br />

zu akkumulieren, wird e<strong>in</strong> Histogramm mit e<strong>in</strong>er, der nötigen Genauigkeit entspre-<br />

chenden Auflösung r über das Intervall [−0.5, 0.5[ gebildet. Aus dem Modalwert<br />

argmaxn(hist(n)) kann somit der Verstimmungsfaktor als<br />

d = −0.5 + r argmaxn(hist(n)) (3.27)<br />

abgeleitet werden. Daraus ergibt sich e<strong>in</strong>e Referenzfrequenz <strong>von</strong><br />

fref = 440 2 d<br />

12 (3.28)<br />

Der Gr<strong>und</strong>, wieso es nicht zielführend ist, den Mittelwert µd aller E<strong>in</strong>zelwerte di zur<br />

Akkumulierung heranzuziehen ist, dass er <strong>in</strong> bestimmten Fällen falsche Werte liefern<br />

würde. Liegt die tatsächliche Verstimmung relativ knapp bei e<strong>in</strong>em halben Halbton, so<br />

würden die errechneten Werte aufgr<strong>und</strong> der Ungenauigkeiten der STFT <strong>und</strong> den auf<br />

ihr aufbauenden Berechnungen (nur <strong>in</strong>terpolierte <strong>und</strong> ke<strong>in</strong>e exakten Frequenzen) teils<br />

dem Halbton darüber <strong>und</strong> teils dem Halbton darunter zugerechnet werden. Die Werte<br />

di wären somit entweder ganz am unteren oder ganz am oberen Ende des Intervalls<br />

<strong>und</strong> würden sich bei der Bildung des arithmetischen Mittels auf e<strong>in</strong>en Wert nahe 0<br />

ausgleichen. Dies wäre jedoch genau das Gegenteil des eigentlichen Sachverhalts.<br />

Um <strong>von</strong> diesen Werten für die Referenzfrequenz, die sich auf jeweils e<strong>in</strong>en Frame be-<br />

ziehen, auf das gesamte Stück schließen zu können, ist e<strong>in</strong> weiterer Schritt nötig. Aus<br />

denselben Gründen, wie bereits oben genannt, wird auch hier nicht das arithmetische<br />

Mittel zur Akkumulierung herangezogen, sondern wieder e<strong>in</strong> Histogramm. Dieses hat<br />

ebenfalls e<strong>in</strong>en Wertebereich <strong>von</strong> [−0.5, 0.5[ <strong>und</strong> e<strong>in</strong>e beliebig wählbare Auflösung r.<br />

Das Resultat d wird analog zu den Teilergebnissen gemäß Formel 3.27 ermittelt. Dabei<br />

ist es nicht e<strong>in</strong>mal nötig alle Frames <strong>in</strong> die Berechnung des Histogramms e<strong>in</strong>zubezie-<br />

hen, sondern es macht durchaus S<strong>in</strong>n nur e<strong>in</strong>en bestimmten Abschnitt– etwa 30 bis<br />

60 Sek<strong>und</strong>en – aus der Mitte des Stücks herauszunehmen. Der Gr<strong>und</strong> dafür ist, dass<br />

dort möglichst viele Instrumente <strong>und</strong> Stimmlagen vertreten s<strong>in</strong>d, im Gegensatz zu In-<br />

tro sowie Schlussteil, die oft nur <strong>von</strong> wenigen Stimmen gespielt werden. Die endgültige

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!