Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Feature Extraktion 29<br />
zur Berechnung der jeweiligen Fourier Transformationen wurde mit der FFT bereits<br />
vorgestellt (siehe Seite 22).<br />
Xcq = 1<br />
N Xfourier S ∗ nk<br />
(3.12)<br />
Im Vergleich zur (Diskreten) Fourier Transformation hat die Constant-Q Transforma-<br />
tion im Bereich der Musikverarbeitung den Vorteil, die Output-Datenrate bei gleichem<br />
Nutzen der Ergebnisse zu reduzieren. Der Gr<strong>und</strong> dafür ist die niedrigere Frequenzauf-<br />
lösung <strong>in</strong> Bereichen, <strong>in</strong> denen das menschliche Gehör Frequenzen ohneh<strong>in</strong> schlechter<br />
unterscheiden kann. Weiters fällt das Arbeiten auf den Resultaten leichter, da musi-<br />
kalische Intervalle bzw. e<strong>in</strong> bestimmter Oberton immer derselben Differenz der Band-<br />
Indizes entsprechen. Dem gegenüber steht der Nachteil der komplexeren Berechnung.<br />
Weiters sei die (Diskrete) Wavelet-Transformation erwähnt, die ebenfalls Signale vom<br />
Zeit- <strong>in</strong> den Frequenzbereich transformiert. Gr<strong>und</strong>lage der Transformation s<strong>in</strong>d jedoch<br />
nicht Phasoren bzw. S<strong>in</strong>usschw<strong>in</strong>gungen wie bei den beiden vorgestellten, sondern Wa-<br />
velets.<br />
3.2.6 Übergangserkennung<br />
Bevor weitere Verarbeitungsschritte folgen, werden die Audiodaten e<strong>in</strong>er zusätzlichen<br />
Vorverarbeitung unterzogen. Ziel ist es, jenen Teil der Daten zu extrahieren, der tat-<br />
sächlich verwertbare Informationen enthält.<br />
Bei Musikstücken werden je nach Takt <strong>und</strong> Tempo Töne zu bestimmten Zeiten (Takt-<br />
zeiten) angespielt, halten dann e<strong>in</strong>e gewisse Zeit an <strong>und</strong> kl<strong>in</strong>gen schließlich ab. E<strong>in</strong><br />
Klangbild wird also <strong>in</strong> sehr kurzer Zeit erzeugt <strong>und</strong> bleibt dann relativ lange stabil.<br />
Diese stabile Phase ist sehr <strong>in</strong>formativ, während die <strong>in</strong>stabilen Abschnitte, <strong>in</strong> denen<br />
sich das Klangbild verändert wenig Informationen enthalten. Dazu kommt weiters, dass<br />
die Taktzeiten <strong>von</strong> Schlagwerken <strong>und</strong> perkussiven Instrumenten dom<strong>in</strong>iert werden. Der<br />
Anteil an Rauschen ist daher sehr hoch.<br />
Zur Bestimmung des Klangbilds s<strong>in</strong>d die stabilen Phasen relevant. Instabile Perioden<br />
– <strong>in</strong>sbesondere die Taktzeiten – müssen also erkannt <strong>und</strong> entfernt werden. Methoden<br />
dazu liefern unter anderem Bonada [6] oder Roebel [41].<br />
Der <strong>in</strong> [6] beschriebene Ansatz besteht im Wesentlichen dar<strong>in</strong>, Intensitätsänderungen<br />
<strong>in</strong> e<strong>in</strong>zelnen Frequenzbändern des Signals zu betrachten <strong>und</strong> lokale Maxima zu f<strong>in</strong>den.