Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Feature Extraktion 63<br />
analyse der zu vergleichenden Stücke statt <strong>und</strong> die Gesamt-Übere<strong>in</strong>stimmung ergibt<br />
sich aus jener der korrespondierenden Strophen sowie Refra<strong>in</strong>s.<br />
E<strong>in</strong> weiters Verfahren – das zudem beim MIREX 4 Melodieerkennungs-Bewerb 2005 5 die<br />
beste Gesamtgenauigkeit ebenso wie die beste Laufzeit erreichte – wird <strong>von</strong> Dressler <strong>in</strong><br />
[15] beschrieben. Dabei bildet e<strong>in</strong>e Spektralanalyse mittels STFT die Ausgangsbasis,<br />
gefolgt <strong>von</strong> e<strong>in</strong>er Bestimmung der Augenblicksfrequenzen (wie <strong>in</strong> Abschnitt 3.6.1.1 be-<br />
schrieben) zur besseren Unterscheidung der vorhandenen Frequenzen. Diese werden laut<br />
des Modells aus [43] <strong>in</strong> stabile S<strong>in</strong>usoide <strong>und</strong> Rauschen getrennt (vgl. Kapitel 3.2.7).<br />
Im Unterschied zu PreFEst berücksichtigt der Ansatz aus [15] psychoakustische Er-<br />
kenntnisse – wie etwa die bereits beschriebenen Maskierungseffekte. Entsprechend der<br />
menschlichen Wahrnehmung werden die Intensitäten der stabilen S<strong>in</strong>usoide neu ge-<br />
wichtet <strong>und</strong> dann zu Streams zusammengefügt. Dabei ist die Ähnlichkeit – die nach<br />
Kriterien, die mit den zuvor beschriebenen <strong>von</strong> Marolt [30] vergleichbar s<strong>in</strong>d – aus-<br />
schlaggebend. E<strong>in</strong> regelbasiertes Entscheidungsverfahren wählt dann die tatsächlich<br />
extrahierte Melodie aus den Kandidaten-Streams.<br />
E<strong>in</strong> weiterer Ansatz stammt <strong>von</strong> Madsen <strong>und</strong> Widmer [28]. Dabei wird da<strong>von</strong> ausge-<br />
gangen, dass Melodie durch hohe Komplexität gekennzeichnet ist. Sie ist also weder<br />
e<strong>in</strong>tönig noch red<strong>und</strong>ant. Als Maße<strong>in</strong>heit dafür bietet sich die bekannte Entropie nach<br />
Shannon an.<br />
H(X) = − <br />
p(x) log2 p(x) (3.60)<br />
xɛX<br />
Innerhalb bestimmter Zeitfenster wird sie für folgende drei Features e<strong>in</strong>er Stimme be-<br />
rechnet. Von jener mit größtem Entropiewert <strong>in</strong>nerhalb e<strong>in</strong>es Fensters nimmt man an,<br />
dass sie zu diesem Zeitpunkt die Melodie enthält.<br />
• Pitch Class: Wie bereits beschrieben handelt es sich dabei um die Tonhöhen,<br />
gefaltet auf e<strong>in</strong>e e<strong>in</strong>zelne Oktave. Dieses Feature ist vergleichbar mit den PCPs<br />
(vgl. Abschnitt 3.4).<br />
• Intervall: Es wird die Häufigkeit aller musikalischer Intervalle gezählt – auf- <strong>und</strong><br />
absteigende werden dabei gesondert behandelt. Dabei besteht entfernte Ähnlich-<br />
keit zu den ebenfalls bereits beschriebenen Intervallprofilen aus [27].<br />
4 Music Information Retrieval Evaluation eXchange<br />
5 http://www.music-ir.org/mirex2005/<strong>in</strong>dex.php/Audio Melody Extraction