Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Weitere Magazine

Empfehlungen

Info

Feature Extraktion 62 Innerhalb solcher 50 ms Abschnitte sucht der Algorithmus dann nach stabilen Fragmen- ten. Das Extrahieren von Melodiestimmen besteht in der Folge aus dem Gruppieren passender aufeinanderfolgender Fragmente. Dabei wird in mehreren Schritten vorge- gangen. 1. Fragmente mit stark ausgeprägter Obertonreihe werden herausgefiltert. Ein zwei- ter Filter eliminiert alle jene Fragmente, deren relative Lautheit unter einem be- stimmten Schwellwert liegt. 2. Auf diese Art ausgewählte signifikante Fragmente werden entsprechend ihrer Ähn- lichkeit geclustert. Diese ergibt sich anhand mehrere Features. Unter anderem sind das die Durchschnittsfrequenz, die durchschnittliche Lautstärke, das Verhältnis ungerader zu geraden Obertönen bzw. die Unregelmäßigkeiten in den Obertönen, die Cepstrum Koeffizienten oder die Dominanz der erzeugenden Tonmodelle im Verhältnis zum Gesamtklangbild. Das Ergebnis sind zwei bis fünf Cluster, die anhand des k-means Algorithmus gebildet werden. 3. Gerichtete azyklische Graphen (directed acyclic graphs – DAGs) werden durch Verbinden benachbarter ähnlicher Fragmente desselben Clusters gebildet. Auf diese Art werden näherungsweise größere Bruchstücke der Melodiestimmen zu- sammengesetzt. Jedem Fragment wird dabei ein Graphknoten zugeordnet. Die Kanten werden je nach Frequenz- und Lautstärkenunterschied, Länge des zeitli- chen Spalts zwischen den Gruppen sowie Klangfarbenabweichung gewichtet. 4. Kurze Lücken zwischen verbundenen signifikanten Fragmenten werden bestmög- lich geschlossen. Dabei kommt ein Shortest Path Algorithmus zur Anwendung um den besten tatsächlichen Pfad entlang gefundener Fragmente von einem DAG- Knoten zum nächsten zu finden. Die Gewichtung der Kanten entlang eines Pfades ergibt außerdem die Kosten. 5. Konkurrierende Pfade über die Fragmente werden aufgelöst indem kurze Pfade bzw. solche mit geringen Kosten bevorzugt werden. 6. Pfade des dominantesten Clusters formen schließlich die extrahierte Melodie. Die Dominanz ergibt sich dabei aus einer Kombination aus Lautstärke, Cluster- Konsistenz und Verhältnis der Gesamtzeit zu jener Zeit, in der eine Melodiestim- me präsent ist. Anwendung findet dieses Verfahren unter anderem in [30] um die Ähnlichkeit zwischen zwei Musikstücken zu ermitteln. Die ermittelte Melodie wird dabei anhand des durch eine Rhythmuserkennung gewonnenen Tempos normiert. Weiters findet eine Struktur-
Feature Extraktion 63 analyse der zu vergleichenden Stücke statt und die Gesamt-Übereinstimmung ergibt sich aus jener der korrespondierenden Strophen sowie Refrains. Ein weiters Verfahren – das zudem beim MIREX 4 Melodieerkennungs-Bewerb 2005 5 die beste Gesamtgenauigkeit ebenso wie die beste Laufzeit erreichte – wird von Dressler in [15] beschrieben. Dabei bildet eine Spektralanalyse mittels STFT die Ausgangsbasis, gefolgt von einer Bestimmung der Augenblicksfrequenzen (wie in Abschnitt 3.6.1.1 beschrieben) zur besseren Unterscheidung der vorhandenen Frequenzen. Diese werden laut des Modells aus [43] in stabile Sinusoide und Rauschen getrennt (vgl. Kapitel 3.2.7). Im Unterschied zu PreFEst berücksichtigt der Ansatz aus [15] psychoakustische Er- kenntnisse – wie etwa die bereits beschriebenen Maskierungseffekte. Entsprechend der menschlichen Wahrnehmung werden die Intensitäten der stabilen Sinusoide neu gewichtet und dann zu Streams zusammengefügt. Dabei ist die Ähnlichkeit – die nach Kriterien, die mit den zuvor beschriebenen von Marolt [30] vergleichbar sind – aus- schlaggebend. Ein regelbasiertes Entscheidungsverfahren wählt dann die tatsächlich extrahierte Melodie aus den Kandidaten-Streams. Ein weiterer Ansatz stammt von Madsen und Widmer [28]. Dabei wird davon ausge- gangen, dass Melodie durch hohe Komplexität gekennzeichnet ist. Sie ist also weder eintönig noch redundant. Als Maßeinheit dafür bietet sich die bekannte Entropie nach Shannon an. H(X) = − p(x) log2 p(x) (3.60) xɛX Innerhalb bestimmter Zeitfenster wird sie für folgende drei Features einer Stimme be- rechnet. Von jener mit größtem Entropiewert innerhalb eines Fensters nimmt man an, dass sie zu diesem Zeitpunkt die Melodie enthält. • Pitch Class: Wie bereits beschrieben handelt es sich dabei um die Tonhöhen, gefaltet auf eine einzelne Oktave. Dieses Feature ist vergleichbar mit den PCPs (vgl. Abschnitt 3.4). • Intervall: Es wird die Häufigkeit aller musikalischer Intervalle gezählt – auf- und absteigende werden dabei gesondert behandelt. Dabei besteht entfernte Ähnlich- keit zu den ebenfalls bereits beschriebenen Intervallprofilen aus [27]. 4 Music Information Retrieval Evaluation eXchange 5 http://www.music-ir.org/mirex2005/index.php/Audio Melody Extraction
Seite 1 und 2:
Automatische Erkennung von Cover-Ve
Seite 3 und 4:
Abstract This thesis is dedicated t
Seite 5 und 6:
Inhaltsverzeichnis IV 3.5 Transpose
Seite 7 und 8:
Abbildungsverzeichnis VI 3.15 Modif
Seite 9 und 10:
Einleitung 1 1 Einleitung Die vorli
Seite 11 und 12:
Einleitung 3 diese Vorgehensweise e
Seite 13 und 14:
Grundlagen 5 2 Grundlagen Dieses Ka
Seite 15 und 16:
Grundlagen 7 Typ III: Stimmen Bei d
Seite 17 und 18:
Grundlagen 9 Kritische Bänder Im m
Seite 19 und 20: Grundlagen 11 Betrachtet man die mu
Seite 21 und 22: Grundlagen 13 Abbildung 2.7: Flache
Seite 23 und 24: Grundlagen 15 Abbildung 2.11: Empir
Seite 25 und 26: Grundlagen 17 Abbildung 2.15: Dreik
Seite 27 und 28: Feature Extraktion 19 3.1 Arbeitsab
Seite 29 und 30: Feature Extraktion 21 3.2 Spektrala
Seite 31 und 32: Feature Extraktion 23 3.2.3 Fenster
Seite 33 und 34: Feature Extraktion 25 Name b SNR De
Seite 35 und 36: Feature Extraktion 27 (a) (b) (c) A
Seite 37 und 38: Feature Extraktion 29 zur Berechnun
Seite 39 und 40: Feature Extraktion 31 e(t) ist dabe
Seite 41 und 42: Feature Extraktion 33 sich am mensc
Seite 43 und 44: Feature Extraktion 35 3.2.8.3 Simul
Seite 45 und 46: Feature Extraktion 37 (a) (b) (c) A
Seite 47 und 48: Feature Extraktion 39 di = ∆i −
Seite 49 und 50: Feature Extraktion 41 Frequenz devn
Seite 51 und 52: Feature Extraktion 43 Abbildung 3.1
Seite 53 und 54: Feature Extraktion 45 wird. Alterna
Seite 57 und 58: Feature Extraktion 49 einem ringfö
Seite 59 und 60: Feature Extraktion 51 Die Methode g
Seite 61 und 62: Feature Extraktion 53 Gewonnen wird
Seite 63 und 64: Feature Extraktion 55 begründet li
Seite 65 und 66: Feature Extraktion 57 a und b stehe
Seite 67 und 68: Feature Extraktion 59 1. Expectatio
Seite 69: Feature Extraktion 61 3.6.1.4 Erwei
Seite 75 und 76: Feature Extraktion 67 3.7 Struktura
Seite 77 und 78: Feature Extraktion 69 Die Ähnlichk
Seite 81 und 82: Feature Extraktion 73 einander verg
Seite 85 und 86: Feature Extraktion 77 Ausrichtung z
Seite 87 und 88: Klassifizierung 79 jedoch von solch
Seite 89 und 90: Klassifizierung 81 4.2 Dynamic Time
Seite 91 und 92: Klassifizierung 83 bale Tempo kann
Seite 93 und 94: Klassifizierung 85 Eine Änderung d
Seite 95 und 96: Resultate und Perspektiven 87 • H
Seite 97 und 98: Resultate und Perspektiven 89 Titel
Seite 99 und 100: Resultate und Perspektiven 91 Abbil
Seite 101 und 102: Resultate und Perspektiven 93 Grund
Seite 103 und 104: Literaturverzeichnis 95 Literaturve
Seite 105 und 106: Literaturverzeichnis 97 Processing,
Seite 107 und 108: Literaturverzeichnis 99 [48] Steven
Seite 109: Eidesstattliche Erklärung 101 Eide
Alle anzeigen

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?