Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Weitere Magazine

Empfehlungen

Info

Feature Extraktion 56 de drei Annahmen, die für die meisten Musikrichtungen jedoch keine Einschränkung darstellen. • Melodie- und Bass-Töne werden – wie in Abschnitt 2.2.3 beschrieben – jeweils von einer Reihe an Obertönen begleitet. • Die Bassstimme ist in den tiefen Frequenzbereichen zu finden; dagegen bewegt sich die Melodie in den mittleren bis hohen Bändern. Die Grenze ist unabhängig von den angewandten Algorithmen und durch einen entsprechenden Parameter festzulegen. • Sowohl Melodie- als auch Bassstimme haben vorwiegend kontinuierliche Verläufe über die Zeit. An eine Melodie-Note knüpft eine andere an – ebenso folgt im Signal ein Melodie-Ton direkt auf den vorherigen. Pausen sind die Ausnahme. 3.6.1.1 Augenblicksfrequenzen und Kandidaten Grundlage für alle weiteren Schritte der Methode ist die Transformation des Audiosi- gnals in den Frequenzbereich anhand der STFT und einer Filterbank mit unterschied- lichen Frequenz-/Zeit-Auflösungen. Der dadurch erzielte Effekt ist mit jenem, der in Abschnitt 3.2.5 beschriebenen, Constant Q Transformation zu vergleichen. Die Fre- quenzauflösung nimmt nach oben hin ab – so werden Bereiche, die das menschliche Gehör unschärfer wahrnimmt weniger genau erfasst als die unteren Frequenzbänder, bei denen der Mensch auch geringe Unterschiede gut erkennen kann. Der eigentliche Vorteil liegt in der Minimierung der Daten bei ausreichender Frequenzauflösung in al- len Bereichen. Anhand des Spektrums werden im nächsten Schritt die von Abe et al. in [1] vor- geschlagenen Augenblicksfrequenzen λ(ω, t) gemäß Formel 3.50 errechnet. Das Spek- trum als Ergebnis der STFT ist aufgrund von Unschärfen durch die verwendete Fens- terfunktion (vgl. Abschnitt 3.2.3) verschmiert. Gegen die somit relativ grobe Zeit- /Frequenzauflösung soll das IF (Instataneous Frequency) Spektrum Abhilfe schaffen, um Obertöne genau abgrenzen und identifizieren zu können. λ(ω, t) = ∂ ∂t arctan X(ω, t)e jωt = ω + ∂b ∂a a ∂t − b ∂t a2 + b2 (3.50)
Feature Extraktion 57 a und b stehen dabei für den Real- bzw. Imaginärteil (ℜ(X), ℑ(X)) des komplexen Spektrums X des Signals x(t). Die Augenblicksfrequenzen drücken somit die momenta- nen Änderungsraten der Phase aus. Diese ist bei stabilen Sinusoiden gleich der Frequenz ω der Bandmitte und vergrößert sich in ihrer Abweichung umso mehr, je schwankender das Signal ist. Mit Hilfe der Augenblicksfrequenzen werden in weiterer Folge stabile Kandidaten für Melodie und Bass aus dem Spektrum gefiltert. Die entsprechende Menge Ψ (t) f ergibt sich als Ψ (t) f = {ψ | λ(ψ, t) − ψ = 0, ∂(λ(ψ, t) − ψ) ∂ψ < 0} (3.51) Die Energie Verteilungsfunktion der Frequenzen folgt daraus entsprechend folgender Formel. Ψ (t) p (ω) = | X(ω, t) | : wenn ωɛΨ (t) f 0 : sonst (3.52) Sind alle möglichen Kandidaten ermittelt, werden sie in zwei Gruppen getrennt, je nach- dem ob sie für die Melodie- oder die Bass-Stimme in Frage kommen. Im ursprünglichen Verfahren aus [20] wird eine Frequenz von 261.6Hz, was dem Ton c’ entspricht, als Schwellwert angenommen. Die Energieverteilungsfunktion wird nun für beide Gruppen einerseits auf die cent-Skala übertragen und andererseits so normiert, dass die Summe der Energien aller Frequenzen eines Frames stets 1 beträgt. Das Resultat zu einem bestimmten Zeitpunkt t wird in der Folge mit p (t) Ψ (x) bezeichnet. 3.6.1.2 Grundtöne Die zentrale Annahme ist nun jene, dass diese beobachtete Energieverteilung von einer Menge an gewichteten Grundfrequenzen und deren Obertönen erzeugt wurde. Ziel ist es, alle Oberschwingungen zu eliminieren und lediglich die Grundtöne zu erhalten. Als Ausgangspunkt dazu dient ein statistisches Tonmodell. Die Wahrscheinlichkeit, dass eine Frequenz x durch den Grundton F erzeugt wird, entspricht p(x | F ). Das Gesamtsi-
Seite 1 und 2:
Automatische Erkennung von Cover-Ve
Seite 3 und 4:
Abstract This thesis is dedicated t
Seite 5 und 6:
Inhaltsverzeichnis IV 3.5 Transpose
Seite 7 und 8:
Abbildungsverzeichnis VI 3.15 Modif
Seite 9 und 10:
Einleitung 1 1 Einleitung Die vorli
Seite 11 und 12:
Einleitung 3 diese Vorgehensweise e
Seite 13 und 14: Grundlagen 5 2 Grundlagen Dieses Ka
Seite 15 und 16: Grundlagen 7 Typ III: Stimmen Bei d
Seite 17 und 18: Grundlagen 9 Kritische Bänder Im m
Seite 19 und 20: Grundlagen 11 Betrachtet man die mu
Seite 21 und 22: Grundlagen 13 Abbildung 2.7: Flache
Seite 23 und 24: Grundlagen 15 Abbildung 2.11: Empir
Seite 25 und 26: Grundlagen 17 Abbildung 2.15: Dreik
Seite 27 und 28: Feature Extraktion 19 3.1 Arbeitsab
Seite 29 und 30: Feature Extraktion 21 3.2 Spektrala
Seite 31 und 32: Feature Extraktion 23 3.2.3 Fenster
Seite 33 und 34: Feature Extraktion 25 Name b SNR De
Seite 35 und 36: Feature Extraktion 27 (a) (b) (c) A
Seite 37 und 38: Feature Extraktion 29 zur Berechnun
Seite 39 und 40: Feature Extraktion 31 e(t) ist dabe
Seite 41 und 42: Feature Extraktion 33 sich am mensc
Seite 43 und 44: Feature Extraktion 35 3.2.8.3 Simul
Seite 45 und 46: Feature Extraktion 37 (a) (b) (c) A
Seite 47 und 48: Feature Extraktion 39 di = ∆i −
Seite 49 und 50: Feature Extraktion 41 Frequenz devn
Seite 51 und 52: Feature Extraktion 43 Abbildung 3.1
Seite 53 und 54: Feature Extraktion 45 wird. Alterna
Seite 57 und 58: Feature Extraktion 49 einem ringfö
Seite 59 und 60: Feature Extraktion 51 Die Methode g
Seite 61 und 62: Feature Extraktion 53 Gewonnen wird
Seite 63: Feature Extraktion 55 begründet li
Seite 67 und 68: Feature Extraktion 59 1. Expectatio
Seite 69 und 70: Feature Extraktion 61 3.6.1.4 Erwei
Seite 71 und 72: Feature Extraktion 63 analyse der z
Seite 75 und 76: Feature Extraktion 67 3.7 Struktura
Seite 77 und 78: Feature Extraktion 69 Die Ähnlichk
Seite 81 und 82: Feature Extraktion 73 einander verg
Seite 85 und 86: Feature Extraktion 77 Ausrichtung z
Seite 87 und 88: Klassifizierung 79 jedoch von solch
Seite 89 und 90: Klassifizierung 81 4.2 Dynamic Time
Seite 91 und 92: Klassifizierung 83 bale Tempo kann
Seite 93 und 94: Klassifizierung 85 Eine Änderung d
Seite 95 und 96: Resultate und Perspektiven 87 • H
Seite 97 und 98: Resultate und Perspektiven 89 Titel
Seite 99 und 100: Resultate und Perspektiven 91 Abbil
Seite 101 und 102: Resultate und Perspektiven 93 Grund
Seite 103 und 104: Literaturverzeichnis 95 Literaturve
Seite 105 und 106: Literaturverzeichnis 97 Processing,
Seite 107 und 108: Literaturverzeichnis 99 [48] Steven
Seite 109: Eidesstattliche Erklärung 101 Eide
Alle anzeigen

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?