Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Weitere Magazine

Empfehlungen

Info

Feature Extraktion 38 Oktave. Bei 12 Halbtönen pro Oktave hat der n-te Halbton über dem Kammerton die Frequenz fn = 440Hz 2 n 12 (3.24) Die Referenzfrequenz fref für die Ausrichtung des Tonsystems lag jedoch nicht immer bei diesen 440Hz und auch heute werden von Orchestern und Bands sehr oft andere Stimmungen verwendet. Ein genaues System zum Umlegen der Frequenzen aus der Spektralanalyse auf musikalische Tonhöhen muss dies berücksichtigen und die Refe- renzfrequenz selbständig aus dem Audiosignal ableiten können. Dabei sind zwei prinzipielle Herangehensweisen denkbar: Eine ist, die Bestimmung der Referenzfrequenz bereits vor der Zuordnung zu Tonhöhen bzw. Pitch-Klassen durchzu- führen – die andere, dies erst danach in Form einer Korrektur zu erledigen. Ein Beispiel für letztere ist das in [17] beschriebene Verfahren. Dabei wird von einer sehr hohen Frequenzauflösung ausgegangen. Die feinen Bänder werden mit einer Genauigkeit von 100 Teilbändern pro Halbton auf eine Oktave gefaltet. Von diesen 100 Bändern wird dann jeweils die Varianz ermittelt. Die Bestimmung der Referenzfrequenz erfolgt indi- rekt dadurch, dass das Halbtonprofil nun ringförmig über die Frequenzbänder geshiftet wird, bis ein Minimum in der Varianz innerhalb der Bändergruppen gefunden ist. Ge- gen dieses Verfahren sprechen jedoch die sehr hohe nötige Frequenzauflösung, sowie die Tatsache, dass es patentrechtlich 3 geschützt ist. Der andere Weg – die Referenzfrequenz bereits vor der Zuordnung zu musikalischen Noten zu bestimmen – ist in [18] und [49] beschrieben. Der Grundgedanke dabei ist, alle im Spektrum gefundenen Peaks mit den jeweiligen Frequenzen fi auf Übereinstimmung mit den Lagen der Halbtöne zu prüfen. Geht man vom Kammerton (a’ = 440Hz) aus, so ist das Intervall – gemessen in Halbtönen – zwischen der Referenzfrequenz und dem entsprechenden Peak ∆i = 12 log 2 fi 440 Ist ∆i nicht ganzzahlig, so ist der Ton i verstimmt, und zwar um einen Faktor 3 US Patent 6057502 (3.25)
Feature Extraktion 39 di = ∆i − round(∆i) (3.26) mit diɛ[−0.5, 0.5[ Um nun den Verstimmungsfaktor aller einzelnen Peaks eines Frames zu einer Zahl zu akkumulieren, wird ein Histogramm mit einer, der nötigen Genauigkeit entsprechenden Auflösung r über das Intervall [−0.5, 0.5[ gebildet. Aus dem Modalwert argmaxn(hist(n)) kann somit der Verstimmungsfaktor als d = −0.5 + r argmaxn(hist(n)) (3.27) abgeleitet werden. Daraus ergibt sich eine Referenzfrequenz von fref = 440 2 d 12 (3.28) Der Grund, wieso es nicht zielführend ist, den Mittelwert µd aller Einzelwerte di zur Akkumulierung heranzuziehen ist, dass er in bestimmten Fällen falsche Werte liefern würde. Liegt die tatsächliche Verstimmung relativ knapp bei einem halben Halbton, so würden die errechneten Werte aufgrund der Ungenauigkeiten der STFT und den auf ihr aufbauenden Berechnungen (nur interpolierte und keine exakten Frequenzen) teils dem Halbton darüber und teils dem Halbton darunter zugerechnet werden. Die Werte di wären somit entweder ganz am unteren oder ganz am oberen Ende des Intervalls und würden sich bei der Bildung des arithmetischen Mittels auf einen Wert nahe 0 ausgleichen. Dies wäre jedoch genau das Gegenteil des eigentlichen Sachverhalts. Um von diesen Werten für die Referenzfrequenz, die sich auf jeweils einen Frame be- ziehen, auf das gesamte Stück schließen zu können, ist ein weiterer Schritt nötig. Aus denselben Gründen, wie bereits oben genannt, wird auch hier nicht das arithmetische Mittel zur Akkumulierung herangezogen, sondern wieder ein Histogramm. Dieses hat ebenfalls einen Wertebereich von [−0.5, 0.5[ und eine beliebig wählbare Auflösung r. Das Resultat d wird analog zu den Teilergebnissen gemäß Formel 3.27 ermittelt. Dabei ist es nicht einmal nötig alle Frames in die Berechnung des Histogramms einzubezie- hen, sondern es macht durchaus Sinn nur einen bestimmten Abschnitt– etwa 30 bis 60 Sekunden – aus der Mitte des Stücks herauszunehmen. Der Grund dafür ist, dass dort möglichst viele Instrumente und Stimmlagen vertreten sind, im Gegensatz zu In- tro sowie Schlussteil, die oft nur von wenigen Stimmen gespielt werden. Die endgültige
Seite 1 und 2: Automatische Erkennung von Cover-Ve
Seite 3 und 4: Abstract This thesis is dedicated t
Seite 5 und 6: Inhaltsverzeichnis IV 3.5 Transpose
Seite 7 und 8: Abbildungsverzeichnis VI 3.15 Modif
Seite 9 und 10: Einleitung 1 1 Einleitung Die vorli
Seite 11 und 12: Einleitung 3 diese Vorgehensweise e
Seite 13 und 14: Grundlagen 5 2 Grundlagen Dieses Ka
Seite 15 und 16: Grundlagen 7 Typ III: Stimmen Bei d
Seite 17 und 18: Grundlagen 9 Kritische Bänder Im m
Seite 19 und 20: Grundlagen 11 Betrachtet man die mu
Seite 21 und 22: Grundlagen 13 Abbildung 2.7: Flache
Seite 23 und 24: Grundlagen 15 Abbildung 2.11: Empir
Seite 25 und 26: Grundlagen 17 Abbildung 2.15: Dreik
Seite 27 und 28: Feature Extraktion 19 3.1 Arbeitsab
Seite 29 und 30: Feature Extraktion 21 3.2 Spektrala
Seite 31 und 32: Feature Extraktion 23 3.2.3 Fenster
Seite 33 und 34: Feature Extraktion 25 Name b SNR De
Seite 35 und 36: Feature Extraktion 27 (a) (b) (c) A
Seite 37 und 38: Feature Extraktion 29 zur Berechnun
Seite 39 und 40: Feature Extraktion 31 e(t) ist dabe
Seite 41 und 42: Feature Extraktion 33 sich am mensc
Seite 43 und 44: Feature Extraktion 35 3.2.8.3 Simul
Seite 45: Feature Extraktion 37 (a) (b) (c) A
Seite 49 und 50: Feature Extraktion 41 Frequenz devn
Seite 51 und 52: Feature Extraktion 43 Abbildung 3.1
Seite 53 und 54: Feature Extraktion 45 wird. Alterna
Seite 57 und 58: Feature Extraktion 49 einem ringfö
Seite 59 und 60: Feature Extraktion 51 Die Methode g
Seite 61 und 62: Feature Extraktion 53 Gewonnen wird
Seite 63 und 64: Feature Extraktion 55 begründet li
Seite 65 und 66: Feature Extraktion 57 a und b stehe
Seite 67 und 68: Feature Extraktion 59 1. Expectatio
Seite 69 und 70: Feature Extraktion 61 3.6.1.4 Erwei
Seite 71 und 72: Feature Extraktion 63 analyse der z
Seite 75 und 76: Feature Extraktion 67 3.7 Struktura
Seite 77 und 78: Feature Extraktion 69 Die Ähnlichk
Seite 81 und 82: Feature Extraktion 73 einander verg
Seite 85 und 86: Feature Extraktion 77 Ausrichtung z
Seite 87 und 88: Klassifizierung 79 jedoch von solch
Seite 89 und 90: Klassifizierung 81 4.2 Dynamic Time
Seite 91 und 92: Klassifizierung 83 bale Tempo kann
Seite 93 und 94: Klassifizierung 85 Eine Änderung d
Seite 95 und 96: Resultate und Perspektiven 87 • H
Seite 97 und 98:
Resultate und Perspektiven 89 Titel
Seite 99 und 100:
Resultate und Perspektiven 91 Abbil
Seite 101 und 102:
Resultate und Perspektiven 93 Grund
Seite 103 und 104:
Literaturverzeichnis 95 Literaturve
Seite 105 und 106:
Literaturverzeichnis 97 Processing,
Seite 107 und 108:
Literaturverzeichnis 99 [48] Steven
Seite 109:
Eidesstattliche Erklärung 101 Eide
Alle anzeigen

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?