Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Feature Extraktion 26<br />
Daraus ergibt sich, dass e<strong>in</strong>e genauere Auflösung <strong>in</strong> der e<strong>in</strong>en Dimension immer auf<br />
Kosten der Genauigkeit <strong>in</strong> der jeweils anderen Dimension geht. Es gilt also e<strong>in</strong>en ver-<br />
nünftigen Mittelweg zu f<strong>in</strong>den. In [18] wird im gegebenen Kontext e<strong>in</strong>e relativ große<br />
Fensterlänge <strong>von</strong> Nframe = 4096 Samples vorgeschlagen. Dies entspricht bei e<strong>in</strong>er Ab-<br />
tastrate <strong>von</strong> fs = 44.1kHz e<strong>in</strong>er Zeitspanne <strong>von</strong> 93ms. Andere Autoren – wie etwa<br />
Fujishima [17] – gehen <strong>von</strong> noch längeren Frames aus.<br />
E<strong>in</strong> Ausweg aus dem beschriebenen Dilemma ist das so genannte Zero-Padd<strong>in</strong>g. Dabei<br />
werden am Beg<strong>in</strong>n sowie am Ende des gefensterten Signals Nullen e<strong>in</strong>gefügt <strong>und</strong> so die<br />
Fensterlängen künstlich vergrößert, ohne dabei zusätzliche Bereiche des E<strong>in</strong>gangssignals<br />
zu berühren. Abbildung 3.4 verdeutlicht jedoch, dass durch e<strong>in</strong>e Verdoppelung der<br />
tatsächlichen Fensterlänge e<strong>in</strong>e bessere Frequenzauflösung erreicht wird. Das zusätzliche<br />
Zero-Padd<strong>in</strong>g mit e<strong>in</strong>em Faktor <strong>von</strong> 2 (nochmalige Verdoppelung der E<strong>in</strong>gangsdaten<br />
für jede DFT) wirkt sich optisch nicht auf das Spektrum aus. Das Ergebnis wird auch<br />
nicht genauer <strong>in</strong> dem S<strong>in</strong>n, dass die Frequenzen der Stimmen selbst schärfer extrahiert<br />
werden, sondern dass die e<strong>in</strong>zelnen Bänder schmäler s<strong>in</strong>d.<br />
E<strong>in</strong> weiterer Punkt der die Zeitauflösung betrifft, ist die Anzahl an Samples Nhop um<br />
die die Fensterfunktion <strong>in</strong> jedem Schritt verschoben wird. Ist sie größer als Nframe<br />
geht Information verloren, da bestimmte Bereiche nie <strong>in</strong>nerhalb e<strong>in</strong>es Fensters zu lie-<br />
gen kommen. Da außerdem die Abtastpunkte an den Rändern des Fensters zunehmend<br />
ausgeblendet werden, empfehlen sich Schrittweiten <strong>von</strong> maximal der Hälfte der Fenster-<br />
längen. Üblich s<strong>in</strong>d Verhältnisse Nhop : Nframe zwischen 1 : 2 <strong>und</strong> 1 : 8 um zu erreichen,<br />
dass alle Daten möglichst gleichmäßig gewichtet s<strong>in</strong>d (vgl. [15], [18], [30], [43]). Allen [2]<br />
schlägt konkret vor, e<strong>in</strong>e Sprungweite Nhop zu verwenden, die der Framegröße dividiert<br />
durch die Breite des Haupt-Peaks der Fensterfunktion im Frequenzbereich (vgl. Tabelle<br />
3.1) Nframe<br />
b<br />
entspricht.<br />
3.2.5 Constant Q Transformation<br />
E<strong>in</strong>e andere Herangehensweise an das Problem der Wahl zwischen Zeit- <strong>und</strong> Frequenz-<br />
auflösung bietet die Constant-Q Transformation [7]. Anders als bei der Fourier Trans-<br />
formation werden die Mitten der Frequenzbänder nicht <strong>in</strong> gleichen Abständen gewählt,<br />
sondern entsprechend e<strong>in</strong>er geometrischen Folge mit fk = f0 2 k<br />
b . f0 steht dabei für<br />
die Gr<strong>und</strong>frequenz <strong>und</strong> b für die Anzahl der Frequenzbänder pro Oktave. Der Name<br />
ergibt sich aus dem konstanten Verhältnis Q zwischen Frequenz <strong>und</strong> Auflösung, das<br />
unabhängig vom Frequenzband ist <strong>und</strong> alle<strong>in</strong> vom Parameter b abhängt.