10.10.2013 Aufrufe

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

Automatische Erkennung von Cover-Versionen und Plagiaten in ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Feature Extraktion 26<br />

Daraus ergibt sich, dass e<strong>in</strong>e genauere Auflösung <strong>in</strong> der e<strong>in</strong>en Dimension immer auf<br />

Kosten der Genauigkeit <strong>in</strong> der jeweils anderen Dimension geht. Es gilt also e<strong>in</strong>en ver-<br />

nünftigen Mittelweg zu f<strong>in</strong>den. In [18] wird im gegebenen Kontext e<strong>in</strong>e relativ große<br />

Fensterlänge <strong>von</strong> Nframe = 4096 Samples vorgeschlagen. Dies entspricht bei e<strong>in</strong>er Ab-<br />

tastrate <strong>von</strong> fs = 44.1kHz e<strong>in</strong>er Zeitspanne <strong>von</strong> 93ms. Andere Autoren – wie etwa<br />

Fujishima [17] – gehen <strong>von</strong> noch längeren Frames aus.<br />

E<strong>in</strong> Ausweg aus dem beschriebenen Dilemma ist das so genannte Zero-Padd<strong>in</strong>g. Dabei<br />

werden am Beg<strong>in</strong>n sowie am Ende des gefensterten Signals Nullen e<strong>in</strong>gefügt <strong>und</strong> so die<br />

Fensterlängen künstlich vergrößert, ohne dabei zusätzliche Bereiche des E<strong>in</strong>gangssignals<br />

zu berühren. Abbildung 3.4 verdeutlicht jedoch, dass durch e<strong>in</strong>e Verdoppelung der<br />

tatsächlichen Fensterlänge e<strong>in</strong>e bessere Frequenzauflösung erreicht wird. Das zusätzliche<br />

Zero-Padd<strong>in</strong>g mit e<strong>in</strong>em Faktor <strong>von</strong> 2 (nochmalige Verdoppelung der E<strong>in</strong>gangsdaten<br />

für jede DFT) wirkt sich optisch nicht auf das Spektrum aus. Das Ergebnis wird auch<br />

nicht genauer <strong>in</strong> dem S<strong>in</strong>n, dass die Frequenzen der Stimmen selbst schärfer extrahiert<br />

werden, sondern dass die e<strong>in</strong>zelnen Bänder schmäler s<strong>in</strong>d.<br />

E<strong>in</strong> weiterer Punkt der die Zeitauflösung betrifft, ist die Anzahl an Samples Nhop um<br />

die die Fensterfunktion <strong>in</strong> jedem Schritt verschoben wird. Ist sie größer als Nframe<br />

geht Information verloren, da bestimmte Bereiche nie <strong>in</strong>nerhalb e<strong>in</strong>es Fensters zu lie-<br />

gen kommen. Da außerdem die Abtastpunkte an den Rändern des Fensters zunehmend<br />

ausgeblendet werden, empfehlen sich Schrittweiten <strong>von</strong> maximal der Hälfte der Fenster-<br />

längen. Üblich s<strong>in</strong>d Verhältnisse Nhop : Nframe zwischen 1 : 2 <strong>und</strong> 1 : 8 um zu erreichen,<br />

dass alle Daten möglichst gleichmäßig gewichtet s<strong>in</strong>d (vgl. [15], [18], [30], [43]). Allen [2]<br />

schlägt konkret vor, e<strong>in</strong>e Sprungweite Nhop zu verwenden, die der Framegröße dividiert<br />

durch die Breite des Haupt-Peaks der Fensterfunktion im Frequenzbereich (vgl. Tabelle<br />

3.1) Nframe<br />

b<br />

entspricht.<br />

3.2.5 Constant Q Transformation<br />

E<strong>in</strong>e andere Herangehensweise an das Problem der Wahl zwischen Zeit- <strong>und</strong> Frequenz-<br />

auflösung bietet die Constant-Q Transformation [7]. Anders als bei der Fourier Trans-<br />

formation werden die Mitten der Frequenzbänder nicht <strong>in</strong> gleichen Abständen gewählt,<br />

sondern entsprechend e<strong>in</strong>er geometrischen Folge mit fk = f0 2 k<br />

b . f0 steht dabei für<br />

die Gr<strong>und</strong>frequenz <strong>und</strong> b für die Anzahl der Frequenzbänder pro Oktave. Der Name<br />

ergibt sich aus dem konstanten Verhältnis Q zwischen Frequenz <strong>und</strong> Auflösung, das<br />

unabhängig vom Frequenzband ist <strong>und</strong> alle<strong>in</strong> vom Parameter b abhängt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!