Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Automatische Erkennung von Cover-Versionen und Plagiaten in ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Feature Extraktion 21<br />
3.2 Spektralanalyse<br />
Als Basis für alle weiteren Analyseschritte dient die Transformation des Audio-Signals<br />
vom Zeitbereich <strong>in</strong> den Frequenzbereich. Während im ersten die Amplitude des Signals<br />
als Funktion der Zeit dargestellt wird, ist das Signal im Frequenzbereich als Über-<br />
lagerung e<strong>in</strong>zelner S<strong>in</strong>us- bzw. Cos<strong>in</strong>us-Wellen repräsentiert – die Amplitude also als<br />
Funktion der Frequenz. Dieser Abschnitt beschreibt <strong>in</strong> Anlehnung an [32], [33] <strong>und</strong> [44]<br />
die wichtigsten Gr<strong>und</strong>lagen der Signalverarbeitung im Audiobereich.<br />
3.2.1 Diskrete Fourier Transformation<br />
Mathematische Gr<strong>und</strong>lage für die Überführung ist die (Diskrete) Fourier Transforma-<br />
tion (DFT). Sie ist e<strong>in</strong>e l<strong>in</strong>eare Abbildung e<strong>in</strong>es Vektorraums <strong>in</strong> e<strong>in</strong>en anderen, wobei<br />
beide durch Orthonormal-Basen beschrieben s<strong>in</strong>d.<br />
Sei x(n) e<strong>in</strong> (periodisches) diskretes Signal im Zeitbereich, bestehend aus N Samples,<br />
so wird das Frequenzspektrum X(k) (mit 0 ≤ k ≤ N − 1) durch die DFT wie folgt<br />
berechnet:<br />
X(k) =<br />
N−1 <br />
n=0<br />
2πn<br />
−jk<br />
e N x(n) (3.1)<br />
Die e<strong>in</strong>zelnen Koeffizienten k entsprechen den jeweiligen Frequenzen, die <strong>von</strong> 0Hz bis<br />
zur Sampl<strong>in</strong>g-Frequenz (fs) <strong>in</strong> äquidistanten Abständen <strong>von</strong> ∆f = fs/N verteilt liegen.<br />
Die Werte X(k) selbst s<strong>in</strong>d dabei komplex. Aus ihnen können mithilfe der nachfolgen-<br />
den Formeln der Betrag (bzw. die Amplitude) sowie die Phase jedes Frequenzanteils<br />
berechnet werden.<br />
A(k) =| X(k) |= Xr(k) 2 + Xi(k) 2 (3.2)<br />
φ(k) = arctan<br />
<br />
Xi(k)<br />
Xr(k)<br />
(3.3)<br />
Es ist jedoch nicht möglich, aus den N reellen E<strong>in</strong>gangswerten des Signals x(n), doppelt<br />
so viele – nämlich N komplexe <strong>und</strong> somit 2N reelle – unabhängige Werte zu erhalten.<br />
Der Gr<strong>und</strong> für dies Anzahl an Werten ist, dass die Koeffizienten 0 bis ⌈N/2⌉ die Fre-<br />
quenzen <strong>von</strong> 0Hz bis zur Nyquist-Frequenz (fs/2) repräsentieren. Alle Frequenzen dar-