16.07.2013 Views

Signalbehandling_til_lydsøgning - Danmarks Tekniske Universitet

Signalbehandling_til_lydsøgning - Danmarks Tekniske Universitet

Signalbehandling_til_lydsøgning - Danmarks Tekniske Universitet

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

21 3.2 Korttidslige features<br />

3.3.1 Mel-frekvens cepstrale koefficienter (MFCC)<br />

Mel-frekvens cepstrale koefficienter (MFCC) er blevet brugt i en række<br />

sammenhænge <strong>til</strong> behandling af lydsignaler. Heraf er de benyttede som features <strong>til</strong><br />

musik genre klassifikation med gode resultater i bl.a. [44].<br />

Motivationen for at benytte MFCC, er at de <strong>til</strong> en vis grad repræsenterer de<br />

frekvensmæssige karakteristika, som også gælder for den menneskelige hørelse.<br />

Dermed forventer man, at de er i stand <strong>til</strong> at opfange nogle af de kendetegn for<br />

musik, som mennesker også opfanger.<br />

I Figur 3.4 nedenfor vises et flowdiagram over hvordan MFCC beregnes ud fra den<br />

enkelte tidsramme.<br />

Figur 3.4. Overordnet flowdiagram for hvordan Mel-frekvens Cepstral koefficienterne<br />

beregnes. Der eksisterer forskellige metoder, for hvordan MFFC implementeres, men langt<br />

de fleste følger det ovenforstående flowdiagram.<br />

Efter at have benyttet et Hamming vindue, udføres den Diskrete Fourier<br />

transformation, hvor der kun bruges den reelle del af resultatet, dermed opnås en Ndimensional<br />

spektral repræsentation af tidsrammen. Fasen ignorereres da den ikke<br />

vurderes at have den store indvirkning på hvordan mennesker opfatter musik.<br />

Næste skridt er såkaldt Mel-skalering. Formålet med mel-skalering er som nænvt i<br />

kapitel 2 at estimere forholdet imellem opfattet pitch og frekvens. Pitch er relevant,<br />

da det benyttes af mennesker <strong>til</strong> at dele lyd op efter på en musikskala.<br />

Til mel-skalering benyttes normalt en filterbank bestående af triangulere filtre i<br />

frekvens domænet, hvor center frekvenserne er delt op efter melskalaen.<br />

Logskalering benyttes hovedsageligt <strong>til</strong> at <strong>til</strong>nærme menneskets af Loudness.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!