Signalbehandling_til_lydsøgning - Danmarks Tekniske Universitet
Signalbehandling_til_lydsøgning - Danmarks Tekniske Universitet
Signalbehandling_til_lydsøgning - Danmarks Tekniske Universitet
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
21 3.2 Korttidslige features<br />
3.3.1 Mel-frekvens cepstrale koefficienter (MFCC)<br />
Mel-frekvens cepstrale koefficienter (MFCC) er blevet brugt i en række<br />
sammenhænge <strong>til</strong> behandling af lydsignaler. Heraf er de benyttede som features <strong>til</strong><br />
musik genre klassifikation med gode resultater i bl.a. [44].<br />
Motivationen for at benytte MFCC, er at de <strong>til</strong> en vis grad repræsenterer de<br />
frekvensmæssige karakteristika, som også gælder for den menneskelige hørelse.<br />
Dermed forventer man, at de er i stand <strong>til</strong> at opfange nogle af de kendetegn for<br />
musik, som mennesker også opfanger.<br />
I Figur 3.4 nedenfor vises et flowdiagram over hvordan MFCC beregnes ud fra den<br />
enkelte tidsramme.<br />
Figur 3.4. Overordnet flowdiagram for hvordan Mel-frekvens Cepstral koefficienterne<br />
beregnes. Der eksisterer forskellige metoder, for hvordan MFFC implementeres, men langt<br />
de fleste følger det ovenforstående flowdiagram.<br />
Efter at have benyttet et Hamming vindue, udføres den Diskrete Fourier<br />
transformation, hvor der kun bruges den reelle del af resultatet, dermed opnås en Ndimensional<br />
spektral repræsentation af tidsrammen. Fasen ignorereres da den ikke<br />
vurderes at have den store indvirkning på hvordan mennesker opfatter musik.<br />
Næste skridt er såkaldt Mel-skalering. Formålet med mel-skalering er som nænvt i<br />
kapitel 2 at estimere forholdet imellem opfattet pitch og frekvens. Pitch er relevant,<br />
da det benyttes af mennesker <strong>til</strong> at dele lyd op efter på en musikskala.<br />
Til mel-skalering benyttes normalt en filterbank bestående af triangulere filtre i<br />
frekvens domænet, hvor center frekvenserne er delt op efter melskalaen.<br />
Logskalering benyttes hovedsageligt <strong>til</strong> at <strong>til</strong>nærme menneskets af Loudness.