26.01.2015 Views

Untitled - WWW Ircam

Untitled - WWW Ircam

Untitled - WWW Ircam

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4 RECHERCHE ET DÉVELOPPEMENT, L’UMR STMS<br />

• l’intégration de la connaissance musicale dans les algorithmes<br />

de description de la musique ;<br />

• la simulation temps réel de systèmes physiques audio à<br />

passivité garantie (instruments à vent, circuits électroniques,<br />

etc.) ainsi que leur analyse automatique, leur<br />

optimisation sur des critères de qualité (par exemple,<br />

harmonicité, homogénéité de timbre pour les vents) et la<br />

reproduction d’originaux à partir de mesures effectuées<br />

sur ces systèmes.<br />

■ Représentation, analyse, transformation<br />

et synthèse de signaux audio<br />

Les directions de recherche de l’équipe sur l’analyse, la<br />

transformation et la synthèse fondées sur des modèles ont<br />

été orientées par les problèmes liés à l’analyse des signaux<br />

polyphoniques et à la transformation des signaux.<br />

Représentation de signaux avec résolution de temps<br />

fréquence adaptive<br />

Thèse de M. Liuni (en cotutelle avec l’université de Florence)<br />

Le travail de cette thèse se concentre sur l’analyse et la<br />

synthèse adaptative du son. Les travaux menés en 2011 ont<br />

permis la finalisation des principaux résultats, qui ont aussi<br />

fait l’objet d’une collaboration internationale avec les laboratoires<br />

NuHAG et ARI de Vienne (Autriche) :<br />

• la possibilité de réaliser une représentation du signal qui<br />

varie localement en temps et en fréquence ;<br />

• une méthode de reconstruction parfaite du signal par les<br />

coefficients d’une analyse avec une taille de fenêtre et de<br />

FFT qui s’adaptent automatiquement au cours du temps ;<br />

• deux méthodes de reconstruction qui permettent une<br />

approximation du signal par les coefficients d’une analyse,<br />

avec une taille de fenêtre et de FFT qui s’adapte<br />

automatiquement au cours du temps et en différentes<br />

bandes de fréquence.<br />

Parallèlement, l’étude de mesures de parcimonie d’un spectrogramme<br />

a trouvé une ultérieure application dans la détection<br />

aveugle de changements spectraux ; une méthode a été<br />

implémentée, avec des résultats prometteurs sur la segmentation<br />

automatique d’une voix parlée en temps réel. Une<br />

extension de cette méthode est prévue dans le programme<br />

d’un stage en cours, qui porte sur la détection automatique<br />

de syllabes dans la voix parlée.<br />

Détection des transitions et début des notes<br />

La détection des débuts des notes et des événements transitoires<br />

est une tâche récurrente qui sert dans beaucoup de<br />

contextes musicaux. Par exemple, nous notons le remixage<br />

des débuts des notes dans AudioSculpt mais également<br />

l’extraction des parties percussives de la musique polyphonique.<br />

L’algorithme qui a été développé dans l’équipe est<br />

basé sur une analyse temps fréquence de type TFCT. Il utilise<br />

un modèle statistique cherchant une forte localisation<br />

de l’énergie dans une trame d’analyse pour déterminer les<br />

régions qui représentent des événements de transition. Une<br />

faiblesse de l’algorithme actuel est liée à la détection des<br />

débuts des notes harmoniques avec une attaque lente. En<br />

2011, nous avons donc travaillé sur une extension visant à<br />

améliorer la détection de ces événements : la stratégie est<br />

d’appliquer un traitement spécial pour les « onsets » dont<br />

l’énergie est faiblement concentrée mais qui sont temporellement<br />

synchrones et harmoniquement liés aux zones temps<br />

fréquence touchées. L’algorithme a été évalué à MIREX 2011<br />

et a donné des résultats très satisfaisants : ces performances<br />

ont permis une amélioration de 0.5 % en F-mesure, toutes<br />

tâches confondues, de l’algorithme original.<br />

Séparation de la partie percussive d’un signal de musique<br />

Pour de nombreuses applications, il est utile de disposer<br />

indépendamment de la partie percussive (issue d’instruments<br />

de musique comme les éléments d’une batterie) de<br />

la partie harmonique. Des exemples d’applications possibles<br />

sont le remixage ou la transcription. Pour toutes ces applications,<br />

il est préférable que la séparation soit efficace, ce que<br />

ne proposent pas les algorithmes de l’état de l’art.<br />

En 2010, dans le cadre du stage master Atiam de François<br />

Rigaud, nous avions alors développé un algorithme de séparation<br />

efficace basée sur un modèle temporel des signaux<br />

de batteries. Ce premier algorithme a donné des résultats<br />

très satisfaisants. On note toutefois une insuffisance de<br />

sélectivité lorsque les événements sont très courts, qu’ils<br />

proviennent d’instruments percussifs ou non, ils sont le plus<br />

souvent affectés à la partie percussive.<br />

Pour résoudre ce problème, Tien Ming Wang a proposé une<br />

approche complémentaire considérant cette fois-ci les propriétés<br />

spectrales du son. Grâce à cette approche, les composantes<br />

spectrales en relation harmonique sont détectées<br />

et affectées à la partie non percussive. Avec cette approche<br />

combinée à la première, on note une amélioration considérable<br />

de la sélectivité notamment pour les événements<br />

courts.<br />

Ce nouvel algorithme est en cours d’évaluation, mais nous<br />

savons d’ores et déjà qu’il se compare favorablement à l’état<br />

de l’art et pour un coût de calcul très réduit, ouvrant son utilisation<br />

en prétraitement pour l’extraction d’informations<br />

musicales sur de grandes bases de données.<br />

Estimation des fréquences fondamentales<br />

L’algorithme multi-F0 vise à une transcription automatique<br />

du contenu harmonique d’un signal de musique polyphonique.<br />

Les travaux sur ce problème ont été menés de façon<br />

continue depuis l’année 2008. En 2011, nous avons amélioré<br />

notre base d’évaluation en améliorant la qualité de la<br />

musique synthétisée à partir de partitions MIDI. Du point de<br />

vue algorithmique, nous avons amélioré la performance pour<br />

les signaux multicanaux en établissant la stratégie suivante :<br />

IRCAM – RAPPORT D’ACTIVITÉ 2011<br />

78

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!