Untitled - WWW Ircam
Untitled - WWW Ircam
Untitled - WWW Ircam
- No tags were found...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
4 RECHERCHE ET DÉVELOPPEMENT, L’UMR STMS<br />
• l’intégration de la connaissance musicale dans les algorithmes<br />
de description de la musique ;<br />
• la simulation temps réel de systèmes physiques audio à<br />
passivité garantie (instruments à vent, circuits électroniques,<br />
etc.) ainsi que leur analyse automatique, leur<br />
optimisation sur des critères de qualité (par exemple,<br />
harmonicité, homogénéité de timbre pour les vents) et la<br />
reproduction d’originaux à partir de mesures effectuées<br />
sur ces systèmes.<br />
■ Représentation, analyse, transformation<br />
et synthèse de signaux audio<br />
Les directions de recherche de l’équipe sur l’analyse, la<br />
transformation et la synthèse fondées sur des modèles ont<br />
été orientées par les problèmes liés à l’analyse des signaux<br />
polyphoniques et à la transformation des signaux.<br />
Représentation de signaux avec résolution de temps<br />
fréquence adaptive<br />
Thèse de M. Liuni (en cotutelle avec l’université de Florence)<br />
Le travail de cette thèse se concentre sur l’analyse et la<br />
synthèse adaptative du son. Les travaux menés en 2011 ont<br />
permis la finalisation des principaux résultats, qui ont aussi<br />
fait l’objet d’une collaboration internationale avec les laboratoires<br />
NuHAG et ARI de Vienne (Autriche) :<br />
• la possibilité de réaliser une représentation du signal qui<br />
varie localement en temps et en fréquence ;<br />
• une méthode de reconstruction parfaite du signal par les<br />
coefficients d’une analyse avec une taille de fenêtre et de<br />
FFT qui s’adaptent automatiquement au cours du temps ;<br />
• deux méthodes de reconstruction qui permettent une<br />
approximation du signal par les coefficients d’une analyse,<br />
avec une taille de fenêtre et de FFT qui s’adapte<br />
automatiquement au cours du temps et en différentes<br />
bandes de fréquence.<br />
Parallèlement, l’étude de mesures de parcimonie d’un spectrogramme<br />
a trouvé une ultérieure application dans la détection<br />
aveugle de changements spectraux ; une méthode a été<br />
implémentée, avec des résultats prometteurs sur la segmentation<br />
automatique d’une voix parlée en temps réel. Une<br />
extension de cette méthode est prévue dans le programme<br />
d’un stage en cours, qui porte sur la détection automatique<br />
de syllabes dans la voix parlée.<br />
Détection des transitions et début des notes<br />
La détection des débuts des notes et des événements transitoires<br />
est une tâche récurrente qui sert dans beaucoup de<br />
contextes musicaux. Par exemple, nous notons le remixage<br />
des débuts des notes dans AudioSculpt mais également<br />
l’extraction des parties percussives de la musique polyphonique.<br />
L’algorithme qui a été développé dans l’équipe est<br />
basé sur une analyse temps fréquence de type TFCT. Il utilise<br />
un modèle statistique cherchant une forte localisation<br />
de l’énergie dans une trame d’analyse pour déterminer les<br />
régions qui représentent des événements de transition. Une<br />
faiblesse de l’algorithme actuel est liée à la détection des<br />
débuts des notes harmoniques avec une attaque lente. En<br />
2011, nous avons donc travaillé sur une extension visant à<br />
améliorer la détection de ces événements : la stratégie est<br />
d’appliquer un traitement spécial pour les « onsets » dont<br />
l’énergie est faiblement concentrée mais qui sont temporellement<br />
synchrones et harmoniquement liés aux zones temps<br />
fréquence touchées. L’algorithme a été évalué à MIREX 2011<br />
et a donné des résultats très satisfaisants : ces performances<br />
ont permis une amélioration de 0.5 % en F-mesure, toutes<br />
tâches confondues, de l’algorithme original.<br />
Séparation de la partie percussive d’un signal de musique<br />
Pour de nombreuses applications, il est utile de disposer<br />
indépendamment de la partie percussive (issue d’instruments<br />
de musique comme les éléments d’une batterie) de<br />
la partie harmonique. Des exemples d’applications possibles<br />
sont le remixage ou la transcription. Pour toutes ces applications,<br />
il est préférable que la séparation soit efficace, ce que<br />
ne proposent pas les algorithmes de l’état de l’art.<br />
En 2010, dans le cadre du stage master Atiam de François<br />
Rigaud, nous avions alors développé un algorithme de séparation<br />
efficace basée sur un modèle temporel des signaux<br />
de batteries. Ce premier algorithme a donné des résultats<br />
très satisfaisants. On note toutefois une insuffisance de<br />
sélectivité lorsque les événements sont très courts, qu’ils<br />
proviennent d’instruments percussifs ou non, ils sont le plus<br />
souvent affectés à la partie percussive.<br />
Pour résoudre ce problème, Tien Ming Wang a proposé une<br />
approche complémentaire considérant cette fois-ci les propriétés<br />
spectrales du son. Grâce à cette approche, les composantes<br />
spectrales en relation harmonique sont détectées<br />
et affectées à la partie non percussive. Avec cette approche<br />
combinée à la première, on note une amélioration considérable<br />
de la sélectivité notamment pour les événements<br />
courts.<br />
Ce nouvel algorithme est en cours d’évaluation, mais nous<br />
savons d’ores et déjà qu’il se compare favorablement à l’état<br />
de l’art et pour un coût de calcul très réduit, ouvrant son utilisation<br />
en prétraitement pour l’extraction d’informations<br />
musicales sur de grandes bases de données.<br />
Estimation des fréquences fondamentales<br />
L’algorithme multi-F0 vise à une transcription automatique<br />
du contenu harmonique d’un signal de musique polyphonique.<br />
Les travaux sur ce problème ont été menés de façon<br />
continue depuis l’année 2008. En 2011, nous avons amélioré<br />
notre base d’évaluation en améliorant la qualité de la<br />
musique synthétisée à partir de partitions MIDI. Du point de<br />
vue algorithmique, nous avons amélioré la performance pour<br />
les signaux multicanaux en établissant la stratégie suivante :<br />
IRCAM – RAPPORT D’ACTIVITÉ 2011<br />
78