11.07.2015 Views

rapport d'activité 2009 - WWW Ircam

rapport d'activité 2009 - WWW Ircam

rapport d'activité 2009 - WWW Ircam

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

5 Développer la recherche et les logiciels applicatifs■ Modélisation et analyse de flux de donnéessonores et gestuellesReconnaissance d’événements musicauxet de morphologies sonoresLes morphologies sonores sont considérées comme desprofils temporels sur plusieurs flux de descripteurs audio.Nous avons confirmé le potentiel d’une modélisation Markovienneavec états segmentaux pour rendre compte de trajectoiressur des descripteurs unidimensionnels [Bloit09a],puis multidimensionnels [Machart09a]. Les modèles segmentauxsont interprétables, ce qui permet de combinerdes primitives de profils dans une structure de modèledéfinie par un utilisateur [Bloit10a]. Les modèles Markovienssegmentaux s’avèrent particulièrement prometteurs,notamment dans le cas où peu de données d’apprentissagesont disponibles, et pour intégrer d’autres modalités dansun même modèle (mesures gestuelles par exemple). Cettemodélisation est complémentaire à la modélisation Markovienneutilisée par le suivi de geste. Ce travail est égalementvalorisé dans le projet Interlude.Étude des relations entre gestes et sonsLe but général de ce travail est d’étudier les divers typesde similarités qui peuvent être modélisées au niveau signalentre des données de captation gestuelle et des descripteurssonores. En particulier, nous nous intéressons au cas où legeste est exécuté à l’écoute d’un son. Une première étude,se basant sur une méthode de régression linéaire multidimensionnelle,nous a permis d’analyser les stratégies decontrôle virtuel d’un ensemble de candidats soumis à desstimuli sonores [Caramiaux09d]. Une expérience pilote aensuite été réalisée afin d’étudier cette méthode dans uncontexte de reconnaissance de sons abstraits et causaux àpartir de données gestuelles. Un travail théorique a ensuiteété entrepris afin d’introduire une modélisation temporelledes signaux et d’introduire des notions de similaritémorphologique entre des données de captation gestuelleet d’analyse sonore. Une expérience menée conjointemententre l’équipe IMTR et l’équipe PDS est en préparation et apour but la définition de primitives morphologiques sonoreset gestuelles et leur segmentation suivant ces primitives.Étude de la coarticulation gestuelleNotre recherche se concentre sur l’analyse et la modélisationde la coarticulation pour le contrôle du son dans ledomaine musical. En particulier, nous cherchons à identifierles principales sources de variation d’une unité gestuelleisolée – visant la production ou le contrôle d’un événementsonore – lorsqu’il est incorporé dans une séquenced’unités. Un travail d’analyse de données enregistrées ensituation de jeu sur la trompette a révélé trois aspects principaux: l’influence des unités voisines sur les transitionsentre deux unités, la corrélation entre de la dynamique auniveau sonore et les modes de variabilité au niveau moteur(geste), et l’insuffisance des modélisations par combinaisonlinéaire d’unités (Bianco09). Au cours de l’année, nous avonseffectué une campagne de mesure en collaboration avecl’université McGill, afin d’étendre le protocole expérimentalet le nombre de participants. Enfin, nous avons entreprisune étude pilote sur l’analyse de la coarticulation dans différentesmodalités de contrôle qui pourraient être utiliséespour le contrôle de synthèse de la trompette.Reconnaissance du geste expert et contrôle de systèmescomplexesLe travail de thèse de Sarah Fidli Alaoui, démarré enoctobre, est réalisé en collaboration avec le LIMSI. Ce travailpermet de poursuivre nos recherches sur la reconnaissancede geste dans le cas de la danse. En particulier, uneanalyse de mouvements dansés a été réalisée dans le cadrede notre collaboration avec la compagnie Emio Greco | PC.Géométrie de l’information et musiqueCet axe de recherche, issu de la thèse d’Arshia Cont, s’est poursuivi,notamment avec la thèse d’Arnaud Dessein effectuéeen collaboration avec l’équipe Représentations musicales.Reconnaissance incrémentale de sources multiplesL’équipe IMTR, en collaboration avec l’équipe PDS, s’estintéressée à la factorisation en matrice non négative dansun cadre de reconnaissance multisource incrémentale.Cette problématique a été étudiée au cours du stage d’ArnaudDessein, qui a développé des algorithmes de décompositionnon négative parcimonieuse dans un cadre d’optimisationconvexe Les algorithmes développés ont étéappliqués à la transcription de musique polyphonique, latranscription de rythmes de batterie, ainsi qu’à la détectionde sons environnementaux dans des scènes sonorescomplexes. Une évaluation objective a également été réaliséepour la transcription de musique polyphonique et lesrésultats obtenus sont comparables à l’état de l’art, bienque le système soit temps réel. Les résultats ont fait l’objetd’un article soumis à IEEE Transactions on Audio, Speech andLanguage Processing.■ Technologies et paradigmes pour l’interactionSuivi de gesteNous avons poursuivi notre travail sur le suivi de « geste »,qui permet de reconnaître automatiquement des morphologiescontinues, à partir de descripteurs sonores ou dedonnées de captation. Une refonte complète de la programmationdu système a été réalisée dans le cadre du projetSAME (libraire C++ et objet MaxMSP). Une série d’exemplesd’application ont également été réalisés, démontrant lespossibilités de contrôle de vidéos et de sons enregistrés,dont certaines ont été mises en pratique dans le cadre dedanse et installation interactive (if/then installed, FishingGame).IRCAM – RAPPORT D’ACTIVITÉ <strong>2009</strong>101

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!