11.07.2015 Views

rapport d'activité 2009 - WWW Ircam

rapport d'activité 2009 - WWW Ircam

rapport d'activité 2009 - WWW Ircam

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5 Développer la recherche et les logiciels applicatifsen une bibliothèque C++ temps réel multiplate-forme, Voice-Forger, fondée sur la bibliothèque SuperVP d’ A. Roebel.Projet Angel Studio : Feder ; période : juil. 09-juin 10 ; coordinateur: As An AngelCe projet (P. Lanchantin) a pour but la conversion de voix.Les principaux travaux ont consisté en une étude sur latransformation de la fréquence fondamentale, l’analyseet la synthèse par superVP, et, pour la transformation del’enveloppe spectrale, la réduction de la variance de la loiconditionnelle aux observations de la voix source (augmentationdu nombre de composantes gaussiennes et réductionde dimensionnalité du modèle GMM, utilisation de HMMlors de l’apprentissage).Transformations expressives de la paroleProjet Respoken : FEDER DRIRE ; période : fév. 09-déc. 10 ;coordinateur : VocallyCe projet, mené par C. Veaux, vise le développement d’unplugin (e.g. pro-tools) de transformation expressive de laparole. Les transformations font appel à la bibliothèque voiceTransdont les fonctionnalités sont étendues. Une base dedonnées de parole expressive a été analysée pour définir unsystème de contrôle des transformations. Les principauxtravaux ont concerné l’estimation de la fréquence fondamentalepour les voix expressives, la détection de proéminencesà partir de l’audio, des effets (e.g. « creaky ») et unsystème de transformation prosodique par règles pour lesexpressivités joie, tristesse, peur, colère, etc.Analyse et modélisation de la prosodieProjet Rhapsodie : ANR SHS ; période : fév. 08-déc. 11 ; coordinateur: univ. Paris-10La thèse de N. Obin a pour but des modèles de prosodie dela voix parlée dans les différents styles de parole (journalisteradio, homme politique, conversation, etc.), pour utilisationen synthèse notamment. Les principaux travaux ont été :• amélioration du modèle de détection de proéminencesyllabique par analyse linéaire discriminante et prise encompte du contexte linguistique ;• extraction d’information syntaxique de haut niveau pourla prosodie ;• constitution d’un corpus annoté pour la synthèse de stylede parole.Segmentation et synthèse à partir du texteLa segmentation automatique ircamAlign de P. Lanchantina été étendue à l’anglais (A. Gonzales) et à la voix chantée(Hypermusic Prologue d’H. Parra). Le système de synthèsede parole à partir du texte ircamTTS de C. Veaux a été amélioréet pourvu de nouvelles voix (A. Dussolier, projet avecG. Aperghis) et testé pour l’anglais. La synthèse paramétriqueHTS a été testée par P. Lanchantin et améliorée avecle modèle de glotte de G. Degottex, et des informationslinguistiques de haut niveau (N. Obin). Enfin des modèlesde génération de texte (e.g. mélange de langues) ont étédéveloppés pour des applications artistiques (compagnieMabel Octobre).■ Traitement par le contenu et nouveaux outilspour la musiqueLes travaux relatifs à la description du contenu audio d’unmorceau de musique sont effectués dans le cadre des projetsOseo Quaero (dont l’<strong>Ircam</strong> coordonne le work packageaudio et musique), ANR DISCO, les thèses de L. Régnier etH. Papadopoulos.Programmes : (Oseo Quaero) ; période : mai 2008-avril 2013 ;coordinateur : (Thomson) et : (ANR DISCO) ; période : janv. 2008– déc. 2010 ; coordinateur : Paris-DauphineLe travail s’articule autour des quatre points principauxdétaillés ci-dessous.Création de corpus annotésDans le projet Quaero, l’<strong>Ircam</strong> constitue un corpus de référencepour la recherche et l’évaluation des technologiesd’indexation musicale. Ceci comprend l’élaboration denouveaux critères d’annotation, de critères de mesure devalidité de l’annotation [Peeters09c] [Peeters09b], le développementd’outils d’annotation locale (QIMAL) et globale(interface en ligne QIMAQ), la collecte de corpus représentatifs(collaboration avec EMI France) et l’annotation destitres choisis. Une équipe spécifique d’annotateurs a étécréée pour cela en <strong>2009</strong>.Estimation locale du contenu musicalLe contenu local du signal audio d’un morceau de musiquea été étudié selon différents points de vue :• détection des parties chantées/non-chantées par clusteringde partiels vibrés [Regnier09a], similarité entre chanteurssur base de critères de vibrato ;• amélioration de la détection des battements et détectionsimultanée du premier temps par un nouveau système basésur une modélisation Viterbi inversée [Peeters09a] ;• description simultanée de la suite d’accords, tonalitélocale et premier temps sur la base d’un modèle de Markovétendu (prise en compte d’erreurs potentielles d’estimationde beats) et amélioration du front end par Constant-Q[Papadopoulos09a], [Papadopoulos10a] ;• caractérisation du rythme : premier-temps, attente(expectancy) rythmique [Smith09a], similarité de patternsrythmique, groupement de motifs.Estimation globale du contenu musicalLe système d’indexation automatique ircamclassifier aété étendu afin de permettre le traitement des problèmessingle-class et multi-class. Pour cela, chaque problème esttransformé en un ensemble de problèmes binaires. Pourchaque sous-problème un SVM, dont l’optimisation desparamètres est automatique, est utilisé [Burred09b]. Denouveaux descripteurs et de nouvelles modélisations temporellesont été incorporés à ircamdescriptor. Ce systèmeIRCAM – RAPPORT D’ACTIVITÉ <strong>2009</strong>88

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!