Untitled - WWW Ircam

More documents

Recommendations

Info

4 RECHERCHE ET DÉVELOPPEMENT, L’UMR STMS Exemple de contour intonatif synthétisé en style journalistique Modélisation de la prosodie et du style de parole Thèse EDITE N. Obin ; période : novembre 06-juin 11 L’objet de la thèse est de modéliser la prosodie et le style de parole d’un locuteur dans le cadre de la synthèse de la parole expressive [Obin 2011e]. Le modèle développé au cours de la thèse repose sur des modèles de Markov cachés (HMMs) à observation discrète/continue pour modéliser les caractéristiques symboliques et acoustiques de la prosodie, ainsi que sur les contributions suivantes : • une chaîne de traitement linguistique de surface et profonde (ALPAGE) pour l’enrichissement de la description des caractéristiques du texte ; • la modélisation des caractéristiques à court et long terme de la prosodie par l’utilisation de méthodes de fusion d’information, de stylisation, et de modèle de trajectoire ; • la modélisation du style de parole par des méthodes de normalisation du locuteur. • le modèle développé au cours de cette thèse a été utilisé en synthèse de parole par sélection d’unités (ircamTTS) et par HMMs (ircamHTS). Corpus de référence du français parlé Projet Rhapsodie : ANR SHS ; période : fév. 08-Juin 12 ; coordinateur : univ. Paris-10 Dans ce projet, prolongé jusqu’en juin 2012, l’Ircam développe en particulier une base de données et un système de consultation et de requête en ligne (PhP, SQL) sur un corpus de parole spontanée annoté prosodiquement et syntaxiquement par les autres partenaires. En 2011, la base de données et le langage de requête ont été terminés par A. Truong en accord avec les futurs utilisateurs, linguistes notamment. Une interface d’utilisation graphique et interactive sera développée en 2012. Transformation de parole en chant Les travaux concernant la transformation d’un signal de parole en chant ont été commencés en collaboration avec J. Fineberg dans le cadre de son opéra Lolita en 2005-2007. En 2011, nous avons repris les travaux, notamment dans le but d’évaluer l’intérêt du contrôle du pulse glottique dans le contexte de la transformation de parole en chant. L’algorithme de transformation utilise notamment les zones les plus stables des voyelles pour les dilater de façon extrême afin d’obtenir les notes cibles. Après cette dilatation, les notes sont extrêmement stables, sans aucune expression. Dans le but d’améliorer l’expressivité des notes nous avons implémenté du vibrato avec modification synchrone du pulse glottique. Les tests perceptifs montrent que la modification du pulse glottique lors du vibrato rend le chant résultant plus convaincant. ■ Description des contenus musicaux Les travaux relatifs à la description du contenu audio d’un morceau de musique sont effectués dans le cadre des projets Oseo Quaero (dont l’Ircam coordonne le WP audio et musique), des nouveaux projets européens MIReS et 3DTVS ainsi que dans la thèse de Lise Régnier. Caractérisation de la voix chantée Thèse de Lise Régnier Les travaux sur la description de la voix chantée pour la reconnaissance de chanteurs se sont poursuivis en 2011 ; en particulier le développement d’une méthode pour combiner les informations décrites par les descripteurs de timbre et les descripteurs d’intonation pour améliorer l’identification de chanteurs [Regnier11a], ainsi que la comparaison des performances des modèles de chanson et de chanteurs pour vérifier l’identité du chanteur d’une chanson donnée [Regnier12a]. Estimation du tempo, battement, premier temps, caractérisation du rythme La méthode « copy and scale » (estimation directe du tempo/ beat-position/classe) a été étendue en 2011 de manière à permettre son utilisation sans étage de pré-estimation [Peeters11b]. Une optimisation de la recherche dans l’espace complexe de codes par définition d’une lower et upper bound a également été proposée. Le développement de l’algorithme ircambeat [Peeters11c] a été poursuivi et intégré dans AudioSculpt 3.0. IRCAM – RAPPORT D’ACTIVITÉ 2011 81
4 RECHERCHE ET DÉVELOPPEMENT, L’UMR STMS Estimation de la structure temporelle L’étude de l’estimation de la structure temporelle a suivi trois axes en 2011. Le premier concerne l’estimation de la structure basée sur les changements au cours du temps de la tonalité locale. Le deuxième concerne l’estimation d’un paramètre permettant de désigner (pour un morceau donné et un pré-calcul donné) la représentation (parmi celles en état et en séquence) la plus appropriée [Peeters11e]. Le troisième concerne la proposition de nouvelles mesures de discrimination entre séquence et non-séquence dans une matrice de similarité. Recherche par similatité acoustique La version 2.0 du système de similarité acoustique développée en 2011 prend en compte les problèmes de scalabilité et de robustesse. Pour cela une modélisation sous forme d’UBM (universal background model) dans un espace métrique est proposée [Charbuillet11a]. Une expérience de similarité entre titres musicaux a été menée permettant de conclure à l’équivalence des recommandations de type Pandora (référence dans le domaine) et la version 2.0. La version 2.0 a été soumise aux campagnes d’évaluation internationale MIREX (premier ex-æquo) et Quaero-Eval-11. Classification mono – label, multi-label La version 3.0 du système de classification générique de l’Ircam a été développée en 2011. Elle repose sur un nouvel étage d’analyse modélisant les descripteurs MFCC et SFM d’une part par le nouveau modèle UBM/Super-Vector et, d’autre part, par un modèle AR vectoriel (coefficient a_k ainsi que modélisation du résiduel ARV par un UBM/Supervector). Ces descripteurs modélisés sont ensuite utilisés pour l’apprentissage de classifieurs binaires de types SVM (noyau RBF). Ce système a été utilisé pour l’apprentissage des classes genre, humeur, instrumentation, live/studio ainsi que la segmentation voix chantée/musique dans le prototype MSSE d’Orange. Le système a été évalué très positivement (deuxième place) lors de l’évaluation internationale MIREX, ainsi que Quaero-Eval-11. Parallèlement, les études sur le timbre instrumental ont été poursuivies à travers la mise à disposition d’une ToolBox Matlab référençant les descripteurs de timbre ([Peeters11d], et à travers l’étude de la fusion perceptive et du timbre de dyades instrumentales composées d’un instrument percussif et d’un instrument tenu [Tardieu12a]. Une étude innovante sur l’effet du processus de production (mastering et utilisation du champ stéréo) en musique, a également été effectuée donnant lieu à de niveau descripteurs [Tardieu 11a]. Identification audio En 2011, le processus de synchronisation des codes entre base et flux, présenté cette année à l’ICASSP [Ramona11c], a été consolidé de manière à garantir un flux « pseudorégulier » de time-stamps, même en cas de non détection d’onsets. Afin de comparer avec précision la détection d’onsets sur les deux signaux, un processus de correction et de synchronisation des annotations a été développé [Ramona11f]. L’évaluation Quaero 2011 a également été un rendez-vous majeur de l’année. De par le volume de la base d’apprentissage (100.000 titres), elle a nécessité le développement d’outils de détection de correction des redondances au sein d’une collection d’extraits audio. Un article collaboratif sur l’environnement d’évaluation [Ramona11b] est en instance d’être publié. Annotations, campagnes d’évaluation et Intégration La deuxième phase de création de corpus pour le projet Quaero s’est poursuivie en 2011. L’Ircam a également fourni les corpus et les environnements d’évaluation pour de nombreuses tâches de Quaero-Eval-11 et participé aux campagnes MIREX-11 et Quaero-Eval-11. Les technologies de l’Ircam du projet Quaero ont également été intégrées dans les applications MUMA (Exalead), MSSE (Orange). Quaero : Intégration des modules d’indexation dans le démonstrateur MSSE développé par Orange Labs ■ Modélisation physique pour l’analyse et la synthèse du son Validation de modèles 1D de tubes acoustiques à section variable Les résonateurs d’instruments à vent ont souvent été approchés par des cascades de tubes droits ou coniques, tant pour la synthèse sonore par guides d’ondes que le calcul de fonctions de transferts caractéristiques (impédance d’entrée, transmittance, etc.) : la raison principale est d’exploiter les propriétés simples des ondes planes ou sphériques (décomposition en ondes progressives et formalisme en guides d’ondes numériques, méthode des matrices de transfert à expression analytique, etc.) Ces dernières années, des raffinements possibles de ce type de modélisation ont été recherchés et élaborés, en particulier pour traiter le cas délicat des cuivres et des pavillons. IRCAM – RAPPORT D’ACTIVITÉ 2011 82
Page 2 and 3:
INSTITUT DE RECHERCHE ET COORDINATI
Page 4:
■ 4. RECHERCHE ET DÉVELOPPEMENT
Page 7 and 8:
1 POLIQUE GÉNÉRALE INTRODUCTION 2
Page 9 and 10:
1 POLIQUE GÉNÉRALE LE CONSEIL D
Page 11 and 12:
1 POLIQUE GÉNÉRALE L’ORGANIGRAM
Page 13 and 14:
1 POLIQUE GÉNÉRALE 15, 17, 18, 20
Page 16 and 17:
2 UNE STRATÉGIE D’INSCRIPTION SO
Page 18 and 19:
Page 20 and 21:
Page 22 and 23:
Page 24 and 25:
Page 26 and 27:
Page 28 and 29:
Page 30 and 31:
Page 32 and 33: 2 UNE STRATÉGIE D’INSCRIPTION SO
Page 34: 2 UNE STRATÉGIE D’INSCRIPTION SO
Page 37 and 38: 3 L’IRCAM S’EXPOSE LA FABRIQUE
Page 39 and 40: 3 L’IRCAM S’EXPOSE LUNA PARK, S
Page 41 and 42: 3 L’IRCAM S’EXPOSE FESTIVAL AGO
Page 43 and 44: 3 L’IRCAM S’EXPOSE UNE STRATÉG
Page 45 and 46: 3 L’IRCAM S’EXPOSE Les stages d
Page 47 and 48: 3 L’IRCAM S’EXPOSE • animatio
Page 49 and 50: 3 L’IRCAM S’EXPOSE L’ÉDUCATI
Page 51 and 52: 3 L’IRCAM S’EXPOSE ■ Réalisa
Page 53 and 54: 3 L’IRCAM S’EXPOSE Les équipes
Page 55 and 56: 3 L’IRCAM S’EXPOSE ■ Suona Fr
Page 57 and 58: 4 RECHERCHE ET DÉVELOPPEMENT, L’
Page 81: 4 RECHERCHE ET DÉVELOPPEMENT, L’
Page 133 and 134:
4 RECHERCHE ET DÉVELOPPEMENT, L’
Page 136 and 137:
5 LES RESSOURCES
Page 138 and 139:
5 LES RESSOURCES LE PLAN D’ACTION
Page 140 and 141:
5 LES RESSOURCES LE SOCLE DE FINANC
Page 142 and 143:
5 LES RESSOURCES SERVICE INFORMATIQ
Page 144 and 145:
5 LES RESSOURCES et maintenant les
Page 146 and 147:
6 ANNEXES DU MERCREDi 15 AU VENDRED
Page 148 and 149:
6 ANNEXES ORCHESTRE Artistes Titre
Page 150 and 151:
6 ANNEXES SOLO Artistes Titre Parte
Page 152 and 153:
6 ANNEXES Date Lieu Artistes Titre
Page 154 and 155:
6 ANNEXES Dates Lieu Artistes Titre
Page 156 and 157:
6 ANNEXES Artistes Titre Dates Desc
Page 158 and 159:
6 ANNEXES Yuhki Mitsufuji, Nicola M
Page 160 and 161:
6 ANNEXES ■ Communications avec a
Page 162 and 163:
6 ANNEXES ■ Ouvrages scientifique
Page 164 and 165:
6 ANNEXES [VonColer11a] H. von Cole
Page 166 and 167:
6 ANNEXES ■ Communications sans a
Page 168 and 169:
6 ANNEXES Giavitto, J.-L., 81/2, un
Page 170 and 171:
6 ANNEXES Lévy B. Dans le cadre du
Page 172 and 173:
6 ANNEXES [Feneyrou11f] Feneyrou, L
Page 174 and 175:
6 ANNEXES ■ Ouvrages scientifique
Page 176:
graphisme : olivier umecker avril 2
show all

Untitled - WWW Ircam

Create successful ePaper yourself

Delete template?

Save as template?