11.07.2015 Views

Modélisation de sons bruités par la Synth`ese Granulaire

Modélisation de sons bruités par la Synth`ese Granulaire

Modélisation de sons bruités par la Synth`ese Granulaire

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Modélisation <strong>de</strong> <strong>sons</strong> bruités <strong>par</strong> <strong>la</strong>Synthèse Granu<strong>la</strong>ireCharles BASCOUMémoire <strong>de</strong> stage <strong>de</strong> DEA ATIAMannée 2003-2004Faculté <strong>de</strong>s sciences <strong>de</strong> LuminyUniversité AIX-MARSEILLE IIEffectué au Centre National <strong>de</strong> Création Musicale GMEM(Groupe <strong>de</strong> Musique Expérimentale <strong>de</strong> Marseille)sous <strong>la</strong> direction <strong>de</strong> Laurent POTTIER


RésuméCe rapport expose le travail que j’ai effectué au GMEM (Groupe <strong>de</strong> MusiqueExpérimentale <strong>de</strong> Marseille) dans le cadre d’un stage <strong>de</strong> DEA ATIAM(Acoustique, Traitement du signal, Informatique Appliqués à <strong>la</strong> Musique),formation que j’ai suivie à l’IRCAM (Institut <strong>de</strong> Recherche et <strong>de</strong> CoordinationAcoustique et Musique).Ce travail a porté principalement sur <strong>la</strong> synthèse granu<strong>la</strong>ire et les moyenset métho<strong>de</strong>s <strong>de</strong> produire, <strong>par</strong> celle-ci, <strong>de</strong>s <strong>sons</strong> bruités environnementaux.Le but est ici <strong>de</strong> se baser sur l’analyse préa<strong>la</strong>bale <strong>de</strong> <strong>sons</strong> réels notamment<strong>par</strong> l’extraction <strong>de</strong> leurs propriétés stochastiques, propriétés qui se <strong>de</strong>vrontd’être applicables aux <strong>par</strong>amètres <strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ire. En ce<strong>la</strong> nouspropo<strong>sons</strong> les premières expérimentations pour l’é<strong>la</strong>boration d’un outil d’analyse/synthèseadapté aux <strong>sons</strong> bruités.


RemerciementsJe tiens à remercier toute l’équipe du GMEM au sein <strong>de</strong> <strong>la</strong>quelle ce<strong>la</strong> aété un réel p<strong>la</strong>isir <strong>de</strong> travailler et plus <strong>par</strong>ticulièrement :– Raphaël De Vivo pour m’avoir acceuilli au sein du GMEM– Laurent Pottier pour son ai<strong>de</strong> et ses conseils tout au long du stage– Jérôme Decque pour son assistance technique– Jean Francois Oliver, Leopold Frey et Sophie Co<strong>la</strong>s pour avoir contribuerà <strong>la</strong> bonne ambiance générale2


22 Spectrogramme entre 0 et 3000 Hz du son resynthétisé suite àune décomposition sur plusieurs grains. . . . . . . . . . . . . . 5523 Patch MAX pour <strong>la</strong> génération <strong>de</strong> nombres aléatoires <strong>de</strong> loiarbitraire sous forme messages. . . . . . . . . . . . . . . . . . 5724 Objet externe pour <strong>la</strong> génération <strong>de</strong> nombres aléatoires <strong>de</strong> loiarbitraire sous forme signal. . . . . . . . . . . . . . . . . . . . 5825 Objets MAX/MSP <strong>de</strong> synthèse granu<strong>la</strong>ire . . . . . . . . . . . 5926 Patch d’ai<strong>de</strong> <strong>de</strong> l’objet bufGran∼ . . . . . . . . . . . . . . . . 6027 Interface <strong>de</strong> contrôle <strong>de</strong> l’objet bufGranul∼ <strong>de</strong> synthèse granu<strong>la</strong>ire.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615


1 IntroductionLes développements connus <strong>de</strong> l’informatique musicale au cours <strong>de</strong>s vingt<strong>de</strong>rnières années, notamment facilités <strong>par</strong> l’envolée <strong>de</strong>s puissances <strong>de</strong> calculdisponibles, mettent aujourd’hui <strong>la</strong> machine au premier p<strong>la</strong>n <strong>de</strong> <strong>la</strong> créationartistique.Le GMEM est un centre <strong>de</strong> création, <strong>de</strong> diffusion et <strong>de</strong> recherche musicale,créé en 1972 <strong>par</strong> l’initiative d’un groupe <strong>de</strong> compositeurs (notammentGeorges Boeuf) issu <strong>de</strong> <strong>la</strong> c<strong>la</strong>sse d’électroacoustique du CNRM 1 . En 1996,sur <strong>de</strong>cision du Ministre <strong>de</strong> <strong>la</strong> Culture, il prend le titre <strong>de</strong> “Centre National<strong>de</strong> Création Musicale”.De <strong>par</strong> son appel<strong>la</strong>tion même <strong>de</strong> “Groupe <strong>de</strong> Musique Expérimentale <strong>de</strong>Marseille”, le GMEM a une vocation expérimentale. La recherche musicale ya toujours été liée à <strong>de</strong>s problématiques <strong>de</strong> création. Le GMEM accueille <strong>de</strong>scompositeurs en rési<strong>de</strong>nce avec <strong>la</strong> volonté <strong>de</strong> leur fournir <strong>de</strong>s outils adaptésà leur <strong>de</strong>man<strong>de</strong>, les accompagnant dans <strong>la</strong> concrétisation <strong>de</strong> leur projet. Cesconsidérations sont <strong>la</strong> base du processus qui induit <strong>la</strong> recherche et le <strong>de</strong>veloppementau GMEM, avec principalement trois éléments constituants quesont :1. l’espace et <strong>la</strong> spatialisation2. le geste instrumental et les interfaces gestuelles3. le materiau sonore, sa production et ses traitementsNous allons approfondir dans ce rapport <strong>par</strong>ticulièrement le troisièmedomaine, incarné <strong>par</strong> le jeune projet <strong>de</strong> recherche GMU , ou “GMEM MicrosoundUniverse”, consacré à <strong>la</strong> synthése microsonore. En effet le GMEMest attaché à pouvoir proposer aux musiciens <strong>de</strong>s outils innovants pour <strong>la</strong>production sonore. La synthése microsonore (ou granu<strong>la</strong>ire), notamment <strong>par</strong>son contrôle non trivial, constitue un axe <strong>de</strong> recherche fécond dans cetteperspective. Ce type <strong>de</strong> synthèse n’est pas nouveau, ayant été <strong>la</strong>rgementétudié <strong>par</strong> <strong>de</strong>s chercheurs-musiciens comme Iannis Xenakis, Curtis Roads ouBarry Truax. Mais il offre toutefois un vaste champ encore peu exploré dansson application à <strong>la</strong> resynthèse <strong>de</strong> <strong>sons</strong> naturels. Ses principes intrinsèques leprédisposent tout <strong>par</strong>ticulièrement aux <strong>sons</strong> bruités. La sensibilité du GMEMest d’ailleurs attaché au mouvement “Musique Concrète” initié <strong>par</strong> PierreSchaeffer au milieu du XXième siècle, mouvement qui amenait au statutmusical les <strong>sons</strong> quotidiens environnementaux. De là, est née <strong>la</strong> volonté <strong>de</strong>proposer <strong>de</strong>s outils permettant <strong>la</strong> synthése et <strong>la</strong> manipu<strong>la</strong>tion <strong>de</strong> ce type <strong>de</strong><strong>sons</strong>.1 Conservatoire National <strong>de</strong> Région <strong>de</strong> Marseille6


Nous allons, dans ce rapport, tout d’abord rappeler l’histoire et les principes<strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ire, ceci nous permettant d’affiner <strong>la</strong> définitiondu travail qu’il m’était <strong>de</strong>mandé <strong>de</strong> réaliser. Dans une <strong>de</strong>uxième <strong>par</strong>tie, nousdétaillerons les métho<strong>de</strong>s d’analyse envisagées, sous-tendues <strong>par</strong> un tel projet.Enfin, <strong>la</strong> troisième <strong>par</strong>tie exposera brièvement le <strong>de</strong>veloppement impliquépour <strong>la</strong> synthèse dans l’environnement MAX/MSP.7


2 La synthèse granu<strong>la</strong>ire2.1 HistoriqueNorbert Wiener La notion <strong>de</strong> quantum sonore ap<strong>par</strong>aît avec N. Wieneren 1925 qui lors d une conférence sur <strong>la</strong> physique quantique utilise commeréférence <strong>la</strong> musique. Il donne <strong>de</strong>s détails sur <strong>la</strong> re<strong>la</strong>tion entre temps etfréquence, il énonce que <strong>la</strong> précision dans le domaine temporel entraîne <strong>de</strong>simprécisions dans le domaine fréquentiel et vice-versa. Ap<strong>par</strong>aît alors unenotion <strong>de</strong> quantum sonore dès lors qu’on connaît <strong>la</strong> taille minimum d une<strong>par</strong>ticule sonore (en fonction <strong>de</strong> sa fréquence) d’où l’idée, simi<strong>la</strong>ire à celle <strong>de</strong><strong>la</strong> mécanique quantique qui décrit <strong>la</strong> matière, <strong>de</strong> pouvoir décrire les <strong>sons</strong> entermes <strong>de</strong> taille et nombre <strong>de</strong> grains.Denis Gabor En 1946 le physicien prix Nobel D. Gabor fabrique unemachine utilisant un système <strong>de</strong> grains pour reproduire <strong>de</strong>s <strong>sons</strong>. Il argumenteses découvertes <strong>par</strong> un article appelé «Theory of communication» suivi unan après <strong>par</strong> «Acoustical Quanta and the Theory of Hearing». Il y <strong>par</strong>lenotamment <strong>de</strong>s problèmes <strong>de</strong> l’analyse <strong>de</strong> Fourier. Gabor dit que alors queles mathématiques y sont absolument correctes, cette théorie ne convient pasà <strong>la</strong> <strong>de</strong>scription <strong>de</strong>s <strong>sons</strong> notamment ceux à fréquences variables. Un autreproblème est qu’utiliser <strong>de</strong>s on<strong>de</strong>s sinusoïdales implique que <strong>la</strong> durée du signalest infinie. Gabor présente l’idée d’utiliser les théories <strong>de</strong> Physique quantiquepour l’étu<strong>de</strong> <strong>de</strong>s signaux sonores.Gabor effectue <strong>de</strong>s étu<strong>de</strong>s sur les seuils <strong>de</strong> discrimination. Pour ce<strong>la</strong> ilutilise les résultats <strong>de</strong>s expériences menées <strong>par</strong> Buerck, Kotowski, Lichte puisplus tard <strong>par</strong> Shower et Biddulph. Il examine <strong>la</strong> durée nécessaire d’un sonpour reconnaître sa hauteur à différentes fréquences. Ses étu<strong>de</strong>s montrent uncertain nombre <strong>de</strong> choses :– Les fréquences entre 500Hz et 1000Hz doivent être jouées au minimumpendant 10 ms avant d’être perçues comme <strong>de</strong>s hauteurs.– Si une fréquence change, il faut 2 fois le temps qu’il a fallu pour entendre<strong>la</strong> première fréquence pour discerner le changement. Cette durée<strong>de</strong> reconnaissance <strong>de</strong> changement varie avec <strong>la</strong> fréquence. A bassesfréquences, l’homme discerne plus vite.– Le discernement d’un changement d’amplitu<strong>de</strong> prend minimum 21 ms.Gabor émet alors une théorie mathématique sur les surfaces <strong>de</strong> seuil <strong>de</strong>perception. Il utilise ces idées pour développer un certain nombre <strong>de</strong> machines.Le Tempophon fabriqué <strong>par</strong> <strong>la</strong> compagnie alleman<strong>de</strong> Springer estune machine à changer le pitch ou <strong>la</strong> durée <strong>de</strong> documents sonores et estdirectement issue d’une machine <strong>de</strong> Gabor.8


Abraham Moles Les recherches <strong>de</strong> Moles sur <strong>la</strong> théorie <strong>de</strong> l’informationl’ont amené à <strong>la</strong> conclusion suivante : pour pouvoir définir et déchiffrer unmessage, qu’il soit visuel ou sonore, on doit prendre en considération lescaractéristiques psychophysiologiques du récepteur, car elles seront circonstancielles.«Un message est un groupe fini, ordonné, d éléments <strong>de</strong> perceptionpuisés dans un répertoire et assemblés en une structure. Les éléments <strong>de</strong> cerépertoire sont définis <strong>par</strong> les propriétés du récepteur. »Moles est le premier à dire que le nombre <strong>de</strong> sensations que reçoivent nosorganes psychophysiologiques est quantifiable. Moles a étudié le pouvoir <strong>de</strong>l’ouïe pour résoudre <strong>de</strong>s petites différences <strong>de</strong> fréquence et d’amplitu<strong>de</strong> et<strong>par</strong>le d’un répertoire d’éléments audibles qui est plus ou moins limité à340000. Moles représente «l’atome sonore» comme une cellule tridimensionnelleayant pour côté le seuil différentiel <strong>de</strong> fréquence ∆F/F, le seuildifférentiel d’intensité ∆L/L, le seuil différentiel <strong>de</strong> durée ∆T/T. Cette formu<strong>la</strong>tiondu quantum sonore est à peu près <strong>la</strong> même que celle <strong>de</strong> Gabor maisest plus précise car grâce à elle on peut répertorier le nombre existant <strong>de</strong>«quanta <strong>de</strong> sensation».Iannis Xenakis Xenakis a été le premier musicien à créer une théorie structurelle<strong>de</strong> <strong>la</strong> composition où les grains sonores sont les éléments constitutifs<strong>de</strong> base. Avant d’utiliser ces idées dans <strong>la</strong> musique électronique, il réalise<strong>de</strong>s pièces instrumentales basées sur le concept <strong>de</strong> cellule sonore dont les <strong>par</strong>amètressont régis <strong>par</strong> <strong>de</strong>s lois statistiques. Dans Pithoprakta pour orchestreà cor<strong>de</strong>s écrit en 1955-56, il utilise le glissando comme cellule élémentaire sonore,les distribuant librement en fréquence. Dans les années 60, il était lepremier à s’intéresser à <strong>la</strong> “Theory of communication” <strong>de</strong> Gabor et à l’utiliseren composition. Xenakis soulignait <strong>la</strong> propriété triple <strong>de</strong> chaque grain :durée, fréquence et intensité. Il avancait que toute musique était composéed’un grand nombre <strong>de</strong> grains élémentaires.D’un point <strong>de</strong> vue compositionnel,il ajoutait une troisième dimension à l’espace temps-fréquence usuel,définissant le grain. Il invite ainsi le compositeur a pensé son oeuvre avecd’autre forme d’abstraction du son que celle conventionnellement utilisée.Curtis Roads En 1975, C. Roads essaie <strong>de</strong> vérifier et d’expérimenter lesthéories du quantum sonore <strong>de</strong> Gabor. Il construit un système informatiqueautomatisé pour <strong>la</strong> génération <strong>de</strong> grains sonores synthétiques à l’Université <strong>de</strong>Californie à San Diego, en utilisant le système informatique Borroughs B6700,avec le programme Music V. Dans ce système, chaque grain a une durée etune fonction d’amplitu<strong>de</strong> fixes pendant que les fréquences, formes d’on<strong>de</strong>et amplitu<strong>de</strong>s sont variables. Un <strong>par</strong>amètre très important est <strong>la</strong> forme <strong>de</strong>9


l’enveloppe du grain, il utilise une enveloppe qui combine <strong>la</strong> courbe <strong>de</strong> Gausssuggérée <strong>par</strong> Gabor et le rectangle suggéré <strong>par</strong> Xenakis obtenant un début etune chute légère et en même temps un sommet soutenu. Ce système pouvaitgénérer 32 grains simultanés et <strong>de</strong>s <strong>de</strong>nsités <strong>de</strong> 1600 grains <strong>par</strong> secon<strong>de</strong>.Roads est l’auteur <strong>de</strong> nombreux ouvrages dédiés à <strong>la</strong> synthèse granu<strong>la</strong>iredont [15],[14].Barry Truax B. Truax dans les années 80 construit son propre système <strong>de</strong>synthèse granu<strong>la</strong>ire, installé à l’Université <strong>de</strong> SFU au Canada et au GMEB<strong>de</strong> Bourges. La diffusion <strong>de</strong> ses travaux musicaux et <strong>de</strong> recherche a contribuéà l’intérêt <strong>de</strong> <strong>la</strong> communauté scientifique et musicale pour cette forme <strong>de</strong>synthèse dans les années 90 qui ont vu l’enrichissement <strong>de</strong>s techniques granu<strong>la</strong>ires.Il a notamment mis à jour les possibilités <strong>de</strong> changement d’echelletemporelle et <strong>de</strong> transposition en temps réel <strong>de</strong> <strong>sons</strong> enregistrés dans [17].10


2.2 Principe et type <strong>de</strong> synthèseSuite à ce bref historique <strong>de</strong>s recherches et trouvailles <strong>de</strong> pionniers <strong>de</strong> <strong>la</strong>synthèse granu<strong>la</strong>ire, nous allons en présenter maintenant le principe généralnotamment <strong>par</strong> l’exposé <strong>de</strong>s diverses lois et <strong>par</strong>amètres les plus usitées. Nouspoursuivrons <strong>par</strong> les différentes formes que peut prendre ce type <strong>de</strong> synthèseet leurs applications spécifiques.A <strong>la</strong> base d’une texture granu<strong>la</strong>ire se trouve le grain sonore, extension<strong>de</strong> <strong>la</strong> notion <strong>de</strong> quanta sonore introduite <strong>par</strong> Gabor. La synthèse granu<strong>la</strong>irepermet, <strong>par</strong> l’amas <strong>de</strong> ces grains selon <strong>de</strong>s stratégies diverses, <strong>la</strong> génération<strong>de</strong> textures sonores (au sens le plus général) complexes. On peut distinguerplusieurs niveaux <strong>de</strong> <strong>par</strong>amètres régissant cette synthèse. Fondamentalement,on manipule les <strong>par</strong>amètres du grain sonore lui-même, comme sa longueur ouson amplitu<strong>de</strong>. A un niveau supérieur, on é<strong>la</strong>bore <strong>de</strong>s stratégies <strong>de</strong> contrôledu flux <strong>de</strong> grains, ou comment organiser le déclenchement, l’évolution <strong>de</strong>s<strong>par</strong>amètres <strong>de</strong> chacun <strong>de</strong>s grains constituant le flux.Paramètres du grain Un grain est constitué d’une forme d’on<strong>de</strong> etd’une enveloppe modu<strong>la</strong>nte. La réunion <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> ces <strong>de</strong>ux entitésva définir <strong>de</strong> manière unique notre grain.Fig. 1 – Exemple <strong>de</strong> grain avec enveloppe à segments modulée <strong>par</strong> une formed’on<strong>de</strong> sinusoïdale.La forme d’on<strong>de</strong> prise comme base pour <strong>la</strong> construction d’un grain peutêtre <strong>de</strong> nature très diverse et le principe même <strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ire n’enrestreint pas le choix. On peut distinguer tout <strong>de</strong> même <strong>de</strong>s grands principesdans le choix <strong>de</strong> <strong>la</strong> forme d’on<strong>de</strong> qui sont :– on<strong>de</strong> sinusoïdale : forme d’on<strong>de</strong> <strong>la</strong> plus simple du point <strong>de</strong> vue spectralpermettant, moyennant <strong>de</strong>s contrôle <strong>de</strong> haut niveau, <strong>la</strong> mise en oeuvre<strong>de</strong> structures complexes.11


– échantillon sonore : on lit ici <strong>la</strong> forme d’on<strong>de</strong> dans une table contenantun son numérisé. Ceci est à <strong>la</strong> base <strong>de</strong> techniques <strong>de</strong> type time stretchou pitch shift consistant à décorréler les <strong>par</strong>amètres <strong>de</strong> hauteurs et <strong>de</strong>durée <strong>de</strong>s <strong>sons</strong> enregistrés.– on<strong>de</strong> synthétique complexe : d’autres formes d’on<strong>de</strong> synthétiques complexesont été introduites <strong>par</strong> les pionniers <strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ire.Ceci incluant les forme d’on<strong>de</strong>s générées <strong>par</strong> synthèse FM, <strong>par</strong> distortionnon linéaire, <strong>par</strong> somme <strong>de</strong> sinus (Forme d’on<strong>de</strong> Formantique ),...Bien que chacun <strong>de</strong>s cas ci-<strong>de</strong>ssus possè<strong>de</strong> leurs propres <strong>par</strong>amètres, lepitch <strong>de</strong> <strong>la</strong> forme d’on<strong>de</strong> est une donnée qui reste commune à tous et en ce<strong>la</strong>constitue un <strong>par</strong>amètre essentiel <strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ire. Il a un rôle trèsimportant dans <strong>la</strong> construction <strong>de</strong> structures sonores complexes. C’est en effetun <strong>de</strong>s <strong>par</strong>amètres les plus probants perceptuellement et qui a été l’un <strong>de</strong>spremier dont le contrôle a été appréhendé d’un point <strong>de</strong> vue compositionnel(Xenakis ). Notons que le terme pitch n’est pas réellement adéquat dansle cas <strong>de</strong> l’échantillon sonore, <strong>de</strong>venant un <strong>par</strong>amètre re<strong>la</strong>tif à <strong>la</strong> hauteur <strong>de</strong>l’échantillon lui même. On pourra alors lui préférer le terme <strong>de</strong> transposition.Un autre <strong>par</strong>amètre commun à ces trois catégories est le <strong>par</strong>amètre <strong>de</strong> phase.Même si historiquement, il est peu utilisé dans le cas d’on<strong>de</strong> synthétique,il n’en reste pas moins essentiel pour définir le point <strong>de</strong> dé<strong>par</strong>t <strong>de</strong> lectured’un échantillon sonore. On prendra alors pour le caractériser le terme plusévocateur <strong>de</strong> begin.L’enveloppe modu<strong>la</strong>nte est <strong>la</strong> <strong>de</strong>uxième entité centrale d’un grain sonore.Elle détermine entre autres les <strong>par</strong>amètres importants que sont l’amplitu<strong>de</strong>et <strong>la</strong> taille du grain. Comme pour <strong>la</strong> forme d’on<strong>de</strong>, les <strong>par</strong>amètrescontrô<strong>la</strong>bles sont directement liés au type d’enveloppe choisi qui sont principalement:– enveloppe à segment : généralement composé <strong>de</strong> trois phases que sontl’attaque, <strong>la</strong> <strong>par</strong>tie tenue et <strong>la</strong> chute. Ces trois phases sont principalement<strong>par</strong>amétrées <strong>par</strong> leurs durées respectives, respectivement le <strong>par</strong>amètred’attack, <strong>de</strong> steady state et <strong>de</strong> release. Leur somme va ainsidéterminer <strong>la</strong> durée totale du grain. On peut noter que même si lessegments sont traditionnellement linéaires, <strong>de</strong>s variantes peuvent existercomme l’utilisation <strong>de</strong> segment exponentiel ou <strong>de</strong>mi-cosinus pourles phases d’attaque et <strong>de</strong> chute.– enveloppe fonctionnelle : générées lors <strong>de</strong> <strong>la</strong> synthèse, elles suivent12


une fonction que l’on aura préa<strong>la</strong>blement déterminée. C’est le cas <strong>par</strong>exemple <strong>de</strong>s enveloppes “hanning” ou gaussiennes. Chaque fonctionaura ses propres <strong>par</strong>amètres qui pourront influer entre autre sur <strong>la</strong>durée ou <strong>la</strong> puissance <strong>de</strong> l’enveloppe.– enveloppe basée sur une table : l’enveloppe est définie sous <strong>la</strong> formed’une table d’on<strong>de</strong>. On peut ainsi utiliser <strong>de</strong>s enveloppes arbitraires<strong>de</strong>ssinées ou calculées, mais dont <strong>la</strong> forme ne pourra être <strong>par</strong>amétréepour chaque grain. On peut toutefois modifier <strong>la</strong> durée <strong>de</strong> l’enveloppeen lisant plus ou moins rapi<strong>de</strong>ment <strong>la</strong> table d’on<strong>de</strong>. Ce type d’enveloppea donc un <strong>par</strong>amètre <strong>de</strong> taille length.Le <strong>par</strong>amètre <strong>de</strong> longueur <strong>de</strong> grain est très important d’un point <strong>de</strong> vueperceptif ( hauteur et amplitu<strong>de</strong> perçue du grain,...) . En effet, il va modifierl’étalement spectral <strong>de</strong> l’enveloppe et <strong>par</strong> convolution celui <strong>de</strong> <strong>la</strong> formed’on<strong>de</strong>. Ainsi, autant nous sommes capable, avec une longueur <strong>de</strong> 100 ms, <strong>de</strong>bien discerner le contenu spectral <strong>de</strong> <strong>la</strong> forme d’on<strong>de</strong>, autant <strong>de</strong>s longueurs<strong>de</strong> moins <strong>de</strong> 5 ms ne produisent que <strong>de</strong>s ”clicks” colorés. Un <strong>de</strong>s <strong>par</strong>amètrescommuns essentiels <strong>de</strong> l’enveloppe modu<strong>la</strong>nte est bien évi<strong>de</strong>mment son amplitu<strong>de</strong>amp qui influera sur l’amplitu<strong>de</strong> même du grain.On peut affecter à l’enveloppe le <strong>par</strong>amètre <strong>de</strong> spatialisation pan qui permet<strong>de</strong> distribuer les grains sur plusieurs localisations spatiales. Ceci peut en effetse faire en spécifiant une amplitu<strong>de</strong> d’enveloppe différente pour chacun <strong>de</strong>scanaux <strong>de</strong> sortie audio. Par ailleurs, on pourra noter que l’utilisation d’enveloppesfonctionnelles précalculées dans <strong>de</strong>s tables est souvent préférable àun calcul en temps réel <strong>de</strong> celles ci, surtout dans le cas <strong>de</strong> fonctions dont leseul <strong>par</strong>amètre est l’étalement temporel ( enveloppe hanning ).Paramètres du flux Nous avons ainsi défini les <strong>par</strong>amètres les plusimportants <strong>de</strong>s entités sonores en jeu dans un tel type <strong>de</strong> synthèse. Mais,l’intérêt serait bien maigre sans l’ajout <strong>de</strong> stratégies <strong>de</strong> contrôle <strong>de</strong> tousces <strong>par</strong>amètres. Ne serait-ce que pour <strong>la</strong> question du déclenchement <strong>de</strong> cesgrains, il n’est pas question ici <strong>de</strong> les déclencher un à un à <strong>la</strong> manière d’unéchantillonneur mais plutôt <strong>de</strong> gérer leur distribution temporelle <strong>par</strong> <strong>de</strong>sstratégies <strong>de</strong> plus haut niveau. Nous avons donc généralement un <strong>par</strong>amètred’espacement temporel entre le déclenchement <strong>de</strong> grains successifs, qui peutselon les applications être sous <strong>la</strong> forme d’une fréquence ou d’un temps d’espacement( pério<strong>de</strong> ). Ce <strong>par</strong>amètre va directement influer, avec <strong>la</strong> duréedu grain, sur <strong>la</strong> <strong>de</strong>nsité <strong>de</strong> grains, autrement dit le nombre <strong>de</strong> grains jouantsimultanément. La fréquence <strong>de</strong> déclechement a <strong>de</strong>s effets bien <strong>par</strong>ticuliers13


selon l’ordre <strong>de</strong> gran<strong>de</strong>ur dans <strong>la</strong>quelle elle évolue. Ce<strong>la</strong> a à voir avec le principe<strong>de</strong> fusion psychoacoustique <strong>de</strong>s périodicités. En effet, à fréquence basseon obtiendra un effet rythmique qui se transformera en hauteur perceptibleavec son acroissement.Ceci introduit <strong>par</strong> ailleurs plusieurs types <strong>de</strong> synthèsesselon les propriétés <strong>de</strong> <strong>la</strong> fréquence <strong>de</strong> déclenchement :– Pitch Synchronous Granu<strong>la</strong>r Synthesis : les grains sont tous i<strong>de</strong>ntiquementespacés ou selon une re<strong>la</strong>tion linéaire. Cette technique est utiliséenotamment pour les métho<strong>de</strong>s <strong>de</strong> synthèse vocale <strong>par</strong> forme d’on<strong>de</strong>formantique comme dans le programme CHANT <strong>de</strong> Xavier Ro<strong>de</strong>t [2].L’intérêt <strong>de</strong> <strong>la</strong> PSGS est, en périodisant le grain, d’avoir <strong>la</strong> propriétéd’échantillonner le spectre <strong>de</strong> ce <strong>de</strong>rnier dans le domaine fréquentiel.On synthétise donc un signal harmonique, ayant pour fondamentale <strong>la</strong>fréquence <strong>de</strong> déclenchement et pour enveloppe spectrale le spectre dugrain. Pour <strong>la</strong> synthèse vocale, les grains FoF sont <strong>de</strong>s sommes <strong>de</strong> sinusoï<strong>de</strong>sfenêtrées correspondant aux formants <strong>de</strong>s <strong>par</strong>ties voisées.– Aynchronous Granu<strong>la</strong>r Synthesis : Les grains sont déclenchés <strong>de</strong> manièrealéatoire. Ceci est utilsé pour <strong>la</strong> création <strong>de</strong> textures sonores <strong>de</strong> type“Nuages” dans l’espace temps-fréquence initialement introduites <strong>par</strong>Xenakis. L’espacement <strong>de</strong>s grains peut être compris entre <strong>de</strong>ux bornesou choisi <strong>par</strong>mis une liste finie <strong>de</strong> valeurs.La génération d’un grand nombre <strong>de</strong> grains implique le difficile contrôle<strong>de</strong> chaque grain <strong>par</strong>ticulier. Il est <strong>de</strong> plus interessant d’avoir une bonne variabilité<strong>de</strong>s <strong>par</strong>amètres pour créer <strong>de</strong>s structures complexes. On introduit ainsiun <strong>de</strong>gré d’aléatoire ou randomness dans <strong>la</strong> variation <strong>de</strong>s <strong>par</strong>amètres. Nousavons donc <strong>la</strong> possibilitée d’ajouter à chaque <strong>par</strong>amètre un générateur <strong>de</strong>nombre aléatoire régi <strong>par</strong> un fonctionnement spécifique. La métho<strong>de</strong> <strong>la</strong> plususitée est <strong>la</strong> génération <strong>de</strong> variables équiprobables entre <strong>de</strong>ux bornes. Mais,on peut aussi contrôler selon <strong>de</strong>s lois plus complexes comme choisir dans uneliste finie <strong>de</strong> valeurs avec pour chacune une probablilité <strong>par</strong>ticulière.Curtis Roads dans [15] a rappelé toutes les diverse variantes d’appel<strong>la</strong>tionselon les contraintes imposées au schéma général <strong>de</strong> synthèse. Leur liste estexhaustive... On pourra citer <strong>la</strong> “Wavelet Synthesis” qui corréle le pitch est<strong>la</strong> durée du grain, les différentes variantes <strong>de</strong> <strong>la</strong> “Glisson synthesis” qui travailleavec <strong>de</strong>s grains <strong>de</strong> type glissandi. D’autres types <strong>de</strong> synthèse s’attacheà <strong>de</strong>finir et manipuler <strong>de</strong>s macrostructures granu<strong>la</strong>ires comme <strong>la</strong> “Trainletsynthesis” qui génèrent <strong>de</strong>s groupes <strong>de</strong> grains <strong>de</strong> même hauteur. Toutes cesdénominations ne sont là que pour spécialiser le caractére trés général <strong>de</strong> <strong>la</strong>synthèse granu<strong>la</strong>ire.14


2.3 Le projet GMU (GMEM Microsound Universe)Ce projet a démarré l’année <strong>de</strong>rnière, c’est un nouveau programme <strong>de</strong>recherche à long terme <strong>la</strong>ncé <strong>par</strong> le GMEM. Il vise à mettre au point unsystème intégré permettant <strong>la</strong> production et le contrôle <strong>de</strong> <strong>sons</strong> <strong>de</strong> synthèsepour <strong>de</strong>s applications musicales.Plusieurs points caractérisent ce système :– Les techniques <strong>de</strong> synthèse choisies se démarquent <strong>de</strong>s techniques <strong>de</strong>synthèse c<strong>la</strong>ssiques généralement basées sur <strong>de</strong>s oscil<strong>la</strong>teurs continus.On privilégie ici le grain sonore et non le <strong>par</strong>tiel sonore. Ces techniquessont <strong>de</strong>stinées à <strong>la</strong> production <strong>de</strong> <strong>sons</strong> qui ne sont pas nécessairementharmoniques et doivent permettre d’explorer un domaine beaucoupplus <strong>la</strong>rge, plus proche <strong>de</strong>s domaines <strong>de</strong> <strong>la</strong> musique concrète à <strong>la</strong>quelle<strong>la</strong> sensibilité du GMEM est rattachée.– Le système est prévu pour intégrer aussi <strong>de</strong>s techniques <strong>de</strong> contrôle appropriées,<strong>de</strong>s outils <strong>de</strong> transformation du timbre et <strong>de</strong> spatialisation.Les variations <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> synthèse peuvent induire <strong>de</strong>s modificationscorrélées <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> traitement et <strong>de</strong> spatialisation.– Les <strong>par</strong>amètres <strong>de</strong> contrôle <strong>de</strong> bas niveau seront regroupés et contrôlés<strong>par</strong> <strong>de</strong>s <strong>par</strong>amètres perceptifs et continus (interpo<strong>la</strong>tions), permettantaisément aux compositeurs <strong>de</strong> créer <strong>de</strong> nouveaux types <strong>de</strong> <strong>sons</strong>.– Le système sera opérationnel en temps-réel (environnement MAX/MSP)– Des techniques d’analyse <strong>de</strong> <strong>sons</strong>, d’extraction <strong>de</strong> <strong>par</strong>amètres, fonctions<strong>de</strong> distribution statistique permettront <strong>de</strong> configurer automatiquementles différents modules du système.– Le système pourra mener à terme à une typologie et une <strong>par</strong>amétrisation<strong>de</strong> <strong>sons</strong> bruités et environnementaux permettant au musicien d’explorer<strong>de</strong> nouveaux espaces sonores.Mon travail s’est inscrit dans ce projet avec une focalisation <strong>par</strong>ticulièresur l’analyse et <strong>la</strong> synthése <strong>de</strong> <strong>sons</strong> bruités <strong>par</strong> techniques granu<strong>la</strong>ires. Eneffet, <strong>de</strong>s outils <strong>de</strong> synthése sont operationnels grace notamment au travail<strong>de</strong> Loic Kessous. Jean Francois Oliver a <strong>de</strong> plus é<strong>la</strong>boré l’année <strong>de</strong>rnière<strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> contrôle avancées dans MAX/MSP et <strong>de</strong> traitement <strong>de</strong><strong>par</strong>amètres dans OpenMusic. La <strong>par</strong>tie d’analyse-resynthése granu<strong>la</strong>ire com-15


mençait donc avec le début du stage.2.4 Application aux <strong>sons</strong> bruitésNous allons nous intéresser principalement ici aux <strong>sons</strong> bruités et aux possibilitésqu’a <strong>la</strong> synthèse granu<strong>la</strong>ire <strong>de</strong> les représenter. Tout d’abord qu’appellet-onson bruité? Il ne s’agit pas, comme on pourrait être poussé à le croire,<strong>de</strong> n’importe quel son contenant une composante aléatoire non-negligeable,<strong>la</strong> synthèse granu<strong>la</strong>ire n’ayant dans ce cas qu’un bien maigre intérêt com<strong>par</strong>éaux métho<strong>de</strong>s <strong>de</strong> synthèse additive sinusoi<strong>de</strong>s+bruits <strong>par</strong> exemple. Toutd’abord, les <strong>sons</strong> bruités n’ont pas nécessairement une hauteur perceptible.Mais, une <strong>de</strong> leur propriété importante est d’avoir une structure temporellespécifique, régissant leur évolution (et leur répétition) dans le temps. A ledifférence <strong>de</strong> métho<strong>de</strong>s <strong>de</strong> type additive, on souhaite <strong>par</strong>amétriser les <strong>sons</strong>autant d’un point <strong>de</strong> vue microscopique, avec <strong>par</strong> exemple leur compositionspectrale locale, que macroscopique, représentant leur structure temporelle<strong>de</strong> manière compacte, ceci étant dans le but d’une application en synthèsegranu<strong>la</strong>ire. Nous nous intéres<strong>sons</strong> donc ici principalement au son ayant une“cohérence granu<strong>la</strong>ire” permettant une telle application. Nous nous <strong>de</strong>vonsd’expliciter ces propos. On voudrait représenter <strong>de</strong>s <strong>sons</strong> dont <strong>la</strong> structurepeut être vue comme <strong>la</strong> superposition <strong>de</strong> grains plus ou moins complexes.On étend ainsi <strong>la</strong> notion <strong>de</strong> quanta sonore <strong>de</strong> Gabor, qui avance <strong>la</strong> possiblereprésentation <strong>de</strong> tout type <strong>de</strong> <strong>sons</strong> <strong>par</strong> une accumu<strong>la</strong>tion <strong>de</strong> grainsélémentaires. Ici le grain gar<strong>de</strong> un sens <strong>par</strong>ticulier et est directement lié auson que l’on souhaite représenter. Prenons l’exemple d’un bruit <strong>de</strong> pas sur untas <strong>de</strong> feuille morte. On peut le voir comme l’accumu<strong>la</strong>tion <strong>de</strong> “micro<strong>sons</strong>” <strong>de</strong>craquements <strong>de</strong> feuille avec une structure temporelle et une variabilité spectralespécifique. Verser du sable sur une p<strong>la</strong>que <strong>de</strong> fer produit <strong>de</strong> <strong>la</strong> mêmemanière <strong>la</strong> superposition <strong>de</strong>nses <strong>de</strong> “tick” élémentaires. Il existe en effet <strong>de</strong>nombreux exemples <strong>de</strong> son rentrant dans cette c<strong>la</strong>sse. En fait, dès lors quel’on a, dans le mon<strong>de</strong> physique, plusieurs occurences d’une même structure,d’un même phénomène on peut s’attendre à avoir ce type <strong>de</strong> <strong>sons</strong>. On citerales <strong>sons</strong> <strong>de</strong> grattements, <strong>de</strong> frottements, <strong>de</strong> craquements, <strong>de</strong> bruissements,...On remarquera que cette catégorisation est directement liée à l’action effectrice,n’induisant à priori rien sur leurs propriétés sonores. Pourtant, nousavons incorporé <strong>la</strong> variabilité <strong>de</strong> ces <strong>sons</strong> causaux étant à même <strong>de</strong> leur associeravec plus ou moins d’assurance une catégorie.Il y a donc bien <strong>de</strong>s<strong>par</strong>amètres influant <strong>de</strong> ces <strong>sons</strong> justifiant une catégorisation <strong>par</strong>amètrique<strong>par</strong> analyse.Le but est donc ici d’analyser <strong>de</strong>s <strong>sons</strong> bruités réels pour en tirer <strong>de</strong>s <strong>par</strong>amètresapplicable en synthèse granu<strong>la</strong>ire qui puisse résulter en un son at-16


tribuable à <strong>la</strong> c<strong>la</strong>sse du son <strong>de</strong> dé<strong>par</strong>t. Il nous faut donc pouvoir détecter les<strong>par</strong>amètres <strong>de</strong>s grains propres au son analysé et d’en <strong>par</strong>amétriser l’évolutiondans le temps. Nous sommes <strong>par</strong>ti du postu<strong>la</strong>t que ces évolutions pouvaientêtre représentées <strong>par</strong> <strong>de</strong>s distributions stochastiques. A terme ce<strong>la</strong> doit aboutirsur une possible c<strong>la</strong>ssification <strong>de</strong>s <strong>sons</strong> bruités selon leur caractéristiques,permettant ainsi en synthèse divers traitements comme <strong>la</strong> création <strong>de</strong> <strong>sons</strong>hybri<strong>de</strong>s ou plus simplement un contrôle du son bruité <strong>par</strong> <strong>de</strong>s <strong>par</strong>amètresen corre<strong>la</strong>tion avec le mon<strong>de</strong> physique.Existant Nous n’avons pu que constater <strong>la</strong> re<strong>la</strong>tive rareté <strong>de</strong>s travaux existantssur <strong>la</strong> synthèse granu<strong>la</strong>ire en re<strong>la</strong>tion avec les <strong>sons</strong> bruités. En effet, ily a bien <strong>de</strong>s approches empiriques pour tenter <strong>de</strong> synthétiser <strong>de</strong> telles c<strong>la</strong>sses<strong>de</strong> <strong>sons</strong> mais pas réellement <strong>de</strong> métho<strong>de</strong>s basées sur une analyse <strong>de</strong> cas réels.Pourtant plusieurs travaux nous ont motivé dans l’approfondissement d’unetelle approche.Tout d’abord, les résultats <strong>de</strong>s travaux <strong>de</strong> Damian Keller musicien-chercheurau CCRMA <strong>de</strong> Stanford qui a notamment travaillé avec Barry Truax, sont interessantssous divers aspects. Il a en effet travaillé sur les “modèles écologiques”<strong>de</strong> <strong>sons</strong> appliqués à <strong>la</strong> synthèse granu<strong>la</strong>ire [9] [18], qui tente <strong>de</strong> reproduire <strong>de</strong>s<strong>sons</strong> bruités environnementaux. Il a toutefois une approche plus phénoménologiquepour <strong>la</strong> modélisation se basant sur les propriétés physiques <strong>de</strong>s actions effectrices.Il travaille en <strong>par</strong>allèle sur <strong>la</strong> perception notamment <strong>par</strong> l’étu<strong>de</strong><strong>de</strong>s invariants qui nous permettent <strong>de</strong> caractériser <strong>de</strong> tels types <strong>de</strong> <strong>sons</strong>. I<strong>la</strong> <strong>par</strong> exemple modélisé, <strong>par</strong> l’étu<strong>de</strong> <strong>de</strong> son mouvement, l’évolution <strong>de</strong>s <strong>par</strong>amètresgranu<strong>la</strong>ires du son d’une balle rebondissante. Il a aussi <strong>de</strong>s résultatsintéressants sur <strong>de</strong>s <strong>sons</strong> <strong>de</strong> brisures <strong>de</strong> vitres, distribuant plusieurs grains caractéristiquesnaturels aléatoirement. Les <strong>sons</strong> obtenus ont une connotationtrès naturelle, ce<strong>la</strong> nous motivant sur <strong>la</strong> capacité qu’a <strong>la</strong> synthèse granu<strong>la</strong>iredans son application aux <strong>sons</strong> bruités. Mais nous ne pouvons utiliser <strong>de</strong> telstravaux, l’approche attendue ici étant <strong>de</strong> l’ordre <strong>de</strong> l’analyse-synthèse prenantpour base uniquement le son.D’autre <strong>par</strong>t, certains pans <strong>de</strong> <strong>la</strong> recherche en traitement du signal sonore,même si leur application n’est pas directement lié à <strong>la</strong> synthèse granu<strong>la</strong>ire,peuvent être interessant pour nous. Ainsi, les travaux <strong>de</strong> Pierre Hanna et MyriamDesainte-Catherine sur <strong>la</strong> synthèse <strong>de</strong> bruits <strong>par</strong> somme <strong>de</strong> sinusoi<strong>de</strong>sdonne <strong>de</strong>s résultats encourageant pour notre modélisation [7] [6] . Ils s’attachentà synthétiser <strong>de</strong>s bruits colorés <strong>par</strong> transformée <strong>de</strong> Fourier inverse,dont l’application directe est dans l’analyse-transformation-synthèse <strong>par</strong> TFdiscrète. Ils ont montré qu’il était possible <strong>de</strong> générer du bruit coloré en sommantun nombre fini <strong>de</strong> sinusoï<strong>de</strong>s dont les fréquences et phases sont choisies17


aléatoirement pour chaque fenêtre <strong>de</strong> resynthèse. On peut alors voir unefenêtre comme une superposition <strong>de</strong> grains sinusoidaux, nous montrant ainsi<strong>la</strong> possibilité <strong>de</strong> générer en synthèse granu<strong>la</strong>ire <strong>de</strong>s bruits colorés, <strong>la</strong> couleurdu bruit étant en re<strong>la</strong>tion avec <strong>la</strong> distribution statistique <strong>de</strong>s fréquences centrales<strong>de</strong>s grains. Selon ce principe, on pourrait imaginer extraire <strong>la</strong> <strong>de</strong>nsitéspectrale <strong>de</strong> puissance d’un bruit permettant ensuite <strong>la</strong> resynthèse granu<strong>la</strong>ire.Ce<strong>la</strong> peut être intéressant mais ce n’est pas le propos ici. Ce<strong>la</strong> a néanmoinsle merite <strong>de</strong> nous conforter dans l’idée <strong>de</strong> pouvoir représenter du bruit <strong>par</strong>une accumu<strong>la</strong>tion <strong>de</strong> grains sonores simples.Suite à ce constat sur <strong>la</strong> re<strong>la</strong>tive pauvreté <strong>de</strong>s travaux antérieurs sur cetteproblématique, il a fallu tout d’abord chercher <strong>de</strong>s métho<strong>de</strong>s d’analyse permettant<strong>la</strong> décomposition du son <strong>de</strong> dé<strong>par</strong>t en grains, <strong>de</strong>squels on pouvaienttirer <strong>de</strong>s <strong>par</strong>amètres exploitables. Le prochain chapitre expose les diversesmétho<strong>de</strong>s que nous avons évaluées pour réaliser cette tâche.18


3 Métho<strong>de</strong>s d’analyseCette <strong>par</strong>tie expose les différentes pistes que nous avons explorées pourl’analyse granu<strong>la</strong>ire <strong>de</strong> <strong>sons</strong> bruités. Les <strong>de</strong>ux premières, que sont <strong>la</strong> segmentation<strong>par</strong> détection d’attaque et l’algorithme Matching Pursuit, sont<strong>de</strong>s techniques existantes, plus ou moins utilisées en traitement du signal, etdont nous propo<strong>sons</strong> une application à l’analyse granu<strong>la</strong>ire. Nous introduironsenfin une troisième métho<strong>de</strong>, que nous nommerons Spectral MatchingPursuit, extension <strong>de</strong> <strong>la</strong> métho<strong>de</strong> Matching Pursuit traditionnelle au domainefrequentiel qui se trouve <strong>par</strong>ticulièrement prometteuse pour <strong>la</strong> décomposition<strong>de</strong> signaux en grain sonore arbitraire.3.1 Analyse <strong>par</strong> segmentation temporelle3.1.1 MotivationsComme nous l’avons vu plus haut, le but <strong>de</strong> <strong>la</strong> phase d’analyse est <strong>de</strong> tenter<strong>de</strong> décomposer le son source en microentités sonores, <strong>de</strong>squelles on pourraittirer <strong>de</strong>s <strong>par</strong>amètres pertinents pour <strong>la</strong> resynthése. Une <strong>de</strong>s premièresidées qui vient naturellement à l’esprit est d’utiliser <strong>de</strong>s techniques <strong>de</strong> segmentationdans le domaine temporel pour isoler les grains et ainsi pouvoir entirer <strong>de</strong>s <strong>par</strong>amètres propres à chacun. Nous nous sommes pour ce<strong>la</strong> inspirés<strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> détection d’attaque dont le champ d’application va <strong>de</strong> <strong>la</strong> <strong>de</strong>tection<strong>de</strong> tempo, au suivi <strong>de</strong> <strong>par</strong>tition ou à <strong>la</strong> reconnaissance d’instrument.On <strong>par</strong>t ici du postu<strong>la</strong>t que chaque grain peut être d’une <strong>par</strong>t détecté <strong>par</strong>les propriétés dynamiques du signal et d’autre <strong>par</strong>t qu’il peut être isolé dupoint <strong>de</strong> vue temporel pour une extraction précise <strong>de</strong> ces <strong>par</strong>amètres. Ainsisi x est le signal analysé et D = {g i } un ensemble <strong>de</strong> grains, cette métho<strong>de</strong>s’applique à tout signal x <strong>de</strong> longueur N tel que :x[k] = ∑ i∈D∑ Nα i g i [k] avec ∀i, j ∈ D 2 g i [k] 2 .g j [k] 2 = 0Autrement dit, <strong>la</strong> segmentation ainsi effectuée <strong>par</strong> cette métho<strong>de</strong> ne peutdécomposer que <strong>de</strong>s <strong>sons</strong> dont <strong>la</strong> microstructure granu<strong>la</strong>ire ne se recouvrepas dans le temps. En réalité il peut être possible <strong>de</strong> détecter <strong>de</strong>s attaques <strong>de</strong>grains se recouvrant mais l’analyse <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> ceux ci <strong>de</strong>vient beaucoupplus problématique. Nous nous restreindrons pour l’instant à cette seuleapplication.Le mo<strong>de</strong> opératoire pour cette métho<strong>de</strong> d’analyse est tout d’abord <strong>la</strong> segmentationdu signal <strong>par</strong> détection <strong>de</strong> variations brutales dans sa dynamique,k=019


puis l’extraction <strong>de</strong>s <strong>par</strong>amètres propres à chaque segment suivi enventuellementd’un traitement <strong>de</strong> ces <strong>par</strong>amètres pour les rendre exploitables <strong>par</strong> <strong>la</strong>synthése.3.1.2 SegmentationLes algorithmes <strong>de</strong> <strong>de</strong>tection d’attaque sont <strong>de</strong>venu très popu<strong>la</strong>ires dans<strong>de</strong> divers domaines <strong>de</strong> traitement <strong>de</strong> signal. Pour notre application nousnous sommes basés sur une métho<strong>de</strong> <strong>de</strong> segmentation issu d’un algorithme<strong>de</strong> détection <strong>de</strong> tempo <strong>de</strong> morceaux musicaux proposée <strong>par</strong> Scheirer dans [16].Cette métho<strong>de</strong> extrait en premier lieu l’enveloppe d’amplitu<strong>de</strong> du signal eten détecte les variations brusques. L’algorithme peut se schématiser commesuit :Fig. 2 – Schéma <strong>de</strong> l’algorithme <strong>de</strong> segmentationCette métho<strong>de</strong> d’extraction d’enveloppe porte le nom <strong>de</strong> “rectify andsmooth method”. Il s’agit dans un premier temps <strong>de</strong> rectifier le signal analyséx c’est a dire calculer rx = x 2 , ceci permettant d’avoir un signal qui oscilleautour <strong>de</strong> sa fonction d’enveloppe. Le filtrage passe bas suivant ne gar<strong>de</strong>raque <strong>la</strong> composante évoluant lentement au cours du temps qui représente unebonne estimation <strong>de</strong> l’enveloppe d’amplitu<strong>de</strong> du signal source. La fonctiond’enveloppe est alors differenciée pour en détecter les variations positivesbrusques <strong>par</strong> seuil<strong>la</strong>ge.Choix du filtre Le choix du filtre est très important pour bien sé<strong>par</strong>er cequi dans le signal rectifié est <strong>de</strong> l’ordre <strong>de</strong>s fréquences re<strong>la</strong>tives au spectre <strong>de</strong><strong>la</strong> forme d’on<strong>de</strong> et celles re<strong>la</strong>tives à l’enveloppe d’amplitu<strong>de</strong>. Scheirer proposepour le filtrage du signal rectifié <strong>de</strong> convoluer <strong>par</strong> une <strong>de</strong>mi fenêtre Hanning<strong>de</strong> longueur 200 ms. ce filtre RIF a une fréquence <strong>de</strong> coupure à -3dB auxenviron <strong>de</strong> 10 hertz et une pente <strong>de</strong> -6dB/octave. De <strong>par</strong>t sa discontinuitéen 0, ce filtre n’est pas à phase linéaire. En réalité dans notre cas, ormis <strong>la</strong>considération du <strong>de</strong><strong>la</strong>i introduit dans <strong>la</strong> ban<strong>de</strong> <strong>de</strong> fréquence qui nous interesse( environ 0 − 20Hz ), <strong>la</strong> linéarité <strong>de</strong> phase du filtre n’est pas une contrainteforte. La réponse en fréquence d’un tel filtre est représentée sur <strong>la</strong> figure 3.20


Fig. 3 – Réponse en fréquence du filtre “<strong>de</strong>mi-Hanning”Aprés plusieurs tests sur <strong>de</strong>s divers exemples sonores notamment comportant<strong>de</strong> fortes composantes frequentielles graves, nous avons mis à jour<strong>la</strong> limite d’utilisation d’un tel filtre pour l’extraction d’enveloppe. En effet,les composantes frequentielles <strong>de</strong> <strong>la</strong> forme d’on<strong>de</strong> interféraient avec les variationsd’amplitu<strong>de</strong> du signal. Lors <strong>de</strong> <strong>la</strong> détermination <strong>de</strong>s temps d’attaque<strong>par</strong> seuil<strong>la</strong>ge <strong>de</strong> <strong>la</strong> fonction d’enveloppe différenciée, on détecte à le fois lesvariations positives d’enveloppe et les perio<strong>de</strong>s <strong>de</strong>s composantes graves. Ceciest principalement du à <strong>la</strong> trop faible pente <strong>de</strong> coupure du filtre (rolloff).Ce<strong>la</strong> nous a donc poussé à utiliser un autre type <strong>de</strong> filtre pour l’extraction<strong>de</strong> l’enveloppe d’amplitu<strong>de</strong> du signal. Nous avons utilisé <strong>la</strong> métho<strong>de</strong><strong>de</strong> <strong>la</strong> fenêtre pour le synthétiser. Le gain <strong>de</strong> ce filtre doit idéalement êtreH(e 2jπf ) = 1 (−fc,f c)(f) (avec 1 (−fc,f c)(f) fonction <strong>de</strong> heavysi<strong>de</strong> centrée en 0et <strong>de</strong> <strong>la</strong>rgeur 2f c ). La réponse impulsionnelle d’une telle fonction <strong>de</strong> transfertest :h(t) =∫ 1/2−1/2H(e 2jπf )e 2jπtf df = sin(2πtf c)πtCette réponse impulsionnelle étant infinie, nous l’avons pondéré <strong>par</strong> unefenêtre <strong>de</strong> hanning, préférable à une fenêtre rectangu<strong>la</strong>ire, n’introduisant <strong>de</strong>slobes secondaires qu’à -40dB contre -13dB. Ceci est <strong>par</strong> ailleurs au détriment<strong>de</strong> l’augmentation <strong>de</strong> <strong>la</strong> <strong>la</strong>rgeur <strong>de</strong> ban<strong>de</strong> du filtre. En effet, ayant multipliéles <strong>de</strong>ux signaux, on obtient une convolution dans le domaine spectral. Laban<strong>de</strong> passante du filtre <strong>de</strong>vient alors :B = 2f c + B wavec B w ban<strong>de</strong> passante <strong>de</strong> <strong>la</strong> fenêtre HanningB w est directement liée à <strong>la</strong> taille <strong>de</strong> <strong>la</strong> fenêtre hanning utilisé et peutêtre calculé <strong>par</strong> :21


B w = C wM .Feavec M taille <strong>de</strong> <strong>la</strong> fenêtre, C w = 1.78 coefficient <strong>de</strong> <strong>la</strong>rgeur <strong>de</strong> ban<strong>de</strong> passante( données pour les fenêtres usuelles ) et Fe fréquence d’échantillonnage.Nous pouvons compenser, pour <strong>la</strong> synthèse du filtre, cet é<strong>la</strong>rgissement <strong>de</strong>ban<strong>de</strong> en prenant f c = f l − B h /2 avec f l fréquence <strong>de</strong> coupure <strong>de</strong>mandée.Il faudra toutefois B h < f l et ainsi M > Cwf l.Fe. En prenant <strong>par</strong> exemplef l = 20Hz et Fe = 44100, <strong>la</strong> taille <strong>de</strong> <strong>la</strong> fenêtre ne <strong>de</strong>vra pas être inferieure àenviron 4000 échantillons. De plus, diminuer <strong>la</strong> taille <strong>de</strong> <strong>la</strong> fenêtre aura poureffet <strong>de</strong> diminuer <strong>la</strong> pente <strong>de</strong> coupure du filtre. Nous avons donc dû trouverun compromis entre sélectivité en fréquence du filtre (directement liée à <strong>la</strong>longueur <strong>de</strong> <strong>la</strong> fenêtre) et coût <strong>de</strong> calcul. Pour nos tests nous avons utiliséune fenêtre <strong>de</strong> 8000 échantillons nous permettant <strong>de</strong> <strong>de</strong>scendre jusqu’à unefréquence <strong>de</strong> coupure <strong>de</strong> 10 Hz. La réponse en fréquence, avec f c = 5Hz etM = 8000 sont représentées en figure 4.Fig. 4 – Réponse en fréquence du filtre sinc-hanningIl est <strong>par</strong> ailleurs bon <strong>de</strong> préciser que le filtre créé n’est pas à proprement<strong>par</strong>ler causal, sa réponse impulsionnelle étant centrée en 0. Pourtant, on peutle considérer comme tel en acceptant un retard <strong>de</strong> M/2, n’étant pas ici dans22


<strong>de</strong>s contraintes <strong>de</strong> temps-réel.Fig. 5 – Exemple d’enveloppe extraite respectivement <strong>par</strong> filtre <strong>de</strong>mihanning<strong>de</strong> taille N = 8200 et <strong>par</strong> filtre sinc-hanning <strong>de</strong> taille N = 8200et <strong>de</strong> fréquence <strong>de</strong> coupure f l = 10Hz (f c ≃ 20Hz).Un exemple d’extraction d’enveloppe est représenté en figure 5. On noteratout d’abord que les signaux d’enveloppe ont été remis à l’échelle, le gain <strong>de</strong>sfiltres étant environ <strong>de</strong> 60dB ( d’un facteur 1000 ) dans leur ban<strong>de</strong> passante.On voit c<strong>la</strong>irement que le filtre <strong>de</strong>mi-hanning n’atténue pas aussi fortementles hautes fréquences que le sinc-hanning. Les transitions sont en effet beaucoupplus brutales pour le premier. De plus, le filtre <strong>de</strong>mi-hanning introduitun déca<strong>la</strong>ge qui n’est pas significatif <strong>de</strong> l’enveloppe d’amplitu<strong>de</strong> réelle dusignal. Ceci est principalement dû à un trop fort gain <strong>de</strong>s fréquences trèsfaibles dans sa ban<strong>de</strong> passante ( fonction <strong>de</strong> transfert en pic ). Ce comportementn’est pas attendu ici, le but étant <strong>de</strong> coller au plus près <strong>de</strong>s variations<strong>de</strong> dynamique du signal, dès lors qu’elles sont dans <strong>la</strong> ban<strong>de</strong> <strong>de</strong> fréquencespécifiée (0-10Hz). Le choix du filtre sinc-hanning semble désormais justifié,23


filtre qui à coût <strong>de</strong> calcul égal, offre <strong>de</strong> bien meilleures specifications pourl’extraction d’enveloppe appliquée à <strong>la</strong> détection d’attaque.autres traitements Une fois l’enveloppe d’amplitu<strong>de</strong> du signal extraite,on calcule sa différentielle pour détecter ses variations brusques. Ceci peutse faire avec une filtre différentiateur dont l’équation aux différences est <strong>de</strong><strong>la</strong> forme :y(t) = 0.5x(t) − 0.5x(t − 1)Sur l’enveloppe ainsi différenciée, on effectue ensuite un seuil<strong>la</strong>ge pourdétecter les attaques (ie. les plus gran<strong>de</strong>s variations positives ). Le choix duseuil est important selon le type <strong>de</strong> son analysé et ce que l’on veut détecter.Il doit pouvoir être ajustable <strong>par</strong> l’utilisateur. Mais il est aussi dépendant <strong>de</strong><strong>la</strong> puissance du signal. En effet, un seuil constant pénalise trop fortement lesattaques <strong>de</strong> grains faibles en intensité :soit x 1 (t) et x 2 (t) = 0.2 ∗ x 1 (t) on a alors y 2 (t) = 0.2 ∗ y 1 (t)Par ailleurs, un seuil trop faible, qui pourrait à priori détecter <strong>de</strong>s attaquesd’intensités diverses, donne trop d’erreurs <strong>de</strong> dédoublement d’attaque pourles grains d’intensité forte. Ainsi, une petite variation d’enveloppe d’amplitu<strong>de</strong>au sein <strong>de</strong> <strong>la</strong> chute (“<strong>de</strong>cay”) d’un grain peut être faussement détectéecomme une attaque. Or, <strong>la</strong> métho<strong>de</strong> se doit, <strong>par</strong>ticulièrement dans notre cas,<strong>de</strong> détecter <strong>de</strong>s attaques d’intensités diverses, le <strong>par</strong>amètre d’amplitu<strong>de</strong> pourchaque grain étant une donnée potentiellement intéressante à extraire <strong>par</strong> <strong>la</strong>suite. L’idée pour améliorer <strong>la</strong> détection est alors <strong>de</strong> prendre un seuil bas,fonction <strong>de</strong>s plus faibles attaques à détecter, et <strong>de</strong> pondérer ce <strong>de</strong>rnier <strong>par</strong><strong>la</strong> puissance locale du signal, évitant ainsi les artefacts <strong>de</strong> dédoublements.Notons que ce<strong>la</strong> n’est va<strong>la</strong>ble que dans le contexte <strong>de</strong> dé<strong>par</strong>t, dans lequelles grains sonores constituant le son analysé ne se recouvraient pas (ou peu)dans le temps. En effet, dans le cas contraire, <strong>la</strong> donnée <strong>de</strong> puissance ne peutplus être attribuée à un seul grain, le seuil ne pouvant plus s’adapter enconséquence.La puissance du signal est calculée sur une fenêtre <strong>de</strong> taille N suivant :P x (t) =N∑x 2 (t − k)k=0La taille N pourra être choisie pour influencer <strong>la</strong> détection d’un grain <strong>par</strong>rapport au grain précé<strong>de</strong>mment trouvé. Avec N grand, un grain faible peu <strong>de</strong>24


temps après un grain fort ne sera pas détecté. Ce <strong>par</strong>amètre n’est toutefoispas très probant, ses effets interférant avec ceux <strong>de</strong> <strong>la</strong> ban<strong>de</strong> passante dufiltre d’extraction d’enveloppe. Nous avons, pour nos tests, utilisé une taille<strong>de</strong> 1024 échantillons (correspondant à une fréquence <strong>de</strong> 40 Hz), permettantà <strong>de</strong>s grains ne se recouvrant pas et dont <strong>la</strong> fréquence <strong>de</strong> déclenchementn’excè<strong>de</strong> pas les 20Hz <strong>de</strong> peu s’influencer les uns les autres. Un exemple <strong>de</strong>détection d’attaque <strong>par</strong> seuil<strong>la</strong>ge est présenté en figure 6.Fig. 6 – Exemple <strong>de</strong> détection d’attaque resepectivement <strong>par</strong> seuil<strong>la</strong>geconstant et <strong>par</strong> seuil<strong>la</strong>ge dynamique.Pour cet exemple, nous avons gar<strong>de</strong>r <strong>la</strong> fréquence <strong>de</strong> coupure et <strong>la</strong> tailledu filtre d’extraction d’enveloppe à respectivement f c = 20Hz et N = 8200.Le seuil est fixé à <strong>la</strong> valeur très faible <strong>de</strong> s = 0.01s pour garantir <strong>la</strong> <strong>de</strong>tectiondu grain à t = 1.2. On remarque que <strong>par</strong> seuil<strong>la</strong>ge constant l’algorithmefait trois erreurs <strong>de</strong> dédoublement à t ≃ 0.2, t ≃ 0.6 et t ≃ 1.4. Ces troiserreurs sont dues au fait que, bien que ce<strong>la</strong> soit peu visible sur <strong>la</strong> figure,les grains constituant le son analysé ont une enveloppe d’amplitu<strong>de</strong> comportantplusieurs segments. Certaines phases ascendantes <strong>de</strong> l’enveloppe sont25


ainsi détéctées, quand l’intensité du grain est suffisamment gran<strong>de</strong>, comme<strong>de</strong>s attaques. Par <strong>la</strong> métho<strong>de</strong> du seuil<strong>la</strong>ge dynamique, ces trois attaquesprécé<strong>de</strong>mment détectées sont sous le seuil, conséquence <strong>de</strong> <strong>la</strong> forte puissancelocale du signal à ces endroits.Lors <strong>de</strong> plusieurs tests , l’algorithme s’est montré assez robuste tant quel’on reste dans les conditions dictées au dé<strong>par</strong>t, qui étaient le non recouvrement<strong>de</strong>s grains dans le temps. En effet, les attaques survenues dans uncontexte <strong>de</strong> trop forte puissance locale, sont ignorées <strong>par</strong> le seuil<strong>la</strong>ge dynamique,situation qui arrive souvent dans un signal polyphonique. La métho<strong>de</strong>peut traiter <strong>de</strong>s grains qui se recouvrent mais les résultats ne sont alors pasaussi fiables. Ainsi, en se restreignant dans ce contexte, nous avons donc gran<strong>de</strong>mentamélioré <strong>la</strong> métho<strong>de</strong> <strong>de</strong> détection d’attaque dans son application aux<strong>sons</strong> granu<strong>la</strong>ires. Nous pouvons maintenant exploiter les indices temporelspour effectuer <strong>de</strong>s analyses locales attribuables à chacun <strong>de</strong>s grains sonores.3.1.3 Extraction <strong>de</strong> <strong>par</strong>amètresUne fois le signal analysé segmenté en grain, on peut <strong>par</strong> diverses métho<strong>de</strong>sd’analyse extraire les <strong>par</strong>amètres qui seront appliqués lors <strong>de</strong> <strong>la</strong> phase <strong>de</strong> resynthèse.Nous n’avons pas ici explorer toutes les possibilités d’analyse maisétions plutôt dans une approche <strong>de</strong> test et d’experimentation sur <strong>la</strong> validité<strong>de</strong> <strong>la</strong> techique d’un point <strong>de</strong> vue global. Nous avons pour vali<strong>de</strong>r <strong>la</strong> métho<strong>de</strong>procé<strong>de</strong>r à l’étu<strong>de</strong> d’un cas simple. Il s’agit <strong>de</strong> <strong>la</strong> pièce “Turenas” pour ban<strong>de</strong>composée <strong>par</strong> john Chowning en 1977, entièrement synthétisée <strong>par</strong> techniques<strong>de</strong> synthèse FM et granu<strong>la</strong>ire. Le principal intérêt <strong>de</strong> cette étu<strong>de</strong> est que nousavons pour cette oeuvre l’entière <strong>par</strong>tition qui a servi à <strong>la</strong> générer. Elle estsous <strong>la</strong> forme <strong>de</strong> fichier MUSICIV le programme <strong>de</strong> synthèse, dans <strong>la</strong> lignée<strong>de</strong>s logiciels MUSICn initialement créés <strong>par</strong> Max Mathews. John Chowning abeaucoup utilisé <strong>de</strong> distributions aléatoires pour les <strong>par</strong>amètres <strong>de</strong> synthèse,distributions que l’on pourra conftronter avec les résultats <strong>de</strong> <strong>la</strong> métho<strong>de</strong>d’extraction.Le spectrogramme <strong>de</strong> l’extrait que nous avons choisi d’analyser est représentéen figure 7. On peut très bien voir qu’il est composé <strong>de</strong> quatres <strong>par</strong>ties, au sein<strong>de</strong>squelles il utilise différentes distributions aléatoires pour les <strong>par</strong>amètres <strong>de</strong>pitch. Pour confronter les resultats avec <strong>la</strong> <strong>par</strong>tition, nous avons donc estimé<strong>la</strong> hauteur <strong>de</strong> chaque segment précé<strong>de</strong>mment détecté.Estimation du pitch Pour l’extraction du pitch <strong>de</strong> chaque grain nousavons utilisé le logiciel SuperVP, moteur <strong>de</strong> Audiosculpt, développé à l’IR-CAM <strong>par</strong> l’equipe Analyse-Synthèse. Ce programme est une boîte à outils26


Fig. 7 – Spectrogramme pris entre 0 et 10000 Hz <strong>de</strong> l’extrait <strong>de</strong> Turenas <strong>de</strong>John Chowning.permettant d’effectuer, sur le son, <strong>de</strong> nombreuses analyses et traitementsavancés dans le domaine spectral. Il implémente notamment les techniquesd’analyse <strong>par</strong> transformée <strong>de</strong> Fourier, <strong>par</strong> “Linear Predictive Coding”, <strong>par</strong>metho<strong>de</strong> cepstrale, ... Il permet ainsi, et c’est ce qui va ici nous intéresser,<strong>de</strong> mettre en oeuvre <strong>de</strong>s métho<strong>de</strong>s d’estimation <strong>de</strong> fréquence fondamentale.Nous avons utilisé ici l’analyse pic qui détecte les pics <strong>de</strong> plus forte énergiedans le spectre du signal analysé. On retient alors seulement le pic le plushaut qui nous donnera <strong>la</strong> hauteur estimée. Dans notre cas, cette techniqueoffre <strong>de</strong>s résultats fiables en gran<strong>de</strong> <strong>par</strong>tie du à <strong>la</strong> simplicité dans <strong>la</strong> structurespectrale <strong>de</strong>s grains et au fait qu’ils ne se recouvrent pas dans le temps.Elle peut être toutefois inadéquate pour <strong>de</strong>s <strong>sons</strong> polyphoniques ou dansle cas <strong>de</strong> fondamentale absente. On pourra alors préférer <strong>de</strong>s analyses typemask ( nous n’avons pas pu utilisé ces analyses, n’étant pas complètementimplémentées dans <strong>la</strong> version <strong>de</strong> SuperVP que nous avions à disposition ). Un<strong>de</strong>s avantages <strong>de</strong> l’utilisation <strong>de</strong> ce logiciel rési<strong>de</strong> dans <strong>la</strong> possibilité <strong>de</strong> n’effectuerles analyses qu’à <strong>de</strong>s temps <strong>par</strong>ticuliers du son d’origine. Nous avonspu donc directement exploiter les temps d’attaques résultat <strong>de</strong> <strong>la</strong> métho<strong>de</strong><strong>de</strong> segmentation. Voici <strong>la</strong> comman<strong>de</strong> SuperVp utilisé pour l’analyse <strong>de</strong> notreextrait sonore :supervp -v -t -Sseq4.aif -Apic 40.0 n1 -U -Oa :freq -N2048 -M2048-Whanning -Ipos seq4.on seq4 picana.freqLe résultat <strong>de</strong> cette analyse est présenté en figure 8. Nous n’avons finalementque peu <strong>de</strong> moyens <strong>de</strong> vérifier <strong>de</strong> manière précise ces résultats,ces valeurs n’étant déterminer dans <strong>la</strong> <strong>par</strong>tition uniquement sous <strong>la</strong> forme27


Fig. 8 – Resultat <strong>de</strong> l’estimation du pitch <strong>par</strong> analyse pic.d’une distribution équiprobable entre <strong>de</strong>ux bornes. Toutefois en superposantle spectre avec <strong>la</strong> figure 8, on se rend compte <strong>de</strong> <strong>la</strong> fiabilité <strong>de</strong>s résultats <strong>de</strong>l’analyse.Reste à confronter ceux ci avec les spécifications <strong>de</strong>s <strong>par</strong>amètres décritesdans <strong>la</strong> <strong>par</strong>tition MUSICIV. Le pitch est choisie <strong>par</strong> une fonction aléatoireéquiprobable entre <strong>de</strong>ux valeurs bornes. Ces bornes vont évoluer au sein <strong>de</strong>squatres <strong>par</strong>ties <strong>de</strong> l’extrait suivant :Temps Borne Inf Borne Sup0 :89 E6 E78 :00 E6 E713 :00 E6 E718 :00 E5 E721 :00 E5 E724 :00 E6 E726 :00 E5 E734 :00 B6 B6Nous avons donc maintenant à étudier les propriétés statistiques <strong>de</strong>srésultats <strong>de</strong> l’extraction pour tenter <strong>de</strong> retrouver les données ayant servià les générer. Une <strong>de</strong>s première mètho<strong>de</strong> qui vient à l’esprit est <strong>de</strong> calculer <strong>la</strong>moyenne et l’écart-type sur <strong>de</strong>s fenêtres temporelles <strong>de</strong> taille à définir. Ceci28


permettrait d’avoir dans ce cas <strong>de</strong>s renseignements intéressants sur l’évolution<strong>de</strong>s <strong>par</strong>amètres. Mais ce traitement n’est pas assez général, admettant <strong>de</strong>manière sous-jacente <strong>la</strong> propriété équiprobable <strong>de</strong> <strong>la</strong> distribution statistique.On souhaite en effet pouvoir extraire <strong>de</strong>s distributions <strong>de</strong> probabilités arbitrairespermettant <strong>la</strong> représentation <strong>de</strong> phénomènes bien plus variés. L’idéeest alors <strong>de</strong> calculer les histogrammes <strong>de</strong>s hauteurs extraites. Les <strong>par</strong>amètresevoluant re<strong>la</strong>tivement rapi<strong>de</strong>ment ( passage <strong>de</strong> E5 à E6 <strong>de</strong> <strong>la</strong> borne inférieureen 3 secon<strong>de</strong>s ), nous <strong>de</strong>vons calculer ces histogrammes sur <strong>de</strong>s fenêtres temporellesassez courtes. Nous avons pris pour l’analyse <strong>de</strong> l’extrait <strong>de</strong>s fenêtre<strong>de</strong> 1 secon<strong>de</strong>. Les histogrammes <strong>de</strong> <strong>la</strong> troisième <strong>par</strong>tie sont représentés enfigure 9.Fig. 9 – Histogrammes <strong>de</strong>s fréquences correspondant à <strong>la</strong> troisème <strong>par</strong>tie <strong>de</strong>l’extrait.Ormis <strong>la</strong> tendance remarquable d’augmentation <strong>de</strong> <strong>la</strong> borne infèrieure, onpeut voir que ces resultats ne sont pas réellement significatifs <strong>par</strong> rapport àl’équiprobabilité <strong>de</strong> <strong>la</strong> distribution <strong>de</strong> dé<strong>par</strong>t. Ceci est dû à <strong>la</strong> faible quantité<strong>de</strong> donnée contenue dans le signal analysé. En effet, <strong>la</strong> <strong>de</strong>nsité <strong>de</strong>s grainsn’excè<strong>de</strong> pas 15 grains/secon<strong>de</strong> dans cette <strong>par</strong>tie et se pose ainsi le problème<strong>de</strong> <strong>la</strong> “rareté” <strong>de</strong>s données pour l’extraction <strong>de</strong>s distributions. Ce cas est tout<strong>de</strong> même <strong>par</strong>ticulier dans le sens ou les <strong>par</strong>amètres régissant l’aléatoire evoluere<strong>la</strong>tivement vite dans le temps, ceci nous restreignant au calcul <strong>de</strong> l’histogrammesur une courte perio<strong>de</strong>. Ainsi, le calcul <strong>de</strong> l’histogramme a d’autantplus <strong>de</strong> sens que l’on se p<strong>la</strong>ce sous l’hypothèse <strong>de</strong> lois stochastiques évoluantlentement au cours du temps. Dans ce cas, ce <strong>de</strong>rnier pourra être calculésur un nombre bien plus conséquent <strong>de</strong> donnée améliorant ainsi l’estimation<strong>de</strong> ces lois. Ici, une alternative à l’exploitation <strong>de</strong> l’histogramme serait <strong>de</strong>revenir au modèle plus simple <strong>de</strong> loi équiprobable bornée, ceci impliquantle seul calcul <strong>de</strong>s valeurs minimales et maximales sur <strong>de</strong>s courtes fenêtrestemporelles.29


3.1.4 CritiqueNous propo<strong>sons</strong> ainsi une adaptation <strong>de</strong>s techniques <strong>de</strong> segmentation <strong>de</strong>signaux audio à l’analyse granu<strong>la</strong>ire permettant en définitive l’extraction <strong>de</strong><strong>par</strong>amètre propre au modèle microsonore. L’analyse d’un cas simple nous amontré que sous certaines conditions <strong>la</strong> métho<strong>de</strong> donnait <strong>de</strong>s résultats exploitablesintéressants. L’extraction <strong>de</strong>s <strong>par</strong>amètres doit toutefois être adaptéeselon les propriétés <strong>de</strong>s grains à détecter et leur modalité d’application ensynthèse. En effet, ici les grains étant <strong>de</strong> type sinusoidaux, l’extraction <strong>de</strong> <strong>la</strong>fréquence fondamentale était donc jusitfiée, ce <strong>par</strong>amètre pouvant dès lorscontrôler le pitch du synthétiseur granu<strong>la</strong>ire. Mais, prenons le cas <strong>de</strong> grainsmoins élémentaires d’un point <strong>de</strong> vue spectral, comme contenant un bruitcoloré. Il faudrait alors plutôt s’attacher à extraire <strong>de</strong>s <strong>par</strong>amètres commele centroï<strong>de</strong> spectral, plus apte à détecter <strong>de</strong>s variations <strong>de</strong> hauteurs dansce cas là. D’autre <strong>par</strong>t, on peut vite se rendre compte <strong>de</strong> <strong>la</strong> difficulté <strong>de</strong>sé<strong>par</strong>er les <strong>par</strong>amètres d’enveloppes <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> <strong>la</strong> forme d’on<strong>de</strong>. Ainsi,l’étalement spectral pourra aussi bien être représenté <strong>par</strong> une forme d’on<strong>de</strong>complexe que <strong>par</strong> <strong>la</strong> longueur <strong>de</strong> l’enveloppe modu<strong>la</strong>nt une forme d’on<strong>de</strong>simple. On doit donc faire <strong>de</strong>s choix sur les phénomènes extraits qui incombentà tel ou tel <strong>par</strong>amètre <strong>de</strong> synthèse, ceci en evitant autant que possibleles re<strong>la</strong>tions redondantes.Dans son application aux <strong>sons</strong> bruités, cette métho<strong>de</strong> représente une premièreapproche intéressante sur les possibilités d’analyse. Elle peut donner <strong>de</strong>srésultats exploitable pour les <strong>sons</strong> types craquements, impliquant <strong>de</strong>s grainsayant une attaque franche. Mais, on ne peut toutefois que déplorer le caractèretrop peu général <strong>de</strong> ce type d’analyse. La simple restriction <strong>de</strong> <strong>la</strong>détection <strong>de</strong>s grains basée sur <strong>la</strong> dynamique du signal nous prive <strong>de</strong> résultatsfiables sur <strong>de</strong> nombreuses c<strong>la</strong>sses <strong>de</strong> <strong>sons</strong> bruités. D’une <strong>par</strong>t, une trop forte<strong>de</strong>nsité <strong>de</strong> grains, même <strong>de</strong> type “percussif”, ne pourra être analysée <strong>de</strong>manière concluante, les fréquences <strong>de</strong> déclenchement <strong>de</strong>s grains interférantavec leur contenu spectral. D’autre <strong>par</strong>t, on ignore aussi tous les <strong>sons</strong> dontles grains ont <strong>de</strong>s évolutions <strong>de</strong> dynamiques lentes, comme <strong>par</strong> exemple les<strong>sons</strong> <strong>de</strong> frottements ou <strong>de</strong> glissements. La secon<strong>de</strong> restriction principale estbien sûr le non-recouvrement temporel <strong>de</strong>s grains. De nombreux type <strong>de</strong> <strong>sons</strong>bruités sont à priori composés <strong>de</strong> grains (ayant une structure commune) survenanten même temps ou ayant une longueur suffisante pour se recouvrir.Le bruit <strong>de</strong> l’eau qui coule est un exemple f<strong>la</strong>grant <strong>de</strong> ce type <strong>de</strong> <strong>sons</strong>. Enfait, dés lors que sont en jeu dans le mon<strong>de</strong> réel plusieurs entités emettrice(les feuilles d’un arbre), le son resultant (le vent dans les feuilles) est forcementun empilement temporel <strong>de</strong> grains. Avec cette métho<strong>de</strong>, l’extaction <strong>de</strong>s<strong>par</strong>amètres <strong>de</strong>vient dans ce cas vite problèmatique, n’ayant plus une re<strong>la</strong>tion30


directe entre le phénomène extrait et le grain auquel il correspond.Ceci nous a donc poussé à rechercher d’autres voies possibles pour l’analysepermettant <strong>de</strong> passer au <strong>de</strong>là <strong>de</strong> ces limitations trop contraignantes. Commentdécomposer alors un son en microentités dont les <strong>par</strong>amètres pourraients’adapter à <strong>la</strong> synthèse granu<strong>la</strong>ire? On ne peut dés lors plus se baser sur <strong>de</strong>stechniques <strong>de</strong> segmentation pour les rai<strong>sons</strong> évoquées plus haut. L’idée estalors d’utiliser <strong>la</strong> projection orthogonale du signal analysé sur un ensemble <strong>de</strong>grains préa<strong>la</strong>blement générés et c’est ce que nous allons évaluer maintenantdans notre étu<strong>de</strong> <strong>de</strong> l’algorithme Matching Pursuit.31


3.2 Analyse Matching Pursuit3.2.1 MotivationsSuite au constat <strong>de</strong>s limitations <strong>de</strong> l’analyse <strong>par</strong> segmentation temporelle,il nous fal<strong>la</strong>it trouver une métho<strong>de</strong> qui permette une analyse bien plusflexible <strong>par</strong> rapport au modèle <strong>de</strong> signal requis. Notre but est effectivement<strong>de</strong> décomposer le signal analysé en entités sonore élémentaires. Re<strong>par</strong>tonsdu modèle <strong>de</strong> dé<strong>par</strong>t selon lequel le signal analysé x[n] peut être représentécomme une combinaison linéaire <strong>de</strong> fonctions élémentaires g k selon :x[n] =K∑α k g k [n]k=1On voudrait représenter <strong>par</strong> ce modèle une gran<strong>de</strong> variété <strong>de</strong> signaux <strong>de</strong> <strong>la</strong>manière <strong>la</strong> plus compacte possible, c’est à dire pouvoir représenter un signal<strong>par</strong> le jeu <strong>de</strong> coefficients α k et fonctions g k avec l’ensemble {i ∈ [1..K], α i >0.} le plus petit possible. Il existe <strong>de</strong> nombreuses métho<strong>de</strong>s d’analyses sebasant sur ce modèle. Les plus connues et usitées sont <strong>la</strong> transformée <strong>de</strong>Fourier et <strong>la</strong> transformée en on<strong>de</strong>lettes, toutes <strong>de</strong>ux employant <strong>de</strong>s fonctionsg k orthogonales entres elles. L’ensemble <strong>de</strong>s g k constitue ainsi dans ces casune base sur <strong>la</strong>quelle est projeté le signal x[n]. Ces techniques ont beaucoupd’avantages notamment <strong>par</strong> le fait qu’elles proposent une décomposition {α k }unique sur un ensemble réduit <strong>de</strong> fonctions {g k }. Ceci est au détriment <strong>de</strong> <strong>la</strong>compacité <strong>de</strong> représentation d’une gran<strong>de</strong> variété <strong>de</strong> signaux. En effet, avec<strong>la</strong> transformée <strong>de</strong> Fourier, un signal localisé en fréquence mais peu localiséen temps aura une représentation compacte. A l’inverse un signal localiséen temps ( une impulsion ) aura une représentation non-compacte qui carcactérisera<strong>de</strong> manière beaucoup moins efficace <strong>la</strong> forme pourtant simple<strong>de</strong> dé<strong>par</strong>t. L’idée est alors, plutôt que d’avoir un ensemble <strong>de</strong> fonctions g korthogonales, <strong>de</strong> décomposer le signal analysé sur un ensemble redondant<strong>de</strong> fonctions <strong>par</strong>amétriques. Les <strong>par</strong>amètres rentrant en jeu doivent être enconcordance avec ceux <strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ire, ceci permettant <strong>de</strong> créeren discrétisant l’espace <strong>de</strong>s <strong>par</strong>amètres un dictionnaire <strong>de</strong> grains servant<strong>de</strong> base à <strong>la</strong> décomposition. Plusieurs métho<strong>de</strong>s ont été proposées pour <strong>la</strong>décomposition sur <strong>de</strong> tels dictionnaires redondants. On pourra citer “Methodof Frames” ou “Basis Pursuit”, toutes <strong>de</strong>ux proposant <strong>la</strong> résolutionoptimale globale du problème <strong>de</strong> décomposition. Nous allons nous intéresserici <strong>par</strong>ticulièrement à l’algorithme “Matching Pursuit” initialement proposé<strong>par</strong> S. Mal<strong>la</strong>t et Z. Zhang dans [11], qui comme les <strong>de</strong>ux autres métho<strong>de</strong>sestime les α k mais <strong>de</strong> manière itérative en affinant sa solution à chaque pas.Ce<strong>la</strong> permet d’avoir un contrôle flexible du nombre <strong>de</strong> grains avec lequel on32


souhaite représenter le signal, notamment <strong>par</strong> <strong>la</strong> possibilité <strong>de</strong> reprise d’unedécomposition trop grossière.L’intérêt pour l’analyse granu<strong>la</strong>ire est ici multiple. D’un <strong>par</strong>t, on peutanalyser une bien plus gran<strong>de</strong> variété <strong>de</strong> signaux qu’avec l’analyse <strong>par</strong> segmentation,<strong>la</strong> structure <strong>de</strong> <strong>la</strong> métho<strong>de</strong> permettant <strong>la</strong> détection <strong>de</strong> grains serecouvrant dans le temps. De plus, l’extraction <strong>de</strong>s <strong>par</strong>amètres suivant <strong>la</strong>décomposition est ici beaucoup plus directe. En effet, les fonctions sur lesquelleson projette le signal à analyser étant elles mêmes définies <strong>de</strong> façon<strong>par</strong>amétrique, il y correspondance directe entre le choix d’un grain et les<strong>par</strong>amètres applicables en synthèse. Toutefois il y a tout <strong>de</strong> même <strong>de</strong>s limitationsquand au choix <strong>de</strong>s fonctions g k . Cette métho<strong>de</strong> suppose en effetl’utilisation <strong>de</strong> fonctions déterministes simples dont les plus usités sont lesgaborettes ( sinusoï<strong>de</strong>s modulées <strong>par</strong> une gaussienne ).Nous allons maintenant <strong>de</strong>crire brièvement <strong>la</strong> métho<strong>de</strong> pour ensuite procé<strong>de</strong>rà une étu<strong>de</strong> <strong>de</strong> cas, nous permettant d’évaluer l’intérêt <strong>de</strong> celle ci, dans sonapplication à l’analyse granu<strong>la</strong>ire.3.2.2 Décomposition Matching PursuitMatching Pursuit est un algorithme itératif “glouton” ( le nombre d’itérationest directement lié à <strong>la</strong> finesse <strong>de</strong> l’approximation ) qui effectue une décomposition<strong>de</strong> signaux sur une base d’atomes choisis dans un dictionnaire. Ce <strong>de</strong>rnier a <strong>la</strong>propriété d’être redondant, c’est à dire, plus que <strong>de</strong> proposer une base <strong>de</strong> fonctionsorthogonales, il inclue une gran<strong>de</strong> variété <strong>de</strong> structures fréquentielles ettemporelles permettant <strong>la</strong> représentation compacte <strong>de</strong> nombreux comportementsdifférents. A chaque itération, l’atome qui approxime le mieux le signalest choisi; ensuite <strong>la</strong> contribution <strong>de</strong> cet atome au signal est soustraite et onapplique le même schéma sur le résidu ainsi calculé. En utilisant <strong>la</strong> norme-2comme mesure d’approximation, <strong>la</strong> tâche <strong>de</strong> l’algorithme à <strong>la</strong> i-ème itérationest <strong>de</strong> trouver l’atome g m(i) [n] qui minimise <strong>la</strong> norme-2 du signal résiduel :r i+1 [n] = r i [n] − α i g m(i) [n]avec α i le coefficient correspondant au poids <strong>de</strong> <strong>la</strong> contribution <strong>de</strong> l’atomedans le signal et m(i) l’in<strong>de</strong>x <strong>de</strong> l’atome dans le dictionnaire choisi à l’étapei. L’algorithme commence avec r 1 [n] = x[n] le signal original. En considérantles signaux comme <strong>de</strong>s vecteurs colonnes, l’atome optimal que l’on doit choisirà l’étape i peut-être exprimé <strong>par</strong> :g m(i) = arg min gm(i) ∈D‖r i+1 ‖ 2 = arg min gm(i) ∈D‖r i − α i g m(i) ‖ 2avec D le dictionnaire d’atomes. Le principe d’orthogonalité nous donne <strong>la</strong>valeur <strong>de</strong> α i :33


〈r i+1 , g m(i) 〉 = 〈r i − α i g m(i) , g m(i) 〉 = (r i − α i g m(i) ) H g m(i) = 0⇒ α i = 〈g m(i), r i 〉〈g m(i) , g m(i) 〉 = 〈g m(i), r i 〉‖g m(i) ‖ 2<strong>la</strong> <strong>de</strong>rnière étape impliquant que les atomes soit <strong>de</strong> norme unitaire. L’erreurd’approximation représentée <strong>par</strong> <strong>la</strong> norme du résidu r i+1 peut alors êtreexprimée <strong>par</strong> :‖r i+1 ‖ 2 = ‖r i ‖ 2 − |〈g m(i), r i 〉| 2‖g m(i) ‖ 2 = ‖r i ‖ 2 − |α i | 2qui est minimal en maximisant |α i | 2 = |〈g m(i) , r i 〉| 2 . Ce<strong>la</strong> revient donc, àchaque itération <strong>de</strong> l’algorithme, à choisir l’atome qui a le plus grand coefficient<strong>de</strong> corré<strong>la</strong>tion |α i | c’est dire :g m(i) = arg max gm(i) ∈D|〈g m(i) , r i 〉|L’expression <strong>de</strong> l’erreur d’approximation ‖r i+1 ‖ 2 nous montre qu’elle décroitavec le nombre d’iteration <strong>de</strong> l’algorithme. Nous avons donc plusieurs choixquand à <strong>la</strong> c<strong>la</strong>use d’arrêt <strong>de</strong> ce <strong>de</strong>rnier : soit <strong>de</strong> déci<strong>de</strong>r au préa<strong>la</strong>ble le nombred’atomes avec lesquels on veut représenter notre signal <strong>de</strong> dé<strong>par</strong>t, soit <strong>de</strong>s’arréter quand l’erreur d’approximation passe sous un certain seuil influenceant<strong>la</strong> finesse <strong>de</strong> <strong>la</strong> décomposition. Aprés I itérations, l’algorithme donnel’estimation du signal :x[n] ≈ ˆx[n] =I∑α i g m(i) [n]i=1Pour pouvoir représenter <strong>de</strong> <strong>la</strong>rges c<strong>la</strong>sses <strong>de</strong> signaux différents, l’algorithmeMatching Pursuit utilise <strong>de</strong>s dictionnaires comportants une gran<strong>de</strong>quantité d’atomes. A chaque étape, comme on l’a vu, on calcule <strong>la</strong> corre<strong>la</strong>tion〈g, r i 〉 pour chaque atome g ce qui est coûteux en temps <strong>de</strong> calcul. Enfait, comme <strong>la</strong> montré [11] le calcul <strong>de</strong> <strong>la</strong> corré<strong>la</strong>tion peut se faire <strong>de</strong> manièrerécursive en remarquant que :〈g, r i+1 〉 = 〈g, r i 〉 − α i 〈g, g m(i) 〉Le seul terme à mettre à jour, à l’étape i + 1, est alors le terme 〈g, g m(i) 〉,corré<strong>la</strong>tion entre chaque atome du dictionnaire, qui peut être pré-calculée.34


On peut noter que <strong>la</strong> qualité <strong>de</strong> l’approximation est gran<strong>de</strong>ment dépendante<strong>de</strong>s propriétés <strong>de</strong>s atomes contenues dans le dictionnaire. L’intérêt est queces atomes puissent décrire une bonne variété <strong>de</strong> phénomènes temporels etfréquentiels. On rejoint ici l’idée <strong>de</strong> quanta sonore imaginé <strong>par</strong> Gabor. Lesatomes <strong>de</strong> Gabor ( ou gaborettes ) sont en effet <strong>par</strong>ticulièrement adaptés àune <strong>de</strong>scription temps-fréquence fine <strong>de</strong>s signaux analysés.Atomes <strong>de</strong> Gabor La littérature sur l’algorithme Matching Pursuit a<strong>la</strong>rgement abordé l’utilisation <strong>de</strong>s atomes <strong>de</strong> Gabor pour <strong>la</strong> décompositiontemps-fréquences <strong>de</strong> signaux. Ces propriétés temps-fréquences sont aisémentcontrô<strong>la</strong>ble <strong>par</strong>amétriquement. Ces atomes sont construits en mettant à l’echelle,en modu<strong>la</strong>nt et en trans<strong>la</strong>tant une fonction gaussienne g <strong>de</strong> norme unitaire<strong>de</strong>finie <strong>par</strong> :g[n] = 1 √2πσexp(− n22σ 2)Chaque triplet {s, ω, τ}, avec échelle s > 0, fréquence <strong>de</strong> modu<strong>la</strong>tion ωet trans<strong>la</strong>tion τ, définissent un atome du dictionnaire suivant :g {s,ω,τ} [n] = √ 1 g( n − τ )e jωns sA chaque triplet {s, ω, τ} correspond <strong>de</strong>s propriétés temps-fréquences bienspécifiques. Ainsi, <strong>la</strong> fonction g {s,ω,τ} [n] est centrée sur l’abscisse τ et sonénergie est concentrée au voisinage <strong>de</strong> τ, dont <strong>la</strong> taille est proportionnelleà s. Dans le domaine spectral, sa transformée <strong>de</strong> Fourier est centrée sur <strong>la</strong>fréquence w et son énergie est concentrée au voisinage <strong>de</strong> ω, dont <strong>la</strong> taille estproportionnelle à 1/s. On pourra remarquer que <strong>la</strong> décomposition avec <strong>de</strong> telsatomes n’est qu’une généralisation <strong>de</strong>s métho<strong>de</strong>s type Fourier ou On<strong>de</strong>lettes.Mais on s’attache ici à ne pas restreindre l’espace <strong>de</strong>s <strong>par</strong>amètres commedans ces <strong>de</strong>rnières, ceci étant <strong>la</strong> condition à une représentation adaptative<strong>de</strong>s signaux analysés.Cependant La fonction g étant symétrique, on ne peut à priori représenterlocalement que <strong>de</strong>s phénomènes temporels symétriques. Ceci est problématiquepour représenter <strong>de</strong>s phénomènes asymétriques comme les transients qui sontfréquents dans les <strong>sons</strong> naturels. La représentations <strong>de</strong> tels phénomènes <strong>par</strong>atomes <strong>de</strong> Gabor conduit à un artefact <strong>de</strong> pré-écho, correspondant à unajout erroné d’énergie avant le transient. Une solution à ce problème a étéproposé <strong>par</strong> Jaggi, Gribonval al.dans [8] puis reprise <strong>par</strong> R. Gribonval dans[1] et [5], dans une extension <strong>de</strong> Matching Pursuit, nommée High resolutionMatching Pursuit, dont l’idée a été <strong>de</strong> modifier <strong>la</strong> fonction <strong>de</strong> corré<strong>la</strong>tion35


pour pénaliser les atomes introduisant <strong>de</strong> tels artefacts. Une autre solutionproposée <strong>par</strong> Goodwin et Vetterli dans [3] consiste à utiliser <strong>de</strong>s atomesasymétriques telles <strong>de</strong>s sinusoï<strong>de</strong>s amorties.Atomes sinusoidaux amortis La décomposition <strong>de</strong> signaux <strong>par</strong> sinusoï<strong>de</strong>samorties permet <strong>de</strong> représenter <strong>de</strong>s phénomènes temporels asymétriques sansartefact <strong>de</strong> pré-écho. De plus, l’utilisation <strong>de</strong> ce type <strong>de</strong> structure pour l’analyse<strong>de</strong> <strong>sons</strong> naturels peut se justifier <strong>par</strong> son caractère très courant du point<strong>de</strong> vue physique. En effet, incarnant <strong>la</strong> propriété essentielle <strong>de</strong> causalité, <strong>de</strong>nombreuses mesures <strong>de</strong> phénomènes naturels suivent <strong>de</strong> telles lois, comme <strong>par</strong>exemple le mouvement d’un ressort ou les <strong>sons</strong> percussifs d’un xylophone.Comme les atomes <strong>de</strong> Gabor, les atomes sinusoïdaux amorties peuventêtre in<strong>de</strong>xés dans le dictionnaire <strong>par</strong> leurs <strong>par</strong>amètres caractéristiques : lefacteur d’amortissement a < 1, <strong>la</strong> fréquence <strong>de</strong> modu<strong>la</strong>tion ω et <strong>la</strong> trans<strong>la</strong>tionτ définissent ces atomes :g {a,ω,τ} [n] = S a (n−τ) e jωn u[n − τ]ou S représente le facteur d’échelle pour satisfaire <strong>la</strong> normalisation <strong>de</strong>l’atome et u fonction rectangu<strong>la</strong>ire permettant <strong>de</strong> tronquer l’atome lorsquea i est en <strong>de</strong>ssous d’un certain seuil T. On pourra noter que l’on utilise ici le <strong>par</strong>amètre<strong>de</strong> facteur d’amortissement a et non le facteur d’échelle s <strong>de</strong>s atomes<strong>de</strong> Gabor, le jeu <strong>de</strong> <strong>par</strong>amètres in<strong>de</strong>xant le dictionnaire <strong>de</strong>venant {a, ω, τ}.On pourra toutefois lui faire correspondre une taille L = ⌈log T/log a⌉.Autres Atomes L’utilisation d’autres types d’atomes a aussi été explorée.Ainsi, R. Gribonval propose dans [4] l’utilisation <strong>de</strong> chirplet pour <strong>la</strong> décomposition.Il s’agit d’atomes <strong>de</strong> Gabor mais dont <strong>la</strong> fréquence modu<strong>la</strong>nte varie linéairement.En effet il sont caractérisés <strong>par</strong> les mêmes <strong>par</strong>amètres plus le <strong>par</strong>amètre<strong>de</strong> chirp rate qui détermine <strong>la</strong> vitesse d’évolution <strong>de</strong> <strong>la</strong> fréquence. Bienque ce type <strong>de</strong> grains peut être intéressant pour représenter <strong>de</strong>s variationsfréquentielles continues, nous nous y sommes pas directement intéressés carleur application en synthèse n’était pas réalisable à court terme.En réalité il existe <strong>de</strong> nombreuses variantes <strong>de</strong>s grains <strong>de</strong> Gabor qui restentapplicables pour l’algorithme Matching Pursuit. Ils ne différent <strong>de</strong> ces<strong>de</strong>rniers que <strong>par</strong> <strong>la</strong> forme <strong>de</strong> <strong>la</strong> fonction modulée ( <strong>de</strong> l’enveloppe ). Ainsi, onpeut <strong>par</strong> exemple évoquer les grains FoF, pour Forme d’on<strong>de</strong> Formantique,permettant une décomposition plus adaptée au signaux vocaux.36


3.2.3 Etu<strong>de</strong> <strong>de</strong> casNous propo<strong>sons</strong> pour évaluer l’application <strong>de</strong> cette métho<strong>de</strong> à l’analysegranu<strong>la</strong>ire l’étu<strong>de</strong> d’un exemple <strong>de</strong> <strong>de</strong>composition. Nous avons pour ce<strong>la</strong>utilisé le logiciel LastWave développé <strong>par</strong> R. Gribonval qui implémente <strong>de</strong>manière assez complète l’analyse Matching Pursuit. Il s’agit en fait d’uninterpréteur scientifique, dans <strong>la</strong> lignée <strong>de</strong> logiciel type Mat<strong>la</strong>b, permettantd’effectuer <strong>de</strong>s scripts <strong>de</strong> calculs re<strong>la</strong>tivement facilement et d’ensuite visualiserles résultats <strong>de</strong> manière graphique. Bien que ce<strong>la</strong> ait impliqué le test<strong>de</strong>s seules extensions implémentés <strong>de</strong> l’algorithme, ce<strong>la</strong> nous donne tout <strong>de</strong>même une bonne appréhension <strong>de</strong> <strong>la</strong> faisabilité <strong>de</strong> son utilisation en analysegranu<strong>la</strong>ire.Sons <strong>de</strong> ruisseau On est <strong>par</strong>ti du postu<strong>la</strong>t que les <strong>sons</strong> d’eau pouvaientêtre représentés <strong>par</strong> <strong>de</strong>s grains simples du point <strong>de</strong> vue <strong>de</strong> leur structure.En effet, d’un point <strong>de</strong> vue perceptif, on peut remarquer que ceux-ci ont<strong>de</strong>s composantes sinusoidales re<strong>la</strong>tivement marquées au niveau local. On nepeut toutefois pas y attribuer <strong>de</strong> hauteurs précises, mais on peut sentir uneevolution très rapi<strong>de</strong> <strong>de</strong> composantes frequentielles simples, ceci motivant sonanalyse <strong>par</strong> Matching Pursuit.Le spectrogramme du son d’eau analysé est représenté en figure 10.Fig. 10 – Spectrogramme du son d’eau analysé d’une durée <strong>de</strong> 1.8 secon<strong>de</strong>spris entre 0 et 10000 HzIl nous faut déterminer maintenant avec quels types <strong>de</strong> grains on peutle mieux représenter ce signal. Nous avons restrient notre choix seulemententre atomes <strong>de</strong> Gabor et sinusoi<strong>de</strong>s amorties étant les représentants les plus<strong>par</strong>ticuliers <strong>de</strong>s structures sonores locales à extraire. On peut utiliser comme37


critère <strong>de</strong> choix <strong>la</strong> com<strong>par</strong>aison <strong>de</strong> l’erreur d’approximation ‖r i+1 ‖ 2 en fonctiondu nombre d’itération <strong>de</strong> l’algorithme. Nous avons donc effectué unedécomposition sur le nombre important <strong>de</strong> 3000 itérations. Les erreurs respectivesd’approximation sont représentées en figure 11.Fig. 11 – Erreurs d’approximation en fonction du nombre d’iterations respectivementpour les atomes <strong>de</strong> Gabor et pour les atomes sinusoi<strong>de</strong>s amorties. Letroisième graphe représente <strong>la</strong> différence <strong>de</strong> l’erreur Gabor à l’erreur sinusoi<strong>de</strong>amortieOn peut remarquer que <strong>la</strong> pente <strong>de</strong>s courbes d’erreurs, forte aux premièresitérations ( jusqu’à environ 50 iterations), a tendance à s’adoucir <strong>par</strong> <strong>la</strong> suite.Ceci est du à <strong>la</strong> détection en premier lieu <strong>de</strong> long atomes correspondantaux composantes fréquentielles perceptivement discernables et représentantune gran<strong>de</strong> <strong>par</strong>t <strong>de</strong> l’énergie totale du signal. Concernant le choix du typed’atome, les courbes ont globalement <strong>la</strong> même allure mais celle <strong>de</strong>s atomes sinusoidauxamorties décroissent moins vite. En effet, à <strong>la</strong> 3000ième itérationsl’erreur est <strong>de</strong> 0.034 contre 0.019 pour les gaborettes. Nous avons donc choisid’effectuer <strong>la</strong> <strong>de</strong>composition sur les atomes <strong>de</strong> Gabor.Nous <strong>de</strong>vons donc déterminer maintenant le nombre d’atomes nécessaires38


pour une bonne représentation <strong>de</strong> notre signal. Ce<strong>la</strong> revient à savoir quelleerreur d’approximation somme nous prêt à accepter. Ce choix doit se faireau regard <strong>de</strong> l’évolution <strong>de</strong> cette erreur qui soustend l’intérêt ou non d’unepoursuite <strong>de</strong> l’algorithme. En effet, on peut s’arréter quand une itérationsupplémentaire n’apporte plus d’information assez significative sur le contenudu signal. Sur <strong>la</strong> courbe d’erreur, on peut remarquer qu’à <strong>par</strong>tir <strong>de</strong> 2000atomes l’erreur a une valeur suffisamment basse <strong>de</strong> 0.05 et n’a plus vraimentd’évolution significative. Ceci correspond <strong>par</strong> ailleurs à une <strong>de</strong>nsité re<strong>la</strong>tivementélevée <strong>de</strong> 1000 grains/secon<strong>de</strong>s au niveau <strong>de</strong> <strong>la</strong> resynthèse.Le résultat <strong>de</strong> <strong>la</strong> décomposition est représenté sur <strong>la</strong> figure 12. Il s’agitd’une visualisation temps-fréquence proposée <strong>par</strong> LastWave. Elle représentechaque grain sous forme d’un “blob” en <strong>de</strong>ux dimension correspondant à sonénergie théorique dans l’espace temps-fréquence. Les traits verticaux correspon<strong>de</strong>ntà <strong>de</strong>s atomes très courts donc peu localisés en fréquence. A l’inverseles traits horizontaux représentent <strong>de</strong>s atomes longs peu localisés en temps.Fig. 12 – Résultat <strong>de</strong> <strong>la</strong> décomposition Matching Pursuit du bruit d’eauentre 0 et 10000 HzOn peut voir en confrontant le spectrogramme avec le resultat d’analyseque les structures du son <strong>de</strong> dé<strong>par</strong>t semblent bien représentées. Notemment,les grains isolés repérables au <strong>de</strong>ssus <strong>de</strong> 5000Hz ont bien été détectés. Deplus, l’analyse met à jour <strong>de</strong> manière notable <strong>la</strong> faible baisse <strong>de</strong> <strong>la</strong> puissancedu signal au cours du temps. Ainsi, <strong>la</strong> décomposition du son en atomes <strong>de</strong>Gabor ainsi effectué, on peut maintenant exploiter les données <strong>de</strong>s atomes39


détectés pour les appliquer à <strong>la</strong> synthèse.De <strong>la</strong> même manière que pour l’analyse <strong>par</strong> segmentation, on va ici calculerles histogrammes <strong>de</strong>s différents <strong>par</strong>amètres définissant les grains du dictionnaire.Ici, ces <strong>par</strong>amètres, que sont l’amplitu<strong>de</strong>, <strong>la</strong> fréquence centrale, <strong>la</strong>durée et le temps d’occurence, sont directement applicables à <strong>la</strong> synthèse. De<strong>par</strong> le caractère re<strong>la</strong>tivement constant du son <strong>de</strong> dé<strong>par</strong>t, nous avons choisid’effectuer les histogrammes sur toute <strong>la</strong> durée du son. Nous étions, <strong>par</strong>ailleurs, plus soucieux d’extraire les propriétés <strong>de</strong> <strong>la</strong> c<strong>la</strong>sse <strong>de</strong>s <strong>sons</strong> d’eauplutôt que <strong>de</strong> coller au plus près <strong>de</strong> ce représentant. Les histogrammes d’amplitu<strong>de</strong>,fréquence et durée <strong>de</strong>s atomes sont représentés en figure 13.Fig. 13 – Histogrammes normalisés <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong>s grains détectés, respectivementd’amplitu<strong>de</strong>, <strong>de</strong> fréquence en Hz et <strong>de</strong> durée en secon<strong>de</strong>.Nous nous <strong>de</strong>vons d’émettre quelques commentaires sur ces graphes. Toutd’abord, nous avons calculé ces histogrammes sur 127 valeurs pour les rendre40


compatibles avec le générateur aléatoire du module <strong>de</strong> synthèse. De plus,bien que l’échelle <strong>de</strong>s fréquences <strong>de</strong>s atomes du dictionnaire soit linéaire,nous avons préféré, au regard <strong>de</strong>s considérations psychoacoustiques sur <strong>la</strong>discrimination <strong>de</strong>s variations fréquentielles en fonction <strong>de</strong> <strong>la</strong> hauteur, d’utiliserune échelle logarithmique pour l’histogramme. Ceci était <strong>de</strong> plus en accordavec le module <strong>de</strong> synthèse granu<strong>la</strong>ire qui acceptait <strong>de</strong>s distributions stochastiquessous cette forme. Par ailleurs à propos <strong>de</strong> l’histogramme d’amplitu<strong>de</strong>,on peut remarquer que les valeurs sont très ramassées sur 0, avec un maximum<strong>de</strong> nombre d’occurence à 0. Il ne s’agit bien evi<strong>de</strong>mment pas <strong>de</strong> <strong>la</strong> réelleamplitu<strong>de</strong> détectée mais a à voir avec <strong>la</strong> discrétisation impliquée <strong>par</strong> l’utilisation<strong>de</strong> l’histogramme. Pour contourner ce problème, on peut diminuerle pas <strong>de</strong> l’histogramme en prenant bien en compte <strong>la</strong> re<strong>la</strong>tion qu’il maintientavec le nombre <strong>de</strong> données analysées. Un autre point remarquable est <strong>la</strong>forme <strong>de</strong> l’histogramme <strong>de</strong>s durées <strong>de</strong>s atomes. Elle est directement liée à <strong>la</strong>discrétisation <strong>de</strong>s <strong>par</strong>amètres lors <strong>de</strong> <strong>la</strong> construction du dictionnaire. En effet,le logiciel LastWave utilise uniquement <strong>de</strong>s longueurs d’atomes sous <strong>la</strong> forme2 p . Ce choix a ap<strong>par</strong>emment été fait pour optimiser le calcul <strong>de</strong> <strong>la</strong> corré<strong>la</strong>tionentre les atomes. Ce<strong>la</strong> peut dans notre cas être problématique ayant unerésolution <strong>de</strong> plus en plus faible pour les longues durées. Néanmoins, nousvoulons ici évaluer <strong>la</strong> métho<strong>de</strong> Matching Pursuit et non le logiciel lui-même.Il nous faut simplement considérer cette limitation dans nos résultats, <strong>la</strong>métho<strong>de</strong> générale n’ayant pas <strong>de</strong> telles restrictions.Il a aussi fallu pour appliquer ces resultats en synthèse estimer <strong>la</strong> fréquenced’occurence <strong>de</strong>s grains. Or les temps d’occurence sont eux aussi discrétisésamenant ainsi à <strong>la</strong> détection <strong>de</strong> nombreux atomes synchrones (au mêmetemps). Or le module <strong>de</strong> synthèse ne pouvait déclencher <strong>de</strong>ux grains exactementsynchrones. C’est pourquoi, en remarquant que le nombre <strong>de</strong> grainsdétectés <strong>par</strong> unité <strong>de</strong> temps était re<strong>la</strong>tivement constant, nous avons choisid’utiliser, pour déterminer <strong>la</strong> fréquence <strong>de</strong> déclenchement, <strong>la</strong> moyenne <strong>de</strong>sdifférences <strong>de</strong> temps <strong>de</strong> détection entre <strong>de</strong>ux atomes successifs. Nous avonsdonc approximé cette fréquence à F = 1/0.0009 ≃ 1000Hz.Application en synthèse L’extraction <strong>de</strong>s <strong>par</strong>amètres et leurs propriétésstochastiques ainsi faites, nous pouvons maintenant appliquer ces résultatsen synthèse pour évaluer <strong>la</strong> validité <strong>de</strong> l’analyse. Nons avons donc en premierlieu, en accord avec les choix d’analyses, utilisé <strong>de</strong>s grains d’enveloppe gaussiennemodulée <strong>par</strong> une forme d’on<strong>de</strong> sinusoidale. Mais le son résultant, bienque pouvant se rapprocher d’un bruit d’eau dans sa distribution fréquentielle,n’était pas réellement probant d’un point <strong>de</strong> vue perceptif. Les composantesfréquentielles discernables dans le son naturel étaient en effet trop marquées,41


endant le son <strong>de</strong> connotation trop synthétique. Nous avons alors experimentél’utilisation d’une autre enveloppe <strong>de</strong> grains et nous avons remarqué que lechoix d’une enveloppe à <strong>de</strong>ux segments exponentiels donnait <strong>de</strong>s meilleursrésultats. En effet, le <strong>sons</strong> d’eau était plus bruiteux et les trop fortes composantesfrequentielles <strong>de</strong> l’enveloppe gaussienne était alors, bien que perceptibles,beaucoup plus naturelles. Le spectre <strong>de</strong> ce son resynthétisé estreprésenté en figure 14.Fig. 14 – Spectre du son d’eau resynthétisé avec enveloppe à segment exponentiel.Les résultats décevants <strong>de</strong> <strong>la</strong> resynthèse <strong>par</strong> enveloppe gaussienne peuvents’expliquer <strong>par</strong> le fait d’ignorer <strong>la</strong> corré<strong>la</strong>tion qui peut exister entre les différents<strong>par</strong>amètres. Nous n’avons en effet pas pris en compte les re<strong>la</strong>tions qui pouvaientlier les <strong>par</strong>amètres entres eux. Ceci implique au niveau <strong>de</strong> <strong>la</strong> synthèseune architecture beaucoup plus complexe dont <strong>la</strong> réalistion ne pouvait pasrentré dans le cadre du stage. Pourtant, il semble que ce<strong>la</strong> soit un phénomèneimportant pour l’analyse et <strong>la</strong> resynthèse <strong>de</strong> son bruités ayant à priori unegran<strong>de</strong> <strong>de</strong>nsité granu<strong>la</strong>ire. Dans notre cas, les composantes frequentielles principalesdu son naturel peuvent être synthétisées avec une enveloppe plusgran<strong>de</strong> et/ou une amplitu<strong>de</strong> plus forte que celles avec lesquels elles étaientdétectés. Ce<strong>la</strong> est d’autant plus f<strong>la</strong>grant que l’on a extrait une grand quantité<strong>de</strong> grains à <strong>de</strong>s amplitu<strong>de</strong>s variées, les <strong>par</strong>amètres <strong>de</strong>s plus faibles influençantainsi ceux <strong>de</strong>s plus forts. Cet artefact peut ainsi être atténué avec le choixd’une enveloppe moins puissante et perceptiblement moins longue commec’est le cas <strong>de</strong> l’enveloppe à <strong>de</strong>ux segments exponentiels.Critique Les résultats sont encourageants. En effet, cette correction ainsifaîtes, le son resynthétisé est bien attribuable à un son d’eau, bien qu’ilfaille <strong>de</strong>s expériences perceptives dans les règles pour s’en assurer. Ainsi, <strong>la</strong>42


métho<strong>de</strong> Matching Pursuit est interessante pour l’extraction <strong>de</strong>s propriétésgranu<strong>la</strong>ires d’un son naturel. Nous <strong>de</strong>vons toutefois nous restreindre auxseuls <strong>sons</strong> dont <strong>la</strong> structure peut à priori être représentée <strong>par</strong> une somme <strong>de</strong>grains simples. Les limitations et choix d’optimisations du logiciels LastWave,comme <strong>par</strong> exemple <strong>la</strong> discrétisation du <strong>par</strong>amètre <strong>de</strong> longueur, n’étant pasre<strong>la</strong>tive à <strong>la</strong> métho<strong>de</strong>, ce<strong>la</strong> permet d’envisager sa réimplémentation permettantune configuration plus poussée, notamment dans <strong>la</strong> construction du dictionnaire.En effet, il s’agit du point réellement le plus sensible <strong>de</strong> <strong>la</strong> métho<strong>de</strong>,et nous nous <strong>de</strong>vons <strong>de</strong> pouvoir l’adapter pour orienter son application à <strong>la</strong>synthèse granu<strong>la</strong>ire. Toutefois, cette algorithme ne peut à priori pas s’appliquerà tout type <strong>de</strong> son bruités. Les <strong>sons</strong> composés <strong>de</strong> grains <strong>de</strong> structureplus complexe peuvent être décomposés <strong>par</strong> celui-ci mais faisant l’impassesur <strong>la</strong> “cohérence granu<strong>la</strong>ire” représentant une spécification forte dans notredémarche. Un bon contre exemple pourrait être les <strong>sons</strong> <strong>de</strong> grattements dontles grains ne peuvent être considérés comme sinusoidaux. Il a donc fallu ainsirechercher une autre approche permettant une décomposition granu<strong>la</strong>ire plussouple et c’est ce que nous allons détailler maintenant dans notre propositiond’extension <strong>de</strong> Matching Pursuit au domaine spectral.43


3.3 Analyse Spectral Matching Pursuit3.3.1 MotivationsNous venons <strong>de</strong> voir les possibilités très intéressantes qu’offrent l’algorithmeMatching Pursuit pour <strong>la</strong> décomposition <strong>de</strong> signaux suivant un ensemble<strong>de</strong> grains élémentaires. Un nombre assez important <strong>de</strong> c<strong>la</strong>sses <strong>de</strong><strong>sons</strong> bruités peut à priori être représenté <strong>par</strong> <strong>de</strong> tels atomes. Mais il nefaut pas perdre <strong>de</strong> vue <strong>la</strong> cohérence granu<strong>la</strong>ire suivant <strong>la</strong>quelle on souhaitedécomposer les <strong>sons</strong> analysés. Une représentation Matching Pursuit, aussifidèle soit elle, ne sera pas nécessairement satisfaisante dans le cas général.Les <strong>sons</strong> <strong>de</strong> grattement en sont un bon contre-exemple. L’algorithme pourratrouver une approximation fidèle mais n’en conservera pas <strong>la</strong> propriété granu<strong>la</strong>ireintrinsèque, éc<strong>la</strong>tant le grain complexe qui le caractérise en ensemble<strong>de</strong> sous-grains sinusoidaux. Ceci nous amène à revoir <strong>la</strong> métho<strong>de</strong> dans le but<strong>de</strong> l’appliquer à <strong>la</strong> décomposition <strong>de</strong>s <strong>sons</strong> en grains arbitraires. Nous avonssouhaité gar<strong>de</strong>r le principe <strong>de</strong> base <strong>de</strong> l’algorithme Matching Pursuit car ilest bien adapté au modéle <strong>de</strong> son granu<strong>la</strong>ire <strong>par</strong> l’extraction <strong>de</strong>s propriétéslocales d’un signal. L’emploi <strong>de</strong> dictionnaires offre notamment <strong>de</strong> serieuxavantages quand à l’application <strong>de</strong>s résultats pour <strong>la</strong> synthèse.Nous avons donc <strong>la</strong> tache d’adapter cet algorithme à <strong>la</strong> décompositionsur un ensemble <strong>de</strong> grains arbitraires. Une première idée serait <strong>de</strong> construireun nouveau dictionnaire à <strong>par</strong>tir <strong>de</strong>s grains avec lesquels on veut décomposerle signal. Mais un problème survient dès lors que les grains ne sont plusdéterministes (en tout cas entièrement). En effet, prenons un exemple simplepour argumenter ce propos. Suppo<strong>sons</strong> que l’on souhaite décomposer le signalsur un dictionnaire comportant un unique atome défini comme uneséquence G[k] <strong>de</strong> longeur K <strong>de</strong> variables IID (indépendantes i<strong>de</strong>ntiquementdistribuée) <strong>de</strong> loi gaussienne N(0, 1). On veut analyser un signal X[k] <strong>de</strong>longueur K constitué d’une suite <strong>de</strong> variable IID <strong>de</strong> même loi N(0, 1). L’algorithmecherche alors à calculer <strong>la</strong> corré<strong>la</strong>tion 〈X, G〉 qui s’écrit :〈X, G〉 =K∑X[i]G[i]i=0Cette gran<strong>de</strong>ur est une variable aléatoire et son espérance s’écrit, en notantque les X[i] et G[i] sont indépendants :E(〈X, G〉) =K∑E(X[i]G[i]) =i=0K∑E(X[i])E(G[i])i=0E(〈X, G〉) = Kµ 2 avec µ = E(X) = E(G) = 044


Ayant une espérance nulle pour <strong>la</strong> fonction <strong>de</strong> corré<strong>la</strong>tion, l’algorithmen’est ainsi pas en mesure <strong>de</strong> détecter dans le signal le grain pourtant <strong>de</strong>structure i<strong>de</strong>ntique à celui du dictionnaire. Cet exemple simple n’est pasréellement carctéristique d’analyse réelle mais il nous montre tout <strong>de</strong> mêmecomment les composantes stochastiques <strong>de</strong>s grains du dictionnaire peuventfausser <strong>la</strong> détection. Il nous faut donc, si l’on souhaite gar<strong>de</strong>r <strong>la</strong> même structurepour l’algorithme, trouver une autre fonction <strong>de</strong> corré<strong>la</strong>tion adaptée aussignaux non-<strong>de</strong>terministes. Une idée serait d’utiliser le produit sca<strong>la</strong>ire <strong>de</strong>l’autocovariance empirique pour com<strong>par</strong>er le contenu spectral <strong>de</strong> l’atome gavec le signal x reduit au domaine <strong>de</strong> g suivant :C(x, g) = 〈acov x , acov g 〉 avec acov z (d) =N−d∑k=0z(k) ∗ z(k + d)Mais plusieurs problèmes surviennent alors. D’une <strong>par</strong>t on perd l’information<strong>de</strong> phase qui peut lors <strong>de</strong> <strong>la</strong> soustraction du grain au signal ajouter<strong>de</strong> l’energie plutôt qu’en enlever. En effet, <strong>de</strong>ux grains sinusoidaux g 1 et g 2 enopposition <strong>de</strong> phase ayant <strong>la</strong> même autocovariance, <strong>la</strong> soustraction <strong>de</strong> l’un<strong>par</strong> l’autre donnera x = 2 ∗ g1. De plus, l’autocovariance ne conserve pasnon plus les évolutions temporelles dans <strong>la</strong> structure du grain. Deux grainsg 1 (t) et son renversé temporel g 2 (t) = g 1 (N − t) auront aussi <strong>la</strong> même autocovariance,l’algorithme perdant ainsi un pouvoir <strong>de</strong> discrimination essentielentre différents grains complexes. Ces constats nous empêchent donc d’envisagerl’utilisation <strong>de</strong> l’autocovariance comme fonction <strong>de</strong> corré<strong>la</strong>tion. Il nousfaut donc trouver une métho<strong>de</strong> permettant <strong>de</strong> com<strong>par</strong>er <strong>la</strong> structure à <strong>la</strong>fois temporelle et spectrale <strong>de</strong>s grains avec celle du signal. Nous venons <strong>de</strong>voir les limites du travail dans le domaine temporel pour prendre en compteces spécifications. Il y a bien <strong>de</strong>s possibilités d’extension <strong>de</strong> <strong>la</strong> fonction <strong>de</strong>corré<strong>la</strong>tion mais elles ne font qu’alourdir le principe <strong>de</strong> dé<strong>par</strong>t simple <strong>de</strong>l’algorithme.L’idée est alors <strong>de</strong> gar<strong>de</strong>r le principe <strong>de</strong> décomposition adaptative <strong>de</strong> MatchingPursuit et <strong>de</strong> l’adapter au domaine spectral qui permet une représentationbien plus fine <strong>de</strong>s propriétés structurelles <strong>de</strong> signaux variés. En effet, <strong>par</strong> <strong>de</strong>stechniques <strong>de</strong> lissage <strong>de</strong> spectre, on peut représenter <strong>de</strong>s signaux non <strong>de</strong>terministedonnant approximation <strong>de</strong> leur <strong>de</strong>nsité spectrale <strong>de</strong> puissance. Il nes’agit plus <strong>de</strong> com<strong>par</strong>er le signal avec les atomes sous leur forme temporellemais d’utiliser plutôt pour ce<strong>la</strong> leur spectrogramme. L’avantage <strong>de</strong>s spectrogrammes<strong>par</strong> rapport à une unique transformée <strong>de</strong> Fourier est <strong>de</strong> conserver<strong>de</strong>s informations temporelles re<strong>la</strong>tivement précises, chose que ne peut pasfaire <strong>la</strong> TF, comme nous l’avons vu plus haut. Cette idée pourrait s’ap<strong>par</strong>enterà <strong>de</strong>s techniques <strong>de</strong> reconnaissance <strong>de</strong> formes spectrales à <strong>par</strong>tir d’un45


dictionnaire. Nous allons maintenant détailler <strong>la</strong> démarche d’une telle analyse,que l’on a nommé (sans beaucoup d’imagination) Spectral MatchingPursuit.3.3.2 L’algorithme Spectral Matching PursuitIl nous faut <strong>par</strong>tir d’ici d’un autre modèle <strong>de</strong> son granu<strong>la</strong>ire équivalent aupremier introduit plus haut mais adapté au domaine spectral. Nous étions<strong>par</strong>ti du postu<strong>la</strong>t que le signal x <strong>de</strong> dé<strong>par</strong>t pouvait se décomposer en sommepondérée <strong>de</strong> K atomes g k selon :x[n] =K∑α k g k [n]k=1En introduisant <strong>la</strong> transformée <strong>de</strong> Fourier à court terme TFCT X(t, f)<strong>de</strong> x au temps t <strong>de</strong> longueur N <strong>de</strong>finie <strong>par</strong> :X(t, f) ===N∑w[n]x[t + n]e 2jπfn=1N∑ K∑w[n]( α k g k [t + n])e 2jπfn=1k=1K∑ N∑α k ( w[n]g k [t + n]e 2jπf )k=1 n=1Ainsi :X(t, f) =K∑α k G k (t, f)k=1Avec G k (t, f) TFCT <strong>de</strong> g k au temps t <strong>de</strong> taille N. En toute rigueur,il faudrait travailler avec le spectre complexe X(t, f) mais ceci impliquaitplusieurs contraintes qui pouvaient poser problème dans <strong>la</strong> mise en oeuvre <strong>de</strong>l’algorithme. Le but est ici <strong>de</strong> projeter le signal X(t, f) sur les atomes G(t, f)du dictionnaire. Lors <strong>de</strong> <strong>la</strong> construction du dictionnaire, ce <strong>de</strong>rnier étant fini,chacun <strong>de</strong>s <strong>par</strong>amètres, dont <strong>la</strong> trans<strong>la</strong>tion temporelle <strong>de</strong> l’atome, est ainsidiscrétisé selon les besoins <strong>de</strong> <strong>la</strong> décomposition. Or étant peu envisageable,d’un point <strong>de</strong> vue temps <strong>de</strong> calcul, d’effectuer le calcul <strong>de</strong> <strong>la</strong> corré<strong>la</strong>tionpour chacun <strong>de</strong>s atomes à chaque échantillon, le pas temporel n’est donc pasune donnée négligeable. Il introduit ainsi <strong>de</strong>s problèmes <strong>de</strong> déphasage quipeuvent résulter en une pénalisation du choix d’atomes pourtant représentatif46


du signal analysé. En réalité, l’information <strong>de</strong> phase du spectre n’est pasvraiment primordiale dans notre cas s’attachant plus à détecter <strong>de</strong>s formesspectrales associables à un jeu <strong>de</strong> <strong>par</strong>amètres. Nous avons donc choisi <strong>de</strong>travailler exclusivement sur le module du spectre |X(t, f)|. Nous supposeronsdonc que |X(t, f)| peut être décomposé selon :|X(t, f)| =K∑α k |G k (t, f)|k=1Il est important <strong>de</strong> voir que l’on travaille maintenant avec <strong>de</strong>s matriceset non plus <strong>de</strong>s vecteurs temporels. Pour simplifier les notations et <strong>la</strong> structure<strong>de</strong> <strong>la</strong> métho<strong>de</strong>s, nous avons fait en sorte <strong>de</strong> manipuler le module <strong>de</strong>sspectrogrammes sous <strong>la</strong> forme <strong>de</strong> vecteurs X[p t,f ] :X[p t,f ] = |N∑w[n]x[t ∗ d + n]e 2jπf |n=0avec l’indicep t,f = tN + f/Feavec N taille <strong>de</strong> <strong>la</strong> TFCT et d pas d’avancement pour le calcul <strong>de</strong>s TFCTrég<strong>la</strong>nt notamment leur recouvrement.Comme préce<strong>de</strong>mment, on veux donc à chaque étape i <strong>de</strong> l’algorithmetrouver dans le dictionnaire D l’atome G m(i) qui, <strong>par</strong> projection du résidu R iminimise <strong>la</strong> norme-2 <strong>de</strong> R i+1 <strong>de</strong>fini <strong>par</strong> :R i+1 = R i − α i G m(i)avec m(i) <strong>de</strong>signant l’in<strong>de</strong>x <strong>de</strong> l’atome choisi dans le dictionnaire à l’étapei. L’algorithme commence avec R 1 = X. Le but est <strong>de</strong> trouver G m(i) selon :Par ailleurs :G m(i) = arg min Gm(i)∈D‖R i+1 ‖ 2〈R i+1 , G m(i) 〉 = 〈R i , G m(i) 〉 − α i 〈G m(i) , G m(i) 〉Par le théorème <strong>de</strong> <strong>la</strong> projection othogonale on a :〈R i+1 , G m(i) 〉 = 〈R i − α i G m(i) , G m(i) 〉 = 0D’où :α i = 〈R i, G m(i) 〉〈G m(i) , G m(i) 〉 = 〈R i, G m(i) 〉47


impliquant ainsi que <strong>la</strong> norme-2 <strong>de</strong>s atomes ‖G k ‖ = 1. On peut alors en<strong>de</strong>duire <strong>la</strong> norme-2 du signal residuel ‖R i+1 ‖ :‖R i+1 ‖ 2 = ‖R i ‖ 2 − |α i | 2Minimiser ‖R i+1 ‖ 2 revient donc à maximiser |α i | 2 . On doit donc choisirà chaque itération i l’atome qui aura le plus grand coefficient <strong>de</strong> corre<strong>la</strong>tionα i = 〈R i , G m(i) 〉.estimation amplitu<strong>de</strong> Une fois trouvés tous les coefficients α i correspondantà <strong>la</strong> décomposition, il s’agit d’en tirer les <strong>par</strong>amètres d’amplitu<strong>de</strong>applicables à chacun <strong>de</strong>s grains dans le domaine temporel. En effet, il n’y apas directe égalité entre corre<strong>la</strong>tion et amplitu<strong>de</strong> <strong>de</strong> <strong>par</strong>t <strong>la</strong> normalisation <strong>de</strong>satomes. Soit x = γg, on a alors le module du spectre X = γG. Le calcul <strong>de</strong><strong>la</strong> corre<strong>la</strong>tion nous donne X = αG/‖G‖. On a alors γ = α/‖G‖. En d’autreterme, il faudra donc diviser <strong>la</strong> corre<strong>la</strong>tion <strong>par</strong> <strong>la</strong> norme <strong>de</strong> l’atome auquelelle correspond, pour en déduire le <strong>par</strong>amètre d’amplitu<strong>de</strong>.construction du dictionnaire Nous avons donc <strong>la</strong> possbilité <strong>de</strong> décomposerle signal analysé sur un ensemble d’atomes arbitraires. Un <strong>de</strong>s points importantsest <strong>de</strong> gar<strong>de</strong>r un lien étroit avec les <strong>par</strong>amètres <strong>de</strong> synthèse pourgénérer le dictionnaire. Une <strong>de</strong>s idées sous-tendues <strong>par</strong> l’é<strong>la</strong>boration d’unetelle métho<strong>de</strong> était <strong>de</strong> pouvoir choisir un grain caractéristique dans le signa<strong>la</strong>nalysé pour ensuite le transformer suivant les <strong>par</strong>amètres <strong>de</strong> synthèseusuels. Dans cette optique, plusieurs choix s’offrent à nous. Le premier est<strong>de</strong> travailler dans le domaine temporel pour générer les différents grains dudictionnaire. Nous avons notamment experimenté <strong>la</strong> transposition du graincaractéristique suivant une échelle <strong>de</strong> hauteurs spécifiques. Il est bon <strong>de</strong> remarquerque ce type <strong>de</strong> transformation va agir autant au niveau <strong>de</strong> <strong>la</strong> hauteurdu grain que sur sa durée corré<strong>la</strong>nt ainsi fortement les <strong>de</strong>ux <strong>par</strong>amètres <strong>de</strong>synthèses. Une <strong>de</strong>s solutions pour contourner ce<strong>la</strong> serait <strong>de</strong> pondérer le grain<strong>par</strong> une fenêtre permettant <strong>de</strong> moduler sa durée mais sommes nous toujourslimités à <strong>la</strong> réduction <strong>de</strong> <strong>la</strong> longueur <strong>de</strong> dé<strong>par</strong>t du grain transposé. Une autreapproche est <strong>de</strong> travailler dans le domaine spectral pour <strong>la</strong> génération <strong>de</strong>satomes, en effectuant <strong>de</strong>s transformations directement sur le spectre du graincaractéristique comme <strong>de</strong>s trans<strong>la</strong>tions, <strong>de</strong>s mises à l’echelle,... Mais se poseici le problème <strong>de</strong> <strong>la</strong> resynthèse. En effet, le moteur <strong>de</strong> synthèse lit dansune table <strong>la</strong> forme d’on<strong>de</strong> <strong>de</strong>s grains. Dans notre cas, elle correspond augrain caractéristique et il nous est impossible dans se schéma <strong>de</strong> synthétiser<strong>de</strong>s grains issus <strong>de</strong> transformations spectrales comme l’etirement temporel<strong>par</strong> exemple. Ainsi, l’é<strong>la</strong>boration du dictionnaire soulève <strong>de</strong>s problèmes non48


triviaux qui étaient difficilement solvables à court terme. Nous n’avons eneffet experimenté que <strong>la</strong> transposition dans le domaine temporel <strong>de</strong>s grainss’adaptant directement à <strong>la</strong> synthèse.3.3.3 Etu<strong>de</strong> <strong>de</strong> casNous avons effectué <strong>de</strong>s tests <strong>de</strong> <strong>la</strong> métho<strong>de</strong> sur un son <strong>de</strong> type grattementauquel elle était prévu <strong>de</strong> s’adapter. En effet, <strong>de</strong> tels types <strong>de</strong> <strong>sons</strong> sontconstitués d’une <strong>de</strong>nsité moyenne ( 20 à 30 Hz ) <strong>de</strong> grains complexes. Ces<strong>de</strong>rniers sont le résultat <strong>de</strong> l’excitation <strong>de</strong> <strong>la</strong> structure grattée pouvant ainsiprendre <strong>de</strong> multiples formes. Ici, il s’agit d’une p<strong>la</strong>nche <strong>de</strong> bois peu <strong>de</strong>nseayant <strong>de</strong>s mo<strong>de</strong>s propres re<strong>la</strong>tivement bas. On peut d’ailleurs bien voir sur lespectre du son <strong>de</strong> grattement représenté en figure 15, <strong>la</strong> résonance au environ<strong>de</strong> 215 Hz.Fig. 15 – Spectrogramme du son <strong>de</strong> grattement analysé d’une durée <strong>de</strong> 6secon<strong>de</strong>s pris entre 0 et 3000 Hz.Nous avons appliqué l’algorithme avec une TFCT <strong>de</strong> taille N = 4096et un pas d’avancement d = 128 qui donne une résolution temporelle <strong>de</strong>r = 128/44100 ≃ 3ms. Le signal X[p t,f ] est construit à <strong>par</strong>tir du moduledu spectrogramme mais nous avons limité <strong>la</strong> fréquence maximale permettant<strong>de</strong> réduire significativement le temps <strong>de</strong> calcul. En effet, dans notre cas lesinformations fréquentielles au <strong>de</strong>ssus <strong>de</strong> 3000 Hz n’étant pas significatives,nous n’avons gardé que les N f = ⌊3000 ∗ N/Fe⌋ = 278 premières fréquences<strong>de</strong> <strong>la</strong> TFCT. Le choix <strong>de</strong> <strong>la</strong> limite en fréquence doit bien evi<strong>de</strong>mment sefaire en accord avec les propriétés du son analysé. Tout d’abord, nous allonseffectuer <strong>la</strong> décomposition sur un dictionnaire comportant un seul grain, cequi ne peut donner à priori que <strong>de</strong>s résultats peu interessants mais nouspermet <strong>de</strong> bien cerner le déroulement <strong>de</strong> l’algorithme. Reste à savoir quel49


grain va t’on choisir pour représenter le son d’origine. Ne proposant pas<strong>de</strong> métho<strong>de</strong> pour <strong>la</strong> détermination automatique d’un ( ou <strong>de</strong> plusieurs )grain caractéristique dans le signal analysé, nous avons extrait <strong>de</strong> manièrearbitraire un atome qui perceptivement semb<strong>la</strong>it le plus apte à représenterle son. Les résultats vont ainsi être fortement dépendants <strong>de</strong> ce choix mais,s’y tenant, on peut tout <strong>de</strong> même mettre à jour les propriétés intéressantes<strong>de</strong> <strong>la</strong> métho<strong>de</strong>. Le spectrogramme du grain choisi est représenté en figure 16Fig. 16 – Spectrogramme du grain choisi pour <strong>la</strong> <strong>de</strong>composition, d’une durée<strong>de</strong> 40 ms, pris entre 0 et 3000 Hz.On peut alors calculer <strong>la</strong> corre<strong>la</strong>tion <strong>de</strong> l’atome avec le signal analysé.Cette fonction est représenté en figure 17.Fig. 17 – Fonction <strong>de</strong> corré<strong>la</strong>tion entre le grain et le signal <strong>de</strong> dé<strong>par</strong>t.On pourrait croire que le maximum aux alentours <strong>de</strong> t = 5sec. correspondà <strong>la</strong> corré<strong>la</strong>tion du grain du dictionnaire avec son occurence dans le signal.50


Mais il s’agit en fait d’un grain détecté <strong>de</strong> plus gran<strong>de</strong> énergie et dont <strong>la</strong>structure est très simi<strong>la</strong>ire à celle <strong>de</strong> l’atome du dictionnaire. Nous avons eneffet, extrait l’atome au temps t = 2.73 secon<strong>de</strong>s. Rappelons <strong>par</strong> ailleurs,que <strong>la</strong> fonction <strong>de</strong> corré<strong>la</strong>tion ne correspond pas à l’amplitu<strong>de</strong> <strong>de</strong> l’atome,ceci étant <strong>la</strong> conséquence <strong>de</strong> <strong>la</strong> normalisation <strong>de</strong>s atomes G k qui permet <strong>de</strong>com<strong>par</strong>er <strong>la</strong> corré<strong>la</strong>tion pour <strong>de</strong>s atomes d’énergie diverse.Nous avons ensuite effectué <strong>de</strong>s décompositions sur un nombre d’itérationscroissant, respectivement <strong>de</strong> 10, 50 et 100 itérations. Les résultats <strong>de</strong> cesdécompositions sont représentés en figure 18Fig. 18 – Spectres residuels et fonctions <strong>de</strong> corre<strong>la</strong>tion à <strong>la</strong> 10 ième , 50 ième et100 ième itération <strong>de</strong> l’algorithme.Nous avons représenté en figure 18, sur les graphes <strong>de</strong>s fonctions <strong>de</strong>51


corré<strong>la</strong>tion, les maximums à chaque itération correspondant aux atomes détectés.On voit bien sur les résultats <strong>de</strong> <strong>la</strong> décomposition l’atténuation <strong>de</strong> l’énergiedu spectre résiduel. L’erreur d’approximation, calculé <strong>par</strong> ‖R i ‖/‖R 1 ‖, passeen effet <strong>de</strong> 0.91 pour 10 iteration, à 0.66 pour 50 et enfin à 0.45 pour100 itérations. Nous n’avons pas poursuivi <strong>la</strong> décomposition ayant éstimé lenombre <strong>de</strong> grains dans le signal <strong>de</strong> dé<strong>par</strong>t à une centaine environ. Les atomesdétectés <strong>par</strong> <strong>la</strong> suite n’aurait fait que tenter <strong>de</strong> corriger les erreurs aux points<strong>de</strong> détections antérieurs. En effet, on peut remarquer qu’aux temps où unatome est détecté, <strong>la</strong> corré<strong>la</strong>tion baisse mais n’atteint jamais <strong>la</strong> valeur nulle.Ce<strong>la</strong> peut se comprendre <strong>par</strong> le fait <strong>de</strong> vouloir représenter notre signal avec unseul et même grain. Mais ceci est d’autant plus étonnant au temps t = 2.73ou le grain se retrouve corrélé avec lui même. Ceci s’explique <strong>par</strong> <strong>la</strong> résolutiontemporelle induite dans le calcul du spectrogramme. Les TFCT n’étant calculéesque tous les d échantillons (ici d = 128), <strong>de</strong>ux mêmes signaux peuventne pas avoir le même spectrogramme, pouvant être déphasés <strong>par</strong> rapport aucalcul <strong>de</strong>s transformées. Ces erreurs seront d’autant plus faibles que le pas <strong>de</strong>st petit, en contre <strong>par</strong>tie d’un temps <strong>de</strong> calcul multiplié.Le resultat d’amplitu<strong>de</strong> <strong>de</strong>s grains détectés est représenté en figure 19.Fig. 19 – Temps et amplitu<strong>de</strong> <strong>de</strong>s grains détectés.On peut tout <strong>de</strong> suite voir que le grain ayant servi <strong>de</strong> base à <strong>la</strong> décompositionest bien détecté avec une amplitu<strong>de</strong> <strong>de</strong> 1. En réalité, on trouve une amplitu<strong>de</strong><strong>de</strong> 0.99921, erreur négligeable due au problème évoqué ci <strong>de</strong>ssus. Sur lesgrains forts aux environs <strong>de</strong> 5-6 secon<strong>de</strong>s, on observe <strong>par</strong> ailleurs certains doublements<strong>de</strong> détection, conséquence d’une mauvaise représentation <strong>de</strong> ceuxci <strong>par</strong> le grain choisi. En effet, sur les spectres residuels <strong>de</strong> <strong>la</strong> figure 18, onpeut voir les composantes aigues persistantes que le grain caractérsitique nepeut recouvrir. Il nous est maintenant possible <strong>de</strong> resynthétiser le signal, le52


spectrogramme <strong>de</strong> cette resynthèse étant représenté en figure 22Fig. 20 – Spectrogramme entre 0 et 3000 Hz du son resynthétisé.Le son resultant est re<strong>la</strong>tivement ininteressant <strong>par</strong> rapport au son originalmais il reproduit tout <strong>de</strong> même fidèlement les propriétés temporelles <strong>de</strong> ce<strong>de</strong>rnier. On l’associe d’ailleurs plus à un son <strong>de</strong> grincement. Ce<strong>la</strong> ouvre une<strong>par</strong>enthèse intéressante, mettant à jour <strong>de</strong>s propriétés <strong>de</strong> notre catégorisationperceptive <strong>de</strong> <strong>sons</strong> bruités. Les <strong>sons</strong> <strong>de</strong> grincement sont en effet constituésd’une superposition <strong>de</strong> grains dont <strong>la</strong> distribution temporelle peut être com<strong>par</strong>éeà celle <strong>de</strong>s <strong>sons</strong> <strong>de</strong> grattements mais à <strong>la</strong> différence d’une structurespectrale quasi constante pour tous les grains.Ceci étant, <strong>la</strong> représentation <strong>de</strong> notre signal est re<strong>la</strong>tivement grossière faisantl’impasse sur <strong>la</strong> variabilité dans <strong>la</strong> structure spectrale <strong>de</strong>s grains. Nousintrodui<strong>sons</strong> donc les premières experimentations quand à <strong>la</strong> constructiond’un dictionnaire d’atome. Nous nous somme basés toujours sur le grain caractéristiqueavec lequel on a décomposé le son <strong>de</strong> dé<strong>par</strong>t. Il s’agit maintenant<strong>de</strong> transformer ce grain pour pouvoir, une fois <strong>la</strong> décomposition effectuée,extraire <strong>de</strong>s <strong>par</strong>amètres compatibles avec <strong>la</strong> synthèse. Ce<strong>la</strong> sous-tend l’utilisationdu grain <strong>de</strong> base comme forme d’on<strong>de</strong> du synthétiseur. Nous pouvons,en accord avec les possibilités <strong>de</strong> transposition <strong>de</strong> <strong>la</strong> synthèse, construire undictionnaire en modifiant le pitch du grain caractérsitique dans le domainetemporel, ce qui revient à un changement <strong>de</strong> fréquence d’echantillonage.Au regard <strong>de</strong> <strong>la</strong> structure spectrale <strong>de</strong>s grains du signal source, <strong>la</strong> variabilité<strong>de</strong> <strong>la</strong> hauteur n’est pas très étendue. Nous l’avons estimé à unfacteur al<strong>la</strong>nt d’environ 0.9 à 1.1 <strong>par</strong> rapport à <strong>la</strong> hauteur spectrale dugrain caractéristique. Nous avons donc construit un dictionnaire comportant21 grains issue <strong>de</strong> <strong>la</strong> transposition, <strong>par</strong> pas <strong>de</strong> 0.01, <strong>de</strong> ce <strong>de</strong>rnier. Ladécomposition a été faite sur le même nombre <strong>de</strong> 100 itérations. Les hauteurs53


correspondants aux grains détectés sont représentées en figure 21.Fig. 21 – Facteur <strong>de</strong> transposition correspondant aux grains détectés.On peut verifier qu’au temps 2,73 secon<strong>de</strong>s <strong>la</strong> hauteur est bien <strong>de</strong> 1.correspondant au grain <strong>de</strong> base. Par ailleurs, on peut voir que <strong>la</strong> hauteurreste re<strong>la</strong>tivement stable autour <strong>de</strong> <strong>la</strong> fréquence <strong>de</strong> référence du grains carcatéristique.Ce<strong>la</strong> s’explique <strong>par</strong> les propriétés du son <strong>de</strong> dé<strong>par</strong>t, qui commeon peut voir sur <strong>la</strong> figure 15 a une hauteur spectrale assez constante. Parailleurs, <strong>la</strong> décomposition sur un tel dictionnaire a-t-il apporté à <strong>la</strong> qualité<strong>de</strong> <strong>la</strong> représentation? Si l’on en croit <strong>la</strong> norme du residue, passant <strong>de</strong> 0.45pour le dictionnaire ne comportant qu’un atome à 0.44 ici, le gain n’est pasgrand et l’utilisation d’une telle technique pour <strong>la</strong> construction du dictionnairen’est peut être pas justifiée. Toutefois, à <strong>la</strong> resynthèse le son est tout<strong>de</strong> même plus interessant, perceptivement plus associable à un son <strong>de</strong> grattement.Son spectre est représenté en figure 22.Critique Bien que cet exemple soit <strong>de</strong> l’ordre <strong>de</strong>s premières expérimentations,l’é<strong>la</strong>boration <strong>de</strong> cette métho<strong>de</strong> n’étant pas encore complétement achevée, ellepromet tout <strong>de</strong> même <strong>de</strong>s résultats intéressants pour l’analyse granu<strong>la</strong>ire <strong>de</strong><strong>sons</strong> variés. Il reste toutefois à tester celle ci sur <strong>de</strong>s <strong>sons</strong> bruités plus complexeset plus <strong>de</strong>nses du point <strong>de</strong> vue <strong>de</strong> leur structure. Mais avant ce<strong>la</strong>,<strong>de</strong> nombreux pans <strong>de</strong> celle-ci sont encore à expérimenter et à améliorer.La construction du dictionnaire est une <strong>de</strong>s <strong>par</strong>ties les plus sensibles car influençantgran<strong>de</strong>ment les résultats <strong>de</strong> l’analyse. La gran<strong>de</strong> contrainte <strong>de</strong> cettetache est d’adapter <strong>la</strong> structure du dictionnaire à <strong>la</strong> synthèse granu<strong>la</strong>ire. Eneffet, pour <strong>la</strong> transformation du grain caractéristique sur l’espace <strong>de</strong>s <strong>par</strong>amètressouhaité, on pourrait imaginer <strong>de</strong>s traitements bien plus poussésqu’une simple transposition temporelle. Mais se pose toujours le problème <strong>de</strong>s54


Fig. 22 – Spectrogramme entre 0 et 3000 Hz du son resynthétisé suite à unedécomposition sur plusieurs grains.possibilités qu’a <strong>la</strong> synthèse granu<strong>la</strong>ire pour transformer le grain <strong>de</strong> base prisen tant que forme d’on<strong>de</strong>. Peut être faut il étendre <strong>la</strong> synthèse pour rendre<strong>de</strong> telles transformations plus flexible? Une <strong>de</strong>s possibilités pour étendre lescapacités <strong>de</strong> représentation du dictionnaire est <strong>de</strong> prendre plusieurs grainscaractéristiques comme bases <strong>de</strong> <strong>la</strong> décomposition. Cette approche peut êtreintéressante même si il ne faut pas perdre <strong>de</strong> vue l’importance <strong>de</strong> <strong>la</strong> compacité<strong>de</strong> <strong>la</strong> représentation. Perdre une telle propriété rendrait l’application ensynthèse trop dépendante du son resynthétisé rendant <strong>par</strong> exemple difficilesles traitements type hybridation. Un autre point qu’il faut améliorer sontles critères <strong>de</strong> choix d’un grain caractéristique et l’évaluation d’une possibleroutine <strong>de</strong> détermination automatique. En effet, comme nous l’avons vu, lechoix est fait <strong>de</strong> manière approximative et est loin d’être optimal. Il resteenfin, du point <strong>de</strong> vue technique, <strong>de</strong> nombreuses optimisations à effectuersur le co<strong>de</strong> pour une utilisation ergonomique. Nous avons en effet é<strong>la</strong>borél’algorithme sous octave, le logiciel scientifique libre type Mat<strong>la</strong>b. Cet environnementoffre un <strong>la</strong>ngage simplifié et une gran<strong>de</strong> précision <strong>de</strong> calcul, audétriment d’une rapidité d’execution assez lente. A terme il faudra envisagerson implémentation dans <strong>de</strong>s <strong>la</strong>ngages permettant un co<strong>de</strong> plus optimisé <strong>de</strong>type <strong>la</strong>ngage C.55


4 Synthèse dans MAX/MSPCes recherches sur les métho<strong>de</strong>s d’analyse ont dû s’accompagner <strong>de</strong> <strong>la</strong>poursuite du développement <strong>de</strong>s objets MAX/MSP <strong>de</strong> synthèse granu<strong>la</strong>ireutilisés au GMEM. En effet, <strong>la</strong> phase <strong>de</strong> resynthèse impliquait l’ajout <strong>de</strong> fonctionnalitésspécifiques comme l’utilisation d’enveloppes fonctionelles complexesou <strong>la</strong> mise en p<strong>la</strong>ce d’un générateur <strong>de</strong> nombre aléatoire suivant <strong>de</strong>sdistributions <strong>de</strong> probabilités arbitraires. Nous allons donc briévement mentionnerles étapes importantes du <strong>de</strong>veloppement effectué.4.1 Générateur <strong>de</strong> nombre aléatoire <strong>de</strong> loi arbitraireDans MAX/MSP, les objets permettant <strong>la</strong> génération aléatoire ne peuventgénéralement fournir que <strong>de</strong>s variables équiprobables. Or, il était intéressantpour le contrôle <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ire <strong>de</strong> pouvoir spécifier<strong>de</strong>s distributions plus évoluées. L’idée est alors <strong>de</strong> définir <strong>de</strong>s fonctions <strong>de</strong>distribution sous <strong>la</strong> forme <strong>de</strong> liste <strong>de</strong> valeurs, chaque valeur correspondantà <strong>la</strong> probabilité du tirage <strong>de</strong> l’in<strong>de</strong>x qui lui est associé. Ce<strong>la</strong> peut se formaliserainsi. Soit <strong>la</strong> liste {p k } <strong>de</strong> longueur K correspondant à <strong>la</strong> fonction <strong>de</strong>probabilité telle que :K∑p k = 1On veut :k=0P(Y = k/K) = p kAvec Y variable aléatoire <strong>de</strong> sortie. Soit X variable aléatoire équiprobable telque X ∈ [0; 1.]. Or si (a, b) ∈ [0; 1.] 2 et a < b :Introdui<strong>sons</strong> <strong>par</strong> ailleursOn a donc :P(a < X < b) = b − aS k =k∑n=0p nP(S k < X < S k+1 ) = p k+1et ainsi peut on en <strong>de</strong>duire le calcul <strong>de</strong> Y :Y = (arg k∈[0;K] [S k < X < S k+1 ])/KEn d’autres termes, il faut créer <strong>la</strong> liste <strong>de</strong>s sommes successives <strong>de</strong> <strong>la</strong> liste<strong>de</strong> probabilité et ensuite com<strong>par</strong>er une variable aléatoire équiprobable avec56


chacun <strong>de</strong>s éléments. L’in<strong>de</strong>x du premier élément plus grand que <strong>la</strong> variablecorrespond à <strong>la</strong> sortie recherchée. Le patch MAX réalisant un tel traitementest représenté en figure 23. Techniquement, l’objet vexpr convertie <strong>la</strong> liste S kFig. 23 – Patch MAX pour <strong>la</strong> génération <strong>de</strong> nombres aléatoires <strong>de</strong> loi arbitrairesous forme messages.en liste <strong>de</strong> valeur binaire selon le résultat <strong>de</strong> <strong>la</strong> com<strong>par</strong>aison. zl sub renvoieen sortie les in<strong>de</strong>x <strong>de</strong>s occurences <strong>de</strong> valeurs vrais (ou = 1) et zl nth prendle premier élément <strong>de</strong> cette nouvelle liste. On peut spécifier <strong>la</strong> fréquence <strong>de</strong>génération <strong>de</strong>s valeurs aléatoires <strong>par</strong> <strong>la</strong> modification <strong>de</strong> <strong>la</strong> perio<strong>de</strong> <strong>de</strong> l’objetmetro. On peut <strong>de</strong>scendre jusqu’à <strong>la</strong> limite dictée <strong>par</strong> l’horloge message <strong>de</strong>MAX qui est d’environ 1 ms.Cet objet offre <strong>de</strong>s résultats très satisfaisants pour <strong>de</strong>s fréquences <strong>de</strong>générations moyenne (f < 100 Hz). Mais franchi ce seuil, on obtient <strong>de</strong>sirrégu<strong>la</strong>rités non négligeable dans <strong>la</strong> fréquence réelle <strong>de</strong> génération. Ceci estdû à <strong>la</strong> gestion <strong>de</strong>s messages dans MAX, ce <strong>de</strong>rnier n’assurant pas une gran<strong>de</strong>exactitu<strong>de</strong> temporelle dans <strong>la</strong> propagation <strong>de</strong>s messages. Or on veut pouvoir,avec le module <strong>de</strong> synthèse créer <strong>de</strong>s flux granu<strong>la</strong>ires <strong>de</strong>nse (<strong>de</strong> <strong>de</strong>nsité > 1000grains/secon<strong>de</strong>s) avec <strong>la</strong> possibilité <strong>de</strong> spécifier pour chacun <strong>de</strong>s grains <strong>de</strong>s<strong>par</strong>amètres stochastiques propres. L’utilisation <strong>de</strong> cette version du générateurintroduit dans ce cas <strong>de</strong>s artefacts audibles, <strong>la</strong> fréquence du générateur ne suivantpas celle <strong>de</strong> déclenchement <strong>de</strong>s grains. La seule solution à ce problème57


est d’utiliser un générateur <strong>de</strong> type signal pouvant théoriquement monterjusqu’à <strong>la</strong> fréquence d’échantillonnage. Nous avons donc développer un objetexterne en <strong>la</strong>ngage C pour réaliser cette tache. Le patch d’ai<strong>de</strong> <strong>de</strong> cet objetest représenté en figure 24.Fig. 24 – Objet externe pour <strong>la</strong> génération <strong>de</strong> nombres aléatoires <strong>de</strong> loiarbitraire sous forme signal.Cet objet suit le même schéma que <strong>la</strong> version message prenant une liste <strong>de</strong>probabilité en entrée. Il a une horloge interne mais peut aussi être contrôlé<strong>par</strong> un signal externe. En connectant un signal sur <strong>la</strong> première entrée, ilva générer une nouvelle valeur à chaque croisement <strong>par</strong> zero <strong>de</strong> ce <strong>de</strong>rnier.Ceci peut être très utile pour <strong>la</strong> synchronisation <strong>de</strong> plusieurs générateurs. Onpeut ainsi avec ce systéme avoir un contrôle précis <strong>de</strong>s <strong>par</strong>amètres fournis aumodule <strong>de</strong> synthèse.4.2 Objet <strong>de</strong> synthèse granu<strong>la</strong>ire avec enveloppe sousforme <strong>de</strong> tableL’objectif du GMEM est <strong>de</strong> créer 9 objets <strong>de</strong> synthèse granu<strong>la</strong>ire différentsselon leurs applications spécifiques. Les objets <strong>de</strong> synthèse alors implémentéset opérationnels sont ceux dont <strong>la</strong> forme d’on<strong>de</strong> est basée sur une tablebuffer∼ (colonne centrale <strong>de</strong> <strong>la</strong> figure 25). Il ont été implémentés principalement<strong>par</strong> Laurent Pottier et Loic Kessous. Les objets lnGranul∼ et58


Fig. 25 – Objets MAX/MSP <strong>de</strong> synthèse granu<strong>la</strong>irecosGranul∼ travaillent avec <strong>de</strong>s enveloppes à segments linéaires ou <strong>de</strong>micosinus.gsGranul∼ quand à lui propose une enveloppe gaussienne généréeen temps-réel. Ils étaient tout trois déclinés en <strong>de</strong>ux versions : une acceptant<strong>de</strong>s <strong>par</strong>amètres sous forme messages et l’autre sous forme signal. Il pouvaitêtre interessant <strong>de</strong> définir <strong>de</strong>s enveloppes arbitraires sous forme <strong>de</strong> buffer∼externe. Ce<strong>la</strong> pouvait notamment remp<strong>la</strong>cer les fonctions d’un gsGranul∼coûteux en temps <strong>de</strong> calcul. Nous nous somme basés sur le co<strong>de</strong> C <strong>de</strong>s objetsexistants pour é<strong>la</strong>borer un tel objet.Le seul <strong>par</strong>amètre influenceant l’enveloppe est alors le <strong>par</strong>amètre <strong>de</strong> longueurlength. Nous avons veillé à effectuer une interpo<strong>la</strong>tion linéaire pour <strong>la</strong>lecture <strong>de</strong> <strong>la</strong> table, ceci évitant les artefacts audibles d’aliasing. Par ailleurs,les grains sont déclenchés <strong>par</strong> le passage <strong>par</strong> 0 d’un signal trigger. Il est ainsiimpossible <strong>de</strong> générer plusieurs grains exactement synchrones. Nous avonsdonc ajouté une fonctionnalité appelée gpacket mo<strong>de</strong> permettant <strong>de</strong> définir<strong>de</strong>s groupes <strong>de</strong> grains, déclenchables <strong>par</strong> le signal trigger.Pour les même rai<strong>sons</strong> évoquées plus haut, même si il est possible avecun tel objet <strong>de</strong> déclencher un grand nombre <strong>de</strong> grains <strong>par</strong> secon<strong>de</strong>s, les variations<strong>de</strong>s <strong>par</strong>amètres ne peut suivre <strong>de</strong>s ca<strong>de</strong>nces plus gran<strong>de</strong> qu’envrion1000 messages/secon<strong>de</strong>. Nous sommes donc limités <strong>par</strong> l’horloge message <strong>de</strong>MAX. En réalité, rien ne nous empêche <strong>de</strong> créer <strong>de</strong>s strucures <strong>de</strong>nses avecgénération stochastiques <strong>de</strong>s <strong>par</strong>amètres mais le signal resultant est alors fortementcorrélée avec <strong>la</strong> fréquence <strong>de</strong> mise à jour <strong>de</strong> ceux ci. D’où l’intérêt,<strong>de</strong> l’extension <strong>de</strong> cet objet à une version acceptant <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> typesignal. Nous avons donc développé un tel objet appelé bufGranul∼.Du point <strong>de</strong> vue <strong>de</strong> son fonctionnement, les signaux <strong>par</strong>amètres sontéchantillonés au temps exact ( “temps signal” <strong>de</strong> résolution sa fréquence59


Fig. 26 – Patch d’ai<strong>de</strong> <strong>de</strong> l’objet bufGran∼d’échantillonage ) où le déclenchement d’un grain a lieu, déclenchementqui est d’ailleurs contrôlé <strong>par</strong> signal. Ceci nous donne ainsi <strong>la</strong> possibilitéd’une <strong>par</strong>t d’une fréquence <strong>de</strong> mise à jour <strong>de</strong> <strong>par</strong>amètres jusqu’à <strong>la</strong> fréquenced’échantillonage. D’autre <strong>par</strong>t ce<strong>la</strong> permet d’avoir un contrôle precis sur les<strong>par</strong>amètres d’un grain <strong>par</strong>ticulier “noyé” dans un flux <strong>de</strong> n’importe quelle<strong>de</strong>nsité. Ceci est notamment intéressant pour faciliter à terme l’implémentation<strong>de</strong>s dépendances entre les <strong>par</strong>amètres, pouvant alors lier <strong>de</strong> manière fiablel’évolution <strong>de</strong> plusieurs <strong>par</strong>amètres. L’association entre l’objet ran dist list∼<strong>de</strong> génération <strong>de</strong> signal aléatoire et bufGranul∼ donnent <strong>de</strong>s résultats bienplus intéressants pour <strong>la</strong> synthèse <strong>de</strong> flux granu<strong>la</strong>ires <strong>de</strong>nses, n’ayant plusd’artefacts liés à l’horloge message. Ils constituent ainsi un bon environnement<strong>de</strong> tests pour <strong>la</strong> resynthèse <strong>de</strong> <strong>sons</strong> bruités issus d’analyse.60


4.3 Vers une interface graphique <strong>de</strong> contrôle...Fig. 27 – Interface <strong>de</strong> contrôle <strong>de</strong> l’objet bufGranul∼ <strong>de</strong> synthèse granu<strong>la</strong>ire.61


5 Conclusion et perspectives5.1 Bi<strong>la</strong>nL’amorce <strong>de</strong> ce projet <strong>de</strong> recherche sur l’application <strong>de</strong> <strong>la</strong> synthèse granu<strong>la</strong>ireau <strong>sons</strong> bruités donne <strong>de</strong>s resultats encourageants autant au niveau <strong>de</strong>l’analyse comme <strong>de</strong> <strong>la</strong> synthèse. En effet, l’amélioration <strong>de</strong>s objets <strong>de</strong> synthèseen regard <strong>de</strong> cette application spécifique sont un facteur motivant pour approfondirles recherches en analyse. Empiriquement, on arrive à recréer <strong>de</strong>s <strong>sons</strong>bruités <strong>de</strong> types très variés qui sont perceptiblement probants. L’ajout <strong>de</strong>sfonctionnalités <strong>de</strong> generations aléatoires <strong>de</strong> loi arbitraire y est pour beaucoupdans ces résultats. Le mon<strong>de</strong> physique est en effet régi <strong>par</strong> <strong>de</strong>s phénomènescomplexes, dont <strong>la</strong> modélisation <strong>par</strong> <strong>de</strong>s fonctions probabilistes simples nepeut être que réductrice. Avec <strong>de</strong>s fonctions aléatoires complexes, on arrive à<strong>de</strong>s résultats qui sonnent perceptiblement beaucoup plus naturels. Les c<strong>la</strong>sses<strong>de</strong> <strong>sons</strong> ainsi crées sont très diverses comme <strong>de</strong>s bruits <strong>de</strong> gouttes d’eau, <strong>de</strong>grattements, <strong>de</strong> tremblements, ou <strong>de</strong>s <strong>sons</strong> plus <strong>de</strong> l’ordre du bruits quasiconstantcomme ceux <strong>de</strong> mers, <strong>de</strong> vents,... Ceci nous montre les possibilitéstrès prometteuses qu’a <strong>la</strong> synthèse granu<strong>la</strong>ire dans cette application.Concernant l’analyse, les différentes métho<strong>de</strong>s évaluées ont <strong>de</strong>s intérêts diverset complémentaires. Pour <strong>de</strong>s <strong>sons</strong> bruités dont les grains sont sé<strong>par</strong>ablestemporellement et ont <strong>de</strong>s variations simples, <strong>la</strong> métho<strong>de</strong> <strong>par</strong> segmentationpeut être une technique facile à mettre en oeuvre et pouvant donner <strong>de</strong>srésultats satisfaisants. La métho<strong>de</strong> Matching Pursuit quand à elle est très efficacepour <strong>la</strong> décomposition en grains simples et <strong>par</strong> une possible configurationplus poussée peut s’adapter à <strong>de</strong>s cas divers. Spectral Matching Pursuit,bien que son é<strong>la</strong>boration ne soit pas encore aboutie, promet <strong>de</strong>s résultats exploitablessur <strong>de</strong> <strong>la</strong>rges c<strong>la</strong>sses <strong>de</strong> <strong>sons</strong> bruités permettant <strong>la</strong> representation<strong>de</strong> ceux-ci <strong>par</strong> l’évolution <strong>par</strong>amétrique <strong>de</strong> grains complexes.Ces constats permettent d’entrevoir à terme <strong>la</strong> possibilité d’une catégorisation<strong>de</strong> <strong>sons</strong> bruités <strong>par</strong> leurs <strong>par</strong>amètres applicables en synthèse granu<strong>la</strong>ire.5.2 Optimisations et PerspectivesOutres les optimisations envisagées pour chaque métho<strong>de</strong> précé<strong>de</strong>mmentévoquées, un <strong>de</strong>s points majeurs pour l’évolution du modèle est <strong>la</strong> gestion <strong>de</strong><strong>la</strong> corré<strong>la</strong>tion <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> synthèse entre eux. Il semble en effet quece<strong>la</strong> soit une donnée importante pour <strong>la</strong> modélisation <strong>de</strong> <strong>sons</strong> bruités. les<strong>par</strong>amètres extraits résultent <strong>de</strong> phénomènes physiques complexes dont lespropriétés influencent ces premiers <strong>de</strong> manière globale, les rendant ainsi interdépendants.D’un point <strong>de</strong> vue technique, ceci implique d’une <strong>par</strong>t un trai-62


tement spécifique <strong>de</strong>s données analysées déterminant <strong>la</strong> nécessité <strong>de</strong> corrélertel ou tel <strong>par</strong>amètre et avec quelles modalités. D’autre <strong>par</strong>t, il faut alorsmettre en p<strong>la</strong>ce, au niveau <strong>de</strong> <strong>la</strong> synthèse, un système <strong>de</strong> génération <strong>de</strong> <strong>par</strong>amètrescontraint <strong>par</strong> les règles <strong>de</strong> corré<strong>la</strong>tion ainsi déterminées. On noteraque cette <strong>de</strong>rnière étape sera facilitée <strong>par</strong> <strong>la</strong> gestion <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong>type signal et <strong>la</strong> fonction <strong>de</strong> synchronisation implémentée dans les objetsrand dist list∼.Du point <strong>de</strong> vue <strong>de</strong> <strong>la</strong> synthèse, il faudra aussi à terme pouvoir gérerl’évolution <strong>de</strong>s lois stochastiques régissant les <strong>par</strong>amètres et ce<strong>la</strong> <strong>de</strong> manièreergonomique. Une solution simple dans MAX pourrait être l’utilisation d’unséquenceur <strong>de</strong> messages mettant à jour les courbes à <strong>de</strong>s temps définis. Maison voudrait ici un outils plus malléable pouvant effectuer <strong>de</strong>s interpo<strong>la</strong>tionsentre différentes fonctions <strong>de</strong> probabilités. Ce<strong>la</strong> permettrait d’une <strong>par</strong>t d’avoirune évolution <strong>de</strong>s <strong>par</strong>amètres <strong>de</strong> mise en oeuvre plus aisée pour le compositeuret d’autre <strong>par</strong>t d’explorer l’espace sonore entre plusieurs jeux <strong>de</strong> <strong>par</strong>amètresissus d’analyses (hybridation).5.3 Apports PersonnelsCe travail a été pour moi très enrichissant à <strong>de</strong> multiples niveaux. LeGMEM a en effet été une structure idéale pour <strong>la</strong> réalisation <strong>de</strong> mon stageATIAM, étant un lieu d’échange permanent entre recherche scientifique etcréation artistique. Ce<strong>la</strong> m’a permis d’appliquer les notions enseignées lors <strong>de</strong><strong>la</strong> formation ATIAM, en ayant toujours à l’esprit l’utilisation finale <strong>de</strong>s outils<strong>par</strong> <strong>de</strong>s compositeurs. Mes travaux ont ainsi oscillé entre recherche théoriqueet application pratique, <strong>de</strong>ux domaines qui sont pour moi complémentaires.De plus, ce sujet <strong>de</strong> recherche, au début <strong>de</strong> mon stage, etait re<strong>la</strong>tivementnouveau et encore peu exploré. Ce<strong>la</strong> a rendu le travail réellement captivant,<strong>de</strong>vant imaginer et étudier <strong>de</strong>s métho<strong>de</strong>s à <strong>par</strong>tir <strong>de</strong> peu d’existant, unegran<strong>de</strong> marge <strong>de</strong> manoeuvre m’ayant été accordée. Pour toutes ces rai<strong>sons</strong>,je remercie Laurent Pottier et Raphaël De Vivo pour m’avoir permis <strong>de</strong><strong>par</strong>ticiper à un tel projet.63


Références[1] R. Gribonval et al. Analysis of sound signals with high resolution matchingpursuit. Proceedings of TimeFrequency Time-Scale Symposium,1996.[2] Xavier Ro<strong>de</strong>t et Gerald Bennett. Synthèse <strong>de</strong> <strong>la</strong> voix chantée <strong>par</strong> ordinateur.Conférences <strong>de</strong>s Journées d’Etu<strong>de</strong>, Festival International duSon, Paris, 1980.[3] Michael M Goodwin and Martin Vetterli. Matching pursuit and atomicsignal mo<strong>de</strong>ls based on recursive filter banks. IEEE Trans. on SignalProc, 1998.[4] R. Gribonval. Fast ridge pursuit with a multiscale dictionary of gaussianchirps, 2002.[5] R. Gribonval, X. Depalle, E. Bacry, and S. Mal<strong>la</strong>t. Sound signal <strong>de</strong>compositionusing a high resolution matching pursuit. Proceedings of InternationalComputer Music Conference (ICMC’96). Clear Water Bay,Hong-Kong, 1996.[6] P. Hanna, A. Beurive, and M. Desainte-Catherine. Real-time noise synthesiswith control of the spectral <strong>de</strong>nsity. Proceedings of the DigitalAudio Effects Workshop (DAFX’02, Hamburg, Germany), 2002.[7] P. Hanna and M. Desainte-Catherine. Statistical approach for soundmo<strong>de</strong>ling. Proceedings of the Digital Audio Effects Workshop (DAFX’00,Verona, Italy), 2000.[8] S. Jaggi, W. Carl, S. Mal<strong>la</strong>t, and A. Willsky. High resolution pursuitfor feature extraction. Technical report, MIT, 1995.[9] Damian Keller. Touch’n’go : Ecological mo<strong>de</strong>ls in composition. url :www2.sfu.ca/sonic-studio/srs/EcoMo<strong>de</strong>lsComposition/Title.html, 1999.[10] Rocha M. Les techniques granu<strong>la</strong>ires dans <strong>la</strong> synthèse sonore. thèse <strong>de</strong>doctorat en Musique, Université Paris VIII, 1999.[11] S. Mal<strong>la</strong>t and Z. Zhang. Matching pursuits with time-frequency dictionaries.IEEE Transactions on Signal Processing, 41(12) :3397–3415,1993.[12] Timothy Opie. An overview of granu<strong>la</strong>r synthesis and the techniquesinvolved. http ://www.granu<strong>la</strong>rsynthesis.live.com.au/hthesis/, 1994.[13] Laurent Pottier. Gmu - an integrated microsound synthesis system.Proceedings of the Computer Music Mo<strong>de</strong>ling and Retrieval Conference,Montpellier (France), 2003.64


[14] Curtis Roads. Asynchronous granu<strong>la</strong>r synthesis. Representations ofMusical Signals, MIT Press, 1991.[15] Curtis Roads. Microsound. MIT Press, 2001.[16] Eric D. Scheirer. Tempo and beat analysis of acoustic musical signals.Acoustical Society of America, 1997.[17] Barry Truax. Discovering innner complexity : Timeshifting and transpositionwith a real-time granu<strong>la</strong>tion technique. Computer Music Journal18, 1994.[18] Damian Keller Barry Truax. Ecologically-based granu<strong>la</strong>r synthesis.ICMC, http ://www.sfu.ca/ dkeller/EcoGranSynth/EGSpaper.html,1998.65

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!