13.07.2013 Views

Analyse de structures répétitives dans les séquences musicales

Analyse de structures répétitives dans les séquences musicales

Analyse de structures répétitives dans les séquences musicales

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

THÈSE<br />

présentée à<br />

L’UNIVERSITÉ BORDEAUX 1<br />

ÉCOLE DOCTORALE DE MATHÉMATIQUES ET D’INFORMATIQUE<br />

Soutenue le 12/12/12<br />

par<br />

Benjamin MARTIN<br />

pour obtenir le gra<strong>de</strong> <strong>de</strong> Docteur en Informatique<br />

<strong>Analyse</strong> <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

<strong>dans</strong> <strong>les</strong> <strong>séquences</strong> musica<strong>les</strong><br />

Devant la commission d’examen composée <strong>de</strong><br />

Prési<strong>de</strong>nt Cédric Chauve Professeur<br />

Rapporteurs Frédéric Bimbot Directeur <strong>de</strong> Recherche<br />

Thierry Lecroq Professeur<br />

Directeurs Myriam Desainte-Catherine Professeur<br />

Pascal Ferraro Maître <strong>de</strong> Conférences<br />

Examinateurs Jean-Julien Aucouturier Maître <strong>de</strong> Conférences<br />

Pierre Hanna Maître <strong>de</strong> Conférences<br />

Matthias Robine Maître <strong>de</strong> Conférences


Résumé<br />

Cette thèse rend compte <strong>de</strong> travaux portant sur l’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

à partir du signal audio à l’ai<strong>de</strong> d’algorithmes du texte. Son objectif principal est<br />

<strong>de</strong> proposer et d’évaluer <strong>de</strong>s algorithmes d’inférence à partir d’une étu<strong>de</strong> formelle<br />

<strong>de</strong>s notions <strong>de</strong> similarité et <strong>de</strong> répétition musicale.<br />

Nous présentons d’abord une métho<strong>de</strong> permettant d’obtenir une représentation séquentielle<br />

à partir du signal audio. Nous introduisons <strong>de</strong>s outils d’alignement permettant<br />

d’estimer la similarité entre <strong>de</strong> tel<strong>les</strong> <strong>séquences</strong> musica<strong>les</strong>, et évaluons l’application<br />

<strong>de</strong> ces outils pour l’i<strong>de</strong>ntification automatique <strong>de</strong> reprises. Nous adaptons<br />

alors une technique d’in<strong>de</strong>xation <strong>de</strong> <strong>séquences</strong> biologiques permettant une estimation<br />

efficace <strong>de</strong> la similarité musicale au sein <strong>de</strong> bases <strong>de</strong> données conséquentes.<br />

Nous introduisons ensuite plusieurs répétitions musica<strong>les</strong> caractéristiques et employons<br />

<strong>les</strong> outils d’alignement pour i<strong>de</strong>ntifier ces répétitions. Une première structure,<br />

la répétition d’un segment choisi, est analysée et évaluée <strong>dans</strong> le cadre <strong>de</strong><br />

la reconstruction <strong>de</strong> données manquantes. Une <strong>de</strong>uxième structure, la répétition<br />

majeure, est définie, analysée et évaluée par rapport à un ensemble d’annotations<br />

d’experts, puis en tant qu’alternative d’in<strong>de</strong>xation pour l’i<strong>de</strong>ntification <strong>de</strong> reprises.<br />

Nous présentons enfin la problématique d’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> telle<br />

qu’elle est traitée <strong>dans</strong> la littérature, et proposons notre propre formalisation du<br />

problème. Nous exposons alors notre modélisation et proposons un algorithme permettant<br />

d’i<strong>de</strong>ntifier une hiérarchie <strong>de</strong> répétitions. Nous montrons la pertinence <strong>de</strong><br />

notre métho<strong>de</strong> à travers plusieurs exemp<strong>les</strong> et en l’évaluant par rapport à l’état <strong>de</strong><br />

l’art.<br />

Mots-clés : Recherche d’Informations Musica<strong>les</strong>, Structure musicale, Répétitions<br />

musica<strong>les</strong>, Algorithmique du texte


Abstract<br />

The work presented in this thesis <strong>de</strong>als with repetitive structure inference from audio<br />

signal using string matching techniques. It aims at proposing and evaluating<br />

inference algorithms from a formal study of notions of similarity and repetition in<br />

music.<br />

We first present a method for representing audio signals by symbolic strings. We introduce<br />

alignment tools enabling similarity estimation between such musical strings,<br />

and evaluate the application of these tools for automatic cover song i<strong>de</strong>ntification.<br />

We further adapt a bioinformatics in<strong>de</strong>xing technique to allow efficient assessments<br />

of music similarity in large-scale datasets.<br />

We then introduce several specific repetitive <strong>structures</strong> and use alignment tools to<br />

analyse these repetitions. A first structure, namely the repetition of a chosen segment,<br />

is retrieved and evaluated in the context of automatic assignment of missing<br />

audio data. A second structure, namely the major repetition, is <strong>de</strong>fined, retrieved<br />

and evaluated regarding expert annotations, and as an alternative in<strong>de</strong>xing method<br />

for cover song i<strong>de</strong>ntification.<br />

We finally present the problem of repetitive structure inference as addressed in literature,<br />

and propose our own problem statement. We further <strong>de</strong>scribe our mo<strong>de</strong>l<br />

and propose an algorithm enabling the i<strong>de</strong>ntification of a hierarchical music structure.<br />

We emphasize the relevance of our method through several examp<strong>les</strong> and by<br />

comparing it to the state of the art.<br />

Title: Repetitive structure analysis in music sequences<br />

Keywords: Music Information Retrieval, Music structure, Musical repetitions,<br />

String matching


Préface<br />

Cette thèse <strong>de</strong> doctorat a été effectuée au Laboratoire Bor<strong>de</strong>lais <strong>de</strong> Recherche en<br />

Informatique (LaBRI) <strong>de</strong> l’université Bor<strong>de</strong>aux 1, <strong>de</strong> 2010 à 2012. Je tiens à remercier<br />

<strong>dans</strong> un premier temps mon équipe d’encadrement Pascal Ferraro, Pierre<br />

Hanna, Matthias Robine et Myriam Desainte-Catherine pour toute l’ai<strong>de</strong> qu’ils<br />

m’ont apportée et pour m’avoir laissé une certaine liberté <strong>dans</strong> mes recherches,<br />

indispensable à mon sens pour mener à bien <strong>de</strong>s travaux scientifiques, tout en assurant<br />

un encadrement <strong>de</strong> qualité. J’adresse ensuite <strong>de</strong>s remerciements particuliers<br />

à mes rapporteurs, Frédéric Bimbot et Thierry Lecroq, qui m’ont fait l’honneur <strong>de</strong><br />

relire mon manuscrit ainsi qu’aux autres membres extérieurs <strong>de</strong> mon jury <strong>de</strong> thèse,<br />

Jean-Julien Aucouturier et Cédric Chauve, qui ont accepté d’évaluer mon travail.<br />

Un grand merci également à toute l’équipe <strong>de</strong> chercheurs du LaBRI sur le son<br />

et l’analyse <strong>de</strong> la musique avec qui j’ai pu échanger et collaborer, ainsi qu’aux<br />

co-auteurs <strong>de</strong>s publications auxquel<strong>les</strong> j’ai participé : Pierre, Pascal, Matthias, Myriam,<br />

Julien Allali, Thomas Rocher, Vinh-Thong Ta, Dan Brown, David Janin,<br />

Florent Berthaut. Plus généralement, je remercie tous <strong>les</strong> doctorants et collègues<br />

du laboratoire avec qui j’ai pu échanger durant ces quelques années, notamment à<br />

travers <strong>les</strong> associations AFoDIB ou Labruit : Olivier, Thomas M., Florent, Julien,<br />

Allyx, Simon, Noémie-Fleur, Vincent, Stanislaw, Dominique, Thomas R., Antoine,<br />

Xavier, Sylvain, Gabriel, Ève, Anne-Laure, Nicolas, Rémi, Émilie, Anaïs, Pierre,<br />

Lætitia... et j’en oublie probablement beaucoup. Ce sont aussi ces échanges, scientifiques,<br />

associatifs, musicaux ou autres, qui rythment le travail <strong>de</strong> doctorant et le<br />

ren<strong>de</strong>nt passionnant. Je souhaite également remercier <strong>les</strong> différents responsab<strong>les</strong> <strong>de</strong><br />

modu<strong>les</strong> d’enseignement avec <strong>les</strong>quels j’ai travaillé à l’ENSEIRB-MATMECA pour<br />

leur soutien pédagogique, et principalement Aymeric Vincent, Georges Eyrol<strong>les</strong>,<br />

Floréal Morandat, Toufik Ahmed et Denis Lapoire.<br />

En outre, je tiens à remercier chaleureusement tous <strong>les</strong> doctorants <strong>de</strong> diverses disciplines<br />

avec <strong>les</strong>quels j’ai échangé, notamment à travers l’association AquiDoc <strong>de</strong>s<br />

jeunes chercheurs d’Aquitaine. M’inpliquer <strong>dans</strong> cette <strong>de</strong>rnière a été particulièrement<br />

enrichissant à la fois d’un point <strong>de</strong> vue humain et pour mon expérience<br />

professionnelle, en me donnant notamment un certain recul sur le doctorat et sur<br />

la condition <strong>de</strong>s jeunes chercheurs. Je souhaite inciter tout doctorant lisant ces<br />

quelques lignes à s’intéresser <strong>de</strong> près et à s’impliquer, autant qu’il le peut, <strong>dans</strong><br />

cette association.<br />

Mes <strong>de</strong>rniers remerciements, et non <strong>les</strong> moindres, vont à tous mes amis qui se<br />

reconnaîtront et qui m’ont soutenu tout au long <strong>de</strong> ma thèse, ainsi qu’à ma famille<br />

et mes parents qui m’ont toujours poussé à poursuivre <strong>les</strong> sujets qui me passionnent,<br />

<strong>dans</strong> mes étu<strong>de</strong>s comme <strong>dans</strong> ma vie professionnelle. C’est en gran<strong>de</strong> partie grâce à<br />

eux que j’ai réussi <strong>dans</strong> ces travaux à réunir mes passions pour l’informatique et la<br />

musique, et c’est avec une certaine fierté que je leur dédie aujourd’hui ce manuscrit.


Table <strong>de</strong>s matières<br />

Résumé i<br />

Abstract iii<br />

Préface v<br />

Introduction 1<br />

1 Contexte 5<br />

1.1 Recherche d’Informations Musica<strong>les</strong> . . . . . . . . . . . . . . . . . . 5<br />

1.1.1 Recherche basée contexte . . . . . . . . . . . . . . . . . . . . 6<br />

1.1.2 Recherche basée contenu . . . . . . . . . . . . . . . . . . . . . 8<br />

1.2 Répétition musicale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.2.1 Enjeux et intérêt . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

1.3 Algorithmique <strong>de</strong>s <strong>séquences</strong> musica<strong>les</strong> . . . . . . . . . . . . . . . . . 13<br />

1.3.1 Métho<strong>de</strong>s algorithmiques . . . . . . . . . . . . . . . . . . . . 14<br />

1.3.2 Efficacité calculatoire . . . . . . . . . . . . . . . . . . . . . . 15<br />

2 Représentation séquentielle <strong>de</strong> l’information musicale 17<br />

2.1 Critères <strong>de</strong> <strong>de</strong>scription musicale . . . . . . . . . . . . . . . . . . . . . 17<br />

2.1.1 Tempo, rythme et métrique . . . . . . . . . . . . . . . . . . . 17<br />

2.1.2 Timbre et instrumentation . . . . . . . . . . . . . . . . . . . 18<br />

2.1.3 Information tonale . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.2 Représentation tonale du signal . . . . . . . . . . . . . . . . . . . . . 20<br />

2.2.1 Signal audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.2.2 Représentation numérique . . . . . . . . . . . . . . . . . . . . 21<br />

2.2.3 Relation hauteur/fréquence . . . . . . . . . . . . . . . . . . . 23<br />

2.2.4 <strong>Analyse</strong> spectrale . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

2.2.4.1 Transformée <strong>de</strong> Fourier Discrète . . . . . . . . . . . 24<br />

2.2.4.2 Spectre d’amplitu<strong>de</strong> et spectre <strong>de</strong> phase . . . . . . . 25<br />

2.2.4.3 Spectrogramme . . . . . . . . . . . . . . . . . . . . 26<br />

2.2.5 Définition du chroma . . . . . . . . . . . . . . . . . . . . . . . 27<br />

2.2.6 Calcul du chroma . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

2.2.7 Traitements possib<strong>les</strong> . . . . . . . . . . . . . . . . . . . . . . 30<br />

2.3 Représentation séquentielle pour la comparaison . . . . . . . . . . . 31<br />

2.3.1 Traitement par trames . . . . . . . . . . . . . . . . . . . . . . 31<br />

2.3.2 Comparaison entre <strong>de</strong>scripteurs . . . . . . . . . . . . . . . . . 32<br />

2.4 Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

3 Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong> 35<br />

3.1 Édition et alignement . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

3.1.1 Notations et définitions . . . . . . . . . . . . . . . . . . . . . 36<br />

3.1.2 Distance d’édition et alignement global . . . . . . . . . . . . 37<br />

3.1.2.1 Transcription . . . . . . . . . . . . . . . . . . . . . . 37<br />

3.1.2.2 Alignement global . . . . . . . . . . . . . . . . . . . 38


viii<br />

3.1.2.3 Pondération . . . . . . . . . . . . . . . . . . . . . . 39<br />

3.1.2.4 Distance d’édition . . . . . . . . . . . . . . . . . . . 39<br />

3.1.2.5 Calcul pratique <strong>de</strong> la distance d’édition . . . . . . . 40<br />

3.1.3 Alignement local . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

3.1.3.1 Similarité . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

3.1.3.2 Similarité locale et alignement local . . . . . . . . . 42<br />

3.1.3.3 Calcul pratique <strong>de</strong> la similarité locale . . . . . . . . 42<br />

3.1.4 Implémentation . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.1.4.1 Matrice <strong>de</strong> programmation dynamique . . . . . . . . 43<br />

3.1.4.2 Graphe d’édition . . . . . . . . . . . . . . . . . . . . 44<br />

3.1.4.3 Obtention <strong>de</strong>s transcriptions optima<strong>les</strong> . . . . . . . 45<br />

3.1.4.4 Complexité algorithmique . . . . . . . . . . . . . . . 47<br />

3.1.5 Variante robuste aux transpositions loca<strong>les</strong> . . . . . . . . . . 47<br />

3.2 Application à la similarité musicale . . . . . . . . . . . . . . . . . . . 50<br />

3.2.1 Recherche <strong>de</strong> reprises . . . . . . . . . . . . . . . . . . . . . . 50<br />

3.2.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

3.3 Passage à l’échelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />

3.3.1 Principe <strong>de</strong> BLAST . . . . . . . . . . . . . . . . . . . . . . . 57<br />

3.3.2 Métho<strong>de</strong> d’in<strong>de</strong>xation . . . . . . . . . . . . . . . . . . . . . . 57<br />

3.3.2.1 Repérage <strong>de</strong> graines d’alignement . . . . . . . . . . 58<br />

3.3.2.2 Sélection <strong>de</strong> graines . . . . . . . . . . . . . . . . . . 59<br />

3.3.2.3 Extension <strong>de</strong>s graines . . . . . . . . . . . . . . . . . 60<br />

3.3.3 In<strong>de</strong>xation <strong>de</strong> <strong>séquences</strong> tona<strong>les</strong> . . . . . . . . . . . . . . . . . 62<br />

3.3.3.1 Contraintes <strong>de</strong> représentation . . . . . . . . . . . . . 62<br />

3.3.3.2 Bases <strong>de</strong> données . . . . . . . . . . . . . . . . . . . . 63<br />

3.3.3.3 <strong>Analyse</strong> statistique . . . . . . . . . . . . . . . . . . . 64<br />

3.3.4 Stratégie d’in<strong>de</strong>xation et résultats . . . . . . . . . . . . . . . 67<br />

3.4 Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

4 I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong> 73<br />

4.1 Répétition d’un segment choisi . . . . . . . . . . . . . . . . . . . . . 73<br />

4.1.1 Reconstruction d’un extrait audio . . . . . . . . . . . . . . . 74<br />

4.1.1.1 Présentation du problème et travaux antérieurs . . . 74<br />

4.1.1.2 Représentation . . . . . . . . . . . . . . . . . . . . . 77<br />

4.1.1.3 Problème et algorithme . . . . . . . . . . . . . . . . 78<br />

4.1.1.4 Application à l’audio . . . . . . . . . . . . . . . . . 79<br />

4.1.1.5 Protocole d’évaluation . . . . . . . . . . . . . . . . . 81<br />

4.1.1.6 Tests perceptifs . . . . . . . . . . . . . . . . . . . . 84<br />

4.1.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />

4.2 Répétition majeure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />

4.2.1 Travaux antérieurs et motivation . . . . . . . . . . . . . . . . 90<br />

4.2.2 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />

4.2.3 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />

4.2.3.1 Premier algorithme . . . . . . . . . . . . . . . . . . 92<br />

4.2.3.2 Deuxième algorithme . . . . . . . . . . . . . . . . . 93<br />

4.2.3.3 Autres optimisations . . . . . . . . . . . . . . . . . . 95<br />

4.2.4 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

4.2.5 Application à l’in<strong>de</strong>xation pour la recherche <strong>de</strong> reprises . . . 99


4.2.5.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

4.2.5.2 Évaluation . . . . . . . . . . . . . . . . . . . . . . . 101<br />

4.3 Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

5 Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> 107<br />

5.1 Segmentation structurelle . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

5.1.1 Matrice d’auto-distance . . . . . . . . . . . . . . . . . . . . . 107<br />

5.1.2 Détection <strong>de</strong>s <strong>structures</strong> . . . . . . . . . . . . . . . . . . . . . 109<br />

5.1.2.1 Approche état . . . . . . . . . . . . . . . . . . . . . 109<br />

5.1.2.2 Approche séquence . . . . . . . . . . . . . . . . . . . 111<br />

5.1.3 Limitations et subjectivité . . . . . . . . . . . . . . . . . . . . 113<br />

5.1.4 Vers une approche hiérarchique . . . . . . . . . . . . . . . . . 114<br />

5.2 Modèle hiérarchique <strong>de</strong>s répétitions . . . . . . . . . . . . . . . . . . . 115<br />

5.2.1 Caractérisation musicale . . . . . . . . . . . . . . . . . . . . . 115<br />

5.2.2 Modélisation hiérarchique . . . . . . . . . . . . . . . . . . . . 116<br />

5.2.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . 116<br />

5.2.2.2 Représentation et exemp<strong>les</strong> . . . . . . . . . . . . . . 119<br />

5.3 Inférence hiérarchique <strong>de</strong> répétitions . . . . . . . . . . . . . . . . . . 120<br />

5.3.1 Préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 120<br />

5.3.2 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120<br />

5.3.3 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121<br />

5.3.3.1 Récurrence . . . . . . . . . . . . . . . . . . . . . . . 122<br />

5.3.3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . 124<br />

5.3.3.3 Exemple d’exécution . . . . . . . . . . . . . . . . . . 126<br />

5.3.4 Expériences et résultats . . . . . . . . . . . . . . . . . . . . . 128<br />

5.3.4.1 Évaluation <strong>de</strong> segmentations structurel<strong>les</strong> . . . . . . 130<br />

5.3.4.2 Bases <strong>de</strong> données . . . . . . . . . . . . . . . . . . . . 130<br />

5.3.4.3 Métriques d’évaluation . . . . . . . . . . . . . . . . 131<br />

5.3.4.4 Évaluation <strong>de</strong>s frontières . . . . . . . . . . . . . . . 133<br />

5.3.4.5 Évaluation <strong>de</strong>s motifs . . . . . . . . . . . . . . . . . 136<br />

5.3.4.6 Évaluation <strong>de</strong> l’échelle <strong>de</strong> <strong>de</strong>scription . . . . . . . . 136<br />

5.3.4.7 Évaluation multi-échel<strong>les</strong> . . . . . . . . . . . . . . . 138<br />

5.3.4.8 Temps d’exécution . . . . . . . . . . . . . . . . . . . 140<br />

5.3.4.9 Bilan expérimental . . . . . . . . . . . . . . . . . . . 140<br />

5.4 Conclusion du chapitre . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />

Conclusion et perspectives 143<br />

6.1 Résultats majeurs et contributions . . . . . . . . . . . . . . . . . . . 143<br />

6.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145<br />

Publications 149<br />

Bibliographie 151<br />

ix


Introduction<br />

Depuis une quinzaine d’années, la musique est au cœur d’un changement radical<br />

d’accès à l’information. Conséquence du développement fulgurant d’internet,<br />

<strong>de</strong>s technologies numériques et <strong>de</strong> la multiplication <strong>de</strong>s plateformes <strong>de</strong> distribution<br />

dématérialisée, la musique n’a jamais été aussi largement accessible qu’à l’heure<br />

actuelle. La quantité considérable <strong>de</strong> morceaux disponib<strong>les</strong>, <strong>de</strong> l’ordre <strong>de</strong> plusieurs<br />

millions <strong>de</strong> titres, a entraîné un effort conséquent <strong>de</strong>s acteurs <strong>de</strong> l’industrie musicale<br />

pour développer <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> parcours efficace <strong>de</strong>s bases <strong>de</strong> données musica<strong>les</strong>,<br />

permettant à tout utilisateur <strong>de</strong> retrouver, <strong>de</strong> trier ou <strong>de</strong> découvrir <strong>les</strong> titres qui lui<br />

plaisent. Il est cependant impossible pour un humain <strong>de</strong> gar<strong>de</strong>r une trace <strong>de</strong> l’ensemble<br />

<strong>de</strong>s morceaux existants et <strong>de</strong>s relations entre ceux-ci. Ce constat est l’une<br />

<strong>de</strong>s raisons qui a poussé <strong>les</strong> chercheurs et fournisseurs <strong>de</strong> contenu à utiliser l’outil<br />

informatique pour l’analyse et la comparaison automatiques <strong>de</strong>s données musica<strong>les</strong>.<br />

En particulier, un enjeu majeur <strong>de</strong> l’analyse <strong>de</strong> l’information musicale consiste à<br />

utiliser <strong>les</strong> éléments acoustiques <strong>de</strong>s morceaux <strong>de</strong> musique pour déduire certaines<br />

propriétés perçues par l’oreille humaine, et ainsi comparer ou représenter <strong>les</strong> œuvres<br />

par leur contenu même et sans l’ai<strong>de</strong> d’annotations supplémentaires.<br />

La similarité est une notion clé en analyse du contenu musical. Lorsqu’elle est<br />

constatée entre <strong>de</strong>s morceaux distincts, elle peut témoigner d’une volonté <strong>de</strong> la part<br />

du compositeur ou <strong>de</strong> l’interprète <strong>de</strong> ressemblance à une œuvre, en proposant une<br />

reprise ou une nouvelle interprétation par exemple. Elle peut également être relevée<br />

entre morceaux d’un même style musical, d’un même auteur, d’un même interprète,<br />

d’une même époque etc., et joue ainsi un rôle essentiel <strong>dans</strong> l’accès à la donnée musicale<br />

basé sur le contenu. En outre, lorsqu’elle est constatée entre différents extraits<br />

à l’intérieur même d’un morceau, la similarité est susceptible <strong>de</strong> mettre en évi<strong>de</strong>nce<br />

<strong>de</strong>s répétitions musica<strong>les</strong>. Ces <strong>structures</strong> <strong>répétitives</strong>, présentes à différentes échel<strong>les</strong>,<br />

caractérisent une certaine organisation temporelle du morceau <strong>de</strong> musique. Cette<br />

<strong>de</strong>rnière est un aspect fondamental <strong>dans</strong> la culture musicale occi<strong>de</strong>ntale. Ainsi, certains<br />

sty<strong>les</strong> musicaux sont construits autour d’un agencement caractéristique <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong>, composé par exemple <strong>de</strong> couplets et refrains en musique populaire,<br />

ou encore d’une forme répétitive prédéfinie comme <strong>dans</strong> <strong>les</strong> fugues, sonates<br />

ou menuets en musique classique. Plus généralement, la répétition musicale se produit<br />

à <strong>de</strong> nombreuses échel<strong>les</strong> temporel<strong>les</strong>, allant par exemple <strong>dans</strong> le cas <strong>de</strong> la<br />

musique classique <strong>de</strong>puis la note jusqu’au mouvement en passant par la phrase, le<br />

thème ou encore le motif. C’est pourquoi l’analyse <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> d’un<br />

morceau est une source d’informations riche sur le contenu musical qui ouvre un<br />

large éventail d’applications, dont certaines sont exposées <strong>dans</strong> ce document.<br />

La musique a ceci <strong>de</strong> spécifique que l’auditeur humain est généralement capable<br />

<strong>dans</strong> sa perception <strong>de</strong> combiner et prendre en compte simultanément <strong>de</strong> nombreux<br />

critères acoustiques, quelle que soit sa culture musicale. La tâche <strong>de</strong> modélisation<br />

mathématique <strong>de</strong> la musique polyphonique, en revanche, présente une complexité<br />

importante. Ainsi, à l’heure actuelle, l’analyse automatique <strong>de</strong> la musique pour<br />

i<strong>de</strong>ntifier <strong>de</strong>s notes, <strong>de</strong>s rythmes ou <strong>de</strong>s instruments par exemple n’atteint pas <strong>les</strong><br />

niveaux <strong>de</strong> performance <strong>de</strong> la perception humaine. En particulier, la détection au-


2 Introduction<br />

tomatique <strong>de</strong> similarités musica<strong>les</strong> est un problème difficile et lié à <strong>de</strong> nombreux<br />

facteurs, alors même que le cerveau humain est souvent en mesure <strong>de</strong> comparer<br />

implicitement et <strong>de</strong> qualifier aisément <strong>les</strong> ressemblances et <strong>les</strong> répétitions musica<strong>les</strong><br />

perçues.<br />

Ce document rend compte <strong>de</strong>s travaux <strong>de</strong> thèse effectués sur le thème <strong>de</strong> l’analyse<br />

du contenu musical pour l’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>. L’objectif principal<br />

<strong>de</strong> cette thèse est ainsi <strong>de</strong> proposer <strong>de</strong>s métho<strong>de</strong>s d’analyse <strong>de</strong> répétitions caractéristiques<br />

<strong>dans</strong> <strong>les</strong> morceaux <strong>de</strong> musique occi<strong>de</strong>ntale. L’aspect non trivial <strong>de</strong>s notions<br />

<strong>de</strong> similarité et <strong>de</strong> répétition musicale pour l’analyse nous amène à utiliser <strong>de</strong>s techniques<br />

d’i<strong>de</strong>ntification adaptées aux nombreuses variations musica<strong>les</strong> susceptib<strong>les</strong><br />

d’apparaître entre motifs perceptivement jugés comme similaires. En particulier, <strong>les</strong><br />

travaux présentés <strong>dans</strong> cette thèse se basent à <strong>de</strong> nombreuses reprises sur <strong>de</strong>s outils<br />

d’algorithmique du texte et <strong>de</strong> segmentation <strong>de</strong>s <strong>séquences</strong> biologiques. Le bienfondé<br />

d’une telle adaptation pour l’analyse musicale est justifié plus précisément<br />

<strong>dans</strong> la suite <strong>de</strong> ce document par la richesse <strong>de</strong> la représentation séquentielle et <strong>de</strong> la<br />

structuration répétitive <strong>dans</strong> <strong>les</strong> <strong>de</strong>ux cadres applicatifs, biologique et musical. Ces<br />

recherches s’inscrivent <strong>dans</strong> une approche scientifique validée par <strong>de</strong>s évaluations<br />

concrètes. Ainsi, pour l’ensemble <strong>de</strong>s problèmes que nous définissons, une solution<br />

algorithmique est apportée et évaluée sur <strong>de</strong>s données musica<strong>les</strong>. En particulier, la<br />

concordance <strong>de</strong> l’analyse effectuée avec <strong>de</strong>s éléments liés à la perception musicale est<br />

cruciale. Dans <strong>les</strong> travaux exposés <strong>dans</strong> cette thèse, la mise en application n’est pas<br />

systématiquement effectuée sur <strong>de</strong>s bases <strong>de</strong> données à l’échelle du contenu disponible<br />

<strong>dans</strong> l’industrie musicale, pour <strong>de</strong>s raisons pratiques d’obtention <strong>de</strong>s données<br />

ou <strong>de</strong> droits d’auteur. Cependant, l’efficacité calculatoire est discutée <strong>dans</strong> <strong>les</strong> différents<br />

systèmes proposés, et plusieurs techniques <strong>de</strong> réduction significative du temps<br />

<strong>de</strong> calcul sont étudiées.<br />

Les travaux présentés <strong>dans</strong> ce document sont organisés <strong>de</strong> la manière suivante.<br />

Le Chapitre 1 introduit plus précisément le contexte <strong>de</strong>s travaux présentés. Les<br />

chapitres suivants décrivent et évaluent <strong>les</strong> différentes étapes menant à l’extraction<br />

<strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> <strong>de</strong>puis le signal audio. Le Chapitre 2 décrit et justifie la<br />

métho<strong>de</strong> permettant <strong>de</strong> représenter le signal audio par une séquence <strong>de</strong> symbo<strong>les</strong><br />

représentative d’un critère musical. Le Chapitre 3 présente <strong>les</strong> outils <strong>de</strong> comparaison<br />

adaptés à <strong>de</strong> tel<strong>les</strong> <strong>séquences</strong> permettant d’i<strong>de</strong>ntifier <strong>de</strong>s similarités musica<strong>les</strong>. Le<br />

Chapitre 4 emploie ces techniques <strong>de</strong> comparaison pour i<strong>de</strong>ntifier <strong>de</strong>s <strong>structures</strong><br />

<strong>répétitives</strong> simp<strong>les</strong>. Le Chapitre 5 propose alors un algorithme d’inférence <strong>de</strong> la<br />

structuration d’un morceau <strong>de</strong> musique à partir d’une combinaison <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong> simp<strong>les</strong>. Les conclusions, travaux en cours et perspectives sont enfin<br />

présentés en Chapitre 5.4. Les paragraphes suivants décrivent plus en détail la<br />

composition <strong>de</strong> chaque chapitre.<br />

Chapitre 1<br />

Ce chapitre introduit d’abord <strong>les</strong> enjeux majeurs <strong>de</strong> la problématique <strong>de</strong> recherche<br />

<strong>dans</strong> laquelle ces travaux s’inscrivent. Nous décrivons le contexte actuel <strong>de</strong> distribution<br />

et d’accès à la donnée musicale, et présentons <strong>les</strong> approches relatives à<br />

nos travaux pour l’analyse automatique d’informations musica<strong>les</strong> en <strong>les</strong> illustrant<br />

par plusieurs cas d’utilisation. Ce chapitre introduit ensuite la notion <strong>de</strong> répétition


en musique, et présente différentes applications à son analyse automatique. Nous<br />

justifions le choix d’une représentation séquentielle <strong>de</strong> la musique, et exposons <strong>les</strong><br />

principes algorithmiques uti<strong>les</strong> à la détection efficace <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>.<br />

Chapitre 2<br />

Ce chapitre décrit une métho<strong>de</strong> <strong>de</strong> représentation <strong>de</strong> l’information musicale sous la<br />

forme <strong>de</strong> <strong>séquences</strong>. Nous discutons et justifions notre choix du critère musical <strong>de</strong><br />

représentation <strong>dans</strong> le cadre <strong>de</strong> la recherche <strong>de</strong> répétitions. La suite du chapitre décrit<br />

<strong>les</strong> outils <strong>de</strong> traitement du signal audio permettant <strong>de</strong> le représenter sous forme<br />

<strong>de</strong> séquence <strong>de</strong> <strong>de</strong>scripteurs musicaux. Afin <strong>de</strong> permettre d’estimer <strong>de</strong>s similarités<br />

musica<strong>les</strong>, nous détaillons alors <strong>de</strong>s techniques issues <strong>de</strong> l’état <strong>de</strong> l’art permettant<br />

<strong>de</strong> comparer ces <strong>de</strong>scripteurs entre eux.<br />

Chapitre 3<br />

Ce chapitre introduit <strong>les</strong> notations et techniques algorithmiques nécessaires à la<br />

comparaison <strong>de</strong> <strong>séquences</strong> <strong>de</strong> symbo<strong>les</strong>, inspirées notamment par <strong>les</strong> outils d’analyse<br />

<strong>de</strong> <strong>séquences</strong> biologiques. Nous détaillons une application à l’estimation <strong>de</strong> la<br />

similarité musicale et l’évaluons <strong>dans</strong> le cadre <strong>de</strong> la recherche <strong>de</strong> reprises. Nous<br />

introduisons ensuite une technique d’i<strong>de</strong>ntification à l’efficacité calculatoire élevée<br />

en adaptant une métho<strong>de</strong> bio-informatique d’in<strong>de</strong>xation heuristique, BLAST, à<br />

l’information musicale, que nous testons sur plusieurs bases <strong>de</strong> données <strong>de</strong> taille<br />

conséquente.<br />

Chapitre 4<br />

Ce chapitre étudie plusieurs types <strong>de</strong> répétitions <strong>dans</strong> <strong>les</strong> <strong>séquences</strong> musica<strong>les</strong>. Pour<br />

un extrait donné au sein d’un morceau <strong>de</strong> musique, nous présentons d’abord une<br />

métho<strong>de</strong> d’i<strong>de</strong>ntification <strong>de</strong> la meilleure répétition <strong>de</strong> celui-ci <strong>dans</strong> le même morceau,<br />

que nous évaluons par un test perceptif <strong>dans</strong> le cadre applicatif <strong>de</strong> la reconstruction<br />

<strong>de</strong> données audio manquantes. Nous étudions ensuite la répétition musicale <strong>dans</strong> un<br />

cas plus général et sans fixer l’une <strong>de</strong> ses occurrences. Nous introduisons alors une<br />

répétition particulière, dite majeure, et proposons un algorithme d’i<strong>de</strong>ntification <strong>de</strong><br />

celle-ci. Nous comparons cette répétition analysée à <strong>de</strong>s éléments <strong>de</strong> perception <strong>de</strong><br />

la structure musicale, puis l’utilisons pour l’in<strong>de</strong>xation d’un système <strong>de</strong> recherche<br />

<strong>de</strong> reprises.<br />

Chapitre 5<br />

Ce chapitre décrit <strong>de</strong>s métho<strong>de</strong>s d’inférence <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> contenues<br />

<strong>dans</strong> <strong>de</strong>s morceaux <strong>de</strong> musique. Nous étudions tout d’abord <strong>les</strong> travaux existants<br />

et mettons en valeur plusieurs limitations <strong>dans</strong> la position du problème que nous<br />

proposons <strong>de</strong> redéfinir. Nous proposons ensuite une modélisation pour la structuration<br />

répétitive d’un morceau <strong>de</strong> musique sans pré-connaissance particulière sur ses<br />

répétitions. Nous présentons alors un algorithme d’inférence et le confrontons aux<br />

techniques <strong>de</strong> l’état <strong>de</strong> l’art <strong>dans</strong> le cadre d’une comparaison avec <strong>de</strong>s annotations<br />

perceptives <strong>de</strong>s <strong>structures</strong> musica<strong>les</strong>.<br />

3


Chapitre 1<br />

Contexte<br />

La démocratisation <strong>de</strong> l’informatique et <strong>les</strong> avancées technologiques en termes<br />

<strong>de</strong> réseau, <strong>de</strong> puissance <strong>de</strong> calcul ou encore <strong>de</strong> capacité <strong>de</strong> stockage <strong>de</strong> données,<br />

associées à l’avènement <strong>de</strong> formats <strong>de</strong> compression audionumérique, ont précipité<br />

ces <strong>de</strong>rnières années le développement <strong>de</strong> bases <strong>de</strong> données musica<strong>les</strong> <strong>de</strong> l’ordre <strong>de</strong><br />

plusieurs millions <strong>de</strong> titres. D’abord stocké sur <strong>les</strong> supports personnels tels l’ordinateur,<br />

le lecteur noma<strong>de</strong> ou le téléphone mobile, le contenu musical a été au centre<br />

<strong>de</strong> changements majeurs tant <strong>dans</strong> son mo<strong>de</strong> <strong>de</strong> distribution que <strong>dans</strong> <strong>les</strong> habitu<strong>de</strong>s<br />

d’écoute [Don09]. En particulier, la multiplication ces <strong>de</strong>rnières années <strong>de</strong> solutions<br />

<strong>de</strong> stockage à distance, souvent désignées par le terme anglais cloud, repoussent <strong>les</strong><br />

limites du stockage personnel et permettent à un utilisateur <strong>de</strong> bénéficier <strong>de</strong> bibliothèques<br />

musica<strong>les</strong> numériques <strong>de</strong> plusieurs dizaines <strong>de</strong> milliers <strong>de</strong> titres <strong>de</strong>puis<br />

n’importe quel appareil <strong>de</strong> lecture compatible.<br />

En outre, faisant écho au développement <strong>de</strong> connexions internet dites “hautdébit”<br />

et à une popularité croissante <strong>de</strong>s services internet, <strong>de</strong> nombreux serveurs et<br />

plateformes <strong>de</strong> téléchargement ont été mis en place, proposant <strong>de</strong>s millions <strong>de</strong> contenus<br />

musicaux accessib<strong>les</strong> à tout utilisateur <strong>de</strong> manière quasi-instantanée. Dans cette<br />

configuration, l’utilisateur n’est plus nécessairement propriétaire <strong>de</strong> la ressource numérique<br />

mais a accès à un catalogue complet d’œuvres accessible via <strong>de</strong>s plateformes<br />

<strong>de</strong> téléchargement ou <strong>de</strong> diffusion (streaming). Ainsi, l’Observatoire <strong>de</strong> la Musique 1<br />

recense notamment en février 2012 [Nic12] plus <strong>de</strong> 78 sites et portails accessib<strong>les</strong><br />

<strong>de</strong>puis la France, classés en quatre catégories : <strong>les</strong> plateformes <strong>de</strong> téléchargement,<br />

<strong>les</strong> services <strong>de</strong> radios et <strong>de</strong> diffusion, <strong>les</strong> sites communautaires et <strong>les</strong> sites éditoriaux,<br />

<strong>de</strong> création ou innovants.<br />

Ces récentes avancées <strong>dans</strong> la dématérialisation du contenu musical et <strong>dans</strong><br />

l’accès à celui-ci ont provoqué une explosion du nombre <strong>de</strong> titres disponib<strong>les</strong>. Par<br />

exemple, en juillet 2012, on compte plus <strong>de</strong> 23 millions <strong>de</strong> titres [Spo12] sur une<br />

plateforme <strong>de</strong> streaming telle que Spotify 2 , et plus <strong>de</strong> 28 millions <strong>de</strong> titres [Dig12]<br />

pour <strong>les</strong> plateformes <strong>de</strong> téléchargement tel<strong>les</strong> que l’Itunes Store 3 . La mise à disposition<br />

d’une telle quantité <strong>de</strong> morceaux a ceci <strong>de</strong> paradoxal qu’elle est décorrélée<br />

du temps pratique d’écoute, et peut même dépasser en temps cumulé l’échelle <strong>de</strong><br />

plusieurs vies humaines [CVG + 08].<br />

1.1 Recherche d’Informations Musica<strong>les</strong><br />

Le constat d’une telle profusion <strong>de</strong> l’information musicale a incité le développement<br />

<strong>de</strong> métho<strong>de</strong>s pour permettre d’organiser, <strong>de</strong> trier et <strong>de</strong> parcourir ces bases <strong>de</strong><br />

données suivant <strong>de</strong>s critères musicaux suffisamment pertinents pour permettre <strong>de</strong><br />

1. http://rmd.cite-musique.fr/observatoire/<br />

2. http://www.spotify.com<br />

3. http://www.apple.com/fr/itunes/whats-on/#music


6 Chapitre 1 : Contexte<br />

(i) Trouver toutes <strong>les</strong> œuvres d’un compositeur donné<br />

(ii) Trouver tous <strong>les</strong> enregistrements d’un interprète donné<br />

(iii) Trouver le titre d’une chanson à partir <strong>de</strong> quelques paro<strong>les</strong>,<br />

ou vice-versa<br />

Fig. 1.1 – Exemp<strong>les</strong> <strong>de</strong> requêtes adaptées à l’approche par métadonnées (selon<br />

[Dow03]).<br />

discriminer <strong>les</strong> quelques titres qui intéresseront un utilisateur donné. La Recherche<br />

d’Informations Musica<strong>les</strong>, ou Music Information Retrieval, rassemble ces métho<strong>de</strong>s.<br />

1.1.1 Recherche basée contexte<br />

À l’heure actuelle, la gran<strong>de</strong> majorité <strong>de</strong>s dispositifs <strong>de</strong> lecture permet d’organiser<br />

et <strong>de</strong> chercher à travers <strong>de</strong>s collections musica<strong>les</strong> à partir d’informations<br />

éditoria<strong>les</strong>, tel<strong>les</strong> que le titre, l’artiste, l’album, le numéro <strong>de</strong> piste ou encore la date<br />

<strong>de</strong> parution [CVG + 08, Dow03, Par06b]. Ces informations sont parfois enrichies <strong>de</strong><br />

données complémentaires comme la localisation <strong>de</strong> l’enregistrement ou le lien hypertexte<br />

menant au site internet du compositeur. Ces métadonnées, juxtaposées à<br />

l’information musicale, fournissent <strong>de</strong>s <strong>de</strong>scriptions annexes au contenu musical luimême,<br />

et sont <strong>de</strong>stinées à in<strong>de</strong>xer facilement <strong>les</strong> titres afin <strong>de</strong> <strong>les</strong> retrouver aisément<br />

sur <strong>les</strong> plateformes internet, en magasin ou encore au sein <strong>de</strong> sa propre bibliothèque<br />

musicale. Ainsi, leur spécification permet par exemple <strong>de</strong> répondre aux requêtes<br />

indiquées en Figure 1.1.<br />

Dans le cas <strong>de</strong>s plateformes <strong>de</strong> diffusion, par exemple, et contrairement aux<br />

collections personnel<strong>les</strong>, il est très probable qu’un utilisateur donné ne connaisse<br />

qu’une petite partie <strong>de</strong>s morceaux accessib<strong>les</strong>. Or, bien que l’étiquetage par métadonnées<br />

présente un intérêt évi<strong>de</strong>nt pour retrouver directement un titre dont<br />

on connaît précisément <strong>les</strong> caractéristiques, l’approche tombe vite en défaut lorsqu’il<br />

s’agit, par exemple, <strong>de</strong> découvrir <strong>de</strong> nouveaux morceaux. Dans un système<br />

<strong>de</strong> recherche contextuel, on formule en effet l’hypothèse qu’un utilisateur connaît<br />

et est capable d’expliciter la métainformation recherchée. Les requêtes citées en Figure<br />

1.1 s’avèrent non pertinentes si le compositeur, le titre et l’album sont inconnus<br />

<strong>de</strong> l’utilisateur. Ainsi, <strong>les</strong> possibilités offertes à l’utilisateur pour i<strong>de</strong>ntifier <strong>de</strong>s titres<br />

musicalement proches s’avèrent fortement limitées en n’employant que cette simple<br />

métainformation.<br />

L’apparition <strong>de</strong> bases <strong>de</strong> données <strong>de</strong> l’ordre <strong>de</strong> centaines <strong>de</strong> milliers, voire <strong>de</strong> millions<br />

<strong>de</strong> titres a donc amené le besoin <strong>de</strong> développer <strong>de</strong> nouvel<strong>les</strong> technologies afin<br />

<strong>de</strong> permettre une interaction plus aisée et plus significative avec une telle quantité<br />

d’information, en particulier pour découvrir <strong>de</strong> nouveaux titres. L’approche la plus<br />

utilisée à l’heure actuelle consiste à enrichir l’ensemble <strong>de</strong>s métadonnées caractérisant<br />

<strong>les</strong> morceaux <strong>de</strong> musique, en fournissant par exemple <strong>de</strong>s étiquettes culturel<strong>les</strong>,<br />

subjectives, permettant <strong>de</strong> rapprocher <strong>les</strong> morceaux en fonction <strong>de</strong> traits musicaux<br />

communs. Ainsi, <strong>de</strong>s outils tels que All Music Gui<strong>de</strong> 1 , Gracenote 2 ou encore MusicBrainz<br />

3 sont en mesure <strong>de</strong> fournir une catégorisation <strong>de</strong>s morceaux <strong>de</strong> musique<br />

1. http://www.allmusic.com<br />

2. http://www.gracenote.com<br />

3. http://www.musicbrainz.com


1.1 Recherche d’Informations Musica<strong>les</strong> 7<br />

(i) I<strong>de</strong>ntifier un morceau pouvant intéresser un utilisateur à partir<br />

<strong>de</strong>s préférences <strong>de</strong> son entourage<br />

(ii) I<strong>de</strong>ntifier un ensemble <strong>de</strong> morceaux du même genre musical<br />

à partir <strong>de</strong>s habitu<strong>de</strong>s d’un groupe <strong>de</strong> personnes<br />

(iii) I<strong>de</strong>ntifier <strong>de</strong>s artistes similaires à partir <strong>de</strong> statistiques<br />

d’écoute<br />

Fig. 1.2 – Exemp<strong>les</strong> <strong>de</strong> requêtes adaptées à l’approche sociale (adapté <strong>de</strong> [SK09]).<br />

à partir <strong>de</strong> centaines d’étiquettes subjectives, ou tags, attribuées par <strong>de</strong>s experts<br />

et/ou <strong>de</strong>s utilisateurs. Ces étiquettes peuvent concerner différents aspects liés au<br />

contexte <strong>de</strong> l’œuvre, à <strong>de</strong>s éléments culturels ou encore à l’émotion ressentie à son<br />

écoute, comme le style, l’humeur, le contexte d’écoute favori, etc. [KSM + 10, SK09].<br />

El<strong>les</strong> constituent également <strong>de</strong>s métadonnées qui sont adjointes au contenu musical.<br />

Bien que très largement utilisée à l’heure actuelle, cette approche souffre <strong>de</strong><br />

plusieurs limitations qui la ren<strong>de</strong>nt difficile à mettre en pratique. D’abord, une<br />

telle prolifération du contenu musical suppose un effort considérable d’annotation<br />

manuelle <strong>dans</strong> le cas <strong>de</strong> l’annotation <strong>de</strong> métadonnées, qu’il s’agisse <strong>de</strong> fournir <strong>de</strong>s<br />

informations éditoria<strong>les</strong> ou <strong>de</strong>s étiquettes subjectives. Ainsi, pour le service <strong>de</strong> webradios<br />

automatique Pandora 1 qui se base sur une large source <strong>de</strong> métadonnées<br />

développée <strong>dans</strong> le cadre du Music Genome Project, la durée d’annotation d’un<br />

nouveau morceau par un expert est estimée entre 20 et 30 minutes [CVG + 08]. À<br />

l’échelle <strong>de</strong>s plus gran<strong>de</strong>s bases <strong>de</strong> données audionumériques, une telle annotation<br />

doit alors être effectuée par <strong>de</strong> nombreux individus, rendant l’approche extrêmement<br />

coûteuse et risquant <strong>de</strong> générer une certaine variabilité <strong>de</strong> la qualité <strong>de</strong>s annotations<br />

subjectives [CVG + 08, Fre06].<br />

Pour contourner ce problème et permettre un accès plus large aux bases <strong>de</strong> données<br />

musica<strong>les</strong>, une approche récente consiste à considérer l’information musicale<br />

<strong>dans</strong> son contexte social d’utilisation [SK09]. Dans cette approche, <strong>les</strong> préférences<br />

musica<strong>les</strong> <strong>de</strong> la masse sont appliquées à l’individu. Par exemple, en analysant automatiquement<br />

<strong>les</strong> statistiques d’écoute et en <strong>les</strong> combinant à <strong>de</strong>s métadonnées<br />

indiquées par la communauté d’utilisateurs, le système LastFM 2 est capable d’extrapoler<br />

<strong>les</strong> morceaux favoris d’un utilisateur et ainsi <strong>de</strong> découvrir <strong>de</strong> nouveaux<br />

titres. L’utilisation <strong>de</strong> contenu extrait <strong>de</strong> moteurs <strong>de</strong> recherche [WL02], l’analyse <strong>de</strong><br />

listes <strong>de</strong> lecture [PWL01] ou encore la prise en compte <strong>de</strong>s statistiques d’utilisation<br />

<strong>de</strong> réseaux pair-à-pair [EWBL02] sont d’autres exemp<strong>les</strong> <strong>de</strong> stratégies basées sur le<br />

contexte pour établir <strong>de</strong>s mesures <strong>de</strong> similarité au sein <strong>de</strong> gran<strong>de</strong>s bases <strong>de</strong> données<br />

musica<strong>les</strong>. La Figure 1.2 illustre plusieurs exemp<strong>les</strong> <strong>de</strong> requêtes pouvant être<br />

satisfaites par une approche considérant le contexte social d’écoute.<br />

Cette approche est particulièrement développée à travers une intégration sur<br />

<strong>de</strong>s réseaux sociaux spécifiques tels que SoundCloud 3 ou Exfm 4 , notamment, où<br />

l’échange et le partage <strong>de</strong> musique permettent d’enrichir le parcours <strong>de</strong> gran<strong>de</strong>s<br />

bases <strong>de</strong> données audionumériques. Cependant, plusieurs limites sont liées à cette<br />

logique : ici, le parcours <strong>de</strong> bases <strong>de</strong> données est motivé par imitation d’un compor-<br />

1. http://www.pandora.com (disponible uniquement <strong>de</strong>puis <strong>les</strong> États-Unis)<br />

2. http://www.lastfm.com<br />

3. http://www.soundcloud.com<br />

4. http://www.ex.fm


8 Chapitre 1 : Contexte<br />

(i) Trouver toutes <strong>les</strong> reprises, ou enregistrements par différents<br />

artistes, d’une même chanson d’origine<br />

(ii) I<strong>de</strong>ntifier tous <strong>les</strong> morceaux dont l’orchestration comporte un<br />

ensemble donné d’instruments <strong>de</strong> musique<br />

(iii) I<strong>de</strong>ntifier tous <strong>les</strong> titres <strong>de</strong> même style, ou <strong>de</strong> même forme<br />

qu’un morceau donné<br />

(iv) Étant donné une mélodie, l’air d’une chanson ou le thème<br />

d’une symphonie par exemple, i<strong>de</strong>ntifier le morceau d’origine<br />

(v) Ne pas jouer le refrain à la lecture d’un morceau<br />

(vi) Masquer la voix du chanteur lors <strong>de</strong> l’écoute d’un morceau<br />

Fig. 1.3 – Exemp<strong>les</strong> <strong>de</strong> requêtes adaptées à l’approche basée sur le contenu (selon<br />

[Dow03] et [Par06a]).<br />

tement social, et non par la donnée ou métadonnée du contenu numérique. L’aspect<br />

social <strong>de</strong> la découverte <strong>de</strong> nouveaux morceaux est ainsi intrinsèquement lié à la<br />

popularité <strong>de</strong>s morceaux <strong>de</strong> musique, donnant par exemple plus <strong>de</strong> crédit à un morceau<br />

présent <strong>dans</strong> la base <strong>de</strong> données <strong>de</strong>puis une longue durée qu’à un morceau<br />

qui vient d’être publié (effet <strong>de</strong> démarrage à froid, ou cold start). Cette approche<br />

fait également l’hypothèse d’une certaine uniformité du goût musical à travers <strong>les</strong><br />

utilisateurs. De ce fait, la connaissance musicale d’un groupe est partagée entre ses<br />

membres, la découverte d’œuvres se limitant à cette connaissance commune.<br />

Plus généralement, <strong>les</strong> approches basées sur le contexte <strong>de</strong>s œuvres musica<strong>les</strong><br />

présentent plusieurs limites conceptuel<strong>les</strong> qui ont motivé le développement <strong>de</strong> métho<strong>de</strong>s<br />

alternatives <strong>de</strong> recherche d’information. L’inconvénient majeur est une fréquente<br />

inadéquation <strong>de</strong>s métadonnées, liées au contexte, et à la recherche d’information<br />

souhaitée, souvent liée au contenu. Les données contextuel<strong>les</strong> peuvent ainsi<br />

s’avérer non pertinentes, non fiab<strong>les</strong> ou incomplètes [Ori06]. L’approche basée sur<br />

le contenu musical permet <strong>de</strong> contourner ces problèmes liés à l’insuffisance <strong>de</strong>s métadonnées<br />

en permettant un parcours <strong>de</strong> la donnée musicale indépendamment <strong>de</strong><br />

son contexte.<br />

1.1.2 Recherche basée contenu<br />

Une solution au problème <strong>de</strong> parcours <strong>de</strong> gran<strong>de</strong>s bases <strong>de</strong> données musica<strong>les</strong><br />

consiste à décrire la musique par son contenu musical même, et non plus par <strong>de</strong>s<br />

informations relatives au contexte. Une telle approche possè<strong>de</strong> l’avantage crucial <strong>de</strong><br />

donner une <strong>de</strong>scription automatique pertinente sur le plan musical. La recherche<br />

basée contenu s’intéresse à l’analyse automatique du contenu audionumérique selon<br />

<strong>de</strong>s critères musicaux, tels que <strong>les</strong> instruments, <strong>les</strong> notes ou <strong>les</strong> rythmes présents<br />

<strong>dans</strong> un enregistrement. Elle se concentre en particulier sur la détermination <strong>de</strong>s<br />

<strong>structures</strong> musica<strong>les</strong> abstraites encodées <strong>dans</strong> <strong>les</strong> signaux [Par06a], et permet ainsi<br />

<strong>de</strong> nouvel<strong>les</strong> interactions avec l’information musicale. La Figure 1.3 présente un<br />

ensemble <strong>de</strong> requêtes pouvant être satisfaites en employant une approche basée sur<br />

le contenu musical.<br />

La recherche basée sur le contenu musical s’effectue sur <strong>de</strong>s critères <strong>de</strong> caractérisation<br />

<strong>de</strong>s morceaux <strong>de</strong> musique déduits du support <strong>de</strong> codage musical, tel que


1.1 Recherche d’Informations Musica<strong>les</strong> 9<br />

le signal audionumérique. Par conséquent, elle ne requiert pas d’effort d’annotation<br />

manuelle et reste indépendante <strong>de</strong> la popularité <strong>de</strong>s morceaux <strong>de</strong> musique. De ce<br />

fait, l’approche par le contenu élargit le champ d’interaction et <strong>de</strong> parcours avec<br />

<strong>de</strong>s gran<strong>de</strong>s bases <strong>de</strong> données musica<strong>les</strong> en ouvrant la recherche d’information à différentes<br />

famil<strong>les</strong> d’applications. Les paragraphes qui suivent décrivent brièvement<br />

plusieurs cas d’utilisation pratique d’une approche basée contenu.<br />

I<strong>de</strong>ntification et requête par l’exemple<br />

Les techniques dites d’i<strong>de</strong>ntification audionumérique, ou fingerprinting, cherchent<br />

à associer au contenu audionumérique d’une œuvre une empreinte (ou signature) liée<br />

au contenu musical, qui permet <strong>de</strong> l’i<strong>de</strong>ntifier <strong>de</strong> manière unique au sein d’une base<br />

<strong>de</strong> données [CBKH05, GMS12]. Par exemple, le système Shazam 1 [Wan03] permet<br />

à un utilisateur équipé d’un téléphone mobile d’obtenir le titre d’un morceau en<br />

cours <strong>de</strong> lecture au bout <strong>de</strong> quelques secon<strong>de</strong>s d’enregistrement, même en présence<br />

d’un environnement bruyant ou d’un système d’enregistrement peu performant. Les<br />

systèmes d’i<strong>de</strong>ntification audionumérique commencent par isoler un ensemble <strong>de</strong> caractéristiques<br />

du signal avant <strong>de</strong> comparer cel<strong>les</strong>-ci à une base <strong>de</strong> données située<br />

sur un serveur central. Même s’ils peuvent permettre certaines variations <strong>dans</strong> la<br />

qualité <strong>de</strong> l’enregistrement, <strong>les</strong> techniques <strong>de</strong> fingerprinting à proprement parler ne<br />

sont en mesure d’i<strong>de</strong>ntifier un extrait joué que si l’exacte copie est présente <strong>dans</strong><br />

la base <strong>de</strong> données centralisée. La technologie d’i<strong>de</strong>ntification est aujourd’hui particulièrement<br />

développée <strong>dans</strong> une optique <strong>de</strong> gestion <strong>de</strong>s droits numériques, sur <strong>de</strong>s<br />

plateformes <strong>de</strong> lecture <strong>de</strong> flux vidéo par exemple [CE10].<br />

La requête par l’exemple permet à un utilisateur <strong>de</strong> rechercher une œuvre musicale<br />

à partir d’un extrait audionumérique qui présente un nombre significatif <strong>de</strong><br />

ressemblances avec l’œuvre originale. Par exemple, <strong>les</strong> systèmes <strong>de</strong> requête par fredonnement<br />

proposent à un utilisateur <strong>de</strong> chanter ou fredonner quelques secon<strong>de</strong>s<br />

d’une mélodie, puis essaient d’i<strong>de</strong>ntifier le morceau d’où provient celle-ci [DBP + 07].<br />

Ainsi, le programme SoundHound 2 permet d’effectuer une telle recherche par fredonnement<br />

à partir d’un appareil mobile en enregistrant et comparant <strong>les</strong> extraits<br />

fredonnés par <strong>les</strong> différents utilisateurs.<br />

Classification<br />

La classification <strong>de</strong> morceaux <strong>de</strong> musique intègre <strong>de</strong>s techniques d’i<strong>de</strong>ntification<br />

<strong>de</strong> similarité musicale afin <strong>de</strong> former un nombre fini <strong>de</strong> groupes ou classes<br />

<strong>de</strong> similarité. Au niveau applicatif, <strong>les</strong> algorithmes d’estimation <strong>de</strong> similarité musicale<br />

sont presque systématiquement adjoints à <strong>de</strong>s techniques <strong>de</strong> classification pour<br />

i<strong>de</strong>ntifier une caractéristique <strong>de</strong> haut niveau <strong>de</strong> l’œuvre musicale. Par exemple,<br />

<strong>les</strong> travaux du projet CUIDADO [VHP02] visent notamment à qualifier <strong>de</strong> manière<br />

automatique <strong>de</strong>s échantillons sonores en fonction <strong>de</strong> leur instrumentation (voir<br />

par exemple [HBPD03]), afin <strong>de</strong> fournir <strong>de</strong>s <strong>structures</strong> <strong>de</strong> <strong>de</strong>scription pertinentes<br />

permettant d’assister la production sonore. L’i<strong>de</strong>ntification du compositeur d’une<br />

œuvre [PS01], le regroupement par style [TC02] ou encore l’inférence <strong>de</strong> concepts<br />

1. http://www.shazam.com<br />

2. http://www.soundhound.com


10 Chapitre 1 : Contexte<br />

affectifs tels que l’humeur [LLZ06] ou l’émotion [KSM + 10] sont d’autres exemp<strong>les</strong><br />

d’applications à la classification basée sur le contenu musical.<br />

Recherche par similarité musicale<br />

D’une manière générale, la perception humaine <strong>de</strong> la musique nous permet souvent<br />

d’estimer facilement et implicitement si <strong>de</strong>ux morceaux <strong>de</strong> musique sont similaires.<br />

Un tel jugement est basé sur <strong>de</strong> nombreuses facettes <strong>de</strong> l’information musicale<br />

[Dow03], liées à la fois à <strong>de</strong>s critères éditoriaux (titre, artiste), culturels (style,<br />

langue), musicologiques (mélodie, harmonie, structure), perceptifs (énergie, texture)<br />

ou encore cognitifs (expérience, mémoire) [Jeh05a, AP02, HAE03]. La similarité musicale<br />

consiste à estimer la ressemblance entre plusieurs œuvres à partir <strong>de</strong> critères<br />

musicaux. Face à la complexité <strong>de</strong> la perception <strong>de</strong> similarité, la recherche basée<br />

contenu n’utilise que le signal audionumérique pour analyser <strong>les</strong> ressemblances. La<br />

recommandation d’œuvres similaires ou encore la détection <strong>de</strong> reprises ou <strong>de</strong> plagiats<br />

sont <strong>de</strong>s exemp<strong>les</strong> d’applications <strong>de</strong> l’estimation <strong>de</strong> la similarité musicale.<br />

1.2 Répétition musicale<br />

La répétition musicale est une notion centrale pour la recherche d’informations<br />

musica<strong>les</strong> basée sur le contenu. La musique est une information structurée autour <strong>de</strong><br />

caractéristiques perçues par l’oreille humaine. En fonction <strong>de</strong> son expertise musicale,<br />

un auditeur est en mesure <strong>de</strong> percevoir, par exemple, une mélodie chantée, une<br />

ligne d’accompagnement instrumentale, une partie rythmique, un accord etc. Les<br />

ressemblances et contrastes entre ces différentes entités sonores forment un ensemble<br />

<strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> dont l’apparition, la transformation ou l’évolution décrivent<br />

tout au long d’un morceau une architecture spécifique à l’œuvre musicale [Ong07].<br />

Middleton [Mid99] constate cet aspect fondamental <strong>de</strong> la répétition en musique :<br />

« La répétition joue un rôle particulièrement important en musique - quel<br />

que soit le style musical considéré. Dans le cas <strong>de</strong> la musique populaire,<br />

<strong>les</strong> procédés <strong>de</strong> répétitions sont particulièrement développés. »<br />

À l’image d’un bâtiment, un morceau <strong>de</strong> musique est construit selon une certaine<br />

architecture. Que celle-ci soit explicite ou implicite, elle est présente <strong>dans</strong> la<br />

quasi-totalité <strong>de</strong>s sty<strong>les</strong> <strong>de</strong> musique. Ainsi, Levitin [Lev08, p.167] explique que la<br />

mémorisation <strong>de</strong>s motifs musicaux et leur agencement jouent un rôle prépondérant<br />

<strong>dans</strong> notre perception <strong>de</strong> la musique :<br />

« La musique est basée sur la répétition. La musique fonctionne parce<br />

que nous retenons <strong>les</strong> tons que l’on vient d’entendre et <strong>les</strong> mettons en<br />

relation avec ceux qui sont en train d’être joués. Ces groupes <strong>de</strong> tons –<br />

phrases – peuvent survenir plus tard <strong>dans</strong> le morceau <strong>dans</strong> une variation<br />

ou une transposition qui excite notre système <strong>de</strong> mémoire en même<br />

temps qu’il active nos centres émotionnels. [...] La répétition, lorsqu’elle<br />

est effectuée avec talent par un compositeur exercé, est émotionnellement<br />

satisfaisante pour notre cerveau et rend l’expérience d’écoute aussi<br />

plaisante qu’elle peut l’être. »<br />

Dans cet extrait, Levitin [Lev08] souligne également l’aspect approché <strong>de</strong> la répétition<br />

<strong>de</strong> motifs musicaux, qui peuvent <strong>dans</strong> son exemple être altérés par <strong>de</strong>s


1.2 Répétition musicale 11<br />

variations ou transpositions. Les répétitions musica<strong>les</strong> ne sont pas nécessairement<br />

effectuées <strong>de</strong> manière exacte. Un motif répété peut ainsi avoir subi une série d’altérations<br />

musica<strong>les</strong> telle qu’une transposition <strong>de</strong> ses notes, une modification <strong>de</strong> sa<br />

durée, la suppression ou l’ajout <strong>de</strong> notes etc. L’altération peut également être liée<br />

à <strong>de</strong>s paramètres acoustiques, dus par exemple à la gran<strong>de</strong> difficulté à reproduire<br />

<strong>de</strong>s sons exactement i<strong>de</strong>ntiques sur <strong>les</strong> instruments <strong>de</strong> musique acoustiques. Les variations<br />

résultantes <strong>dans</strong> <strong>les</strong> motifs musicaux peuvent être volontaires, c’est-à-dire<br />

souhaitées par le compositeur ou l’interprète du morceau <strong>de</strong> musique, ou involontaires,<br />

dues à <strong>de</strong>s limites physiques ou <strong>de</strong>s éléments sonores imprévus. Dans <strong>les</strong> <strong>de</strong>ux<br />

cas, cette gran<strong>de</strong> variété susceptible d’apparaître au sein <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

implique <strong>de</strong> considérer <strong>de</strong>s techniques d’analyse robustes à <strong>de</strong> tel<strong>les</strong> inexactitu<strong>de</strong>s.<br />

La musique occi<strong>de</strong>ntale, en particulier, est composée <strong>de</strong> nombreuses <strong>structures</strong><br />

<strong>répétitives</strong>. Par exemple, <strong>les</strong> termes <strong>de</strong> “couplet” ou “refrain” désignent <strong>de</strong>s sections<br />

fréquemment répétées <strong>dans</strong> <strong>les</strong> morceaux <strong>de</strong> musique populaire. La musique<br />

classique compte également un large vocabulaire <strong>de</strong> sections répétées pouvant être<br />

caractéristiques <strong>de</strong> métho<strong>de</strong>s <strong>de</strong> composition, sous <strong>les</strong> noms <strong>de</strong> “motif”, “thème”,<br />

“phrase”, “ca<strong>de</strong>nce” ou “mouvement”, par exemple [Ste79]. Bien que ces termes ne<br />

soient pas forcément définis uniquement par leur caractère répétitif, leur récurrence<br />

joue un rôle central <strong>dans</strong> la perception <strong>de</strong> l’œuvre musicale [Esc88].<br />

1.2.1 Enjeux et intérêt<br />

<strong>Analyse</strong>r la structuration d’un morceau <strong>de</strong> musique revient à décrire l’organisation<br />

temporelle <strong>de</strong>s éléments musicaux qui la composent. L’analyse <strong>de</strong>s répétitions<br />

d’un morceau <strong>de</strong> musique fournit ainsi une sorte <strong>de</strong> “dé-composition”, abstraite, <strong>de</strong>s<br />

processus musicaux mis en œuvre au long <strong>de</strong> ce morceau. Par exemple, l’aspect<br />

répétitif du Boléro <strong>de</strong> Ravel relève notamment d’un choix <strong>de</strong> composition, l’auteur<br />

souhaitant donner une impression <strong>de</strong> « Danse d’un mouvement très modéré et<br />

constamment uniforme » [Esc88]. Dans le cas idéal d’une analyse parfaite <strong>de</strong> la répétition,<br />

<strong>les</strong> <strong>structures</strong> i<strong>de</strong>ntifiées correspon<strong>de</strong>nt alors, <strong>dans</strong> une certaine mesure, aux<br />

motifs arrangés par le compositeur. Dès lors, <strong>les</strong> répétitions i<strong>de</strong>ntifiées <strong>dans</strong> un morceau<br />

prennent une signification musicale forte reflétant sa composition. L’intérêt <strong>de</strong><br />

l’analyse <strong>de</strong> cel<strong>les</strong>-ci est d’exploiter directement cette signification, afin par exemple<br />

<strong>de</strong> restructurer le morceau <strong>de</strong> manière automatique et cohérente, d’i<strong>de</strong>ntifier une<br />

forme caractéristique <strong>de</strong> celui-ci, <strong>de</strong> le simplifier ou <strong>de</strong> simplement enrichir sa <strong>de</strong>scription<br />

analytique. La suite <strong>de</strong> cette section décrit plus en détail ces différentes<br />

applications.<br />

Enrichissement du contenu audio<br />

La possibilité d’analyser et <strong>de</strong> repérer <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> ouvre un large<br />

éventail d’applications. Détecter <strong>les</strong> répétitions est d’abord utile à l’enrichissement<br />

du parcours <strong>de</strong> contenu musical, en permettant par exemple à un utilisateur<br />

d’écouter un morceau <strong>de</strong> musique en évitant certaines sections [Got03, Vin05].<br />

Bien que la visualisation <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> ne soit pas encore proposée sur<br />

<strong>les</strong> plateformes commercia<strong>les</strong>, quelques outils développés par <strong>de</strong>s laboratoires <strong>de</strong><br />

recherche ont été proposés à cet effet, dont SemanticHIFI [Vin05], SmartMusi-


12 Chapitre 1 : Contexte<br />

cKIOSK [Got03], ou encore plus récemment Songle 1 [GYF + 11]. Pour une revue<br />

<strong>de</strong>s supports qui existent pour la visualisation <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>, le lecteur<br />

est invité à consulter [BPMW12].<br />

Une telle analyse peut également apporter un support à la manipulation du son<br />

<strong>dans</strong> différents contextes, en fournissant par exemple à l’ingénieur du son un outil<br />

<strong>de</strong> traitement permettant d’assurer une cohérence musicale, à l’image <strong>de</strong> [TC99],<br />

ou encore en aidant le concepteur lumière à synchroniser avec précision <strong>de</strong>s effets<br />

visuels [KAC05].<br />

Restructuration du signal<br />

La connaissance <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> <strong>dans</strong> un morceau <strong>de</strong> musique peut<br />

être utilisée <strong>dans</strong> un objectif <strong>de</strong> recomposition du morceau. Bien que peu considérée<br />

pour le signal audio musical, cette application est fréquemment utilisée <strong>dans</strong><br />

le cas <strong>de</strong> l’image ou <strong>de</strong> la vidéo, et fait appel à la notion <strong>de</strong> textures [SSSE00,<br />

Ash01]. En analysant <strong>les</strong> <strong>structures</strong> <strong>répétitives</strong> d’un extrait vidéo [SSSE00] ou d’une<br />

image [Ash01, EL99], <strong>les</strong> textures i<strong>de</strong>ntifiées permettent <strong>de</strong> reconstruire <strong>de</strong>s sections<br />

<strong>de</strong> l’objet considéré, <strong>de</strong> le prolonger (<strong>dans</strong> le temps pour la vidéo ou <strong>dans</strong> l’espace<br />

pour l’image), ou encore <strong>de</strong> synthétiser <strong>de</strong> nouveaux objets à partir <strong>de</strong> ces <strong>structures</strong>.<br />

Bien que la notion <strong>de</strong> texture soit également introduite <strong>dans</strong> le cadre <strong>de</strong>s<br />

objets sonores [LWZ04b], elle est rarement utilisée <strong>dans</strong> un but <strong>de</strong> recomposition<br />

d’œuvres musica<strong>les</strong>. L’analyse <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> peut cependant permettre<br />

<strong>de</strong> restaurer un signal audio ou encore <strong>de</strong> le prolonger en i<strong>de</strong>ntifiant <strong>les</strong> répétitions<br />

<strong>les</strong> plus attendues par un auditeur [Hur06], comme proposé par exemple par Jehan<br />

[Jeh05a]. Une utilisation <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> pour cette application est<br />

proposée en Section 4.1 du Chapitre 4.<br />

I<strong>de</strong>ntification <strong>de</strong> formes musica<strong>les</strong><br />

Certains morceaux <strong>de</strong> musique sont caractérisés par l’agencement <strong>de</strong> segments<br />

structurels caractéristiques, ou forme musicale. C’est le cas par exemple <strong>de</strong>s œuvres<br />

<strong>de</strong> formes sonate, rondo ou menuet, dont la composition suit généralement une série<br />

<strong>de</strong> règ<strong>les</strong> structurel<strong>les</strong> précises [Eme98]. L’analyse <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> peut<br />

ainsi être appliquée à la classification automatique <strong>de</strong> tels morceaux en fonction <strong>de</strong><br />

l’agencement <strong>de</strong> leurs répétitions [MK07]. De plus, la structuration répétitive <strong>de</strong>s<br />

morceaux <strong>de</strong> musique peut être employée afin <strong>de</strong> comparer plusieurs morceaux en ne<br />

tenant compte que <strong>de</strong> leur aspect répétitif. Cette approche, proposée <strong>dans</strong> plusieurs<br />

étu<strong>de</strong>s récentes [MRH09, Bel11, GSMA12], s’avère pertinente pour i<strong>de</strong>ntifier <strong>de</strong>s<br />

ressemblances <strong>de</strong> composition <strong>de</strong> morceaux dont <strong>les</strong> répétitions sont proches alors<br />

que le contenu musical-même peut fortement varier.<br />

Résumé musical et thumbnailing<br />

L’analyse <strong>de</strong> la répétition permet également d’i<strong>de</strong>ntifier <strong>de</strong>s sections jugées représentatives<br />

d’une œuvre musicale, appelées thumbnails [LC00, BW05, AS02]. Les extraits<br />

audio sont utilisés par <strong>les</strong> plateformes <strong>de</strong> téléchargement, tel<strong>les</strong> qu’Amazon 2 ,<br />

1. http://www.songle.jp<br />

2. http://www.amazon.fr


1.3 Algorithmique <strong>de</strong>s <strong>séquences</strong> musica<strong>les</strong> 13<br />

qui proposent aux utilisateurs d’écouter une portion audio avant l’achat. La mise<br />

en place d’une analyse <strong>de</strong>s répétitions permettrait, pour un tel système, <strong>de</strong> sélectionner<br />

le segment le plus caractéristique du morceau souhaité, et ainsi donner un<br />

aperçu représentatif <strong>de</strong> l’œuvre à l’acheteur potentiel. De tels extraits audio peuvent<br />

aussi être utilisés afin d’i<strong>de</strong>ntifier rapi<strong>de</strong>ment <strong>de</strong>s similarités entre morceaux <strong>de</strong> musique<br />

[GOH06], comme expliqué plus précisément en Section 4.2.<br />

En outre, cette analyse permet en i<strong>de</strong>ntifiant <strong>les</strong> processus compositionnels mis<br />

en jeu <strong>de</strong> générer un résumé musical <strong>de</strong> l’œuvre [Pee04]. Dans le cas <strong>de</strong> répétitions<br />

très similaires et particulièrement récurrentes, l’analyse structurelle peut également<br />

être utilisée pour factoriser <strong>de</strong>s sections <strong>de</strong> morceaux <strong>de</strong> musique et ainsi compresser<br />

sensiblement leur représentation [Rao04].<br />

Amélioration <strong>de</strong> métho<strong>de</strong>s d’analyse<br />

La connaissance <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> au sein d’un morceau <strong>de</strong> musique peut<br />

également être employée comme technique d’amélioration <strong>de</strong> métho<strong>de</strong>s d’analyse<br />

annexes. Par exemple, Mauch et al. [MND09] parviennent à améliorer <strong>de</strong> manière<br />

significative une métho<strong>de</strong> d’analyse <strong>de</strong>s accords notamment en prenant en compte<br />

la répétition <strong>de</strong> sections i<strong>de</strong>ntifiées <strong>dans</strong> <strong>de</strong>s morceaux <strong>de</strong> musique. Rocher [Roc11]<br />

relève également une augmentation <strong>de</strong> la précision <strong>de</strong> son système d’i<strong>de</strong>ntification<br />

<strong>de</strong>s accords en prenant en compte <strong>les</strong> <strong>structures</strong> <strong>répétitives</strong> proposées <strong>dans</strong> le cadre<br />

<strong>de</strong> cette thèse.<br />

1.3 Algorithmique <strong>de</strong>s <strong>séquences</strong> musica<strong>les</strong><br />

L’analyse du signal audio ainsi que sa <strong>de</strong>scription musicale automatique sont<br />

<strong>de</strong>s procédés complexes débouchant sur <strong>de</strong> nombreuses applications, tel<strong>les</strong> que cel<strong>les</strong><br />

présentées <strong>dans</strong> <strong>les</strong> sections précé<strong>de</strong>ntes. Malgré une certaine progression <strong>de</strong> la recherche<br />

en analyse du signal au cours <strong>de</strong>s <strong>de</strong>rnières années, l’efficacité <strong>de</strong> l’analyse<br />

automatique du signal audio n’atteint pas à ce jour la performance <strong>de</strong> l’oreille<br />

humaine [DG09]. Devant l’incapacité à représenter <strong>de</strong> manière précise un critère<br />

musical, il semble inenvisageable <strong>de</strong> représenter <strong>de</strong> manière fiable toute abstraction<br />

musicale <strong>de</strong> plus haut niveau, en particulier la structuration d’un morceau <strong>de</strong><br />

musique.<br />

Cependant, la représentation <strong>de</strong> la musique sous forme <strong>de</strong> <strong>séquences</strong> permet<br />

<strong>de</strong> contourner cette limitation conceptuelle pour le cas particulier <strong>de</strong> l’analyse <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong>. Tout morceau <strong>de</strong> musique peut être représenté comme une<br />

suite <strong>de</strong> sons organisés <strong>dans</strong> le temps. En pratique, l’analyse automatique du signal<br />

peut fournir une séquence <strong>de</strong> symbo<strong>les</strong> décrivant un aspect particulier <strong>de</strong> la musique.<br />

Dans cette approche, chaque symbole représente une portion <strong>de</strong> signal, <strong>de</strong><br />

durée constante ou variable. La modélisation séquentielle permet alors <strong>de</strong> modéliser<br />

la temporalité <strong>de</strong> la musique : <strong>de</strong>ux symbo<strong>les</strong> se suivant <strong>dans</strong> la séquence correspon<strong>de</strong>nt<br />

à <strong>de</strong>ux instants consécutifs <strong>dans</strong> le signal. En particulier, si le morceau<br />

étudié contient une répétition musicale, alors il est très probable que <strong>les</strong> <strong>séquences</strong><br />

correspondant à celle-ci soient similaires sous réserve d’une fiabilité suffisante <strong>de</strong><br />

la représentation symbolique. Les répétitions musica<strong>les</strong> peuvent ainsi être analysées<br />

même si <strong>les</strong> symbo<strong>les</strong> calculés à partir du signal ne donnent qu’une <strong>de</strong>scription grossière<br />

<strong>de</strong> l’information musicale souhaitée [DG09]. Pour cette raison, la représentation


14 Chapitre 1 : Contexte<br />

<strong>de</strong> la musique sous forme <strong>de</strong> <strong>séquences</strong>, particulièrement privilégiée pour l’analyse<br />

automatique du contenu musical [CS06], est tout à fait adaptée pour l’analyse <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong>. Le Chapitre 2 détaille notre technique d’obtention d’une séquence<br />

représentative d’un critère musical à partir d’un signal audio.<br />

1.3.1 Métho<strong>de</strong>s algorithmiques<br />

Comme détaillé en Section 1.2, la notion <strong>de</strong> répétition en musique sous-entend<br />

une possible variation du contenu musical. Représenter la musique par <strong>de</strong>s <strong>séquences</strong><br />

pour l’analyse <strong>de</strong> la répétition suppose donc <strong>de</strong> considérer <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> comparaison<br />

dites approchées qui soient robustes à certaines variations. Plus précisément,<br />

on sous-entend par le terme approché que le système <strong>de</strong> comparaison permet<br />

d’i<strong>de</strong>ntifier comme similaires <strong>de</strong>s <strong>séquences</strong> présentant un certain nombre <strong>de</strong> symbo<strong>les</strong><br />

différents, et tolère ainsi <strong>de</strong>s erreurs qui peuvent figurer entre <strong>les</strong> <strong>séquences</strong><br />

comparées.<br />

Les problèmes <strong>de</strong> comparaison approchée <strong>de</strong> <strong>séquences</strong> sont étudiés <strong>dans</strong> <strong>de</strong><br />

nombreux contextes applicatifs distincts <strong>de</strong> l’analyse musicale, tels que l’analyse du<br />

texte, la compression <strong>de</strong> données ou encore la bio-informatique [CIR98]. En effet, <strong>de</strong><br />

nombreux objets peuvent être représentés sous forme <strong>de</strong> <strong>séquences</strong> : ainsi, un fichier<br />

texte est une séquence <strong>de</strong> symbo<strong>les</strong> sur un alphabet ASCII, un fichier binaire est<br />

une séquence sur un alphabet d’un nombre fini <strong>de</strong> valeurs possib<strong>les</strong> et un co<strong>de</strong> ADN<br />

est une séquence sur un alphabet <strong>de</strong> quelques symbo<strong>les</strong> représentant <strong>de</strong>s molécu<strong>les</strong><br />

organiques.<br />

En particulier, <strong>les</strong> systèmes <strong>de</strong> comparaison approchée <strong>de</strong> <strong>séquences</strong> sont très<br />

étudiés <strong>dans</strong> le contexte bio-informatique. D’une part, <strong>les</strong> bio-informaticiens manipulent<br />

<strong>de</strong>s données issues d’expérimentations et comportant un certain nombre<br />

d’erreurs. Ainsi, <strong>les</strong> <strong>séquences</strong> moléculaires (l’ADN, l’ARN ou <strong>les</strong> <strong>séquences</strong> d’aci<strong>de</strong>s<br />

aminés pour <strong>les</strong> plus connues) sont susceptib<strong>les</strong> <strong>de</strong> comporter <strong>de</strong>s incohérences loca<strong>les</strong><br />

qui conduisent <strong>les</strong> techniques <strong>de</strong> comparaison à évaluer la similarité avec une<br />

certaine tolérance [Gus97]. D’autre part, ces <strong>séquences</strong> biologiques sont par leur nature<br />

issues <strong>de</strong> processus <strong>de</strong> mutation que <strong>les</strong> techniques <strong>de</strong> comparaison cherchent<br />

à révéler et à modéliser [Gus97]. L’évolution se base sur la réutilisation, la duplication<br />

et la modification <strong>de</strong>s <strong>structures</strong> biologiques existantes [Gus97] ; l’objectif <strong>de</strong><br />

la comparaison <strong>de</strong> <strong>séquences</strong> en bio-informatique est ainsi d’i<strong>de</strong>ntifier ces <strong>structures</strong><br />

<strong>répétitives</strong> afin <strong>de</strong> caractériser <strong>de</strong>s phénomènes biologiques liés à <strong>de</strong> fortes similarités<br />

fonctionnel<strong>les</strong> ou structurel<strong>les</strong>.<br />

Bien que <strong>les</strong> <strong>séquences</strong> moléculaires comparées en bio-informatique et <strong>les</strong> motifs<br />

comparés en analyse musicale n’aient aucun point <strong>de</strong> comparaison sur leur nature,<br />

l’analogie entre <strong>les</strong> <strong>de</strong>ux domaines apparaît lorsque l’on considère la pertinence <strong>de</strong><br />

leur représentation séquentielle et <strong>de</strong> leur structuration répétitive. L’aspect séquentiel<br />

en bio-informatique est lié à la configuration spatiale <strong>de</strong>s molécu<strong>les</strong>, tandis que<br />

l’aspect séquentiel en musique est lié à la configuration temporelle <strong>de</strong>s événements<br />

musicaux. La répétition approchée, quant à elle, est liée à <strong>de</strong>s phénomènes <strong>de</strong> transcription<br />

et <strong>de</strong> mutation mis en jeu <strong>dans</strong> <strong>les</strong> processus biologiques, alors qu’elle est<br />

utilisée en musique pour correspondre à l’organisation implicite par ressemblance <strong>de</strong><br />

notre perception musicale [LJ96, Bre94]. Par conséquent, <strong>les</strong> métho<strong>de</strong>s développées<br />

pour la comparaison approchée <strong>de</strong> <strong>séquences</strong> biologiques ont un grand intérêt pour<br />

l’analyse <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> <strong>dans</strong> <strong>les</strong> <strong>séquences</strong> musica<strong>les</strong>. Les algorithmes


1.3 Algorithmique <strong>de</strong>s <strong>séquences</strong> musica<strong>les</strong> 15<br />

adaptés <strong>de</strong> comparaison <strong>de</strong> <strong>séquences</strong> sont décrits précisément <strong>dans</strong> le Chapitre 3.<br />

1.3.2 Efficacité calculatoire<br />

L’approche basée sur le contenu musical <strong>de</strong>man<strong>de</strong> d’analyser automatiquement<br />

<strong>de</strong>s informations musica<strong>les</strong> <strong>de</strong> haut niveau à partir du signal. Elle implique alors<br />

une capacité calculatoire importante, qui peut s’avérer problématique pour certains<br />

traitements complexes sur <strong>de</strong> gran<strong>de</strong>s bases <strong>de</strong> données.<br />

La requête par fredonnement, ou query by humming, par exemple, est une application<br />

consistant à retrouver automatiquement un morceau <strong>de</strong> musique <strong>dans</strong><br />

une base <strong>de</strong> données à partir d’un extrait chanté, sifflé ou fredonné <strong>de</strong> ce morceau<br />

[DBP + 07]. D’importantes variations peuvent exister entre le morceau original<br />

et l’extrait fourni : <strong>de</strong>s différences <strong>dans</strong> la hauteur <strong>de</strong>s notes chantées, <strong>dans</strong> le rythme<br />

ou même <strong>de</strong>s erreurs <strong>de</strong> chant ajoutant <strong>de</strong>s notes ou en supprimant. La prise en<br />

compte d’un tel faisceau d’altérations possib<strong>les</strong> a un coût calculatoire élevé, l’algorithme<br />

d’analyse <strong>de</strong>vant alors travailler sur <strong>de</strong> nombreux paramètres interdépendants.<br />

Or, le passage à l’échelle <strong>de</strong>s métho<strong>de</strong>s d’analyse, c’est-à-dire l’application<br />

d’une telle requête sur une base <strong>de</strong> données importante, <strong>de</strong> l’ordre <strong>de</strong> milliers voire<br />

<strong>de</strong> millions <strong>de</strong> titres, représente un enjeu crucial pour une utilisation pratique sur<br />

le matériel audio disponible à l’heure actuelle.<br />

Pour cette raison, l’efficacité calculatoire est discutée pour plusieurs <strong>de</strong>s métho<strong>de</strong>s<br />

<strong>de</strong> recherche d’informations basée sur le contenu présentées <strong>dans</strong> cette thèse.<br />

Sur une perspective à long terme, nos métho<strong>de</strong>s ont pour objectif d’être utilisées<br />

sur un grand nombre <strong>de</strong> données. Plusieurs étu<strong>de</strong>s d’optimisation d’algorithmes<br />

ou d’améliorations basées sur <strong>de</strong>s heuristiques proposées <strong>dans</strong> <strong>les</strong> Chapitres 3 et 4<br />

permettent ainsi d’améliorer sensiblement le temps d’analyse <strong>de</strong>s informations musica<strong>les</strong>.<br />

Outre la multiplicité <strong>de</strong>s données à traiter, le calcul en temps réel est également<br />

une contrainte calculatoire susceptible d’être examinée <strong>dans</strong> le cadre <strong>de</strong> certaines<br />

métho<strong>de</strong>s d’analyse. Dans ce cas, on impose que l’analyse <strong>de</strong>s données soit effectuée<br />

<strong>dans</strong> <strong>de</strong>s contraintes temporel<strong>les</strong> strictes, correspondant par exemple au temps <strong>de</strong><br />

lecture du matériel audio. Un exemple <strong>de</strong> tel système, proposé par Cont [Con08]<br />

sous le nom d’Antescofo 1 , permet à un musicien <strong>de</strong> bénéficier d’un accompagnement<br />

orchestral synchronisé sur son propre jeu. Ainsi, à chaque instant, le système permet<br />

d’i<strong>de</strong>ntifier <strong>les</strong> notes jouées par le musicien, <strong>de</strong> repérer la position du jeu <strong>dans</strong> un<br />

morceau et d’adapter l’accompagnement <strong>de</strong> manière immédiate.<br />

1. http://repmus.ircam.fr/antescofo


Chapitre 2<br />

Représentation séquentielle<br />

<strong>de</strong> l’information musicale<br />

Les œuvres musica<strong>les</strong> sont composées d’un ensemble <strong>de</strong> sons organisés <strong>dans</strong> le<br />

temps. Pour la vaste majorité <strong>de</strong>s étu<strong>de</strong>s musicologiques [Tem04, Eri75] ou cognitives<br />

[LJ96, Hur06, Kru01, Eme98, Bre94] traitant <strong>de</strong> la structuration musicale, la<br />

perception <strong>de</strong>s entités sonores <strong>de</strong> la musique est intrinsèquement liée à son déroulement<br />

temporel. Par exemple, Tenney et Polansky [TP80] désignent comme « <strong>les</strong><br />

facteurs primaires <strong>de</strong> cohésion » <strong>de</strong> la perception musicale <strong>les</strong> notions <strong>de</strong> proximité<br />

temporelle et <strong>de</strong> simultanéité <strong>de</strong>s éléments musicaux. Afin d’analyser automatiquement<br />

à partir du signal audio <strong>de</strong>s <strong>structures</strong> musica<strong>les</strong>, comme <strong>les</strong> répétitions<br />

approchées, il est donc primordial <strong>de</strong> représenter l’information musicale en respectant<br />

l’ordre temporel inhérent à la musique [CVG + 08]. Comme introduit <strong>dans</strong> le<br />

chapitre précé<strong>de</strong>nt, la modélisation séquentielle <strong>de</strong> l’information est une technique<br />

d’analyse efficace et souvent employée afin d’estimer <strong>les</strong> similarités <strong>dans</strong> la musique<br />

en respectant cette temporalité [CVG + 08].<br />

Dans ce chapitre, nous décrivons une métho<strong>de</strong> <strong>de</strong> représentation d’un signal<br />

audio sous la forme d’une séquence <strong>de</strong> symbo<strong>les</strong> comparab<strong>les</strong> décrivant une information<br />

musicale. L’objectif du modèle exposé ici est <strong>de</strong> capturer l’évolution d’une<br />

information musicale riche afin <strong>de</strong> permettre une analyse ultérieure <strong>de</strong>s <strong>structures</strong><br />

<strong>répétitives</strong> perçues. Par conséquent, chaque symbole, ou <strong>de</strong>scripteur, doit représenter<br />

une information liée à un aspect <strong>de</strong> la perception primordial <strong>dans</strong> la répétition<br />

musicale. La Section 2.1 justifie le choix d’un critère <strong>de</strong> représentation <strong>de</strong> l’information<br />

musicale, puis la Section 2.2 détaille une métho<strong>de</strong> permettant <strong>de</strong> représenter<br />

ce critère, et ainsi d’estimer une information musicale pertinente sur une portion <strong>de</strong><br />

signal. La Section 2.3 présente ensuite l’obtention <strong>de</strong> la séquence décrivant tout le<br />

signal audio, et définit une mesure <strong>de</strong> similarité appropriée permettant <strong>de</strong> comparer<br />

<strong>de</strong>s éléments <strong>de</strong> cette séquence.<br />

2.1 Critères <strong>de</strong> <strong>de</strong>scription musicale<br />

En raison <strong>de</strong> la complexité et <strong>de</strong> la diversité <strong>de</strong> la donnée musicale, l’analyse<br />

automatique du signal audio musical est liée à <strong>de</strong> nombreux critères. Cette section<br />

présente brièvement <strong>les</strong> trois principa<strong>les</strong> famil<strong>les</strong> <strong>de</strong> critères <strong>de</strong> <strong>de</strong>scription musicale<br />

et justifie <strong>les</strong> choix <strong>de</strong> représentation effectués <strong>dans</strong> cette thèse.<br />

2.1.1 Tempo, rythme et métrique<br />

Les aspects musicaux du tempo, <strong>de</strong> la pulsation et du rythme jouent un rôle<br />

fondamental <strong>dans</strong> la perception et l’interaction avec la musique [MEKR11, Par94].<br />

La pulsation peut être décrite comme un accent qui intervient <strong>de</strong> manière cyclique<br />

au début <strong>de</strong> chaque temps. Sa perception est intuitive pour l’oreille humaine,


18 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

entraînée ou non [LJ96], et se traduit par exemple par un battement <strong>de</strong> pied accompagnant<br />

l’écoute d’un morceau. Le terme tempo désigne la vitesse <strong>de</strong> référence <strong>de</strong> la<br />

pulsation d’un morceau et se mesure en pulsations par minute (ou beat per minute,<br />

BPM ). En fonction du style et <strong>de</strong> la volonté <strong>de</strong> composition, <strong>les</strong> valeurs habituel<strong>les</strong><br />

<strong>de</strong> tempo se situent entre 40 et 260 pulsations par minute [Jeh05a, p.55–57].<br />

En musique populaire occi<strong>de</strong>ntale, <strong>les</strong> notes sont organisées <strong>dans</strong> le temps autour<br />

<strong>de</strong> la pulsation. Le placement <strong>de</strong> ces notes en fonction <strong>de</strong> la celle-ci, communément<br />

appelé rythme, conduit à la perception <strong>de</strong> <strong>structures</strong> rythmiques. La présence <strong>de</strong><br />

motifs réguliers (percussions, ligne <strong>de</strong> basse etc.) permet une distinction intuitive<br />

entre <strong>de</strong>s pulsations fortes (ou temps forts) et faib<strong>les</strong>. De tels motifs induisent une<br />

structure rythmique récurrente, appelée métrique. Cette métrique est fondamentale<br />

pour l’interprétation musicale, permettant notamment aux musiciens <strong>de</strong> synchroniser<br />

leur jeu. La structure métrique est hiérarchique. Par exemple, une métrique 4/4<br />

divise un morceau en mesures <strong>de</strong> 4 temps, constituant le niveau du temps musical.<br />

Le premier et le troisième temps sont généralement perçus comme plus forts que<br />

<strong>les</strong> <strong>de</strong>uxième et quatrième, et forment un autre niveau métrique. Enfin, le premier<br />

temps est perçu comme plus fort que le troisième, et constitue également un autre<br />

niveau métrique.<br />

Comme souligné par Lerdahl et Jackendoff [LJ96], d’autres <strong>structures</strong> non nécessairement<br />

liées à la métrique sont fondamenta<strong>les</strong> <strong>dans</strong> la perception humaine du<br />

rythme. Basée sur <strong>de</strong>s éléments cognitifs, leur théorie souligne que notre cerveau<br />

effectue naturellement un découpage <strong>de</strong>s événements selon <strong>de</strong>s groupes en se basant<br />

sur <strong>de</strong> nombreux critères liés aux éléments percussifs, à la dynamique, à la hauteur<br />

<strong>de</strong>s notes ou encore au timbre du son. La difficulté d’un tel découpage dépend <strong>de</strong><br />

la correspondance entre l’organisation <strong>de</strong>s événements <strong>dans</strong> la musique, d’une part,<br />

et <strong>de</strong>s intuitions et connaissances personnel<strong>les</strong> pour le regroupement <strong>de</strong> ceux-ci,<br />

d’autre part [LJ96]. Par conséquent, l’analyse <strong>de</strong>s informations rythmiques est une<br />

opération complexe et liée à <strong>de</strong> nombreux autres paramètres musicaux.<br />

2.1.2 Timbre et instrumentation<br />

La notion <strong>de</strong> timbre est fortement dépendante du contexte d’application. Le<br />

timbre est défini par [Ter60] comme « l’attribut <strong>de</strong> la sensation auditive qui permet à<br />

un auditeur <strong>de</strong> juger comme dissimilaires <strong>de</strong>ux sons présentés <strong>dans</strong> <strong>les</strong> mêmes conditions<br />

et possédant la même dynamique sonore et la même hauteur ». Cet énoncé,<br />

qui définit le timbre par ce qu’il n’est pas, est fortement lié à la notion <strong>de</strong> reconnaissance<br />

<strong>de</strong> sources sonores et d’instruments [Auc06]. Par exemple, la distinction<br />

entre le son d’un piano et d’une guitare jouant la même note au même volume<br />

peut aisément être effectuée par n’importe quel auditeur humain, quelle que soit<br />

son expérience musicale, grâce à la différence <strong>de</strong> timbre perçue. De plus, le musicien<br />

à l’oreille expérimentée peut être capable d’i<strong>de</strong>ntifier chacun <strong>de</strong>s instruments intervenant<br />

<strong>dans</strong> un mélange musical, et ainsi d’isoler chaque source musicale à partir<br />

<strong>de</strong> ses caractéristiques timbra<strong>les</strong>. Cette perception “analytique” <strong>de</strong>s caractéristiques<br />

timbra<strong>les</strong> est complétée par une perception plus globale, <strong>dans</strong> laquelle l’oreille considère<br />

le signal audionumérique comme un ensemble cohérent et homogène. Le timbre<br />

polyphonique, également appelé timbre en cas <strong>de</strong> non ambiguïté, correspond au mélange<br />

timbral d’un signal musical [MEKR11]. Cette fois, le timbre correspond à<br />

une perception générale <strong>de</strong> l’instrumentation d’un morceau <strong>de</strong> musique plutôt qu’à


2.1 Critères <strong>de</strong> <strong>de</strong>scription musicale 19<br />

une unique source. Cette notion du timbre est fréquemment utilisée pour déduire<br />

une texture globale sur un morceau <strong>de</strong> musique <strong>dans</strong> un but d’i<strong>de</strong>ntification du<br />

style musical, <strong>de</strong> l’émotion ressentie à l’écoute, ou encore pour la reconnaissance<br />

automatique d’étiquettes, ou tags [MEKR11].<br />

L’espace <strong>de</strong> <strong>de</strong>scription du timbre est intrinsèquement multidimensionnel. Contrairement<br />

à la sensation <strong>de</strong> hauteur tonale ou à la sensation <strong>de</strong> volume sonore, la<br />

perception du timbre est liée à <strong>de</strong> nombreux facteurs acoustiques [Auc06]. Par<br />

conséquent, la mesure du timbre <strong>dans</strong> le signal audionumérique s’avère complexe à<br />

représenter sur un espace continu <strong>de</strong> <strong>de</strong>scription <strong>de</strong>s instruments ou <strong>de</strong>s textures<br />

sonores.<br />

2.1.3 Information tonale<br />

La perception humaine <strong>de</strong> la musique est fortement liée à la notion <strong>de</strong> hauteur<br />

et <strong>de</strong> ton musical.<br />

La plupart <strong>de</strong>s instruments <strong>de</strong> musique, incluant <strong>les</strong> instruments à cor<strong>de</strong>s pincées<br />

(guitare, harpe...), frappées (piano...), frottées (violon, contrebasse...), <strong>les</strong> instruments<br />

à vent (bois, cuivres) ou encore la voix humaine émettent <strong>de</strong>s sons à une<br />

ou plusieurs hauteurs caractéristiques [KD06]. En théorie musicale, la hauteur d’un<br />

son est i<strong>de</strong>ntifiée par une note, qui définit un niveau standard, du plus grave au plus<br />

aigu. Cet aspect tonal est essentiel <strong>dans</strong> la musique occi<strong>de</strong>ntale [G´06]. Bien que la<br />

dénomination explicite <strong>de</strong> notes ou d’une gamme ne semble pertinent que pour <strong>les</strong><br />

utilisateurs exercés à la musique, la perception <strong>de</strong>s tons musicaux, implicite, est<br />

naturellement développée chez toute personne, musicienne ou non [TB02]. De plus,<br />

la hauteur est une notion indépendante du timbre musical : <strong>de</strong>ux instruments <strong>de</strong><br />

timbres très distincts peuvent jouer <strong>de</strong>s notes facilement i<strong>de</strong>ntifiab<strong>les</strong> comme ayant<br />

la même hauteur.<br />

La mélodie correspond à une succession temporelle <strong>de</strong> hauteurs [KD06]. La mélodie<br />

est monophonique, c’est-à-dire que toute mélodie ne comporte qu’une note à<br />

un instant donné. Dans la culture occi<strong>de</strong>ntale, la mélodie est généralement perçue<br />

comme le critère musical le plus caractéristique d’un morceau <strong>de</strong> musique : elle est<br />

souvent facile à i<strong>de</strong>ntifier, et c’est en fredonnant sa mélodie que l’on peut se référer<br />

à une œuvre musicale.<br />

La combinaison <strong>de</strong> plusieurs hauteurs distinctes à un même instant est appelée<br />

accord [KD06]. La notion d’harmonie fait référence à la formation <strong>de</strong>s accords et<br />

aux relations entre eux [KD06]. Plus précisément, le terme fait référence à la fois aux<br />

hauteurs et accords en jeu, mais également aux principes structurels qui régissent<br />

leur combinaison [G´06, p.15]. Distinguer la mélodie et l’harmonie <strong>dans</strong> un morceau<br />

<strong>de</strong> musique occi<strong>de</strong>ntale est une tâche complexe, car <strong>les</strong> <strong>de</strong>ux concepts font référence<br />

à une combinaison <strong>de</strong> hauteurs et dépen<strong>de</strong>nt l’un <strong>de</strong> l’autre [Kru04].<br />

La notion d’harmonie est fondamentale <strong>dans</strong> la culture musicale occi<strong>de</strong>ntale.<br />

Pendant plusieurs sièc<strong>les</strong>, <strong>les</strong> compositeurs et théoriciens <strong>de</strong> la musique ont codifié<br />

<strong>les</strong> simultanéités <strong>les</strong> plus courantes en systèmes exhaustifs <strong>de</strong> représentation<br />

[Dow03]. Selon Temperley [Tem04, p.117], le jeu <strong>de</strong> l’harmonie <strong>dans</strong> un morceau<br />

donne à la musique « une impression <strong>de</strong> dimension spatiale et <strong>de</strong> mouvement <strong>dans</strong><br />

l’espace qui représente une partie indispensable <strong>de</strong> l’expérience musicale, et contribue<br />

gran<strong>de</strong>ment au pouvoir expressif et dramatique <strong>de</strong> la musique tonale ». La très<br />

gran<strong>de</strong> majorité <strong>de</strong>s œuvres <strong>de</strong> musique occi<strong>de</strong>ntale est composée autour <strong>de</strong> sys-


20 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

tèmes harmoniques obéissant à <strong>de</strong>s règ<strong>les</strong> <strong>de</strong> composition musicale qui caractérisent<br />

<strong>les</strong> progressions d’accords <strong>de</strong> chaque morceau. Ainsi, <strong>les</strong> processus <strong>de</strong> répétitions<br />

mélodiques et harmoniques sont au centre <strong>de</strong> la perception d’une structuration <strong>de</strong><br />

la musique [LJ96, Hur06, Ste79]. L’harmonie en musique occi<strong>de</strong>ntale enco<strong>de</strong> ainsi<br />

une structure riche et bien-fondée d’un point <strong>de</strong> vue musical théorique.<br />

Les algorithmes d’analyse présentés <strong>dans</strong> cette thèse sont axés sur une <strong>de</strong>scription<br />

tonale <strong>de</strong> la musique. Pour résumer, trois raisons principa<strong>les</strong> motivent ce choix<br />

<strong>de</strong> l’information tonale :<br />

- Elle correspond à un critère perceptif prépondérant pour la musique ;<br />

- Elle enco<strong>de</strong> <strong>de</strong>s <strong>structures</strong> musica<strong>les</strong> riches ;<br />

- Elle est soutenue par une théorie musicale bien connue et étudiée.<br />

2.2 Représentation tonale du signal<br />

Nous décrivons <strong>dans</strong> cette section un modèle permettant <strong>de</strong> représenter l’information<br />

tonale d’un morceau <strong>de</strong> musique à partir <strong>de</strong> son signal audio.<br />

2.2.1 Signal audio<br />

D’un point <strong>de</strong> vue physique, un signal audio est généré par une entité vibrante<br />

telle que <strong>les</strong> cor<strong>de</strong>s voca<strong>les</strong> d’un chanteur, la cor<strong>de</strong> d’un violon ou encore la membrane<br />

d’une enceinte. Associées au reste <strong>de</strong> l’instrument, ces entités vibrantes engendrent<br />

<strong>de</strong>s déplacements et oscillations <strong>de</strong>s particu<strong>les</strong> d’air, résultant en un phénomène<br />

ondulatoire, qui se propage <strong>dans</strong> l’air et se mesure par une variation <strong>de</strong> la<br />

pression acoustique. L’on<strong>de</strong> sonore qui arrive à l’oreille humaine provoque alors la<br />

vibration du tympan qui, avec l’ai<strong>de</strong> <strong>de</strong> l’oreille interne, transforme l’on<strong>de</strong> perçue<br />

en signal nerveux pour interprétation par le cerveau.<br />

À l’instant où elle arrive à l’oreille humaine, l’on<strong>de</strong> sonore peut être représentée<br />

par la variation <strong>de</strong> la pression acoustique en fonction du temps, représentation également<br />

appelée forme d’on<strong>de</strong> du signal audio. La Figure 2.1-haut montre un exemple<br />

<strong>de</strong> forme d’on<strong>de</strong> correspondant à 7 secon<strong>de</strong>s d’un morceau joué à la clarinette. Les<br />

variations <strong>de</strong> pression acoustique <strong>de</strong>ssinent <strong>de</strong>s zones montantes ou <strong>de</strong>scendantes,<br />

indiquant grossièrement <strong>les</strong> modifications d’amplitu<strong>de</strong> du signal.<br />

Mathématiquement, une forme d’on<strong>de</strong> est caractérisée par une fonction continue,<br />

définie en tout point du temps. Lorsque la variation <strong>de</strong> pression acoustique se fait<br />

sous forme <strong>de</strong> motifs réguliers, la forme d’on<strong>de</strong> est dite périodique. La fréquence f<br />

(en Hertz) est alors définie comme le nombre <strong>de</strong> répétitions d’un motif par secon<strong>de</strong>,<br />

et la pério<strong>de</strong> T comme l’inverse <strong>de</strong> cette fréquence : T = 1/f. Un exemple simple<br />

<strong>de</strong> signal audio, le son pur, est caractérisé par la formule :<br />

x(t) = a · sin(2πft + Φ), (1)<br />

où a désigne l’amplitu<strong>de</strong> du signal, f sa fréquence et Φ la phase initiale du signal.<br />

La Figure 2.1-bas représente un tel signal sur une secon<strong>de</strong>, pour une amplitu<strong>de</strong> fixe<br />

<strong>de</strong> 1, une phase initiale nulle et une fréquence <strong>de</strong> 4 Hz.<br />

La plupart <strong>de</strong>s signaux audib<strong>les</strong> <strong>dans</strong> la musique occi<strong>de</strong>ntale sont <strong>de</strong>s formes<br />

d’on<strong>de</strong>s beaucoup plus complexes. En particulier, <strong>les</strong> sons qualifiés d’harmoniques<br />

sont en général composés <strong>de</strong> sons purs <strong>de</strong> fréquences dites harmoniques, multip<strong>les</strong>


2.2 Représentation tonale du signal 21<br />

1<br />

<br />

0,5<br />

-0,5<br />

Amplitu<strong>de</strong><br />

1<br />

0,5<br />

0<br />

-0,5<br />

Pression acoustique (Pa)<br />

0<br />

<br />

-1<br />

<br />

-1<br />

<br />

<br />

1<br />

Temps (s)<br />

7<br />

Temps (s)<br />

Fig. 2.1 – Haut : Forme d’on<strong>de</strong> d’un extrait audio. Bas : Son pur d’amplitu<strong>de</strong> 1, <strong>de</strong><br />

phase initiale nulle et <strong>de</strong> fréquence 4 Hz.<br />

d’une fréquence f0, appelée fréquence fondamentale. Les sons naturels, tels que<br />

produits par exemple par un instrument <strong>de</strong> musique ou une voix humaine, correspon<strong>de</strong>nt<br />

à <strong>de</strong>s signaux plus complexes, souvent formés <strong>de</strong> composantes harmoniques<br />

et <strong>de</strong> composantes non périodiques. En outre, <strong>les</strong> paramètres <strong>de</strong>s composantes périodiques<br />

<strong>de</strong> tels signaux sont susceptib<strong>les</strong> d’évoluer <strong>dans</strong> le temps, <strong>les</strong> rendant<br />

potentiellement non-stationnaires.<br />

2.2.2 Représentation numérique<br />

Le signal sonore peut être représenté sous la forme d’une fonction mathématique<br />

continue, définie à chaque instant. Cependant, <strong>dans</strong> le cadre d’une analyse informatique<br />

du son, il est nécessaire <strong>de</strong> représenter numériquement le signal audio afin <strong>de</strong><br />

permettre sa manipulation par l’unité logique d’un ordinateur, d’un microcontrôleur<br />

ou <strong>de</strong> tout autre calculateur numérique. Cette opération, appelée numérisation,<br />

est réalisée par un composant appelé convertisseur analogique-numérique, CAN (ou<br />

analog-to-digital converter, ADC). La numérisation consiste en <strong>de</strong>ux étapes successives<br />

: l’échantillonnage et la quantification. L’échantillonnage est une discrétisation<br />

<strong>de</strong> la dimension temporelle du signal, et correspond généralement à l’enregistrement<br />

d’un échantillon du signal continu à interval<strong>les</strong> <strong>de</strong> temps réguliers. Il est caractérisé<br />

par une fréquence d’échantillonnage, notée Fe. La quantification correspond à<br />

l’opération <strong>de</strong> discrétisation <strong>de</strong> la valeur d’amplitu<strong>de</strong> du signal pour un échantillon<br />

donné. Cette quantification est généralement effectuée sur un nombre fini q <strong>de</strong> bits,<br />

qui limitent la résolution du signal.<br />

Une telle métho<strong>de</strong> <strong>de</strong> codage a notamment été mise au point <strong>dans</strong> le cadre


22 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

Amplitu<strong>de</strong><br />

Amplitu<strong>de</strong> (quantification)<br />

1<br />

Temps (s)<br />

Temps<br />

(Echantillonnage)<br />

Fig. 2.2 – Numérisation d’une secon<strong>de</strong> d’un signal audio. Haut : Le signal continu<br />

est représenté en traits pleins. Le quadrillage pointillé représente l’espace <strong>de</strong>s valeurs<br />

numériques qui peuvent être codées, pour une fréquence d’échantillonnage Fe = 31Hz<br />

et une quantification sur 8 valeurs possib<strong>les</strong>. Les cases grisées montrent <strong>les</strong> échantillons<br />

représentant le signal sous ces conditions. Bas : Signal numérisé représenté<br />

sous la forme d’un peigne <strong>de</strong> valeurs discrètes. La représentation du signal original<br />

en pointillés souligne l’erreur commise par <strong>les</strong> opérations d’échantillonnage et <strong>de</strong><br />

quantification.<br />

d’une technique appelée Pulse Co<strong>de</strong> Modulation (PCM) [BE47]. Bien que d’autres<br />

techniques <strong>de</strong> codage, tel<strong>les</strong> que Direct Stream Digital (DSD) [RN01] proposent une<br />

représentation différente, PCM reste aujourd’hui la technique <strong>de</strong> codage audio la<br />

plus largement utilisée. Par exemple, le format CD audio comprend <strong>de</strong>s données<br />

enregistrées en codage PCM à la fréquence d’échantillonnage <strong>de</strong> 44100 Hz et selon<br />

une quantification sur 16 bits. Ainsi, 44100 mesures définissent le signal à chaque<br />

secon<strong>de</strong>, chacune étant égale à l’une <strong>de</strong>s 65536 valeurs possib<strong>les</strong> pour l’amplitu<strong>de</strong><br />

du signal. En combinant <strong>les</strong> opérations d’échantillonnage et <strong>de</strong> quantification, le<br />

signal continu est ainsi représenté par un ensemble fini <strong>de</strong> valeurs, matérialisé par<br />

un quadrillage <strong>dans</strong> l’exemple <strong>de</strong> la Figure 2.2-haut. La secon<strong>de</strong> figure présente le<br />

signal discret obtenu sous la forme d’un peigne <strong>de</strong> valeurs discrètes.<br />

Mathématiquement, l’opération <strong>de</strong> numérisation est une discrétisation du signal<br />

faisant apparaître <strong>de</strong>ux paramètres :<br />

- Fe, la fréquence d’échantillonnage qui définit la résolution temporelle ;<br />

- q, le nombre <strong>de</strong> bits utilisés pour la quantification, qui définit la résolution d’amplitu<strong>de</strong>.<br />

Bien que <strong>les</strong> paramètres Fe et q soient généralement définis comme <strong>de</strong>s constantes,<br />

ils peuvent prendre <strong>de</strong>s valeurs variab<strong>les</strong> <strong>dans</strong> le cadre <strong>de</strong> systèmes <strong>de</strong> codage plus


2.2 Représentation tonale du signal 23<br />

perfectionnés. Par commodité, on supposera <strong>dans</strong> la suite ces <strong>de</strong>ux paramètres<br />

constants.<br />

Il convient <strong>de</strong> noter que l’opération <strong>de</strong> numérisation peut être <strong>de</strong>structrice d’information,<br />

et qu’il n’est pas forcément possible <strong>de</strong> reconstruire la forme d’on<strong>de</strong> initiale<br />

à partir <strong>de</strong> la représentation numérique [Mül07, p.24]. Les erreurs introduites à<br />

la reconstruction sont appelées effets d’aliasing, ou encore erreurs <strong>de</strong> quantification,<br />

et peuvent introduire <strong>de</strong>s effets audib<strong>les</strong> <strong>dans</strong> le signal reconstruit, comme <strong>de</strong>s claquements<br />

ou <strong>de</strong>s bruits indésirab<strong>les</strong>. Pour cette raison, le choix <strong>de</strong>s paramètres <strong>de</strong><br />

numérisation est capital pour une représentation numérique fidèle du signal audio.<br />

En particulier, le théorème <strong>de</strong> Shannon-Nyquist indique que la fréquence d’échantillonnage<br />

Fe doit être au moins <strong>de</strong>ux fois supérieure à la fréquence maximale composant<br />

un signal afin <strong>de</strong> représenter numériquement celui-ci <strong>de</strong> manière correcte et<br />

<strong>de</strong> permettre une reconstruction correcte du signal continu.<br />

Le son pur décrit <strong>dans</strong> le domaine continu par l’équation 1 est caractérisé sous<br />

sa forme numérisée par la formule :<br />

x[n] = ⌊2 q−1 · a · sin(2πf n<br />

+ Φ)⌋, (2)<br />

où a désigne l’amplitu<strong>de</strong> du signal, f sa fréquence, n le numéro d’échantillon numérique<br />

considéré, Φ la phase initiale du signal, Fe la fréquence d’échantillonnage<br />

et q le nombre <strong>de</strong> bits <strong>de</strong> quantification.<br />

2.2.3 Relation hauteur/fréquence<br />

Afin d’i<strong>de</strong>ntifier <strong>les</strong> caractéristiques tona<strong>les</strong> d’un signal audio, il convient <strong>de</strong> caractériser<br />

mathématiquement la notion <strong>de</strong> hauteur du son. La hauteur d’un son<br />

pur est liée à sa fréquence : plus sa fréquence est faible, plus il est perçu comme<br />

grave ; à l’inverse, plus sa fréquence est élevée, plus il est perçu comme aigu. La<br />

hauteur perçue pour un son harmonique est fortement liée à sa fréquence fondamentale.<br />

L’écart perçu entre <strong>de</strong>ux hauteurs est appelé intervalle. Plus précisément,<br />

la hauteur est perçue <strong>de</strong> manière logarithmique par rapport à la fréquence <strong>de</strong>s signaux<br />

[Kru01]; par exemple, la variation <strong>de</strong> hauteur perçue entre <strong>de</strong>ux signaux purs<br />

<strong>de</strong> fréquences 220 Hz et 440 Hz est i<strong>de</strong>ntique à celle perçue entre <strong>de</strong>ux signaux <strong>de</strong><br />

fréquences 880 Hz et 1760 Hz. L’intervalle entre un son <strong>de</strong> fréquence f et un son<br />

<strong>de</strong> fréquence 2 × f est appelé octave. La musique occi<strong>de</strong>ntale divise chaque octave<br />

en un ensemble <strong>de</strong> 12 interval<strong>les</strong>, appelés <strong>de</strong>mi-tons, le ton musical correspondant<br />

à un intervalle <strong>de</strong> <strong>de</strong>ux <strong>de</strong>mi-tons. Ainsi, 12 notes sont définies pour chaque octave,<br />

l’ensemble formant la gamme chromatique. La répartition <strong>de</strong>s différents interval<strong>les</strong><br />

sur une octave est appelée tempérament. Ainsi, le tempérament égal, le plus utilisé<br />

à l’heure actuelle en musique occi<strong>de</strong>ntale, divise chaque octave en 12 <strong>de</strong>mi-tons <strong>de</strong><br />

ratio égal. Plus précisément, <strong>de</strong>ux fréquences f1 et f2 sont séparées <strong>de</strong> n <strong>de</strong>mi-tons<br />

si et seulement si :<br />

f2<br />

f1<br />

Fe<br />

= 2 n<br />

12 . (3)<br />

Par conséquent, l’intervalle I(f1,f2) en <strong>de</strong>mi-tons entre <strong>de</strong>ux fréquences f1 et f2<br />

est défini par :<br />

I(f1,f2) = 12 · log2( f2<br />

). (4)<br />

f1


24 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

Nom français Nom anglo-saxon Fréquence<br />

(Hz - Référence La4-440Hz)<br />

Do C 261.63<br />

Do♯/Ré♭ C♯/D♭ 277.18<br />

Ré D 293.66<br />

Ré♯/Mi♭ D♯/E♭ 311.13<br />

Mi E 329.63<br />

Fa F 349.23<br />

Fa♯/Sol♭ F♯/G♭ 369.99<br />

Sol G 392.00<br />

Sol♯/La♭ G♯/A♭ 415.30<br />

La A 440.00<br />

La♯/Si♭ A♯/B♭ 466.16<br />

Si B 493.88<br />

Tab. 2.1 – Dénominations usuel<strong>les</strong> <strong>de</strong>s notes <strong>de</strong> la gamme tempérée, et correspondances<br />

fréquentiel<strong>les</strong> sur la quatrième octave du piano, avec pour référence la note<br />

La4 à 440Hz. La notation “/” indique que <strong>les</strong> <strong>de</strong>ux dénominations <strong>de</strong> part et d’autre<br />

du symbole peuvent être utilisées, le choix dépendant <strong>de</strong> règ<strong>les</strong> <strong>de</strong> notation musicale.<br />

Le Tableau 2.1 précise la dénomination <strong>de</strong>s notes <strong>de</strong> la gamme tempérée ainsi<br />

que <strong>les</strong> valeurs fréquentiel<strong>les</strong> standard sur une octave.<br />

Dans la culture occi<strong>de</strong>ntale, la perception <strong>de</strong> hauteur est fortement liée à la<br />

gamme chromatique. Ainsi, une légère variation <strong>de</strong> la fréquence d’une forme d’on<strong>de</strong><br />

par rapport à une fréquence standard ne provoque pas <strong>de</strong> changement <strong>dans</strong> la<br />

perception <strong>de</strong> hauteur. Par exemple, en considérant 440Hz comme fréquence <strong>de</strong><br />

référence pour le cinquième La du piano, un son pur <strong>de</strong> fréquence 443 Hz est intuitivement<br />

perçu comme la note La, malgré cette légère variation. Pour la plupart<br />

<strong>de</strong>s auditeurs, cette variation par rapport à la fréquence <strong>de</strong> référence est inaudible ;<br />

mais si <strong>les</strong> oreil<strong>les</strong> <strong>les</strong> plus exercées sont capab<strong>les</strong> <strong>de</strong> la détecter, la note <strong>de</strong> La associée<br />

reste naturellement i<strong>de</strong>ntifiée. Il est donc commun d’associer à une note <strong>de</strong> la<br />

gamme tempérée une plage <strong>de</strong> fréquences, centrée sur la fréquence <strong>de</strong> référence.<br />

2.2.4 <strong>Analyse</strong> spectrale<br />

La perception musicale d’un signal audio est fortement corrélée aux fréquences<br />

<strong>de</strong>s composants <strong>de</strong> celui-ci. La transformation <strong>de</strong> Fourier est une technique très<br />

répandue permettant d’analyser <strong>de</strong> manière précise le contenu fréquentiel du signal.<br />

2.2.4.1 Transformée <strong>de</strong> Fourier Discrète<br />

Le théorème <strong>de</strong> Fourier indique que toute fonction périodique peut être représentée<br />

comme la somme <strong>de</strong> composantes sinusoïda<strong>les</strong> d’amplitu<strong>de</strong>s, <strong>de</strong> phases et <strong>de</strong><br />

fréquences déterminées, ces <strong>de</strong>rnières étant en relation harmonique. La Transformée<br />

<strong>de</strong> Fourier permet ainsi d’estimer <strong>les</strong> composantes fréquentiel<strong>les</strong> d’un signal audio.<br />

En particulier, la Transformée <strong>de</strong> Fourier Discrète (TFD)[SPA07, p.22–23] X(k)


2.2 Représentation tonale du signal 25<br />

<br />

<br />

- <br />

(dB)<br />

20<br />

0<br />

-20<br />

-40<br />

0 16 31<br />

0 4<br />

<br />

16 27 31<br />

<br />

<br />

<br />

<br />

(Hz)<br />

Fig. 2.3 – Haut : une secon<strong>de</strong> d’un son pur d’amplitu<strong>de</strong> 1, <strong>de</strong> phase initiale nulle<br />

et <strong>de</strong> fréquence 4Hz, numérisé à la fréquence d’échantillonnage 31Hz. Bas : spectre<br />

d’amplitu<strong>de</strong> correspondant tel que calculé par transformée <strong>de</strong> Fourier discrète.<br />

d’un signal numérique x[n] fini est donnée par la formule :<br />

X[k] =<br />

N−1<br />

<br />

n=0<br />

x[n] · exp −j·2·π·n·k/N pour k ∈ 0,N − 1, (5)<br />

où N correspond au nombre d’échantillons du signal numérique à analyser.<br />

La complexité temporelle <strong>de</strong> l’algorithme <strong>de</strong> calcul <strong>de</strong> la TFD est quadratique :<br />

O(N 2 ). Cependant, le calcul pratique <strong>de</strong> la TFD peut être accéléré par <strong>de</strong>s métho<strong>de</strong>s<br />

optimisant le nombre d’opérations effectuées, comme l’algorithme <strong>de</strong> Cooley<br />

et Tukey [CT65]. Ces techniques <strong>de</strong> calcul optimisé <strong>de</strong> la TFD sont appelées Transformées<br />

<strong>de</strong> Fourier Rapi<strong>de</strong>, ou FFT. La complexité algorithmique <strong>de</strong> la FFT est<br />

linéarithmique : O(N log N), où N est le nombre d’échantillons à analyser [GR98,<br />

p.34–38].<br />

2.2.4.2 Spectre d’amplitu<strong>de</strong> et spectre <strong>de</strong> phase<br />

Chaque valeur calculée par transformation <strong>de</strong> Fourier est un nombre complexe<br />

pouvant s’écrire sous la forme X[k] = Xr[k] + j · Xi[k]. Le spectre d’amplitu<strong>de</strong> A du<br />

signal correspond au module <strong>de</strong> sa transformée, soit :<br />

A[k] = |X[k]| =<br />

<br />

Xr[k] 2 + Xi[k] 2 pour k ∈ 0,N − 1. (6)<br />

Le spectre <strong>de</strong> phase ϕ du signal correspond à l’argument <strong>de</strong> sa transformée, soit :<br />

ϕ[k] = arg(X(k)) = arctan Xi[k]<br />

Xr[k]<br />

pour k ∈ 0,N − 1. (7)<br />

Le spectre d’amplitu<strong>de</strong> indique la répartition <strong>de</strong>s composantes fréquentiel<strong>les</strong><br />

du signal analysé. La Figure 2.3-bas présente le spectre d’amplitu<strong>de</strong> du son pur


26 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

Fréquence (Hz)<br />

1<br />

-1<br />

20000<br />

15000<br />

10000<br />

5000<br />

0<br />

Amplitu<strong>de</strong><br />

Temps (s)<br />

Temps (s)<br />

Fig. 2.4 – Exemple <strong>de</strong> spectrogramme d’un enregistrement audio.<br />

-10 dB<br />

Amplitu<strong>de</strong><br />

représenté au-<strong>de</strong>ssus (f = 4Hz, φ = 0, a = 1, Fe = 31Hz). La FFT <strong>de</strong>s N échantillons<br />

<strong>de</strong> signal fournit N valeurs spectra<strong>les</strong>. Les indices <strong>de</strong>s composantes du spectre<br />

d’amplitu<strong>de</strong> peuvent être représentés sur un axe <strong>de</strong>s abscisses en valeurs fréquentiel<strong>les</strong><br />

avec un pas <strong>de</strong> Fe<br />

N Hz entre <strong>de</strong>ux points du spectre. En d’autres termes, pour<br />

k ∈ 0,N − 1, la composante X[k] correspond à une valeur <strong>de</strong> fréquence <strong>de</strong> k Fe<br />

N .<br />

Le spectre d’amplitu<strong>de</strong> du signal présente ainsi une composante non nulle pour la<br />

valeur f = 4Hz, qui correspond à la fréquence du signal initial. La composante non<br />

nulle visible à la valeur Fe − f est due à l’opération <strong>de</strong> numérisation, qui entraîne<br />

une réplique du spectre au-<strong>de</strong>là <strong>de</strong> la fréquence Fe<br />

2 . Le spectre visible entre <strong>les</strong> fréquences<br />

Fe<br />

2 et Fe correspond alors à une version renversée du spectre entre 0 et Fe<br />

2 ;<br />

en d’autres termes, la droite d’équation x = Fe<br />

2 est un axe <strong>de</strong> symétrie du spectre<br />

d’amplitu<strong>de</strong> obtenu. Or, sous l’hypothèse que la condition <strong>de</strong> Shannon-Nyquist est<br />

respectée (voir Section 2.2.2), <strong>les</strong> composantes fréquentiel<strong>les</strong> visib<strong>les</strong> au-<strong>de</strong>là <strong>de</strong> Fe<br />

2<br />

ne correspon<strong>de</strong>nt pas à <strong>de</strong>s composantes présentes <strong>dans</strong> le signal. Il est donc possible<br />

d’appliquer un filtre sur <strong>les</strong> fréquences non pertinentes, et ainsi <strong>de</strong> retirer cette<br />

duplication pour ne conserver que la section [0, Fe<br />

2 ].<br />

Afin <strong>de</strong> correspondre à <strong>de</strong>s propriétés <strong>de</strong> la perception humaine, l’amplitu<strong>de</strong> est<br />

classiquement donnée en décibels (dB) sur une échelle logarithmique donnée par<br />

AdB[k] = 20 log10( 2·A[k]<br />

2<br />

N ). Dans cette formule, le facteur N permet <strong>de</strong> normaliser le<br />

résultat <strong>de</strong> la FFT afin <strong>de</strong> faire correspondre <strong>dans</strong> le spectre une amplitu<strong>de</strong> <strong>de</strong> 0<br />

décibels à la fréquence fondamentale d’un son pur (voir Figure 2.3-Bas).<br />

2.2.4.3 Spectrogramme<br />

La transformée <strong>de</strong> Fourier rapi<strong>de</strong> permet d’obtenir la répartition <strong>de</strong>s composantes<br />

fréquentiel<strong>les</strong> sur une portion <strong>de</strong> signal, en renvoyant une représentation<br />

fréquence/amplitu<strong>de</strong> <strong>de</strong> l’extrait analysé. Le spectrogramme est une visualisation<br />

temps/fréquence/amplitu<strong>de</strong> qui permet <strong>de</strong> représenter l’évolution <strong>de</strong>s composantes<br />

fréquentiel<strong>les</strong> du signal [Hay95]. Il permet ainsi <strong>de</strong> visualiser l’évolution du contenu<br />

fréquentiel sur plusieurs portions <strong>de</strong> signal. La Figure 2.4 montre un exemple <strong>de</strong><br />

spectrogramme obtenu par TFD sur <strong>de</strong>s portions d’environ 23 ms. Le temps est in-<br />

-70 dB


2.2 Représentation tonale du signal 27<br />

diqué en abscisse, <strong>de</strong> gauche à droite, tandis que le contenu fréquentiel est indiqué<br />

en ordonnée, <strong>de</strong> bas (basses fréquences) en haut (hautes fréquences). La valeur <strong>de</strong><br />

l’amplitu<strong>de</strong> <strong>de</strong>s composantes fréquentiel<strong>les</strong> est représentée sur une palette <strong>de</strong> couleurs,<br />

sur une mesure en décibels. Les lignes jaunes parallè<strong>les</strong> mettent en avant <strong>les</strong><br />

composantes harmoniques qui composent l’extrait audio.<br />

2.2.5 Définition du chroma<br />

Plusieurs types <strong>de</strong> <strong>de</strong>scripteurs peuvent être utilisés pour représenter l’information<br />

tonale d’un signal audio. Ainsi, la centroï<strong>de</strong> tonale [HSG06], <strong>les</strong> Profils Qconstants<br />

[Pur05, p.120–123] ou encore <strong>les</strong> Profils <strong>de</strong> Classes <strong>de</strong> Hauteurs [Fuj99]<br />

sont différentes représentations symboliques possib<strong>les</strong> <strong>de</strong> l’information tonale. Une<br />

revue détaillée <strong>de</strong>s techniques existantes peut être consultée en [G´06, p.35–62].<br />

La représentation par spectre d’amplitu<strong>de</strong> exposée en Section 2.2.4.2 donne accès<br />

au contenu fréquentiel <strong>de</strong> la portion <strong>de</strong> signal analysée. Le spectre d’amplitu<strong>de</strong><br />

fournit donc une information sur l’ensemble <strong>de</strong>s hauteurs perçues <strong>dans</strong> l’extrait<br />

analysé. Afin <strong>de</strong> caractériser précisément <strong>les</strong> informations tona<strong>les</strong> <strong>de</strong> l’extrait, il<br />

convient alors <strong>de</strong> projeter ce spectre sur un espace <strong>de</strong> <strong>de</strong>scription <strong>de</strong>s hauteurs musica<strong>les</strong>.<br />

Comme souligné par Shepard [She82], <strong>les</strong> hauteurs sont perçues <strong>de</strong> manière<br />

cyclique, où un cycle recommence à chaque octave. Dès lors, la hauteur d’un son<br />

peut être décomposée par la hauteur <strong>de</strong> l’octave à laquelle elle appartient, et la<br />

classe <strong>de</strong> la note au sein d’une octave, ou classe tonale. Particulièrement développée<br />

chez <strong>les</strong> musiciens entraînés, cette perception par classes tona<strong>les</strong> est réputée<br />

présente chez tout auditeur habitué à la musique occi<strong>de</strong>ntale [Deu82, Kru04].<br />

Le Profil <strong>de</strong> Classes Tona<strong>les</strong> [Fuj99], ou Chroma [BW01], propose une représentation<br />

<strong>de</strong>s classes tona<strong>les</strong> perçues <strong>dans</strong> un extrait audio. Le chroma peut être défini<br />

comme un vecteur <strong>de</strong> nombres réels dont chaque coefficient indique la prépondérance<br />

<strong>de</strong> l’une <strong>de</strong>s divisions <strong>de</strong> la gamme tempérée <strong>dans</strong> l’extrait analysé.<br />

La Figure 2.5 présente plusieurs exemp<strong>les</strong> <strong>de</strong> chromas correspondant à différentes<br />

informations tona<strong>les</strong>. On suppose que ceux-ci caractérisent <strong>de</strong>s extraits musicaux<br />

à l’échelle <strong>de</strong>s accords. Ces chromas sont calculés avec une dimension égale<br />

au nombre <strong>de</strong> <strong>de</strong>mi-tons <strong>de</strong> la gamme chromatique (12) ; par conséquent, chaque<br />

coefficient indique la prépondérance d’un <strong>de</strong>mi-ton <strong>dans</strong> l’extrait. Les trois valeurs<br />

<strong>les</strong> plus élevées correspondant au La, au Do et au Mi <strong>dans</strong> (i) et (ii) soulignent<br />

la prépondérance d’un accord particulier <strong>dans</strong> l’extrait analysé (accord <strong>de</strong> La mineur<br />

[Bit87]). L’absence <strong>de</strong> coefficient prépondérant <strong>dans</strong> (iii) suggère que l’extrait<br />

sélectionné ne comporte pas d’harmonie facilement i<strong>de</strong>ntifiable. Enfin, l’apparition<br />

<strong>de</strong> nouveaux coefficients importants <strong>dans</strong> (iv) peut correspondre, par exemple, à la<br />

présence d’une harmonie complexe à 5 notes (Accord <strong>de</strong> neuvième <strong>de</strong> dominante<br />

<strong>de</strong> la gamme <strong>de</strong> Sol [Bit87]), à la juxtaposition <strong>de</strong> <strong>de</strong>ux accords (Ré majeur et La<br />

mineur [Bit87]) ou encore à une simple série <strong>de</strong> 5 notes jouées successivement <strong>dans</strong><br />

l’extrait analysé.<br />

La résolution du chroma correspond au nombre <strong>de</strong> dimensions, ou <strong>de</strong> valeurs<br />

contenues <strong>dans</strong> le vecteur. Correspondant en Figure 2.5 au nombre <strong>de</strong> <strong>de</strong>mi-tons<br />

présents <strong>dans</strong> la gamme chromatique, cette résolution peut être ajustée en fonction<br />

<strong>de</strong> l’application afin <strong>de</strong> régler la robustesse aux problèmes d’accord et aux légères<br />

oscillations <strong>de</strong> fréquence susceptib<strong>les</strong> d’apparaître dan <strong>les</strong> signaux acoustiques [G´06,<br />

p.49]. Ainsi, le choix d’une résolution plus élevée permet par exemple une forte amé-


28 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

C C# D D# E F F# G G# A A# B<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

C C# D D# E F F# G G# A A# B<br />

(i) (ii)<br />

C C# D D# E F F# G G# A A# B<br />

(iii)<br />

1<br />

0,8<br />

0,6<br />

0,4<br />

0,2<br />

0<br />

C C# D D# E F F# G G# A A# B<br />

(iv)<br />

Fig. 2.5 – Exemp<strong>les</strong> <strong>de</strong> chromas <strong>de</strong> dimension 12. (i) : Tria<strong>de</strong> en La mineur, cas<br />

idéal. (ii) : Tria<strong>de</strong> en La mineur en présence <strong>de</strong> bruit harmonique. (iii) : Pas d’harmonie<br />

facilement i<strong>de</strong>ntifiable. (iv) : Superposition <strong>de</strong> tons <strong>dans</strong> le chroma, ou harmonie<br />

complexe.<br />

lioration <strong>de</strong> la qualité <strong>de</strong> la <strong>de</strong>scription harmonique sur un morceau entièrement ou<br />

partiellement désaccordé pour l’i<strong>de</strong>ntification <strong>de</strong>s accords [PBO00, Góm06]. Cette<br />

résolution peut facilement être réduite au nombre <strong>de</strong> <strong>de</strong>mi-tons <strong>dans</strong> le cas <strong>de</strong> comparaison<br />

avec un modèle tonal, ou par commodité <strong>de</strong> visualisation. Dans la suite,<br />

la résolution du chroma sera abstraite à un entier B, classiquement multiple <strong>de</strong> 12.<br />

Si la nature <strong>de</strong> l’information contenue <strong>dans</strong> le chroma reste i<strong>de</strong>ntique, sa définition<br />

mathématique diffère légèrement selon <strong>les</strong> étu<strong>de</strong>s. Fujishima [Fuj99] puis, plus<br />

tard, Gomez [G´06] introduisent le <strong>de</strong>scripteur à partir <strong>de</strong> fonctions <strong>de</strong> pondération<br />

du spectre d’amplitu<strong>de</strong> obtenu par transformée <strong>de</strong> Fourier discrète. La définition<br />

par banques <strong>de</strong> filtres [Pee06, Got06], à travers la fréquence instantanée dérivée<br />

<strong>de</strong> la phase [EP07] ou encore à travers une transformée Q-constante remplaçant<br />

la transformée <strong>de</strong> Fourier [ZKG05, BP05, HS05] sont d’autres approches possib<strong>les</strong><br />

pour construire le chroma. Une comparaison <strong>de</strong>s différentes approches d’obtention<br />

du chroma peut être trouvée en [Oud10] ou [G´06].<br />

Dans la suite <strong>de</strong> ce travail, nous utilisons la formulation du chroma telle que<br />

proposée par Gómez [G´06]. Le choix <strong>de</strong> ce <strong>de</strong>scripteur est principalement motivé<br />

par une performance significativement supérieure aux approches antérieures, relevée<br />

par Gómez [G´06, p.80–99] en comparant <strong>les</strong> chromas obtenus selon chacune<br />

<strong>de</strong>s approches <strong>de</strong>puis le signal audio avec <strong>les</strong> profils <strong>de</strong> notes obtenus <strong>de</strong>puis une<br />

représentation symbolique (partition).


2.2 Représentation tonale du signal 29<br />

(i)<br />

(ii)<br />

(iii)<br />

Amplitu<strong>de</strong><br />

+<br />

Fréquence (échelle logarithmique)<br />

C# D# F# G# A#<br />

C D E F G A B<br />

Fig. 2.6 – Calcul schématique du premier coefficient du chroma <strong>de</strong> dimension 12.<br />

(i) : À partir du spectre d’amplitu<strong>de</strong> d’un signal, chaque ban<strong>de</strong> fréquentielle <strong>de</strong> la<br />

note Do est repérée. (ii) : Cette procédure est effectuée pour toutes <strong>les</strong> occurrences<br />

du Do sur toutes <strong>les</strong> octaves. (iii) : Le coefficient correspondant <strong>dans</strong> le chroma<br />

est affecté à la somme pondérée <strong>de</strong>s contenus fréquentiels calculés pour <strong>les</strong> ban<strong>de</strong>s<br />

repérées.<br />

2.2.6 Calcul du chroma<br />

Soient T un signal audio, et A[k] le spectre d’amplitu<strong>de</strong> <strong>de</strong> T . On pose N le<br />

nombre d’échantillons <strong>dans</strong> T ; A est donc défini pour k ∈ 0,N.<br />

Soit h = {h[1],h[2], . . . ,h[B]} le chroma du signal T . Un coefficient b <strong>de</strong> h est obtenu<br />

en sommant toutes <strong>les</strong> contributions <strong>dans</strong> le spectre à la note b. La Figure 2.6<br />

illustre le principe du calcul <strong>de</strong> l’un <strong>de</strong>s coefficients du chroma. Sa définition mathématique<br />

est décrite ci-<strong>de</strong>ssous.<br />

Soit b une note <strong>de</strong> la gamme. Pour calculer le coefficient h[b] du chroma correspondant<br />

à cette note, il est nécessaire d’i<strong>de</strong>ntifier <strong>dans</strong> le spectre d’amplitu<strong>de</strong> toutes<br />

<strong>les</strong> fréquences contribuant à celle-ci.<br />

Soit fb la fréquence <strong>de</strong> référence correspondant à la note b <strong>de</strong> la gamme (par<br />

exemple telle qu’indiquée <strong>dans</strong> le Tableau 2.1). L’intervalle en <strong>de</strong>mi-tons entre fb et<br />

une fréquence quelconque f est I(f,fb), tel que donné par l’Équation 4. Or, comme<br />

décrit en Section 2.2.3, la perception cyclique <strong>de</strong>s hauteurs implique que la note<br />

b peut correspondre à une ou plusieurs octaves, donc aux fréquences fb, 2fb, 4fb,<br />

etc. Chacune <strong>de</strong> ces fréquences doit donc être prise en compte pour le calcul du<br />

coefficient b du chroma. La taille en <strong>de</strong>mi-tons <strong>de</strong> l’intervalle entre une fréquence<br />

quelconque f et la fréquence <strong>de</strong> la note b la plus proche est donc donnée par :<br />

Ib(f) = 12 · log2( f<br />

) mod 12, (8)<br />

où x mod y désigne le reste <strong>de</strong> la division euclidienne <strong>de</strong> x par y.<br />

Une estimation simple ˆ h <strong>de</strong>s classes tona<strong>les</strong> peut alors être calculée en sommant<br />

<strong>les</strong> contributions <strong>de</strong>s différentes occurrences <strong>de</strong> la note b <strong>dans</strong> le spectre, selon la<br />

fb


30 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

formule :<br />

ˆh[b] =<br />

<br />

k t.q. Ib(fk)=0<br />

A[k], pour b ∈ 1,B. (9)<br />

Cependant, afin <strong>de</strong> prendre en compte la perception par plage <strong>de</strong> fréquences <strong>de</strong>s<br />

hauteurs (voir Section 2.2.3) ainsi qu’une possible légère variation <strong>de</strong>s composantes<br />

fréquentiel<strong>les</strong>, la contribution <strong>dans</strong> le coefficient b du chroma est étendue à <strong>de</strong>s<br />

ban<strong>de</strong>s <strong>de</strong> fréquences centrées autour <strong>de</strong>s occurrences <strong>de</strong> b <strong>dans</strong> le spectre [G´06], représentées<br />

par <strong>de</strong>s sections grisées sur la Figure 2.6-(i). Les coefficients ainsi repérés<br />

sont pondérés et contribuent ensuite au calcul du coefficient b <strong>de</strong> h. La fenêtre <strong>de</strong><br />

pondération d’une fréquence f relativement à la note b est donnée par la formule :<br />

<br />

cos2 (π · Ib(f)<br />

l ) si |Ib(f)| ≤ l<br />

2<br />

w(b,f) =<br />

0 si |Ib(f)| > l , (10)<br />

2<br />

où l est la largeur <strong>de</strong> la fenêtre <strong>de</strong> pondération, paramètre <strong>de</strong> la métho<strong>de</strong>. Le réglage<br />

<strong>de</strong> l permet <strong>de</strong> modifier la taille <strong>de</strong>s ban<strong>de</strong>s fréquentiel<strong>les</strong> considérées pour chaque<br />

note.<br />

Le chroma h correspond alors à la somme <strong>de</strong>s contributions <strong>de</strong>s ban<strong>de</strong>s fréquentiel<strong>les</strong><br />

ainsi définies :<br />

h[b] =<br />

N<br />

w(b,fk) · A[k] 2 pour b ∈ 1,B. (11)<br />

k=1<br />

Avec cette formalisation, plusieurs réglages permettent d’adapter le <strong>de</strong>scripteur<br />

chroma à l’application considérée.<br />

- La résolution B du chroma. Les valeurs couramment utilisées sont 12 (division<br />

<strong>de</strong> la gamme en <strong>de</strong>mi-tons), 24 (division en quarts <strong>de</strong> tons) et 36 (division en<br />

sixième <strong>de</strong> tons) [G´06]. Les valeurs <strong>les</strong> plus élevées apportent une plus gran<strong>de</strong><br />

précision <strong>de</strong>s systèmes <strong>de</strong> comparaison, mais augmentent le temps <strong>de</strong> calcul <strong>de</strong><br />

la comparaison <strong>de</strong> <strong>de</strong>scripteurs [SGHS08].<br />

- La largeur l <strong>de</strong> la fenêtre <strong>de</strong> pondération. Gómez [G´06] indique un paramétrage<br />

empirique à 2<br />

3 <strong>de</strong> ton. La modification <strong>de</strong> ce paramètre permet <strong>de</strong> faire varier la<br />

plage <strong>de</strong> fréquences correspondant à une hauteur.<br />

2.2.7 Traitements possib<strong>les</strong><br />

Afin <strong>de</strong> représenter le plus précisément possible l’information tonale, le calcul du<br />

chroma peut compter plusieurs étapes <strong>de</strong> traitements supplémentaires. En effet, le<br />

chroma défini jusqu’ici peut présenter <strong>de</strong>s limitations qui détériorent sa représentativité<br />

<strong>de</strong> l’information tonale. En particulier, la présence <strong>de</strong> nombreuses composantes<br />

harmoniques ou un important problème d’accord peuvent rendre la détection tonale<br />

inefficace [G´06]. La liste <strong>de</strong>s principa<strong>les</strong> améliorations implémentées est donnée ci<strong>de</strong>ssous.<br />

Nous invitons le lecteur à se référer aux ouvrages cités pour <strong>de</strong> plus amp<strong>les</strong><br />

détails, ainsi qu’à l’article [MEKR11, p.1091–1092] pour un <strong>de</strong>scriptif général <strong>de</strong><br />

ces améliorations.<br />

- Réduction <strong>de</strong> la plage fréquentielle analysée [MEKR11] ;<br />

- Correction <strong>de</strong> l’accord [EP07] ;<br />

- Prise en compte <strong>de</strong>s fréquences harmoniques [G´06, p.77] ;


2.3 Représentation séquentielle pour la comparaison 31<br />

(i)<br />

(ii)<br />

(iii)<br />

Signal audio<br />

Découpage en trames<br />

<strong>Analyse</strong> <strong>de</strong>s trames<br />

Algorithmes <strong>de</strong> traitement<br />

(FFT, banques <strong>de</strong> filtres, auto-corrélation…)<br />

(iv) Séquence <strong>de</strong> <strong>de</strong>scripteurs Fig. 2.7 – Métho<strong>de</strong> <strong>de</strong> représentation du signal audio. Le signal (i) est découpé<br />

en trames <strong>de</strong> tail<strong>les</strong> prédéfinies (ii), chacune étant ensuite analysée (iii) pour produire<br />

un <strong>de</strong>scripteur musical. Cette métho<strong>de</strong> produit une séquence <strong>de</strong> <strong>de</strong>scripteurs<br />

correspondant à l’analyse successive <strong>de</strong>s trames (iv).<br />

- Blanchiment <strong>de</strong> spectre et correction <strong>de</strong> timbre [SR99, ME10] ;<br />

- Normalisation [G´06, p.79].<br />

Les chromas utilisés <strong>dans</strong> <strong>les</strong> expériences décrites <strong>dans</strong> ce document ont été<br />

calculés implémentant plusieurs <strong>de</strong> ces améliorations, tel<strong>les</strong> que proposées par Gómez<br />

[G´06]. L’évaluation <strong>de</strong> ces chromas a souligné leur robustesse face à <strong>de</strong>s facteurs<br />

d’erreurs communs en analyse tonale [G´06, p.80–99], tels que la présence <strong>de</strong> bruit ou<br />

<strong>de</strong> notes désaccordées, le changement d’instrumentation ou encore la modification<br />

<strong>de</strong> la dynamique. En outre, une étu<strong>de</strong> comparative <strong>de</strong> ce <strong>de</strong>scripteur avec l’état <strong>de</strong><br />

l’art a mis en avant la qualité <strong>de</strong> la représentation tonale obtenue pour <strong>de</strong>s applications<br />

comme l’analyse <strong>de</strong> la tonalité [G´06] ou l’alignement <strong>de</strong> <strong>séquences</strong> [SGHS08].<br />

2.3 Représentation séquentielle pour la comparaison<br />

Le <strong>de</strong>scripteur tonal introduit et défini <strong>dans</strong> la section précé<strong>de</strong>nte permet <strong>de</strong> représenter<br />

une information musicale riche <strong>de</strong>puis une portion <strong>de</strong> signal audio. Cette<br />

analyse peut être combinée à un traitement par trames afin d’obtenir une représentation<br />

séquentielle <strong>de</strong> l’information tonale au sein d’un morceau <strong>de</strong> musique, comme<br />

décrit ci-<strong>de</strong>ssous.<br />

2.3.1 Traitement par trames<br />

Les algorithmes d’analyse du signal numérique suivent généralement une approche<br />

<strong>de</strong> traitement par blocs [KD06, p.68–77]. Cette technique consiste à enregistrer<br />

<strong>dans</strong> un tampon mémoire un nombre prédéterminé d’échantillons du signal<br />

audio, puis à analyser l’information reçue à chaque fois que le tampon mémoire est<br />

rempli. Cette métho<strong>de</strong> consiste donc à diviser le signal audio analysé en segments,<br />

chaque segment ainsi défini étant appelé trame. L’algorithme d’analyse produit alors<br />

un <strong>de</strong>scripteur qui caractérise chaque trame selon un paramètre musical, se rattachant<br />

aux critères définis en Section 2.1. La Figure 2.7 représente schématiquement<br />

le processus d’analyse du signal audio utilisé.


32 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

Le choix <strong>de</strong>s durées <strong>de</strong> trames <strong>de</strong> signal dépend <strong>de</strong> multip<strong>les</strong> facteurs :<br />

- Les limites théoriques <strong>de</strong>s outils mathématiques utilisés, comme la transformée<br />

<strong>de</strong> Fourier décrite en Section 2.2.4.1, imposent <strong>de</strong>s contraintes sur le découpage<br />

effectué afin <strong>de</strong> conserver une analyse <strong>de</strong> bonne qualité ;<br />

- En outre, la nature du signal analysé, et notamment son caractère stationnaire à<br />

l’échelle <strong>de</strong> temps considérée, induit également <strong>de</strong>s limitations sur le découpage<br />

en trames ;<br />

- Enfin, la durée <strong>de</strong>s trames est influencée par l’information musicale à représenter.<br />

Par exemple, <strong>dans</strong> le cas <strong>de</strong> l’analyse tonale d’un morceau, il convient <strong>de</strong><br />

choisir une durée <strong>de</strong> trame supérieure à la note la plus courte du morceau analysé<br />

afin <strong>de</strong> conserver une certaine pertinence musicale. À l’inverse, <strong>dans</strong> le cas<br />

d’une détection <strong>de</strong>s attaques <strong>de</strong> notes d’un morceau (ou onsets), <strong>les</strong> durées <strong>de</strong><br />

trames doivent être suffisamment faib<strong>les</strong> pour permettre l’i<strong>de</strong>ntification précise<br />

<strong>de</strong>s portions <strong>de</strong> signal correspondant aux débuts <strong>de</strong> notes, ou transitoires.<br />

Selon l’application considérée, <strong>les</strong> durées <strong>de</strong>s trames peuvent être définies <strong>de</strong> manière<br />

constante ou dépendre d’un paramètre musical, comme <strong>les</strong> attaques <strong>de</strong> notes ou le<br />

tempo (voir par exemple [EP07, Jeh05a]).<br />

À l’issue <strong>de</strong> ce traitement, le morceau <strong>de</strong> musique est représenté par une séquence<br />

<strong>de</strong> <strong>de</strong>scripteurs qui décrivent l’évolution d’un critère musical, <strong>les</strong> informations tona<strong>les</strong><br />

<strong>dans</strong> notre cas.<br />

2.3.2 Comparaison entre <strong>de</strong>scripteurs<br />

L’analyse <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> requiert un mécanisme permettant <strong>de</strong> comparer<br />

<strong>les</strong> <strong>de</strong>scripteurs entre eux. Il convient donc <strong>de</strong> définir une mesure permettant<br />

d’estimer la ressemblance entre <strong>de</strong>ux chromas. Le choix effectué pour comparer <strong>de</strong>s<br />

chromas <strong>dans</strong> le cadre <strong>de</strong> ces travaux est issu notamment du travail <strong>de</strong> Serrà et<br />

al. [SGHS08], qui met en avant la qualité <strong>de</strong> ces mesures pour l’estimation <strong>de</strong> similarités<br />

séquentiel<strong>les</strong> par rapport aux autres techniques existantes (voir [SGHS08,<br />

p.5] ainsi que l’annexe en ligne 1 ).<br />

La mesure utilisée pour comparer <strong>de</strong>ux chromas h1 et h2 <strong>de</strong> dimension B est<br />

le coefficient <strong>de</strong> corrélation <strong>de</strong> Pearson (voir par exemple [RN88]), défini selon la<br />

formule :<br />

r(h1,h2) =<br />

Bb=1 (h1[b] − h1)(h2[b] − h2)<br />

<br />

Bb=1<br />

(h1[b] − h1) 2<br />

, (12)<br />

Bb=1<br />

(h2[b] − h2)<br />

où h1 et h2 désignent respectivement la valeur moyenne <strong>de</strong>s coefficients <strong>de</strong>s chromas<br />

h1 et h2.<br />

Le coefficient r permet d’estimer la ressemblance entre <strong>de</strong>ux chromas. Cependant,<br />

comme souligné par Serrà et al. [SGHS08, p.9], il est préférable <strong>dans</strong> le<br />

contexte <strong>de</strong> comparaisons tona<strong>les</strong> d’utiliser une mesure <strong>de</strong> similarité binaire, c’est-àdire<br />

prenant une décision <strong>de</strong> type similaire/dissimilaire. Plusieurs raisons justifient<br />

ce choix :<br />

- Comme l’explique Krumhansl [Kru01, p.40–49], il semble erroné <strong>de</strong> décrire <strong>les</strong> relations<br />

entre accords <strong>dans</strong> un espace euclidien. Il est donc important <strong>de</strong> conserver<br />

une mesure <strong>de</strong> similarité non euclidienne ;<br />

1. http://mtg.upf.edu/∼jserra/chromabinsimappendix.html, accédé en août 2012


2.3 Représentation séquentielle pour la comparaison 33<br />

- La définition d’une échelle continue <strong>de</strong> similarité tonale à partir <strong>de</strong> considérations<br />

musica<strong>les</strong> et perceptives semble particulièrement complexe à réaliser sur <strong>de</strong>s<br />

critères objectifs, et indépendants du style musical considéré [SGHS08] ;<br />

- La réduction à une décision binaire représente un choix simple (similaire ou non<br />

similaire) permettant une analogie avec <strong>les</strong> symbo<strong>les</strong> alphabétiques.<br />

La métho<strong>de</strong> <strong>de</strong> comparaison binaire proposée par Serrà et al. [SGHS08] consiste<br />

à vérifier si <strong>de</strong>ux chromas h1 et h2 correspon<strong>de</strong>nt à la même information en comparant<br />

h1 avec toutes <strong>les</strong> transpositions possib<strong>les</strong> <strong>de</strong> h2.<br />

Pour calculer cette comparaison, il convient donc <strong>de</strong> définir la notion <strong>de</strong> transposition<br />

d’un chroma. Puisque chaque coefficient d’un chroma <strong>de</strong> dimension 12<br />

correspond à un <strong>de</strong>mi-ton <strong>de</strong> la gamme tempérée, transposer h <strong>de</strong> k <strong>de</strong>mi-tons<br />

revient à effectuer un décalage circulaire d’ordre k sur <strong>les</strong> coefficients <strong>de</strong> h. Plus<br />

généralement, en notant B la résolution du chroma h, on définit la transposition <strong>de</strong><br />

h d’un nombre k ∈ 1,B <strong>de</strong> divisions, notée h ↑k , par la formule :<br />

∀p ∈ 1,B,h ↑k [p] = h[(p + k) mod B]. (13)<br />

Afin d’estimer la similarité entre <strong>de</strong>ux chromas h1 et h2, h1 est comparé aux B<br />

transpositions <strong>de</strong> h2. L’indice <strong>de</strong> la transposition correspondant à la plus forte corrélation<br />

est appelé Indice <strong>de</strong> Transposition Optimale (OTI) [SGH08]. Formellement,<br />

l’OTI <strong>de</strong> <strong>de</strong>ux chromas h1 et h2 est donné par la formule :<br />

OTI(h1,h2) = argmax{r(h1,h<br />

k∈1,B<br />

↑k<br />

2 )}. (14)<br />

Si l’indice <strong>de</strong> transposition optimale correspond à la version non transposée <strong>de</strong><br />

h2 (soit k = 0 si B = 12), alors <strong>les</strong> <strong>de</strong>ux chromas sont déclarés similaires. Dans le cas<br />

contraire, ils sont déclarés dissimilaires. De plus, si <strong>les</strong> chromas sont d’une dimension<br />

supérieure aux 12 <strong>de</strong>mi-tons <strong>de</strong> la gamme tempérée, il est judicieux d’étendre la<br />

décision <strong>de</strong> similarité à toute transposition inférieure au <strong>de</strong>mi-ton. De cette façon,<br />

une trame <strong>de</strong> signal suivant une légère variation <strong>de</strong>s composantes fréquentiel<strong>les</strong> est<br />

tout <strong>de</strong> même considérée comme similaire à la version bien accordée. La mesure<br />

binaire <strong>de</strong> similarité λ chr entre <strong>de</strong>ux chromas h1 et h2 est finalement définie par la<br />

formule :<br />

⎧<br />

⎪⎨ λ+ si OTI(h1,h2) <<br />

λchr (h1,h2) =<br />

⎪⎩<br />

B<br />

2·12<br />

ou si |OTI(h1,h2) − B| < B<br />

2·12<br />

λ− sinon<br />

, (15)<br />

où λ+ et λ− sont <strong>de</strong>s paramètres, à définir en fonction <strong>de</strong> l’application, correspondant<br />

aux valeurs associées respectivement à la décision <strong>de</strong> similarité et à la décision<br />

<strong>de</strong> dissimilarité entre chromas.


34 Chapitre 2 : Représentation séquentielle <strong>de</strong> l’information musicale<br />

2.4 Conclusion du chapitre<br />

Ce chapitre présente notre métho<strong>de</strong> <strong>de</strong> représentation d’un signal audio sous la<br />

forme d’une séquence <strong>de</strong> <strong>de</strong>scripteurs. Nous justifions le choix <strong>de</strong> représentation <strong>de</strong><br />

l’information tonale par la richesse <strong>de</strong>s <strong>structures</strong> musica<strong>les</strong> qu’elle possè<strong>de</strong>. Nous<br />

présentons alors le <strong>de</strong>scripteur chroma tel qu’il est défini <strong>dans</strong> la littérature et<br />

détaillons son obtention à partir du signal audio. Enfin, nous exposons un outil <strong>de</strong><br />

comparaison entre ces <strong>de</strong>scripteurs en nous appuyant sur une métho<strong>de</strong> existante et<br />

adaptée à la comparaison séquentielle.<br />

Ce chapitre ne décrit qu’un type d’information musicale, l’information tonale.<br />

Une perspective majeure <strong>de</strong> nos travaux est d’examiner une autre information musicale<br />

et ainsi d’aboutir à une séquence <strong>de</strong> <strong>de</strong>scripteurs fondés sur un critère musical<br />

distinct. La combinaison <strong>de</strong> différents critères <strong>de</strong> <strong>de</strong>scription est alors un enjeu important<br />

<strong>de</strong>s travaux futurs, <strong>dans</strong> l’objectif d’extraire <strong>de</strong>puis le signal audio une<br />

représentation encore plus précise et pertinente d’un point <strong>de</strong> vue musical.


Chapitre 3<br />

Comparaison <strong>de</strong> <strong>séquences</strong><br />

musica<strong>les</strong><br />

<strong>Analyse</strong>r <strong>les</strong> <strong>structures</strong> <strong>répétitives</strong> <strong>dans</strong> la musique exige <strong>de</strong> pouvoir estimer la<br />

similarité musicale. Par similarité, nous entendons l’impression subjective <strong>de</strong> percevoir<br />

un contenu musical ressemblant, quel<strong>les</strong> que soient <strong>les</strong> variations acoustiques<br />

<strong>de</strong>s signaux i<strong>de</strong>ntifiés comme similaires. Cet aspect fondamental <strong>de</strong> la notion <strong>de</strong><br />

similarité la rend difficile à définir d’une manière universelle, et sa perception reste<br />

propre à la sensibilité <strong>de</strong> chaque auditeur.<br />

La représentation séquentielle <strong>de</strong> la musique permet <strong>de</strong> modéliser la temporalité<br />

<strong>de</strong>s œuvres musica<strong>les</strong>, et constitue pour cette raison une modélisation précise<br />

<strong>de</strong>s événements musicaux (voir la Section 1.3). C’est pourquoi <strong>de</strong> nombreuses techniques<br />

<strong>de</strong> comparaison <strong>de</strong> <strong>séquences</strong> sont adaptées et utilisées <strong>dans</strong> un contexte<br />

<strong>de</strong> recherche en information musicale [Lem00, CI04]. El<strong>les</strong> sont par exemple employées<br />

pour i<strong>de</strong>ntifier <strong>de</strong>s requêtes par fredonnement [HFR07, ABSW04], synchroniser<br />

<strong>de</strong>s morceaux similaires [DW05, Mül07] ou encore détecter <strong>de</strong>s <strong>structures</strong><br />

<strong>répétitives</strong> [CCI + 02, DH02, HCC04]. Si <strong>les</strong> champs d’application et la formalisation<br />

<strong>de</strong>s outils peuvent varier entre ces différentes étu<strong>de</strong>s, el<strong>les</strong> ont en commun une prise<br />

en compte <strong>de</strong> l’aspect approché <strong>de</strong>s comparaisons effectuées par <strong>de</strong>s techniques dites<br />

d’alignement.<br />

Nous décrivons <strong>dans</strong> ce chapitre <strong>de</strong>s outils d’alignement <strong>de</strong> <strong>séquences</strong> adaptés<br />

à l’estimation <strong>de</strong> la similarité musicale. Nous montrons que ces outils, d’abord introduits<br />

<strong>de</strong> manière formelle et décorrélée <strong>de</strong> tout contexte applicatif, permettent<br />

alors une évaluation pertinente <strong>de</strong> la similarité entre <strong>séquences</strong> musica<strong>les</strong>. La suite<br />

<strong>de</strong> ce chapitre introduit <strong>les</strong> notations formel<strong>les</strong> et <strong>les</strong> algorithmes <strong>de</strong> comparaison<br />

<strong>de</strong> <strong>séquences</strong>, et détaille leurs applications à l’analyse <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong>. La<br />

Section 3.1 définit <strong>les</strong> outils d’algorithmique du texte utilisés pour l’analyse <strong>de</strong> <strong>séquences</strong><br />

musica<strong>les</strong>. À partir <strong>de</strong> la notion simple d’édition <strong>de</strong> <strong>séquences</strong> <strong>de</strong> symbo<strong>les</strong>,<br />

plusieurs techniques d’alignement sont présentées, chaque variante permettant une<br />

meilleure robustesse du système face à <strong>de</strong> possib<strong>les</strong> variations <strong>dans</strong> <strong>les</strong> <strong>séquences</strong><br />

musica<strong>les</strong>. Les techniques d’alignement sont ensuite évaluées <strong>dans</strong> le cadre d’une application<br />

musicale en Section 3.2. Dans le contexte <strong>de</strong> l’estimation <strong>de</strong> la similarité<br />

entre <strong>séquences</strong> musica<strong>les</strong>, un cas pratique d’i<strong>de</strong>ntification <strong>de</strong> reprises est décrit et<br />

évalué. Face au coût calculatoire élevé imposé par <strong>les</strong> techniques d’alignement, nous<br />

examinons une stratégie d’in<strong>de</strong>xation en Section 3.3. Nous proposons une accélération<br />

du système <strong>de</strong> comparaison en nous inspirant d’une métho<strong>de</strong> heuristique mise<br />

au point pour la comparaison efficace <strong>de</strong> <strong>séquences</strong> biologiques, que nous adaptons<br />

aux spécificités <strong>de</strong>s <strong>séquences</strong> musica<strong>les</strong>.


36 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

3.1 Édition et alignement<br />

Nous introduisons <strong>dans</strong> cette section <strong>les</strong> techniques existantes et le vocabulaire<br />

d’algorithmique du texte uti<strong>les</strong> à la comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong>. Dans la<br />

mesure où ces techniques sont largement formalisées et réputées correctes <strong>dans</strong> la<br />

littérature, <strong>les</strong> preuves d’algorithmes ne font pas l’objet <strong>de</strong> cette thèse et ne seront<br />

pas fournies. Nous invitons le lecteur à se référer par exemple aux ouvrages <strong>de</strong><br />

Gusfield [Gus97] ou Crochemore et al. [CHL07] pour plus d’informations sur <strong>les</strong><br />

algorithmes et notations détaillés ci-<strong>de</strong>ssous.<br />

3.1.1 Notations et définitions<br />

Un alphabet Σ est un ensemble fini <strong>de</strong> symbo<strong>les</strong>. Une séquence <strong>de</strong> symbo<strong>les</strong>, ou<br />

plus simplement séquence u définie sur un alphabet Σ est une suite d’éléments <strong>de</strong> Σ.<br />

La taille d’une séquence u, notée |u|, désigne le nombre <strong>de</strong> symbo<strong>les</strong> qui constituent<br />

u. L’ensemble <strong>de</strong>s <strong>séquences</strong> finies <strong>de</strong> symbo<strong>les</strong> définis sur Σ est noté Σ ∗ . On appelle<br />

séquence vi<strong>de</strong>, et on note ε, la séquence ne comportant aucun symbole (<strong>de</strong> taille<br />

nulle).<br />

On note u[i] le i-ème symbole <strong>de</strong> u, u pouvant ainsi être écrite comme une<br />

séquence <strong>de</strong> ses symbo<strong>les</strong> : u[1]u[2] . . . u[|u|]. Une séquence v est dite facteur <strong>de</strong> u si<br />

et seulement s’il existe <strong>de</strong>ux <strong>séquences</strong> w1 et w2 tel<strong>les</strong> que u = w1vw2. Un facteur<br />

v d’une séquence u est dit propre si v = u.<br />

Le facteur <strong>de</strong> u commençant à l’indice i et finissant à l’indice j avec 1 ≤ i ≤<br />

j ≤ |u| est noté u[i . . . j] = u[i]u[i + 1] . . . u[j]. Par convention, si i > j, alors<br />

u[i . . . j] = ε. Une séquence v est dite suffixe (respectivement préfixe) <strong>de</strong> u si et<br />

seulement s’il existe une séquence w telle que u = wv (resp. u = vw). Tout suffixe<br />

ou préfixe v d’une séquence u est dit propre si v = u. En particulier, <strong>les</strong> <strong>séquences</strong><br />

u et ε sont toutes <strong>de</strong>ux facteurs, préfixes et suffixes <strong>de</strong> la séquence u. L’ensemble<br />

<strong>de</strong>s facteurs d’une séquence u est noté S(u).<br />

Deux facteurs non vi<strong>de</strong>s v = u[k . . . l] et w = u[m . . . n] <strong>de</strong> u sont dits disjoints<br />

<strong>dans</strong> u si et seulement s’ils ne partagent aucune position <strong>de</strong> u, c’est-à-dire si et<br />

seulement si [k,l] ∩ [m,n] = ∅. En outre, on dit que <strong>les</strong> facteurs v et w sont chevauchants<br />

<strong>dans</strong> u si et seulement si un suffixe propre <strong>de</strong> v est un préfixe propre <strong>de</strong> w,<br />

ou si un suffixe propre <strong>de</strong> w est un préfixe propre <strong>de</strong> v. On désigne par intersection<br />

<strong>de</strong> v et w, et on note v ∩u w, le facteur <strong>de</strong> u correspondant aux symbo<strong>les</strong> communs<br />

<strong>de</strong> v et w <strong>dans</strong> u : v ∩u w = u[max(k,m) . . . min(l,n)]. En particulier, l’intersection<br />

<strong>de</strong> facteurs disjoints <strong>dans</strong> u est ε, l’intersection <strong>de</strong> u et d’un facteur v <strong>de</strong> u est v<br />

et l’intersection <strong>de</strong> u et u est u. On peut facilement montrer que <strong>de</strong>ux facteurs v<br />

et w d’une séquence u se chevauchent <strong>dans</strong> u si et seulement si (i) ils ne sont pas<br />

disjoints <strong>dans</strong> u, (ii) v /∈ S(w) et (iii) w /∈ S(v).<br />

L’exemple suivant illustre la notion <strong>de</strong> facteurs, préfixes, suffixes et intersections<br />

<strong>dans</strong> la séquence musicalement :<br />

Séquences Propriétés<br />

u = musicalement v1,v2,v3,v4,u,ε ∈ S(u),v5 /∈ S(u)<br />

v1 = musicale v1 préfixe <strong>de</strong> u<br />

v2 = ment v2,v3 suffixes <strong>de</strong> u<br />

v3 = calement v1 ∩u v2 = ε, v1 ∩u v3 =cale, v1 ∩u v4 = sical<br />

v4 = sical v1 et v3 chevauchants <strong>dans</strong> u, v2 et v4 disjoints <strong>dans</strong> u<br />

v5 = amusical v1 et v4 non chevauchants et non disjoints <strong>dans</strong> u


3.1 Édition et alignement 37<br />

Transcription 1 Transcription 2 Transcription 3<br />

u = cabaaab u = cabaaab u = cabaaab<br />

aabaaab R cabaaab D cabaaab D<br />

acbaaab R abaaab C abaaab D<br />

acbaaab C acbaaab I baaab D<br />

acbaaab D acbaaab C aaab C<br />

acbbab R acbbaab R acaab I<br />

acbbaab C acbbaab C acbab R<br />

acbbaab D acbbaab C acbbb R<br />

acbbaa R acbbaab D acbba R<br />

acbbaa I<br />

v = acbbaa v = acbbaa v = acbbaa<br />

t1 = RRCDRCDR t2 = DCICRCCD t3 = DDDCIRRRI<br />

Tab. 3.1 – Trois exemp<strong>les</strong> <strong>de</strong> transcriptions <strong>de</strong> <strong>de</strong>ux <strong>séquences</strong> u et v.<br />

3.1.2 Distance d’édition et alignement global<br />

L’édition [Lev66] est une formalisation simple et fréquemment employée qui permet<br />

<strong>de</strong> calculer une distance entre <strong>de</strong>ux <strong>séquences</strong> [Gus97]. Éditer une séquence u<br />

en une séquence v consiste à transformer u en v en effectuant une série d’opérations<br />

élémentaires sur <strong>les</strong> symbo<strong>les</strong> <strong>de</strong> ces <strong>séquences</strong>, appelées opérations d’édition.<br />

Les opérations usuel<strong>les</strong> incluent l’insertion d’un symbole <strong>de</strong> v, la suppression d’un<br />

symbole <strong>de</strong> u et la substitution d’un symbole <strong>de</strong> u par un symbole <strong>de</strong> v. Plus précisément,<br />

la substitution d’un symbole <strong>de</strong> u par le même symbole <strong>dans</strong> v est appelée<br />

correspondance, et la substitution d’un symbole <strong>de</strong> u par un symbole distinct <strong>dans</strong><br />

v est appelé remplacement. Lors <strong>de</strong> l’édition d’une séquence u, on appelle opération<br />

d’édition stricte toute opération d’édition qui modifie u (telle que l’insertion, la<br />

suppression ou le remplacement), et opération d’édition non stricte toute opération<br />

qui ne modifie pas u (correspondance).<br />

Il convient <strong>de</strong> noter que d’autres opérations peuvent être considérées pour<br />

prendre en compte une édition plus sophistiquée entre <strong>de</strong>s <strong>séquences</strong> <strong>de</strong> symbo<strong>les</strong>.<br />

Par exemple, <strong>les</strong> opérations <strong>de</strong> consolidation et <strong>de</strong> fragmentation, tel<strong>les</strong> qu’introduites<br />

par Mongeau et Sankoff [MS90], peuvent être employées pour représenter<br />

<strong>de</strong>s transformations usuel<strong>les</strong> sur une <strong>de</strong>scription symbolique <strong>de</strong>s notes <strong>de</strong> musique.<br />

Bien que ces différentes opérations ne soient pas considérées <strong>dans</strong> la suite <strong>de</strong> nos travaux,<br />

leur prise en compte pour l’estimation <strong>de</strong> similarité constitue une perspective<br />

importante <strong>de</strong> cette thèse.<br />

3.1.2.1 Transcription<br />

Afin <strong>de</strong> représenter l’édition entre <strong>de</strong>ux <strong>séquences</strong> u et v, une solution simple<br />

consiste à décrire la série d’opérations d’édition effectuée pour une transformation <strong>de</strong><br />

u en v. Pour ce faire, on attribue à chaque opération d’édition possible un symbole,<br />

et on introduit l’alphabet <strong>de</strong>s opérations d’édition Σo comme l’ensemble <strong>de</strong> ces<br />

symbo<strong>les</strong>. Par exemple, l’alphabet Σo = {C,R,D,I} représente <strong>les</strong> quatre opérations<br />

usuel<strong>les</strong> : la correspondance notée C, le remplacement noté R, la suppression notée<br />

D et l’insertion notée I.


38 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

Définition 1 (Transcription) On appelle transcription <strong>de</strong> l’édition <strong>de</strong> u en v<br />

toute séquence <strong>de</strong> symbo<strong>les</strong> définie sur un alphabet d’opérations d’édition Σo qui<br />

décrit une série d’opérations permettant d’éditer une séquence u en une séquence v.<br />

Il existe <strong>de</strong> nombreuses transcriptions <strong>de</strong> l’édition <strong>de</strong> <strong>de</strong>ux <strong>séquences</strong> u et v.<br />

Ainsi, <strong>dans</strong> le Tableau 3.1, t1, t2 et t3 sont <strong>de</strong>s transcriptions possib<strong>les</strong> <strong>de</strong> l’édition<br />

<strong>de</strong> u en v sur Σo = {C,R,D,I}.<br />

Pour <strong>de</strong>ux <strong>séquences</strong> <strong>de</strong> symbo<strong>les</strong> u et v, on note T (u,v) l’ensemble <strong>de</strong>s transcriptions<br />

<strong>de</strong> l’édition <strong>de</strong> u en v. Il convient <strong>de</strong> noter que lors d’une transcription<br />

<strong>de</strong> l’édition d’une séquence u en une séquence v, on applique une et une seule opération<br />

d’édition à chaque position <strong>de</strong> u et une et une seule opération d’édition à<br />

chaque position <strong>de</strong> v (l’opération <strong>de</strong> correspondance étant assimilable à la fonction<br />

i<strong>de</strong>ntité). En conséquence, la séquence vi<strong>de</strong> ε ne peut pas transcrire l’édition <strong>de</strong><br />

<strong>séquences</strong> non vi<strong>de</strong>s ; formellement, ε transcrit l’édition <strong>de</strong> u en v si et seulement si<br />

u = v = ε.<br />

3.1.2.2 Alignement global<br />

La transcription d’édition est la représentation <strong>de</strong> la transformation d’une séquence<br />

en une autre. Une alternative pour visualiser l’édition consiste à expliciter<br />

<strong>les</strong> opérations d’édition effectuées <strong>dans</strong> la transformation en plaçant en correspondance<br />

<strong>les</strong> symbo<strong>les</strong> substitués. Ainsi, l’alignement global est défini <strong>de</strong> la manière<br />

suivante :<br />

Définition 2 (Alignement global) Soient Σo un alphabet d’opérations d’édition,<br />

u et v <strong>de</strong>ux <strong>séquences</strong>. Un alignement global entre u et v est une séquence z sur l’alphabet<br />

(Σo ∪{ε})×(Σo ∪{ε})\{(ε,ε)} dont la projection sur la première composante<br />

est u et la projection sur la secon<strong>de</strong> est v.<br />

Chaque symbole (a,b) d’un alignement <strong>de</strong> u en v représente une opération <strong>de</strong><br />

l’édition entre <strong>les</strong> <strong>de</strong>ux <strong>séquences</strong> : une substitution si a et b sont <strong>de</strong>s symbo<strong>les</strong> respectifs<br />

<strong>de</strong> u et v, une suppression si b = ε et une insertion si a = ε.<br />

En pratique, l’alignement global A <strong>de</strong> <strong>de</strong>ux <strong>séquences</strong> <strong>de</strong> symbo<strong>les</strong> u et v pour<br />

une transcription donnée t s’obtient en matérialisant le symbole ε par un symbole<br />

spécial d’alignement φ (un tiret par exemple). Ainsi, on ajoute φ <strong>dans</strong> u et <strong>dans</strong> v,<br />

puis on place <strong>les</strong> <strong>de</strong>ux <strong>séquences</strong> résultantes ut et vt l’une en-<strong>de</strong>ssous <strong>de</strong> l’autre <strong>de</strong><br />

telle sorte qu’à chaque symbole <strong>de</strong> ut est associé un symbole <strong>de</strong> vt qui vérifie <strong>les</strong><br />

opérations <strong>de</strong> t. Plus précisément, <strong>dans</strong> le cas <strong>de</strong> l’insertion d’un symbole s <strong>de</strong> v,<br />

un symbole spécial φ est ajouté <strong>dans</strong> ut <strong>de</strong> telle sorte que s et φ soient alignés l’un<br />

en-<strong>de</strong>ssous <strong>de</strong> l’autre; <strong>dans</strong> le cas <strong>de</strong> la suppression d’un symbole s <strong>de</strong> u, un symbole<br />

spécial φ est ajouté <strong>dans</strong> v <strong>de</strong> telle sorte que s et φ soient alignés l’un en-<strong>de</strong>ssous <strong>de</strong><br />

l’autre; enfin, <strong>dans</strong> le cas d’une substitution d’un symbole s1 <strong>de</strong> u par un symbole<br />

s2 <strong>de</strong> v, s1 <strong>dans</strong> ut et s2 <strong>dans</strong> vt sont alignés l’un en-<strong>de</strong>ssous <strong>de</strong> l’autre.<br />

L’exemple suivant décrit une transcription t <strong>de</strong>s <strong>séquences</strong> u = aabcdaaabda et<br />

v = abbccdaacda (ii) ainsi que l’alignement global correspondant (i), avec le tiret<br />

comme symbole spécial d’alignement φ :<br />

(i)<br />

ut<br />

vt<br />

a<br />

a<br />

a<br />

b<br />

b<br />

b<br />

c<br />

c<br />

-<br />

c<br />

d<br />

d<br />

a<br />

a<br />

a<br />

a<br />

a<br />

-<br />

b<br />

c<br />

d<br />

d<br />

a<br />

a<br />

(ii) t C R C C I C C C D R C C


3.1 Édition et alignement 39<br />

Ce processus définit une équivalence entre la transcription t et l’alignement<br />

global A : à toute transcription correspond un unique alignement, et réciproquement.<br />

Malgré cette équivalence, l’interprétation et l’utilisation <strong>de</strong> l’alignement et<br />

<strong>de</strong> la transcription diffèrent en pratique. La transcription représente la série <strong>de</strong><br />

changements nécessaires à la tranformation d’une séquence en une autre, alors que<br />

l’alignement explicite la transformation <strong>de</strong>s <strong>séquences</strong> el<strong>les</strong>-mêmes. La première représentation<br />

est ainsi centrée sur le processus <strong>de</strong> transformation, alors que la secon<strong>de</strong><br />

met en avant le produit <strong>de</strong> cette transformation.<br />

Comme <strong>dans</strong> le cas <strong>de</strong> la transcription, il existe un nombre important d’alignements<br />

globaux d’une séquence <strong>de</strong> symbo<strong>les</strong> sur une autre. Afin <strong>de</strong> différencier ces<br />

alignements, il convient d’introduire une pondération <strong>de</strong>s opérations d’édition.<br />

3.1.2.3 Pondération<br />

À chacune <strong>de</strong>s opérations élémentaires d’édition est associé un poids, qui dépend<br />

<strong>de</strong>s symbo<strong>les</strong> comparés. Formellement, on définit une fonction <strong>de</strong> pondération δ :<br />

Σ × Σ → R + qui traduit le coût <strong>de</strong> l’alignement <strong>de</strong> <strong>de</strong>ux symbo<strong>les</strong>.<br />

Par exemple, pour <strong>de</strong>ux symbo<strong>les</strong> x et y alignés,<br />

- si x est un symbole spécial, alors δ(x,y) correspond à un coût δI d’insertion <strong>de</strong><br />

y;<br />

- si y est un symbole spécial, alors δ(x,y) correspond à un coût δD <strong>de</strong> suppression<br />

<strong>de</strong> x;<br />

- si x et y sont i<strong>de</strong>ntiques, alors δ(x,y) correspond à un coût <strong>de</strong> correspondance<br />

δC;<br />

- si x et y sont différents, alors δ(x,y) correspond à un coût <strong>de</strong> remplacement δR.<br />

La spécification <strong>de</strong> la fonction <strong>de</strong> pondération δ est appelée schéma <strong>de</strong> coûts <strong>de</strong><br />

pondération. En pratique, le schéma <strong>de</strong>s coûts <strong>de</strong> pondération est souvent défini par<br />

la donnée <strong>de</strong>s fonctions <strong>de</strong> pondération <strong>de</strong> chaque opération élémentaire δE pour<br />

E ∈ Σo.<br />

Définition 3 (Coût <strong>de</strong> transcription) Soient u et v <strong>de</strong>ux <strong>séquences</strong>, et t une<br />

transcription non vi<strong>de</strong> <strong>de</strong> l’édition <strong>de</strong> u en v. On pose ut et vt <strong>les</strong> <strong>séquences</strong> respectives<br />

u et v alignées selon la transcription t. On appelle coût <strong>de</strong> la transcription t,<br />

et on note ∆(t), la somme <strong>de</strong>s coûts d’opérations d’édition :<br />

|t|<br />

<br />

∆(t) = δ(ut[i],vt[i]).<br />

i=1<br />

Par convention, le coût <strong>de</strong> transcription <strong>de</strong> la séquence vi<strong>de</strong> ε est nul : ∆(ε) = 0.<br />

Le coût <strong>de</strong> transcription permet ainsi <strong>de</strong> différencier et <strong>de</strong> pondérer <strong>les</strong> éditions<br />

possib<strong>les</strong> <strong>de</strong> u en v.<br />

3.1.2.4 Distance d’édition<br />

La pondération par coûts permet d’introduire un critère optimal pour <strong>les</strong> transcriptions<br />

d’édition. On définit alors une transcription <strong>de</strong> coût optimal entre <strong>de</strong>ux<br />

<strong>séquences</strong> <strong>de</strong> symbo<strong>les</strong> u et v comme une transcription <strong>de</strong> l’édition <strong>de</strong> u en v <strong>de</strong><br />

coût minimal.


40 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

Définition 4 (Distance d’édition) Soient u et v <strong>de</strong>ux <strong>séquences</strong>. On appelle distance<br />

d’édition entre u et v, notée d(u,v), le coût d’une transcription optimale <strong>de</strong><br />

l’édition <strong>de</strong> u en v :<br />

d(u,v) = min ∆(t) .<br />

t∈T (u,v)<br />

Le coût optimal peut être atteint pour plusieurs transcriptions d’édition, ainsi<br />

il n’y a pas forcément unicité <strong>de</strong>s transcriptions optima<strong>les</strong> <strong>de</strong> l’édition <strong>de</strong> u en v.<br />

La métho<strong>de</strong> pratique <strong>de</strong> calcul <strong>de</strong> la distance d’édition est généralement attribuée<br />

à Needleman et Wunsch [NW70] (ou Levenshtein [Lev66] <strong>dans</strong> le cas <strong>de</strong> coûts<br />

unitaires). Elle est basée sur un principe <strong>de</strong> programmation dynamique pour calculer<br />

cette distance <strong>de</strong> manière efficace.<br />

3.1.2.5 Calcul pratique <strong>de</strong> la distance d’édition<br />

Soient u et v <strong>de</strong>ux <strong>séquences</strong> définies sur un alphabet Σ et <strong>de</strong> longueur respective<br />

n = |u| et m = |v|. Pour tout (i,j) ∈ 1,n × 1,m , on désigne par di,j la distance<br />

d’édition entre u[1 . . . i] et v[1 . . . j].<br />

Le calcul <strong>de</strong> di,j est effectué par récurrence sur i et j. Son initialisation se fait<br />

selon la proposition :<br />

Proposition 1 (Initialisation) Pour tout (i,j) ∈ 0,n × 0,m,<br />

<br />

di,0 = i<br />

d0,j = j .<br />

La récurrence sur i et j est donnée par la proposition :<br />

Proposition 2 (Récurrence) Soient φ le symbole spécial d’alignement et δ un<br />

schéma <strong>de</strong> coûts <strong>de</strong> pondération. Pour tout (i,j) ∈ 1,n × 1,m,<br />

⎧<br />

⎪⎨ di−1,j + δ(u[i],φ) (i)<br />

di,j = min di,j−1<br />

⎪⎩<br />

di−1,j−1<br />

+<br />

+<br />

δ(φ,v[j])<br />

δ(u[i],v[j])<br />

(ii)<br />

(iii)<br />

Le calcul par programmation dynamique permet ainsi <strong>de</strong> déduire la distance di,j<br />

à partir d’une optimisation locale entre (i) la distance di−1,j majorée d’un coût <strong>de</strong><br />

suppression du symbole i <strong>de</strong> u, (ii) la distance di,j−1 majorée d’un coût d’insertion<br />

du symbole j <strong>de</strong> v, ou (iii) la distance di−1,j−1 majorée d’un coût <strong>de</strong> substitution<br />

(correspondance ou remplacement) du symbole i <strong>de</strong> u par le symbole j <strong>de</strong> v. La<br />

preuve <strong>de</strong> cet algorithme peut être trouvée, par exemple, <strong>dans</strong> [Gus97, p.218-219].<br />

di,j correspond à la distance d’édition entre <strong>les</strong> i premiers symbo<strong>les</strong> <strong>de</strong> u et <strong>les</strong><br />

j premiers symbo<strong>les</strong> <strong>de</strong> v. Par conséquent, la distance d’édition recherchée d(u,v)<br />

<strong>de</strong> u et v est simplement donnée par :<br />

d(u,v) = dn,m. (16)<br />

.


3.1 Édition et alignement 41<br />

3.1.3 Alignement local<br />

Pour <strong>de</strong> nombreuses applications en analyse <strong>de</strong> <strong>séquences</strong> biologiques comme en<br />

analyse musicale, <strong>de</strong>ux <strong>séquences</strong> peuvent ne pas présenter <strong>de</strong> forte ressemblance<br />

<strong>dans</strong> leur globalité mais contenir <strong>de</strong>s régions <strong>de</strong> gran<strong>de</strong> similarité. L’alignement<br />

local [SW81] est une variante <strong>de</strong> la distance d’édition qui permet <strong>de</strong> localiser <strong>dans</strong><br />

<strong>les</strong> <strong>de</strong>ux <strong>séquences</strong> <strong>les</strong> régions <strong>les</strong> plus similaires.<br />

3.1.3.1 Similarité<br />

La similarité est une notion duale <strong>de</strong> la notion <strong>de</strong> distance. Les <strong>de</strong>ux mesures<br />

diffèrent sur leur logique : à <strong>de</strong>ux symbo<strong>les</strong> i<strong>de</strong>ntiques est associée une faible distance<br />

et une forte similarité, alors qu’à <strong>de</strong>ux symbo<strong>les</strong> distincts est associée une distance<br />

élevée et une faible similarité. En pratique, la notion <strong>de</strong> similarité entre <strong>séquences</strong><br />

convient mieux à l’évaluation d’alignements locaux, comme décrit ci-après.<br />

Formellement, on définit une fonction <strong>de</strong> pondération λ : Σ × Σ → R qui représente<br />

le score <strong>de</strong> l’alignement <strong>de</strong> <strong>de</strong>ux symbo<strong>les</strong>. Comme pour la fonction δ <strong>dans</strong><br />

le cas <strong>de</strong> la pondération par coûts, la définition <strong>de</strong> λ peut être divisée en plusieurs<br />

définitions <strong>de</strong> fonctions <strong>de</strong> score λE pour chacune <strong>de</strong>s opérations d’édition possib<strong>les</strong><br />

E ∈ Σo. La spécification <strong>de</strong> λ, donc <strong>de</strong> l’ensemble <strong>de</strong>s fonctions <strong>de</strong> pondération <strong>de</strong><br />

chaque opération élémentaire, est appelée schéma <strong>de</strong> scores <strong>de</strong> pondération.<br />

Il convient <strong>de</strong> noter que, contrairement aux coûts <strong>de</strong> pondération qui sont définis<br />

sur R + , un score <strong>de</strong> pondération peut correspondre à n’importe quel réel, positif ou<br />

négatif. On introduit alors la notion <strong>de</strong> bonne formation d’un schéma <strong>de</strong> scores <strong>de</strong><br />

pondération :<br />

Définition 5 (Schéma <strong>de</strong> scores bien formé) Un schéma <strong>de</strong> scores <strong>de</strong> pondération<br />

est dit bien formé si à toute opération d’édition stricte est associé un score<br />

négatif, et à toute opération d’édition non stricte est associé un score positif.<br />

Définition 6 (Score <strong>de</strong> transcription) Soit u et v <strong>de</strong>ux <strong>séquences</strong>, et soit t une<br />

transcription non vi<strong>de</strong> <strong>de</strong> l’édition <strong>de</strong> u en v. On pose ut et vt <strong>les</strong> <strong>séquences</strong> respectives<br />

u et v alignées selon la transcription t. On appelle score <strong>de</strong> la transcription t,<br />

et on note Λ(t), la somme <strong>de</strong>s scores d’opérations d’édition :<br />

|t|<br />

<br />

Λ(t) = λ(ut[i],vt[i]).<br />

Par convention, le score <strong>de</strong> la transcription vi<strong>de</strong> est nul : Λ(ε) = 0.<br />

i=1<br />

Définition 7 (Score <strong>de</strong> similarité) Soient u et v <strong>de</strong>ux <strong>séquences</strong>. On appelle<br />

score <strong>de</strong> similarité entre u et v, noté s(u,v), le score d’une transcription optimale<br />

<strong>de</strong> l’édition <strong>de</strong> u en v :<br />

s(u,v) = max Λ(t) .<br />

t∈T (u,v)<br />

Comme <strong>dans</strong> le cas <strong>de</strong> la distance d’édition, le score optimal peut être atteint<br />

pour plusieurs transcriptions d’édition ; ainsi, il n’y a pas forcément unicité <strong>de</strong>s<br />

transcriptions <strong>de</strong> score optimal <strong>de</strong> l’édition <strong>de</strong> u en v.


42 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

3.1.3.2 Similarité locale et alignement local<br />

Le problème <strong>de</strong> la similarité locale [SW81, Gus97] peut être formulé comme<br />

suit :<br />

Problème 1 (Similarité locale) Soient u et v <strong>de</strong>ux <strong>séquences</strong> définies sur un<br />

alphabet Σ, et S(u) et S(v) leurs ensemb<strong>les</strong> <strong>de</strong> facteurs respectifs. Le problème <strong>de</strong> la<br />

similarité locale consiste à trouver <strong>de</strong>ux <strong>séquences</strong> u ′ ∈ S(u) et v ′ ∈ S(v) vérifiant :<br />

s(u ′ ,v ′ ) = max s(x,y)<br />

(x,y)∈S(u)×S(v)<br />

.<br />

Ce score optimal est noté s ∗ (u,v), et appelé score <strong>de</strong> similarité locale <strong>de</strong> u et v.<br />

Par convention, on notera u ∗ et v ∗ <strong>les</strong> facteurs respectifs <strong>de</strong> u et v effectivement<br />

alignés, c’est-à-dire tels que s ∗ (u,v) = s(u ∗ ,v ∗ ). L’alignement global <strong>de</strong> ces <strong>de</strong>ux<br />

facteurs u ∗ et v ∗ <strong>de</strong> score s ∗ (u,v) est appelé alignement local optimal <strong>de</strong> u et v, ou<br />

simplement alignement local <strong>de</strong> u et v en l’absence d’ambiguïté.<br />

L’exemple suivant décrit un alignement local optimal <strong>de</strong> u = babcbaaabcbb et<br />

v = ccccbcababccacc (i) ainsi que la transcription <strong>de</strong>s facteurs alignés en noir (ii),<br />

avec φ = “- ′′ comme symbole spécial d’alignement :<br />

(i) u ∗ t b a b c - b a a a b c - b b<br />

v ∗ t c c c c b c a b - - a b c c a c c<br />

(ii) t C C I C D D C C C<br />

Il convient <strong>de</strong> noter que <strong>les</strong> symbo<strong>les</strong> grisés ne sont pas alignés <strong>dans</strong> cet exemple,<br />

et seule la similarité locale <strong>de</strong>s facteurs symbolisés en noir est finalement prise en<br />

compte.<br />

La métho<strong>de</strong> pratique <strong>de</strong> calcul <strong>de</strong> l’alignement local est attribuée à Smith et<br />

Waterman [SW81]. Comme <strong>dans</strong> le cas <strong>de</strong> la distance d’édition, elle est basée sur<br />

un principe <strong>de</strong> programmation dynamique.<br />

3.1.3.3 Calcul pratique <strong>de</strong> la similarité locale<br />

Soient u et v <strong>de</strong>ux <strong>séquences</strong> définies sur un alphabet Σ <strong>de</strong> longueur respective<br />

n = |u| et m = |v|. Afin <strong>de</strong> déterminer <strong>les</strong> <strong>de</strong>ux facteurs <strong>de</strong> u et v <strong>de</strong> similarité<br />

optimale, Smith et Waterman [SW81] proposent <strong>de</strong> parcourir tous <strong>les</strong> préfixes <strong>de</strong> u et<br />

v, et <strong>de</strong> déterminer pour chaque couple <strong>de</strong> préfixes, par programmation dynamique,<br />

<strong>les</strong> <strong>de</strong>ux suffixes qui optimisent le score <strong>de</strong> similarité. Plus précisément, pour tout<br />

(i,j) ∈ 1,n × 1,m, on désigne par s + i,j le score <strong>de</strong> similarité optimal entre un<br />

suffixe <strong>de</strong> u[1 . . . i], potentiellement vi<strong>de</strong>, et un suffixe <strong>de</strong> v[1 . . . j], potentiellement<br />

vi<strong>de</strong>. Dans le cas où <strong>les</strong> <strong>de</strong>ux suffixes optimaux correspon<strong>de</strong>nt à la séquence vi<strong>de</strong>,<br />

leur score <strong>de</strong> similarité est nul. Par conséquent, s + i,j est égal au score s <strong>de</strong> similarité<br />

maximale entre un suffixe <strong>de</strong> u se terminant en i et un suffixe <strong>de</strong> v se terminant en<br />

j si s > 0, à 0 sinon. Formellement,<br />

s + i,j<br />

= max{0} ∪ {s(u[k . . . i],v[l . . . j])|(k,l) ∈ 1,i × 1,j}. (17)<br />

Le calcul pratique <strong>de</strong> s + i,j est réalisé par récurrence sur i et j. Son initialisation<br />

se fait selon la proposition :<br />

Proposition 3 (Initialisation) Pour tout (i,j) ∈ 0,n × 0,m,<br />

<br />

+<br />

s i,0 = 0<br />

.<br />

= 0<br />

s + 0,j


3.1 Édition et alignement 43<br />

La récurrence sur i et j est donnée par la proposition :<br />

Proposition 4 (Récurrence) Soient φ le symbole spécial d’alignement et λ un<br />

schéma <strong>de</strong> scores <strong>de</strong> pondération bien formé. Pour tout (i,j) ∈ 1,n × 1,m,<br />

s + i,j<br />

⎧<br />

s<br />

⎪⎨<br />

= max<br />

⎪⎩<br />

+ i−1,j + λ(u[i],φ) (i)<br />

s + i,j−1 + λ(φ,v[j]) (ii)<br />

s + i−1,j−1 + λ(u[i],v[j]) (iii)<br />

0 (iv)<br />

Comme précé<strong>de</strong>mment, le calcul par programmation dynamique permet <strong>de</strong> déduire<br />

le score <strong>de</strong> similarité s + i,j à partir d’une optimisation locale entre (i) le score<br />

s + i−1,j amoindri d’un score <strong>de</strong> suppression du symbole i <strong>de</strong> u, (ii) le score s+ i,j−1<br />

amoindri d’un score d’insertion du symbole j <strong>de</strong> v, (iii) le score s + i−1,j−1 additionné<br />

à un score <strong>de</strong> substitution (correspondance ou remplacement) du symbole i <strong>de</strong> u<br />

par le symbole j <strong>de</strong> v, et (iv) la condition d’alignement local 0 qui permet d’aligner<br />

<strong>de</strong>s suffixes vi<strong>de</strong>s <strong>de</strong> u et v, et dont le choix marque ainsi le début d’un nouvel alignement.<br />

La preuve <strong>de</strong> cet algorithme peut être trouvée, par exemple, <strong>dans</strong> [Gus97,<br />

p.233-234]<br />

s + i,j correspond au score <strong>de</strong> similarité optimal entre un suffixe <strong>de</strong>s i premiers<br />

symbo<strong>les</strong> <strong>de</strong> u et un suffixe <strong>de</strong>s j premiers symbo<strong>les</strong> <strong>de</strong> v. Par conséquent, le score<br />

<strong>de</strong> similarité locale recherché s∗ (u,v) <strong>de</strong> u et v est donné par :<br />

3.1.4 Implémentation<br />

s ∗ (u,v) = max s + i,j . (18)<br />

(i,j)∈1,n×1,m<br />

Nous explicitons <strong>dans</strong> cette section plusieurs points d’implémentation qui permettent<br />

<strong>de</strong> calculer <strong>les</strong> alignements précé<strong>de</strong>mment définis. Cette section se place<br />

<strong>dans</strong> un contexte pratique, où une certaine efficacité calculatoire doit être assurée.<br />

3.1.4.1 Matrice <strong>de</strong> programmation dynamique<br />

Les points d’implémentation décrits <strong>dans</strong> cette section sont analogues pour la<br />

procédure d’alignement global et d’alignement local. La suite <strong>de</strong> cette section détaille<br />

le calcul <strong>dans</strong> le cas global, <strong>les</strong> explications étant facilement transférab<strong>les</strong> à<br />

l’alignement local.<br />

Les formu<strong>les</strong> <strong>de</strong> récurrence données en Propositions 2 et 4 peuvent aisément être<br />

implémentées par une procédure récursive. Une approche récursive simple consiste<br />

à calculer dn,m en appelant récursivement le calcul <strong>de</strong> di−1,j, <strong>de</strong> di,j−1 et <strong>de</strong> di−1,j−1<br />

pour tous <strong>les</strong> indices i <strong>de</strong> n à 0 et j <strong>de</strong> m à 0. Cependant, le nombre d’appels récursifs<br />

nécessaire au calcul <strong>de</strong> dn,m croît <strong>dans</strong> ce cas <strong>de</strong> manière exponentielle par rapport<br />

à n et m, ce qui rend la distance d’édition particulièrement coûteuse en temps <strong>de</strong><br />

calcul. Or, en remarquant qu’il n’existe que (n + 1) × (m + 1) coup<strong>les</strong> (i,j) distincts,<br />

on déduit qu’au plus (n+1)×(m+1) appels récursifs distincts peuvent être effectués.<br />

Par conséquent, il est plus efficace <strong>de</strong> calculer la distance dn,m en obtenant di,j pour<br />

.


44 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

a<br />

b<br />

c<br />

<br />

<br />

<br />

<br />

c b c<br />

<br />

<br />

<br />

<br />

Fig. 3.1 – Graphe d’édition entre abc et cbc.<br />

<strong>de</strong>s indices i et j croissants et en mémorisant <strong>les</strong> distances à mesure qu’el<strong>les</strong> sont<br />

calculées. Il s’agit d’un principe <strong>de</strong> programmation dynamique.<br />

Formellement, on introduit une matrice <strong>de</strong> programmation dynamique M <strong>de</strong><br />

taille (n + 1) × (m + 1) dont chaque coefficient (i,j) correspond au résultat di,j<br />

d’une étape <strong>de</strong> la Proposition 2 :<br />

∀(i,j) ∈ 0,n × 0,m,M[i][j] = di,j. (19)<br />

La ligne 0 et la colonne 0 <strong>de</strong> M sont directement renseignées à partir <strong>de</strong>s conditions<br />

initia<strong>les</strong> <strong>de</strong> la récurrence (Prop. 1). Les valeurs <strong>de</strong> M sont ensuite calculées<br />

ligne à ligne <strong>de</strong> haut en bas à partir du coefficient M(1,1) jusqu’au coefficient<br />

M(n,m). Dans chaque ligne, <strong>les</strong> valeurs <strong>de</strong> M sont calculées <strong>de</strong> gauche à droite.<br />

Le calcul progressif <strong>de</strong> M permet ainsi d’obtenir, pour i et j croissants, toutes<br />

<strong>les</strong> distances di,j nécessaires à l’évaluation par programmation dynamique <strong>de</strong> dn,m.<br />

Cette procédure assure d’évaluer exactement n × m fois la formule <strong>de</strong> la Proposition<br />

2, et permet ainsi le calcul exact <strong>de</strong> la distance d’édition <strong>de</strong> u en v par un<br />

nombre suffisant d’opérations [Gus97].<br />

Le calcul par programmation dynamique permet d’obtenir la distance d’édition<br />

entre <strong>de</strong>ux <strong>séquences</strong> u et v. Outre cette distance, en fonction <strong>de</strong> l’application, la<br />

comparaison <strong>de</strong> <strong>séquences</strong> implique souvent <strong>de</strong> transcrire l’édition optimale effectuée<br />

pour obtenir cette distance, afin d’expliciter l’alignement global entre u et v.<br />

3.1.4.2 Graphe d’édition<br />

L’espace parcouru pour le calcul par programmation dynamique <strong>de</strong> l’alignement<br />

<strong>de</strong> <strong>de</strong>ux <strong>séquences</strong> u et v peut être visualisé en représentant toutes <strong>les</strong> opérations<br />

d’édition possib<strong>les</strong> entre <strong>les</strong> <strong>séquences</strong> sous forme d’un graphe. Formellement, on<br />

introduit le graphe d’édition <strong>de</strong> u <strong>de</strong> taille n et v <strong>de</strong> taille m comme le graphe<br />

acyclique orienté défini par :<br />

- (n + 1) × (m + 1) nœuds, chacun étiquetés par (i,j), correspondant à une paire<br />

<strong>de</strong> positions <strong>dans</strong> u et v ;


3.1 Édition et alignement 45<br />

- À chaque nœud (i,j) sont associés un arc a1 vers le nœud (i,j + 1), un arc a2<br />

vers le nœud (i + 1,j) et un arc a3 vers le nœud(i + 1,j + 1), si ceux-ci existent ;<br />

- Chaque arc est pondéré par le poids <strong>de</strong> l’opération qu’il représente : le poids <strong>de</strong><br />

la suppression <strong>de</strong> u[i] pour a1, le poids <strong>de</strong> l’insertion <strong>de</strong> v[j] pour a2 ou le poids<br />

<strong>de</strong> la substitution <strong>de</strong> u[i] en v[j] pour a3.<br />

À titre d’exemple, le graphe d’édition entre <strong>les</strong> <strong>séquences</strong> abc et cbc est donné<br />

en Figure 3.1.<br />

Ainsi, tout chemin <strong>dans</strong> le graphe d’édition <strong>de</strong> u et v <strong>de</strong>puis la position (0,0)<br />

jusqu’à la position (n,m) décrit un alignement global <strong>de</strong> u en v, et le chemin <strong>de</strong><br />

score minimal correspond à la transcription optimale.<br />

La représentation sous forme <strong>de</strong> graphe d’édition est ainsi équivalente à la définition<br />

<strong>de</strong> la matrice <strong>de</strong> programmation dynamique. La première est plus adaptée<br />

pour visualiser <strong>les</strong> alignements effectués, tandis que la secon<strong>de</strong> est utile pour <strong>les</strong> <strong>de</strong>scriptions<br />

plus formel<strong>les</strong> <strong>de</strong> l’implémentation associée à l’alignement <strong>de</strong>s <strong>séquences</strong>.<br />

3.1.4.3 Obtention <strong>de</strong>s transcriptions optima<strong>les</strong><br />

Selon le cadre applicatif, il peut être utile <strong>de</strong> disposer non seulement <strong>de</strong> la valeur<br />

associée à l’alignement (distance d’édition ou score <strong>de</strong> similarité), mais aussi <strong>de</strong> la<br />

transcription optimale effectuée.<br />

Transcription <strong>de</strong> l’alignement global<br />

Une fois la distance d’édition d(u,v) obtenue pour <strong>de</strong>ux <strong>séquences</strong> u et v, il est<br />

possible d’expliciter <strong>les</strong> transcriptions d’édition optima<strong>les</strong> <strong>de</strong> coût d(u,v) par une<br />

procédure appelée tracé arrière. Son calcul suppose d’enregistrer, pour chaque coefficient<br />

<strong>de</strong> M évalué <strong>dans</strong> le calcul par programmation dynamique, un pointeur<br />

d’édition indiquant <strong>les</strong> coefficients voisins qui correspon<strong>de</strong>nt aux opérations d’édition<br />

optima<strong>les</strong> pour le coefficient en cours. Formellement, pour tout coefficient (i,j)<br />

<strong>de</strong> M,<br />

- si i > 0 et di,j = di−1,j + δ(u[i],φ) (choix (i) <strong>dans</strong> la Prop. 2), alors un pointeur<br />

vertical est créé <strong>de</strong> (i,j) vers (i − 1,j) ;<br />

- si j > 0 et di,j = di,j−1 + δ(φ,v[j]) (choix (ii) <strong>dans</strong> la Prop. 2), alors un pointeur<br />

horizontal est créé <strong>de</strong> (i,j) vers (i,j − 1) ;<br />

- si i > 0, j > 0 et di,j = di−1,j−1 + δ(u[i],v[j]) (choix (iii) <strong>dans</strong> la Prop. 2), alors<br />

un pointeur diagonal est créé <strong>de</strong> (i,j) vers (i − 1,j − 1).<br />

Cette évaluation est effectuée à chaque calcul d’un nouveau coefficient <strong>de</strong> M. Par<br />

définition <strong>de</strong> M, au moins un pointeur est défini pour chaque coefficient (i,j) <strong>de</strong><br />

M. De plus, pour chaque coefficient, plusieurs pointeurs peuvent être définis en cas<br />

d’égalité <strong>de</strong>s poids d’édition.<br />

Le graphe formé par tous <strong>les</strong> pointeurs d’édition peut ainsi être vu comme un<br />

sous-graphe du graphe d’édition <strong>de</strong> u et v dont <strong>les</strong> arcs sont inversés. Grâce à l’ensemble<br />

<strong>de</strong>s pointeurs ainsi définis, <strong>les</strong> transcriptions optima<strong>les</strong> <strong>de</strong> u en v peuvent<br />

être reconstruites en suivant un tracé arrière. En effet, d’après la définition du<br />

calcul par programmation dynamique, à tout chemin C qui suit <strong>les</strong> pointeurs d’édition<br />

<strong>de</strong>puis la position finale (n,m) jusqu’à la position initiale (0,0) correspond une<br />

transcription t <strong>de</strong> coût optimal. Cette transcription peut aisément être déduite du<br />

chemin C en interprétant chaque pointeur horizontal comme une insertion, chaque


3.1 Édition et alignement 47<br />

Cette procédure permet d’obtenir le chemin <strong>de</strong> transcription locale optimale<br />

entre u et v. Comme <strong>dans</strong> le cas <strong>de</strong> l’alignement global, <strong>les</strong> arêtes <strong>de</strong> celui-ci peuvent<br />

être interprétées comme différentes opérations d’édition. Il convient <strong>de</strong> noter que<br />

l’unicité <strong>de</strong> la transcription optimale <strong>dans</strong> le cas d’alignement local n’est pas assurée,<br />

l’ensemble <strong>de</strong>s transcriptions pouvant être obtenu en suivant tous <strong>les</strong> chemins<br />

possib<strong>les</strong> en remontant <strong>de</strong> l’indice (k,l) à l’indice <strong>de</strong> coefficient nul (i,j).<br />

3.1.4.4 Complexité algorithmique<br />

Complexité temporelle<br />

Soient u et v <strong>de</strong>ux <strong>séquences</strong> <strong>de</strong> longueurs respectives n et m. Dans le cas global<br />

ou local, le calcul <strong>de</strong> l’alignement <strong>de</strong> u et v par programmation dynamique requiert<br />

le calcul <strong>de</strong>s coefficients <strong>de</strong> la matrice M. Chacun <strong>de</strong> ces coefficients est évalué en<br />

réalisant un nombre constant <strong>de</strong> calculs : 3 comparaisons et 3 opérations arithmétiques<br />

pour l’alignement global, 4 comparaisons et 3 opérations arithmétiques pour<br />

l’alignement local. La procédure d’alignement global ou local a donc une complexité<br />

<strong>de</strong> Θ(nm).<br />

Comme précisé en Section 3.1.4.3, le calcul <strong>de</strong>s pointeurs d’édition peut être<br />

effectué au fur et à mesure du calcul <strong>de</strong>s coefficients <strong>de</strong> M. Pour chaque case <strong>de</strong> la<br />

matrice, un nombre constant <strong>de</strong> 3 pointeurs est mis en place, ainsi l’établissement<br />

<strong>de</strong> ceux-ci n’augmente pas la complexité du calcul par programmation dynamique.<br />

La procédure <strong>de</strong> tracé arrière requiert ensuite le parcours d’un chemin <strong>de</strong> la <strong>de</strong>rnière<br />

case <strong>de</strong> M à la première case, <strong>dans</strong> le cas d’un alignement global et <strong>dans</strong> le pire <strong>de</strong>s<br />

cas d’un alignement local. Par conséquent, le tracé arrière engendre une complexité<br />

temporelle <strong>de</strong> O(n + m) <strong>dans</strong> le cas global et local.<br />

Complexité spatiale<br />

Le calcul d’un alignement global ou local requiert le stockage <strong>de</strong> toutes <strong>les</strong><br />

valeurs <strong>de</strong> la matrice <strong>de</strong> programmation dynamique M, impliquant un besoin en<br />

espace <strong>de</strong> Θ(nm). Or, cette contrainte s’avère problématique pour la comparaison <strong>de</strong><br />

longues <strong>séquences</strong> <strong>dans</strong> <strong>de</strong> gran<strong>de</strong>s bases <strong>de</strong> données. Cependant, cette complexité<br />

peut aisément être réduite à O(min(n,m)) en observant que lors <strong>de</strong> l’évaluation<br />

d’un coefficient <strong>de</strong> M à la ligne i, seuls <strong>les</strong> coefficients <strong>de</strong> la même ligne et <strong>de</strong> la<br />

ligne i−1 sont nécessaires. Par conséquent, le calcul par programmation dynamique<br />

peut être réalisé en ne conservant que <strong>les</strong> <strong>de</strong>ux <strong>de</strong>rnières lignes <strong>de</strong> M au cours <strong>de</strong><br />

son évaluation. De plus, <strong>dans</strong> le cas où la transcription d’alignement est requise,<br />

l’algorithme d’Hirschberg [Hir75] permet, par une approche Diviser pour régner,<br />

<strong>de</strong> réduire également la complexité spatiale à Θ(min(n,m)) en conservant le même<br />

ordre <strong>de</strong> complexité temporelle.<br />

3.1.5 Variante robuste aux transpositions loca<strong>les</strong><br />

Le phénomène <strong>de</strong> transpositions loca<strong>les</strong> <strong>de</strong> <strong>séquences</strong> tona<strong>les</strong> introduit une variation<br />

tona<strong>les</strong> susceptible <strong>de</strong> faire tomber en échec <strong>les</strong> techniques d’alignement décrites<br />

précé<strong>de</strong>mment. Dans le cadre <strong>de</strong> la comparaison <strong>de</strong> <strong>séquences</strong> tona<strong>les</strong>, une variante<br />

<strong>de</strong> l’alignement proposée par Allali et al. [AFHI07] assure une prise en compte <strong>de</strong>s


48 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

transpositions loca<strong>les</strong>. La variante est présentée <strong>dans</strong> le cas <strong>de</strong> l’alignement global,<br />

avec l’indication qu’elle peut aisément être adaptée à l’alignement local. Cette<br />

section décrit donc le principe <strong>de</strong> cette métho<strong>de</strong> <strong>dans</strong> le cas <strong>de</strong> l’alignement local.<br />

Définitions complémentaires<br />

Définition 8 (Fonction <strong>de</strong> transposition) Soit Σ un alphabet. On appelle fonction<br />

<strong>de</strong> transposition toute fonction γ : Σ × N → Σ qui à un symbole et une valeur<br />

<strong>de</strong> transposition associe un autre symbole <strong>de</strong> Σ.<br />

Par exemple, la fonction γ(x,n) = x + n pour x et n entiers correspond à une<br />

fonction <strong>de</strong> transposition simple <strong>dans</strong> l’alphabet <strong>de</strong>s entiers positifs.<br />

Dans le cas d’un alphabet tonal, comme expliqué en Section 2.3.2, le nombre<br />

<strong>de</strong> transpositions possib<strong>les</strong> d’un symbole est susceptible d’être réduit à un sousensemble<br />

fini <strong>de</strong> N, noté 1,B, où B est le coefficient entier <strong>de</strong> transposition maximale<br />

(par exemple B = 12 pour une division en <strong>de</strong>mi-tons <strong>de</strong> l’octave). Une fonction<br />

<strong>de</strong> transposition peut correspondre à un décalage du profil <strong>de</strong> classes tona<strong>les</strong>, comme<br />

défini par la Formule 13, par exemple.<br />

Définition 9 (Transposition globale) Soient u une séquence <strong>de</strong> taille n, k un<br />

entier et γ une fonction <strong>de</strong> transposition. On appelle transposition globale <strong>de</strong> u <strong>de</strong><br />

k symbo<strong>les</strong>, et on note u k γ, la séquence <strong>de</strong> longueur n obtenue en transposant par γ<br />

chacun <strong>de</strong>s symbo<strong>les</strong> <strong>de</strong> u :<br />

∀i ∈ 1,n,u k γ[i] = γ(u[i],k).<br />

Définition 10 (Transposition locale) Soient u une séquence <strong>de</strong> taille n, i et j<br />

<strong>de</strong>ux entiers positifs tels que i ≤ j ≤ n et γ une fonction <strong>de</strong> transposition. On<br />

appelle transposition locale <strong>de</strong> u sur l’intervalle [i,j] toute séquence v pouvant être<br />

obtenue par transposition globale par γ du facteur u[i . . . j]. Formellement, v sur Σ<br />

est une transposition locale <strong>de</strong> u par γ sur l’intervalle [i,j] si et seulement si<br />

∃k ∈ N : v = u k γ[i . . . j].<br />

Définition 11 (Transposition locale recouvrante) Soient u une séquence <strong>de</strong><br />

taille n et γ une fonction <strong>de</strong> transposition. On appelle transposition locale recouvrante<br />

<strong>de</strong> u toute séquence v composée d’une concaténation <strong>de</strong> transpositions loca<strong>les</strong><br />

<strong>de</strong> u sur <strong>de</strong>s interval<strong>les</strong> disjoints <strong>de</strong>ux à <strong>de</strong>ux et d’union [1,n]. Formellement, une<br />

séquence v sur Σ est une transposition locale recouvrante <strong>de</strong> u si et seulement si<br />

∃m ∈ N + ,(k1, . . . ,km) ∈ N m ,(i1, . . . ,im) ∈ 1,n m :<br />

v = u k1<br />

γ [1 . . . i1]u k2<br />

γ [i1 + 1 . . . i2] . . . u km<br />

γ [im−1 + 1 . . . n].<br />

Le nombre <strong>de</strong> transpositions loca<strong>les</strong> m est appelé rang <strong>de</strong> la transposition locale<br />

recouvrante v, et noté r(v). Enfin, on note Γ(u) l’ensemble <strong>de</strong>s transpositions loca<strong>les</strong><br />

recouvrantes <strong>de</strong> u.


3.1 Édition et alignement 49<br />

Problème<br />

Pour <strong>de</strong>ux <strong>séquences</strong> u et v définies sur Σ, le problème <strong>de</strong> similarité locale avec<br />

transpositions loca<strong>les</strong> est défini comme une optimisation du score <strong>de</strong> similarité locale<br />

entre v et une transposition locale recouvrante <strong>de</strong> u :<br />

Problème 2 (Similarité locale avec transpositions loca<strong>les</strong>) Soient u et v <strong>de</strong>ux<br />

<strong>séquences</strong>, et λT un score d’édition stricte. Trouver le score <strong>de</strong> similarité locale avec<br />

transpositions loca<strong>les</strong> s ∗ γ(u,v) défini par :<br />

s ∗ γ(u,v) = max<br />

u ′ ∈Γ(u) {s∗ (u ′ ,v) + (r(u ′ ) − 1) · λT}.<br />

En pratique, le score λT est spécifié par le schéma <strong>de</strong> scores <strong>de</strong> pondération.<br />

Calcul pratique <strong>de</strong> la similarité locale avec transpositions<br />

Le calcul par programmation dynamique <strong>de</strong> l’alignement local avec transpositions<br />

loca<strong>les</strong> entre <strong>de</strong>ux <strong>séquences</strong> u et v sur Σ consiste à calculer simultanément<br />

<strong>de</strong>s matrices <strong>de</strong> programmation dynamique correspondant à l’alignement entre v<br />

et toutes <strong>les</strong> transpositions loca<strong>les</strong> recouvrantes possib<strong>les</strong> <strong>de</strong> u. Dans la suite, on<br />

suppose que le nombre <strong>de</strong> transpositions possib<strong>les</strong> d’un symbole <strong>de</strong> Σ est fini, et<br />

noté B.<br />

Pour tout (i,j) ∈ 1,n × 1,m, on désigne par s + k i,j le score <strong>de</strong> similarité<br />

maximale entre un suffixe <strong>de</strong> v se terminant en j, et un suffixe <strong>de</strong> u se terminant<br />

en i transposé tel que la <strong>de</strong>rnière transposition appliquée est <strong>de</strong> k symbo<strong>les</strong>.<br />

Le calcul pratique <strong>de</strong> s + k i,j est réalisé par récurrence sur i, j et k. Son initialisation<br />

se fait selon la proposition :<br />

Proposition 5 (Initialisation) Pour tout (i,j,k) ∈ 0,n × 0,m × 1,B,<br />

s + k i,0 = 0<br />

s + k 0,j<br />

= 0 .<br />

La récurrence est alors donnée par la proposition :<br />

Proposition 6 Soient φ le symbole spécial d’alignement et λ un schéma <strong>de</strong> scores<br />

<strong>de</strong> pondération bien formé. Pour tout (i,j,k) ∈ 1,n × 1,m × 1,B,<br />

s + k i,j<br />

⎧<br />

⎪⎨<br />

= max<br />

⎪⎩<br />

s + k i−1,j + λ(u k γ[i],φ) (i)<br />

s + k i,j−1 + λ(φ,v[j]) (ii)<br />

s + k i−1,j−1 + λ(uk γ[i],v[j]) (iii)<br />

s + l i−1,j−1 + λ(uk γ[i],v[j]) + λT ∀l ∈ 1,B\{k} (iv)<br />

0 (v)<br />

Comme précé<strong>de</strong>mment, le calcul par programmation dynamique permet ainsi<br />

<strong>de</strong> déduire le score <strong>de</strong> similarité s + k i,j à partir d’une optimisation locale entre (i)<br />

le score s + k i−1,j<br />

amoindri d’un score <strong>de</strong> suppression du symbole i <strong>de</strong> la séquence<br />

u transposée, (ii) le score s + k i,j−1<br />

amoindri d’un score d’insertion du symbole j <strong>de</strong><br />

.


50 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

v, (iii) le score s + k i−1,j−1 additionné à un score <strong>de</strong> substitution (correspondance ou<br />

remplacement) du symbole i <strong>de</strong> u transposée par le symbole j <strong>de</strong> v, (iv) <strong>les</strong> scores<br />

s + l i−1,j pour tout l ∈ 1,B\{k} amoindris d’un score <strong>de</strong> transposition, et (v) la<br />

condition d’alignement local 0 qui permet <strong>de</strong> débuter un nouvel alignement. La<br />

preuve <strong>de</strong> cet algorithme est indiquée par [AFHI07] comme directement liée à celle<br />

donnée par Gusfield <strong>dans</strong> [Gus97, p.233-234].<br />

Le score <strong>de</strong> similarité locale recherché s∗ γ(u,v) <strong>de</strong> u et v est donné par :<br />

s ∗ γ(u,v) = max s + k i,j . (20)<br />

(i,j,k)∈1,n×1,m×1,B<br />

Comme précé<strong>de</strong>mment, la complexité <strong>de</strong> ce calcul par programmation dynamique<br />

est <strong>de</strong> O(mn) en temps et en espace. Cependant, l’introduction <strong>de</strong> la robustesse<br />

aux transpositions loca<strong>les</strong> induit une multiplication du nombre d’opérations<br />

effectuées d’une constante B correspondant au nombre <strong>de</strong> transpositions possib<strong>les</strong><br />

pour chaque symbole. Si cette constante ne change pas la complexité théorique, elle<br />

peut s’avérer problématique pour l’application pratique <strong>de</strong> cet algorithme.<br />

Pour plus <strong>de</strong> détails sur l’implémentation optimale <strong>de</strong> cette métho<strong>de</strong>, nous invitons<br />

le lecteur à consulter [AFHI07].<br />

3.2 Application à la similarité musicale<br />

Le système <strong>de</strong> comparaison introduit <strong>dans</strong> la section précé<strong>de</strong>nte permet d’estimer<br />

la similarité entre <strong>de</strong>s <strong>séquences</strong> quelconques. Dans cette section, nous proposons<br />

d’évaluer la pertinence <strong>de</strong> ce système <strong>dans</strong> le cadre <strong>de</strong> l’analyse musicale en<br />

l’utilisant pour l’estimation <strong>de</strong> la similarité entre <strong>séquences</strong> <strong>de</strong> <strong>de</strong>scripteurs tonaux<br />

<strong>dans</strong> le cadre applicatif <strong>de</strong> la recherche <strong>de</strong> reprises.<br />

3.2.1 Recherche <strong>de</strong> reprises<br />

La recherche <strong>de</strong> reprises est une application suscitant un intérêt croissant <strong>de</strong> la<br />

communauté scientifique d’analyse <strong>de</strong> la musique [SGH10]. La place importante <strong>de</strong><br />

celle-ci <strong>dans</strong> la production musicale ainsi que la multiplication <strong>de</strong> réinterprétations<br />

sur <strong>de</strong>s plateformes socia<strong>les</strong> populaires tel<strong>les</strong> que Youtube 1 ou spécialisées <strong>dans</strong> le<br />

recensement <strong>de</strong> reprises comme SecondHandSongs 2 incitent en effet à développer<br />

<strong>de</strong>s systèmes d’in<strong>de</strong>xation automatique <strong>de</strong>s reprises.<br />

La reprise musicale peut être définie comme toute version, interprétation, ou enregistrement<br />

d’une œuvre musicale déjà enregistrée [Lar98], cette <strong>de</strong>rnière étant appelée<br />

version canonique. Les reprises sont très employées par exemple <strong>dans</strong> le but <strong>de</strong><br />

traduire une œuvre <strong>dans</strong> un langage différent <strong>de</strong> celui d’origine, pour introduire un<br />

nouvel artiste, pour adapter le style musical d’un morceau, ou encore pour le simple<br />

plaisir d’interpréter une chanson connue [SGH10]. Pour l’analyse musicale, la dénomination<br />

<strong>de</strong> reprise varie selon <strong>les</strong> étu<strong>de</strong>s <strong>de</strong> la littérature [TYW08, G´06, SGH10].<br />

Dans cette thèse, on associe à cette notion une définition perceptive très large : une<br />

reprise d’un morceau est un autre morceau pouvant être i<strong>de</strong>ntifié comme tel par une<br />

majorité d’auditeurs humains. Par exemple, tous <strong>les</strong> termes suivants peuvent être assimilés<br />

à <strong>de</strong>s reprises : enregistrement concert, réinterprétation, version acoustique,<br />

1. http://www.youtube.com<br />

2. http://www.secondhandsongs.com


3.2 Application à la similarité musicale 51<br />

version instrumentale, version a capella, remix, pot-pourri, re-master, adaptation,<br />

parodie etc. (voir [SGH10] pour une <strong>de</strong>scription précise <strong>de</strong> la plupart <strong>de</strong> ces termes).<br />

L’ensemble <strong>de</strong>s reprises dérivant <strong>de</strong> la même version canonique est alors désigné par<br />

le terme <strong>de</strong> classe <strong>de</strong> reprises. La version désigne un type particulier <strong>de</strong> reprises.<br />

Deux versions sont <strong>de</strong>ux interprétations différentes d’une même musique [SGHS08].<br />

Les différentes versions d’un morceau présentent ainsi <strong>de</strong>s caractéristiques musica<strong>les</strong><br />

proches, alors que <strong>les</strong> reprises au sens large sont plus susceptib<strong>les</strong> <strong>de</strong> différer <strong>de</strong> leur<br />

morceau canonique.<br />

Les reprises et versions d’un titre peuvent prendre <strong>de</strong> nombreuses formes et<br />

présenter <strong>de</strong>s signaux musicaux très variés. Néanmoins, lorsque l’œuvre canonique<br />

ou l’une <strong>de</strong> ses reprises est connue, notre perception nous permet généralement<br />

d’i<strong>de</strong>ntifier très aisément une reprise <strong>de</strong> manière non équivoque et indépendante du<br />

contexte [SGH10]. Il est donc possible <strong>de</strong> constituer une vérité terrain décrivant <strong>de</strong>s<br />

classes <strong>de</strong> reprises. Pour cette raison, l’i<strong>de</strong>ntification <strong>de</strong> reprises présente l’intérêt<br />

d’être une application <strong>de</strong> la similarité musicale pouvant être évaluée en pratique.<br />

Les mécanismes cognitifs mis en jeu lors <strong>de</strong> l’i<strong>de</strong>ntification d’une reprise par un<br />

auditeur ne sont à ce jour pas clairement i<strong>de</strong>ntifiés [SGH10]. Cependant, il est établi<br />

que le signal audio d’une reprise présente <strong>de</strong> nombreuses caractéristiques musica<strong>les</strong><br />

communes avec le morceau d’origine permettant d’i<strong>de</strong>ntifier <strong>les</strong> <strong>de</strong>ux enregistrements<br />

comme proches [Lev08]. Ainsi, plusieurs métho<strong>de</strong>s proposent <strong>de</strong> retrouver <strong>les</strong><br />

reprises à partir d’une estimation <strong>de</strong>s caractéristiques musica<strong>les</strong> partagées par <strong>les</strong><br />

morceaux. En particulier, la similarité tonale semble jouer un rôle important <strong>dans</strong><br />

le processus d’i<strong>de</strong>ntification <strong>de</strong> reprises [SGHS08, Whi60]. D’une manière générale,<br />

une hypothèse-clé pour cette i<strong>de</strong>ntification consiste à supposer qu’une reprise i<strong>de</strong>ntifiable<br />

par un auditeur humain possè<strong>de</strong> <strong>de</strong>s variations harmoniques et mélodiques<br />

similaires avec cel<strong>les</strong> <strong>de</strong> la version canonique.<br />

Problématique et travaux antérieurs<br />

Dans une première approche, la recherche <strong>de</strong> reprises peut être assimilée à un<br />

problème d’i<strong>de</strong>ntification <strong>de</strong>s morceaux dérivés d’un morceau canonique :<br />

À partir d’un morceau M (la requête), i<strong>de</strong>ntifier tous <strong>les</strong> morceaux <strong>de</strong> la base <strong>de</strong><br />

données correspondant à <strong>de</strong>s reprises <strong>de</strong> M.<br />

Cependant, la recherche <strong>de</strong> reprises est généralement formulée d’une manière<br />

plus ouverte comme un problème <strong>de</strong> classification <strong>de</strong> tous <strong>les</strong> morceaux <strong>de</strong> musique<br />

d’une base <strong>de</strong> données :<br />

À partir d’un morceau M (la requête), i<strong>de</strong>ntifier tous <strong>les</strong> autres morceaux <strong>de</strong> la<br />

base <strong>de</strong> données correspondant à <strong>de</strong>s reprises du morceau canonique dont M est<br />

lui-même une reprise.<br />

Cette secon<strong>de</strong> formulation du problème est celle utilisée <strong>dans</strong> le cadre d’évaluations<br />

standards, tel<strong>les</strong> que le Music Information Retrieval Evaluation eXchange 1 (MI-<br />

REX) [DBEJ08]. Ainsi définie, l’i<strong>de</strong>ntification <strong>de</strong>s reprises peut alors être ramenée<br />

à un problème <strong>de</strong> recherche par similarité entre tous <strong>les</strong> morceaux d’une base <strong>de</strong><br />

données [SGH10]. Cette <strong>de</strong>uxième formulation du problème permet en outre <strong>de</strong> correspondre<br />

à un cadre d’utilisation pratique plus large que la première, un utilisateur<br />

1. http://www.music-ir.org/mirexwiki


52 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

pouvant obtenir la classe <strong>de</strong> reprises à laquelle se rapporte un morceau quelconque<br />

sans nécessairement connaître sa forme canonique.<br />

Les métho<strong>de</strong>s d’i<strong>de</strong>ntification <strong>de</strong> reprises existantes emploient différentes techniques<br />

afin d’i<strong>de</strong>ntifier <strong>de</strong>s similarités musica<strong>les</strong> en présence <strong>de</strong> fortes variations<br />

tona<strong>les</strong>, timbra<strong>les</strong>, rythmiques ou encore structurel<strong>les</strong> [SGH10].<br />

La robustesse aux changements tonaux et timbraux est généralement assurée<br />

par le calcul d’un <strong>de</strong>scripteur mélodique [Mar06, SD06] ou tonal (chroma) [EP07,<br />

GH06, JCEJ08, KN08] permettant d’isoler <strong>les</strong> tons joués du reste du signal, adjoint<br />

à une représentation ou une technique <strong>de</strong> comparaison relative rendant possible<br />

l’i<strong>de</strong>ntification <strong>de</strong> reprises transposées ou désaccordées [SGH10].<br />

La robustesse aux variations liées à la temporalité du signal (comme le tempo<br />

et le rythme) est assurée <strong>dans</strong> <strong>les</strong> métho<strong>de</strong>s existantes par différentes techniques :<br />

- L’une d’entre el<strong>les</strong> consiste à calculer <strong>de</strong>s contractions et expansions temporel<strong>les</strong><br />

<strong>dans</strong> <strong>les</strong> signaux comparés [KM08, MKC05]. En ré-échantillonnant le signal à différentes<br />

échel<strong>les</strong> temporel<strong>les</strong> musicalement plausib<strong>les</strong>, plusieurs représentations<br />

peuvent être comparées et le meilleur compromis choisi pour estimer la similarité<br />

entre <strong>de</strong>ux morceaux sur la même unité <strong>de</strong> temps [SGH10]. Cette technique<br />

présente cependant l’inconvénient <strong>de</strong> requérir un nombre élevé <strong>de</strong> calculs, chaque<br />

distorsion <strong>de</strong> l’échelle temporelle exigeant une nouvelle estimation <strong>de</strong>s <strong>de</strong>scripteurs.<br />

- Une alternative à cette technique consiste à estimer le tempo afin <strong>de</strong> calculer <strong>de</strong>s<br />

<strong>de</strong>scripteurs sur une même unité <strong>de</strong> temps [EP07, Mar06, NKM02]. Les <strong>séquences</strong><br />

<strong>de</strong>scriptives peuvent alors être comparées sur une représentation indépendante<br />

du tempo.<br />

- Une troisième stratégie consiste à utiliser <strong>de</strong>s techniques d’alignement <strong>de</strong> <strong>séquences</strong><br />

afin <strong>de</strong> calculer <strong>les</strong> variations temporel<strong>les</strong> en éditant <strong>les</strong> <strong>séquences</strong> représentatives<br />

(voir section précé<strong>de</strong>nte). Plusieurs systèmes d’i<strong>de</strong>ntification <strong>de</strong>s<br />

reprises mettent en avant la robustesse <strong>de</strong> cette technique face à <strong>de</strong> fortes altérations<br />

<strong>de</strong> la temporalité <strong>de</strong>s <strong>séquences</strong> musica<strong>les</strong> [SGHS08, Bel07, GH06, G´06,<br />

Mar06]. En outre, <strong>de</strong>s étu<strong>de</strong>s <strong>de</strong> Serrà et al. [SGHS08] ou Bello [Bel07] rapportent<br />

une performance significativement meilleure <strong>de</strong> cette approche d’utilisation <strong>de</strong><br />

techniques d’alignement par rapport à la précé<strong>de</strong>nte <strong>de</strong> calcul et prise en compte<br />

du tempo.<br />

Enfin, la robustesse aux variations structurel<strong>les</strong> est prise en compte <strong>dans</strong> <strong>les</strong> systèmes<br />

<strong>les</strong> plus performants [SGH10, p.14][DBEJ08]. Un résultat majeur est l’amélioration<br />

significative <strong>de</strong>s résultats d’i<strong>de</strong>ntification <strong>de</strong>s reprises en considérant une<br />

mesure locale <strong>de</strong> la similarité [SGHS08]. Ainsi, il semble plus efficace <strong>de</strong> ne considérer<br />

que l’extrait le plus ressemblant <strong>dans</strong> <strong>de</strong>ux reprises <strong>de</strong> la même version canonique<br />

pour établir un score <strong>de</strong> similarité pertinent. Cette approche a été mise en œuvre<br />

avec succès <strong>dans</strong> plusieurs systèmes d’i<strong>de</strong>ntification <strong>de</strong> reprises [SGHS08, SSA09,<br />

Yan01, MHRF11b]. Une autre amélioration notable <strong>de</strong> la prise en compte <strong>de</strong> la<br />

structuration <strong>de</strong>s reprises consiste à exploiter le résultat d’une inférence <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong> avant <strong>de</strong> comparer <strong>les</strong> morceaux entre eux, afin <strong>de</strong> <strong>les</strong> in<strong>de</strong>xer ou<br />

<strong>de</strong> <strong>les</strong> résumer [GH06, Mar06, MHRF11a]. Une telle approche se basant sur une<br />

structure répétitive particulière est présentée et évaluée en Section 4.2.5.


3.2 Application à la similarité musicale 53<br />

3.2.2 Évaluation<br />

À l’instar <strong>de</strong> la technique proposée par Serrà et al. [SGHS08], notre système<br />

d’i<strong>de</strong>ntification <strong>de</strong>s reprises, décrit <strong>dans</strong> cette section, est basé sur une estimation<br />

<strong>de</strong> la similarité entre morceaux <strong>de</strong> musique en utilisant <strong>les</strong> techniques d’alignement<br />

local introduites précé<strong>de</strong>mment. L’objectif <strong>de</strong> cette section est d’évaluer <strong>dans</strong> notre<br />

cadre expérimental spécifique la performance d’un système d’i<strong>de</strong>ntification <strong>de</strong> reprises<br />

basé sur <strong>les</strong> algorithmes d’alignement.<br />

Technique <strong>de</strong> comparaison<br />

Soient u et v <strong>de</strong>ux <strong>séquences</strong>. Le score <strong>de</strong> similarité entre u est v, noté sim(u,v),<br />

est obtenu par le calcul :<br />

sim(u,v) = s ∗ γ(u,v) (21)<br />

Le score ainsi obtenu présente une robustesse aux transpositions loca<strong>les</strong> entre u et<br />

v.<br />

Le schéma <strong>de</strong> scores <strong>de</strong> pondération employé pour ce calcul est le suivant :<br />

Insertion, suppression : λ(h1,φ) = λ(φ,h2) = −0.5<br />

Substitution : λ(h1,h2) = λ chr (h1,h2) (voir Éq. 15)<br />

Correspondance : λ+ = 1<br />

Remplacement : λ− = −0.7<br />

Transposition locale : λT = −10<br />

La détermination <strong>de</strong> ce schéma <strong>de</strong> scores est effectuée <strong>de</strong> manière empirique sur<br />

un sous-ensemble <strong>de</strong> la base <strong>de</strong> données présentée ci-<strong>de</strong>ssous. Celui-ci est composé<br />

<strong>de</strong> 2 morceaux choisis aléatoirement <strong>dans</strong> chaque classe <strong>de</strong> reprises, pour un total<br />

<strong>de</strong> 32 morceaux. Une légère variation <strong>de</strong>s scores <strong>de</strong> correspondance et <strong>de</strong> remplacement<br />

d’une part, <strong>de</strong> suppression et d’insertion d’autre part ne provoque pas <strong>de</strong><br />

baisse significative <strong>de</strong>s mesures d’évaluation. Un constat similaire a déjà été effectué<br />

par Serrà et al. [SGHS08]. La valeur du score <strong>de</strong> transposition λT est également déterminée<br />

<strong>de</strong> manière empirique, en considérant quelques paires <strong>de</strong> reprises incluant<br />

<strong>de</strong>s transpositions loca<strong>les</strong>, et en optimisant <strong>les</strong> facteurs alignés afin que ceux-ci<br />

correspon<strong>de</strong>nt à <strong>de</strong>s sections similaires <strong>dans</strong> chacune <strong>de</strong>s paires <strong>de</strong> reprises.<br />

Bases <strong>de</strong> test<br />

Afin d’évaluer notre système <strong>de</strong> recherche par similarité, on considère une base<br />

<strong>de</strong> données audio formée <strong>de</strong> trois ensemb<strong>les</strong> extraits <strong>de</strong> collections personnel<strong>les</strong>.<br />

Cette base <strong>de</strong> données, notée T SD, est constituée <strong>de</strong> 2514 morceaux distincts. Le<br />

Tableau 3.2 liste l’ensemble <strong>de</strong>s classes considérées, ainsi que le nombre <strong>de</strong> versions<br />

et <strong>de</strong> reprises dont el<strong>les</strong> sont composées.<br />

- Le premier ensemble, noté Dv, contient 7 classes <strong>de</strong> versions comprenant chacune<br />

entre 4 et 10 morceaux correspondant à la même version canonique, pour une<br />

moyenne <strong>de</strong> 6 morceaux par classe. Cette base <strong>de</strong> données est ainsi constituée<br />

afin d’évaluer la robustesse <strong>de</strong> la recherche par similarité sur <strong>de</strong>s versions peu<br />

altérées d’un morceau d’origine.<br />

(22)


54 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

Morceau <strong>de</strong> référence Taille classe<br />

A Aha - Take on me 8 v, 8 r<br />

B The Beat<strong>les</strong> - Yesterday 5 v, 39 r<br />

C The Animals - The House of the Rising Sun 5 v, 85 r<br />

D Ben E. King - Stand By Me 4 v, 23 r<br />

E Pachelbel - Canon in D 10 v, 34 r<br />

F H. Mancini - The Pink Panther 9 v, 27 r<br />

G T. Wynette - Stand By Your Man 4 v, 17 r<br />

H The Beat<strong>les</strong> - Across The Universe 0 v, 15 r<br />

I Nirvana - Smells Like Teen Spirit 0 v, 21 r<br />

J G. Jones - Tainted Love 0 v, 29 r<br />

K B. Dylan - All Along The Watchtower 0 v, 14 r<br />

L Big Joe Williams - Baby Please Don’t Go 0 v, 31 r<br />

M A. Villoldo - El Choclo 0 v, 30 r<br />

N C. Granda - La Flor De La Canela 0 v, 44 r<br />

O S. Linda - The Lion Sleeps Tonight 0 v, 30 r<br />

P M. Reynolds - Little Boxes 0 v, 41 r<br />

Q R. Thomas - Walking the Dog 0 v, 26 r<br />

Tab. 3.2 – Classes <strong>de</strong> reprises et <strong>de</strong> versions <strong>de</strong> la base T SD utilisées pour <strong>les</strong><br />

évaluations. La <strong>de</strong>rnière colonne indique le nombre <strong>de</strong> versions (v) et <strong>de</strong> reprises<br />

(r) appartenant à chacune <strong>de</strong>s classes.<br />

- Le <strong>de</strong>uxième ensemble, noté Dr, contient 17 classes <strong>de</strong> reprises comprenant chacune<br />

entre 8 et 85 morceaux correspondant à la même version canonique, pour<br />

une moyenne <strong>de</strong> 30 morceaux par classe. Cette base <strong>de</strong> données est ainsi constituée<br />

afin d’évaluer la robustesse <strong>de</strong> la recherche par similarité sur <strong>de</strong>s reprises<br />

très diverses, cel<strong>les</strong>-ci étant choisies d’une manière très variée et conforme à la<br />

définition <strong>de</strong> la reprise exposée précé<strong>de</strong>mment.<br />

- Le troisième ensemble comprend un ensemble <strong>de</strong> 2000 morceaux choisis <strong>de</strong> manière<br />

arbitraire parmi <strong>de</strong>s œuvres <strong>de</strong> sty<strong>les</strong> musicaux similaires aux reprises et<br />

versions <strong>de</strong>s <strong>de</strong>ux autres bases <strong>de</strong> données. Cette base est constituée afin <strong>de</strong><br />

prouver la robustesse du système <strong>de</strong> recherche par similarité en présence d’un<br />

contenu musical homogène.<br />

Métho<strong>de</strong> d’évaluation<br />

Comme souligné par Serrà et al. [SGH10], l’évaluation <strong>de</strong>s systèmes <strong>de</strong> recherche<br />

<strong>de</strong> reprises est une tâche complexe dont la méthodologie varie en fonction <strong>de</strong>s étu<strong>de</strong>s<br />

proposées <strong>dans</strong> la littérature. La métho<strong>de</strong> d’évaluation décrite <strong>dans</strong> cette section<br />

suit la seule tentative <strong>de</strong> standardisation proposée jusqu’ici, établie <strong>dans</strong> le cadre du<br />

Music Information Retrieval Evaluation eXchange (MIREX) 1 [Dow08, DBEJ08].<br />

Soit C une classe <strong>de</strong> reprises <strong>de</strong> Dr. Chaque élément i <strong>de</strong> C est soumis comme<br />

requête du système <strong>de</strong> recherche par similarité. On obtient donc une liste Li <strong>de</strong><br />

scores <strong>de</strong> similarité pour chacun <strong>de</strong> ces éléments indiquant un <strong>de</strong>gré <strong>de</strong> similarité<br />

entre ces morceaux et la requête.<br />

1. http://www.music-ir.org/mirexwiki


3.2 Application à la similarité musicale 55<br />

Classe A B C D E F G H I<br />

Nb éléments 8 39 85 23 34 27 17 15 21<br />

MAP 74.3 86.5 82.3 45.2 90.4 17.2 77.7 80.9 56.0<br />

R-précision 71.4 81.6 75.0 45.5 78.8 11.5 68.8 78.6 50.0<br />

Classe J K L M N O P Q Tout<br />

Nb éléments 29 14 31 30 44 30 41 26 514<br />

MAP 54.9 50.19 22.3 72.14 13.0 57.8 53.7 28.7 56.7<br />

R-précision 53.6 53.8 20.0 69.0 11.6 55.2 50.0 32.0 53.3<br />

Tab. 3.3 – Résultats <strong>de</strong> l’i<strong>de</strong>ntification <strong>de</strong> reprises (en pourcentages) par recherche<br />

<strong>de</strong> similarité avec alignement local sur T SD.<br />

La première métrique que nous utilisons est une variante <strong>de</strong> la technique rappelprécision<br />

à différents rangs [MRS08]. Pour un rang donné k, on relève le nombre<br />

d’éléments appartenant à C parmi <strong>les</strong> k morceaux <strong>les</strong> plus similaires i<strong>de</strong>ntifiés <strong>dans</strong><br />

Li, et on calcule <strong>les</strong> taux <strong>de</strong> rappel et précision. La répétition <strong>de</strong> cette technique<br />

pour tous <strong>les</strong> rangs possib<strong>les</strong> donne une information précise sur la qualité du système<br />

d’i<strong>de</strong>ntification [MRS08].<br />

La précision moyenne, ou Mean average precision (MAP), correspond à la moyenne<br />

sur l’ensemble <strong>de</strong>s classes <strong>de</strong> reprises <strong>de</strong>s scores moyens obtenus à partir <strong>de</strong>s<br />

valeurs <strong>de</strong> précision aux différents rangs possib<strong>les</strong> [MRS08]. Cette évaluation a<br />

l’avantage <strong>de</strong> présenter une mesure <strong>de</strong> la qualité d’un système <strong>de</strong> recherche par<br />

similarité sous la forme d’une unique valeur.<br />

Une troisième métrique régulièrement employée est la R-précision. Celle-ci est<br />

obtenue pour une classe C comportant N reprises en calculant le rappel parmi <strong>les</strong><br />

N morceaux <strong>les</strong> plus similaires, valeur alors égale à la précision au même rang.<br />

Cette valeur peut être calculée pour chacune <strong>de</strong>s classes <strong>de</strong> reprises et moyennée<br />

afin d’obtenir à nouveau une mesure <strong>de</strong> la qualité d’un système <strong>de</strong> recherche par<br />

similarité. Il convient <strong>de</strong> noter qu’en pratique la R-précision moyenne et la valeur<br />

MAP semblent corrélées [MRS08].<br />

Résultats<br />

Les résultats d’un système d’i<strong>de</strong>ntification <strong>de</strong>s reprises dépen<strong>de</strong>nt très fortement<br />

<strong>de</strong> la taille <strong>de</strong> la base <strong>de</strong> données, du type <strong>de</strong> reprises et <strong>de</strong>s sty<strong>les</strong> musicaux considérés<br />

[SGH10]. Par conséquent, notre objectif n’est pas ici d’évaluer la performance<br />

<strong>de</strong> notre système par rapport à l’état <strong>de</strong> l’art, mais d’évaluer sa précision et la<br />

rapidité <strong>de</strong> son exécution en guise d’indicateurs <strong>de</strong> référence. Ces indicateurs sont<br />

utilisés <strong>dans</strong> la suite du document comme une base d’améliorations <strong>de</strong> la recherche<br />

par similarité, ainsi que décrites en Sections 3.3.4 et 4.2.5.<br />

Le Tableau 3.3 présente <strong>les</strong> résultats obtenus sur chacune <strong>de</strong>s classes <strong>de</strong> reprises<br />

<strong>de</strong> T SD. Les mesures MAP et R-précision sont indiquées. Comme dit précé<strong>de</strong>mment,<br />

ces <strong>de</strong>ux mesures semblent en pratique suivre une distribution proche pour<br />

chaque classe.<br />

On remarque que <strong>les</strong> mesures <strong>de</strong> précision varient en fonction <strong>de</strong>s classes <strong>de</strong><br />

reprises. Par exemple, pour la classe Yesterday (B), le système semble correctement


56 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

i<strong>de</strong>ntifier <strong>les</strong> reprises avec une précision moyenne <strong>de</strong> 86.5% et une R-précision <strong>de</strong><br />

81.6% ; en revanche, la classe The Pink Panther (F) est i<strong>de</strong>ntifiée avec une précision<br />

beaucoup plus faible, avec une valeur MAP <strong>de</strong> 17.2% et une R-précision <strong>de</strong> 11.5%.<br />

La précision générale du système peut être représentée par la moyenne <strong>de</strong>s précisions<br />

moyennes sur <strong>les</strong> différentes classes <strong>de</strong> reprises. Ainsi, le système a une valeur<br />

MAP globale <strong>de</strong> 56.7% et une R-précision <strong>de</strong> 53.3%. Il convient <strong>de</strong> noter que si<br />

ces mesures permettent d’avoir un aperçu général <strong>de</strong> l’efficacité du système, il est<br />

important en pratique <strong>de</strong> dissocier chacune <strong>de</strong>s classes <strong>de</strong> reprises, dont la précision<br />

d’i<strong>de</strong>ntification peut fortement varier.<br />

Le temps d’exécution <strong>de</strong>s calculs <strong>de</strong> similarité locale sur T SD requis pour l’obtention<br />

<strong>de</strong> ces résultats est <strong>de</strong> plus <strong>de</strong> 18 heures sur notre configuration matérielle 1 ,<br />

pour un temps moyen d’exécution constaté <strong>de</strong> 129 secon<strong>de</strong>s par requête. Cette durée<br />

élevée impose une forte contrainte sur l’utilisation d’un tel système <strong>dans</strong> une<br />

application pratique. En particulier, appliquer l’analyse sur une base <strong>de</strong> données<br />

sensiblement plus gran<strong>de</strong> que T SD, <strong>de</strong> l’ordre du million <strong>de</strong> titres, semble inenvisageable.<br />

Afin <strong>de</strong> permettre à notre métho<strong>de</strong> d’être utilisable en pratique, il est donc<br />

primordial <strong>de</strong> la passer à l’échelle <strong>de</strong>s bases <strong>de</strong> données disponib<strong>les</strong> à l’heure actuelle.<br />

3.3 Passage à l’échelle<br />

Les techniques d’alignement permettent une évaluation précise <strong>de</strong> la similarité<br />

entre <strong>de</strong>s <strong>séquences</strong> musica<strong>les</strong>. Cependant, comme expliqué en Section 3.1.4.4, el<strong>les</strong><br />

sont calculab<strong>les</strong> en un temps proportionnel au produit <strong>de</strong>s tail<strong>les</strong> <strong>de</strong>s <strong>séquences</strong><br />

comparées. Cette propriété peut s’avérer problématique dès lors que <strong>les</strong> <strong>séquences</strong><br />

musica<strong>les</strong> comparées sont <strong>de</strong> gran<strong>de</strong>s longueurs, ou encore dès que <strong>de</strong> nombreux<br />

alignements doivent être calculés rapi<strong>de</strong>ment à travers <strong>de</strong>s bases <strong>de</strong> données <strong>de</strong><br />

taille conséquente.<br />

Afin <strong>de</strong> permettre une utilisation pratique <strong>de</strong>s systèmes <strong>de</strong> comparaison musicale,<br />

<strong>de</strong> nombreuses approches proposent d’améliorer l’efficacité calculatoire <strong>de</strong>s<br />

métho<strong>de</strong>s d’estimation <strong>de</strong> la similarité (voir [Sch12] pour une revue <strong>de</strong>s systèmes <strong>les</strong><br />

plus utilisés). Cependant, peu d’approches visant une gran<strong>de</strong> efficacité calculatoire<br />

considèrent <strong>les</strong> techniques d’alignement pour la comparaison musicale.<br />

La comparaison <strong>de</strong> <strong>séquences</strong> biologiques, fortement basée sur <strong>les</strong> techniques<br />

d’alignement, est pourtant évaluée sur <strong>de</strong> très gran<strong>de</strong>s bases <strong>de</strong> données, <strong>de</strong> l’ordre<br />

<strong>de</strong> millions <strong>de</strong> <strong>séquences</strong> [KYB03]. La mise en place <strong>de</strong> métho<strong>de</strong>s <strong>de</strong> calculs rapi<strong>de</strong>s<br />

d’alignement est donc critique pour ce type d’évaluations.<br />

La technique Basic Local Alignment Search Tool [AGM + 90], ou BLAST, répond<br />

à ce besoin en proposant une métho<strong>de</strong> heuristique d’évaluation efficace <strong>de</strong> l’alignement<br />

local. BLAST a été adaptée à <strong>de</strong> nombreux contextes applicatifs différents en<br />

bio-informatique, menant à la définition <strong>de</strong> plusieurs outils spécialisés pour différentes<br />

tâches communes <strong>de</strong> séquençage biologique. En particulier, BLASTN permet<br />

<strong>de</strong> comparer <strong>de</strong>s <strong>séquences</strong> d’ADN pour l’analyse génomique, alors que BLASTP,<br />

BLASTX, TBLASTN et TBLASTX comparent <strong>de</strong>s <strong>séquences</strong> <strong>de</strong> protéines notamment<br />

pour l’analyse génomique ou phylogénétique [KYB03].<br />

L’approche présentée ici explore un nouveau champ applicatif, la comparaison<br />

1. Processeur Intel Xeon X5675 à 3.07 GHz, 12M mémoire cache, 32Go mémoire RAM


3.3 Passage à l’échelle 57<br />

<br />

Fig. 3.3 – Espace <strong>de</strong> recherche entre u et v. Le chemin <strong>de</strong> transcription optimale<br />

est représenté en pointillés. Les séries <strong>de</strong> correspondances successives sont matérialisées<br />

par <strong>de</strong>s traits pleins. La surface grise représente l’ensemble <strong>de</strong>s coefficients <strong>de</strong><br />

programmation dynamique à calculer pour obtenir le chemin optimal.<br />

<br />

<br />

<br />

<strong>de</strong> <strong>séquences</strong> <strong>de</strong> <strong>de</strong>scripteurs audio musicaux. Si la métho<strong>de</strong> BLAST a déjà été<br />

appliquée avec succès pour évaluer la similarité entre extraits <strong>de</strong> musique symbo-<br />

<br />

lique [KH04], son utilisation pour l’in<strong>de</strong>xation <strong>de</strong> signaux audio musicaux, suggérée<br />

en perspective <strong>dans</strong> [Kil04], n’a à notre connaissance pas été mise en œuvre jusqu’ici<br />

[MBHF12].<br />

3.3.1 Principe <strong>de</strong> BLAST<br />

Afin <strong>de</strong> décrire le principe <strong>de</strong> BLAST, on considère un cas pratique d’utilisation<br />

<strong>de</strong> techniques <strong>de</strong> comparaison pour analyser une gran<strong>de</strong> base <strong>de</strong> données <strong>de</strong><br />

<strong>séquences</strong> musica<strong>les</strong>. Étant donné une séquence-requête, on souhaite i<strong>de</strong>ntifier <strong>dans</strong><br />

la base <strong>de</strong> données toutes <strong>les</strong> <strong>séquences</strong> localement similaires. Avec <strong>les</strong> outils présentés<br />

précé<strong>de</strong>mment, une solution mise en œuvre en Section 3.2.1 consiste à calculer<br />

la similarité locale <strong>de</strong> la séquence-requête avec chacune <strong>de</strong>s <strong>séquences</strong> <strong>de</strong> la base <strong>de</strong><br />

données, puis à choisir le meilleur <strong>de</strong> ces alignements.<br />

L’amélioration apportée par BLAST repose sur une hypothèse d’hétérogénéité<br />

<strong>de</strong> la base <strong>de</strong> données, qui peut être résumée par l’assertion suivante : il est probable<br />

qu’une gran<strong>de</strong> majorité <strong>de</strong>s <strong>séquences</strong> <strong>de</strong> la base <strong>de</strong> données soient très différentes<br />

<strong>de</strong> la requête. Ainsi, il est probable qu’un temps <strong>de</strong> calcul important soit consacré à<br />

l’évaluation précise d’alignements non pertinents. Pour éviter <strong>de</strong> tels calculs inuti<strong>les</strong>,<br />

la technique BLAST peut être implémentée comme un filtre à plusieurs niveaux sur<br />

<strong>les</strong> <strong>séquences</strong> comparées. Chaque niveau <strong>de</strong> filtrage agit alors comme une métho<strong>de</strong><br />

heuristique qui élimine <strong>les</strong> <strong>séquences</strong> <strong>les</strong> moins similaires <strong>de</strong> la base <strong>de</strong> données <strong>dans</strong><br />

une évaluation nécessitant un nombre faible <strong>de</strong> calculs. La section suivante décrit<br />

en détail ces différents niveaux <strong>de</strong> filtrage, ainsi que le gain en nombre d’opérations<br />

induit par l’in<strong>de</strong>xation.<br />

3.3.2 Métho<strong>de</strong> d’in<strong>de</strong>xation<br />

Soient u et v <strong>de</strong>ux <strong>séquences</strong> <strong>de</strong> tail<strong>les</strong> respectives n et m définies sur un alphabet<br />

Σ. On désigne par espace <strong>de</strong> recherche entre u et v l’ensemble <strong>de</strong>s paires d’indices<br />

<strong>dans</strong> u et v, <strong>de</strong> taille nm. L’espace <strong>de</strong> recherche comprend toutes <strong>les</strong> positions


58 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

<br />

<br />

<br />

<br />

<br />

<br />

Fig. 3.4 – Graines <strong>de</strong> l’espace <strong>de</strong> recherche pour une taille minimale fixée. Les<br />

graines significatives appartiennent à l’alignement optimal, et sont représentées par<br />

<strong>de</strong>s traits pleins. Les graines non significatives n’appartiennent pas à l’alignement<br />

optimal et sont matérialisées par <strong>de</strong>s pointillés.<br />

<br />

<strong>de</strong>squel<strong>les</strong> peuvent démarrer ou terminer tout alignement entre u et v. L’objectif<br />

<strong>de</strong> l’in<strong>de</strong>xation est d’évaluer la similarité locale entre u et v à partir <strong>de</strong> l’espace <strong>de</strong><br />

recherche sans avoir à calculer l’ensemble du graphe d’édition.<br />

Dans une première étape, la technique BLAST consiste à repérer et in<strong>de</strong>xer<br />

rapi<strong>de</strong>ment <strong>de</strong>s régions <strong>de</strong> similarité exacte <strong>de</strong> l’espace <strong>de</strong> recherche <strong>de</strong> u et v, tel<strong>les</strong><br />

que décrit <strong>dans</strong> la section suivante.<br />

3.3.2.1 Repérage <strong>de</strong> graines d’alignement<br />

La Figure 3.3 montre l’espace <strong>de</strong> recherche <strong>de</strong>s <strong>séquences</strong> u et v. Le chemin<br />

<strong>de</strong> la transcription optimale pour l’alignement local entre u et v est représenté<br />

en pointillés. Comme expliqué précé<strong>de</strong>mment, le calcul <strong>de</strong> cette similarité locale<br />

nécessite le calcul <strong>de</strong> l’intégralité du graphe d’édition. Le fond grisé <strong>de</strong> la Figure 3.3<br />

souligne ainsi le nombre <strong>de</strong> cases <strong>de</strong> programmation dynamique nécessaires à ce<br />

calcul.<br />

Le premier filtre BLAST, tel que défini par Altschul et al. [AGM + 90] en 1990<br />

pour l’alignement <strong>de</strong> <strong>séquences</strong> biologiques, repose sur la supposition que tout alignement<br />

local entre <strong>séquences</strong> similaires inclut <strong>de</strong> nombreuses séries <strong>de</strong> correspondances<br />

successives. Chaque section diagonale du chemin représenté sur la Figure 3.3<br />

indique une série <strong>de</strong> substitutions successives entre u et v. Parmi ces substitutions,<br />

<strong>les</strong> séries <strong>de</strong> correspondances successives sont représentées par <strong>de</strong>s traits pleins.<br />

On définit un entier naturel positif W pour désigner une taille arbitraire minimale<br />

<strong>de</strong> correspondances successives. La première étape <strong>de</strong> BLAST consiste à<br />

repérer toute paire <strong>de</strong> facteurs i<strong>de</strong>ntiques <strong>dans</strong> u et v <strong>de</strong> taille au moins W . En<br />

d’autres termes, l’algorithme détecte toute section diagonale <strong>dans</strong> le graphe d’édition<br />

<strong>de</strong> u en v correspondant à une série <strong>de</strong> correspondances <strong>de</strong> taille supérieure à<br />

W . Chacune <strong>de</strong> ces séries <strong>de</strong> correspondances étant susceptible <strong>de</strong> faire partie <strong>de</strong><br />

l’alignement local optimal entre u et v, cette étape permet <strong>de</strong> repérer <strong>de</strong>s points<br />

<strong>de</strong> départ potentiels pour déclencher le calcul d’alignement <strong>de</strong>s <strong>séquences</strong>. Chaque<br />

série <strong>de</strong> correspondances <strong>de</strong> taille suffisante est ainsi appelée graine <strong>de</strong> l’espace <strong>de</strong><br />

recherche.


3.3 Passage à l’échelle 59<br />

<br />

<br />

<br />

Fig. 3.5 – Trajectoire pseudo-diagonale. Les graines en traits pleins sont organisées<br />

selon une trajectoire pseudo-diagonale comprise <strong>dans</strong> le ban<strong>de</strong>au représenté en<br />

pointillés.<br />

Le premier filtre consiste à i<strong>de</strong>ntifier rapi<strong>de</strong>ment ces séries <strong>de</strong> correspondances<br />

successives, et ainsi à éliminer toutes <strong>les</strong> comparaisons ne présentant pas suffisamment<br />

<strong>de</strong> graines. La Figure 3.4 illustre la sélection automatique <strong>de</strong>s graines d’une<br />

taille minimale W sur l’espace <strong>de</strong> recherche <strong>de</strong> u et v. Parmi <strong>les</strong> graines i<strong>de</strong>ntifiées,<br />

certaines, marquées en traits pleins, correspon<strong>de</strong>nt à un extrait <strong>de</strong> l’alignement optimal<br />

t ; el<strong>les</strong> sont dites significatives. À l’inverse, <strong>de</strong>s graines marquées en traits<br />

pointillés sont localisées <strong>dans</strong> <strong>de</strong>s régions étrangères à l’alignement optimal ; el<strong>les</strong><br />

sont dites non significatives.<br />

Le premier filtre appliqué par BLAST, noté F1, est donc caractérisé par l’heuristique<br />

suivante :<br />

Deux <strong>séquences</strong> similaires ont un nombre <strong>de</strong> graines significatives <strong>de</strong> taille W plus<br />

élevé que <strong>de</strong>ux <strong>séquences</strong> dissimilaires quelconques<br />

La secon<strong>de</strong> étape <strong>de</strong> BLAST consiste à filtrer l’ensemble <strong>de</strong>s graines i<strong>de</strong>ntifiées<br />

afin d’écarter <strong>les</strong> graines non significatives.<br />

3.3.2.2 Sélection <strong>de</strong> graines<br />

Le <strong>de</strong>uxième filtre BLAST présenté <strong>dans</strong> cette section a été introduit <strong>dans</strong> le<br />

cadre <strong>de</strong> cette thèse pour l’in<strong>de</strong>xation <strong>de</strong> données musica<strong>les</strong> [MBHF12]. Il a pour but<br />

d’éliminer <strong>les</strong> graines n’appartenant pas à l’alignement local optimal. Une solution<br />

simple consiste à regrouper <strong>les</strong> graines <strong>de</strong> l’espace <strong>de</strong> recherche en fonction <strong>de</strong> leurs<br />

positions relatives, tentant ainsi <strong>de</strong> reconstruire le chemin le plus probable pour<br />

l’alignement local.<br />

Une première propriété <strong>de</strong>s séries <strong>de</strong> correspondance appartenant à un alignement<br />

local entre u et v est leur disjonction <strong>dans</strong> u d’une part, et leur disjonction<br />

<strong>dans</strong> v d’autre part. Ainsi, seule une graine par colonne et seule une graine par ligne<br />

<strong>de</strong> l’espace <strong>de</strong> recherche peut correspondre à un alignement local. Cette propriété<br />

permet <strong>de</strong> distinguer facilement <strong>de</strong>s graines n’appartenant pas à un même chemin.<br />

Afin d’établir cette secon<strong>de</strong> propriété, on considère t la transcription d’alignement<br />

optimal entre <strong>les</strong> <strong>séquences</strong> u et v, et C le chemin correspondant <strong>dans</strong> le graphe<br />

d’édition. Par définition, t est formée :<br />

- De séries <strong>de</strong> substitutions, se traduisant par <strong>de</strong>s sections diagona<strong>les</strong> <strong>dans</strong> C,


60 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

- De séries d’insertions, se traduisant par <strong>de</strong>s sections horizonta<strong>les</strong> <strong>dans</strong> C,<br />

- De séries <strong>de</strong> suppressions, se traduisant par <strong>de</strong>s sections vertica<strong>les</strong> <strong>dans</strong> C.<br />

Si u et v sont similaires, on formule l’hypothèse que chaque série d’insertions<br />

et chaque série <strong>de</strong> suppressions a une longueur faible. En effet, <strong>dans</strong> ce cas, t est<br />

susceptible <strong>de</strong> comporter <strong>de</strong> multip<strong>les</strong> séries <strong>de</strong> correspondance témoignant <strong>de</strong> la<br />

forte similarité <strong>de</strong>s <strong>séquences</strong> comparées, séparées <strong>de</strong> courtes opérations <strong>de</strong> décalage<br />

dues à l’insertion ou la suppression <strong>de</strong> symbo<strong>les</strong>. Graphiquement, C est composé<br />

d’une série <strong>de</strong> courtes diagona<strong>les</strong> et suit une trajectoire qui dévie légèrement à<br />

chaque nouvelle série <strong>de</strong> correspondances analysée.<br />

Plus précisément, pour un entier positif k et un chemin C du graphe d’édition<br />

<strong>de</strong> <strong>de</strong>ux <strong>séquences</strong>, on dit que C suit une trajectoire k-pseudo-diagonale s’il s’inscrit<br />

<strong>dans</strong> un ban<strong>de</strong>au <strong>de</strong> largeur k centré sur ses graines. Dans ce cas, on dit que <strong>les</strong><br />

graines du chemin C sont organisées selon une trajectoire pseudo-diagonale.<br />

La Figure 3.5 représente ainsi un ensemble <strong>de</strong> graines (en traits pleins) organisées<br />

selon une trajectoire pseudo-diagonale située <strong>dans</strong> le ban<strong>de</strong>au (en pointillés) <strong>de</strong><br />

largeur constante centré sur ces graines.<br />

Cette observation heuristique est mise à profit <strong>dans</strong> le cadre d’un filtre BLAST<br />

en introduisant un entier naturel positif K qui décrit la largeur <strong>de</strong> ban<strong>de</strong>au considérée<br />

pour le regroupement <strong>de</strong>s graines. Ce seuil correspond donc à la déviation<br />

maximale autorisée entre <strong>de</strong>ux graines successives pour <strong>les</strong> considérer membres d’un<br />

même groupe. Ainsi, toutes <strong>les</strong> graines repérées par F1 sont regroupées selon <strong>de</strong>s<br />

ban<strong>de</strong>aux pseudo-diagonaux <strong>de</strong> taille K. D’après notre hypothèse, on considère<br />

alors que le ban<strong>de</strong>au contenant le plus <strong>de</strong> graines contient l’alignement optimal<br />

<strong>de</strong>s <strong>séquences</strong> comparées. Par conséquent, à l’issue <strong>de</strong> ce filtre noté F2, seu<strong>les</strong> sont<br />

conservées <strong>les</strong> graines appartenant à ce ban<strong>de</strong>au optimal.<br />

Le filtre F2 peut ainsi être résumé par l’heuristique suivante :<br />

Les graines <strong>de</strong> l’espace <strong>de</strong> recherche <strong>de</strong> <strong>de</strong>ux <strong>séquences</strong> similaires sont organisées<br />

selon une trajectoire pseudo-diagonale<br />

Les graines <strong>de</strong> l’espace <strong>de</strong> recherche i<strong>de</strong>ntifiées à l’issue du filtre F2 sont supposées<br />

correspondre à la région contenant le plus probablement l’alignement optimal.<br />

Le troisième filtre BLAST, plus précis, permet <strong>de</strong> déterminer la pertinence du<br />

groupe <strong>de</strong> graines i<strong>de</strong>ntifié, et ainsi d’estimer la probabilité que celui-ci correspond<br />

effectivement à un alignement optimal <strong>de</strong> <strong>séquences</strong> similaires.<br />

3.3.2.3 Extension <strong>de</strong>s graines<br />

L’étape d’extension <strong>de</strong> graines présentée <strong>dans</strong> cette section est un raffinement<br />

<strong>de</strong> la métho<strong>de</strong> BLAST introduit par Altschul et al. [AMS + 97] en 1997 pour <strong>les</strong><br />

<strong>séquences</strong> biologiques.<br />

Soient u et v <strong>les</strong> <strong>de</strong>ux <strong>séquences</strong> comparées <strong>de</strong> tail<strong>les</strong> respectives n et m. L’étape<br />

précé<strong>de</strong>nte a permis d’i<strong>de</strong>ntifier <strong>les</strong> graines <strong>les</strong> plus significatives <strong>de</strong> l’espace <strong>de</strong> recherche.<br />

Le groupe <strong>de</strong> graines ainsi i<strong>de</strong>ntifié est supposé être proche <strong>de</strong> l’alignement<br />

local optimal <strong>de</strong>s <strong>de</strong>ux <strong>séquences</strong> comparées. Ce troisième filtre permet <strong>de</strong> s’assurer<br />

<strong>de</strong> la pertinence <strong>de</strong> cet ensemble <strong>de</strong> graines en déclenchant <strong>de</strong> courts alignements<br />

autour <strong>de</strong> chacune d’entre el<strong>les</strong>. Cette opération <strong>de</strong> transformation d’une graine en<br />

une portion d’alignement est appelée extension.


3.3 Passage à l’échelle 61<br />

<br />

<br />

Fig. 3.6 – Résultat <strong>de</strong> l’extension <strong>de</strong>s graines significatives. Les pointillés indiquent<br />

<strong>les</strong> extensions optima<strong>les</strong> calculées. Les régions grisées matérialisent <strong>les</strong> coefficients<br />

<strong>de</strong> programmation dynamique <strong>de</strong>vant être évalués.<br />

Soit g une graine <strong>de</strong> l’espace <strong>de</strong> recherche débutant aux coordonnées (i,k) et<br />

(j,l) ; on a alors u[i . . . j] = v[k . . . l]. On introduit un seuil d’extension X entier et<br />

positif.<br />

Étendre g vers la fin <strong>de</strong>s <strong>séquences</strong> u et v peut être obtenu en calculant un<br />

alignement optimal entre u[j . . . n] et v[l . . . m] débutant en (j,l). Afin d’éviter un<br />

alignement trop coûteux, BLAST impose que l’extension soit stoppée dès que le<br />

score <strong>de</strong> similarité <strong>de</strong>vient trop faible. Plus précisément, lors <strong>de</strong> l’extension d’une<br />

graine, si la valeur <strong>de</strong> similarité s d’un coefficient <strong>de</strong> programmation dynamique<br />

passe au-<strong>de</strong>ssous du seuil smax − X, où smax est le score maximal <strong>de</strong> similarité<br />

calculé pour le chemin en cours, alors l’extension est stoppée [AMS + 97]. L’extension<br />

<strong>de</strong> score maximal qui respecte cette condition est alors appelée extension droite <strong>de</strong><br />

la graine g.<br />

De manière analogue, la graine g est étendue à partir <strong>de</strong> (i,k) vers le début<br />

<strong>de</strong>s <strong>séquences</strong> en un alignement optimal respectant la condition d’arrêt, définissant<br />

alors l’extension gauche <strong>de</strong> la graine g.<br />

Pour chaque graine significative, <strong>les</strong> extensions gauche et droite sont calculées.<br />

Le score correspondant à l’alignement ainsi généré à partir <strong>de</strong> la graine g, appelé<br />

score d’extension <strong>de</strong> g, est défini comme la somme <strong>de</strong>s scores <strong>de</strong>s <strong>de</strong>ux extensions.<br />

Finalement, le score d’in<strong>de</strong>xation <strong>de</strong> l’espace <strong>de</strong> recherche <strong>de</strong> u et v est obtenu<br />

en sommant <strong>les</strong> scores d’extension <strong>de</strong>s graines précé<strong>de</strong>mment i<strong>de</strong>ntifiées comme<br />

significatives.<br />

La Figure 3.6 représente un exemple d’extension <strong>de</strong>s graines significatives <strong>de</strong><br />

l’espace <strong>de</strong> recherche. Les régions grisées correspon<strong>de</strong>nt aux coefficients <strong>de</strong> programmation<br />

dynamique <strong>de</strong>vant être calculés pour évaluer <strong>les</strong> extensions. On remarque<br />

qu’à l’issue <strong>de</strong> ce filtre, l’ensemble <strong>de</strong> chemins i<strong>de</strong>ntifiés est proche du chemin optimal<br />

<strong>de</strong> l’alignement local, représenté en Figure 3.3. Cependant, <strong>dans</strong> le cas <strong>de</strong><br />

la Figure 3.6, un nombre sensiblement inférieur <strong>de</strong> coefficients <strong>de</strong> programmation<br />

dynamique, en gris, ont dû être évalués.<br />

En introduisant un seuil S <strong>de</strong> sensibilité d’in<strong>de</strong>xation, le troisième filtre, noté<br />

F3, consiste à ne conserver parmi toutes <strong>les</strong> comparaisons effectuées que cel<strong>les</strong> dont<br />

le score d’in<strong>de</strong>xation est supérieur à S.


62 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

Le filtre F3 est caractérisé par l’heuristique suivante :<br />

La somme <strong>de</strong>s scores d’extension <strong>de</strong> graines significatives <strong>de</strong> <strong>de</strong>ux <strong>séquences</strong> est<br />

proche du score d’alignement local optimal <strong>de</strong> ces <strong>séquences</strong><br />

3.3.3 In<strong>de</strong>xation <strong>de</strong> <strong>séquences</strong> tona<strong>les</strong><br />

Afin d’appliquer <strong>les</strong> principes <strong>de</strong> BLAST aux <strong>séquences</strong> musica<strong>les</strong>, il convient<br />

d’abord d’analyser leur distribution et d’optimiser <strong>les</strong> réglages heuristiques à ces<br />

données. Cette section décrit la stratégie d’in<strong>de</strong>xation <strong>de</strong> <strong>séquences</strong> tona<strong>les</strong>, et expose<br />

<strong>les</strong> résultats expérimentaux menant à une in<strong>de</strong>xation efficace <strong>dans</strong> le cadre<br />

applicatif <strong>de</strong> l’i<strong>de</strong>ntification <strong>de</strong>s reprises. L’étu<strong>de</strong> présentée <strong>dans</strong> cette section a fait<br />

l’objet d’une publication <strong>dans</strong> <strong>les</strong> actes <strong>de</strong> la conférence International Society for<br />

Music Information Retrieval (ISMIR) 2012 [MBHF12] 1 .<br />

3.3.3.1 Contraintes <strong>de</strong> représentation<br />

Comme expliqué en Chapitre 2, le chroma est un vecteur comprenant B valeurs<br />

indépendantes représentant l’information tonale d’un extrait audio. L’espace <strong>de</strong><br />

définition du symbole chroma est donc l’espace non fini<br />

Σ chr = R B . (23)<br />

Comme expliqué <strong>dans</strong> la section précé<strong>de</strong>nte, l’in<strong>de</strong>xation effectuée par BLAST<br />

repose sur la détection rapi<strong>de</strong> <strong>de</strong> graines <strong>de</strong> l’espace <strong>de</strong> recherche, donc <strong>de</strong> correspondances<br />

exactes entre symbo<strong>les</strong>. Il est donc crucial pour l’in<strong>de</strong>xation <strong>de</strong> représenter<br />

<strong>les</strong> symbo<strong>les</strong> sur un alphabet fini et <strong>de</strong> faible taille, afin d’i<strong>de</strong>ntifier <strong>de</strong>s correspondances<br />

exactes <strong>dans</strong> <strong>les</strong> <strong>séquences</strong> musica<strong>les</strong>.<br />

Une possibilité <strong>de</strong> réduction <strong>de</strong> l’espace <strong>de</strong> représentation <strong>de</strong>s chromas à un alphabet<br />

fini consiste à transformer ceux-ci en accords. Ainsi, <strong>de</strong> nombreuses étu<strong>de</strong>s<br />

<strong>de</strong> la littérature proposent <strong>de</strong>s techniques <strong>de</strong> conversion <strong>de</strong> chromas en accords, par<br />

exemple en utilisant une analyse par profils <strong>de</strong> référence (voir [Roc11, p.71–76] pour<br />

une revue <strong>de</strong>s techniques existantes). Ces techniques sont généralement dédiées à<br />

l’inférence précise <strong>de</strong>s accords joués, et évalués en comparant ceux-ci à <strong>de</strong>s annotations<br />

manuel<strong>les</strong> pour différentes bases <strong>de</strong> données audio [Roc11]. Cependant, <strong>dans</strong><br />

le cadre <strong>de</strong> BLAST, si cette quantification sur l’espace <strong>de</strong>s accords doit nécessiter<br />

peu <strong>de</strong> calculs et conserver une pertinence musicale, une gran<strong>de</strong> précision n’est pas<br />

requise. En effet, puisque BLAST permet d’in<strong>de</strong>xer <strong>de</strong> courtes graines <strong>de</strong> l’espace<br />

<strong>de</strong> recherche, on peut supposer que la métho<strong>de</strong> est tolérante à quelques erreurs<br />

d’analyse pouvant être introduites par cette quantification.<br />

Une quantification simple consiste à représenter chaque chroma par sa tria<strong>de</strong><br />

prépondérante [G´06], c’est-à-dire en repérant le triplet (tonique, tierce (majeure<br />

ou mineure), dominante) [Bit87] dont la somme <strong>de</strong> coefficients <strong>dans</strong> le chroma est<br />

maximale. On quantifie alors un chroma h en le substituant par la tonique <strong>de</strong><br />

l’accord correspondant à ce triplet prépondérant.<br />

Cette opération <strong>de</strong> quantification réduit alors l’espace <strong>de</strong> <strong>de</strong>scription à un alphabet<br />

Σacc <strong>de</strong> B symbo<strong>les</strong>, que l’on peut représenter comme l’ensemble <strong>de</strong>s toniques<br />

possib<strong>les</strong> sur la gamme tempérée. Par commodité <strong>de</strong> notation, on associe une<br />

1. Les résultats numériques présentés <strong>dans</strong> cette section diffèrent légèrement <strong>de</strong> ceux publiés, <strong>les</strong><br />

expériences et réglages ayant été approfondis <strong>dans</strong> le cadre <strong>de</strong> cette thèse


3.3 Passage à l’échelle 63<br />

lettre à chaque tonique possible. Par exemple, pour une résolution <strong>de</strong> 12 <strong>de</strong>mi-tons<br />

(B = 12), l’alphabet Σacc peut être défini comme :<br />

Σacc = { a, b, c, d, e, f, g, h, i, j, k, l }<br />

C, C♯, D, D♯, E, F, F♯, G, G♯, A, A♯, B<br />

, (24)<br />

la secon<strong>de</strong> ligne indiquant la correspondance entre chaque symbole et la notation<br />

musicale usuelle.<br />

Cette quantification <strong>de</strong>s chromas en accords est susceptible d’introduire <strong>de</strong>s erreurs<br />

d’analyse. Par exemple, la projection du chroma illustré Figure 2.5-(iv) sur<br />

Σacc induit la suppression d’une partie <strong>de</strong> l’information tonale, et peut conduire à<br />

une mauvaise interprétation <strong>de</strong> l’harmonie. Ainsi, ce chroma risque d’être interprété<br />

sur Σacc comme un accord simple (Ré ou La), tandis que le reste <strong>de</strong> l’information<br />

tonale est ignoré. En conservant la représentation sous forme <strong>de</strong> chroma, l’ensemble<br />

<strong>de</strong> l’information est préservé et le <strong>de</strong>scripteur caractérise plus précisément <strong>les</strong> informations<br />

tona<strong>les</strong> <strong>de</strong> l’extrait. D’une manière générale, la représentation sur l’espace<br />

<strong>de</strong> définition du vecteur chroma Σ chr permet <strong>de</strong> conserver toute l’information tonale<br />

présente au sein du <strong>de</strong>scripteur, tandis que la projection sur l’alphabet <strong>de</strong>s<br />

accords Σacc ne conserve qu’une partie <strong>de</strong> cette information. Une estimation <strong>de</strong><br />

l’erreur introduite par cette quantification peut être consultée en [G´06, chap.4].<br />

Malgré une perte <strong>de</strong> précision <strong>de</strong> la <strong>de</strong>scription tonale du signal, une telle projection<br />

a plusieurs avantages pour l’application d’in<strong>de</strong>xation :<br />

- Elle permet <strong>de</strong> définir comme mesure <strong>de</strong> similarité la comparaison triviale entre<br />

symbo<strong>les</strong> ;<br />

- Elle facilite l’interprétation musicale <strong>de</strong>s symbo<strong>les</strong> i<strong>de</strong>ntifiés ;<br />

- Elle augmente fortement la probabilité <strong>de</strong> correspondances successives <strong>dans</strong> l’espace<br />

<strong>de</strong> recherche.<br />

En outre, comme expliqué en Section 3.2.1, la transposition (locale ou globale)<br />

est une variation courante que <strong>les</strong> techniques <strong>de</strong> comparaison doivent prendre en<br />

compte. Ainsi, comme souligné par Kurth et Müller [KM08], une stratégie d’in<strong>de</strong>xation<br />

efficace pour la similarité musicale doit i<strong>de</strong>ntifier <strong>de</strong>s progressions harmoniques<br />

relatives plutôt que <strong>de</strong>s informations tona<strong>les</strong> absolues. Par exemple, <strong>les</strong> <strong>séquences</strong><br />

bcbbfd et <strong>de</strong>ddhd peuvent être considérées comme i<strong>de</strong>ntiques puisque la secon<strong>de</strong> n’est<br />

qu’une transposition <strong>de</strong> 2 tons <strong>de</strong> la première. En pratique, une technique permettant<br />

<strong>de</strong> comparer <strong>de</strong> manière relative est <strong>de</strong> transposer chaque séquence avant toute<br />

comparaison afin qu’elle commence par un même symbole, a par exemple.<br />

3.3.3.2 Bases <strong>de</strong> données<br />

Afin d’évaluer l’utilité <strong>de</strong> la métho<strong>de</strong> d’in<strong>de</strong>xation, nous considérons un ensemble<br />

<strong>de</strong> morceaux <strong>de</strong> taille conséquente, <strong>de</strong> l’ordre du million <strong>de</strong> morceaux <strong>de</strong> musique.<br />

Deux bases <strong>de</strong> données sont donc utilisées pour évaluer notre technique. La première,<br />

notée T SD et introduite en Section 3.2.2, correspond à un ensemble <strong>de</strong> 2514<br />

morceaux <strong>de</strong> musique, comprenant 514 reprises réparties en 17 classes. Celle-ci est<br />

utilisée comme témoin <strong>de</strong> la précision du système d’i<strong>de</strong>ntification. La secon<strong>de</strong>, notée<br />

MSD, est extraite <strong>de</strong> la base <strong>de</strong> données Million Song Dataset 1 [BMEWL11]<br />

et correspond à un ensemble d’un million d’œuvres <strong>de</strong> différents sty<strong>les</strong> musicaux.<br />

1. http://labrosa.ee.columbia.edu/millionsong/


64 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

(i)<br />

(ii)<br />

TSD MSD<br />

Taille Faux Faux Faux Faux<br />

graine négatifs positifs négatifs positifs<br />

3 0.00 8.91 0.11 4.70<br />

4 0.03 3.69 4.28 1.15<br />

5 0.84 1.68 18.3 0.39<br />

6 4.50 0.82 37.2 0.16<br />

7 11.7 0.44 54.7 0.08<br />

8 21.8 0.25 68.6 0.04<br />

3 0.00 1.06 0.84 1.33<br />

4 0.21 0.41 7.08 0.23<br />

5 2.59 0.18 22.6 0.06<br />

6 6.67 0.08 41.8 0.02<br />

7 14.9 0.04 58.9 0.01<br />

8 26.0 0.02 72.1 .003<br />

Tab. 3.4 – Compromis sensibilité/spécificité sur <strong>les</strong> bases <strong>de</strong> données TSD et MSD.<br />

Les scores sont donnés en pourcentages. Dans (i), tous <strong>les</strong> mots <strong>de</strong> la base <strong>de</strong> données<br />

sont in<strong>de</strong>xés. Dans (ii), <strong>les</strong> mots mono-symboliques ne sont pas in<strong>de</strong>xés.<br />

Parmi ces morceaux, la base Second Hand Songs dataset 1 comprend 18196 reprises<br />

réparties en 5854 classes. Cette base <strong>de</strong> données est à notre connaissance la plus<br />

gran<strong>de</strong> collection disponible <strong>de</strong> <strong>de</strong>scripteurs audio calculés à partir <strong>de</strong> reprises.<br />

Pour <strong>les</strong> morceaux <strong>de</strong>s <strong>de</strong>ux bases <strong>de</strong> données, la <strong>de</strong>scription tonale sous forme<br />

<strong>de</strong> <strong>séquences</strong> <strong>de</strong> chromas est utilisée. Néanmoins, il convient <strong>de</strong> noter que la représentation<br />

sous forme <strong>de</strong> chromas varie pour l’une et l’autre. Pour T SD, notre<br />

implémentation <strong>de</strong>s chromas telle que décrite en Section 2.2.5 est appliquée avec<br />

une taille <strong>de</strong> trame constante et une résolution B = 36. Pour MSD, la représentation<br />

est obtenue grâce au framework EchoNest 2 , et est calculée sur <strong>de</strong>s trames dites<br />

segment-synchronized, <strong>de</strong> durées non constantes et une résolution B = 12, comme<br />

décrit plus précisément <strong>dans</strong> [Jeh05a, p.57–59]. Ainsi, chaque chroma <strong>de</strong> MSD représente<br />

l’information tonale sur 12 dimensions pour une trame <strong>de</strong> durée variable<br />

(entre 80 et 300ms sans chevauchement [Jeh05a]), tandis que chaque chroma <strong>de</strong><br />

T SD représente l’information tonale sur 36 dimensions pour une trame <strong>de</strong> durée<br />

fixe (743ms avec un chevauchement <strong>de</strong> moitié).<br />

3.3.3.3 <strong>Analyse</strong> statistique<br />

Les heuristiques formulées par la technique BLAST reposent sur la sélection <strong>de</strong><br />

graines, ou séries <strong>de</strong> correspondances entre <strong>de</strong>ux <strong>séquences</strong> comparées. Un point<br />

clé <strong>de</strong> la métho<strong>de</strong> est <strong>de</strong> déterminer un compromis raisonnable entre une bonne<br />

sensibilité du filtrage, in<strong>de</strong>xant autant d’alignements optimaux que possible, et une<br />

bonne spécificité <strong>de</strong> celui-ci, qui doit introduire aussi peu d’alignements non pertinents<br />

que possible. La suite <strong>de</strong> cette section décrit l’étu<strong>de</strong> statistique permettant<br />

d’évaluer ce compromis.<br />

1. http://www.secondhandsongs.com<br />

2. http://the.echonest.com/


3.3 Passage à l’échelle 65<br />

Sensibilité<br />

La sensibilité peut être évaluée en analysant <strong>de</strong>s alignements <strong>de</strong> <strong>séquences</strong> similaires.<br />

On pose N un entier positif, correspondant à une taille <strong>de</strong> graine. Un<br />

alignement donné ne peut être in<strong>de</strong>xé par BLAST que s’il contient au moins une<br />

graine <strong>de</strong> taille N. Connaître la sensibilité du test pour N consiste donc à évaluer<br />

combien d’alignements <strong>de</strong> <strong>séquences</strong> similaires ne peuvent être in<strong>de</strong>xés par une<br />

graine <strong>de</strong> taille N.<br />

Pour chaque classe <strong>de</strong> reprises C <strong>de</strong> T SD et <strong>de</strong> MSD, on calcule <strong>les</strong> alignements<br />

locaux optimaux entre toutes <strong>les</strong> paires <strong>de</strong> <strong>séquences</strong> <strong>de</strong> C. Chaque alignement est<br />

alors considéré comme correctement in<strong>de</strong>xé s’il contient au moins une série <strong>de</strong> N<br />

correspondances successives. Dans le cas contraire, il n’est pas in<strong>de</strong>xé par BLAST<br />

et est dit faux négatif. Les <strong>de</strong>uxième et quatrième colonnes du Tableau 3.4-(i) présentent,<br />

en fonction <strong>de</strong> la taille <strong>de</strong> graine N, le taux <strong>de</strong> faux négatifs correspondant<br />

à la probabilité qu’un alignement ne soit pas in<strong>de</strong>xé par la métho<strong>de</strong>.<br />

Spécificité<br />

Pour une taille <strong>de</strong> graine N, la spécificité du test correspond à la probabilité <strong>de</strong><br />

trouver une série <strong>de</strong> N correspondances <strong>dans</strong> <strong>de</strong>ux morceaux <strong>de</strong> <strong>séquences</strong> choisis<br />

aléatoirement <strong>dans</strong> la base <strong>de</strong> données.<br />

En pratique, on évalue cette probabilité en comptant le nombre d’occurrences<br />

<strong>de</strong> chacune <strong>de</strong>s <strong>séquences</strong> <strong>de</strong> N symbo<strong>les</strong> sur Σacc, ou mots <strong>de</strong> taille N, <strong>dans</strong> la<br />

base <strong>de</strong> morceaux quelconques (ne correspondant pas à <strong>de</strong>s reprises). Les nombres<br />

d’occurrences sont calculés pour tous <strong>les</strong> mots possib<strong>les</strong> et stockés <strong>dans</strong> une liste L.<br />

Ainsi, un élément <strong>de</strong> L indique le nombre d’instances d’un mot particulier, et <br />

i L[i]<br />

est le nombre total <strong>de</strong> mots <strong>de</strong> taille N <strong>dans</strong> la base <strong>de</strong> données. La probabilité <strong>de</strong><br />

trouver un mot w <strong>dans</strong> une séquence choisie aléatoirement correspond à la valeur<br />

L[j]<br />

L[i],<br />

où j est l’indice <strong>dans</strong> L correspondant au mot w. La probabilité <strong>de</strong> trouver<br />

i<br />

<strong>de</strong>ux mots w <strong>dans</strong> <strong>de</strong>ux <strong>séquences</strong> choisies aléatoirement correspond alors au carré<br />

<strong>de</strong> cette valeur. Par conséquent, la probabilité <strong>de</strong> trouver <strong>de</strong>ux mots i<strong>de</strong>ntiques <strong>de</strong><br />

taille N (donc une série <strong>de</strong> N correspondances) <strong>dans</strong> <strong>de</strong>s <strong>séquences</strong> aléatoires <strong>de</strong> la<br />

base <strong>de</strong> données est donnée par :<br />

1<br />

P r[faux positif] =<br />

( <br />

i L[i])2<br />

<br />

L[j] 2 . (25)<br />

Les troisième et cinquième colonnes du Tableau 3.4-(i) présentent <strong>les</strong> résultats<br />

<strong>de</strong> calcul <strong>de</strong> cette probabilité en fonction <strong>de</strong> la taille <strong>de</strong>s mots in<strong>de</strong>xés, pour chacune<br />

<strong>de</strong>s bases <strong>de</strong> données.<br />

Distribution <strong>de</strong>s mots<br />

Le Tableau 3.5 présente <strong>les</strong> quinze mots <strong>de</strong> taille 7 apparaissant le plus souvent<br />

<strong>dans</strong> T SD et MSD. Le mot le plus probable est une succession <strong>de</strong> 7 fois le même<br />

symbole, qui apparaît <strong>dans</strong> 6.36% <strong>de</strong>s <strong>séquences</strong> <strong>dans</strong> T SD et 14.1% <strong>de</strong>s <strong>séquences</strong><br />

<strong>dans</strong> MSD. La probabilité d’apparition <strong>de</strong> ce mot mono-symbolique est significativement<br />

plus élevée que celle <strong>de</strong> tous <strong>les</strong> autres. Sa contribution au taux <strong>de</strong> faux<br />

j


66 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

TSD MSD<br />

Mot % Mot %<br />

aaaaaaa 6.36 aaaaaaa 14.1<br />

ahhhhhh 0.55 aaaaaah 1.45<br />

aaaaaah 0.53 aaaaaaf 1.31<br />

affffff 0.49 affffff 1.13<br />

aaaaaaf 0.46 ahhhhhh 0.98<br />

aahhhhh 0.46 aaaaaaj 0.81<br />

aaahhhh 0.46 aaaaahh 0.77<br />

aaaahhh 0.43 aaaaaha 0.77<br />

aaaaahh 0.41 aaaaaff 0.75<br />

aaaaaff 0.34 aafffff 0.74<br />

aafffff 0.34 aafffff 0.74<br />

aaaafff 0.33 aaaafff 0.68<br />

aaaffff 0.32 aaaaaad 0.67<br />

aaaaaae 0.26 aahhhhh 0.67<br />

aaaaaaj 0.25 aaaffff 0.66<br />

Tab. 3.5 – Les quinze mots <strong>les</strong> plus probab<strong>les</strong> <strong>dans</strong> TSD et MSD, et leur fréquence<br />

d’apparition (en % <strong>de</strong>s mots <strong>de</strong> chaque base <strong>de</strong> données) pour une graine <strong>de</strong> longueur<br />

7 et un alphabet à 12 symbo<strong>les</strong>.<br />

positifs, donné par l’équation 25, est donc très importante. Plus précisément, 91.2%<br />

<strong>de</strong>s faux positifs <strong>dans</strong> T SD (respectivement 88.8% <strong>dans</strong> MSD) estimés en colonne<br />

3 (resp. colonne 5) du Tableau 3.4 correspon<strong>de</strong>nt à <strong>de</strong>s mots mono-symboliques.<br />

Ainsi, <strong>les</strong> mots mono-symboliques sont responsab<strong>les</strong> <strong>de</strong> l’in<strong>de</strong>xation <strong>de</strong> nombreuses<br />

<strong>séquences</strong> non similaires tout en ne représentant pas <strong>de</strong> régions particulièrement<br />

caractéristiques <strong>dans</strong> <strong>les</strong> alignements <strong>de</strong> <strong>séquences</strong> similaires. La partie (ii) du Tableau<br />

3.4 présente <strong>les</strong> taux <strong>de</strong> faux positifs et faux négatifs induits par une in<strong>de</strong>xation<br />

ne tenant pas compte <strong>de</strong>s mots mono-symboliques. Comme espéré, la non<br />

in<strong>de</strong>xation <strong>de</strong> ces mots augmente la spécificité d’un facteur 4 à 10, signifiant qu’un<br />

nombre important <strong>de</strong> correspondances erronées est évité. Cette nouvelle in<strong>de</strong>xation<br />

a également un impact sur le taux <strong>de</strong> faux positifs, en diminuant la sensibilité<br />

d’environ 3% sur chaque base <strong>de</strong> données.<br />

En outre, il est intéressant <strong>de</strong> remarquer que <strong>les</strong> mots <strong>les</strong> plus fréquents indiqués<br />

<strong>dans</strong> le Tableau 3.5 <strong>dans</strong> <strong>les</strong> <strong>de</strong>ux bases <strong>de</strong> données correspon<strong>de</strong>nt à <strong>de</strong>s variantes<br />

<strong>de</strong> progressions harmoniques très répandues en musique occi<strong>de</strong>ntale [Roc11] : par<br />

exemple, la quinte juste montante (a vers h), quinte juste <strong>de</strong>scendante (a vers f)<br />

ou encore la tierce mineure <strong>de</strong>scendante (a vers j) (voir [Bit87] pour une définition<br />

précise <strong>de</strong> ces termes).


3.3 Passage à l’échelle 67<br />

Métho<strong>de</strong><br />

Base <strong>de</strong> MAP Durée<br />

données (%) (s/requête)<br />

(i)<br />

TSD 56.66 129<br />

(ii)<br />

(iii)<br />

Alignement<br />

MSD2k<br />

TSD<br />

5.71<br />

6.15<br />

388<br />

273<br />

(iv) MSD - 193765<br />

(v)<br />

(vi)<br />

BLAST-{F1}<br />

TSD<br />

MSD<br />

3.70<br />

-<br />

0.09<br />

4.58<br />

(vii)<br />

(viii)<br />

BLAST-{F2}<br />

TSD<br />

MSD<br />

19.23<br />

-<br />

0.24<br />

12.20<br />

(ix)<br />

(x)<br />

BLAST-{F2,F3}<br />

TSD<br />

MSD<br />

33.08<br />

-<br />

0.33<br />

16.90<br />

Tab. 3.6 – Résultats (précision moyenne) et temps <strong>de</strong> calcul <strong>de</strong> la tâche d’i<strong>de</strong>ntification<br />

<strong>de</strong>s reprises pour <strong>les</strong> bases <strong>de</strong> données T SD et MSD.<br />

3.3.4 Stratégie d’in<strong>de</strong>xation et résultats<br />

Les résultats statistiques présentés <strong>dans</strong> <strong>les</strong> Tableaux 3.4 et 3.5 mettent en avant<br />

une différence significative entre <strong>les</strong> <strong>de</strong>ux bases <strong>de</strong> données T SD et MSD. D’abord,<br />

<strong>les</strong> alignements <strong>de</strong> reprises partagent sensiblement moins <strong>de</strong> mots communs <strong>dans</strong><br />

MSD que <strong>dans</strong> T SD. Par exemple, pour une graine <strong>de</strong> taille 7, seuls 41.1% <strong>de</strong>s<br />

alignements <strong>de</strong> reprises <strong>dans</strong> MSD partagent <strong>de</strong>s mots non mono-symboliques,<br />

contre 85.1% pour <strong>les</strong> reprises <strong>de</strong> T SD. L’i<strong>de</strong>ntification <strong>de</strong> reprises <strong>dans</strong> MSD est<br />

donc susceptible d’être plus complexe que <strong>dans</strong> T SD. On remarque également une<br />

différence du taux <strong>de</strong> faux positifs entre <strong>les</strong> bases MSD et T SD, qui suggère que<br />

la distribution <strong>de</strong>s mots <strong>dans</strong> <strong>les</strong> <strong>de</strong>ux bases <strong>de</strong> données est différente et donc que<br />

l’in<strong>de</strong>xation <strong>de</strong> cel<strong>les</strong>-ci doit être effectuée séparément.<br />

I<strong>de</strong>ntification par alignement<br />

Afin <strong>de</strong> tester la pertinence du système d’in<strong>de</strong>xation, <strong>les</strong> résultats in<strong>de</strong>xés sur<br />

T SD sont comparés aux résultats d’i<strong>de</strong>ntification <strong>de</strong>s reprises avec techniques d’alignement,<br />

tels que présentés en Section 3.2.2. Comme précé<strong>de</strong>mment, chaque classe<br />

<strong>de</strong> reprises est recherchée par similarité parmi 2000 morceaux non corrélés. La valeur<br />

<strong>de</strong> précision moyenne du système sur T SD est <strong>de</strong> 56.7%, comme indiqué en<br />

ligne (i) du Tableau 3.6. La distribution <strong>de</strong>s scores en fonction <strong>de</strong>s classes <strong>de</strong> reprises<br />

est représentée sous la forme <strong>de</strong> barres noires en Figure 3.7. Comme expliqué en<br />

Section 3.2.2, la précision <strong>de</strong> l’i<strong>de</strong>ntification varie fortement en fonction <strong>de</strong> la classe<br />

considérée.<br />

Une évaluation similaire est appliquée sur MSD ; cependant, face à la forte<br />

complexité calculatoire <strong>de</strong>s techniques d’alignement (évaluée à environ 53 heures<br />

par requête pour MSD, voir ci-<strong>de</strong>ssous), l’ensemble du jeu <strong>de</strong> données MSD ne<br />

peut être comparé en pratique. Pour permettre d’évaluer une partie <strong>de</strong> MSD, un<br />

sous-ensemble, noté MSD2k, est constitué en choisissant aléatoirement 30 classes <strong>de</strong><br />

reprises ainsi que 2000 morceaux non corrélés. De cette façon, MSD2k est <strong>de</strong> taille<br />

équivalente à T SD, et son évaluation peut être effectuée en un temps raisonnable.<br />

La valeur <strong>de</strong> précision moyenne du système d’i<strong>de</strong>ntification <strong>de</strong> reprises obtenue


68 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

sur MSD2k est <strong>de</strong> 5.71% (Tableau 3.6-(ii)). Cette valeur <strong>de</strong> précision très faible<br />

suggère que le système d’évaluation <strong>de</strong> la similarité par alignement ne permet pas<br />

d’i<strong>de</strong>ntifier <strong>les</strong> reprises <strong>dans</strong> MSD. Nous i<strong>de</strong>ntifions <strong>de</strong>ux causes qui peuvent justifier<br />

une précision si faible :<br />

1. Les reprises <strong>de</strong> MSD (MSD2k en particulier) présentent <strong>de</strong>s variations tona<strong>les</strong><br />

trop importantes pour être i<strong>de</strong>ntifiées par <strong>les</strong> techniques d’alignement ;<br />

2. Les chromas <strong>de</strong> la base MSD ne constituent pas <strong>de</strong> <strong>séquences</strong> pouvant être<br />

comparées par <strong>les</strong> techniques d’alignement.<br />

Ces alternatives sont également envisagées <strong>dans</strong> [BME11] pour expliquer une limitation<br />

<strong>de</strong> l’i<strong>de</strong>ntification <strong>de</strong>s reprises sur la base MSD. Si <strong>les</strong> auteurs relèvent une<br />

précision du système plus faible sur MSD que sur une base <strong>de</strong> données personnelle<br />

évaluée <strong>dans</strong> [EP07], leur étu<strong>de</strong> ne permet pas <strong>de</strong> discriminer laquelle <strong>de</strong>s <strong>de</strong>ux<br />

alternatives cause cette baisse <strong>de</strong> précision.<br />

Les détails <strong>de</strong> l’implémentation <strong>de</strong>s chromas MSD ne sont pas accessib<strong>les</strong> à ce<br />

jour. Néanmoins, le principe général décrit <strong>dans</strong> [Jeh05a] nous permet <strong>de</strong> conjecturer<br />

que ce problème est dû à <strong>de</strong>s différences importantes d’implémentation, tel<strong>les</strong> que la<br />

résolution <strong>de</strong>s chromas, le filtrage temporel ou la normalisation effectués. En outre,<br />

comme souligné par Serrà et al. [SGHS08], le calcul <strong>de</strong>s chromas sur <strong>de</strong>s trames <strong>de</strong><br />

durées non constantes peut avoir un effet négatif sur <strong>les</strong> techniques d’alignement.<br />

Afin <strong>de</strong> vérifier cette hypothèse par l’expérience, une solution consiste à isoler <strong>les</strong><br />

<strong>de</strong>ux alternatives en représentant <strong>les</strong> morceaux <strong>de</strong> la base MSD avec l’implémentation<br />

<strong>de</strong>s chromas utilisée pour T SD ; cependant, la non disponibilité <strong>de</strong>s données<br />

audio <strong>dans</strong> MSD rend cette opération impossible. En revanche, puisque <strong>les</strong> <strong>de</strong>scripteurs<br />

<strong>de</strong> MSD sont calculés grâce au framework EchoNest 1 , l’opération inverse<br />

consistant à représenter T SD avec l’implémentation <strong>de</strong>s chromas <strong>de</strong> MSD est possible.<br />

On représente donc T SD avec l’API EchoNest pour obtenir une nouvelle<br />

base <strong>de</strong> <strong>séquences</strong>, notée T SD. La tâche d’i<strong>de</strong>ntification <strong>de</strong> reprises est à nouveau<br />

évaluée pour T SD. La valeur <strong>de</strong> précision moyenne obtenue est <strong>de</strong> 6.15%, comme<br />

indiqué en ligne (iii) du Tableau 3.6. La distribution <strong>de</strong>s précisions en fonction <strong>de</strong>s<br />

classes <strong>de</strong> reprises est représentée sous la forme <strong>de</strong> barres blanches en Figure 3.7.<br />

Cette baisse significative <strong>de</strong> la précision <strong>de</strong> l’i<strong>de</strong>ntification entre T SD et T SD pour<br />

chacune <strong>de</strong>s classes appuie notre hypothèse en montrant que la cause d’échec du<br />

système sur MSD est due à l’implémentation <strong>de</strong>s chromas, et non à la complexité<br />

<strong>de</strong>s reprises.<br />

Le Tableau 3.7 représente pour <strong>de</strong>ux exemp<strong>les</strong> <strong>les</strong> 50 premiers symbo<strong>les</strong> <strong>de</strong><br />

<strong>séquences</strong> obtenues par projection <strong>de</strong>s chromas pour notre implémentation et celle<br />

d’EchoNest. La différence forte entre <strong>les</strong> <strong>de</strong>ux implémentations et la plus gran<strong>de</strong><br />

variabilité <strong>de</strong>s symbo<strong>les</strong> <strong>dans</strong> <strong>les</strong> <strong>séquences</strong> <strong>de</strong> la secon<strong>de</strong> implémentation renforcent<br />

la conclusion <strong>de</strong> limitation <strong>de</strong> ces <strong>de</strong>rnières pour l’alignement.<br />

I<strong>de</strong>ntification par BLAST<br />

La stratégie d’in<strong>de</strong>xation introduite <strong>dans</strong> la Section 3.3.2 est appliquée sur <strong>les</strong><br />

bases <strong>de</strong> données T SD et MSD. Les techniques d’alignement ne permettant pas<br />

<strong>de</strong> réaliser l’i<strong>de</strong>ntification <strong>de</strong>s reprises sur MSD, la métho<strong>de</strong> heuristique BLAST<br />

est également non pertinente. Les résultats sur MSD présentés <strong>dans</strong> la suite ne<br />

1. http://<strong>de</strong>veloper.echonest.com


3.3 Passage à l’échelle 69<br />

Blues Brothers - The Pink Panther<br />

Séquence T SD : aglafaagaiiiiialaiiliiiiiliaifliiaiglgaiiaiaifgag<br />

Séquence T SD : acbbchjbgbbkkakckickkakckickkaackdckkaackkgjcckad<br />

The Beat<strong>les</strong> - Accross the Universe<br />

Séquence T SD : aiiiidfdaaaaaaaaaaadddkkdkciiiidaadaafaaaadafikbk<br />

Séquence T SD : aieeeeleliiblblblijlglldddgeeeedbblflibclbibigggl<br />

Tab. 3.7 – Les 50 premiers symbo<strong>les</strong> <strong>de</strong> <strong>de</strong>ux morceaux avec notre propre implémentation<br />

<strong>de</strong>s chromas (T SD) et l’implémentation d’EchoNest ( T SD).<br />

doivent donc être considérés que comme un indicateur suggérant la performance<br />

calculatoire du système sur une base <strong>de</strong> données <strong>de</strong> l’ordre du million <strong>de</strong> morceaux.<br />

À partir <strong>de</strong> l’étu<strong>de</strong> statistique présentée <strong>dans</strong> le Tableau 3.4, on choisit la taille<br />

<strong>de</strong> graine W = 7 qui présente un compromis raisonnable avec un taux <strong>de</strong> faux<br />

négatifs <strong>de</strong> 14.9% pour un taux <strong>de</strong> faux positifs <strong>de</strong> 0.04% sur T SD. Ce choix est<br />

justifié par le faible nombre <strong>de</strong> reprises <strong>dans</strong> la base <strong>de</strong> données au regard d’un grand<br />

nombre <strong>de</strong> morceaux non pertinents ; ainsi, choisir un taux <strong>de</strong> faux positifs très faible<br />

assure <strong>de</strong> n’in<strong>de</strong>xer que peu <strong>de</strong> morceaux non pertinents. De plus, comme expliqué<br />

précé<strong>de</strong>mment, <strong>les</strong> classes <strong>de</strong> reprises considérées présentent une gran<strong>de</strong> variabilité<br />

musicale ; ainsi, chacune d’entre el<strong>les</strong> est susceptible <strong>de</strong> comporter une certaine<br />

proportion <strong>de</strong> morceaux particulièrement complexes à détecter, même en utilisant<br />

<strong>de</strong>s techniques d’alignement. C’est pourquoi le taux <strong>de</strong> faux négatifs d’environ 15%<br />

constitue une valeur raisonnable pouvant correspondre à l’élimination <strong>de</strong>s reprises<br />

<strong>les</strong> moins i<strong>de</strong>ntifiab<strong>les</strong> pour chaque classe.<br />

La base d’in<strong>de</strong>xation est construite sous la forme d’une table <strong>de</strong> hachage associant<br />

à chaque mot w <strong>de</strong> taille W <strong>les</strong> positions où w apparaît <strong>dans</strong> la base <strong>de</strong><br />

données. Pour une requête u donnée, le filtre F1 est d’abord appliqué en attribuant<br />

au score <strong>de</strong> similarité entre u et une séquence v le nombre <strong>de</strong> graines <strong>de</strong> l’espace<br />

<strong>de</strong> recherche correspondant. La valeur <strong>de</strong> précision moyenne constatée pour l’i<strong>de</strong>ntification<br />

<strong>de</strong> reprises <strong>dans</strong> T SD est alors <strong>de</strong> 3.7%, comme indiqué en ligne (v) du<br />

Tableau 3.6. Cette faible précision souligne l’insuffisance du filtre F1 seul pour l’in<strong>de</strong>xation<br />

<strong>de</strong>s reprises.<br />

On applique à présent le filtre F2 afin <strong>de</strong> sélectionner <strong>les</strong> graines significatives<br />

<strong>dans</strong> l’espace <strong>de</strong> recherche entre u et chaque morceau <strong>de</strong> la base <strong>de</strong> données (voir<br />

Section 3.3.2.2). Ce <strong>de</strong>uxième filtre peut être évalué en assignant comme score <strong>de</strong><br />

similarité entre u et une séquence v le nombre <strong>de</strong> graines significatives conservées<br />

après application du filtre F2. La valeur <strong>de</strong> précision moyenne alors obtenue sur la<br />

base T SD est <strong>de</strong> 19.23%, comme indiqué en ligne (vii) du Tableau 3.6. La distribution<br />

<strong>de</strong>s précisions moyennes est donnée par la première barre grise (la plus à<br />

gauche) pour chaque classe <strong>de</strong> reprises sur la Figure 3.7. La précision <strong>de</strong> F2 semble<br />

améliorer l’i<strong>de</strong>ntification proposée par F1. Elle reste cependant sensiblement inférieure<br />

à celle <strong>de</strong> la technique d’alignement pour chacune <strong>de</strong>s classes.<br />

On applique enfin le filtre plus précis F3 <strong>de</strong> sélection <strong>de</strong>s graines i<strong>de</strong>ntifiées par<br />

F2 par extension <strong>de</strong> cel<strong>les</strong>-ci. Le score <strong>de</strong> similarité entre <strong>de</strong>ux <strong>séquences</strong> u et v<br />

correspond alors à la somme <strong>de</strong>s scores d’extension <strong>de</strong> graines, telle que décrite en<br />

Section 3.3.2.3. La précision moyenne obtenue est <strong>de</strong> 33.08%, comme indiqué en<br />

ligne (ix) du Tableau 3.6, soit une perte <strong>de</strong> précision <strong>de</strong> 23.58% par rapport à la


70 Chapitre 3 : Comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong><br />

MAP (%)<br />

MAP (%)<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

A B C D E F G H I<br />

J K L M N O P Q<br />

Fig. 3.7 – Distribution <strong>de</strong>s précisions moyennes (MAP) avec différentes in<strong>de</strong>xations<br />

calculées pour chaque classe <strong>de</strong> reprises. Les lettres en abscisse désignent la<br />

classe considérée (voir Tableau 3.2). Noir : aucune in<strong>de</strong>xation (alignement), gris :<br />

<strong>de</strong> gauche à droite, application <strong>de</strong> BLAST-{F2}, application <strong>de</strong> BLAST-{F1,F2},<br />

blanc : alignement avec implémentation <strong>de</strong>s chromas EchoNest.<br />

technique précise d’alignement. La répartition <strong>de</strong>s précisions moyennes est donnée<br />

par la <strong>de</strong>uxième barre grise (la plus à droite) pour chaque classe <strong>de</strong> reprises sur la<br />

Figure 3.7. Ce filtre permet d’améliorer l’i<strong>de</strong>ntification par rapport au précé<strong>de</strong>nt<br />

pour chaque classe <strong>de</strong> reprises. Son efficacité reste inférieure à la technique d’alignement,<br />

avec une perte <strong>de</strong> précision moyenne comprise entre 7 et 55%. On peut<br />

conclure que l’application <strong>de</strong>s filtres BLAST correspond à une perte d’environ un<br />

tiers <strong>de</strong> la précision d’un système par alignement <strong>de</strong> <strong>séquences</strong>.<br />

Efficacité calculatoire<br />

À cause d’un nombre élevé <strong>de</strong> mots différents à in<strong>de</strong>xer sur l’ensemble <strong>de</strong> la base<br />

<strong>de</strong> données, l’implémentation <strong>de</strong> BLAST est effectuée sous la forme d’un système<br />

d’association clé/valeur en langage C. Il convient <strong>de</strong> préciser qu’aucun mécanisme<br />

<strong>de</strong> parallélisme n’a été mis en place pour ces évaluations, afin d’estimer l’efficacité<br />

calculatoire du système grâce aux seu<strong>les</strong> heuristiques mises en œuvres par BLAST.<br />

L’in<strong>de</strong>xation <strong>de</strong> la base <strong>de</strong> données MSD <strong>dans</strong> son intégralité nécessite environ<br />

16 minutes <strong>de</strong> calcul sur notre configuration matérielle 1 . Les temps <strong>de</strong> calcul moyens<br />

par requête sont indiqués pour chaque tâche sur la <strong>de</strong>rnière colonne du Tableau 3.6.<br />

Comme attendu, <strong>les</strong> opérations d’alignement nécessitent <strong>de</strong> longs calculs, requérant<br />

129 secon<strong>de</strong>s par requête sur T SD et 388 sur MSD2k. En comptant le nombre <strong>de</strong><br />

symbo<strong>les</strong> <strong>dans</strong> la base MSD, cette durée est extrapolée à 193765 secon<strong>de</strong>s (soit<br />

environ 53 heures) par requête sur MSD. Notons que le retrait <strong>de</strong> la variante<br />

robuste aux transpositions locale permettrait <strong>de</strong> ne réduire cette durée que par un<br />

1. Processeur Intel Xeon X5675 à 3.07 GHz, 12M mémoire cache, 32Go mémoire RAM


3.4 Conclusion du chapitre 71<br />

facteur 12, toujours insuffisant pour une utilisation pratique du système.<br />

Grâce à l’in<strong>de</strong>xation <strong>de</strong> BLAST, le temps <strong>de</strong> calcul est très fortement diminué,<br />

avec un temps <strong>de</strong> calcul <strong>de</strong> seulement 12.2 secon<strong>de</strong>s par requête sur MSD (0.24<br />

sur T SD) pour le filtre <strong>de</strong> sélection F2 seul, et 16.9 secon<strong>de</strong>s par requête sur MSD<br />

(0.33 secon<strong>de</strong>s sur TSD) pour <strong>les</strong> filtres F2 et F3 combinés, en moyenne. Ce temps<br />

d’exécution est donc sensiblement inférieur à celui constaté pour la technique d’alignement,<br />

et rend possible l’utilisation d’une logique <strong>de</strong> comparaison <strong>de</strong> <strong>séquences</strong><br />

pour la recherche par similarité <strong>dans</strong> <strong>de</strong> gran<strong>de</strong>s bases <strong>de</strong> données musica<strong>les</strong>.<br />

Il convient <strong>de</strong> noter que, malgré l’échec du système à i<strong>de</strong>ntifier <strong>les</strong> reprises avec<br />

une précision suffisante sur MSD, la durée d’exécution <strong>de</strong> BLAST sur cette base<br />

<strong>de</strong> données correspond tout <strong>de</strong> même au résultat d’une in<strong>de</strong>xation pratique <strong>de</strong><br />

MSD. BLAST étant basé sur <strong>de</strong>s heuristiques permettant d’éliminer rapi<strong>de</strong>ment<br />

<strong>les</strong> alignements non significatifs, on ne peut garantir l’exactitu<strong>de</strong> du gain en temps <strong>de</strong><br />

calcul estimé sur MSD si <strong>les</strong> <strong>séquences</strong> <strong>de</strong> cette base <strong>de</strong> données ne représentent pas<br />

une information pertinente. Néanmoins, cette estimation suggère qu’une stratégie<br />

d’in<strong>de</strong>xation fondée sur <strong>les</strong> heuristiques <strong>de</strong> BLAST pourrait, à condition <strong>de</strong> disposer<br />

<strong>de</strong> <strong>séquences</strong> adaptées, être appliquée à MSD pour i<strong>de</strong>ntifier la similarité musicale<br />

en un temps <strong>de</strong> l’ordre <strong>de</strong> quelques secon<strong>de</strong>s grâce à une logique d’alignement <strong>de</strong><br />

<strong>séquences</strong>.<br />

3.4 Conclusion du chapitre<br />

Dans ce chapitre, nous avons introduit un formalisme <strong>de</strong> manipulation <strong>de</strong> <strong>séquences</strong><br />

<strong>de</strong> symbo<strong>les</strong> et décrit <strong>de</strong>s techniques existantes pour la comparaison <strong>de</strong><br />

tel<strong>les</strong> <strong>séquences</strong>. Ce formalisme a ensuite été mis en pratique pour la recherche par<br />

similarité musicale. Son évaluation <strong>dans</strong> un cadre applicatif particulier, la recherche<br />

<strong>de</strong> reprises, a permis <strong>de</strong> mettre en avant la pertinence et la précision <strong>de</strong>s techniques<br />

<strong>de</strong> comparaison <strong>de</strong> <strong>séquences</strong> pour le contenu musical. Face au coût calculatoire<br />

élevé <strong>de</strong> ces techniques qui empêchent leur utilisation pour le traitement <strong>de</strong> gran<strong>de</strong>s<br />

bases <strong>de</strong> données musica<strong>les</strong>, une métho<strong>de</strong> d’in<strong>de</strong>xation existante pour <strong>les</strong> données<br />

biologiques a été adaptée pour le contenu musical. Son évaluation avec <strong>les</strong> <strong>séquences</strong><br />

<strong>de</strong> bases <strong>de</strong> données musica<strong>les</strong> conséquentes a permis <strong>de</strong> réduire <strong>de</strong> manière drastique<br />

le temps d’exécution en diminuant d’environ un tiers la précision du système<br />

d’i<strong>de</strong>ntification.<br />

Une perspective majeure <strong>de</strong>s travaux présentés <strong>dans</strong> ce chapitre consiste à définir<br />

<strong>de</strong>s opérations ou <strong>de</strong>s heuristiques plus spécifiques à l’information tonale manipulée,<br />

afin d’i<strong>de</strong>ntifier <strong>de</strong>s similarités musica<strong>les</strong> plus complexes. Pour l’alignement, il<br />

convient d’étudier l’ajout d’opérations d’édition supplémentaires. Pour l’in<strong>de</strong>xation<br />

adaptée <strong>de</strong> BLAST, <strong>de</strong>s résultats préliminaires suggèrent que la définition <strong>de</strong> graines<br />

espacées [MTL02] augmente <strong>dans</strong> certains cas la sensibilité <strong>de</strong> la métho<strong>de</strong>.


Chapitre 4<br />

I<strong>de</strong>ntification <strong>de</strong><br />

répétitions musica<strong>les</strong><br />

La musique est composée <strong>de</strong> nombreuses <strong>structures</strong> <strong>répétitives</strong> à plusieurs niveaux.<br />

Les répétitions peuvent être effectuées sur différents critères musicaux et<br />

à <strong>de</strong>s échel<strong>les</strong> temporel<strong>les</strong> distinctes. En guise <strong>de</strong> première étape <strong>de</strong> l’étu<strong>de</strong> <strong>de</strong> la<br />

répétitivité <strong>de</strong>s signaux musicaux, nous proposons <strong>dans</strong> ce chapitre d’i<strong>de</strong>ntifier plusieurs<br />

types <strong>de</strong> répétitions particulières <strong>dans</strong> un morceau quelconque représenté <strong>de</strong><br />

manière séquentielle.<br />

Les outils algorithmiques uti<strong>les</strong> à la comparaison <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong> ont<br />

été présentés en Chapitre 3 et leur utilité pour estimer la similarité musicale entre<br />

plusieurs <strong>séquences</strong> tona<strong>les</strong>, notamment pour l’i<strong>de</strong>ntification <strong>de</strong> reprises, a été détaillée.<br />

Dans ce chapitre, nous proposons d’utiliser <strong>les</strong> mêmes outils afin d’i<strong>de</strong>ntifier<br />

<strong>de</strong>s similarités musica<strong>les</strong> au sein même d’une séquence, et ainsi d’analyser sa structuration<br />

répétitive. Pour un morceau donné, l’objectif général <strong>de</strong> ce chapitre est ainsi<br />

<strong>de</strong> qualifier et d’extraire une répétition prépondérante au sein du morceau. Pour<br />

chaque répétition étudiée, nous proposons <strong>dans</strong> la suite un algorithme d’extraction<br />

et l’évaluons <strong>dans</strong> le cadre d’une application musicale concrète.<br />

Ce chapitre étudie <strong>de</strong>ux problèmes d’analyse <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> musica<strong>les</strong>.<br />

Dans un premier temps, sous l’hypothèse qu’un segment est choisi <strong>dans</strong> un<br />

morceau <strong>de</strong> musique donné, nous proposons <strong>de</strong> définir et d’i<strong>de</strong>ntifier la “meilleure”<br />

répétition <strong>de</strong> ce segment au sein du morceau. Nous étudions ce problème en<br />

Section 4.1 <strong>dans</strong> le cadre <strong>de</strong> l’application à la reconstruction musicale du signal<br />

audio. Nous détaillons une solution algorithmique et l’évaluons <strong>dans</strong> <strong>de</strong>s conditions<br />

<strong>de</strong> tests subjectifs [MHT + 11].<br />

Dans un <strong>de</strong>uxième temps, sans hypothèse particulière, nous proposons <strong>de</strong> définir<br />

et d’i<strong>de</strong>ntifier la “meilleure” répétition au sein d’un morceau <strong>de</strong> musique. Nous<br />

introduisons ainsi <strong>dans</strong> la Section 4.2 le problème <strong>de</strong> la répétition majeure, définie<br />

selon un critère d’optimalité. Nous proposons alors une métho<strong>de</strong> d’extraction <strong>de</strong><br />

cette répétition et comparons nos résultats à <strong>de</strong>s annotations <strong>de</strong> la structure perçue<br />

[MHRF11a], avant <strong>de</strong> <strong>les</strong> évaluer en tant que métho<strong>de</strong> d’in<strong>de</strong>xation pour la<br />

recherche <strong>de</strong> reprises [MHRF11b].<br />

4.1 Répétition d’un segment choisi<br />

Notre première approche <strong>de</strong> l’étu<strong>de</strong> <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> <strong>dans</strong> <strong>les</strong> œuvres<br />

musica<strong>les</strong> consiste à étudier la répétition d’un segment donné <strong>dans</strong> un morceau <strong>de</strong><br />

musique. Ainsi, pour un morceau donné et un segment particulier <strong>de</strong> ce morceau, on<br />

cherche à i<strong>de</strong>ntifier la “meilleure” répétition <strong>de</strong> ce segment selon un certain critère.<br />

On peut alors définir grossièrement le problème abordé ici comme l’extraction <strong>dans</strong><br />

un morceau <strong>de</strong> musique du segment distinct le plus similaire au segment donné.


74 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

Cette formulation du problème n’induit aucune contrainte particulière sur le<br />

segment à i<strong>de</strong>ntifier. En particulier, celui-ci peut chevaucher ou non le segment<br />

choisi. Dans la suite du problème, pour correspondre à une définition commune <strong>de</strong><br />

la répétition musicale, on suppose que <strong>les</strong> <strong>de</strong>ux segments <strong>de</strong> la répétition i<strong>de</strong>ntifiée<br />

sont disjoints. Cependant, la prise en compte d’un chevauchement, qui peut avoir<br />

un sens musical <strong>dans</strong> certains cas, constitue une perspective <strong>de</strong> notre problème.<br />

Afin <strong>de</strong> vérifier la pertinence musicale <strong>de</strong> la répétition analysée, nous plaçons<br />

<strong>dans</strong> la suite le problème <strong>dans</strong> le contexte applicatif <strong>de</strong> la reconstruction audio. Dans<br />

cette application, un ensemble <strong>de</strong> données audio manquantes, dont la position est<br />

connue, doit être reconstitué à partir du reste du morceau auquel il appartient. Cette<br />

application, présentée plus précisément <strong>dans</strong> la suite, a l’avantage <strong>de</strong> correspondre<br />

à un cas d’utilisation pratique : reconstruire un signal détérioré. En revanche, cette<br />

application requiert la définition d’un problème plus spécifique, décrit ci-<strong>de</strong>ssous.<br />

4.1.1 Reconstruction d’un extrait audio<br />

4.1.1.1 Présentation du problème et travaux antérieurs<br />

La reconstruction est un problème particulièrement connu et étudié en traitement<br />

du signal audio [Ett96, GR98, LMR05, LRKO + 08]. Il consiste à reconstituer<br />

un segment manquant <strong>dans</strong> un signal audio détérioré. Ce problème est principalement<br />

motivé par le souhait <strong>de</strong> corriger automatiquement <strong>les</strong> dégradations auquel<br />

peut être exposé le signal audio, pouvant être causées par <strong>de</strong> mauvaises conditions<br />

d’enregistrement, <strong>de</strong>s erreurs liées à la numérisation ou <strong>de</strong>s problèmes <strong>de</strong> transfert<br />

<strong>de</strong>s données sonores, par exemple. Les effets indésirab<strong>les</strong> incluent <strong>de</strong> courtes interférences<br />

d’amplitu<strong>de</strong> (ou clics), <strong>de</strong>s effets <strong>de</strong> larsen, <strong>de</strong>s distorsions, <strong>de</strong>s bruits<br />

parasites ou simplement l’absence <strong>de</strong> son [GR98, p.6–7].<br />

Ces détériorations induisent une transformation locale d’un segment du signal<br />

audio qui ne peut généralement pas être facilement inversée. Dans cette application,<br />

la position et la durée exacte du segment altéré sont généralement connues.<br />

La section altérée est alors considérée comme manquante, l’objectif <strong>de</strong>s algorithmes<br />

<strong>de</strong> reconstruction étant <strong>de</strong> combler cette section par un extrait perceptivement satisfaisant.<br />

Enfin, même si cette contrainte est implicitement admise <strong>dans</strong> <strong>les</strong> étu<strong>de</strong>s<br />

existantes, on considère généralement que la temporalité du signal existant ne doit<br />

pas être modifiée par l’opération <strong>de</strong> reconstruction : la position temporelle <strong>de</strong>s échantillons<br />

antérieurs et ultérieurs à la section manquante reste i<strong>de</strong>ntique avant et après<br />

reconstruction, et ainsi le morceau reconstruit est <strong>de</strong> durée i<strong>de</strong>ntique au morceau<br />

original.<br />

En fonction du contexte applicatif, ce problème <strong>de</strong> reconstruction <strong>de</strong> données<br />

manquantes est traité sous différentes dénominations : interpolation, extrapolation,<br />

imputation, induction, extension ou encore occultation du signal audio [AEJ + 11].<br />

D’une manière générale, cette opération est réalisée en mettant en relation le contenu<br />

audio du morceau analysé (ou provenant d’autres œuvres) avec le voisinage du segment<br />

manquant, comme décrit plus précisément <strong>dans</strong> la section suivante.<br />

La Figure 4.1 représente le problème général <strong>de</strong> reconstruction <strong>de</strong> données manquantes<br />

sur le domaine temporel (i) ou sur le domaine temps-fréquence (ii). Dans <strong>les</strong><br />

<strong>de</strong>ux cas, il s’agit <strong>de</strong> reconstruire une partie <strong>de</strong> l’information audio non disponible,<br />

dont la taille peut varier <strong>de</strong> quelques millisecon<strong>de</strong>s à plusieurs secon<strong>de</strong>s.


4.1 Répétition d’un segment choisi 75<br />

(i)<br />

(ii)<br />

Fréquences (Hz)<br />

1<br />

-1<br />

0<br />

Amplitu<strong>de</strong><br />

?<br />

?<br />

Temps (s)<br />

Temps (s)<br />

Fig. 4.1 – Vue schématique du problème <strong>de</strong> reconstruction audio. (i) : Approche<br />

temporelle (forme d’on<strong>de</strong>). (ii) : Approche temps-fréquence (spectrogramme).<br />

La reconstruction audio peut d’abord être calculée par interpolation <strong>de</strong>s composantes<br />

sinusoïda<strong>les</strong> du signal. Par exemple, Maher [Mah94] propose une technique<br />

basée sur l’interpolation linéaire <strong>de</strong> l’amplitu<strong>de</strong> et cubique <strong>de</strong> la phase du signal.<br />

Cette technique permet d’obtenir <strong>de</strong>s reconstructions fidè<strong>les</strong> au signal original pour<br />

<strong>de</strong>s sections manquantes durant entre 20ms et 100ms. Lagrange et al. [LMR05]<br />

éten<strong>de</strong>nt la métho<strong>de</strong> en appliquant directement une prédiction linéaire afin d’extrapoler<br />

le contenu fréquentiel précédant la partie manquante d’une part, et celui suivant<br />

la partie manquante d’autre part. Un seuil <strong>de</strong> correspondance permet ensuite<br />

d’apparier <strong>les</strong> <strong>de</strong>ux extrapolations, et une opération <strong>de</strong> fondu linéaire fréquentiel<br />

assure une transition progressive, créant ainsi une interpolation continue d’un <strong>de</strong>s<br />

composants du signal. Sous l’hypothèse d’une modélisation sinusoïdale stationnaire<br />

<strong>de</strong>s signaux, cette amélioration permet <strong>de</strong> reconstruire <strong>de</strong>s sections manquantes <strong>de</strong><br />

tail<strong>les</strong> plus importantes, allant jusqu’à 450ms <strong>dans</strong> le cas <strong>de</strong> signaux polyphoniques.<br />

Une technique d’interpolation similaire est proposée sur le domaine temporel par<br />

Esquef et al. [EVRK03], testée <strong>dans</strong> le cadre <strong>de</strong> parties manquantes d’environ 50ms.<br />

De nombreuses approches statistiques ont été développées pour la reconstruction<br />

<strong>de</strong> signaux audio. Cel<strong>les</strong>-ci incluent l’utilisation d’algorithmes <strong>de</strong> poursuite (orthogonal<br />

matching pursuit) [AEJ + 11], le calcul d’estimateurs Bayésiens au voisinage<br />

<strong>de</strong> la section manquante [GR98] ou encore la factorisation en matrices non négatives<br />

[LRKO + 08]. Bien qu’utilisant <strong>de</strong>s modè<strong>les</strong> distincts, ces métho<strong>de</strong>s comblent<br />

<strong>les</strong> données manquantes en se basant sur <strong>de</strong>s tendances statistiques loca<strong>les</strong> à la<br />

section altérée ou globa<strong>les</strong> au morceau analysé [SRS10].<br />

Ces différentes approches sont basées sur une analyse précise <strong>de</strong>s composantes<br />

du signal. Or, l’aspect non stationnaire <strong>de</strong> l’audio musical rend la tâche <strong>de</strong> reconstruction<br />

impossible pour <strong>de</strong>s parties manquantes <strong>de</strong> durées élevées. La durée <strong>de</strong>s<br />

sections manquantes est ainsi limitée à quelques centaines <strong>de</strong> millisecon<strong>de</strong>s, voire à<br />

la secon<strong>de</strong> <strong>dans</strong> le cas d’hypothèses particulières <strong>de</strong> stationnarité [LMR05].<br />

Quelques étu<strong>de</strong>s <strong>de</strong> la littérature s’intéressent au problème <strong>de</strong> reconstruction


76 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

Fig. 4.2 – Image originale (gauche) et résultat d’une reconstruction (droite) après<br />

suppression <strong>de</strong> la silhouette, d’après [CPT04].<br />

<strong>de</strong> plus larges sections manquantes (<strong>de</strong> plusieurs secon<strong>de</strong>s) <strong>dans</strong> une optique <strong>de</strong><br />

reconstruction du signal audio. Lu et al. [LWZ04b] proposent une technique <strong>de</strong><br />

restauration fondée sur la segmentation <strong>de</strong> <strong>de</strong>scripteurs timbraux par courbe <strong>de</strong><br />

nouveauté et l’estimation <strong>de</strong> probabilités <strong>de</strong> transitions entre ceux-ci. Citons également<br />

Jehan [Jeh05a, p.103–106] qui suggère, sans l’implémenter ou l’évaluer, une<br />

approche similaire en prenant en compte <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> sur <strong>de</strong>s niveaux<br />

d’abstraction plus élevés.<br />

Les objectifs <strong>de</strong>s approches <strong>de</strong> reconstruction diffèrent selon l’application considérée.<br />

D’une part, <strong>les</strong> métho<strong>de</strong>s existantes <strong>de</strong> traitement du signal audio reconstituent<br />

<strong>de</strong>s sections <strong>de</strong> quelques centaines <strong>de</strong> millisecon<strong>de</strong>s en minimisant une mesure<br />

entre le signal obtenu et le signal d’origine. D’autre part, la reconstruction à l’échelle<br />

<strong>de</strong> plusieurs secon<strong>de</strong>s n’est pas <strong>de</strong> reconstituer un signal altéré sous sa forme originale,<br />

mais <strong>de</strong> produire un signal dont la section reconstruite est perceptivement<br />

satisfaisante, c’est-à-dire ne perturbe pas notre perception <strong>de</strong> la musique. La qualité<br />

<strong>de</strong> la reconstruction effectuée est donc recherchée sur le plan subjectif, et non sur<br />

une comparaison objective <strong>de</strong>s signaux.<br />

Si la reconstruction <strong>de</strong> gran<strong>de</strong>s parties manquantes est peu étudiée en signal<br />

audio, elle est particulièrement développée en analyse et synthèse d’image, sous le<br />

nom d’inpainting. Motivé notamment par la restauration d’œuvres pictura<strong>les</strong> ou<br />

d’anciennes photographies dégradées, l’inpainting a pour but <strong>de</strong> reconstituer <strong>de</strong>s<br />

régions manquantes au sein d’images ne présentant pas une forme facilement reconnaissable<br />

[BSCB00]. De nombreuses métho<strong>de</strong>s dédiées à la restauration d’images se<br />

basent, comme <strong>dans</strong> le cas du signal sonore, sur <strong>de</strong>s techniques d’analyse statistique<br />

<strong>de</strong>s variations du signal [MM98, BSCB00, TD05]. Cependant, une autre technique<br />

répandue en synthèse <strong>de</strong> texture utilise la notion d’auto-ressemblance en considérant<br />

que l’image comprend un nombre élevé <strong>de</strong> répétitions loca<strong>les</strong>. Cette technique peut<br />

être vue comme un procédé <strong>de</strong> reconstitution par l’exemple [CPT04, EL99, Ash01].<br />

L’avantage majeur <strong>de</strong> cette approche est la taille importante <strong>de</strong>s motifs manquants<br />

qui peuvent être reconstruits [BSCB00]. La Figure 4.2 montre, à partir d’une image<br />

originale (à gauche), un exemple <strong>de</strong> reconstruction <strong>de</strong> l’image (à droite) après retrait<br />

<strong>de</strong> la silhouette et reconstruction par l’exemple <strong>de</strong>s pixels manquants [CPT04].


4.1 Répétition d’un segment choisi 77<br />

(i)<br />

(ii)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Fig. 4.3 – Modélisation du problème <strong>de</strong> reconstruction audio. (i) : Séquence <strong>de</strong> symbo<strong>les</strong><br />

t1vϕt2. (ii) : Introduction <strong>de</strong>s contextes locaux.<br />

Dans cette section, on se pose le problème <strong>de</strong> reconstruction <strong>de</strong> gran<strong>de</strong>s parties<br />

manquantes <strong>dans</strong> le signal audio, <strong>de</strong> l’ordre <strong>de</strong> plusieurs secon<strong>de</strong>s. Notre approche<br />

du problème <strong>de</strong> reconstruction est fondée sur une <strong>de</strong>scription du signal audio sur un<br />

niveau musical. La reconstruction <strong>de</strong> données audio avec une telle approche est aussi<br />

connue sous le nom <strong>de</strong> restauration <strong>de</strong> textures audio [LWZ04b]. Comme expliqué<br />

par Jehan [Jeh05a, p.103–106], utiliser une représentation musicale du signal audio<br />

permet d’i<strong>de</strong>ntifier <strong>de</strong>s répétitivités structurel<strong>les</strong> <strong>de</strong> textures musica<strong>les</strong>, et permet <strong>de</strong><br />

considérer la restauration <strong>de</strong> sections beaucoup plus longues qu’avec <strong>les</strong> approches<br />

<strong>de</strong> traitement du signal. En résumé, l’étu<strong>de</strong> présentée <strong>dans</strong> cette section se concentre<br />

sur la reconstitution perceptivement satisfaisante <strong>de</strong> gran<strong>de</strong>s parties manquantes.<br />

Notre approche est inspirée du procédé <strong>de</strong> reconstruction par l’exemple développé<br />

<strong>dans</strong> le cadre <strong>de</strong> l’analyse d’image.<br />

La métho<strong>de</strong> détaillée <strong>dans</strong> la suite <strong>de</strong> cette section a été publiée <strong>dans</strong> <strong>les</strong> actes<br />

<strong>de</strong> la conférence International Society for Music Information Retrieval [MHT + 11].<br />

4.1.1.2 Représentation<br />

Soit x un signal audionumérique comprenant N échantillons. On suppose que<br />

x contient une section <strong>de</strong> signal manquante, c’est-à-dire qu’il existe <strong>de</strong>ux indices<br />

d’échantillons ni et no tels que ni < no ≤ N et ∀i ∈ ni,no,x[i] = 0.<br />

L’étape <strong>de</strong> représentation décrite Sections 2.3.1 et 2.2.5 fournit pour le signal<br />

connu une séquence <strong>de</strong> vecteurs h1h2 . . . hk qui décrivent l’évolution d’un critère musical,<br />

ici l’harmonie, chaque vecteur étant défini sur l’alphabet <strong>de</strong>s chromas Σ chr .<br />

La section manquante est représentée par un symbole spécial ϕ, qui indique l’absence<br />

d’information audio. Ce symbole est attribué à toute trame <strong>de</strong> x qui contient<br />

au moins un échantillon audio manquant. On représente ainsi le signal x par la<br />

séquence <strong>de</strong> symbo<strong>les</strong> :<br />

u = t1vϕt2 définie sur l’alphabet Σ = Σ chr ∪ {ϕ}, (26)<br />

où vϕ = ϕ . . . ϕ représente la section manquante <strong>de</strong> x et <strong>les</strong> <strong>séquences</strong> <strong>de</strong> chromas<br />

t1 et t2, définies sur Σ chr , représentent <strong>les</strong> sections <strong>de</strong> signal audio bien définies<br />

(Figure 4.3-(i)).


78 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

(i)<br />

(ii)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Fig. 4.4 – Solution algorithmique au problème <strong>de</strong> reconstruction. (i) : Les <strong>de</strong>ux<br />

alignements locaux calculés. (ii) : Facteurs alignés résultants.<br />

D’une manière générale, <strong>les</strong> métho<strong>de</strong>s <strong>de</strong> reconstitution par l’exemple utilisent le<br />

caractère local répétitif du signal pour i<strong>de</strong>ntifier <strong>les</strong> sections à reproduire [CPT04].<br />

Dans le cas du signal audio, on peut ainsi considérer le contexte tonal local d’un<br />

instant t, qui peut être vu comme la <strong>de</strong>scription <strong>de</strong> l’harmonie présente juste avant<br />

(contexte gauche) et juste après (contexte droit) l’instant t. Formellement, on introduit<br />

un seuil δ correspondant à la taille <strong>de</strong> chaque contexte, en nombre <strong>de</strong> symbo<strong>les</strong>.<br />

Le contexte gauche vl est défini comme le suffixe <strong>de</strong> t1 <strong>de</strong> longueur δ, et le contexte<br />

droit vr est défini comme le préfixe <strong>de</strong> t2 <strong>de</strong> longueur δ. La Figure 4.3-(ii) illustre<br />

la représentation <strong>de</strong> u avec <strong>les</strong> contextes tonaux locaux <strong>de</strong> vϕ.<br />

La séquence v = vlvϕvr contient à la fois l’information manquante et ses contextes<br />

tonaux locaux. C’est <strong>de</strong> cette séquence que l’on souhaite trouver une répétition musicale<br />

approchée afin <strong>de</strong> combler la section manquante.<br />

4.1.1.3 Problème et algorithme<br />

Problème 3 (Reconstruction par l’exemple) Soient Σ un alphabet, ϕ un symbole<br />

absent <strong>de</strong> Σ et u = t ′ 1vlvϕvrt ′ 2 une séquence définie sur Σ ∪ {ϕ} vérifiant :<br />

⎧<br />

⎪⎨ t<br />

⎪⎩<br />

′ 1 ,vl,vr,t ′ 2 ∈ Σ∗<br />

vϕ = ϕϕ . . . ϕ<br />

|vl| = |vr| = δ<br />

Le problème <strong>de</strong> reconstruction par l’exemple consiste à i<strong>de</strong>ntifier le facteur v <strong>de</strong> u<br />

tel que :<br />

⎧<br />

⎨<br />

⎩<br />

<br />

v ∈ Σ∗ (i)<br />

s∗ (v,vlvϕvr) = max<br />

w∈S(u),w∩uvϕ=ε {s∗ (w,vlvϕvr)} (ii) .<br />

Le problème <strong>de</strong> reconstruction est résolu par le calcul <strong>de</strong> la similarité locale<br />

entre v et t1 d’une part et la similarité entre v et t2 d’autre part. La Figure 4.4-(i)<br />

représente <strong>les</strong> <strong>de</strong>ux alignements locaux effectués : align 1, représentant l’alignement<br />

<strong>de</strong> t1 et <strong>de</strong> vlvϕvr et align 2, représentant l’alignement <strong>de</strong> t2 et <strong>de</strong> vlvϕvr.<br />

.


4.1 Répétition d’un segment choisi 79<br />

(i)<br />

(ii)<br />

Amplitu<strong>de</strong><br />

Amplitu<strong>de</strong><br />

<br />

<br />

Temps<br />

Fig. 4.5 – Reconstruction du signal audio. (i) : Signal d’origine avec données manquantes<br />

(silence). (ii) : Forme d’on<strong>de</strong> reconstruite. Les sections noires indiquent<br />

la recomposition effectuée. Les régions entourées <strong>de</strong> pointillés correspon<strong>de</strong>nt à la<br />

reconstruction par chevauchement audio.<br />

Formellement, on calcule la répétition <strong>de</strong> score <strong>de</strong> similarité locale optimal s r<br />

avec v par la proposition :<br />

Proposition 7 (Calcul <strong>de</strong> reconstruction) Avec <strong>les</strong> notations du Problème 3,<br />

on calcule le score optimal s r <strong>de</strong> la manière suivante :<br />

s r = max{s ∗ (t1,vlvϕvr),s ∗ (t2,vlvϕvr)}.<br />

On note u ∗ le facteur <strong>de</strong> t1 ou t2 effectivement aligné avec le facteur noté v ∗ <strong>de</strong><br />

vlvϕvr lors du calcul d’alignement local optimal <strong>de</strong> score s r . u ∗ est alors solution du<br />

problème <strong>de</strong> reconstruction.<br />

Preuve 1 Le score s ∗ (t1,vlvϕvr) correspond à la similarité maximale entre vlvϕvr<br />

et t1, le préfixe <strong>de</strong> u avant vϕ, tandis que le score s ∗ (t2,vlvϕvr) correspond à la<br />

similarité maximale entre vlvϕvr et t2, le suffixe <strong>de</strong> u après vϕ. s r correspond donc<br />

au score <strong>de</strong> similarité maximale entre vlvϕvr et un facteur <strong>de</strong> u disjoint <strong>de</strong> vϕ, d’où<br />

la propriété (ii). On en déduit également que u ∗ est disjoint <strong>de</strong> vϕ, ce qui assure<br />

que u ∗ est défini sur Σ, d’où la propriété (i).<br />

Un exemple <strong>de</strong> répétition i<strong>de</strong>ntifiée est représenté en Figure 4.4-(ii) : le facteur u ∗<br />

<strong>de</strong> t2 a un score <strong>de</strong> similarité avec la séquence v ∗ optimal, et constitue une solution<br />

au problème <strong>de</strong> reconstruction.<br />

4.1.1.4 Application à l’audio<br />

Afin <strong>de</strong> satisfaire une contrainte pratique <strong>de</strong> reconstruction, il convient <strong>de</strong> favoriser<br />

l’alignement <strong>de</strong> l’intégralité <strong>de</strong> vϕ, c’est-à-dire d’assurer, si possible, que vϕ est<br />

bien un facteur <strong>de</strong> v ∗ . Pour ce faire, on définit un schéma <strong>de</strong> scores <strong>de</strong> pondération<br />

particulier. Pour <strong>de</strong>ux chromas h1 et h2 <strong>de</strong> Σ chr , le schéma <strong>de</strong> scores <strong>de</strong> pondération


80 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

est le suivant :<br />

Insertion, suppression :<br />

Substitution :<br />

<br />

⎧<br />

⎪⎨<br />

Correspondance sur Σ chr : λ+ = 1<br />

Remplacement sur Σ chr : λ− = −0.9<br />

⎪⎩<br />

λ(h1,φ) = λ(φ,h2) = −0.7<br />

λ(ϕ,φ) = λ(φ,ϕ) = 0<br />

λ(h1,h2) = λ chr (h1,h2)<br />

λ(h1,ϕ) = λ(ϕ,h2) = 0.1<br />

λ(ϕ,ϕ) = −∞<br />

La définition d’un score positif pour la substitution d’un symbole avec ϕ impose<br />

que la substitution d’un symbole <strong>de</strong> Σ avec ϕ soit toujours choisie <strong>dans</strong> le calcul <strong>de</strong><br />

similarité. De plus, la définition d’un score infiniment faible pour la correspondance<br />

<strong>de</strong> symbo<strong>les</strong> ϕ assure que <strong>les</strong> données manquantes ne sont jamais alignées entre el<strong>les</strong>.<br />

Une fois cet algorithme appliqué sur <strong>les</strong> <strong>séquences</strong> <strong>de</strong> chromas, la <strong>de</strong>rnière<br />

étape <strong>de</strong> la technique <strong>de</strong> reconstruction consiste à utiliser la répétition i<strong>de</strong>ntifiée<br />

pour reconstituer la section manquante, comme illustré par la Figure 4.5. Notons<br />

x[n1 . . . n2] <strong>les</strong> échantillons intervenant <strong>dans</strong> le calcul <strong>de</strong>s symbo<strong>les</strong> <strong>de</strong> la séquence<br />

u ∗ , et x[n3 . . . n4] <strong>les</strong> échantillons (éventuellement nuls) intervenant <strong>dans</strong> le calcul<br />

<strong>de</strong>s symbo<strong>les</strong> <strong>de</strong> la séquence v ∗ . La section manquante <strong>dans</strong> x est comblée en insérant<br />

à la place <strong>de</strong>s échantillons <strong>de</strong> x[n1 . . . n2] ceux <strong>de</strong> x[n3 . . . n4]. Afin d’assurer<br />

<strong>de</strong>s transitions progressives entre <strong>les</strong> composantes sinusoïda<strong>les</strong>, <strong>les</strong> sections chevauchantes<br />

entre v ∗ et t1 d’une part et v ∗ et t2 d’autre part sont modifiées selon une<br />

technique simple d’overlap-add [Cro80], qui effectue un fondu croisé linéaire entre<br />

<strong>les</strong> <strong>de</strong>ux sections. La Figure 4.5-(ii) représente l’opération <strong>de</strong> reconstruction <strong>de</strong>s<br />

échantillons audio. Les zones entourées <strong>de</strong> pointillées mettent en valeur <strong>les</strong> sections<br />

<strong>de</strong> chevauchement par overlap-add.<br />

Formellement, le signal reconstruit x est donné, pour n ∈ 1,N, par la formule :<br />

⎧<br />

⎪⎩<br />

x[n] si n < n3<br />

ni−n n−n3<br />

x[n] + ni−n3 ni−n3 x[n1 + n − n3] si n3 < n < ni<br />

⎪⎨<br />

x[n] = x[n1 + n − n3] si ni < n < no<br />

n−no n4−n<br />

x[n] + n4−no n4−no x[n1 + n − n3] si no < n < n4<br />

x[n] si n > n4<br />

(27)<br />

. (28)<br />

Il convient <strong>de</strong> noter que l’on suppose <strong>dans</strong> cette formule que n4 − n3 = n2 − n1,<br />

c’est-à-dire que |u ∗ | = |v ∗ |. Cependant, l’alignement local n’imposant pas l’égalité<br />

<strong>de</strong>s tail<strong>les</strong> <strong>de</strong> <strong>séquences</strong> résultantes, il est possible que cette assertion soit fausse. Ce<br />

cas est susceptible d’arriver, par exemple, lorsque x[n1 . . . n2] est une répétition <strong>de</strong><br />

x[n3 . . . n4] jouée à un tempo différent. Dans ce cas, le facteur aligné <strong>de</strong> plus gran<strong>de</strong><br />

taille est tronqué afin <strong>de</strong> conserver l’égalité <strong>de</strong>s longueurs. La prise en compte <strong>de</strong><br />

<strong>séquences</strong> <strong>de</strong> différentes longueurs, par exemple en utilisant une technique <strong>de</strong> time<br />

stretching [MC90, Fer99] à la reconstruction, est laissée en perspective <strong>de</strong> ce travail.


(i)<br />

4.1 Répétition d’un segment choisi 81<br />

(ii)<br />

(iii)<br />

(iv)<br />

I C C R C C R P C O<br />

Fig. 4.6 – Illustration <strong>de</strong> la contrainte <strong>de</strong> répétitivité. Les motifs répétés <strong>dans</strong> (i)<br />

sont encadrés en gris. Les sections vertes représentées en (ii) satisfont la contrainte<br />

<strong>de</strong> répétitivité, alors que <strong>les</strong> sections rouges en (iii) et (iv) ne satisfont pas cette<br />

contrainte.<br />

4.1.1.5 Protocole d’évaluation<br />

L’algorithme décrit <strong>dans</strong> <strong>les</strong> sections précé<strong>de</strong>ntes est appliqué à une <strong>de</strong>scription<br />

tonale du signal audio (voir Chapitre 2) pour déterminer la reconstitution optimale.<br />

Des variations du timbre, du rythme ou <strong>de</strong>s paro<strong>les</strong>, par exemple, peuvent<br />

intervenir entre <strong>de</strong>s sections i<strong>de</strong>ntifiées comme répétées. Un signal d’origine et sa reconstruction<br />

par l’algorithme peuvent donc différer fortement sur leurs composantes<br />

tout en restant perceptivement proches. Comme expliqué en introduction du problème,<br />

l’objectif <strong>de</strong> notre étu<strong>de</strong> <strong>de</strong> la reconstruction est <strong>de</strong> reconstituer une section<br />

perceptivement satisfaisante, c’est-à-dire qui ne gêne pas la perception musicale.<br />

Occultation<br />

Pour tester l’algorithme <strong>de</strong> reconstruction, il convient tout d’abord <strong>de</strong> constituer<br />

un corpus <strong>de</strong> morceaux possédant <strong>de</strong>s sections manquantes. Pour ce faire, on propose<br />

d’effacer artificiellement, ou d’occulter <strong>de</strong>s données audionumériques <strong>dans</strong> une base<br />

<strong>de</strong> données. Ainsi, la génération <strong>de</strong> données manquantes est effectuée <strong>de</strong> manière<br />

aléatoire afin <strong>de</strong> constituer un corpus <strong>de</strong> test aussi représentatif que possible <strong>de</strong><br />

l’ensemble <strong>de</strong>s altérations susceptib<strong>les</strong> d’apparaître <strong>dans</strong> <strong>les</strong> enregistrements audio.<br />

Cependant, puisque notre algorithme se base sur un procédé <strong>de</strong> reconstitution par<br />

l’exemple, <strong>les</strong> données manquantes peuvent être reconstruites si el<strong>les</strong> font partie<br />

d’une répétition approchée au sein d’un morceau. Afin d’évaluer rigoureusement<br />

la métho<strong>de</strong> <strong>dans</strong> son champ d’application, on ne souhaite donc pas occulter <strong>les</strong><br />

sections non répétées. Plus précisément, on introduit une contrainte <strong>de</strong> répétitivité<br />

par l’assertion suivante :<br />

Une section ne peut être occultée que si elle appartient à un segment audio répété,<br />

selon la vérité structurelle correspondante.<br />

La Figure 4.6 illustre cette contrainte sur un exemple <strong>de</strong> structure <strong>de</strong> musique<br />

populaire occi<strong>de</strong>ntale. La séquence <strong>de</strong> symbo<strong>les</strong> ICCRCCRPCO représentée en (i)<br />

indique la forme structurelle que suit ce morceau au cours du temps, telle qu’annotée<br />

par un expert. Les symbo<strong>les</strong> correspon<strong>de</strong>nt aux motifs classiquement i<strong>de</strong>ntifiab<strong>les</strong><br />

en musique populaire occi<strong>de</strong>ntale : l’introduction I, le couplet C, le refrain R, le<br />

pont P et la conclusion O. Dans cette séquence <strong>de</strong> symbo<strong>les</strong>, <strong>les</strong> motifs compris<br />

<strong>dans</strong> un cadre gris C, R, CC, CR et CCR sont répétés. Tout segment compris <strong>dans</strong>


82 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

l’un <strong>de</strong> ces motifs, à l’image <strong>de</strong> ceux représentés en vert Fig. 4.6-(ii), satisfait donc<br />

la contrainte <strong>de</strong> répétitivité. En revanche, <strong>les</strong> segments inclus <strong>dans</strong> une section non<br />

répétée, comme <strong>les</strong> sections matérialisées en rouge en Fig. 4.6-(iii), ne satisfont pas<br />

cette contrainte. De même, tout segment chevauchant une frontière non répétée, tel<br />

que ceux représentés en Fig. 4.6-(iv), ne satisfait pas la contrainte.<br />

Cette contrainte induit une restriction sur l’étendue <strong>de</strong> l’application <strong>de</strong> la métho<strong>de</strong><br />

; celle-ci est évaluée précisément sur la base <strong>de</strong> tests ci-<strong>de</strong>ssous. Dans le cas<br />

où la contrainte n’est pas respectée, le résultat <strong>de</strong> la reconstruction <strong>de</strong> sections<br />

non répétées est susceptible <strong>de</strong> fortement varier en fonction <strong>de</strong>s signaux musicaux<br />

manipulés et <strong>de</strong> leur structure. Ainsi, <strong>dans</strong> l’exemple <strong>de</strong> la Figure 4.6, on peut raisonnablement<br />

supposer que <strong>les</strong> motifs définis comme uniques peuvent difficilement<br />

être reconstruits d’une manière perceptivement satisfaisante <strong>dans</strong> le cas général.<br />

Néanmoins, il est envisageable que l’occultation du motif P et son remplacement<br />

par un motif C, par exemple, produise un résultat acceptable car conservant une<br />

cohérence musicale. La contrainte <strong>de</strong> répétitivité semble donc nécessaire si l’on souhaite<br />

conserver une indépendance entre <strong>les</strong> résultats et la nature <strong>de</strong>s morceaux<br />

reconstruits.<br />

Pour un morceau donné, le processus d’occultation est effectué selon le protocole<br />

suivant :<br />

1. Choix aléatoire d’une durée d’occultation l comprise entre <strong>de</strong>s bornes fixées<br />

lmin et lmax ;<br />

2. Sélection aléatoire d’une section répétée (d’après la vérité structurelle) <strong>de</strong><br />

durée L > l ;<br />

3. Choix aléatoire d’une date <strong>de</strong> début t <strong>dans</strong> cette section telle que t ≤ L − l ;<br />

4. Occultation du son : mise à zéro <strong>de</strong>s échantillons compris entre <strong>les</strong> dates t et<br />

t + l.<br />

Base <strong>de</strong> données<br />

La contrainte <strong>de</strong> répétitivité nécessite l’utilisation d’une base d’annotation <strong>de</strong>s<br />

répétitions musica<strong>les</strong>. Cependant, aucune base <strong>de</strong> données annotant rigoureusement<br />

la répétition au sens <strong>de</strong> notre étu<strong>de</strong> n’est disponible. On choisit alors d’utiliser <strong>de</strong>s<br />

annotations <strong>de</strong> la structure répétitive perçue tel<strong>les</strong> qu’annotées par <strong>de</strong>s experts. Pour<br />

chaque morceau <strong>de</strong> musique, ces bases <strong>de</strong> données proposent un découpage répétitif<br />

binaire en segments caractérisés par <strong>de</strong>s étiquettes. La récurrence d’une étiquette<br />

indique une répétition musicale, tandis que <strong>de</strong>ux étiquettes différentes soulignent<br />

<strong>de</strong>s segments dissimilaires. La métho<strong>de</strong> d’annotation ainsi que la précision <strong>de</strong> tel<strong>les</strong><br />

bases annotées sont discutées plus en détail en Section 5.3.4.2.<br />

La base <strong>de</strong> données considérée, notée ST RUCT , correspond un ensemble <strong>de</strong><br />

données <strong>de</strong> différents laboratoires (voir Section 5.3.4.2) et est notamment distribuée<br />

par le projet OMRAS2 1 [MCD + 09]. Les données utilisées <strong>dans</strong> nos expériences se<br />

composent <strong>de</strong> 252 annotations <strong>de</strong> la structuration <strong>de</strong>s morceaux <strong>de</strong> musique <strong>de</strong><br />

trois artistes différents : un ensemble ST RUCT B <strong>de</strong> 180 morceaux du groupe The<br />

Beat<strong>les</strong>, un ensemble ST RUCT Q <strong>de</strong> 34 morceaux du groupe Queen et un ensemble<br />

ST RUCT J <strong>de</strong> 38 morceaux du chanteur Michael Jackson.<br />

1. http://isophonics.net/content/reference-annotations


4.1 Répétition d’un segment choisi 83<br />

Fréquence d’apparition du segment (%)<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

0 5 10 15<br />

Durée d’un segment (s)<br />

Fig. 4.7 – Restriction induite par la contrainte <strong>de</strong> répétitivité sur <strong>les</strong> différentes bases<br />

annotées. Le graphique représente la fréquence d’apparition d’un segment répété<br />

choisi aléatoirement <strong>dans</strong> l’ensemble <strong>de</strong> la base <strong>de</strong> données en fonction <strong>de</strong> la taille<br />

du segment. Carrés : sous-base DQ, cerc<strong>les</strong> : sous-base DJ, triang<strong>les</strong> : sous-base DB,<br />

croix : moyenne sur D.<br />

L’application <strong>de</strong> la contrainte <strong>de</strong> répétitivité sur ces annotations est alors effectuée<br />

selon l’algorithme suivant :<br />

1. Retirer <strong>les</strong> segments dont <strong>les</strong> étiquettes ne sont pas répétées ;<br />

2. Retirer <strong>les</strong> frontières répétées, c’est-à-dire fusionner <strong>de</strong>ux segments consécutifs<br />

qui se répètent <strong>de</strong> manière consécutive.<br />

À l’issue <strong>de</strong> cet algorithme, <strong>les</strong> segments restants correspon<strong>de</strong>nt aux sections pouvant<br />

être occultées. Les sections manquantes sont générées en appliquant sur chaque<br />

morceau correspondant à une annotation <strong>de</strong> ST RUCT le processus d’occultation<br />

tel que défini à la section précé<strong>de</strong>nte. La base <strong>de</strong> morceaux partiellement occultés<br />

est notée D, <strong>les</strong> sous-bases regroupées par artistes étant désignées par DB, DQ et DJ<br />

selon la nomenclature précé<strong>de</strong>nte. À l’issue <strong>de</strong> cette étape, 252 morceaux partiellement<br />

occultés sont donc présents <strong>dans</strong> la base <strong>de</strong> tests D ; la section effectivement<br />

occultée <strong>dans</strong> chaque morceau alors d’une durée comprise entre 1 et 16 secon<strong>de</strong>s,<br />

avec une moyenne constatée <strong>de</strong> 8.2 secon<strong>de</strong>s sur D.<br />

Mesure <strong>de</strong> la répétitivité<br />

Afin d’évaluer la restriction induite sur la base <strong>de</strong> tests par la contrainte <strong>de</strong><br />

répétitivité, on peut calculer le nombre <strong>de</strong> sections <strong>dans</strong> <strong>les</strong> morceaux <strong>de</strong> la base<br />

<strong>de</strong> tests qui satisfont cette contrainte. La Figure 4.7 représente la fréquence d’apparition<br />

d’une section répétée, choisie aléatoirement, d’après la vérité structurelle,<br />

en fonction <strong>de</strong> la taille <strong>de</strong> la section. La courbe en traits pleins indique la moyenne<br />

sur tous <strong>les</strong> morceaux <strong>de</strong> la base D (<strong>les</strong> lignes vertica<strong>les</strong> représentant l’écart-type<br />

<strong>de</strong> la mesure), tandis que <strong>les</strong> courbes pointillées détaillent <strong>les</strong> résultats par artiste :


84 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

Score Qualité Imperfections<br />

5 Excellente Imperceptib<strong>les</strong><br />

4 Bonne À peine perceptib<strong>les</strong><br />

3 Passable Acceptab<strong>les</strong><br />

2 Médiocre Dérangeantes<br />

1 Mauvaise Très dérangeantes<br />

Tab. 4.1 – Échelle subjective définie pour établir la note moyenne d’opinion.<br />

points en carrés pour DQ, en cercle pour DJ et en triangle pour DB. Par exemple,<br />

si l’on choisit aléatoirement une section <strong>de</strong> 5 secon<strong>de</strong>s <strong>dans</strong> un morceau <strong>de</strong> la base<br />

<strong>de</strong> données, alors la section est répétée, en moyenne, <strong>dans</strong> 56% <strong>de</strong>s cas sur D, <strong>dans</strong><br />

42% <strong>de</strong>s cas sur DQ, <strong>dans</strong> 48% <strong>de</strong>s cas sur DJ et <strong>dans</strong> 70% <strong>de</strong>s cas sur DB. La répétitivité<br />

semble fortement varier en fonction <strong>de</strong>s artistes <strong>dans</strong> la base <strong>de</strong> données ;<br />

ainsi, la fréquence <strong>de</strong> sections répétées <strong>dans</strong> un morceau <strong>de</strong> The Beat<strong>les</strong> est entre<br />

8.7% et 16.2% plus élevée que <strong>dans</strong> un morceau <strong>de</strong> Queen. Cette différence, qui peut<br />

être due aux choix d’agencements structurels différents selon <strong>les</strong> compositeurs, est<br />

également liée à un manque d’homogénéité <strong>de</strong>s annotations structurel<strong>les</strong>, comme<br />

souligné notamment par Peeters et Deruty [PD09] et discuté plus précisément en<br />

Section 5.3.4.2.<br />

En respectant la contrainte <strong>de</strong> répétitivité, l’occultation est donc effectuée sur<br />

une partie <strong>de</strong>s segments <strong>de</strong> la base <strong>de</strong> données. Ainsi, 64.6% <strong>de</strong>s morceaux en<br />

moyenne peuvent être occultés par <strong>de</strong>s sections d’une secon<strong>de</strong>, 50.8% par <strong>de</strong>s sections<br />

<strong>de</strong> 7s et jusqu’à 34.7% pour <strong>de</strong>s sections <strong>de</strong> 15s.<br />

Génération <strong>de</strong>s données<br />

Chaque morceau <strong>de</strong> D est partiellement occulté selon le processus décrit précé<strong>de</strong>mment.<br />

L’algorithme <strong>de</strong> reconstruction est alors appliqué sur chaque morceau.<br />

Le paramètre δ <strong>de</strong> durée <strong>de</strong>s contextes tonaux locaux doit être fixée à une valeur<br />

suffisamment élevée afin <strong>de</strong> capter une progression harmonique représentative, mais<br />

suffisamment faible pour que le contexte conserve un caractère local à la section<br />

manquante. Des tests préliminaires sur un sous-ensemble <strong>de</strong> morceaux <strong>de</strong> D suggèrent<br />

la valeur δ = 4s comme compromis raisonnable pour reconstituer <strong>les</strong> sections<br />

occultées. Ce réglage, obtenu <strong>de</strong> manière empirique, dépend fortement <strong>de</strong> la base<br />

<strong>de</strong> données et <strong>de</strong> la durée <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> qui la composent.<br />

À l’issue <strong>de</strong> cette étape, on dispose ainsi <strong>de</strong> 252 morceaux partiellement occultés,<br />

<strong>de</strong> manière aléatoire, puis reconstruits par notre algorithme.<br />

4.1.1.6 Tests perceptifs<br />

Notre protocole d’évaluation subjective est inspiré du test <strong>de</strong> Note moyenne<br />

d’opinion (ou Mean Opinion Score, MOS), telle que définie par l’Union Internationale<br />

<strong>de</strong>s Télécommunications 1 [IT94]. Cette technique correspond à un standard<br />

particulièrement utilisé pour évaluer la qualité <strong>de</strong>s algorithmes <strong>de</strong> codage, notamment<br />

<strong>dans</strong> le domaine <strong>de</strong> la parole pour la téléphonie, la transmission réseau ou<br />

1. http://www.itu.int/fr


4.1 Répétition d’un segment choisi 85<br />

la synthèse vocale (voir par exemple [VV05] et <strong>les</strong> références incluses). Cette technique<br />

<strong>de</strong> test simple est particulièrement adaptée à l’évaluation perceptive du signal<br />

audio.<br />

Métho<strong>de</strong> d’évaluation<br />

Conformément au test MOS, on commence par définir une échelle d’évaluation<br />

comprenant 5 niveaux <strong>de</strong> satisfaction, le niveau 5 représentant la meilleure qualité<br />

et le niveau 1 la plus mauvaise. Le Tableau 4.1 détaille <strong>les</strong> différents niveaux.<br />

La spécification du test [IT94] précise en outre qu’il est important que l’auditeur<br />

soit exposé à <strong>de</strong> courts extraits audio sur une pério<strong>de</strong> relativement courte, <strong>de</strong> l’ordre<br />

<strong>de</strong> la dizaine <strong>de</strong> minutes. Afin <strong>de</strong> réduire la durée d’écoute <strong>de</strong> chaque extrait, on<br />

effectue une opération additionnelle sur <strong>les</strong> données <strong>de</strong> test consistant à retirer<br />

une gran<strong>de</strong> partie <strong>de</strong> l’information audio inchangée. Formellement, on considère un<br />

morceau <strong>de</strong> D occulté sur une durée d à partir <strong>de</strong> la date t. En tirant aléatoirement<br />

<strong>de</strong>ux durées t1 et t2 comprises entre 5 et 10 secon<strong>de</strong>s, on réduit l’extrait à écouter à<br />

l’intervalle [t−t1,t+d+t2]. De cette façon, la durée <strong>de</strong> l’extrait résultant correspond<br />

à la durée <strong>de</strong> la reconstruction plus 10 à 20 secon<strong>de</strong>s <strong>de</strong> données non reconstruites.<br />

Cette technique permet ainsi <strong>de</strong> concentrer l’écoute sur la section reconstituée, tout<br />

en introduisant un minutage aléatoire qui ne permet pas <strong>de</strong> connaître a priori <strong>les</strong><br />

bornes <strong>de</strong> cette reconstruction. Notons que si cette technique permet <strong>de</strong> rendre<br />

l’écoute <strong>de</strong>s extraits moins fastidieuse, elle tend à concentrer l’attention <strong>de</strong>s sujets<br />

autour <strong>de</strong> la reconstruction et rend plus exigeante l’évaluation <strong>de</strong> sa qualité.<br />

De cette manière, 252 extraits sont ainsi générés, chacun durant entre 10 et 30<br />

secon<strong>de</strong>s pour une durée moyenne <strong>de</strong> 21.8s.<br />

Pour réduire la durée <strong>de</strong> test à une dizaine <strong>de</strong> minutes d’écoute, chaque sujet<br />

est soumis à l’évaluation <strong>de</strong> 26 extraits. Parmi ceux-ci, 21 sont tirés aléatoirement<br />

parmi <strong>les</strong> 252 extraits reconstruits, et 5 morceaux, proposés à tous <strong>les</strong> testeurs,<br />

correspon<strong>de</strong>nt à <strong>de</strong>s extraits originaux non reconstruits (ou extraits-témoins). La<br />

présence <strong>de</strong> ces <strong>de</strong>rniers a pour objectif d’éliminer un éventuel effet-individu en<br />

détectant par exemple <strong>les</strong> sujets répondant <strong>de</strong> manière aléatoire selon la règle suivante<br />

: si un sujet juge la qualité <strong>de</strong> 3 extraits non altérés ou plus comme perfectible<br />

(note différente <strong>de</strong> 5), alors son jugement est qualifié <strong>de</strong> non pertinent, et est écarté<br />

<strong>de</strong> l’évaluation.<br />

Il est également important, d’après le test MOS, <strong>de</strong> prêter attention à l’expertise<br />

du sujet pour l’évaluation d’extraits audio. En s’inspirant <strong>de</strong> ce principe, on propose<br />

<strong>de</strong> distinguer <strong>les</strong> sujets du test en <strong>de</strong>ux catégories : <strong>les</strong> musiciens et <strong>les</strong> non musiciens,<br />

le sujet déclarant à quelle catégorie il appartient.<br />

Résultats<br />

Les tests d’écoute ont été menés sur 80 auditeurs distincts, dont 34 se déclarant<br />

comme musiciens et 46 comme non musiciens. Chaque extrait audio a été écouté en<br />

moyenne 7.1 fois, avec un minimum d’une écoute et un maximum <strong>de</strong> 15 écoutes par<br />

extrait. Les écoutes <strong>de</strong>s 5 extraits-témoins ont donné lieu à 400 observations dont<br />

10 ont été évaluées <strong>de</strong> manière inexacte (imperfections perçues). Cependant, ces<br />

10 notes invali<strong>de</strong>s ont été attribuées par 10 utilisateurs distincts. Par conséquent,<br />

tous <strong>les</strong> jugements <strong>de</strong>s 80 testeurs peuvent être considérés comme pertinents. Les


86 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

Base <strong>de</strong> données Musiciens Non musiciens Total<br />

DB (The Beat<strong>les</strong>) 3.95 4.13 4.05<br />

DJ (Michael Jackson) 4.21 4.26 4.24<br />

DQ (Queen) 3.40 3.94 3.71<br />

D (Tous morceaux) 3.92 4.13 4.04<br />

Tab. 4.2 – Résultats d’évaluation subjective <strong>de</strong> la reconstruction, regroupés par base<br />

<strong>de</strong> données et par classe d’évaluateurs. Les valeurs sont données sur une échelle<br />

subjective telle que présentée <strong>dans</strong> le Tableau 4.1.<br />

statistiques présentées <strong>dans</strong> la suite ne comptabilisent pas ces 400 observations <strong>de</strong><br />

morceaux-témoins, afin <strong>de</strong> ne pas introduire <strong>de</strong> biais <strong>dans</strong> l’évaluation <strong>de</strong>s reconstructions<br />

effectuées.<br />

Les résultats globaux <strong>de</strong> la reconstruction sont résumés <strong>dans</strong> le Tableau 4.2. La<br />

moyenne <strong>de</strong>s notes attribuées aux morceaux <strong>de</strong> chacune <strong>de</strong>s bases <strong>de</strong> données est<br />

présentée, pour chaque classe <strong>de</strong> sujets. La note moyenne globale <strong>de</strong>s extraits évalués<br />

est <strong>de</strong> 4.04, jugeant ainsi la qualité <strong>de</strong> la reconstruction comme bonne avec <strong>de</strong>s<br />

imperfections à peine perceptib<strong>les</strong> en moyenne. La perception <strong>de</strong>s sujets musiciens<br />

semble légèrement plus exigeante, avec une note moyenne inférieure <strong>de</strong> 0.21 points<br />

par rapport aux sujets non musiciens.<br />

On remarque également que <strong>les</strong> résultats semblent varier selon <strong>les</strong> artistes. Ainsi,<br />

<strong>les</strong> reconstructions semblent moins satisfaisantes sur l’ensemble d’extraits <strong>de</strong> Queen<br />

que sur <strong>les</strong> extraits <strong>de</strong> Michael Jackson, avec un écart <strong>de</strong> 0.53 points sur la note<br />

moyenne. La raison <strong>de</strong> cette variabilité en fonction <strong>de</strong>s artistes n’est pas triviale<br />

et peut être expliquée par <strong>de</strong> nombreux facteurs. D’abord, <strong>les</strong> compositeurs sont<br />

susceptib<strong>les</strong> d’employer différemment la répétition <strong>de</strong> motifs structurels, en amenant<br />

plus ou moins <strong>de</strong> variations musica<strong>les</strong> entre <strong>de</strong>ux couplets, sur la mélodie ou<br />

<strong>les</strong> instruments par exemple. Ces différences impactent la reconstruction, qui est<br />

d’autant plus perceptible que la répétition détectée comporte <strong>de</strong> variations. En<br />

outre, rappelons que <strong>les</strong> sections occultées puis reconstruites sont choisies en fonction<br />

d’une annotation par différents experts, dont <strong>les</strong> normes et règ<strong>les</strong> <strong>de</strong> notation<br />

sont réputées peu homogènes selon <strong>les</strong> bases <strong>de</strong> données, donc selon <strong>les</strong> artistes<br />

(voir Section 5.3.4.2). Enfin, <strong>les</strong> habitu<strong>de</strong>s d’écoute <strong>de</strong>s sujets <strong>de</strong> test ont un impact<br />

direct sur leur exigence face aux reconstructions. Ainsi, un auditeur connaissant<br />

parfaitement bien un morceau est susceptible d’être plus critique à l’écoute d’une<br />

reconstitution <strong>de</strong> celui-ci. Dans un souci <strong>de</strong> simplification <strong>de</strong> la tâche <strong>de</strong> test et <strong>de</strong><br />

réduction <strong>de</strong> sa durée, la pré-connaissance <strong>de</strong>s extraits n’a pas fait partie du protocole<br />

<strong>de</strong>s tests menés. Néanmoins, il est important que <strong>les</strong> futurs travaux sur la<br />

reconstruction renseignent cette information pour chaque observation effectuée afin<br />

d’évaluer l’importance <strong>de</strong> ce critère.<br />

Les notes moyennes attribuées par <strong>les</strong> sujets <strong>de</strong> test suggèrent une bonne qualité<br />

<strong>de</strong> la reconstruction. La figure 4.8 décrit plus précisément la distribution <strong>de</strong>s notes<br />

attribuées pour chaque observation, tous morceaux confondus, en détaillant chaque<br />

classe d’évaluateurs : tous <strong>les</strong> sujets (noir), sujets musiciens (gris foncé) et sujets<br />

non musiciens (gris clair). Cette figure présente la tendance <strong>de</strong> notation générale à<br />

l’écoute <strong>de</strong>s reconstructions. Ainsi, pour plus <strong>de</strong> la moitié <strong>de</strong>s observations (55.4%),<br />

tous morceaux et tous utilisateurs confondus, la note 5 est attribuée. Cela signifie


4.1 Répétition d’un segment choisi 87<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0% 10% 20% 30% 40% 50% 60% 70%<br />

5,0%<br />

14,8%<br />

12,9%<br />

12,0%<br />

Tous Musiciens Non musiciens<br />

55,4%<br />

Fig. 4.8 – Répartition <strong>de</strong>s notes attribuées pour chaque classe <strong>de</strong> sujets<br />

que plus <strong>de</strong> la moitié <strong>de</strong>s observations évaluent comme excellente (non perceptible)<br />

la reconstruction effectuée. La note 5 est moins fréquente pour <strong>les</strong> sujets musiciens,<br />

dont 49.8% <strong>de</strong>s observations se voient attribuer cette note.<br />

En regroupant <strong>les</strong> scores par extrait et en calculant leur note moyenne, on peut<br />

mesurer la qualité <strong>de</strong> reconstruction perçue par extrait. La Figure 4.9 présente la<br />

répartition <strong>de</strong>s notes moyennes par extrait, en détaillant chaque classe <strong>de</strong> sujets. On<br />

rappelle que <strong>les</strong> observations effectuées par chaque sujet sont tirées aléatoirement<br />

parmi l’ensemble <strong>de</strong>s reconstructions ; <strong>de</strong> ce fait, certains extraits ont été notés uniquement<br />

par <strong>de</strong>s non musiciens, certains uniquement par <strong>de</strong>s musiciens et certains<br />

par <strong>les</strong> <strong>de</strong>ux types <strong>de</strong> sujets. Le score moyen d’évaluation par tous <strong>les</strong> sujets (en<br />

noir) ne correspond donc pas forcément à la moyenne <strong>de</strong>s scores moyens <strong>de</strong>s <strong>de</strong>ux<br />

classes (en gris). Cette figure souligne donc que 31.2% <strong>de</strong>s reconstitutions sont notées<br />

5 par tous <strong>les</strong> sujets <strong>les</strong> ayant évaluées. La reconstruction est donc qualifiée<br />

d’excellente pour un tiers <strong>de</strong> la base <strong>de</strong> données. En outre, pour 33% <strong>de</strong>s extraits,<br />

la reconstruction semble à peine perceptible avec un score compris entre 4 et 5.<br />

Le jugement <strong>de</strong>s sujets musiciens semble à nouveau plus critique avec une notation<br />

relative aux non musiciens plus faible <strong>de</strong> 6.37% <strong>de</strong>s extraits notés 5, plus forte <strong>de</strong><br />

3.8% <strong>de</strong>s extraits notés entre 3 et 4 et plus forte <strong>de</strong> 6.9% <strong>de</strong>s extraits notés entre 2<br />

et 3. Les scores <strong>les</strong> plus faib<strong>les</strong> semblent rarement attribués <strong>dans</strong> <strong>les</strong> <strong>de</strong>ux cas, avec<br />

seulement 4.5% <strong>de</strong>s extraits et 5% <strong>de</strong> toutes <strong>les</strong> observations.<br />

Les imperfections détectées <strong>dans</strong> <strong>les</strong> extraits reconstruits sont liées à différents<br />

critères musicaux comme le rythme, la voix, la dynamique ou encore le timbre perçu.<br />

La liste suivante détaille <strong>les</strong> imperfections <strong>les</strong> plus rapportées par <strong>les</strong> sujets <strong>de</strong> test,<br />

et propose une explication à leur apparition :<br />

- Légers décalages rythmiques. De faib<strong>les</strong> changements <strong>dans</strong> le rythme sont fréquemment<br />

rapportés, particulièrement <strong>dans</strong> le cas d’une accélération du tempo<br />

perçu (voir par exemple [Wan84] pour une explication plus complète). Ceux-ci<br />

sont provoqués par la présence <strong>de</strong> sections répétées jouées à un tempo légère-


88 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

5<br />

Entre 4 et 5<br />

Entre 3 et 4<br />

Entre 2 et 3<br />

Entre 1 et 2<br />

0% 10% 20% 30% 40% 50%<br />

4,5%<br />

11,8%<br />

19,5%<br />

31,2%<br />

Tous Musiciens Non musiciens<br />

33,0%<br />

Fig. 4.9 – Répartition <strong>de</strong>s moyennes par morceau et pour chaque classe <strong>de</strong> sujets<br />

ment différent à chaque occurrence, et dont l’insertion apporte <strong>de</strong>s modifications<br />

soudaines du tempo <strong>dans</strong> la section reconstruite. Cette imperfection est particulièrement<br />

rapportée pour la reconstruction d’extraits provenant <strong>de</strong> morceaux<br />

réputés pour n’avoir pas été enregistrés en suivant une pulsation régulière (métronome).<br />

- Modifications timbra<strong>les</strong> subites. Le changement rapi<strong>de</strong> (quelques secon<strong>de</strong>s) d’instruments<br />

est également souvent perçu comme anormal au cours <strong>de</strong> transitions<br />

reconstruites. Cet effet est dû à l’utilisation <strong>de</strong> répétitions comportant une harmonie<br />

similaire mais une instrumentation différente.<br />

- Incohérences <strong>de</strong>s paro<strong>les</strong> chantées. Cette imperfection est régulièrement rapportée<br />

<strong>dans</strong> <strong>les</strong> cas où l’occultation supprime en partie une phrase chantée, puis où<br />

la reconstruction assigne une section similaire d’un point <strong>de</strong> vue tonal, mais dont<br />

<strong>les</strong> paro<strong>les</strong> ont été modifiées. Il convient <strong>de</strong> noter que sur <strong>les</strong> 80 sujets soumis à<br />

l’évaluation, 78 ont pour langue maternelle le français, alors que <strong>les</strong> morceaux<br />

proposés sont tous en langue anglaise. On peut donc supposer que le nombre<br />

d’incohérences sur <strong>les</strong> paro<strong>les</strong> détectées serait supérieur <strong>dans</strong> le cas <strong>de</strong> sujets<br />

anglophones.<br />

Bilan expérimental<br />

Cette évaluation met en avant le succès <strong>de</strong> la métho<strong>de</strong> à reconstruire <strong>de</strong> manière<br />

parfaitement satisfaisante 31.2% <strong>de</strong>s extraits audio, et <strong>de</strong> manière à peine perceptible<br />

33% d’entre eux. De plus, bien que l’expertise musicale ren<strong>de</strong> l’évaluation plus<br />

exigeante, le fort taux d’attribution <strong>de</strong> la note maximale (plus d’une observation<br />

sur <strong>de</strong>ux) suggère que la métho<strong>de</strong> est très efficace pour une majorité <strong>de</strong>s signaux<br />

pour le panel <strong>de</strong> testeurs, résultat appuyé par la note moyenne <strong>de</strong> 4.04 sur 5 pour<br />

l’ensemble <strong>de</strong>s extraits reconstruits.<br />

Ce résultat est à nuancer par le caractère subjectif <strong>de</strong> notre évaluation, dont la<br />

fiabilité est nécessairement liée à l’échantillon <strong>de</strong> sujets (ici 80 personnes) et aux


4.2 Répétition majeure 89<br />

bases <strong>de</strong> données évaluées. Une perspective <strong>de</strong> cette étu<strong>de</strong> consiste à s’intéresser<br />

à un mo<strong>de</strong> d’évaluation plus objectif, par exemple en définissant <strong>de</strong>s métriques<br />

d’évaluation robustes à un certain nombre <strong>de</strong> variations musica<strong>les</strong>, ou en spécifiant<br />

plus <strong>les</strong> critères d’évaluation <strong>de</strong> la procédure subjective.<br />

4.1.2 Conclusion<br />

Dans cette section, nous avons décrit une technique basée sur l’alignement <strong>de</strong><br />

<strong>séquences</strong> tona<strong>les</strong> pour l’i<strong>de</strong>ntification <strong>de</strong> la meilleure répétition d’un segment choisi<br />

<strong>dans</strong> un morceau <strong>de</strong> musique. Dans le cadre <strong>de</strong> la reconstruction <strong>de</strong> données audio,<br />

un algorithme adapté a été présenté et évalué par <strong>de</strong>s tests subjectifs. Le jugement<br />

<strong>de</strong>s reconstructions calculées met en avant la pertinence <strong>de</strong> la métho<strong>de</strong> pour<br />

restaurer <strong>de</strong> manière perceptivement satisfaisante <strong>les</strong> données manquantes.<br />

En choisissant un segment <strong>dans</strong> un morceau <strong>de</strong> musique, la métho<strong>de</strong> présentée<br />

permet donc d’i<strong>de</strong>ntifier une répétition significative au sein du même morceau.<br />

Nous proposons à présent <strong>de</strong> relâcher la contrainte <strong>de</strong> choix d’un segment, et ainsi<br />

d’étudier un problème plus général <strong>de</strong> détection d’une répétition significative au<br />

sein d’un morceau : la répétition majeure.<br />

4.2 Répétition majeure<br />

Afin d’automatiser la détection <strong>de</strong> la structuration répétitive d’un morceau,<br />

il est nécessaire <strong>de</strong> désigner et d’extraire une répétition significative <strong>de</strong> celui-ci.<br />

Contrairement à la section précé<strong>de</strong>nte, on s’intéresse <strong>dans</strong> cette <strong>de</strong>uxième approche<br />

à l’i<strong>de</strong>ntification d’une répétition musicalement significative <strong>dans</strong> un extrait audio<br />

sans aucune pré-connaissance sur celle-ci.<br />

La répétition que nous choisissons d’étudier <strong>dans</strong> cette section est caractérisée<br />

par un critère d’optimalité. En effet, <strong>de</strong>vant la complexité <strong>de</strong> la structuration répétitive<br />

<strong>de</strong>s morceaux <strong>de</strong> musique, il semble naturel, sans connaissance a priori sur<br />

un morceau <strong>de</strong> musique, <strong>de</strong> rechercher d’abord sa “meilleure” répétition selon un<br />

certain critère.<br />

On peut ainsi définir grossièrement le problème abordé ici comme l’extraction<br />

<strong>dans</strong> un morceau <strong>de</strong> musique quelconque <strong>de</strong> la répétition prépondérante du morceau,<br />

c’est-à-dire <strong>de</strong>s <strong>de</strong>ux extraits répétés <strong>les</strong> plus significatifs. Cette formulation imprécise<br />

du problème sous-entend l’importance <strong>de</strong> <strong>de</strong>ux critères <strong>de</strong> sélection distincts :<br />

le <strong>de</strong>gré <strong>de</strong> similarité et la taille <strong>de</strong>s extraits répétés. Ainsi, pour <strong>de</strong>ux répétitions<br />

<strong>de</strong> durées i<strong>de</strong>ntiques, si l’information musicale est plus proche entre <strong>les</strong> occurrences<br />

<strong>de</strong> la première répétition qu’entre cel<strong>les</strong> <strong>de</strong> la secon<strong>de</strong>, alors la première répétition<br />

peut être considérée comme plus significative que la secon<strong>de</strong> pour le morceau <strong>de</strong><br />

musique. De la même manière, pour <strong>de</strong>ux répétitions d’une quantité d’information<br />

musicale équivalente, si la durée <strong>de</strong>s occurrences <strong>de</strong> la première est supérieure à<br />

celle <strong>de</strong>s occurrences <strong>de</strong> la secon<strong>de</strong>, alors la première répétition peut être considérée<br />

comme plus significative que la secon<strong>de</strong> pour le morceau <strong>de</strong> musique. Chacun <strong>de</strong> ces<br />

<strong>de</strong>ux critères présentent une importance <strong>dans</strong> le choix d’une répétition optimale.<br />

En supposant connue une mesure <strong>de</strong> la similarité entre <strong>séquences</strong> musica<strong>les</strong>, on<br />

considère <strong>dans</strong> cette section la répétition majeure d’un morceau <strong>de</strong> musique, correspondant<br />

<strong>de</strong> manière informelle aux parties disjointes du morceau qui présentent le<br />

meilleur compromis entre un fort <strong>de</strong>gré <strong>de</strong> similarité et une longueur importante.


90 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

La suite <strong>de</strong> cette section explicite la nature du compromis effectué, et définit formellement<br />

cette répétition.<br />

Afin d’évaluer son sens musical, nous proposons ensuite <strong>de</strong> la comparer avec la<br />

structure répétitive perçue, telle qu’annotée par <strong>de</strong>s experts. Enfin, nous décrivons<br />

une évaluation concrète <strong>de</strong> cette répétition pour in<strong>de</strong>xer <strong>de</strong>s morceaux <strong>de</strong> musique,<br />

<strong>dans</strong> le cadre <strong>de</strong> l’application à la détection <strong>de</strong> reprises.<br />

4.2.1 Travaux antérieurs et motivation<br />

Le problème d’extraction d’un segment caractérisé par sa répétition a été traité<br />

<strong>dans</strong> le cadre <strong>de</strong> la détection <strong>de</strong> segments représentatifs, avec pour objectif <strong>de</strong> produire<br />

un extrait caractéristique du morceau, ou thumbnail (voir Section 1.2.1).<br />

L’état <strong>de</strong> l’art se concentre essentiellement sur la détection d’une section caractéristique<br />

du style musical populaire occi<strong>de</strong>ntal, le refrain [Got03, Got06, BW05,<br />

LC00, CF04].<br />

Le refrain est un segment commun en musique populaire occi<strong>de</strong>ntale. Bien qu’il<br />

n’existe pas <strong>de</strong> définition précise <strong>de</strong> ce terme au sens <strong>de</strong> l’analyse musicale, le refrain<br />

peut être caractérisé par plusieurs constats <strong>dans</strong> certains morceaux. Par exemple,<br />

Peeters et Deruty [PD09] l’assimilent à « une section d’un morceau qui inclut le<br />

chanteur, <strong>dans</strong> laquelle le titre du morceau est prononcé, et qui se répète au moins<br />

une fois <strong>dans</strong> le morceau ». Depuis une analyse du contenu musical, le refrain est<br />

généralement i<strong>de</strong>ntifié automatiquement à partir <strong>de</strong> la détection <strong>de</strong>s sections <strong>les</strong> plus<br />

répétées d’un morceau <strong>de</strong> musique [Got06]. Cooper et Foote [CF04] proposent une<br />

telle détection, i<strong>de</strong>ntifiant <strong>de</strong>s sections comprenant refrains et couplets, en effectuant<br />

une analyse <strong>de</strong> la matrice d’auto-distance [Foo99] <strong>de</strong>s <strong>de</strong>scripteurs musicaux d’un<br />

morceau, puis en appliquant une métho<strong>de</strong> <strong>de</strong> clustering sur <strong>les</strong> segments obtenus<br />

pour sélectionner <strong>les</strong> plus fréquents. Logan et Chu [LC00] utilisent également une<br />

technique <strong>de</strong> clustering couplé à <strong>de</strong>s modè<strong>les</strong> <strong>de</strong> Markov cachés pour regrouper <strong>de</strong><br />

courts segments en fonction <strong>de</strong> caractéristiques audio, puis i<strong>de</strong>ntifient une “phraseclé”<br />

d’une durée fixée en sélectionnant la séquence la plus fréquente selon plusieurs<br />

heuristiques. De manière analogue, Bartsch et Wakefield [BW05] i<strong>de</strong>ntifient un extrait<br />

<strong>de</strong> taille fixée par corrélation optimale <strong>de</strong> <strong>de</strong>scripteurs audio en respectant une<br />

hypothèse sur leur évolution tout au long du morceau. Goto [Got03, Got06] parvient<br />

à repérer précisément <strong>les</strong> frontières <strong>de</strong>s occurrences du refrain, potentiellement avec<br />

modulation, en optimisant une mesure <strong>de</strong> similarité établie sur différents niveaux <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong>, tout en respectant <strong>de</strong>s hypothèses arbitraires sur la position<br />

ou la durée probable du refrain. L’utilisation d’heuristiques <strong>dans</strong> l’ensemble <strong>de</strong> ces<br />

étu<strong>de</strong>s pour décrire le refrain rend le problème <strong>de</strong> sa détection difficile à définir <strong>dans</strong><br />

le cas général. Bien qu’affichant <strong>de</strong>s résultats satisfaisants, ces techniques cherchent<br />

à travers une série d’hypothèses à résoudre un problème non formellement défini.<br />

En outre, si le refrain est une structure caractéristique <strong>de</strong> la musique populaire<br />

occi<strong>de</strong>ntale, il ne convient pas à <strong>de</strong> nombreux sty<strong>les</strong> musicaux qui comportent pourtant<br />

<strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> fortes. Par exemple, on retrouve en musique classique<br />

<strong>de</strong>s thèmes caractéristiques et récurrents tout au long d’un morceau mais ne correspondant<br />

pas aux hypothèses <strong>de</strong> répétitivité du refrain. À l’inverse, il est possible<br />

<strong>de</strong> citer <strong>de</strong> nombreuses œuvres considérées comme appartenant à la musique populaire<br />

mais ne comptant pas <strong>de</strong> refrain. Par exemple, Peeters et Deruty [PD09]<br />

soulignent qu’aucun refrain ne figure sur l’album The Dark Si<strong>de</strong> of The Moon du


4.2 Répétition majeure 91<br />

<br />

<br />

<br />

(i)<br />

Fig. 4.10 – Interprétation graphique <strong>de</strong> la contrainte <strong>de</strong> disjonction <strong>dans</strong> <br />

<br />

le graphe<br />

d’édition. <br />

(i) : Un chemin franchissant la diagonale du graphe représente l’aligne-<br />

<br />

<br />

ment <strong>de</strong> <strong>séquences</strong> non disjointes. (ii) : Un chemin non inclus <strong>dans</strong> un sous-graphe<br />

rectangulaire représente également l’alignement <strong>de</strong> <strong>séquences</strong> non disjointes.<br />

<br />

<br />

<br />

groupe Pink Floyd. Dans la même étu<strong>de</strong>, <strong>les</strong> auteurs remarquent également qu’avec<br />

une telle définition, le refrain n’apparaît que <strong>dans</strong> moins <strong>de</strong> la moitié <strong>de</strong> leur base <strong>de</strong><br />

<br />

données <strong>de</strong> 112 morceaux <strong>de</strong> sty<strong>les</strong> et époques variées [PD09]. L’analyse<br />

<br />

du refrain<br />

réduit donc l’ensemble <strong>de</strong>s données musica<strong>les</strong> exploitab<strong>les</strong> à une petite partie <strong>de</strong> la<br />

musique populaire occi<strong>de</strong>ntale.<br />

C’est pourquoi on se propose <strong>dans</strong> la suite d’étudier la répétition majeure, définie<br />

<strong>de</strong> manière moins intuitive mais plus générale que le refrain. L’objectif <strong>de</strong>s sections<br />

qui suivent est <strong>de</strong> formaliser cette répétition, <strong>de</strong> proposer un algorithme efficace permettant<br />

<strong>de</strong> l’extraire puis <strong>de</strong> justifier sa pertinence vis-à-vis <strong>de</strong>s répétitions perçues<br />

<strong>dans</strong> un morceau <strong>de</strong> musique.<br />

4.2.2 Modélisation<br />

Soit u une séquence <strong>de</strong> symbo<strong>les</strong>. La répétition majeure <strong>de</strong> u correspond aux<br />

<strong>de</strong>ux facteurs disjoints <strong>dans</strong> u <strong>de</strong> score <strong>de</strong> similarité locale optimal. Formellement,<br />

on cherche donc le score <strong>de</strong> répétition majeure s ⊛ (u), donné par la formule :<br />

On note u ⊛ 1 et u⊛ 2<br />

tels que s ⊛ (u) = s(u ⊛ 1 ,u⊛ 2 ).<br />

4.2.3 Algorithme<br />

<br />

<br />

<br />

<br />

(ii)<br />

s ⊛ (u) = max s ∗ (v,w)<br />

(v,w)∈S(u) 2 . (29)<br />

: v∩uw=ε<br />

<strong>les</strong> facteurs disjoints <strong>dans</strong> u effectivement alignés, c’est-à-dire<br />

Une solution au problème d’i<strong>de</strong>ntification <strong>de</strong>s facteurs disjoints <strong>de</strong> similarité<br />

optimale a été proposée par Miller [Mil92], puis améliorée peu après notamment<br />

par Kannan et Myers [KM93] et Benson [Ben95].<br />

Dans le cas où la condition <strong>de</strong> disjonction est relâchée, Miller [Mil92] remarque<br />

que le problème peut aisément être résolu en temps quadratique en effectuant une


92 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

<br />

<br />

Fig. 4.11 – Illustration du premier algorithme d’alignement <strong>de</strong> <strong>séquences</strong> disjointes.<br />

modification simple <strong>de</strong> l’algorithme d’alignement local [SW81]. La difficulté algorithmique<br />

du problème rési<strong>de</strong> donc <strong>dans</strong> la condition <strong>de</strong> disjonction.<br />

4.2.3.1 Premier algorithme<br />

Soient u une séquence <strong>de</strong> symbo<strong>les</strong> <strong>de</strong> longueur n et G le graphe d’édition <strong>de</strong><br />

la séquence u vers elle-même. Supposons connu le chemin P <strong>dans</strong> G correspondant<br />

à une transcription locale optimale <strong>de</strong> <strong>séquences</strong> disjointes <strong>dans</strong> u. On note (i,j)<br />

<strong>les</strong> coordonnées du point <strong>de</strong> départ <strong>de</strong> P <strong>dans</strong> G, et (k,l) <strong>les</strong> coordonnées <strong>de</strong> son<br />

point d’arrivée. En d’autres termes, P représente l’alignement optimal <strong>de</strong> u[i . . . k] et<br />

u[j . . . l]. Comme représenté en Figure 4.10, un chemin franchissant la diagonale <strong>de</strong> G<br />

représente un alignement <strong>de</strong> <strong>séquences</strong> possédant au moins un symbole en commun<br />

<strong>dans</strong> u. Par conséquent, P ne franchit pas la diagonale <strong>de</strong> G. G étant symétrique par<br />

rapport à sa diagonale, on suppose que P est contenu <strong>dans</strong> le triangle inférieur <strong>de</strong> G<br />

(quitte à considérer son image par symétrie), et notamment que j < i et l < k. En<br />

d’autres termes, le facteur u[j . . . l] est antérieur au facteur u[i . . . k] <strong>dans</strong> u. Puisque<br />

ces <strong>de</strong>ux facteurs sont disjoints <strong>dans</strong> u, on a l < i. Graphiquement, cette condition<br />

implique que le chemin P ne se termine pas <strong>dans</strong> une colonne d’indice l supérieur à<br />

celui <strong>de</strong> la ligne i à laquelle il commence. Comme représenté en Figure 4.10-(ii), si<br />

P ne respectait pas cette condition, il représenterait nécessairement un alignement<br />

<strong>de</strong> facteurs non disjoints <strong>dans</strong> u.<br />

Par conséquent, le chemin optimal avec disjonction <strong>dans</strong> G est contenu <strong>dans</strong><br />

un sous-graphe <strong>de</strong> G rectangulaire et délimité par la ligne i et la colonne i, pour<br />

i ∈ 1,|u|. Cette remarque, représentée en Figure 4.11 pour quelques valeurs <strong>de</strong> i,<br />

conduit à la définition <strong>de</strong> l’Algorithme 1 <strong>de</strong> résolution du problème <strong>de</strong> la répétition<br />

majeure.<br />

À chaque étape i, une matrice rectangulaire <strong>de</strong> taille i · (n − i) est calculée. Le<br />

nombre <strong>de</strong> coefficients <strong>de</strong> programmation dynamique calculés par l’algorithme 1 est<br />

donc donné par :<br />

n−1<br />

<br />

i=1<br />

i(n − i) =<br />

(i)<br />

<br />

<br />

<br />

<br />

<br />

n(n − 1)(n + 1)<br />

. (30)<br />

6<br />

Par conséquent, la complexité temporelle <strong>de</strong> ce premier algorithme est <strong>de</strong> O(n3 ),<br />

coefficients <strong>de</strong> programmation dynamique à évaluer.<br />

avec précisément n(n−1)(n+1)<br />

6


4.2 Répétition majeure 93<br />

algorithme 1 Répétition majeure, premier algorithme [Mil92]<br />

ENTRÉE Une séquence u<br />

SORTIE Le score <strong>de</strong> répétition majeure s ⊛ et <strong>les</strong> <strong>de</strong>ux facteurs u ⊛ 1 et u⊛ 2<br />

s ← 0, v ← ε, w ← ε<br />

pour i = 1 à |u| − 1 faire<br />

v ← u[1 . . . i]<br />

w ← u[i + 1 . . . |u|]<br />

s ∗ ← s ∗ (v,w)<br />

si s ∗ > s alors<br />

s ← s ∗ , u1 ← v ∗ , u2 ← w ∗<br />

s ⊛ ← s, u ⊛ 1 ← u1, u ⊛ 2<br />

retour s ⊛ , u ⊛ 1 , u⊛ 2<br />

← u2<br />

4.2.3.2 Deuxième algorithme<br />

Miller [Mil92] propose un algorithme plus efficace en pratique en modifiant le<br />

calcul <strong>de</strong> l’alignement local par programmation dynamique. Comme décrit en Section<br />

3.1.3.3, l’alignement local entre <strong>de</strong>ux <strong>séquences</strong> u et v est obtenu en calculant<br />

par récurrence sur i et j le score <strong>de</strong> similarité optimal s + i,j entre un suffixe <strong>de</strong> u[1 . . . i]<br />

et v[1 . . . j]. Dans le cas <strong>de</strong> recherche <strong>de</strong> facteurs disjoints <strong>dans</strong> une seule séquence<br />

u <strong>de</strong> taille n, Miller [Mil92] définit le score <strong>de</strong> similarité optimal s + i,j,k entre un suffixe<br />

<strong>de</strong> u[k . . . i] et u[1 . . . j]. En d’autres termes, pour trois indices i,j,k <strong>dans</strong> une<br />

séquence u, s + i,j désigne le score du meilleur chemin se terminant ligne i et colonne<br />

j <strong>dans</strong> le graphe d’édition, tandis que s + i,j,k désigne le score du meilleur chemin se<br />

terminant ligne i, colonne j et commençant à la ligne k <strong>dans</strong> le graphe d’édition.<br />

Le calcul <strong>de</strong> la similarité locale <strong>dans</strong> u est alors effectué selon une récurrence sur<br />

(i,j,k) ∈ 0,n3 . Son initialisation est donnée la proposition :<br />

Proposition 8 (Initialisation) Pour j ≤ k ≤ i,<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

s + 0,j,k<br />

s + i,0,k<br />

s + i,j,0<br />

= 0<br />

= 0<br />

= 0<br />

La récurrence se fait alors selon la proposition :<br />

Proposition 9 Soient λ un schéma <strong>de</strong> scores <strong>de</strong> pondération bien formé, et φ le<br />

symbole spécial d’alignement. Pour j ≤ k ≤ i,<br />

s + ⎧<br />

s<br />

⎪⎨<br />

i,j,k = max<br />

⎪⎩<br />

+ i−1,j,k + λ(u[i],φ) si i > k<br />

s + i,j−1,k + λ(φ,u[j]) si i ≥ k<br />

s + .<br />

i−1,j−1,k + λ(u[i],u[j]) si i > k<br />

0 si i = k<br />

Le chemin optimal <strong>dans</strong> le graphe d’édition ainsi calculé débute à la ligne k<br />

et se termine à la ligne i et la colonne j. L’inégalité k ≤ i indique l’ordre naturel<br />

.


94 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

<br />

<br />

<br />

<br />

<br />

Fig. 4.12 – Exemp<strong>les</strong> <strong>de</strong> chemins <strong>dans</strong> le graphe d’édition et amélioration du calcul<br />

du chemin optimal telle que proposée par Miller [Mil92] (voir texte).<br />

<strong>de</strong>s lignes <strong>de</strong> départ et d’arrivée du chemin <strong>dans</strong> le graphe d’édition. L’inégalité<br />

j ≤ k assure que le chemin optimal est bien situé <strong>dans</strong> le sous-graphe rectangulaire<br />

délimité par la ligne k et la colonne k. Enfin, par transitivité, l’inégalité i ≤ j assure<br />

que seul le triangle inférieur du graphe d’édition <strong>de</strong> u vers u est considéré.<br />

Le score <strong>de</strong> répétition majeure est alors donné par :<br />

<br />

(ii)<br />

<br />

<br />

<br />

<br />

<br />

s ⊛ (u) = max s + i,j,k<br />

(i,j,k)∈1,n3 ,i≤j≤k<br />

. (31)<br />

Le calcul <strong>de</strong> s ⊛ avec l’algorithme <strong>de</strong> Miller est effectué par récurrence sur i,j<br />

et k ; comme le premier algorithme proposé, sa complexité temporelle théorique est<br />

donc <strong>de</strong> O(n 3 ).<br />

Cependant, Miller [Mil92] relève que la complexité peut en pratique être ramenée<br />

à l’ordre quadratique. Pour décrire cette amélioration, on introduit quatre chemins<br />

<strong>de</strong> la manière suivante :<br />

– Soit P1 le meilleur chemin se terminant en ligne i, colonne j et commençant<br />

en ligne k ;<br />

– Soit P2 le meilleur chemin se terminant en ligne i, colonne j et commençant<br />

en ligne m < k ;<br />

– Soit P3 le meilleur chemin se terminant en ligne i ′ > i, colonne j ′ > j,<br />

commençant en ligne k et passant par le point (i,j) ;<br />

– Soit P4 le meilleur chemin se terminant en ligne i ′ > i, colonne j ′ > j,<br />

commençant en ligne m et passant par le point (i,j).<br />

La Figure 4.12 représente graphiquement un exemple pour ces quatre chemins.<br />

, alors s+ > s+ . En d’autres termes, si<br />

Miller remarque que si s + i,j,k > s+ i,j,m i ′ ,j ′ ,k i ′ ,j ′ ,m<br />

P1 est meilleur que P2, alors P3 est meilleur que P4. On dit que la ligne k domine<br />

la ligne m en (i,j). Ainsi, il n’est pas nécessaire <strong>de</strong> considérer la ligne dominée m<br />

<strong>dans</strong> le calcul <strong>de</strong> tout chemin optimal passant par le point (i,j) et se terminant en<br />

une ligne i ′ > i et une colonne j ′ > j (zone grisée <strong>de</strong> la Figure 4.12).<br />

Miller propose donc une optimisation du calcul <strong>de</strong> s + en conservant pour chaque<br />

couple d’indices (i,j) une liste <strong>de</strong>s candidats (c,s + i,j,c ) telle que la ligne c n’est dominée<br />

par aucune autre ligne en (i,j). Cette liste est triée <strong>dans</strong> l’ordre <strong>de</strong>s c croissants,


4.2 Répétition majeure 95<br />

donc <strong>dans</strong> l’ordre <strong>de</strong>s s + i,j,c décroissants. L’évaluation par programmation dynamique<br />

d’un score optimal en un point (i,j), décrite par l’Équation 9, n’est alors effectuée<br />

que sur <strong>les</strong> valeurs <strong>de</strong> k non dominées, indiquées par <strong>les</strong> listes <strong>de</strong> candidats <strong>de</strong>s<br />

coefficients voisins. Or, l’auteur remarque qu’en pratique le nombre <strong>de</strong> lignes non<br />

dominées en un point donné semble être constant, et lorsque c’est le cas le calcul<br />

<strong>de</strong> la liste <strong>de</strong> candidats à partir <strong>de</strong>s coefficients voisins <strong>de</strong>man<strong>de</strong> un temps <strong>de</strong> calcul<br />

constant [Mil92, KM93]. Par conséquent, Miller observe une complexité temporelle<br />

<strong>de</strong> cet algorithme <strong>de</strong> l’ordre <strong>de</strong> O(n2 ) en pratique, même si celle-ci peut toujours<br />

atteindre O(n3 ) <strong>dans</strong> le pire <strong>de</strong>s cas où aucune ligne n’est dominée.<br />

4.2.3.3 Autres optimisations<br />

Des travaux ultérieurs à l’étu<strong>de</strong> <strong>de</strong> Miller [Mil92] ont réduit la complexité<br />

temporelle du problème à O(n 2 log 2 n) pour Kannan et Myers [KM93], ou encore<br />

O(n 2 log n) pour Schmidt [Sch95]. Cependant, ces algorithmes introduisent<br />

<strong>de</strong>s <strong>structures</strong> <strong>de</strong> données spécifiques et s’avèrent particulièrement plus délicats à<br />

mettre en œuvre. Notre implémentation <strong>de</strong> l’algorithme d’i<strong>de</strong>ntification <strong>de</strong> la répétition<br />

majeure suit donc la métho<strong>de</strong> <strong>de</strong> Miller. On notera que bien que la complexité<br />

théorique <strong>de</strong> cet algorithme ne soit pas optimale, le comportement quadratique <strong>de</strong><br />

l’algorithme <strong>de</strong> Miller le rend performant en pratique pour analyser <strong>de</strong>s <strong>séquences</strong><br />

musica<strong>les</strong>.<br />

4.2.4 Évaluation<br />

Nous proposons d’évaluer la répétition majeure sur <strong>de</strong>s <strong>séquences</strong> tona<strong>les</strong> afin<br />

<strong>de</strong> qualifier sa pertinence pour décrire <strong>de</strong>s données musica<strong>les</strong>. Les résultats préliminaires<br />

<strong>de</strong> l’évaluation décrite <strong>dans</strong> cette section ont été publiés <strong>dans</strong> <strong>les</strong> actes <strong>de</strong> la<br />

Joint Conference on Digital Libraries (JCDL) [MHRF11a].<br />

L’algorithme <strong>de</strong> Miller est appliqué aux <strong>séquences</strong> <strong>de</strong> <strong>de</strong>scripteurs tonaux sur<br />

un ensemble <strong>de</strong> morceaux <strong>de</strong> musique. Le schéma <strong>de</strong> scores <strong>de</strong> pondération utilisé<br />

pour <strong>les</strong> calculs <strong>de</strong> similarité locale est i<strong>de</strong>ntique à celui établi pour l’évaluation <strong>de</strong><br />

la similarité tonale en Section 3.2. La taille <strong>de</strong>s trames <strong>de</strong> signal est déterminée<br />

empiriquement afin <strong>de</strong> représenter <strong>de</strong>s sections comprenant une information tonale<br />

pertinente et concordante avec l’échelle <strong>de</strong> <strong>de</strong>scription <strong>de</strong> la répétition majeure.<br />

Chaque trame est ainsi calculée sur un intervalle <strong>de</strong> 741ms, avec un avancement <strong>de</strong><br />

370ms entre <strong>de</strong>ux trames successives (chevauchement <strong>de</strong>s trames <strong>de</strong> moitié).<br />

Bases <strong>de</strong> données<br />

Pour <strong>les</strong> besoins <strong>de</strong> l’évaluation, on utilise plusieurs bases <strong>de</strong> données musica<strong>les</strong><br />

manuellement annotées et considérées comme vérité-terrain. Le premier jeu <strong>de</strong> données,<br />

noté Ds, est constitué d’annotations <strong>de</strong>s segments structurels composant un<br />

ensemble <strong>de</strong> 180 morceaux du groupe The Beat<strong>les</strong>. Cette base <strong>de</strong> données est issue<br />

<strong>de</strong> plusieurs projets <strong>de</strong> recherche, et plus précisément décrite en Section 5.3.4.2. Le<br />

second jeu <strong>de</strong> données, noté Dc, consiste en une annotation manuelle <strong>de</strong>s accords<br />

<strong>de</strong> ces mêmes morceaux, et provient d’un complément <strong>de</strong> données fourni par le<br />

projet OMRAS2 Metadata [MCD + 09] 1 . Dans cette base <strong>de</strong> données, chaque mor-<br />

1. http://www.isophonics.net/content/reference-annotations


96 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

Évaluation Rp Pp Fp Su So<br />

RM Audio/RM Accords 81.6 77.7 78.5 77.3 73.5<br />

Tab. 4.3 – Robustesse <strong>de</strong> l’algorithme <strong>de</strong> détection <strong>de</strong> la répétition majeure face aux<br />

<strong>de</strong>scripteurs audio. Les scores (pourcentages) correspon<strong>de</strong>nt aux moyennes sur la<br />

base <strong>de</strong> tests, et sont obtenus en comparant <strong>les</strong> répétitions majeures (RM) calculées<br />

<strong>de</strong>puis l’audio à cel<strong>les</strong> calculées <strong>de</strong>puis <strong>les</strong> annotations manuel<strong>les</strong> <strong>de</strong>s accords.<br />

ceau est représenté par une séquence <strong>de</strong> symbo<strong>les</strong> sur l’alphabet <strong>de</strong>s accords Σ r+m<br />

acc ,<br />

chaque symbole représentant la fondamentale et le mo<strong>de</strong> d’un accord (selon une<br />

construction analogue à la Section 3.3.3.1).<br />

Validation <strong>de</strong> l’algorithme sur <strong>de</strong>s <strong>séquences</strong> <strong>de</strong> <strong>de</strong>scripteurs musicaux<br />

La base <strong>de</strong> données Dc comporte un ensemble <strong>de</strong> <strong>séquences</strong> <strong>de</strong> symbo<strong>les</strong> décrivant<br />

<strong>les</strong> accords <strong>de</strong> morceaux <strong>de</strong> musique annotés par <strong>de</strong>s experts. Afin d’évaluer<br />

la pertinence <strong>de</strong> la métho<strong>de</strong> sur <strong>de</strong>s <strong>de</strong>scripteurs audio, on propose donc d’appliquer<br />

l’algorithme <strong>de</strong> Miller sur ces <strong>séquences</strong> annotées d’une part, puis sur <strong>les</strong> <strong>séquences</strong><br />

<strong>de</strong> <strong>de</strong>scripteurs audio d’autre part, avant <strong>de</strong> comparer <strong>les</strong> résultats obtenus.<br />

Une convergence <strong>de</strong>s répétitions i<strong>de</strong>ntifiées soulignerait non seulement la qualité du<br />

<strong>de</strong>scripteur audio à représenter <strong>les</strong> accords, mais aussi le succès <strong>de</strong> la métho<strong>de</strong> à<br />

i<strong>de</strong>ntifier la répétition majeure à partir <strong>de</strong> <strong>de</strong>scripteurs audio.<br />

Pour chaque morceau <strong>de</strong> la base <strong>de</strong> tests, la répétition majeure est donc calculée<br />

par l’algorithme <strong>de</strong> Miller à partir <strong>de</strong> la séquence d’accord annotés et à partir <strong>de</strong><br />

la séquence <strong>de</strong> chromas. Les <strong>de</strong>ux segmentations obtenues sont alors comparées en<br />

utilisant <strong>de</strong>ux métriques standard d’évaluation décrites en 5.3.4.3 : la comparaison<br />

trame-à-trame (scores Rp, Pp et Fp) et la métrique <strong>de</strong> sur- et sous-segmentation<br />

(scores Su et So). Les résultats <strong>de</strong> cette première évaluation sont indiqués <strong>dans</strong><br />

le Tableau 4.3. Les scores obtenus soulignent une forte correspondance entre <strong>les</strong><br />

segmentations <strong>de</strong>puis ces <strong>de</strong>ux différentes sources, avec une F-mesure trame-à-trame<br />

moyenne <strong>de</strong> 78.5% pour un rappel <strong>de</strong> 81.6%. Les scores élevés <strong>de</strong> sur-segmentation<br />

et <strong>de</strong> sous-segmentation aux valeurs respectives <strong>de</strong> 77.3% et 73.5% appuient cette<br />

conclusion. Leur faible écart indique en outre que <strong>les</strong> <strong>de</strong>ux segmentations comparées<br />

semblent bien décrire un niveau structurel similaire. La métho<strong>de</strong> semble donc bien<br />

robuste au passage aux <strong>de</strong>scripteurs audio.<br />

Malgré cette forte concordance, <strong>les</strong> segmentations calculées à partir <strong>de</strong>s accords<br />

et à partir <strong>de</strong> l’audio ne semblent pas correspondre exactement. Cette différence<br />

peut être due à la segmentation imposée par le découpage du signal en trame,<br />

qui est susceptible <strong>de</strong> ne pas correspondre à l’annotation <strong>de</strong>s accords. À l’inverse,<br />

le découpage en accords étant réalisé par une oreille humaine, il peut présenter<br />

une relative imprécision temporelle non reproduite par l’analyse du signal. Cette<br />

non correspondance peut également être reliée à différents facteurs liés au signal<br />

audio ; en particulier, la construction du chroma peut introduire <strong>de</strong>s incohérences<br />

loca<strong>les</strong>, en i<strong>de</strong>ntifiant par exemple une harmonie non pertinente sur une section n’en<br />

comportant pas, telle qu’un solo <strong>de</strong> batterie.


4.2 Répétition majeure 97<br />

(i)<br />

(ii)<br />

(iii)<br />

A B C B D C B D C E<br />

A B F F C E<br />

G F F H<br />

Fig. 4.13 – Transformation appliquée sur l’annotation représentée en (i). (ii) illustre<br />

le résultat <strong>de</strong> la première étape <strong>de</strong> transformation <strong>de</strong> la plus longue répétition annotée,<br />

puis (iii) présente le résultat après application <strong>de</strong> la secon<strong>de</strong> étape <strong>de</strong> rassemblement<br />

<strong>de</strong>s parties non modifiées.<br />

Concordance avec une structure répétitive perçue<br />

On propose à présent <strong>de</strong> comparer la répétition majeure analysée <strong>dans</strong> un morceau<br />

à sa structure perçue. La répétition majeure est définie selon un critère d’optimalité<br />

du score d’alignement local. Ainsi, <strong>les</strong> parties i<strong>de</strong>ntifiées par cette répétition<br />

sont déterminées par compromis optimal sur la longueur <strong>de</strong>s <strong>séquences</strong> comparées<br />

et sur leur ressemblance, grâce aux techniques d’alignement. Dans cette section,<br />

on souhaite comparer ce résultat à une annotation structurelle. Or, cette <strong>de</strong>rnière<br />

ne quantifie la ressemblance entre <strong>les</strong> parties structurel<strong>les</strong> i<strong>de</strong>ntifiées que <strong>dans</strong> une<br />

relation binaire : <strong>de</strong>ux parties similaires sont représentées par la même étiquette,<br />

et <strong>de</strong>ux parties non similaires sont représentées par <strong>de</strong>s étiquettes distinctes. On<br />

en déduit que si la répétition majeure correspond bien à une répétition <strong>dans</strong> l’annotation<br />

<strong>de</strong> la structure, cette <strong>de</strong>rnière ne peut être caractérisée par une longueur<br />

optimale. Dans la suite <strong>de</strong> cette section, on cherche donc à évaluer <strong>dans</strong> quelle mesure<br />

la répétition majeure i<strong>de</strong>ntifiée <strong>dans</strong> un morceau <strong>de</strong> musique correspond à la<br />

plus longue répétition <strong>de</strong> son annotation structurelle.<br />

Chaque annotation <strong>de</strong> la base Ds correspond à un certain niveau <strong>de</strong> <strong>de</strong>scription<br />

<strong>de</strong>s répétitions <strong>de</strong> chaque morceau. Dans cette annotation, la plus longue répétition<br />

n’est pas directement accessible. Afin d’obtenir la plus longue répétition annotée,<br />

on applique une transformation simple permettant <strong>de</strong> la déduire <strong>de</strong>s données disponib<strong>les</strong>.<br />

Cette transformation, inspirée du processus <strong>de</strong> roll-up défini par Chai [Cha05,<br />

p.58], est décrite par <strong>les</strong> <strong>de</strong>ux opérations successives :<br />

1. Trouver <strong>dans</strong> l’annotation la plus longue suite <strong>de</strong> parties consécutives exactement<br />

répétées, rassembler <strong>les</strong> <strong>de</strong>ux occurrences <strong>de</strong> cette répétition et leur<br />

assigner une nouvelle étiquette ;<br />

2. Rassembler toutes <strong>les</strong> parties non modifiées par l’étape 1 en un nombre minimal<br />

<strong>de</strong> nouvel<strong>les</strong> parties, et assigner à chacune d’entre el<strong>les</strong> une nouvelle<br />

étiquette.<br />

La Figure 4.13 décrit ce processus sur un exemple. À partir <strong>de</strong> l’annotation<br />

représentée en (i), <strong>les</strong> parties CBD correspondant à la plus longue répétition annotée<br />

sont rassemblées en (ii) et assignées à une nouvelle étiquette F (étape 1), puis <strong>les</strong><br />

parties restantes sont rassemblées en (iii) en un nombre minimal <strong>de</strong> parties, assignées<br />

aux nouvel<strong>les</strong> étiquettes G et H. À l’issue <strong>de</strong> cet algorithme simple, l’annotation<br />

<strong>de</strong> chaque morceau ne contient qu’une répétition correspondant à la plus longue<br />

répétition initialement renseignée.


98 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

Évaluation Rp Pp Fp Su So<br />

(i) RM Audio/RL Annotation 76.0 76.9 75.4 73.3 72.7<br />

(ii) RM Accords/RL Annotation 75.0 76.7 74.6 72.9 72.9<br />

Tab. 4.4 – Concordance <strong>de</strong>s répétitions majeures avec <strong>les</strong> plus longues répétitions<br />

annotées. Les scores (pourcentages) correspon<strong>de</strong>nt aux moyennes sur la base <strong>de</strong><br />

tests. La ligne (i) est obtenue en comparant <strong>les</strong> répétitions majeures (RM) calculées<br />

<strong>de</strong>puis l’audio et <strong>les</strong> plus longues répétitions (RL) déduites <strong>de</strong>s annotations. La ligne<br />

(ii) est obtenue en comparant <strong>les</strong> RM calculées <strong>de</strong>puis <strong>les</strong> annotations manuel<strong>les</strong> <strong>de</strong>s<br />

accords et <strong>les</strong> RL déduites <strong>de</strong>s annotations.<br />

Cette transformation est appliquée à chaque annotation <strong>de</strong> la base Ds pour<br />

former la base modifiée Ds décrivant <strong>les</strong> plus longues répétitions annotées. On remarque<br />

que cette transformation n’introduit aucune approximation ou information<br />

supplémentaire, mais consiste en une simplification <strong>de</strong>s informations annotées.<br />

L’évaluation <strong>de</strong>s répétitions majeures estimées est alors effectuée en comparant<br />

pour chaque morceau la répétition majeure obtenue <strong>de</strong>puis l’audio avec la<br />

plus longue répétition annotée. Les résultats sur la base <strong>de</strong> données sont présentés<br />

en ligne (i) du Tableau 4.4, sous forme <strong>de</strong> moyennes exprimées en pourcentages.<br />

Ceux-ci soulignent une bonne concordance <strong>de</strong>s estimations et <strong>de</strong>s annotations, avec<br />

F-mesure trame-à-trame moyenne <strong>de</strong> 75.4% pour un rappel <strong>de</strong> 76%. Comme précé<strong>de</strong>mment,<br />

l’importance et la proximité <strong>de</strong>s scores <strong>de</strong> sous- et <strong>de</strong> sur-segmentation,<br />

respectivement <strong>de</strong> 73.3% et 72.7%, témoignent <strong>de</strong> cette concordance et soulignent<br />

un résultat sur un même niveau <strong>de</strong> <strong>de</strong>scription <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong>. Afin <strong>de</strong><br />

proposer une interprétation plus précise <strong>de</strong> ces scores et <strong>de</strong> leur non maximalité,<br />

<strong>les</strong> répétitions majeures obtenues <strong>de</strong>puis <strong>les</strong> annotations d’accords sont également<br />

comparées aux plus longues répétitions annotées. Cette évaluation est présentée en<br />

ligne (ii) du Tableau 4.4. Les résultats soulignent à nouveau une bonne correspondance<br />

avec <strong>les</strong> plus longues répétitions annotés. De plus, <strong>les</strong> scores <strong>de</strong> concordance<br />

obtenus semblent particulièrement proches <strong>de</strong> ceux obtenus pour l’évaluation <strong>de</strong>s<br />

répétitions majeures calculées <strong>de</strong>puis l’audio, avec un écart <strong>de</strong> 0.8% pour la Fmesure<br />

trame-à-trame, 0.4% pour le score <strong>de</strong> sous-segmentation et 0.2% pour le<br />

score <strong>de</strong> sur-segmentation. Ce résultat indique donc que la correspondance entre la<br />

répétition majeure obtenue <strong>de</strong>puis l’audio et la plus longue répétition annotée est<br />

comparable à la celle entre la répétition majeure obtenue <strong>de</strong>puis <strong>les</strong> accords et la<br />

plus longue répétition annotée. Depuis <strong>les</strong> <strong>de</strong>ux <strong>de</strong>scriptions <strong>de</strong> l’harmonie, estimées<br />

<strong>de</strong>puis l’audio ou annotées par <strong>de</strong>s experts, la concordance semble donc importante<br />

et équivalente. Ce constat suggère que la non-maximalité <strong>de</strong>s scores obtenus est liée<br />

à un aspect <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> annotées ne pouvant être déduit <strong>de</strong> l’harmonie,<br />

et met donc en avant une limitation <strong>de</strong> la représentation tonale pour décrire<br />

<strong>les</strong> <strong>structures</strong> annotées <strong>dans</strong> Ds.<br />

La Figure 4.14 représente trois exemp<strong>les</strong> <strong>de</strong> répétitions majeures calculées sur<br />

<strong>de</strong>s morceaux du groupe The Beat<strong>les</strong> mis en correspondance avec la vérité structurelle<br />

répétitive correspondante. Dans l’exemple (i), correspondant au morceau The<br />

Night Before, la répétition i<strong>de</strong>ntifiée correspond à la plus longue répétition annotée<br />

CPC. Il convient <strong>de</strong> noter que la répétition CCP est <strong>de</strong> taille i<strong>de</strong>ntique. Dans l’exemple<br />

(ii), correspondant au morceau Fixing a Hole, <strong>les</strong> frontières <strong>de</strong> la répétition ma-


(i)<br />

(ii)<br />

(iii)<br />

4.2 Répétition majeure 99<br />

I C C P C C P C O<br />

RM RM<br />

I C C P C C P C O<br />

RM RM<br />

I R1 C C R1 C R1 R2 R2 R2 O<br />

RM RM<br />

Fig. 4.14 – Exemp<strong>les</strong> illustrant la correspondance entre l’annotation structurelle<br />

(première ligne) et la répétition majeure calculée (<strong>de</strong>uxième ligne). Les trois<br />

exemp<strong>les</strong> sont composés par The Beat<strong>les</strong> : (i) The Night Before, (ii) Fixing a Hole,<br />

(iii) Please Mister Postman. I : introduction ; O : conclusion (outro) ; C : couplet ;<br />

P : pont ; R, R1, R2 : refrain ; RM : répétition majeure.<br />

jeure ne correspon<strong>de</strong>nt pas à <strong>de</strong>s frontières <strong>dans</strong> l’annotation, bien que la répétition<br />

i<strong>de</strong>ntifiée correspon<strong>de</strong> effectivement à une répétition annotée. Enfin, l’exemple (iii)<br />

correspondant au morceau Please Mister Postman présente un exemple où la répétition<br />

majeure ne correspond pas à une répétition annotée, cette erreur étant due<br />

au fait que le motif R1 et le motif C possè<strong>de</strong>nt une information tonale très similaire.<br />

Bilan expérimental<br />

Les évaluations <strong>de</strong> l’algorithme d’i<strong>de</strong>ntification <strong>de</strong> la répétition majeure soulignent<br />

le succès <strong>de</strong> son application aux <strong>séquences</strong> <strong>de</strong> <strong>de</strong>scripteurs audio, avec une<br />

forte correspondance <strong>de</strong>s répétitions i<strong>de</strong>ntifiées <strong>de</strong>puis l’audio ou <strong>de</strong>puis <strong>de</strong>s accords<br />

annotés. De plus, la comparaison avec une annotation <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> souligne<br />

que la répétition majeure correspond à la plus longue répétition perçue, avec<br />

une précision moyenne <strong>de</strong> 76.9% et un rappel moyen <strong>de</strong> 76%. Enfin, <strong>de</strong>s résultats<br />

équivalents calculés <strong>de</strong>puis l’annotation <strong>de</strong>s accords expliquent l’efficacité non optimale<br />

<strong>de</strong> l’algorithme d’i<strong>de</strong>ntification par une possible limitation <strong>de</strong> la représentation<br />

tonale pour décrire <strong>les</strong> répétitions tel<strong>les</strong> qu’annotées <strong>dans</strong> la vérité terrain.<br />

4.2.5 Application à l’in<strong>de</strong>xation pour la recherche <strong>de</strong> reprises<br />

La section précé<strong>de</strong>nte montre que la répétition majeure correspond à une certaine<br />

perception <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> <strong>dans</strong> la musique. Dans cette section, on<br />

propose d’étudier une application pratique <strong>de</strong> cette répétition pour l’analyse du<br />

contenu musical.<br />

La répétition majeure effectue, comme défini précé<strong>de</strong>mment, un compromis entre<br />

<strong>les</strong> <strong>de</strong>ux parties <strong>les</strong> plus gran<strong>de</strong>s et <strong>les</strong> <strong>de</strong>ux parties <strong>les</strong> plus similaires <strong>dans</strong> un morceau<br />

<strong>de</strong> musique. Elle est donc prépondérante <strong>dans</strong> le morceau considéré, chacune<br />

<strong>de</strong> ses occurrences contenant une information récurrente. On propose alors d’évaluer<br />

<strong>dans</strong> quelle mesure <strong>les</strong> répétitions ainsi i<strong>de</strong>ntifiées <strong>dans</strong> <strong>de</strong>ux morceaux <strong>de</strong> musique<br />

caractérisent la similarité entre ces <strong>de</strong>ux morceaux. En d’autres termes, on souhaite


100 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

évaluer <strong>dans</strong> quelle mesure la similarité entre <strong>de</strong>ux morceaux <strong>de</strong> musique correspond<br />

à la similarité entre <strong>les</strong> répétitions majeures <strong>de</strong> ces morceaux.<br />

Comme expliqué <strong>dans</strong> le chapitre précé<strong>de</strong>nt, l’étu<strong>de</strong> <strong>de</strong> la similarité peut être<br />

efficacement évaluée <strong>dans</strong> le cadre applicatif <strong>de</strong> l’i<strong>de</strong>ntification <strong>de</strong> reprises. Dans<br />

cette section, nous étudions donc une application <strong>de</strong> la répétition majeure comme<br />

in<strong>de</strong>xation du système <strong>de</strong> détection <strong>de</strong> reprises décrit en Section 3.2.1. Les résultats<br />

préliminaires <strong>de</strong> cette étu<strong>de</strong> ont été publiés <strong>dans</strong> <strong>les</strong> actes <strong>de</strong> la conférence Special<br />

Interest Group on Information Retrieval [MHRF11b].<br />

4.2.5.1 Principe<br />

Une étu<strong>de</strong> présentée en Section 3.3 décrit une métho<strong>de</strong> heuristique permettant<br />

d’accélérer la technique d’alignement en conservant une précision raisonnable <strong>de</strong> la<br />

détection <strong>de</strong>s reprises. Dans cette section, nous proposons une approche différente<br />

permettant d’accélérer ce calcul en utilisant la répétition majeure.<br />

Gómez et al. montrent en 2006 [GOH06] que réduire l’alignement à <strong>de</strong>s extraits<br />

<strong>de</strong> morceaux <strong>de</strong> musique permet <strong>de</strong> conserver une détection précise <strong>de</strong>s reprises.<br />

Plus précisément, leur approche consiste à extraire par une métho<strong>de</strong> adaptée <strong>de</strong><br />

Goto [Got03] <strong>de</strong>ux répétitions prépondérantes d’une longueur fixée <strong>dans</strong> chaque<br />

morceau, puis à comparer ceux-ci pour la recherche <strong>de</strong> reprises. Les auteurs rapportent<br />

alors [GOH06] <strong>de</strong>s résultats d’une précision équivalente pour la détection<br />

<strong>de</strong>s reprises sur une durée <strong>de</strong> segment fixée à environ 25 secon<strong>de</strong>s, et d’une précision<br />

accrue <strong>dans</strong> le cas d’une sélection manuelle <strong>de</strong>s segments.<br />

À l’image du travail <strong>de</strong> Gómez et al., nous proposons <strong>dans</strong> cette section <strong>de</strong><br />

compresser la représentation <strong>de</strong>s morceaux comparés en ne prenant en compte qu’un<br />

extrait, leur répétition majeure. Notre principale contribution par rapport à cette<br />

étu<strong>de</strong> consiste à ne pas fixer <strong>de</strong> durée d’in<strong>de</strong>xation, celle-ci étant déterminée par<br />

la répétition majeure. Au vu <strong>de</strong> la gran<strong>de</strong> variété <strong>de</strong> reprises utilisées, il semble en<br />

effet pertinent <strong>de</strong> considérer que la durée <strong>de</strong>s segments similaires <strong>dans</strong> <strong>les</strong> reprises ne<br />

reste pas constante pour chaque classe. Par exemple, la classe <strong>de</strong> reprises The Pink<br />

Panther compte <strong>de</strong> nombreuses réinterprétations jouées par différents orchestres<br />

et proches <strong>de</strong> la version canonique, où le thème est répété <strong>de</strong> nombreuses fois ;<br />

en revanche, elle se compose également d’improvisations jazz et <strong>de</strong> remix qui se<br />

contentent <strong>de</strong> seulement une ou <strong>de</strong>ux répétitions du thème musical d’origine.<br />

Soient u et v <strong>de</strong>ux <strong>séquences</strong> <strong>de</strong> chromas <strong>de</strong> tail<strong>les</strong> respectives n et m représentant<br />

<strong>de</strong>ux morceaux <strong>de</strong> musique distincts. Comme expliqué en Section 3.2.1, le<br />

système <strong>de</strong> détection <strong>de</strong> reprises estime la similarité entre u et v à partir du score<br />

d’alignement :<br />

sim(u,v) = s ∗ γ(u,v). (32)<br />

Le nombre <strong>de</strong> cases <strong>de</strong> programmation dynamique à calculer correspond alors au<br />

produit <strong>de</strong>s tail<strong>les</strong> <strong>de</strong>s <strong>séquences</strong> u et v.<br />

L’in<strong>de</strong>xation <strong>de</strong>s données par leur répétition majeure consiste à calculer la similarité<br />

tonale entre <strong>les</strong> <strong>de</strong>ux <strong>séquences</strong> u et v comme le score :<br />

sim MR (u,v) = s ∗ γ(u ⊛ 1 ,v⊛ 1<br />

), (33)<br />

où u ⊛ 1 et v⊛ 1 correspon<strong>de</strong>nt aux premières occurrences <strong>de</strong>s répétitions majeures respectives<br />

<strong>de</strong> u et v. Le nombre <strong>de</strong> cases <strong>de</strong> programmation dynamique intervenant<br />

<strong>dans</strong> ce calcul correspond au produit <strong>de</strong>s tail<strong>les</strong> <strong>de</strong>s répétitions majeures, inférieur


102 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

R-précision (%)<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

A B C D E F G<br />

Fig. 4.16 – Distribution <strong>de</strong>s R-précisions avec différentes in<strong>de</strong>xations calculées pour<br />

chaque classe <strong>de</strong> versions. Les lettres en abscisse désignent la classe considérée (voir<br />

Tableau 3.2). Noir : aucune in<strong>de</strong>xation, gris : in<strong>de</strong>xation par la répétition majeure,<br />

blanc : <strong>de</strong> gauche à droite, in<strong>de</strong>xations par <strong>les</strong> métho<strong>de</strong>s arbitraires I1, I2 et I3.<br />

<strong>séquences</strong> u et v est finalement estimée à partir <strong>de</strong>s scores d’alignement :<br />

simI1 (u,v) = s∗ (u[1 . . . m],v[1 . . . m]) pour la métho<strong>de</strong> I1 ;<br />

simI2 (u,v) = s∗ (u[1 . . . mi],v[1 . . . mj]) pour la métho<strong>de</strong> I2 ;<br />

simI3 (u,v) = s∗ (u[ ni ni<br />

nj nj<br />

2 . . . 2 + mi],v[ 2 . . . 2 + mj]) pour la métho<strong>de</strong> I3<br />

, (34)<br />

où i correspond à l’indice <strong>dans</strong> D du morceau représenté par u, et j correspond à<br />

l’indice <strong>dans</strong> D du morceau représenté par v.<br />

Précision<br />

La précision <strong>de</strong> la métho<strong>de</strong> d’in<strong>de</strong>xation est d’abord évaluée sur la base <strong>de</strong> test<br />

composée uniquement <strong>de</strong> versions. Le protocole d’évaluation du système <strong>de</strong> détection<br />

<strong>de</strong>s reprises est i<strong>de</strong>ntique à celui présenté en Section 3.2.1. Pour chaque classe<br />

composée <strong>de</strong> N versions, on calcule le taux <strong>de</strong> R-précision, décrit en Section 3.2.2<br />

et correspondant à la précision du système pour <strong>les</strong> N morceaux <strong>les</strong> plus similaires.<br />

On rappelle que <strong>dans</strong> ce cas la R-précision correspond à la fois au taux <strong>de</strong> précision<br />

et au taux <strong>de</strong> rappel du système [MRS08].<br />

La ligne (i) du Tableau 4.5 présente <strong>les</strong> valeurs <strong>de</strong> R-précision obtenues en<br />

moyenne sur toutes <strong>les</strong> classes <strong>de</strong> versions. La précision du système avec in<strong>de</strong>xation<br />

par la répétition majeure est <strong>de</strong> 75.7%, soit un score inférieur <strong>de</strong> 3.5% en moyenne<br />

par rapport au système non in<strong>de</strong>xé. Les in<strong>de</strong>xations arbitraires produisent <strong>de</strong>s scores<br />

Aucune RM I1 I2 I3<br />

(i) Versions 79.2 75.7 57.7 57.1 59.0<br />

(ii) Reprises 53.3 48.0 32.1 31.1 30.1<br />

(iii) Calcul similarité 324 min 41 min 41 min 41 min 41 min<br />

(iv) Calcul in<strong>de</strong>xation - 23 min - - -<br />

Tab. 4.5 – Valeurs <strong>de</strong> R-précisions moyennes obtenues (pourcentages) et temps<br />

moyen <strong>de</strong> calcul requis par classe pour chaque métho<strong>de</strong> d’in<strong>de</strong>xation : aucune in<strong>de</strong>xation<br />

(“Aucune”), in<strong>de</strong>xation par la répétition majeure (“MR”), et in<strong>de</strong>xations<br />

arbitraires 1 à 3 (“I1”, “I2” et “I3”).


4.2 Répétition majeure 103<br />

plus faib<strong>les</strong>, compris entre 57.1% et 59%. Le détail <strong>de</strong> la distribution <strong>de</strong>s scores pour<br />

chaque classe est représenté en Figure 4.16 (pour rappel, la liste <strong>de</strong>s classes figure<br />

<strong>dans</strong> le Tableau 3.2). On constate que pour chacune <strong>de</strong>s classes, <strong>les</strong> in<strong>de</strong>xations<br />

arbitraires (en blanc) diminuent la précision du système d’i<strong>de</strong>ntification <strong>de</strong>s versions<br />

non in<strong>de</strong>xé (en noir) <strong>de</strong> 5 à 25%, et s’avèrent toujours moins efficaces qu’une<br />

in<strong>de</strong>xation par la répétition majeure (en gris). Par exemple, pour la classe C (The<br />

House of the Rising Sun), in<strong>de</strong>xer par la répétition majeure diminue légèrement la<br />

précision du système d’i<strong>de</strong>ntification non in<strong>de</strong>xé, avec une précision <strong>de</strong> 88% pour un<br />

système in<strong>de</strong>xé et 93.8% sans in<strong>de</strong>xation ; en revanche, nos in<strong>de</strong>xations arbitraires<br />

affichent <strong>de</strong>s scores sensiblement plus faib<strong>les</strong>, avec <strong>de</strong>s précisions respectives <strong>de</strong> 63,<br />

56 et 63% en moyenne pour I1, I2 et I3. Ces résultats suggèrent que la répétition<br />

majeure semble plus pertinente pour in<strong>de</strong>xer un système d’i<strong>de</strong>ntification <strong>de</strong> versions<br />

qu’une métho<strong>de</strong> arbitraire. On remarque néanmoins que, bien que la technique d’in<strong>de</strong>xation<br />

proposée semble discriminante, la suppression d’information engendre une<br />

diminution <strong>de</strong> la précision globale du système.<br />

L’in<strong>de</strong>xation est ensuite effectuée sur la base <strong>de</strong> tests composée <strong>de</strong> reprises au<br />

sens large. La ligne (ii) du Tableau 4.5 présente <strong>les</strong> valeurs <strong>de</strong> R-précision obtenues<br />

en moyenne sur toutes <strong>les</strong> classes <strong>de</strong> reprises. La reprise est une généralisation <strong>de</strong> la<br />

notion <strong>de</strong> version à tout rendu sonore <strong>de</strong> la même pièce ; en conséquence, la tâche<br />

<strong>de</strong>s systèmes d’i<strong>de</strong>ntification s’avère plus complexe et <strong>les</strong> scores sont plus faib<strong>les</strong> que<br />

<strong>dans</strong> le cas <strong>de</strong>s versions, avec une précision <strong>de</strong> 53.3% pour le système non in<strong>de</strong>xé.<br />

Cependant, le score <strong>de</strong> précision <strong>de</strong> l’in<strong>de</strong>xation par la répétition majeure est à nouveau<br />

sensiblement supérieur à celui <strong>de</strong>s in<strong>de</strong>xations arbitraires, avec un taux <strong>de</strong> 48%<br />

pour la métho<strong>de</strong> proposée contre 32.1% pour la plus performante <strong>de</strong>s in<strong>de</strong>xations<br />

arbitraires. La distribution <strong>de</strong>s scores pour chaque classe <strong>de</strong> reprises, représentée en<br />

Figure 4.17, conduit à nouveau au constat <strong>de</strong> précision systématiquement accrue <strong>de</strong><br />

l’in<strong>de</strong>xation proposée par rapport aux in<strong>de</strong>xations arbitraires, avec un taux entre 1<br />

et 11% supérieur.<br />

Afin <strong>de</strong> qualifier la signification statistique <strong>de</strong> la ressemblance entre <strong>les</strong> scores<br />

<strong>de</strong> précision <strong>de</strong>s différentes in<strong>de</strong>xations effectuées, un test t <strong>de</strong> Stu<strong>de</strong>nt [Ric06] est<br />

calculé avec pour paramètre α = 5%. Sur l’ensemble <strong>de</strong> la base <strong>de</strong> données <strong>de</strong> test<br />

<strong>de</strong>s reprises, on peut conclure <strong>de</strong> ce test statistique <strong>les</strong> assertions suivantes :<br />

– Il existe une différence significative entre <strong>les</strong> scores obtenus sans in<strong>de</strong>xation<br />

et <strong>les</strong> scores obtenus avec une in<strong>de</strong>xation arbitraire I1, I2 ou I3 (p < 0.0005<br />

<strong>dans</strong> chaque cas) ;<br />

– Il n’existe pas <strong>de</strong> différence significative entre <strong>les</strong> scores obtenus sans in<strong>de</strong>xation<br />

et avec l’in<strong>de</strong>xation par la répétition majeure.<br />

Efficacité calculatoire<br />

La durée moyenne <strong>de</strong>s morceaux <strong>de</strong> la base <strong>de</strong> données complète D est <strong>de</strong> n = 210s.<br />

Les parties in<strong>de</strong>xées par calcul <strong>de</strong> la répétition majeure ont une durée moyenne<br />

<strong>de</strong> m = 69s sur D. Le gain moyen <strong>de</strong> l’in<strong>de</strong>xation sur la longueur <strong>de</strong>s <strong>séquences</strong><br />

représentatives est d’environ k = 3.26 1 . Or, comme expliqué précé<strong>de</strong>mment, la<br />

comparaison <strong>de</strong> <strong>de</strong>ux <strong>séquences</strong> u et v requiert un nombre d’opérations <strong>de</strong> l’ordre<br />

<strong>de</strong> |u| × |v|. Par conséquent, la tâche d’i<strong>de</strong>ntification <strong>de</strong>s reprises doit impliquer un<br />

1. Pour rappel, cette valeur ne correspond pas au gain <strong>de</strong> la moyenne <strong>de</strong>s durées mais à la<br />

moyenne <strong>de</strong>s gains.


104 Chapitre 4 : I<strong>de</strong>ntification <strong>de</strong> répétitions musica<strong>les</strong><br />

R-précision (%)<br />

R-précision (%)<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

A B C D E F G H I<br />

J K L M N O P Q<br />

Fig. 4.17 – Distribution <strong>de</strong>s R-précisions avec différentes in<strong>de</strong>xations calculées pour<br />

chaque classe <strong>de</strong> reprises. Les lettres en abscisse désignent la classe considérée (voir<br />

Tableau 3.2). Noir : aucune in<strong>de</strong>xation, gris : in<strong>de</strong>xation par la répétition majeure,<br />

blanc : <strong>de</strong> gauche à droite, in<strong>de</strong>xations par <strong>les</strong> métho<strong>de</strong>s arbitraires I1, I2 et I3.<br />

gain <strong>de</strong> l’ordre <strong>de</strong> k 2 , soit d’environ 8.58 1 <strong>dans</strong> notre cas.<br />

Les expériences présentées <strong>dans</strong> cette section nécessitent sur notre configuration<br />

matérielle 2 un temps <strong>de</strong> calcul <strong>de</strong> 5 heures et 45 minutes, en moyenne, pour chaque<br />

classe <strong>de</strong> reprises et sans in<strong>de</strong>xation. Le temps nécessaire à la même évaluation avec<br />

<strong>de</strong>s données in<strong>de</strong>xées par la répétition majeure est <strong>de</strong> 41 minutes en moyenne pour<br />

chaque classe <strong>de</strong> reprises. En d’autres termes, grâce à l’étape d’in<strong>de</strong>xation, le temps<br />

<strong>de</strong> calcul pratique est divisé par 8.4, soit d’un facteur proche <strong>de</strong> celui escompté. Les<br />

tâches d’in<strong>de</strong>xation I1, I2 et I3 réduisant la quantité d’information <strong>dans</strong> le même<br />

rapport, leur utilisation <strong>dans</strong> un système <strong>de</strong> détection <strong>de</strong>s reprises engendre un<br />

temps d’exécution i<strong>de</strong>ntique.<br />

La durée totale <strong>de</strong> la tâche d’i<strong>de</strong>ntification <strong>de</strong>s reprises inclut le temps nécessaire<br />

à l’in<strong>de</strong>xation <strong>de</strong>s données. Le calcul <strong>de</strong>s répétitions majeures nécessite un temps<br />

<strong>de</strong> 23 minutes avec notre configuration. Par conséquent, la durée totale d’exécution<br />

du système est réduite d’un facteur 5.4 grâce à l’in<strong>de</strong>xation proposée, avec une<br />

exécution par classe <strong>de</strong> 345 minutes sans in<strong>de</strong>xation et <strong>de</strong> 64 minutes avec in<strong>de</strong>xation<br />

par la répétition majeure.<br />

Bilan expérimental<br />

L’évaluation présentée <strong>dans</strong> cette section souligne la pertinence <strong>de</strong> la répétition<br />

majeure pour in<strong>de</strong>xer <strong>les</strong> <strong>séquences</strong> musica<strong>les</strong> d’un système d’i<strong>de</strong>ntification <strong>de</strong>s<br />

reprises. Une telle in<strong>de</strong>xation permet <strong>de</strong> conserver une précision <strong>de</strong> la détection<br />

statistiquement proche <strong>de</strong> celle obtenue sans aucune in<strong>de</strong>xation, avec une perte<br />

moyenne sur la précision globale du système <strong>de</strong> 3.5% pour <strong>les</strong> versions et 5.3% pour<br />

1. Cette valeur correspondant à la moyenne <strong>de</strong>s carrés <strong>de</strong>s gains<br />

2. Spécifications : Processeur Intel Core i5 750 2.66 GHz, Mémoire 4Go


4.3 Conclusion du chapitre 105<br />

<strong>les</strong> reprises. Cependant, cette technique permet <strong>de</strong> réduire sensiblement le temps <strong>de</strong><br />

calcul requis, avec un facteur constaté <strong>de</strong> 8.4 fois plus rapi<strong>de</strong> sans compter l’étape<br />

d’in<strong>de</strong>xation, et 5.4 fois plus rapi<strong>de</strong> en comptant cette étape.<br />

4.3 Conclusion du chapitre<br />

Dans ce chapitre, nous avons décrit l’étu<strong>de</strong> <strong>de</strong> plusieurs <strong>structures</strong> <strong>répétitives</strong><br />

simp<strong>les</strong> <strong>dans</strong> un morceau <strong>de</strong> musique.<br />

En choisissant un segment <strong>dans</strong> un morceau <strong>de</strong> musique, nous avons proposé un<br />

algorithme permettant d’i<strong>de</strong>ntifier une répétition significative <strong>de</strong> ce segment. Cet<br />

algorithme est construit <strong>dans</strong> le cadre applicatif <strong>de</strong> la reconstruction <strong>de</strong> données<br />

audio manquantes, et évalué par <strong>de</strong>s tests subjectifs. Les résultats mettent en valeur<br />

la précision et la pertinence musicale <strong>de</strong> la répétition i<strong>de</strong>ntifiée.<br />

En relâchant la contrainte <strong>de</strong> choix d’un segment pour l’étu<strong>de</strong> <strong>de</strong> la répétitivité<br />

<strong>dans</strong> un morceau, nous avons défini la répétition majeure comme une répétition optimale<br />

d’un morceau sur un critère lié à la similarité et à la longueur <strong>de</strong>s segments<br />

i<strong>de</strong>ntifiés. Un algorithme d’extraction <strong>de</strong> cette répétition a été proposé, puis une<br />

comparaison avec <strong>de</strong>s annotations manuel<strong>les</strong> <strong>de</strong> la structure répétitive a permis <strong>de</strong><br />

montrer la concordance <strong>de</strong> la répétition majeure avec la structure perçue. Enfin,<br />

une utilisation concrète <strong>de</strong> cette répétition a été proposée <strong>dans</strong> un but d’i<strong>de</strong>ntification<br />

automatique <strong>de</strong>s reprises. L’évaluation <strong>de</strong> cette <strong>de</strong>rnière a mis en avant la<br />

conservation d’une bonne précision du système d’i<strong>de</strong>ntification grâce à l’in<strong>de</strong>xation<br />

proposée, qui permet également d’accélérer la recherche <strong>de</strong>s reprises <strong>dans</strong> une base<br />

<strong>de</strong> données.<br />

Ce chapitre constitue une première approche <strong>de</strong> l’étu<strong>de</strong> <strong>de</strong> l’inférence <strong>de</strong> la<br />

structuration répétitive <strong>de</strong>s morceaux <strong>de</strong> musique. Ainsi, il convient <strong>de</strong> noter que<br />

<strong>de</strong> nombreuses autres <strong>structures</strong> <strong>répétitives</strong> simp<strong>les</strong> et pourvues d’une signification<br />

musicale forte pourraient être étudiées. En particulier, on pourrait relâcher<br />

la contrainte <strong>de</strong> disjonction afin <strong>de</strong> prendre en compte un plus large ensemble <strong>de</strong><br />

formes musica<strong>les</strong>.<br />

Plus généralement, <strong>les</strong> solutions aux problèmes applicatifs posés <strong>dans</strong> ce chapitre<br />

sont susceptib<strong>les</strong> d’être améliorées en combinant un ensemble <strong>de</strong> quelques<br />

<strong>structures</strong> <strong>répétitives</strong> simp<strong>les</strong>. Par exemple, <strong>dans</strong> le cas <strong>de</strong> la reconstruction audio,<br />

une première étu<strong>de</strong> [BJM12] montre que la prise en compte <strong>de</strong> plusieurs répétitions<br />

combinées permet d’optimiser la similarité du segment reconstitué. Dans le cas <strong>de</strong><br />

l’in<strong>de</strong>xation par la répétition majeure, <strong>de</strong>s tests préliminaires suggèrent également<br />

une plus gran<strong>de</strong> précision du système d’i<strong>de</strong>ntification <strong>de</strong>s reprises en représentant<br />

chaque morceau par un ensemble <strong>de</strong> répétitions. Le problème <strong>de</strong> combiner plusieurs<br />

répétitions simp<strong>les</strong> pour former une structuration plus complète <strong>de</strong>s morceaux <strong>de</strong><br />

musique constitue l’objet du Chapitre 5.


Chapitre 5<br />

Inférence <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong><br />

La musique se compose <strong>de</strong> nombreuses répétitions à différentes échel<strong>les</strong> temporel<strong>les</strong><br />

et sur différentes caractéristiques musica<strong>les</strong>. Dans ce chapitre, nous étudions<br />

le problème <strong>de</strong> l’i<strong>de</strong>ntification d’un ensemble <strong>de</strong> répétitions qui structurent <strong>les</strong> morceaux<br />

<strong>de</strong> musique occi<strong>de</strong>ntale.<br />

Si l’ensemble <strong>de</strong>s travaux d’analyse <strong>de</strong> la structure en musique s’accor<strong>de</strong>nt sur<br />

son utilité <strong>dans</strong> le cadre <strong>de</strong> nombreux champs d’application [PMK10], la définition<br />

du problème d’inférence structurelle n’est pas universelle [PD09]. L’organisation <strong>de</strong><br />

multip<strong>les</strong> répétitions <strong>dans</strong> un morceau <strong>de</strong> musique forme en effet une structuration<br />

complexe, dont l’analyse a été abordée avec différents objectifs [Pau10].<br />

Dans la suite <strong>de</strong> ce chapitre, nous introduisons la problématique d’analyse <strong>de</strong> la<br />

structure musicale en Section 5.1 en passant en revue <strong>les</strong> travaux existants. Face à <strong>de</strong><br />

nombreuses limitations et difficultés <strong>de</strong> représentation, nous présentons ensuite en<br />

Section 5.2 notre propre formalisation du problème sous la forme d’une structuration<br />

hiérarchique en nous basant sur le bien-fondé d’une telle <strong>de</strong>scription d’un point<br />

<strong>de</strong> vue musical. En Section 5.3, nous décrivons notre algorithme et <strong>les</strong> propriétés<br />

<strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> qu’il i<strong>de</strong>ntifie. Nous détaillons alors une évaluation <strong>de</strong>s<br />

résultats d’inférence obtenus en Section 5.3.4 sur <strong>de</strong>s données musica<strong>les</strong>.<br />

5.1 Segmentation structurelle<br />

De nombreuses approches pour l’inférence <strong>de</strong> la structuration répétitive <strong>de</strong> la<br />

musique <strong>de</strong>puis le signal audio ont été proposées ces <strong>de</strong>rnières années sous le terme<br />

d’algorithmes <strong>de</strong> segmentation structurelle. La formalisation précise et l’i<strong>de</strong>ntification<br />

<strong>de</strong> la structuration musicale reste un problème ouvert dont la résolution constitue<br />

un enjeu majeur <strong>de</strong> la recherche d’informations musica<strong>les</strong> [Mül11]. Dans cette<br />

section, nous décrivons <strong>les</strong> différentes approches existantes en détaillant leur représentation<br />

<strong>de</strong> la structuration musicale. Le Tableau 5.1 liste <strong>les</strong> principaux travaux<br />

antérieurs pour l’analyse <strong>de</strong> la structure répétitive à partir <strong>de</strong> données audio.<br />

5.1.1 Matrice d’auto-distance<br />

Foote introduit en 1999 [Foo99] un outil <strong>de</strong> représentation <strong>de</strong>s répétitions au sein<br />

d’un morceau : la matrice d’auto-distance 1 pour l’analyse <strong>de</strong> la musique. Construite<br />

1. L’expression auto-similarité est fréquemment employée pour désigner ce type <strong>de</strong> matrices.<br />

Cependant, ce terme fait référence à un concept mathématique bien connu et désigne un concept<br />

différent [Man83]. Pour éviter toute ambiguïté <strong>dans</strong> ce document, le terme d’auto-distance est<br />

préféré. Notez que même si la matrice d’auto-distance présente probablement certaines propriétés<br />

d’auto-similarité au sens <strong>de</strong> Man<strong>de</strong>lbrot, cel<strong>les</strong>-ci n’ont pas été étudiées.


108 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

<br />

<br />

<br />

<br />

Temps<br />

Temps Temps<br />

(i) (ii) (iii)<br />

Fig. 5.1 – Illustration <strong>de</strong> la matrice d’auto-distance. (i) : Principe d’obtention, (ii) :<br />

Exemple sur le morceau The Show Must Go On du groupe Queen, (iii) Détail d’un<br />

motif répété.<br />

à partir d’une séquence u[1]u[2] . . . u[n], chaque coefficient (i,j) <strong>de</strong> cette matrice représente<br />

la distance d(u[i],u[j]) entre <strong>les</strong> symbo<strong>les</strong> u[i] et u[j] <strong>de</strong> cette séquence. Une<br />

telle représentation <strong>de</strong> l’auto-distance est utilisée <strong>dans</strong> <strong>de</strong> nombreux domaines applicatifs,<br />

et peut être vue comme un cas particulier <strong>de</strong>s graphes <strong>de</strong> récurrence [EKR87].<br />

Les plus anciennes références à l’auto-distance pour l’analyse <strong>de</strong> répétitions apparaissent<br />

<strong>dans</strong> la littérature bio-informatique [Lab], la matrice étant utilisée pour<br />

mettre en valeur différents aspects structurels <strong>de</strong>s <strong>séquences</strong> moléculaires [ML81].<br />

La Figure 5.1-(i) décrit le principe <strong>de</strong> calcul <strong>de</strong> cette matrice à partir d’une<br />

séquence : on calcule pour chaque couple <strong>de</strong> symbo<strong>les</strong> <strong>de</strong> u une distance, représentée<br />

sur une échelle <strong>de</strong> niveaux <strong>de</strong> gris <strong>dans</strong> la matrice. Celle-ci représente <strong>les</strong> distances <strong>les</strong><br />

plus élevées par une couleur blanche, et <strong>les</strong> distances <strong>les</strong> plus faib<strong>les</strong> par une couleur<br />

noire. L’illustration 5.1-(ii) montre un exemple d’une telle matrice calculée à partir<br />

d’une représentation tonale du morceau The show must go on du groupe Queen.<br />

Les <strong>structures</strong> <strong>répétitives</strong> apparaissent sous la forme <strong>de</strong> motifs récurrents <strong>dans</strong> la<br />

matrice. La Figure 5.1-(iii) montre un détail <strong>de</strong> la figure précé<strong>de</strong>nte correspondant<br />

à un exemple <strong>de</strong> motif récurrent <strong>dans</strong> la matrice d’auto-distance.<br />

Une gran<strong>de</strong> partie <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> la littérature (voir colonne 3 du Tableau 5.1)<br />

déduisent <strong>les</strong> <strong>structures</strong> <strong>répétitives</strong> <strong>de</strong> morceaux <strong>de</strong> musique en analysant cette<br />

matrice d’auto-distance. Deux motifs en particulier sont pertinents pour l’analyse<br />

<strong>de</strong> la répétition [Foo99]:<br />

– D’une part, <strong>les</strong> lignes <strong>de</strong> coefficients faib<strong>les</strong> représentent la ressemblance entre<br />

<strong>de</strong>ux facteurs ;<br />

– D’autre part, <strong>les</strong> blocs <strong>de</strong> coefficients faib<strong>les</strong> représentent la ressemblance entre<br />

<strong>de</strong>ux facteurs, chacun d’eux étant <strong>de</strong> plus composé <strong>de</strong> symbo<strong>les</strong> se ressemblant<br />

entre eux.<br />

La matrice d’auto-distance est parfois transformée en une structure <strong>de</strong> données<br />

équivalente, appelée représentation temps-retard [Got03, Got06, LWZ04a, BW05,<br />

LWZ04a, Ong07], qui correspond à une déformation <strong>de</strong> la matrice rendant plus<br />

facilement i<strong>de</strong>ntifiab<strong>les</strong> <strong>les</strong> lignes diagona<strong>les</strong> caractéristiques <strong>de</strong> cel<strong>les</strong>-ci, mais moins<br />

facilement i<strong>de</strong>ntifiab<strong>les</strong> ses blocs [Pau10].<br />

Les motifs <strong>de</strong> la matrice d’auto-distance peuvent être extraits par différentes<br />

Temps


5.1 Segmentation structurelle 109<br />

techniques. Cependant, puisque chaque coefficient <strong>de</strong> la matrice représente une<br />

valeur <strong>de</strong> similarité calculée entre <strong>de</strong>ux trames <strong>de</strong> signal, seule une information<br />

correspondant au niveau <strong>de</strong> la structuration <strong>de</strong>s trames peut directement être déduite<br />

<strong>de</strong> celle-ci. En d’autres termes, la matrice peut être vue comme une représentation<br />

bas niveau <strong>de</strong> l’information structurelle. Les métho<strong>de</strong>s d’i<strong>de</strong>ntification <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong> <strong>de</strong> plus haut niveau hiérarchique doivent alors utiliser <strong>de</strong>s<br />

techniques adaptées à la détection <strong>de</strong> motifs approchés <strong>dans</strong> cette matrice afin<br />

d’assurer une robustesse aux variations musica<strong>les</strong>. Une approche consiste à utiliser<br />

<strong>de</strong>s techniques <strong>de</strong> traitement d’images afin d’effacer <strong>les</strong> variations à court<br />

terme <strong>de</strong>s éléments <strong>de</strong> la matrice, et ainsi d’adapter la détection au niveau <strong>de</strong><br />

répétitions souhaité [MK07, CF04]. Des métho<strong>de</strong>s adaptées à la segmentation approchée<br />

d’images sont également utilisées afin d’i<strong>de</strong>ntifier directement <strong>de</strong>s motifs<br />

récurrents [AS02, ET07, Ong07, WCB10, KAS11]. Les <strong>structures</strong> <strong>répétitives</strong><br />

peuvent en outre être repérées à l’ai<strong>de</strong> d’heuristiques sur leur disposition <strong>dans</strong><br />

la matrice [Mar06, Pee07, WH03] ou <strong>dans</strong> la représentation temps-retard équivalente<br />

[Got06, BW05, LWZ04a, Pee04]. En particulier, <strong>de</strong>s relations <strong>de</strong> transitivité<br />

sur <strong>les</strong> répétitions permettent d’assurer une cohérence <strong>de</strong>s éléments structurels<br />

i<strong>de</strong>ntifiés [Pee07, Cha05]. Par ailleurs, plusieurs étu<strong>de</strong>s i<strong>de</strong>ntifient un ensemble<br />

<strong>de</strong> motifs récurrents en optimisant <strong>de</strong>s algorithmes <strong>de</strong> parcours <strong>dans</strong> la<br />

matrice [DH02, MK07, Jen07] ou <strong>de</strong>s critères <strong>de</strong> chevauchement <strong>de</strong>s répétitions<br />

i<strong>de</strong>ntifiées [MND09]. Enfin, une autre approche consiste à définir <strong>de</strong>s variantes <strong>de</strong><br />

la matrice d’auto-distance qui permettent notamment <strong>de</strong> préciser <strong>les</strong> frontières <strong>de</strong>s<br />

répétitions i<strong>de</strong>ntifiées [WCL09, TLX + 09].<br />

5.1.2 Détection <strong>de</strong>s <strong>structures</strong><br />

De nombreuses métho<strong>de</strong>s sont proposées <strong>dans</strong> la littérature pour la détection <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong>, cette matrice d’auto-distance étant directement utilisée <strong>dans</strong><br />

une majorité d’entre el<strong>les</strong>. D’une manière générale, <strong>les</strong> métho<strong>de</strong>s existantes peuvent<br />

être regroupées en fonction <strong>de</strong>s outils utilisés et <strong>de</strong> la logique <strong>de</strong> l’analyse qu’el<strong>les</strong><br />

proposent. En particulier, une catégorisation proposée par Peeters [Pee04] divise<br />

ces métho<strong>de</strong>s en <strong>de</strong>ux gran<strong>de</strong>s approches : l’approche état et l’approche séquence.<br />

5.1.2.1 Approche état<br />

L’approche état considère un morceau <strong>de</strong> musique comme généré par un automate<br />

d’états finis, chaque état produisant une section du signal [Pee04]. Les <strong>structures</strong><br />

i<strong>de</strong>ntifiées correspon<strong>de</strong>nt alors à <strong>de</strong>s segments au contenu acoustique homogène,<br />

pouvant être vus comme <strong>de</strong>s blocs <strong>dans</strong> la matrice d’auto-distance [PMK10].<br />

Cette approche se décompose généralement en <strong>de</strong>ux étapes complémentaires pour<br />

l’analyse <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> :<br />

1. Une étape <strong>de</strong> segmentation du morceau, consacrée à l’i<strong>de</strong>ntification <strong>de</strong>s instants<br />

<strong>de</strong> contrastes importants <strong>dans</strong> le contenu musical ;<br />

2. Une étape <strong>de</strong> regroupement, où tout ou partie <strong>de</strong>s segments i<strong>de</strong>ntifiés sont<br />

regroupés en classes homogènes en fonction <strong>de</strong> la distribution <strong>de</strong> leurs <strong>de</strong>scripteurs.<br />

L’étape <strong>de</strong> segmentation peut être réalisée sur un morceau <strong>de</strong> musique en analysant<br />

l’évolution <strong>de</strong> la nouveauté audio [Foo00] du morceau. Cette information est déduite<br />

<strong>de</strong> la matrice d’auto-distance M en calculant pour chaque <strong>de</strong>scripteur audio


Tab. 5.1 – Vue d’ensemble <strong>de</strong>s métho<strong>de</strong>s d’analyse <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>. 1Modèle <strong>de</strong> Markov caché [Rab89]. 2Modèle <strong>de</strong> texture dynamique<br />

[BCL10]. 3Factorisation en matrices non-négatives [SL01].<br />

110 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

Abdallah et al. 2005 [ANS + 05] État Non Non 1 HMM 1<br />

Aucouturier et Sandler 2002 [AS02] Séquence Oui Oui 1 Image<br />

Aucouturier et al. 2005 [APS05] État Non Non 1 HMM 1<br />

Barrington et al. 2010 [BCL10] État Non Non 2 DTM 2<br />

Bartsch et Wakefield 2005 [BW05] Séquence Oui Non 1 Heuristiques<br />

Chai 2003 [Cha03] Séquence Non Non 1 Pattern matching<br />

Chen et Li 2011 [CL11] État Non Non 2 Clustering, NMF 3 2011<br />

Cooper et Foote 2004 [CF04] État Oui Non 1 Image<br />

Dannenberg et Hu 2002 [DH02] Séquence Non Non 1 Algorithmique du texte<br />

Eronen et Tampere 2007 [ET07] Séquence Oui Non 2 Image<br />

Foote 2000 [Foo00] État Oui Non 1 Nouveauté<br />

Goto 2006 [Got06] Séquence Oui Non 1 Heuristiques<br />

Jehan 2005 [Jeh05a] État Oui Oui 3 Matrices hiérarchiques<br />

Jensen 2007 [Jen07] État Oui Non 3 Chemin matrice<br />

Kaiser et Sikora 2010 [KS10] État Oui Non 2 NMF 3<br />

Levy et Sandler 2008 [LS08] État Non Non 1 Clustering, HMM 1<br />

Logan et Chu 2000 [LC00] État Non Non 1 Clustering, HMM 1<br />

Lu et al. 2004 [LWZ04a] Séquence Oui Non 1 Image, heuristiques<br />

Maddage et al. 2006 [MXK06] État Non Non 1 Heuristiques<br />

Marolt 2006 [Mar06] Séquence Oui Non 1 Heuristiques<br />

Mauch et al. 2009 [MND09] Séquence Oui Non 1 Heuristiques 2010<br />

Muller et Kurth 2007 [MK07] Séquence Oui Non 1 Image, chemin matrice, heuristiques<br />

Ong 2007 [Ong07] Séquence Oui Non 1 Heuristiques<br />

Paulus et Klapuri 2006 [PK06] Séquence Non Non 2 Fonction <strong>de</strong> coût<br />

Paulus et Klapuri 2009 [PK09] Séquence/État Oui Non 3 Fonction <strong>de</strong> coût 2009<br />

Peeters 2004 [Pee04] État Non Non 1 HMM 1<br />

Peeters 2007 [Pee07] Séquence Oui Non 3 Heuristiques 2009, 2010, 2011<br />

Rho<strong>de</strong>s et Casey 2007 [RC07] Séquence Non Oui 1 Algorithmique du texte<br />

Sargent et al. 2010 [SBV10] Séquence/État Non Non 2 Fonction <strong>de</strong> coût 2010<br />

Sargent et al. 2011 [SBV + 11] Séquence/État Non Non 2 HMM 1 , Fonction <strong>de</strong> coût 2011<br />

Shiu et al. 2005 [SJK05] Séquence Oui Non 1 Chemin matrice<br />

Tian et al. 2009 [TLX + 09] Séquence Oui Non 1 Heuristiques<br />

Wang et al. 2009 [WCL09] Séquence Oui Non 1 Fonction <strong>de</strong> coût<br />

Wankhammer et al. 2010 [WCB10] Séquence Oui Non 2 Image, heuristiques<br />

Wellhausen et Hoeynck 2003 [WH03] Séquence Oui Non 1 Heuristiques<br />

Weiss et Bello 2010 [WB10] État Non Non 1 NMF 3 2010<br />

Martin et al. 2010 [MHR + 10] Séquence Non Oui 1 Algorithmique du texte 2010, 2011<br />

Contribution Approche<br />

Matrice d’autodistance<br />

Approche hiérarchique<br />

Nombre <strong>de</strong> <strong>de</strong>scripteurs<br />

Métho<strong>de</strong> <strong>de</strong> détection<br />

<strong>de</strong>s <strong>structures</strong><br />

<strong>répétitives</strong><br />

MIREX


5.1 Segmentation structurelle 111<br />

une mesure locale obtenue par corrélation le long <strong>de</strong> la diagonale avec une matrice<br />

K <strong>de</strong> dimensions inférieures à cel<strong>les</strong> <strong>de</strong> M [Foo00]. K agit alors comme un<br />

facteur <strong>de</strong> pondération et met en avant <strong>dans</strong> M tout contraste important entre<br />

<strong>de</strong>s blocs homogènes. Le choix d’une pondération imposée à K dépend du type <strong>de</strong><br />

segmentation recherchée, et peut par exemple être définie sur un modèle binaire<br />

ou Gaussien [Foo00]. La courbe <strong>de</strong> nouveauté correspond alors au résultat <strong>de</strong> la<br />

corrélation <strong>de</strong> M avec K en fonction du point d’application <strong>de</strong> K sur la diagonale<br />

<strong>de</strong> M. Cette courbe est souvent utilisée comme une première étape <strong>de</strong> segmentation<br />

[Foo00, CF04, KS10, PK09, Rao04, Jen07, WCB10].<br />

L’étape <strong>de</strong> regroupement consiste ensuite à i<strong>de</strong>ntifier parmi <strong>les</strong> segments déterminés<br />

par la nouveauté audio <strong>de</strong>s groupes homogènes. Cette étape peut être guidée<br />

par un modèle probabiliste permettant <strong>de</strong> classer <strong>les</strong> segments i<strong>de</strong>ntifiés en fonction<br />

<strong>de</strong> la distribution <strong>de</strong> leurs <strong>de</strong>scripteurs. En particulier, l’utilisation <strong>de</strong> modè<strong>les</strong> <strong>de</strong><br />

Markov cachés [Rab89] permet <strong>de</strong> représenter chaque partie musicale caractéristique<br />

(couplet, refrain, etc.) par un état, le modèle produisant <strong>de</strong>s segments annotés<br />

dont l’observation est liée à la distribution <strong>de</strong>s <strong>de</strong>scripteurs [GML03]. Après<br />

une phase d’apprentissage du modèle, l’algorithme <strong>de</strong> Viterbi [Vit67] permet <strong>de</strong><br />

déterminer la distribution la plus probable <strong>de</strong>s états pour chaque segment i<strong>de</strong>ntifié<br />

[LC00, ANS + 05, PBR02, SBV + 11]. L’utilisation d’un modèle Gaussien pour <strong>les</strong><br />

probabilités d’émission [Rab89] est souvent privilégiée pour représenter la distribution<br />

statistique <strong>de</strong>s <strong>de</strong>scripteurs audio [LC00, PBR02, APS05, SBV10, PQ11].<br />

Une autre approche du problème consiste à employer <strong>de</strong>s outils <strong>de</strong> segmentation<br />

d’images afin d’i<strong>de</strong>ntifier <strong>de</strong>s blocs homogènes à partir <strong>de</strong> la matrice d’auto-distance.<br />

Par exemple, Cooper et Foote [CF04] utilisent une technique <strong>de</strong> décomposition en<br />

valeurs singulières [Wei99] afin <strong>de</strong> rapprocher <strong>les</strong> motifs similaires <strong>de</strong> cette matrice.<br />

Plus récemment, Barrington et al. [BCL10] proposent <strong>de</strong>s modè<strong>les</strong> <strong>de</strong> textures dynamiques<br />

[DCWS03] pour le signal audio permettant <strong>de</strong> représenter <strong>de</strong> manière<br />

précise <strong>les</strong> états possib<strong>les</strong>. La détermination <strong>de</strong>s états produisant <strong>les</strong> sections <strong>de</strong><br />

signal peut également être effectuée en utilisant une factorisation en matrices nonnégatives<br />

[LS + 99] appliquée sur la matrice d’auto-distance [KS10, CL11], ou appliquée<br />

directement sur la séquence <strong>de</strong> <strong>de</strong>scripteurs via un modèle <strong>de</strong> factorisation<br />

probabiliste [WB10, WB11].<br />

5.1.2.2 Approche séquence<br />

Dans l’approche séquence, une œuvre musicale est vue comme comprenant <strong>de</strong>s<br />

<strong>séquences</strong> d’événements musicaux répétés. La répétition <strong>de</strong> ces <strong>séquences</strong> forme<br />

ainsi <strong>de</strong>s lignes <strong>dans</strong> la matrice d’auto-distance.<br />

De nombreuses métho<strong>de</strong>s <strong>de</strong> la littérature sont dédiées à l’i<strong>de</strong>ntification <strong>de</strong> ces<br />

lignes. Face aux distorsions susceptib<strong>les</strong> d’apparaître entre plusieurs répétitions d’un<br />

motif, ces métho<strong>de</strong>s emploient différentes approches assimilab<strong>les</strong> à un moyennage<br />

temporel permettant d’atténuer <strong>les</strong> variations à court terme [PMK10]. Cette opération<br />

peut ainsi être effectuée en appliquant un effet <strong>de</strong> filtrage, affectant toute<br />

la matrice d’auto-distance [Ong07, Got06, ET07, Pee07] ou uniquement ses diagona<strong>les</strong><br />

[WH03, BW05, LWZ04a, MK07].<br />

La détection <strong>de</strong>s lignes <strong>de</strong> répétition <strong>dans</strong> la matrice d’auto-distance peut alors<br />

être effectuée par un seuillage <strong>de</strong> la matrice (ou <strong>de</strong> la représentation temps-retard<br />

équivalente) ainsi filtrée. Par exemple, <strong>dans</strong> sa métho<strong>de</strong> RefraiD, Goto [Got06]


112 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

sélectionne à partir d’un seuillage <strong>de</strong> la représentation temps-retard <strong>les</strong> sections<br />

<strong>les</strong> plus souvent répétées, puis utilise une série <strong>de</strong> mesures moyennes permettant<br />

d’i<strong>de</strong>ntifier la partie la plus significative au sens <strong>de</strong> ces mesures, assimilée au refrain<br />

[Got06, Mar06, Ong07].<br />

Les répétitions peuvent également être analysées à l’ai<strong>de</strong> d’un algorithme <strong>de</strong> détection<br />

<strong>de</strong> lignes significatives approchées, afin <strong>de</strong> prendre en compte <strong>les</strong> nombreuses<br />

distorsions temporel<strong>les</strong> pouvant apparaître sur la matrice d’auto-distance [MK07,<br />

MND09, SJK05]. Par exemple, Müller et Kurth [MK07] proposent un algorithme<br />

glouton permettant <strong>de</strong> déduire, à partir <strong>de</strong> choix locaux sur <strong>les</strong> coefficients <strong>de</strong> la<br />

matrice d’auto-distance 1 , le chemin le plus probable représentant une répétition<br />

importante.<br />

L’analyse peut être menée <strong>de</strong> manière itérative en caractérisant la structure<br />

par étapes successives, précisant <strong>de</strong> plus en plus la détection <strong>de</strong>s répétitions [Pee07,<br />

Jeh05a, Cha03]. Ainsi, Peeters [Pee07] propose le calcul <strong>de</strong> matrices d’auto-distance<br />

<strong>de</strong> plus en plus informatives en appliquant <strong>de</strong>s relations <strong>de</strong> transitivité sur <strong>les</strong> répétitions<br />

apparaissant à plus <strong>de</strong> <strong>de</strong>ux occurrences <strong>dans</strong> chaque morceau, et parvient<br />

ainsi à propager la similarité entre <strong>de</strong>ux motifs à l’ensemble <strong>de</strong>s motifs similaires<br />

pour faciliter l’extraction <strong>de</strong> lignes caractéristiques.<br />

Plus généralement, une telle logique <strong>de</strong> transitivité est souvent mise en place<br />

<strong>dans</strong> <strong>les</strong> métho<strong>de</strong>s qui suivent une approche séquence. En effet, cel<strong>les</strong>-ci i<strong>de</strong>ntifient<br />

<strong>de</strong>s paires <strong>de</strong> motifs similaires en présence <strong>de</strong> variations musica<strong>les</strong> ; en conséquence,<br />

si un motif est répété <strong>de</strong> manière approchée plus <strong>de</strong> <strong>de</strong>ux fois <strong>dans</strong> un<br />

morceau, il est probable que <strong>les</strong> mesures <strong>de</strong> similarité entre <strong>les</strong> motifs <strong>de</strong>ux-à<strong>de</strong>ux<br />

ne soient pas exactement i<strong>de</strong>ntiques. Afin <strong>de</strong> conserver une <strong>de</strong>scription homogène<br />

<strong>de</strong>s motifs structurels, la transitivité entre <strong>les</strong> similarités i<strong>de</strong>ntifiées permet<br />

alors <strong>de</strong> regrouper toutes <strong>les</strong> mesures proches en attribuant aux motifs une<br />

même étiquette [Mül07]. Cette logique peut notamment être appliquée en ajoutant<br />

ou retirant <strong>de</strong> manière itérative <strong>de</strong>s lignes caractéristiques <strong>de</strong> la matrice d’autodistance<br />

[Got06, Mar06, Ong07, Pee07]. La logique <strong>de</strong> transitivité est parfois directement<br />

utilisée afin d’i<strong>de</strong>ntifier un extrait caractéristique [ET07, WH03].<br />

Certaines étu<strong>de</strong>s correspon<strong>de</strong>nt à une approche séquence mais n’emploient pas<br />

la matrice d’auto-distance. En particulier, l’i<strong>de</strong>ntification <strong>de</strong> répétitions peut être<br />

effectuée à l’ai<strong>de</strong> d’outils d’algorithmique du texte [DH02, RC07, Smi10, AAF + 09].<br />

Par exemple, Rho<strong>de</strong>s et Casey [RC07] définissent plusieurs algorithmes du texte<br />

permettant d’i<strong>de</strong>ntifier <strong>de</strong>s facteurs similaires <strong>de</strong> mêmes longueurs, en autorisant<br />

un nombre limité <strong>de</strong> remplacements <strong>de</strong> symbo<strong>les</strong>. Allali et al. [AAF + 09] formalisent<br />

plusieurs problèmes liés à l’optimisation du recouvrement <strong>de</strong> la sous-séquence décrivant<br />

la structure répétitive musicale, et présentent <strong>les</strong> premières approches à leur<br />

résolution.<br />

Il convient <strong>de</strong> noter que quelques étu<strong>de</strong>s parviennent à combiner <strong>les</strong> approches<br />

état et séquence en optimisant <strong>de</strong>s fonctions <strong>de</strong> score prenant en compte la répétitivité<br />

et l’homogénéité <strong>de</strong>s motifs structurels i<strong>de</strong>ntifiés [PK09, PLR08]. Dans leur<br />

approche, Paulus et Klapuri [PK09] définissent une mesure <strong>de</strong> coût <strong>de</strong> segmentation<br />

prenant en compte <strong>de</strong>s propriétés musica<strong>les</strong> distinctes ; ainsi, leur métho<strong>de</strong> permet<br />

1. L’algorithme glouton se différencie du raisonnement par programmation dynamique par la<br />

non optimalité du résultat. Le premier prend <strong>de</strong>s décisions loca<strong>les</strong> figées et non remises en question<br />

par la suite, tandis que le second optimise chaque décision sur l’ensemble <strong>de</strong>s décisions passées.


5.1 Segmentation structurelle 113<br />

d’optimiser à la fois la similarité entre tous <strong>les</strong> motifs associés à une même étiquette<br />

et la dissimilarité entre <strong>de</strong>s groupes distincts [PK09, PMK10].<br />

Pour plus <strong>de</strong> détails sur ces différentes métho<strong>de</strong>s d’inférence <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong>,<br />

nous invitons le lecteur à se référer aux rapports d’état <strong>de</strong> l’art, tels que<br />

proposés par Dannenberg et Goto [DG09], Müller [Mül07] ou plus récemment Paulus<br />

et al. [PMK10].<br />

5.1.3 Limitations et subjectivité<br />

Les approches existantes pour l’analyse <strong>de</strong> la structure musicale souffrent <strong>de</strong><br />

plusieurs limitations, liées à la fois aux outils utilisés et à la définition peu précise<br />

du problème.<br />

La matrice d’auto-distance présente plusieurs limitations pour l’analyse <strong>de</strong>s<br />

<strong>structures</strong> <strong>répétitives</strong>, comme le souligne notamment Chai [Cha05, p.40–42]. Un<br />

premier écueil apparaît <strong>dans</strong> le cas où une variation musicale modifie l’ensemble <strong>de</strong><br />

la répétition musicale d’une section. Par exemple, <strong>dans</strong> le cas où cette matrice est<br />

calculée à partir d’une séquence <strong>de</strong> <strong>de</strong>scripteurs tonaux, la présence d’une transposition<br />

entre <strong>de</strong>ux sections répétées peut s’avérer problématique. Ainsi, le couplet<br />

représenté par une zone <strong>de</strong> pointillés rouges en Figure 5.1(ii) est transposé par rapport<br />

à ses autres occurrences <strong>dans</strong> le morceau. La structure répétitive interne <strong>de</strong><br />

ce couplet est alors respectée, comme représenté par le motif <strong>de</strong> la Figure 5.1-(iii),<br />

récurrent <strong>dans</strong> la Figure 5.1-(ii). En revanche, la distance entre ce couplet et le<br />

reste du morceau est importante, comme matérialisé par <strong>de</strong>s ban<strong>de</strong>s horizonta<strong>les</strong> et<br />

vertica<strong>les</strong> blanches en Figure 5.1-(ii).<br />

En outre, i<strong>de</strong>ntifier <strong>les</strong> motifs répétés s’avère complexe en présence <strong>de</strong> forts<br />

changements <strong>de</strong> tempo entre plusieurs occurrences d’une répétition, comme souligné<br />

notamment par Müller [Mül07]. Dans le cas d’une telle variation, <strong>les</strong> lignes<br />

caractéristiques <strong>de</strong>s répétitions <strong>dans</strong> la matrice d’auto-distance ne correspon<strong>de</strong>nt<br />

plus à <strong>de</strong>s sous-diagona<strong>les</strong> et peuvent prendre une forme courbée qui témoigne d’un<br />

changement non linéaire du tempo entre <strong>de</strong>ux motifs. Dans le cas <strong>de</strong> l’analyse <strong>de</strong> la<br />

musique classique occi<strong>de</strong>ntale, Müller [Mül07] affirme que <strong>les</strong> changements <strong>de</strong> tempo<br />

importants mêlés aux fortes variations <strong>dans</strong> l’instrumentation ren<strong>de</strong>nt la majorité<br />

<strong>de</strong>s techniques basées sur l’auto-distance inefficaces pour i<strong>de</strong>ntifier <strong>les</strong> <strong>structures</strong><br />

<strong>répétitives</strong>.<br />

Les approches état basées sur la nouveauté du signal audio présentent également<br />

une limitation due à la forte variabilité <strong>de</strong>s frontières structurel<strong>les</strong> perçues.<br />

En effet, comme le soulignent notamment Bru<strong>de</strong>rer et al. [BMK06], la définition <strong>de</strong>s<br />

frontières entre motifs structurels est associée à <strong>de</strong>s éléments subjectifs multip<strong>les</strong>.<br />

Les auteurs mettent en avant par une série d’expériences perceptives la présence <strong>de</strong><br />

frontières communes, i<strong>de</strong>ntifiées par tous <strong>les</strong> sujets, mais liées à <strong>de</strong>s critères musicaux<br />

variab<strong>les</strong>. Ainsi, la tâche d’i<strong>de</strong>ntifier <strong>de</strong>s points <strong>de</strong> nouveauté <strong>de</strong>puis le signal<br />

audio est complexe, et source <strong>de</strong> nombreuses erreurs pour l’analyse <strong>de</strong>s <strong>structures</strong><br />

<strong>répétitives</strong>.<br />

Une limitation majeure <strong>de</strong> l’analyse <strong>de</strong> la structuration <strong>de</strong> morceaux <strong>de</strong> musique,<br />

notamment mise en valeur <strong>dans</strong> <strong>de</strong>s étu<strong>de</strong>s méthodologiques récentes [BLBSV10,<br />

BDSV11, PD09, PK12], est liée au manque d’une formalisation unique du problème<br />

étudié. L’utilité d’un effort commun vers une définition plus formelle du problème


114 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

<strong>de</strong> la structuration musicale est communément admise <strong>dans</strong> la littérature récente.<br />

Néanmoins, l’utilisation <strong>de</strong>s différentes méthodologies proposées pour l’analyse et<br />

l’annotation <strong>de</strong> <strong>structures</strong> musica<strong>les</strong> [BLBSV10, BDSV11, PD09, SBF + 11] reste peu<br />

employée à l’heure actuelle.<br />

Bimbot et al. [BLBSV10] soulignent ainsi que l’absence d’une définition formelle<br />

<strong>de</strong> la structure musicale soulève un problème méthodologique pour son analyse, qui<br />

limite notamment <strong>les</strong> possibilités d’évaluation <strong>de</strong> tel<strong>les</strong> métho<strong>de</strong>s. Les auteurs proposent<br />

alors une méthodologie présentant <strong>les</strong> concepts d’un découpage structurel<br />

perceptif en “blocs”, caractérisés en particulier par <strong>de</strong>s propriétés d’autonomie, <strong>de</strong><br />

comparaison avec <strong>les</strong> autres blocs ou encore <strong>de</strong> régularité tout au long du morceau<br />

[BLBSV10]. Pour faciliter ce découpage, <strong>les</strong> auteurs [BDSV11] définissent ensuite<br />

plusieurs niveaux <strong>de</strong> décomposition à examiner d’une manière conjointe afin<br />

<strong>de</strong> déterminer le meilleur compromis d’annotation structurelle.<br />

L’annotation structurelle sur différents niveaux est également exposée comme un<br />

procédé plus rigoureux par Peeters et Deruty [PD09]. Ces <strong>de</strong>rniers proposent ainsi<br />

une représentation <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> selon plusieurs dimensions traduisant<br />

<strong>de</strong>s points <strong>de</strong> vue disjoints, tels que la similarité acoustique, le rôle musical ou encore<br />

le rôle instrumental. Si l’espace <strong>de</strong> <strong>de</strong>scription <strong>de</strong> la structure ainsi recherchée est<br />

plus complexe que celle correspondant au problème <strong>de</strong> segmentation structurelle,<br />

son obtention est fondée sur <strong>de</strong>s critères <strong>de</strong> comparaisons subjectives simp<strong>les</strong> et plus<br />

aisément reproductib<strong>les</strong> entre différents sujets.<br />

Ces <strong>de</strong>rniers travaux suggèrent qu’une représentation <strong>de</strong> la structure musicale<br />

sur plusieurs niveaux <strong>de</strong> <strong>de</strong>scription permet <strong>de</strong> modéliser plus précisément <strong>les</strong> <strong>structures</strong><br />

<strong>répétitives</strong>.<br />

5.1.4 Vers une approche hiérarchique<br />

La détection d’un ensemble <strong>de</strong> répétitions perçues à différents niveaux <strong>de</strong> <strong>de</strong>scription<br />

est considérée comme un enjeu important <strong>de</strong> l’analyse <strong>de</strong> la structuration<br />

musicale [Jeh05a, Pau10, Cha05]. En particulier, Müller [Mül07] suggère comme<br />

perspective majeure <strong>de</strong> son étu<strong>de</strong> la <strong>de</strong>scription <strong>de</strong>s motifs imbriqués sur plusieurs<br />

niveaux. Il cite alors comme problème non résolu « l’intégration <strong>de</strong>s similarités à<br />

toutes <strong>les</strong> résolutions temporel<strong>les</strong> <strong>dans</strong> un unique modèle hiérarchique pour décrire<br />

au mieux la structure musicale ». Plusieurs autres étu<strong>de</strong>s récentes citent également<br />

la prise en compte d’une décomposition structurelle hiérarchique comme perspective<br />

majeure (voir notamment [Pau10, KS10, WB10, AS02, MK07]).<br />

Bien que cet aspect soit considéré comme une amélioration significative, il<br />

n’existe que quelques approches proposant l’i<strong>de</strong>ntification d’une hiérarchie <strong>de</strong>s répétitions<br />

[PMK10]. Jehan [Jeh05b, Jeh05a] définit une construction itérative <strong>de</strong><br />

matrices d’auto-distance en déduisant la matrice d’un niveau donné à partir d’un<br />

calcul par programmation dynamique <strong>dans</strong> <strong>les</strong> motifs <strong>de</strong> la matrice du niveau précé<strong>de</strong>nt.<br />

Les frontières <strong>de</strong> chaque matrice étant obtenues par un <strong>de</strong>scripteur différent,<br />

cette technique permet alors d’i<strong>de</strong>ntifier la structure répétitive sur différents critères<br />

musicaux simultanément. Chai [Cha05] définit une procédure permettant <strong>de</strong><br />

déduire un ensemble <strong>de</strong> hiérarchies structurel<strong>les</strong> possib<strong>les</strong> à partir d’une <strong>de</strong>scription<br />

séquentielle. Malgré <strong>de</strong> possib<strong>les</strong> conflits <strong>de</strong> cette métho<strong>de</strong> pour l’assignation<br />

d’étiquettes hiérarchiques (notamment <strong>de</strong>s problèmes <strong>de</strong> recouvrement), l’étu<strong>de</strong> met<br />

alors en avant la pertinence d’un modèle arborescent pour une évaluation <strong>de</strong>s répé-


5.2 Modèle hiérarchique <strong>de</strong>s répétitions 115<br />

titions analysées, plus fidèle à la représentation <strong>de</strong> structurations musica<strong>les</strong> qu’en<br />

considérant un modèle séquentiel. Rho<strong>de</strong>s et Casey [RC07] proposent un ensemble<br />

d’algorithmes <strong>de</strong> <strong>séquences</strong> musica<strong>les</strong> permettant d’i<strong>de</strong>ntifier <strong>de</strong> manière itérative<br />

une construction hiérarchique <strong>de</strong>s répétitions prépondérantes. Leur métho<strong>de</strong>, évaluée<br />

sur <strong>de</strong>s données symboliques, est basée sur l’inférence approchée <strong>de</strong> motifs <strong>de</strong><br />

même taille en utilisant une distance <strong>de</strong> Hamming [Ham50]. Enfin, quelques publications<br />

proposent une visualisation <strong>de</strong> la hiérarchie structurelle, sous la forme d’un<br />

espace instant/durée [MG12] ou d’un diagramme <strong>de</strong> convergence radiale [SHOB11].<br />

Ces différentes approches permettent d’i<strong>de</strong>ntifier une représentation <strong>de</strong> la structuration<br />

<strong>de</strong> la musique sur différentes échel<strong>les</strong>. Cependant, aucune <strong>de</strong> ces étu<strong>de</strong>s<br />

n’explicite la structuration et le modèle hiérarchique sous-jacent, rendant leur évaluation<br />

complexe.<br />

Dans la suite <strong>de</strong> ce chapitre, nous introduisons un modèle hiérarchique, définissons<br />

formellement le problème d’i<strong>de</strong>ntification <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> par un<br />

critère d’optimisation <strong>dans</strong> la hiérarchie, et nous proposons un algorithme d’inférence<br />

répondant au problème.<br />

5.2 Modèle hiérarchique <strong>de</strong>s répétitions<br />

Une perspective majeure <strong>de</strong>s travaux existants en analyse <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

<strong>dans</strong> la musique est la prise en compte d’une hiérarchie <strong>de</strong> répétitions, comme<br />

expliqué en section précé<strong>de</strong>nte. Dans cette section, nous examinons <strong>les</strong> caractéristiques<br />

<strong>de</strong> la structuration hiérarchique <strong>de</strong> la musique à partir d’étu<strong>de</strong>s existantes<br />

avant d’introduire une formalisation <strong>de</strong> ce problème.<br />

5.2.1 Caractérisation musicale<br />

Considérer un modèle hiérarchique présente une gran<strong>de</strong> pertinence pour décrire<br />

l’information musicale.<br />

Les répétitions d’un morceau <strong>de</strong> musique apparaissent d’abord à <strong>de</strong> nombreux<br />

niveaux temporels <strong>de</strong> composition, formant une structuration hiérarchique. Par<br />

exemple, un ensemble <strong>de</strong> notes <strong>de</strong> musique disposées selon <strong>de</strong>s motifs plus ou moins<br />

complexes forme <strong>de</strong>s accords et progressions harmoniques, eux-mêmes décrivant<br />

<strong>de</strong>s phrases musica<strong>les</strong> sur <strong>de</strong> plus longues pério<strong>de</strong>s, ces <strong>de</strong>rnières pouvant être à<br />

nouveau regroupées en sections caractéristiques. Des contrastes et ressemblances<br />

apparaissent alors à tous <strong>les</strong> niveaux <strong>de</strong> <strong>de</strong>scription, la musique étant construite<br />

par <strong>les</strong> relations entre ces niveaux [Esc88]. Par exemple, le Boléro <strong>de</strong> Ravel est<br />

fait <strong>de</strong> neuf répétitions du même thème, chaque thème étant lui-même composé <strong>de</strong><br />

neuf phrases <strong>de</strong> seize mesures chacune. Cet agencement particulier témoigne d’une<br />

volonté du compositeur, comme indiqué en Section 1.2.1.<br />

La structuration hiérarchique n’est pas liée uniquement à la composition musicale,<br />

mais également à sa perception : <strong>les</strong> répétitions musica<strong>les</strong> sont perçues d’une<br />

manière arborescente. Cette nature <strong>de</strong> la musique ne dépend pas <strong>de</strong> considérations<br />

esthétiques ; au contraire, elle fonctionne <strong>dans</strong> tous <strong>les</strong> sty<strong>les</strong> <strong>de</strong> musique ou même<br />

toute succession <strong>de</strong> signaux car elle est inhérente à la façon dont nous percevons le<br />

son [Eri75, p.80–82]. Comme souligné par Lerdahl et Jackendoff [LJ96], l’imbrication<br />

hiérarchique <strong>de</strong> motifs musicaux <strong>dans</strong> notre perception <strong>de</strong> la musique est alors


116 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

essentielle :<br />

« La caractéristique la plus fondamentale <strong>de</strong>s regroupements musicaux<br />

est qu’ils sont perçus d’une manière hiérarchique. Un motif est perçu<br />

comme partie d’un thème, un thème comme partie d’un groupe <strong>de</strong> thèmes,<br />

et une section comme partie d’une œuvre. »<br />

Dans leur étu<strong>de</strong>, Lerdahl et Jackendoff [LJ96, p.16] affirment en outre qu’un aspect<br />

important <strong>de</strong>s répétitions musica<strong>les</strong> est leur propriété <strong>de</strong> non chevauchement 1 .<br />

Chaque niveau <strong>de</strong> la hiérarchie répétitive perçue pour un morceau correspond ainsi<br />

à <strong>de</strong>s extraits disjoints. La théorie <strong>de</strong>s auteurs est applicable à un ensemble <strong>de</strong><br />

sty<strong>les</strong> musicaux aussi large que possible. Néanmoins, il convient <strong>de</strong> noter que cette<br />

considération peut s’avérer non pertinente pour certaines formes musica<strong>les</strong> particulières<br />

; par exemple, la forme fugue [Esc88] est notamment composée <strong>de</strong> thèmes se<br />

chevauchant, et ne semble pas correspondre pas à ce modèle.<br />

Une autre propriété importante <strong>de</strong> la hiérarchie musicale est son aspect dit récursif,<br />

défini comme le fait que chaque niveau hiérarchique « peut être élaboré par<br />

<strong>les</strong> mêmes règ<strong>les</strong> » [LJ96, p.14]. Par exemple, la contrainte <strong>de</strong> non chevauchement<br />

est i<strong>de</strong>ntique quel que soit le niveau considéré. Enfin, Lerdahl et Jackendoff [LJ96,<br />

p.16] définissent la structure hiérarchique comme constituée <strong>de</strong> groupes d’éléments<br />

contigüs, indiquant ainsi qu’à tout motif i<strong>de</strong>ntifié <strong>dans</strong> une séquence u doit correspondre<br />

un facteur <strong>de</strong> u (et non une sous-séquence).<br />

Les auteurs [LJ96, p.17] résument la structure musicale <strong>de</strong> regroupement <strong>de</strong> la<br />

manière suivante :<br />

« La structure <strong>de</strong> regroupement est hiérarchique d’une façon non chevauchante,<br />

elle est récursive et chaque groupe doit être composé d’éléments<br />

contigüs. »<br />

Cette assertion est utilisée <strong>dans</strong> la suite comme axiome pour la modélisation et<br />

l’inférence <strong>de</strong>s <strong>structures</strong> musica<strong>les</strong> <strong>répétitives</strong>.<br />

5.2.2 Modélisation hiérarchique<br />

Nous introduisons <strong>dans</strong> cette section un formalisme <strong>de</strong> l’i<strong>de</strong>ntification <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong>. Celui-ci expose d’abord une formalisation <strong>de</strong> la segmentation<br />

structurelle avant <strong>de</strong> présenter notre modèle <strong>de</strong> structuration <strong>de</strong>s morceaux <strong>de</strong> musique.<br />

Celui-ci prend en compte <strong>les</strong> principes d’organisation hiérarchique justifiés<br />

<strong>dans</strong> la section précé<strong>de</strong>nte. Les notations introduites <strong>dans</strong> cette section sont notamment<br />

adaptées à notre problème notamment à partir <strong>de</strong>s travaux d’Allali et<br />

al. [AAF + 09].<br />

5.2.2.1 Définitions<br />

Dans la suite, on considère <strong>de</strong>ux alphabets distincts notés Σ et Λ. Le premier<br />

désigne l’ensemble <strong>de</strong>s symbo<strong>les</strong> sur <strong>les</strong>quels sont définies <strong>les</strong> <strong>séquences</strong> comparées.<br />

1. Les auteurs parlent plus précisément d’une « condition <strong>de</strong> disjonction, avec pour exception<br />

l’inclusion d’un motif <strong>dans</strong> un autre » ; cela correspond ainsi à notre définition du non chevauchement.


5.2 Modèle hiérarchique <strong>de</strong>s répétitions 117<br />

Le second est utilisé pour nommer <strong>les</strong> répétitions i<strong>de</strong>ntifiées en leur donnant une<br />

étiquette, ces notions étant définies formellement <strong>dans</strong> la suite.<br />

Définition 12 (Motif, occurrence, étiquette) Soient Σ et Λ <strong>de</strong>ux alphabets, et<br />

soit u une séquence <strong>de</strong> n symbo<strong>les</strong> sur Σ. On appelle motif m <strong>de</strong> u tout triplet <strong>de</strong><br />

la forme (b,e,α) ∈ 1,n × 1,n × Λ tel que b ≤ e ≤ n. La séquence u[b . . . e] est<br />

appelée l’occurrence <strong>de</strong> m <strong>dans</strong> u ; le symbole α est appelé étiquette <strong>de</strong> m. Par<br />

commodité, la taille d’un motif m <strong>de</strong> u est notée |m| = e − b + 1 et correspond à<br />

la taille <strong>de</strong> son occurrence <strong>dans</strong> u. L’ensemble <strong>de</strong>s motifs possib<strong>les</strong> <strong>dans</strong> u est noté<br />

M(u) ⊂ 1,n × 1,n × Λ.<br />

En d’autres termes, un motif d’une séquence u contient <strong>les</strong> positions <strong>de</strong> début<br />

et <strong>de</strong> fin d’un facteur <strong>de</strong> u ainsi qu’une étiquette associée à celui-ci.<br />

On introduit un ensemble Θ ⊂ Λ d’étiquettes particulières. Chaque étiquette<br />

Θi ∈ Θ est appelée étiquette nulle. La notion d’étiquettes est utilisée afin <strong>de</strong> modéliser<br />

un ensemble <strong>de</strong> classes d’équivalence, qui caractérisent la similarité ou la<br />

dissimilarité entre motifs. Ainsi, <strong>de</strong>ux motifs <strong>de</strong> même étiquette non nulle sont dits<br />

similaires et font partie <strong>de</strong> la même classe d’équivalence, tandis que <strong>de</strong>ux motifs<br />

d’étiquettes différentes et non nul<strong>les</strong> sont dits dissimilaires et ne font pas partie<br />

<strong>de</strong> la même classe d’équivalence. Une étiquette nulle ne caractérise pas <strong>de</strong> similarité<br />

entre motifs. En particulier, <strong>de</strong>ux motifs <strong>de</strong> même étiquette nulle ne font pas<br />

nécessairement partie <strong>de</strong> la même classe d’équivalence.<br />

Pour une séquence u <strong>de</strong> taille n, le motif (1,n,Θ0) est appelé motif initial <strong>de</strong> u.<br />

Définition 13 (Sous-séquence <strong>de</strong> motifs) Soit S = {(bi,ei,αi)|1 ≤ i ≤ k} un<br />

ensemble <strong>de</strong> motifs d’une séquence u. On dit que S est une sous-séquence <strong>de</strong> u si<br />

et seulement si <strong>les</strong> occurrences <strong>de</strong> ses motifs sont disjointes <strong>dans</strong> u :<br />

∀(i,j) ∈ 1,k,bi < bj ⇔ ei < bj<br />

Définition 14 (Taille <strong>de</strong> sous-séquence <strong>de</strong> motifs) Soit S = {(bi,ei,αi)|1 ≤<br />

i ≤ k} une sous-séquence <strong>de</strong> motifs d’une séquence u. La taille <strong>de</strong> S, notée |S|,<br />

correspond à la somme <strong>de</strong>s tail<strong>les</strong> <strong>de</strong>s occurrences <strong>de</strong> ses motifs :<br />

|S| =<br />

k<br />

ei − bi + 1.<br />

i=1<br />

En fonction <strong>de</strong>s étiquettes <strong>de</strong> ses motifs, une sous-séquence <strong>de</strong> motifs peut être<br />

étiquetée complètement ou partiellement :<br />

Définition 15 (Étiquetages complet et partiel) Soit S une sous-séquence <strong>de</strong><br />

motifs d’une séquence u. S est dite complètement étiquetée si elle ne contient aucun<br />

motif d’étiquette nulle. À l’inverse, S est dite partiellement étiquetée si elle contient<br />

au moins un motif d’étiquette nulle.<br />

Définition 16 (Recouvrement) Soit S = {(bi,ei,αi)|1 ≤ i ≤ k} une sous-séquence<br />

<strong>de</strong> motifs d’une séquence u. On dit que S recouvre u si u correspond à la concaténation<br />

<strong>de</strong>s occurrences <strong>de</strong> tous <strong>les</strong> motifs <strong>de</strong> S. Formellement, S recouvre u si<br />

k<br />

[bi,ei] = [1,n].<br />

i=1


118 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

La notion <strong>de</strong> segmentation structurelle, telle qu’elle est analysée <strong>dans</strong> <strong>les</strong> métho<strong>de</strong>s<br />

existantes, peut alors être formalisée <strong>de</strong> la manière suivante :<br />

Définition 17 (Segmentation structurelle) Soit u une séquence. Toute sousséquence<br />

<strong>de</strong> motifs S <strong>de</strong> u complètement étiquetée et recouvrant u est appelée segmentation<br />

structurelle.<br />

Notre définition <strong>de</strong> la structuration répétitive correspond à la généralisation <strong>de</strong><br />

la segmentation structurelle sous la forme d’une hiérarchie.<br />

Définition 18 (Hiérarchie) Soit u une séquence <strong>de</strong> longueur n. On appelle hiérarchie<br />

<strong>de</strong> u tout ensemble non vi<strong>de</strong> <strong>de</strong> motifs aux occurrences non chevauchantes<br />

<strong>dans</strong> u. Par convention, on impose que toute hiérarchie <strong>de</strong> u contienne le motif<br />

initial (1,n,Θ0).<br />

Définition 19 (Domination) Soient m1 = (b1,e1,α1) et m2 = (b2,e2,α2) <strong>de</strong>ux<br />

motifs distincts. On dit que m1 domine m2 si l’occurrence <strong>de</strong> m2 <strong>dans</strong> u est un<br />

facteur propre <strong>de</strong> l’occurrence <strong>de</strong> m1 <strong>dans</strong> u, c’est-à-dire si b1 < b2 ≤ e2 < e1. Par<br />

convention, un motif n’est pas dominé par lui-même.<br />

Pour une séquence u, on peut remarquer que la domination est une relation<br />

d’ordre partiel sur l’ensemble M(u) <strong>de</strong>s motifs <strong>de</strong> u.<br />

Chaque motif d’une hiérarchie est ainsi dominé par un certain nombre d’autres<br />

motifs <strong>de</strong> la même hiérarchie.<br />

Définition 20 (Niveau) Soient H une hiérarchie et i un entier. On appelle niveau<br />

hiérarchique i <strong>de</strong> H l’ensemble <strong>de</strong>s motifs <strong>de</strong> H dominés par exactement i autres<br />

motifs <strong>dans</strong> H.<br />

Avec une représentation arborescente, un niveau peut être vu comme une hauteur<br />

spécifique <strong>dans</strong> l’arbre. La notion <strong>de</strong> domination peut être étendue à un niveau<br />

entier <strong>de</strong> la manière suivante :<br />

Définition 21 (Hiérarchie dominante) Soient H une hiérarchie et i un entier.<br />

On appelle hiérarchie dominante du niveau i <strong>de</strong> H la hiérarchie composée <strong>de</strong> l’ensemble<br />

<strong>de</strong>s niveaux <strong>de</strong> H strictement inférieurs à i.<br />

Avec une représentation arborescente, la hiérarchie dominante d’un niveau i<br />

correspond au sous-arbre <strong>de</strong> profon<strong>de</strong>ur i − 1.<br />

Chaque niveau d’une hiérarchie possè<strong>de</strong> la propriété suivante :<br />

Proposition 10 (Niveau et sous-séquence <strong>de</strong> motifs) Soit u une séquence, et<br />

soit H une hiérarchie <strong>de</strong> u. Tout niveau hiérarchique <strong>de</strong> H est une sous-séquence <strong>de</strong><br />

motifs <strong>de</strong> u.<br />

Preuve 2 Soient H une hiérarchie et N un niveau <strong>de</strong> H. Par définition, tous <strong>les</strong><br />

éléments <strong>de</strong> H sont non chevauchants. On raisonne par l’absur<strong>de</strong> : supposons que N<br />

ne soit pas une sous-séquence <strong>de</strong> motifs <strong>de</strong> u. Il existe donc au moins <strong>de</strong>ux éléments<br />

<strong>de</strong> N non disjoints <strong>dans</strong> u. Puisque ces <strong>de</strong>ux motifs sont non disjoints mais non<br />

chevauchants, l’un, noté m1, domine l’autre, noté m2. Par conséquent, m1 est <strong>de</strong><br />

niveau hiérarchique supérieur à m2. Cette assertion entre en contradiction avec<br />

l’appartenance <strong>de</strong>s <strong>de</strong>ux motifs au même niveau N , ce qui prouve la proposition.<br />

Cette propriété permet <strong>de</strong> passer aisément d’une représentation hiérarchique<br />

vers une représentation sous forme <strong>de</strong> segmentation structurelle, notamment à <strong>de</strong>s<br />

fins d’évaluation, comme expliqué ci-après.


5.2 Modèle hiérarchique <strong>de</strong>s répétitions 119<br />

(i)<br />

(ii)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Fig. 5.2 – Exemp<strong>les</strong> <strong>de</strong> représentations arborescentes <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> : (i)<br />

Forme sonate schématisée ; (ii) : Yesterday du groupe The Beat<strong>les</strong>, d’après [Cha05,<br />

p.58].<br />

5.2.2.2 Représentation et exemp<strong>les</strong><br />

<br />

Pour afficher la nature hiérarchique et non chevauchante <strong>de</strong>s motifs, une hiérarchie<br />

peut être représentée sous la forme d’une structure arborescente, définie <strong>de</strong> la<br />

manière suivante :<br />

- La racine représente le motif initial<br />

- Chaque nœud représente un motif <strong>de</strong> H ;<br />

- Chaque arc représente une relation <strong>de</strong> domination entre <strong>de</strong>ux motifs : m1 est<br />

père <strong>de</strong> m2 si et seulement si m1 domine m2.<br />

Sur la Figure 5.2, par commodité <strong>de</strong> lecture, chaque nœud <strong>de</strong> l’arbre est représenté<br />

sous la forme d’un rectangle dont la largeur est une proportion <strong>de</strong> la taille <strong>de</strong><br />

l’occurrence du motif. De cette manière, l’échelle temporelle <strong>de</strong>s motifs représentés<br />

est facilement lisible sur l’arbre.<br />

La Figure 5.2-(i) schématise l’organisation générale <strong>de</strong>s répétitions d’un morceau<br />

suivant une structure dite forme sonate, très courante en musique classique [BS09].<br />

Elle est organisée <strong>de</strong> manière hiérarchique, <strong>de</strong>ux niveaux caractéristiques étant présentés<br />

ici. Le niveau 1 <strong>de</strong> la hiérarchie correspond aux quatre sections principa<strong>les</strong><br />

<strong>de</strong> la forme sonate : l’exposition E, jouée <strong>de</strong>ux fois, le développement D, puis la<br />

réexposition correspondant à une répétition <strong>de</strong> E (éventuellement avec variations)<br />

suivie <strong>de</strong> la coda C qui conclut le morceau [BS09]. Le niveau 2 indique la présence<br />

<strong>de</strong>s thèmes A1, A2, B et C apparaissant à plusieurs reprises et séparés par <strong>de</strong>s<br />

transitions T et <strong>de</strong>s résolutions O.<br />

La Figure 5.2-(ii) schématise la hiérarchie <strong>de</strong>s répétitions <strong>dans</strong> un morceau <strong>de</strong><br />

musique populaire, Yesterday du groupe The Beat<strong>les</strong>, d’après Chai [Cha05, p.58].<br />

Le premier niveau correspond au niveau structurel <strong>de</strong>s couplets (C) et refrains (R),<br />

tandis que le second décrit <strong>les</strong> phrases musica<strong>les</strong> <strong>de</strong>s refrains.


120 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

Dans ces <strong>de</strong>ux exemp<strong>les</strong>, la hiérarchie structurelle est perçue par tout auditeur<br />

et correspond à une volonté <strong>de</strong> composition. Dans le cas <strong>de</strong> la forme sonate, chacun<br />

<strong>de</strong>s <strong>de</strong>ux niveaux a un sens musical fort, et décrire la structure du morceau sur<br />

un unique niveau semble être une simplification conséquente d’un problème plus<br />

général.<br />

Ces exemp<strong>les</strong> suggèrent que la définition d’un algorithme d’inférence <strong>de</strong> répétitions<br />

sous une forme hiérarchique peut permettre d’i<strong>de</strong>ntifier une structure riche en<br />

informations sur la composition musicale d’un morceau.<br />

5.3 Inférence hiérarchique <strong>de</strong> répétitions<br />

Dans cette section, nous proposons un algorithme d’inférence <strong>de</strong> la structuration<br />

répétitive d’un morceau <strong>de</strong> musique. Cet algorithme est construit d’une manière<br />

hiérarchique, et correspond au modèle exposé <strong>dans</strong> la section précé<strong>de</strong>nte.<br />

5.3.1 Préliminaires<br />

Avant <strong>de</strong> décrire l’algorithme d’inférence, nous introduisons plusieurs critères<br />

sur la structuration <strong>de</strong>s <strong>séquences</strong>.<br />

En premier lieu, on introduit un critère <strong>de</strong> décision sur la proximité entre scores<br />

<strong>de</strong> similarité locale. Celui-ci est utile à l’i<strong>de</strong>ntification <strong>de</strong> multip<strong>les</strong> répétitions d’un<br />

même motif.<br />

Critère 1 (∆-Proximité <strong>de</strong> scores) Soient s1 et s2 <strong>de</strong>ux scores <strong>de</strong> similarité, et<br />

∆ un seuil décimal. s1 est dit ∆-proche <strong>de</strong> s2 si et seulement si |s1 − s2| ≤ ∆.<br />

∆ correspond à un seuil <strong>de</strong> similarité entre motifs qui permet <strong>de</strong> regrouper ces<br />

<strong>de</strong>rniers en classes d’équivalence. Plus précisément, <strong>de</strong>ux motifs qui sont ∆-proches<br />

sont considérés comme appartenant à la même classe d’équivalence.<br />

En second lieu, on introduit un critère <strong>de</strong> décision sur la taille <strong>de</strong>s motifs i<strong>de</strong>ntifiés.<br />

Celui-ci est utile à la terminaison <strong>de</strong> l’algorithme présenté ci-après.<br />

Critère 2 (Γ-Insuffisance <strong>de</strong> taille) Soient u une séquence, m un motif <strong>de</strong> u et<br />

Γ un seuil décimal. On dit que m est <strong>de</strong> taille Γ-insuffisante si et seulement si<br />

|m − u| > Γ. À l’inverse, on dit que m est <strong>de</strong> taille Γ-suffisante si et seulement si<br />

|m − u| ≤ Γ<br />

5.3.2 Problème<br />

Cette section formalise le problème <strong>de</strong> structuration hiérarchique. On commence<br />

par définir la sous-structure optimale <strong>de</strong> la manière suivante :<br />

Définition 22 (Sous-structure optimale) Soient u une séquence et S une sousséquence<br />

<strong>de</strong> motifs <strong>de</strong> u. On note E l’ensemble <strong>de</strong>s facteurs <strong>de</strong> u non chevauchants<br />

<strong>dans</strong> u avec <strong>les</strong> occurrences <strong>de</strong>s motifs <strong>de</strong> S. On appelle sous-structure optimale <strong>de</strong><br />

S, et on note R(S), la paire <strong>de</strong> motifs {(b1,e1,α1),(b2,e2,α2)} ∈ M(u) 2 vérifiant :<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

(b1,e1,α1) /∈ S<br />

(b2,e2,α2) /∈ S<br />

s(u[b1 . . . e1],u[b2 . . . e2]) = max<br />

(v1,v2)∈E 2s(v1,v2)<br />

α1 = α2<br />

.


5.3 Inférence hiérarchique <strong>de</strong> répétitions 121<br />

En d’autres termes, R(S) correspond à un ensemble <strong>de</strong> <strong>de</strong>ux motifs <strong>de</strong> même étiquette,<br />

dont la similarité entre <strong>les</strong> occurrences est maximale, et qui ne chevauchent<br />

pas <strong>dans</strong> u <strong>les</strong> motifs <strong>de</strong> la sous-séquence <strong>de</strong> motifs S.<br />

On définit alors <strong>de</strong> manière plus générale un ensemble i<strong>de</strong>ntifiant tous <strong>les</strong> motifs<br />

<strong>de</strong> la même classe d’équivalence, <strong>dans</strong> une sous-structure répétitive ∆-optimale <strong>de</strong><br />

la manière suivante :<br />

Définition 23 (Sous-structure k,∆-répétitive) Soient u une séquence, S une<br />

sous-séquence <strong>de</strong> motifs <strong>de</strong> u, ∆ ≥ 0 un seuil décimal et k un entier positif. On<br />

appelle sous-structure k,∆-répétitive <strong>de</strong> S, et on note Rk ∆ (S) toute sous-séquence <strong>de</strong><br />

k motifs {(bi,ei,αi) ∈ M(u)|1 ≤ i ≤ k} vérifiant :<br />

∃(i,j) ∈ 1,k 2 ⎧<br />

{(bi,ei,αi),(bj,ej,αj)} = R(S)<br />

⎪⎨<br />

∀(i<br />

:<br />

⎪⎩<br />

′ ,j ′ ) ∈ 1,k2 ,s(u[bi ′ . . . ei ′],u[bj ′ . . . ej ′])<br />

est ∆-proche <strong>de</strong> s(u[bi . . . ei],u[bj . . . ej])<br />

∀(i ′ ,j ′ ) ∈ 1,k2 .<br />

,αi = αj = α1<br />

En d’autres termes, Rk ∆ (S) correspond à l’ensemble incluant la sous-structure<br />

optimale <strong>de</strong> la sous-séquence <strong>de</strong> motifs S ainsi qu’un ou plusieurs motifs <strong>de</strong> scores<br />

<strong>de</strong> similarité ∆-proches.<br />

Définition 24 (Sous-structure ∆-répétitive optimale) Soient u une séquence,<br />

S une sous-séquence <strong>de</strong> motifs <strong>de</strong> u, ∆ ≥ 0 un seuil décimal et k un entier positif. On<br />

appelle sous-structure ∆-répétitive optimale, et on note R∆(S), une sous-structure<br />

k,∆-répétitive dont la taille est maximale pour toutes <strong>les</strong> valeurs <strong>de</strong> k possib<strong>les</strong>.<br />

Formellement, R∆(S) vérifie :<br />

|R∆(S)| = max<br />

k∈N +|Rk ∆ (S)|.<br />

Le problème <strong>de</strong> structuration hiérarchique est alors posé <strong>de</strong> la manière suivante :<br />

Problème 4 (Structuration hiérarchique) Soient u une séquence, ∆ et Γ <strong>de</strong>ux<br />

seuils décimaux et N un entier strictement positif. I<strong>de</strong>ntifier une hiérarchie H qui<br />

respecte <strong>les</strong> critères suivants :<br />

(i) Tous <strong>les</strong> motifs <strong>de</strong> H sont <strong>de</strong> taille Γ-suffisante ;<br />

(ii) Le nombre <strong>de</strong> niveaux <strong>de</strong> H est N ;<br />

(iii) Chaque niveau 1 ≤ i ≤ N <strong>de</strong> H contient la sous-structure ∆-répétitive optimale<br />

du niveau i − 1.<br />

Chaque niveau d’une hiérarchie-solution du problème est donc caractérisé par<br />

un critère d’optimalité sur un ensemble <strong>de</strong> répétitions qu’il contient.<br />

5.3.3 Algorithme<br />

Soit u une séquence <strong>de</strong> symbo<strong>les</strong>. L’objectif <strong>de</strong> l’algorithme d’inférence <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong> est d’i<strong>de</strong>ntifier une hiérarchie <strong>de</strong> répétitions <strong>dans</strong> u solution du<br />

Problème 4. Cette i<strong>de</strong>ntification est effectuée par itérations successives, chacune <strong>de</strong><br />

ces itérations introduisant une nouvelle répétition caractéristique. On pose H une<br />

hiérarchie <strong>de</strong> u. Notre algorithme est décrit sous la forme d’une récurrence sur le<br />

niveau i <strong>de</strong>s motifs <strong>de</strong> la hiérarchie H.


122 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

Séquence <strong>de</strong> <strong>de</strong>scripteurs<br />

(A) I<strong>de</strong>ntification d’une<br />

répétition principale<br />

(B) I<strong>de</strong>ntification <strong>de</strong><br />

répétitions secondaires<br />

<br />

(C) Relations <strong>de</strong> transitivité<br />

<br />

Arborescence <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong><br />

Fig. 5.3 – Vue d’ensemble <strong>de</strong> l’algorithme d’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>. A,<br />

B et C désignent <strong>les</strong> différentes étapes <strong>de</strong> l’algorithme. Les flèches remontantes<br />

représentent <strong>les</strong> processus <strong>de</strong> bouclage, ∆ et Γ désignant <strong>les</strong> paramètres sur <strong>les</strong>quels<br />

sont basées <strong>les</strong> décisions <strong>de</strong> fin <strong>de</strong> boucle.<br />

5.3.3.1 Récurrence<br />

Définition 25 Soient H une hiérarchie et i un entier positif. Pour chaque niveau<br />

i <strong>de</strong> H, on définit Hi comme l’ensemble <strong>de</strong> u contenant <strong>les</strong> motifs <strong>de</strong> H munis <strong>de</strong><br />

l’étiquette nulle Θi :<br />

Hi = {(b,e,α) ∈ H|α = Θi}.<br />

Il convient <strong>de</strong> noter que puisque pour un i donné, Hi contient <strong>les</strong> motifs non<br />

étiquetés du niveau i, Hi est une sous-séquence <strong>de</strong> motifs <strong>de</strong> u.<br />

À l’initialisation <strong>de</strong> la récurrence, aucun facteur n’est étiqueté, d’où H = H0 =<br />

{(1,n,Θ0)}.<br />

Le calcul <strong>de</strong> l’étape i <strong>de</strong> la récurrence est divisé en trois étapes complémentaires.<br />

La Figure 5.3 schématise le déroulement <strong>de</strong> ces différentes étapes, décrites en détail<br />

ci-<strong>de</strong>ssous.<br />

Dans la suite <strong>de</strong> cette section, on pose i l’étape <strong>de</strong> la récurrence en cours, et Hi<br />

l’ensemble <strong>de</strong>s motifs <strong>de</strong> H munis d’une étiquette nulle Θi.<br />

Étape A : Calcul d’une sous-structure optimale<br />

Cette étape i<strong>de</strong>ntifie une paire <strong>de</strong> motifs et leur attribue une nouvelle étiquette.<br />

Calcul A<br />

∀(b1,e1,α1) ∈ Hi, calculer s ⊛ (u[b1 . . . e1]) Tâche (i)<br />

∀((b1,e1,α1),(b2,e2,α2)) ∈ Hi × H, calculer s ∗ (u[b1 . . . e1],u[b2 . . . e2]) Tâche (ii)<br />

Chacune <strong>de</strong>s <strong>de</strong>ux tâches fournit un ensemble <strong>de</strong> scores <strong>de</strong> similarité locale ; à la<br />

fin <strong>de</strong> cette étape, on i<strong>de</strong>ntifie le score <strong>de</strong> similarité maximal smax <strong>de</strong> cet ensemble.


5.3 Inférence hiérarchique <strong>de</strong> répétitions 123<br />

Formellement,<br />

smax = max(max s ⊛ (u[b1 . . . e1])<br />

(b1,e1,α1)∈Hi<br />

,max s ∗ (u[b1 . . . e1],u[b2 . . . e2])<br />

((b1,e1,α1),(b2,e2,α2))∈Hi×H<br />

) (35)<br />

On note (b∗ 1 ,e∗1 ) et (b∗ 2 ,e∗2 ) <strong>les</strong> indices <strong>dans</strong> u <strong>de</strong>s <strong>de</strong>ux facteurs effectivement alignés<br />

v∗ 1 = u[b∗1 . . . e∗1 ] et v∗ 2 = u[b∗2 . . . e∗2 ].<br />

L’algorithme correspond alors à la suite d’opérations suivante :<br />

- On choisit une nouvelle étiquette, notée α ;<br />

- Les <strong>de</strong>ux motifs m1 = (b∗ 1 ,e∗1 ,α) et m2 = (b∗ 2 ,e∗2 ,α) sont ajoutés à H ;<br />

- On retire <strong>de</strong> H <strong>les</strong> motifs d’étiquettes Θi ;<br />

- On ajoute à H le nombre minimum <strong>de</strong> motifs d’étiquettes Θi afin que le niveau<br />

i <strong>de</strong> H recouvre u ;<br />

- On modifie Hi afin qu’il contienne exactement tous <strong>les</strong> motifs d’étiquettes nul<strong>les</strong><br />

du niveau i <strong>de</strong> H.<br />

Étape B : Calcul d’une sous-structure k,∆-répétitive<br />

Cette étape est dédiée à l’i<strong>de</strong>ntification <strong>de</strong>s autres répétitions <strong>dans</strong> u <strong>de</strong> l’occurrence<br />

du motif i<strong>de</strong>ntifié <strong>dans</strong> l’étape A.<br />

Calcul B<br />

∀(b3,e3,α3) ∈ Hi, calculer s ∗ (u[b ∗ 1 . . . e∗ 1 ],u[b3 . . . e3])<br />

On i<strong>de</strong>ntifie tous <strong>les</strong> facteurs dont le score <strong>de</strong> similarité locale avec v∗ 1 est ∆proche<br />

du score smax. En utilisant la définition 1, un facteur v = u[b3 . . . e3] est<br />

conservé si et seulement si s∗ (u[b∗ 1 . . . e∗1 ],u[b3 . . . e3]) ≥ ∆ · smax. Dans ce cas, on<br />

note (b∗ 3 ,e∗3 ) <strong>les</strong> indices <strong>dans</strong> u du facteur <strong>de</strong> v effectivement aligné.<br />

L’algorithme correspond alors à la suite d’opérations suivante :<br />

- Le motif (b∗ 3 ,e∗3 ,α) est ajouté à H ;<br />

- On retire <strong>de</strong> H <strong>les</strong> motifs d’étiquettes Θi ;<br />

- On ajoute à H le nombre minimum <strong>de</strong> motifs d’étiquettes nul<strong>les</strong> Θi afin que le<br />

niveau i <strong>de</strong> H recouvre u ;<br />

- Hi est modifié afin qu’il contienne exactement <strong>les</strong> motifs d’étiquettes nul<strong>les</strong> du<br />

niveau i <strong>de</strong> H.<br />

Étape C : Calcul d’une sous-structure ∆-répétitive optimale<br />

On note M1, M2 et M3 <strong>les</strong> motifs <strong>de</strong> niveau i−1 d’étiquettes respectives β1, β2 et<br />

β3 qui dominent respectivement m1, m2 et m3. On désigne alors par M l’ensemble<br />

<strong>de</strong>s motifs <strong>de</strong> niveau i − 1 <strong>de</strong> même étiquette que l’un <strong>de</strong>s motifs M1, M2 ou M3 et<br />

distincts <strong>de</strong> ces <strong>de</strong>rniers :<br />

M = {(b4,e4,α4) ∈ H\{M1,M2,M3}|α4 ∈ {β1,β2,β3}}.


124 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

Calcul C<br />

∀(b4,e4,α4) ∈ M, calculer s ∗ (u[b ∗ 1 . . . e∗ 1 ],u[b4 . . . e4])<br />

Ce processus est effectué pour chaque motif M <strong>de</strong> M. Quel que soit le score<br />

<strong>de</strong> similarité obtenu, le facteur <strong>de</strong> l’occurrence <strong>de</strong> M effectivement aligné, noté<br />

v = u[b4 . . . e4], est conservé.<br />

L’algorithme correspond alors à la suite d’opérations suivante :<br />

- Pour chaque motif <strong>de</strong> M, le motif (b4,e4,α) obtenu par le calcul ci-<strong>de</strong>ssus est<br />

ajouté à H ;<br />

- On retire <strong>de</strong> H <strong>les</strong> motifs d’étiquettes Θi ;<br />

- On ajoute à H le nombre minimum <strong>de</strong> motifs d’étiquettes nul<strong>les</strong> Θi afin que le<br />

niveau i <strong>de</strong> H recouvre u ;<br />

- Hi est modifié afin qu’il contienne exactement <strong>les</strong> motifs d’étiquettes nul<strong>les</strong> du<br />

niveau i <strong>de</strong> H.<br />

Conditions d’arrêt<br />

Les trois étapes introduites ci-<strong>de</strong>ssus sont répétées jusqu’à ce que l’une <strong>de</strong>s<br />

conditions d’arrêt sur Hi suivantes soit vérifiée :<br />

(i) L’ensemble <strong>de</strong>s motifs d’étiquettes non nul<strong>les</strong> du niveau i <strong>de</strong> H recouvre u :<br />

Hi = ∅ ;<br />

(ii) Toutes <strong>les</strong> occurrences <strong>de</strong> motifs d’étiquettes nul<strong>les</strong> du niveau i <strong>de</strong> H sont <strong>de</strong><br />

taille Γ-insuffisante. Avec le critère défini en 2, on a alors :<br />

5.3.3.2 Propriétés<br />

∀(b,e,α) ∈ Hi, e − b < Γ|u|.<br />

Dans cette section, nous détaillons <strong>les</strong> propriétés <strong>de</strong>s motifs i<strong>de</strong>ntifiés par l’algorithme<br />

exposé ci-<strong>de</strong>ssus. Nous exposons formellement ces différentes propriétés et<br />

proposons une interprétation musicale, lorsqu’adaptée.<br />

Caractérisation <strong>de</strong> l’étape A<br />

L’étape A est divisée en <strong>de</strong>ux tâches. La tâche (i) consiste à calculer <strong>les</strong> répétitions<br />

majeures pour toutes <strong>les</strong> occurrences <strong>de</strong> motifs. La tâche (ii) permet <strong>de</strong> calculer<br />

la meilleure répétition d’une occurrence <strong>de</strong> motif non étiqueté. Par conséquent, cette<br />

étape permet <strong>de</strong> comparer toutes <strong>les</strong> occurrences <strong>de</strong> motifs non étiquetés avec le<br />

reste <strong>de</strong>s facteurs <strong>de</strong> u, en préservant la contrainte <strong>de</strong> non chevauchement avec une<br />

section déjà étiquetée.<br />

Proposition 11 (Étape A) Le résultat <strong>de</strong> l’étape A correspond à la répétition non<br />

chevauchante la plus significative entre l’occurrence d’un motif d’étiquette nulle au<br />

niveau i et un autre facteur <strong>de</strong> u.


5.3 Inférence hiérarchique <strong>de</strong> répétitions 125<br />

L’étape A introduit ainsi un nouveau motif <strong>dans</strong> la hiérarchie. Ce nouveau motif<br />

est choisi par un critère d’optimalité du score <strong>de</strong> similarité locale : il correspond à<br />

un compromis entre la répétition <strong>de</strong> plus fort <strong>de</strong>gré <strong>de</strong> similarité et <strong>de</strong> plus longue<br />

taille. L’ordre <strong>de</strong>s répétitions musica<strong>les</strong> introduites par l’algorithme d’inférence est<br />

donc directement lié à l’aspect significatif <strong>de</strong>s <strong>structures</strong> <strong>répétitives</strong> détectées : si une<br />

première répétition est introduite avant une <strong>de</strong>uxième par l’algorithme d’inférence,<br />

alors la celle-ci est plus significative que la <strong>de</strong>uxième.<br />

Caractérisation <strong>de</strong> l’étape B<br />

L’étape B recherche <strong>les</strong> motifs correspondant à <strong>de</strong>s répétitions multip<strong>les</strong> <strong>de</strong>s<br />

occurrences <strong>de</strong>s motifs i<strong>de</strong>ntifiés en étape A.<br />

Proposition 12 (Étape B) À l’issue <strong>de</strong> l’étape B, toutes <strong>les</strong> répétitions <strong>de</strong> l’occurrence<br />

du motif i<strong>de</strong>ntifié en A <strong>dans</strong> <strong>de</strong>s motifs non étiquetés ont été i<strong>de</strong>ntifiées.<br />

Cette étape est construite afin <strong>de</strong> détecter <strong>les</strong> répétitions musica<strong>les</strong> multip<strong>les</strong>. Le<br />

seuil ∆ est nécessaire pour assurer une robustesse à <strong>de</strong>s variations musica<strong>les</strong> légères.<br />

Par exemple, afin d’i<strong>de</strong>ntifier plusieurs couplets <strong>dans</strong> un morceau, il est important<br />

<strong>de</strong> considérer une légère tolérance sur le score <strong>de</strong> similarité calculé, ces couplets<br />

pouvant présenter quelques différences sur <strong>les</strong> paro<strong>les</strong>, <strong>les</strong> instruments, la mélodie<br />

etc.<br />

Caractérisation <strong>de</strong> l’étape C<br />

La tâche (ii) <strong>de</strong> l’étape A peut introduire un nouveau motif, étiqueté α, susceptible<br />

d’être dominé par un motif i<strong>de</strong>ntifié lors d’une itération précé<strong>de</strong>nte <strong>de</strong> la<br />

récurrence, étiqueté β. L’étape C assure que <strong>les</strong> relations <strong>de</strong> transitivité hiérarchiques<br />

soient appliquées.<br />

Proposition 13 (Étape C) À l’issue <strong>de</strong> l’étape C, tous <strong>les</strong> motifs d’étiquette β<br />

dominent un motif d’étiquette α.<br />

Cette étape est cruciale pour assurer une bonne représentation <strong>de</strong>s niveaux hiérarchiques<br />

<strong>de</strong> la structure répétitive. En effet, grâce à l’application <strong>de</strong> la transitivité,<br />

toute création d’un lien <strong>de</strong> filiation, sous-jacente à la domination d’un motif par un<br />

autre, donne lieu à la création <strong>de</strong> tous <strong>les</strong> liens <strong>de</strong> filiation <strong>de</strong>s motifs similaires.<br />

Terminaison<br />

La terminaison <strong>de</strong> l’algorithme est assurée par la proposition suivante :<br />

Proposition 14 (Terminaison) La taille <strong>de</strong> la sous-séquence <strong>de</strong> motifs Hi est<br />

décroissante suivant i.<br />

Preuve 3 Soit i une étape <strong>de</strong> la récurrence. La proposition 11 indique que l’étape<br />

A <strong>de</strong> l’algorithme introduit nécessairement une répétition correspondant à l’occurrence<br />

d’un motif d’étiquette nulle appartenant au niveau i, donc à l’un <strong>de</strong>s éléments<br />

<strong>de</strong> Hi, noté mΘ. En conséquence, mΘ domine ce nouveau motif m. La redéfinition<br />

<strong>dans</strong> l’étape A <strong>de</strong>s motifs d’étiquettes nul<strong>les</strong> supprime alors le motif mΘ, et introduit


126 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

un ensemble E <strong>de</strong> motifs dont <strong>les</strong> occurrences sont non chevauchantes avec l’occurrence<br />

<strong>de</strong> m. Or, E est défini par le nombre minimum d’éléments nécessaires pour<br />

compléter le niveau i ; on en déduit que l’occurrence <strong>de</strong> m est disjointe <strong>de</strong> toute occurrence<br />

d’un motif introduit. En conséquence, la somme <strong>de</strong>s tail<strong>les</strong> <strong>de</strong> motifs <strong>de</strong> E<br />

est inférieure à la taille <strong>de</strong> mΘ, d’où la taille <strong>de</strong> Hi décroît à l’issue <strong>de</strong> l’application<br />

<strong>de</strong> l’étape A.<br />

Puisque l’une <strong>de</strong>s conditions d’arrêt <strong>de</strong> la récurrence porte sur la taille <strong>de</strong>s<br />

éléments <strong>de</strong> Hi, la décroissance <strong>de</strong> celle-ci assure la terminaison <strong>de</strong> l’algorithme.<br />

Propriétés globa<strong>les</strong><br />

Soient u une séquence, et H une hiérarchie sur u calculée par l’algorithme ci<strong>de</strong>ssus.<br />

Proposition 15 (Recouvrement <strong>de</strong> H) Chaque niveau <strong>de</strong> H recouvre u.<br />

Proposition 16 (Niveau d’une itération) À chaque itération <strong>de</strong> la récurrence,<br />

<strong>les</strong> motifs introduits par <strong>les</strong> étapes A, B et C sont tous sur le même niveau hiérarchique<br />

<strong>dans</strong> H.<br />

Preuve 4 Notons MA l’ensemble <strong>de</strong>s motifs introduits par l’étape A. Par construction,<br />

ces motifs correspon<strong>de</strong>nt à la détection d’une nouvelle répétition à partir <strong>de</strong><br />

la hiérarchie à l’étape i, donc au niveau i <strong>de</strong> H. L’étape B recherche <strong>de</strong>s répétitions<br />

entre le motif i<strong>de</strong>ntifié par l’étape A et un motif <strong>de</strong> Hi ; par conséquent, l’étape B ne<br />

peut introduire un motif dominé par un motif <strong>de</strong> l’étape A. D’une manière similaire,<br />

l’étape C n’introduit pas <strong>de</strong> motif dominé par un motif <strong>de</strong>s <strong>de</strong>ux étapes précé<strong>de</strong>ntes.<br />

On en déduit que toutes <strong>les</strong> occurrences <strong>de</strong>s motifs introduits <strong>dans</strong> ces trois étapes<br />

sont sur le même niveau hiérarchique <strong>dans</strong> H.<br />

Proposition 17 (Étiquettes et niveau hiérarchique) Deux motifs <strong>de</strong> H possédant<br />

la même étiquette appartiennent au même niveau hiérarchique.<br />

Preuve 5 Pour une itération <strong>de</strong> la récurrence, l’étape A n’attribue à <strong>de</strong>s motifs que<br />

<strong>de</strong>s étiquettes nouvellement choisies. Les étapes B et C, quant à el<strong>les</strong>, ne peuvent<br />

attribuer que la même étiquette que l’étape A, ou <strong>de</strong>s nouvel<strong>les</strong> étiquettes. Par<br />

construction, A, B et C n’attribuent donc jamais d’étiquettes déjà attribuées <strong>dans</strong><br />

<strong>de</strong>s itérations précé<strong>de</strong>ntes : un ensemble d’étiquettes est propre à chaque itération <strong>de</strong><br />

la récurrence. Puisqu’à une itération correspond un seul niveau hiérarchique (Proposition<br />

16), on en déduit la propriété souhaitée.<br />

5.3.3.3 Exemple d’exécution<br />

La Figure 5.4 décrit un exemple <strong>de</strong> l’exécution <strong>de</strong> l’algorithme défini précé<strong>de</strong>mment.<br />

À chaque étape, l’ensemble Hi <strong>de</strong>s motifs d’étiquettes nul<strong>les</strong> au niveau<br />

i est représenté par <strong>de</strong>s sections blanches. Les sections noires indiquent <strong>les</strong> motifs<br />

i<strong>de</strong>ntifiés à chaque étape.<br />

(i) présente le motif initial (1,n,Θ0) ;<br />

(ii) montre le résultat <strong>de</strong> l’étape A <strong>de</strong> la récurrence. Puisque H1 ne contient que<br />

le motif initial, le score s1 <strong>de</strong> répétition majeure est calculé (tâche (i) <strong>de</strong> A),<br />

et <strong>de</strong>ux motifs à la même étiquette α sont définis ;


(i)<br />

(ii)<br />

(iii)<br />

(iv)<br />

(v)<br />

(vii)<br />

(viii)<br />

5.3 Inférence hiérarchique <strong>de</strong> répétitions 127<br />

<br />

<br />

<br />

<br />

(vi) <br />

(B)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Fig. 5.4 – Exemple d’exécution étape par étape <strong>de</strong> l’algorithme d’inférence <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong> (voir texte).<br />

<br />

(iii) l’étape B <strong>de</strong> la récurrence permet d’i<strong>de</strong>ntifier un nouveau facteur <strong>de</strong> score <strong>de</strong><br />

similarité s ′ 1 avec la section i<strong>de</strong>ntifiée précé<strong>de</strong>mment. Ce score étant ∆-proche<br />

<strong>de</strong> s1, un nouveau motif étiqueté α est défini ;<br />

(iv) prend en compte <strong>de</strong>s possib<strong>les</strong> relations <strong>de</strong> transitivité, aucune n’étant applicable<br />

à ce point <strong>de</strong> l’algorithme ;<br />

(v) présente la première étape <strong>de</strong> l’itération suivante <strong>de</strong> la récurrence. Une nouvelle<br />

répétition est i<strong>de</strong>ntifiée comme principale, et <strong>de</strong>ux motifs à la nouvelle<br />

étiquette β sont définis. Cette répétition correspond à l’alignement entre l’occurrence<br />

d’un motif d’étiquette nulle et l’occurrence d’un motif déjà étiqueté<br />

α. Puisque le second motif est dominé par un motif déjà étiqueté, une nouvelle<br />

étiquette γ est ajoutée ;<br />

(vi) montre l’étape B <strong>de</strong> recherche <strong>de</strong> répétitions secondaires, qui ne détecte aucune<br />

nouvelle répétition pour cette itération ;<br />

(vii) et (viii) prennent en compte <strong>de</strong>s relations <strong>de</strong> transitivité pour insérer <strong>de</strong> nouveaux<br />

motifs étiquetés β pour chaque motif étiqueté α i<strong>de</strong>ntifié précé<strong>de</strong>mment.<br />

À l’issue <strong>de</strong> l’étape (viii), <strong>les</strong> motifs restants <strong>dans</strong> H2 sont jugés <strong>de</strong> tail<strong>les</strong> Γinsuffisantes,<br />

et l’algorithme termine.<br />

La Figure 5.5 représente la structure arborescente ainsi calculée. (ii) représente<br />

le résultat <strong>de</strong> la première itération <strong>de</strong> la récurrence, à laquelle l’étiquette α est<br />

introduite, et (iii) représente le résultat <strong>de</strong> la secon<strong>de</strong> itération, à laquelle l’étiquette<br />

β est introduite.<br />

La Figure 5.5-(iv) illustre une représentation extraite <strong>de</strong> l’arbre, définie comme<br />

la sous-séquence <strong>de</strong> motifs du <strong>de</strong>uxième niveau hiérarchique dont <strong>les</strong> étiquettes<br />

nul<strong>les</strong> ont été remplacées par autant <strong>de</strong> nouvel<strong>les</strong> étiquettes.<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

(A)<br />

(B)<br />

(C)<br />

(A)<br />

(C)<br />

(C)


128 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

(i)<br />

(ii)<br />

(iii)<br />

<br />

<br />

<br />

(iv) A B A C B A D B A E<br />

Fig. 5.5 – Exemple <strong>de</strong> résultat <strong>de</strong> l’algorithme d’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>.<br />

En (i)-(ii)-(iii) sont représentés <strong>les</strong> trois niveaux <strong>de</strong> la structure arborescente calculée,<br />

(ii) correspondant au résultat <strong>de</strong> la première itération <strong>de</strong> la récurrence et (iii)<br />

au résultat <strong>de</strong> la secon<strong>de</strong>. (iv) montre la représentation séquentielle du niveau 2 <strong>de</strong><br />

l’arbre.<br />

5.3.4 Expériences et résultats<br />

La Figure 5.6-(ii) représente un exemple <strong>de</strong> résultat <strong>de</strong> la hiérarchie structurelle<br />

calculée par notre algorithme d’inférence sur le morceau Eine Kleine Nachtmusik<br />

<strong>de</strong> Mozart. Afin <strong>de</strong> juger du résultat, l’annotation <strong>de</strong> ce morceau [Wri07] a été représentée<br />

en Figure 5.6-(i) 1 . Ce morceau suit une forme sonate, dont le schéma<br />

général est représenté en Figure 5.2-(i). Seuls <strong>les</strong> quatre premiers niveaux <strong>de</strong> la hiérarchie<br />

sont représentés. Le premier niveau i<strong>de</strong>ntifie la structure correspondant à<br />

la répétition <strong>de</strong> l’exposition (motifs d’étiquette E). La répétition secondaire correspondant<br />

à la réexposition n’est pas i<strong>de</strong>ntifiée par notre algorithme, probablement<br />

à cause d’une trop forte variation <strong>de</strong>s <strong>séquences</strong> tona<strong>les</strong> <strong>dans</strong> sa secon<strong>de</strong> partie (représentée<br />

par <strong>les</strong> motifs T ′ 2 et T ′ 3 <strong>dans</strong> l’annotation). Le <strong>de</strong>uxième niveau représente<br />

l’i<strong>de</strong>ntification du premier thème T1 <strong>de</strong> l’exposition. On remarque qu’une répétition<br />

<strong>de</strong> ce motif T1 est également i<strong>de</strong>ntifiée <strong>dans</strong> la réexposition. Ce motif témoigne <strong>de</strong><br />

la forte similarité entre <strong>les</strong> débuts <strong>de</strong>s expositions et réexposition. Le niveau (iii)<br />

introduit le motif A1 correspondant notamment au premier thème <strong>de</strong> l’exposition.<br />

Ce motif est également i<strong>de</strong>ntifié au sein du développement (motif D <strong>dans</strong> l’annotation)<br />

et <strong>dans</strong> la réexposition. Il convient <strong>de</strong> noter que notre implémentation emploie<br />

<strong>dans</strong> cet exemple <strong>de</strong>s calculs <strong>de</strong> similarité robustes aux transpositions loca<strong>les</strong> (voir<br />

Section 3.1.5), permettant ainsi d’i<strong>de</strong>ntifier le motif A1 comme répété au sein du<br />

développement D malgré une transposition <strong>de</strong> celui-ci.<br />

Cet exemple met en avant la pertinence <strong>de</strong> la hiérarchie structurelle i<strong>de</strong>ntifiée.<br />

Bien que celle-ci ne soit pas aussi complète et précise que la vérité-terrain, elle<br />

présente <strong>de</strong> fortes similitu<strong>de</strong>s sur la forme sonate étudiée.<br />

La section suivante évalue plus précisément la qualité <strong>de</strong>s résultats <strong>de</strong> notre<br />

algorithme d’inférence en <strong>les</strong> comparant à l’état <strong>de</strong> l’art.<br />

1. Voir http://oyc.yale.edu/music/musi-112/lecture-9 pour une présentation détaillée et commentée<br />

<strong>de</strong> cette structure par C. Wright (Accédé en Septembre 2012).


5.3 Inférence hiérarchique <strong>de</strong> répétitions 129<br />

<br />

<br />

<br />

(i)<br />

<br />

<br />

<br />

(ii)<br />

<br />

<br />

<br />

<br />

<br />

Fig. 5.6 – Exemple <strong>de</strong> résultat <strong>de</strong> l’inférence hiérarchique calculée par notre algorithme sur le morceau Eine Kleine Nachtmusik <strong>de</strong> Mozart<br />

(forme sonate). (i) : Annotation <strong>de</strong>s répétitions sur différents niveaux caractéristiques <strong>de</strong> la forme sonate [Wri07]. (ii) : Résultat <strong>de</strong> l’algorithme<br />

d’inférence hiérarchique.


130 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

5.3.4.1 Évaluation <strong>de</strong> segmentations structurel<strong>les</strong><br />

Comme expliqué précé<strong>de</strong>mment, la structuration répétitive est systématiquement<br />

calculée sous la forme <strong>de</strong> segmentations structurel<strong>les</strong>. Il n’existe pas à l’heure<br />

actuelle <strong>de</strong> procédure d’évaluation <strong>de</strong> hiérarchies <strong>de</strong> répétitions. Dans cette section,<br />

nous proposons donc d’évaluer une segmentation structurelle issue <strong>de</strong> la représentation<br />

hiérarchique obtenue par notre algorithme.<br />

L’obtention d’une segmentation structurelle à partir d’une hiérarchie peut aisément<br />

être effectuée en isolant un niveau hiérarchique et en l’étiquetant entièrement,<br />

comme l’indique la Définition 17.<br />

Les expériences décrites <strong>dans</strong> <strong>les</strong> sections suivantes correspon<strong>de</strong>nt à <strong>de</strong>s évaluations<br />

<strong>de</strong> notre algorithme <strong>dans</strong> le cadre du Music Information Retrieval Evaluation<br />

eXchange (MIREX) 1 [Dow08, DEBJ10]. L’intérêt scientifique <strong>de</strong> l’évaluation<br />

MIREX est d’assurer <strong>de</strong>s conditions expérimenta<strong>les</strong> i<strong>de</strong>ntiques entre <strong>les</strong> métho<strong>de</strong>s<br />

testées, et ainsi <strong>de</strong> permettre une comparaison fiable <strong>de</strong>s algorithmes existants. Les<br />

résultats présentés <strong>dans</strong> cette section correspon<strong>de</strong>nt à la tâche d’évaluation <strong>de</strong> segmentations<br />

structurel<strong>les</strong> <strong>de</strong> 2010 2 et au complément d’évaluation <strong>de</strong> cette tâche,<br />

publié par l’équipe du MIREX en 2011 [EMD + 11].<br />

5.3.4.2 Bases <strong>de</strong> données<br />

Trois bases <strong>de</strong> tests sont utilisées <strong>dans</strong> le cadre <strong>de</strong>s évaluations <strong>de</strong> segmentation<br />

structurelle MIREX. Puisque l’inférence <strong>de</strong> <strong>structures</strong> musica<strong>les</strong> est étudiée <strong>dans</strong><br />

la littérature sous une approche séquentielle, consistant à i<strong>de</strong>ntifier <strong>de</strong>s segmentations<br />

structurel<strong>les</strong>, ces bases <strong>de</strong> tests comprennent <strong>de</strong>s annotations <strong>de</strong>s répétitions<br />

musica<strong>les</strong> sous la forme <strong>de</strong> sous-<strong>séquences</strong> <strong>de</strong> motifs recouvrantes.<br />

La première base <strong>de</strong> tests, notée ST RUCTA, correspond à l’agrégation d’annotations<br />

réalisées par différents laboratoires et universités 3 et est notamment distribuée<br />

via le projet OMRAS2 4 [MCD + 09]. Elle se compose d’un ensemble <strong>de</strong> 297 annotations<br />

<strong>de</strong> la structuration <strong>de</strong>s morceaux <strong>de</strong> musique <strong>de</strong> différents artistes <strong>de</strong> musique<br />

populaire occi<strong>de</strong>ntale, réalisées par <strong>de</strong>s experts.<br />

La <strong>de</strong>uxième base <strong>de</strong> tests, notée ST RUCTB, est un produit du projet Quæro 5<br />

et comporte un ensemble d’annotations <strong>de</strong> segments structurels effectuées selon <strong>les</strong><br />

critères d’annotation décrits <strong>dans</strong> [BLBSV10]. Cel<strong>les</strong>-ci sont réalisées sur <strong>les</strong> 100<br />

morceaux <strong>de</strong> la base <strong>de</strong> données RWC Pop Database [GHNO02] réalisées par <strong>de</strong>s<br />

experts. Il convient <strong>de</strong> noter que cette base <strong>de</strong> données n’assigne pas d’étiquettes<br />

aux motifs i<strong>de</strong>ntifiés, mais renseigne uniquement sur <strong>les</strong> frontières entre éléments<br />

structurels.<br />

La troisième base <strong>de</strong> tests, notée ST RUCTC, est fournie par le projet Structural<br />

Analysis of Large Amounts of Music Information (SALAMI) 6 [SBF + 11] et<br />

comporte un ensemble d’annotations <strong>de</strong> segmentations structurel<strong>les</strong> réalisées par<br />

1. http://www.music-ir.org/mirexwiki<br />

2. http://www.music-ir.org/mirex/wiki/2010:Structural_Segmentation<br />

3. Dont notamment IRCAM Paris, Queen Mary University of London, Universitat Pompeu Fabra,<br />

Barcelona et Tampere University of Technology, voir [PD09] pour un <strong>de</strong>scriptif <strong>de</strong>s contributions<br />

4. http://isophonics.net/content/reference-annotations<br />

5. http://www.quaero.org<br />

6. http://ddmal.music.mcgill.ca/research/salami/annotations


5.3 Inférence hiérarchique <strong>de</strong> répétitions 131<br />

(a) Peeters [PBR02, Pee04, Pee07]<br />

(b) Weiss, Bello [WB10]<br />

(c) Métho<strong>de</strong> proposée [MHR + 10]<br />

(d) Mauch, Noland, Dixon [MND09]<br />

(e) Sargent et al. 1 [SBV10]<br />

(f) Sargent et al. 2 [SBV10]<br />

Tab. 5.2 – Nomenclature <strong>de</strong>s métho<strong>de</strong>s évaluées.<br />

<strong>de</strong>s experts selon <strong>les</strong> principes d’annotation exposés <strong>dans</strong> [PD09]. Cette vérité terrain<br />

annote 1383 morceaux <strong>de</strong> sty<strong>les</strong> occi<strong>de</strong>ntaux variés. Elle possè<strong>de</strong> en outre <strong>de</strong>ux<br />

particularités par rapport aux autres bases <strong>de</strong> test :<br />

1. Tous <strong>les</strong> morceaux sont annotés par chaque expert sur 2 niveaux <strong>de</strong> <strong>de</strong>scription<br />

structurelle répétitive ;<br />

2. 1048 morceaux sont annotés par 2 experts différents.<br />

Les métho<strong>de</strong>s <strong>de</strong> l’état <strong>de</strong> l’art auxquel<strong>les</strong> notre technique est comparée correspon<strong>de</strong>nt<br />

aux algorithmes soumis à la tâche MIREX 2010 et sont listées <strong>dans</strong> le<br />

Tableau 5.2. Pour plus <strong>de</strong> détails sur chacune <strong>de</strong>s métho<strong>de</strong>s, nous invitons le lecteur<br />

à se référer à la Section 5.1. Outre l’évaluation sur <strong>les</strong> bases ST RUCTA et<br />

ST RUCTB <strong>dans</strong> le cadre <strong>de</strong> cette tâche, ces métho<strong>de</strong>s ont également été évaluées<br />

sur la base <strong>de</strong> données ST RUCTC <strong>dans</strong> le contexte d’un complément d’évaluation<br />

publié par l’équipe du MIREX [EMD + 11]. Il convient <strong>de</strong> préciser que <strong>les</strong> résultats<br />

d’évaluation effectués <strong>dans</strong> <strong>les</strong> campagnes d’évaluation MIREX 2011 et MIREX<br />

2012 ne sont pas rapportés <strong>dans</strong> notre étu<strong>de</strong>, la première campagne ne considérant<br />

pas la base conséquente ST RUCTC comme ensemble <strong>de</strong> test, et la secon<strong>de</strong> n’étant<br />

pas finalisée à la date d’écriture <strong>de</strong> ce manuscrit. Les métho<strong>de</strong>s <strong>de</strong> l’état <strong>de</strong> l’art<br />

présentées <strong>dans</strong> ces travaux sont ainsi <strong>les</strong> seu<strong>les</strong>, à la date <strong>de</strong> septembre 2012, à<br />

avoir été évaluées par l’équipe du MIREX sur <strong>les</strong> trois bases <strong>de</strong> données décrites<br />

ci-<strong>de</strong>ssus. Si ce choix nous permet <strong>de</strong> comparer <strong>les</strong> métho<strong>de</strong>s <strong>de</strong> l’état <strong>de</strong> l’art sous<br />

<strong>de</strong>s conditions d’évaluation communes, il est important <strong>de</strong> nuancer <strong>les</strong> conclusions<br />

expérimenta<strong>les</strong> effectuées <strong>dans</strong> <strong>les</strong> sections suivantes par leur relative ancienneté à<br />

la date <strong>de</strong> publication <strong>de</strong> ce manuscrit.<br />

5.3.4.3 Métriques d’évaluation<br />

Quantifier la similarité entre <strong>de</strong>ux <strong>de</strong>scriptions structurel<strong>les</strong> est un problème<br />

complexe [Luk08], comme exposé <strong>dans</strong> cette section. Les mesures d’évaluation <strong>de</strong><br />

segmentations structurel<strong>les</strong> utilisées <strong>dans</strong> la littérature peuvent être regroupées en<br />

<strong>de</strong>ux catégories :<br />

- Les mesures d’évaluation <strong>de</strong>s frontières structurel<strong>les</strong><br />

- Les mesures d’évaluation <strong>de</strong>s motifs<br />

Deux mesures d’évaluation <strong>de</strong>s frontières sont principalement utilisées.<br />

Rappel et précision <strong>de</strong>s frontières La première mesure permet d’appliquer un<br />

schéma classique <strong>de</strong> calcul <strong>de</strong> rappel/précision [MRS08] sur <strong>les</strong> frontières <strong>de</strong> <strong>de</strong>ux<br />

segmentations structurel<strong>les</strong>, en permettant <strong>de</strong> légères variations temporel<strong>les</strong> <strong>de</strong> leur<br />

position [TL07]. Pour une taille <strong>de</strong> fenêtre fixée x, un faux négatif (respectivement<br />

faux positif ) correspond à une frontière présente à la date t <strong>dans</strong> la vérité terrain


132 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

F@0.5 P@0.5 R@0.5 F@3 P@3 R@3 M A|E M E|A<br />

(a) 0.23 0.23 0.23 0.57 0.58 0.59 1.57 1.79<br />

(b) 0.29 0.36 0.25 0.58 0.72 0.50 3.60 1.58<br />

(c) 0.20 0.32 0.15 0.49 0.75 0.37 4.36 1.61<br />

(d) 0.36 0.44 0.32 0.61 0.74 0.54 2.66 1.27<br />

(e) 0.23 0.24 0.24 0.61 0.62 0.62 2.12 2.22<br />

(f) 0.24 0.25 0.24 0.61 0.62 0.62 2.73 2.16<br />

Tab. 5.3 – Résultats <strong>de</strong> l’évaluation MIREX 2010 sur la base <strong>de</strong> données ST RUCTB<br />

pour <strong>les</strong> 6 métho<strong>de</strong>s soumises. L’évaluation ne porte que sur <strong>les</strong> frontières.<br />

(resp. <strong>dans</strong> la segmentation estimée), mais absente à une date comprise entre t − x<br />

et t+x <strong>dans</strong> la segmentation estimée (resp. <strong>dans</strong> la vérité terrain). À partir <strong>de</strong> cette<br />

estimation simple, la mesure fournit alors un score <strong>de</strong> précision P@x, un score <strong>de</strong><br />

rappel R@x et une F-mesure F@x.<br />

Écarts médians entre frontières Une alternative à cette mesure pour l’estimation<br />

<strong>de</strong>s frontières consiste à calculer la durée médiane entre <strong>les</strong> frontières <strong>de</strong><br />

l’annotation et <strong>les</strong> frontières calculées automatiquement, et vice-versa [TL07]. On<br />

obtient alors <strong>les</strong> <strong>de</strong>ux mesures M A|E et M E|A, désignant respectivement la médiane<br />

<strong>de</strong>s durées entre <strong>les</strong> frontières annotées et <strong>les</strong> frontières estimées <strong>les</strong> plus proches,<br />

et la médiane <strong>de</strong>s durées entre <strong>les</strong> frontières estimées et <strong>les</strong> frontières annotées <strong>les</strong><br />

plus proches. Aux systèmes <strong>les</strong> plus précis doivent donc correspondre <strong>de</strong>s valeurs<br />

faib<strong>les</strong>.<br />

L’évaluation <strong>de</strong>s motifs i<strong>de</strong>ntifiés peut être effectuée à l’ai<strong>de</strong> <strong>de</strong>s <strong>de</strong>ux mesures<br />

suivantes.<br />

Rappel et précision <strong>de</strong> l’étiquetage trame-à-trame Afin <strong>de</strong> comparer <strong>les</strong><br />

motifs <strong>de</strong> <strong>de</strong>ux segmentations structurel<strong>les</strong>, Levy et Sandler [LS08] proposent une<br />

adaptation du schéma <strong>de</strong> calcul rappel/précision [MRS08] à l’échelle temporelle la<br />

plus petite, la trame <strong>de</strong> signal. Plus précisément, on note Fa (respectivement Fe)<br />

l’ensemble <strong>de</strong>s paires <strong>de</strong> trames dominées par <strong>de</strong>s motifs d’une même étiquette <strong>dans</strong><br />

la structure annotée (resp. <strong>dans</strong> la structure estimée). Les scores <strong>de</strong> précision Pp et<br />

rappel Rp trame-à-trame sont alors définis [LS08] par :<br />

Pp = |Fe ∩ Fa|<br />

|Fe|<br />

et Rp = |Fe ∩ Fa|<br />

.<br />

|Fa|<br />

Ces mesures <strong>de</strong> rappel et précision peuvent être résumées en une F-mesure [MRS08],<br />

notée Fp. Cette métrique permet d’obtenir une estimation précise <strong>de</strong> la similarité<br />

entre <strong>de</strong>ux segmentations structurel<strong>les</strong>. En revanche, elle ne tient pas compte <strong>de</strong><br />

l’échelle temporelle <strong>de</strong> <strong>de</strong>scription <strong>de</strong> la structure. Comme le soulignent notamment<br />

Paulus et Klapuri [PK06], Chai [Cha05] ou Lukashevich [Luk08], cette mesure fonctionne<br />

par paires <strong>de</strong> trames mais ne prend pas en compte l’ordre <strong>de</strong> ces trames. En<br />

d’autres termes, elle ne tient pas compte <strong>de</strong>s différences potentiel<strong>les</strong> d’échel<strong>les</strong> temporel<strong>les</strong><br />

<strong>de</strong> <strong>de</strong>scription (niveaux hiérarchiques) entre <strong>les</strong> <strong>de</strong>ux segmentations structurel<strong>les</strong><br />

comparées [PMK10]. La mesure suivante permet une plus gran<strong>de</strong> robustesse<br />

à cette différence <strong>de</strong> niveau.


Nombre <strong>de</strong> morceaux (%)<br />

5.3 Inférence hiérarchique <strong>de</strong> répétitions 133<br />

% of pieces<br />

% of pieces<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 1 2 3 4 5 6 7 8 9 > 10<br />

Median durations, in seconds<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 1 2 3 4 5 6 7 8 9 > 10<br />

Median durations, in seconds<br />

% of pieces<br />

% of pieces<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 1 2 3 4 5 6 7 8 9 > 10<br />

Median durations, in seconds<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 1 2 3 4 5 6 7 8 9 > 10<br />

Median durations, in seconds<br />

% of pieces<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 1 2 3 4 5 6 7 8 9 > 10<br />

(a) (b) (c)<br />

Durées médianes (s)<br />

% of pieces<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

Median durations, in seconds<br />

0 1 2 3 4 5 6 7 8 9 > 10<br />

Median durations, in seconds<br />

(d) (e) (f)<br />

Fig. 5.7 – Distribution <strong>de</strong>s durées médianes entre frontières i<strong>de</strong>ntifiées et annotées<br />

sur <strong>les</strong> bases <strong>de</strong> données ST RUCTA et ST RUCTB. La durée M A|E est représentée<br />

en noir, et la durée M E|A en gris.<br />

Information mutuelle La structure musicale ayant une nature hiérarchique, sa<br />

<strong>de</strong>scription sous forme <strong>de</strong> séquence peut être effectuée à différentes échel<strong>les</strong> temporel<strong>les</strong>.<br />

Ainsi, il est possible que la segmentation estimée et la segmentation annotée<br />

décrivent chacune une structuration plausible, mais ne se trouvent pas sur une<br />

même échelle <strong>de</strong> <strong>de</strong>scription. Afin <strong>de</strong> prendre en compte cette éventualité, Lukashevich<br />

[Luk08] introduit <strong>de</strong>ux scores d’évaluation So et Su, respectivement score<br />

<strong>de</strong> sur-segmentation et score <strong>de</strong> sous-segmentation pour comparer <strong>de</strong>ux segmentations<br />

structurel<strong>les</strong> séquentiel<strong>les</strong> sur leur échelle temporelle <strong>de</strong> <strong>de</strong>scription. Ces mesures<br />

sont basées sur le travail d’Abdallah et al. [ANS + 05] qui estime <strong>de</strong>s entropies<br />

conditionnel<strong>les</strong> <strong>dans</strong> le cadre d’un estimateur Bayésien et montre que ces gran<strong>de</strong>urs<br />

quantifient <strong>de</strong> manière précise et distincte la quantité d’information manquante<br />

d’une part, et la quantité d’information superflue d’autre part pour la comparaison<br />

<strong>de</strong> segmentation structurel<strong>les</strong>.<br />

5.3.4.4 Évaluation <strong>de</strong>s frontières<br />

On propose tout d’abord d’évaluer <strong>les</strong> frontières <strong>de</strong> la segmentation estimée<br />

et leur correspondance à cel<strong>les</strong> <strong>de</strong> la vérité terrain. Le Tableau 5.3 présente <strong>les</strong><br />

résultats d’évaluation <strong>de</strong>s frontières pour chaque métho<strong>de</strong> sur la base <strong>de</strong> données<br />

ST RUCTB. Les colonnes 1 à 6 fournissent <strong>les</strong> taux moyens <strong>de</strong> F-mesure, précision et<br />

rappel <strong>de</strong>s frontières pour <strong>de</strong>s fenêtres <strong>de</strong> 0.5 et 3 secon<strong>de</strong>s. Dans <strong>les</strong> <strong>de</strong>ux cas, notre<br />

métho<strong>de</strong> semble relativement peu précise <strong>dans</strong> son i<strong>de</strong>ntification <strong>de</strong>s frontières. Sur<br />

cet ensemble <strong>de</strong> données, la F-mesure <strong>de</strong>s frontières i<strong>de</strong>ntifiées par notre métho<strong>de</strong> est<br />

<strong>de</strong> 20% avec une fenêtre <strong>de</strong> tolérance <strong>de</strong> 0.5s, et 49% avec une fenêtre <strong>de</strong> tolérance<br />

<strong>de</strong> 3s. Les <strong>de</strong>ux <strong>de</strong>rnières colonnes du Tableau 5.3 indiquent <strong>les</strong> durées médianes<br />

entre <strong>les</strong> frontières estimées et annotées. Le score élevé M A|E = 4.36 indique que la<br />

durée médiane entre une frontière annotée et une frontière estimée est <strong>de</strong> plus <strong>de</strong> 4<br />

secon<strong>de</strong>s ; le score M E|A = 1.61, en revanche, est beaucoup plus faible. Cette forte


134 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

So Su Fp Pp Rp<br />

(a) 0.60 0.68 0.54 0.63 0.51<br />

(b) 0.67 0.54 0.54 0.53 0.64<br />

(c) 0.68 0.54 0.55 0.51 0.68<br />

(d) 0.76 0.61 0.61 0.55 0.74<br />

(e) 0.59 0.69 0.50 0.60 0.47<br />

(f) 0.71 0.43 0.49 0.42 0.73<br />

F@0.5 P@0.5 R@0.5 F@3 P@3 R@3 M A|E M E|A<br />

(a) 0.18 0.14 0.26 0.50 0.40 0.70 1.90 3.43<br />

(b) 0.20 0.20 0.22 0.48 0.46 0.52 5.55 2.39<br />

(c) 0.19 0.20 0.18 0.51 0.55 0.50 4.05 3.05<br />

(d) 0.32 0.34 0.33 0.61 0.63 0.63 3.04 2.43<br />

(e) 0.22 0.18 0.29 0.57 0.47 0.76 1.83 3.92<br />

(f) 0.22 0.19 0.29 0.56 0.47 0.74 2.80 3.86<br />

Tab. 5.4 – Résultats <strong>de</strong> l’évaluation MIREX 2010 sur la base <strong>de</strong> données ST RUCTA<br />

pour <strong>les</strong> 6 métho<strong>de</strong>s soumises. L’évaluation porte sur <strong>les</strong> motifs (haut) et <strong>les</strong> frontières<br />

(bas).<br />

différence suggère que <strong>les</strong> annotations <strong>de</strong> la base <strong>de</strong> données ST RUCTB comportent<br />

sensiblement plus <strong>de</strong> frontières. En d’autres termes, notre métho<strong>de</strong> semble soussegmenter<br />

la structure musicale par rapport à ces annotations.<br />

La Figure 5.8 représente un exemple <strong>de</strong> résultat sur ST RUCTB 1 . Chaque ligne<br />

correspond à une métho<strong>de</strong>, la <strong>de</strong>rnière représentant la vérité terrain. Les lignes<br />

pointillées mettent en valeur la concordance entre <strong>les</strong> frontières estimées et annotées.<br />

Cet exemple met en valeur l’aspect sous-segmenté <strong>de</strong> notre métho<strong>de</strong> (c) par rapport<br />

à l’annotation. Cependant, <strong>les</strong> frontières i<strong>de</strong>ntifiées restent proches <strong>dans</strong> ce cas.<br />

Les colonnes 1 à 3 du Tableau 5.4-bas fournissent <strong>les</strong> taux moyens d’évaluation<br />

<strong>de</strong>s frontières pour la base <strong>de</strong> données ST RUCTA. La détection <strong>de</strong>s frontières semble<br />

plus proche <strong>de</strong>s autres métho<strong>de</strong>s pour cette base <strong>de</strong> données, avec une F-mesure <strong>de</strong><br />

19% pour une tolérance <strong>de</strong> 0.5 secon<strong>de</strong>s, et une F-mesure <strong>de</strong> 51% pour une tolérance<br />

<strong>de</strong> 3 secon<strong>de</strong>s. Les valeurs M A|E et M E|A indiquent un écart <strong>de</strong>s frontières estimées<br />

et détectées <strong>de</strong> valeurs médianes respectives 4.05 et 3.05 secon<strong>de</strong>s. La plus gran<strong>de</strong><br />

proximité entre ces <strong>de</strong>ux valeurs suggère une meilleure adaptation <strong>de</strong> l’algorithme<br />

pour la base <strong>de</strong> données ST RUCTA.<br />

La Figure 5.7 représente la distribution <strong>de</strong>s valeurs médianes calculées sur <strong>les</strong><br />

morceaux <strong>de</strong> la base <strong>de</strong> données ST RUCTA par chacune <strong>de</strong>s métho<strong>de</strong>s. L’axe <strong>de</strong>s<br />

abscisses indique <strong>les</strong> plages <strong>de</strong> valeurs médianes possib<strong>les</strong> (entre 1 et 10 secon<strong>de</strong>s,<br />

puis plus <strong>de</strong> dix secon<strong>de</strong>s pour le <strong>de</strong>rnier coefficient), tandis que l’axe <strong>de</strong>s ordonnées<br />

indique le pourcentage <strong>de</strong> morceaux concernés. Les barres noires représentent <strong>les</strong> valeurs<br />

M A|E, tandis que <strong>les</strong> barres grises représentent <strong>les</strong> valeurs M E|A. Les métho<strong>de</strong>s<br />

<strong>les</strong> plus performantes sont caractérisées par une distribution aux valeurs importantes<br />

<strong>dans</strong> <strong>les</strong> premiers coefficients <strong>de</strong> l’histogramme, puis <strong>de</strong>s valeurs faib<strong>les</strong> ou nul<strong>les</strong><br />

pour <strong>les</strong> coefficients suivants. Comme précé<strong>de</strong>mment, le déséquilibre entre <strong>les</strong> scores,<br />

donc <strong>les</strong> <strong>de</strong>ux types <strong>de</strong> barres, témoigne d’une tendance à sur ou sous-segmenter.<br />

La métho<strong>de</strong> (d) semble fournir la plus gran<strong>de</strong> précision pour l’i<strong>de</strong>ntification <strong>de</strong>s<br />

1. Détail obtenu grâce à l’outil NEMA <strong>de</strong> l’IMIRSEL : http://nema.lis.illinois.edu/


5.3 Inférence hiérarchique <strong>de</strong> répétitions 135<br />

B A D A D E O<br />

(a)<br />

A A B <br />

A A B C C<br />

(b)<br />

A A B C C D<br />

(c)<br />

7 3 1 5 1 2 4 2 6 8<br />

(d)<br />

C A A A B B B D B B B B B B B B B E B B B<br />

(e)<br />

C A A D B B B E F B B B B B G H I J B B K<br />

(f)<br />

(GT)<br />

Fig. 5.8 – Exemple <strong>de</strong> résultats obtenus sur le morceau struct_mrx_10_1 <strong>de</strong> la base <strong>de</strong> données ST RUCTB. Le résultat exact <strong>de</strong>s métho<strong>de</strong>s (a)<br />

à (f) est représenté, la <strong>de</strong>rnière ligne correspondant à la vérité terrain.


136 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

1<br />

<br />

1<br />

1<br />

0<br />

0<br />

0<br />

0 1 0 1 0 1<br />

<br />

<br />

(a) (b) (c)<br />

1<br />

<br />

0<br />

0<br />

0<br />

0 1 0 1 0 1<br />

(d) (e) (f)<br />

Fig. 5.9 – Distribution <strong>de</strong>s scores <strong>de</strong> sous-segmentation et <strong>de</strong> sur-segmentation pour<br />

<strong>les</strong> morceaux <strong>de</strong> la base <strong>de</strong> données ST RUCTA.<br />

frontières, puisqu’environ 40% <strong>de</strong>s durées médianes sont inférieures à la secon<strong>de</strong>,<br />

pour <strong>les</strong> <strong>de</strong>ux scores. Pour toutes <strong>les</strong> métho<strong>de</strong>s, <strong>les</strong> médianes entre frontières annotées<br />

et estimées se situent <strong>dans</strong> plus <strong>de</strong> 80% <strong>de</strong>s cas entre 1 et 5 secon<strong>de</strong>s. La<br />

distribution correspondant à notre métho<strong>de</strong> (c) souligne la relative faible précision<br />

<strong>de</strong> la détection <strong>de</strong>s frontières.<br />

5.3.4.5 Évaluation <strong>de</strong>s motifs<br />

Les colonnes 3 à 5 du Tableau 5.4-haut présentent <strong>les</strong> scores d’évaluation <strong>de</strong><br />

l’étiquetage trame-à-trame sur la base <strong>de</strong> tests ST RUCTA. Les colonnes 4 et 5<br />

représentent respectivement la précision et le rappel par paires <strong>de</strong> trames, et la<br />

colonne 3 résume <strong>les</strong> <strong>de</strong>ux scores en une F-mesure. L’étiquetage <strong>de</strong> notre métho<strong>de</strong><br />

a un rappel moyen <strong>de</strong> 68% pour une précision <strong>de</strong> 51%, soit une F-mesure <strong>de</strong> 55%.<br />

Seule la métho<strong>de</strong> (d) semble fournir un résultat plus efficace, avec une F-mesure <strong>de</strong><br />

61%. On note cependant que <strong>les</strong> scores d’évaluation <strong>de</strong>s métho<strong>de</strong>s semblent proches,<br />

aucune ne présentant a priori <strong>de</strong> fortes différences.<br />

La Figure 5.10 représente un exemple <strong>de</strong> résultat pour chacune <strong>de</strong>s métho<strong>de</strong>s<br />

pour un morceau <strong>de</strong> la base <strong>de</strong> données ST RUCTA. Dans cet exemple, notre métho<strong>de</strong><br />

fournit un résultat proche <strong>de</strong> l’annotation. Le motif instrumental S <strong>de</strong> la vérité<br />

terrain est i<strong>de</strong>ntifié comme similaire au motif RC. On note également quelques imprécisions<br />

sur <strong>les</strong> frontières, ainsi que la non détection <strong>de</strong> la conclusion O. Enfin,<br />

<strong>les</strong> motifs R et C sont réunis en un unique motif B, qui suggère que l’échelle <strong>de</strong> <strong>de</strong>scription<br />

<strong>de</strong> la structure estimée est différente <strong>de</strong> celle annotée. La section suivante<br />

évalue cet aspect sur toute la base <strong>de</strong> données.<br />

5.3.4.6 Évaluation <strong>de</strong> l’échelle <strong>de</strong> <strong>de</strong>scription<br />

Les <strong>structures</strong> <strong>répétitives</strong> sont <strong>de</strong> nature hiérarchique. Il est alors pertinent<br />

d’évaluer <strong>dans</strong> quelle mesure la segmentation structurelle estimée correspond à la<br />

1<br />

<br />

1


5.3 Inférence hiérarchique <strong>de</strong> répétitions 137<br />

D F A C B A G<br />

(a)<br />

A B C<br />

C<br />

(b)<br />

A B B C D B<br />

B<br />

C<br />

(c)<br />

6 1 3 1 3 1 2 5 1 3 4 7 4 2 5 8<br />

(d)<br />

D A A B B B B C C E F G B C<br />

(e)<br />

A C D B B B B E F G H I B J<br />

(f)<br />

I R C R C P S R C S P O<br />

(GT)<br />

Fig. 5.10 – Exemple <strong>de</strong> résultats obtenus sur le morceau struct_mrx_09_33 <strong>de</strong> la base <strong>de</strong> données ST RUCTA. Le résultat exact <strong>de</strong>s métho<strong>de</strong>s<br />

(a) à (f) est représenté, la <strong>de</strong>rnière ligne correspondant à la vérité terrain.


138 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

Live Classique Jazz Pop World Moyenne<br />

(a) 0.51 0.43 0.48 0.51 0.48 0.48<br />

(b) 0.56 0.52 0.55 0.55 0.54 0.54<br />

(c) 0.56 0.59 0.57 0.54 0.56 0.56<br />

(d) 0.53 0.56 0.57 0.57 0.55 0.56<br />

(e) 0.50 0.51 0.54 0.52 0.52 0.52<br />

(f) 0.43 0.43 0.40 0.45 0.44 0.43<br />

Moyenne 0.52 0.51 0.52 0.52 0.51 0.52<br />

Tab. 5.5 – Scores d’évaluation Fp calculés pour chaque métho<strong>de</strong> et chaque style<br />

musical <strong>de</strong> ST RUCTC (échelle large), d’après [EMD + 11].<br />

même échelle temporelle <strong>de</strong> <strong>de</strong>scription que la segmentation annotée.<br />

Les scores moyens <strong>de</strong> sur-segmentation et <strong>de</strong> sous-segmentation sur ST RUCTA<br />

sont présentés en colonnes 1 et 2 du Tableau 5.4-haut. Notre métho<strong>de</strong>, dont <strong>les</strong><br />

scores moyens sont <strong>de</strong> So = 68% et Su = 54%, semble sous-segmenter légèrement<br />

la base <strong>de</strong> données, tout comme <strong>les</strong> métho<strong>de</strong>s (b), (d) et (f).<br />

Plus précisément, la Figure 5.9 représente le nuage <strong>de</strong> points <strong>de</strong>s scores So en<br />

fonction <strong>de</strong>s scores Su pour tous <strong>les</strong> morceaux <strong>de</strong> la base <strong>de</strong> données ST RUCTA et<br />

pour <strong>les</strong> différentes métho<strong>de</strong>s. Chaque mesure correspond à un morceau, le point<br />

blanc matérialisant la moyenne <strong>de</strong> tous <strong>les</strong> scores pour une métho<strong>de</strong>. Une mesure<br />

<strong>dans</strong> l’angle supérieur droit représente une correspondance parfaite entre la structure<br />

annotée et la structure estimée. En outre, la présence d’une mesure <strong>dans</strong> la<br />

région supérieure gauche <strong>de</strong> ce graphe indique une tendance à la sur-segmentation<br />

<strong>de</strong> la métho<strong>de</strong> pour un morceau en particulier. Inversement, la présence d’une mesure<br />

<strong>dans</strong> la région inférieure droite indique une tendance à la sous-segmentation.<br />

Ainsi, <strong>les</strong> métho<strong>de</strong>s (a) et (e) semblent définir <strong>de</strong>s <strong>de</strong>scriptions sur-segmentées. Les<br />

résultats <strong>de</strong>s métho<strong>de</strong>s (c) et (d), en revanche, semblent être équilibrés autour <strong>de</strong> la<br />

diagonale et témoignent d’un équilibre moyen entre <strong>les</strong> <strong>de</strong>ux caractères <strong>de</strong> sous- et<br />

sur-segmentation. Pour notre métho<strong>de</strong> (c), <strong>les</strong> mesures proches <strong>de</strong>s axes montrent<br />

que quelques morceaux ont une segmentation très éloignée <strong>de</strong> la vérité terrain. Ces<br />

valeurs correspon<strong>de</strong>nt en réalité à <strong>de</strong>s morceaux dont l’information tonale ne caractérise<br />

pas <strong>de</strong> structure répétitive. Par exemple, <strong>dans</strong> We will Rock You du groupe<br />

Queen, l’absence d’information tonale <strong>dans</strong> une gran<strong>de</strong> partie du morceau rend la<br />

structuration par notre métho<strong>de</strong> non pertinente.<br />

5.3.4.7 Évaluation multi-échel<strong>les</strong><br />

Afin <strong>de</strong> se rapprocher d’une évaluation hiérarchique <strong>de</strong>s segmentations calculées,<br />

il est intéressant <strong>de</strong> considérer la base <strong>de</strong> tests ST RUCTC. En effet, cette base <strong>de</strong><br />

données <strong>de</strong> 1300 morceaux fournit pour chaque œuvre <strong>de</strong>ux annotations sur <strong>de</strong>s<br />

échel<strong>les</strong> <strong>de</strong> temps différentes [EMD + 11] : une échelle temporelle dite large, correspondant<br />

notamment à l’échelle <strong>de</strong> <strong>de</strong>scription couplets/refrains, et une échelle dite<br />

fine.<br />

La base <strong>de</strong> données ST RUCTC comprend <strong>de</strong>s morceaux <strong>de</strong> différents sty<strong>les</strong> musicaux,<br />

classés <strong>dans</strong> 5 catégories : “Live”, “Classique”, “Jazz”, “Pop” et “World”. Le<br />

Tableau 5.5 présente <strong>les</strong> taux <strong>de</strong> F-mesures <strong>de</strong> l’étiquetage trame-à-trame pour chacune<br />

<strong>de</strong>s métho<strong>de</strong>s en fonction du style musical. Ehmann et al. [EMD + 11] montrent


n some general i<strong>de</strong>a on how a human might<br />

ve to another human using the standard<br />

Échelle<br />

sures, the ground truths of all double-keyed<br />

Fine Large<br />

-human<br />

both the coarse and fine-grained (a) annotations. 0.43 0.49<br />

yed subset allows us to evaluate (b) the human- 0.45 0.55<br />

(c) 0.45o 0.57<br />

man results line in Table 6 was generated (d) 0.44by 0.56<br />

(e) 0.39 ” 0.53<br />

(f) 0.37 The 0.43<br />

e evaluated on only this subset Humain of the 0.63 data to 0.72<br />

ct comparison of the results on the 794<br />

pieces that have both fine and coarse<br />

5.3 Inférence hiérarchique <strong>de</strong> répétitions 139<br />

Rangs moyens<br />

6.5<br />

3.5<br />

2.5<br />

2<br />

6<br />

5.5<br />

5<br />

4.5<br />

4<br />

3<br />

Humain (c) (d) (b) (e) (a) (f)<br />

Fig. 5.11 – Gauche : Résultats pour chaque métho<strong>de</strong> sur <strong>les</strong> <strong>de</strong>ux échel<strong>les</strong> <strong>de</strong><br />

<strong>de</strong>scription, d’après [EMD + 11]. Droite : Représentation <strong>de</strong> la performance <strong>de</strong>s<br />

résultats sous la forme d’un test <strong>de</strong> significativité (TKHSD, voir [Dow08]),<br />

d’après [EMD + 11]. Le cercle rouge représente le groupe <strong>de</strong> métho<strong>de</strong>s ne présentant<br />

pas <strong>de</strong> différence significative.<br />

qu’il n’existe pas <strong>de</strong> différence significative sur l’efficacité <strong>de</strong>s métho<strong>de</strong>s en fonction<br />

du style musical. En d’autres termes, le style musical ne semble pas influencer <strong>les</strong> algorithmes<br />

<strong>de</strong> segmentation <strong>dans</strong> leur ensemble. Sur la base <strong>de</strong> données ST RUCTC,<br />

notre métho<strong>de</strong> propose en moyenne la meilleure segmentation structurelle. En particulier,<br />

<strong>les</strong> <strong>structures</strong> <strong>répétitives</strong> <strong>de</strong> morceaux <strong>de</strong> style classique sont i<strong>de</strong>ntifiées avec<br />

une F-mesure moyenne <strong>de</strong> 59%. On peut expliquer ce score élevé par l’importance<br />

<strong>de</strong> l’information tonale pour <strong>les</strong> <strong>structures</strong> <strong>répétitives</strong> en musique classique.<br />

Le Tableau 5.11-Gauche présente le résultat <strong>de</strong> la comparaison <strong>de</strong>s segmentations<br />

structurel<strong>les</strong> estimées avec <strong>les</strong> <strong>de</strong>ux niveaux d’annotation. Toutes <strong>les</strong> métho<strong>de</strong>s<br />

affichent un score significativement plus élevé <strong>dans</strong> le cas <strong>de</strong> l’échelle large,<br />

et semblent donc plus adaptées à cette échelle. La <strong>de</strong>rnière ligne du tableau est<br />

obtenue en confrontant pour chaque échelle <strong>les</strong> <strong>de</strong>ux annotations d’experts. Pour<br />

l’échelle large, par exemple, aux annotations <strong>de</strong> <strong>de</strong>ux experts correspond une Fmesure<br />

<strong>de</strong> 72%. Ce résultat met en avant la subjectivité <strong>de</strong>s annotations manuel<strong>les</strong><br />

<strong>de</strong> la structure répétitive.<br />

Malgré l’aspect subjectif <strong>de</strong>s annotations, la Figure 5.11-Droite souligne que le<br />

résultat <strong>de</strong>s systèmes <strong>de</strong> segmentation structurelle n’atteint pas <strong>les</strong> performances<br />

humaines. Cette figure est obtenue en réalisant un test <strong>de</strong> signification statistique<br />

<strong>de</strong>s résultats obtenus (voir [Dow08, EMD + 11]). L’axe <strong>de</strong>s ordonnées est une mesure<br />

<strong>de</strong> la performance moyenne <strong>de</strong>s algorithmes. Le cercle rouge matérialise un groupe<br />

<strong>de</strong> trois métho<strong>de</strong>s, dont celle que nous proposons, qui ne présentent pas <strong>de</strong> différence<br />

significative entre el<strong>les</strong>. En revanche, le test indique une différence entre ce groupe<br />

et chacune <strong>de</strong>s autres métho<strong>de</strong>s.


140 Chapitre 5 : Inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong><br />

5.3.4.8 Temps d’exécution<br />

Aucune contrainte n’est imposée par l’équipe MIREX sur <strong>les</strong> temps d’exécution<br />

<strong>de</strong>s algorithmes, ceux-ci étant renseignés à titre indicatif uniquement 1 . Notre<br />

métho<strong>de</strong> se situe <strong>dans</strong> un temps d’exécution moyen compris entre 1 et 3 minutes<br />

par morceau sur <strong>les</strong> bases <strong>de</strong> données ST RUCTA et ST RUCTB. La base <strong>de</strong> données<br />

ST RUCTC semble requérir plus <strong>de</strong> calculs, avec un temps moyen d’environ<br />

6 minutes par morceau pour notre métho<strong>de</strong> [EMD + 11]. Si <strong>les</strong> raisons d’une telle<br />

augmentation pour cette <strong>de</strong>rnière base <strong>de</strong> données ne sont pas explicites, on peut<br />

supposer que la présence <strong>de</strong> morceaux (notamment <strong>de</strong> musique classique) <strong>de</strong> durée<br />

moyenne plus élevée que <strong>les</strong> autres ensemb<strong>les</strong> <strong>de</strong> données implique le calcul d’un<br />

nombre <strong>de</strong> coefficients <strong>de</strong> programmation dynamique plus important pour notre<br />

métho<strong>de</strong>.<br />

Il convient <strong>de</strong> préciser, cependant, que le temps <strong>de</strong> calcul n’est pas considéré<br />

<strong>dans</strong> ces travaux comme un facteur critique pour l’estimation d’un ensemble <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong>, et que <strong>de</strong> nombreuses techniques d’optimisation peuvent être<br />

envisagées en perspective afin <strong>de</strong> réduire significativement cette durée d’exécution.<br />

5.3.4.9 Bilan expérimental<br />

Nous avons exposé <strong>dans</strong> cette section <strong>les</strong> résultats d’évaluation <strong>de</strong> notre métho<strong>de</strong><br />

sur trois bases <strong>de</strong> données annotées en <strong>les</strong> comparant aux autres algorithmes <strong>de</strong> l’état<br />

<strong>de</strong> l’art. Les nombreux tests présentés <strong>dans</strong> cette section soulignent la difficulté<br />

d’évaluation <strong>de</strong> segmentations structurel<strong>les</strong> sous la forme <strong>de</strong> <strong>séquences</strong>.<br />

Les frontières <strong>de</strong>s segmentations structurel<strong>les</strong> i<strong>de</strong>ntifiées par notre métho<strong>de</strong><br />

semblent relativement peu précises par rapport à l’état <strong>de</strong> l’art. Nous i<strong>de</strong>ntifions<br />

<strong>de</strong>ux raisons majeures pour ce manque <strong>de</strong> précision : un niveau <strong>de</strong> <strong>de</strong>scription <strong>de</strong><br />

l’estimation souvent différent <strong>de</strong> l’annotation <strong>dans</strong> la hiérarchie structurelle, et une<br />

limitation <strong>de</strong> la pertinence <strong>de</strong> la structuration tonale pour certains morceaux. Malgré<br />

cette limitation, <strong>les</strong> résultats d’évaluation <strong>de</strong>s motifs i<strong>de</strong>ntifiés indiquent que<br />

notre métho<strong>de</strong> produit <strong>de</strong>s résultats similaires aux meilleurs <strong>de</strong>s algorithmes testés,<br />

notamment par rapport à la base d’annotations ST RUCTC.<br />

1. Voir http://www.music-ir.org/mirex/wiki/2010:Runtime (accédé en décembre 2012).


5.4 Conclusion du chapitre 141<br />

5.4 Conclusion du chapitre<br />

Dans ce chapitre, nous avons étudié le problème <strong>de</strong> l’inférence <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong> <strong>de</strong>puis l’audio. Nous l’avons d’abord défini tel qu’il est traité <strong>dans</strong> la<br />

littérature, sous la forme <strong>de</strong> la recherche d’une segmentation structurelle. Nous<br />

avons exposé <strong>les</strong> travaux existants et justifié la nécessité <strong>de</strong> considérer un modèle<br />

différent, permettant <strong>de</strong> prendre en compte <strong>de</strong>s relations hiérarchiques.<br />

Nous avons proposé notre propre formalisation du problème sous la forme <strong>de</strong><br />

l’inférence d’une hiérarchie <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>. Nous avons détaillé un algorithme<br />

permettant d’i<strong>de</strong>ntifier une telle hiérarchie en se basant sur une théorie<br />

musicale bien-fondée. Nous avons enfin présenté une série d’évaluation <strong>de</strong>s résultats<br />

<strong>de</strong> l’inférence structurelle selon <strong>de</strong>s principes d’évaluation standardisés.<br />

Bien que notre algorithme s’appuie sur un modèle hiérarchique, l’application <strong>de</strong><br />

notre métho<strong>de</strong> pour l’inférence <strong>de</strong> segmentations structurel<strong>les</strong> fournit <strong>de</strong>s résultats<br />

comparab<strong>les</strong> à l’état <strong>de</strong> l’art. Malgré une certaine imprécision sur <strong>les</strong> frontières<br />

entre motifs i<strong>de</strong>ntifiés, <strong>les</strong> tests suggèrent une position crédible <strong>de</strong> notre métho<strong>de</strong><br />

par rapport aux algorithmes <strong>de</strong> segmentation structurelle <strong>de</strong> la littérature.<br />

Ce résultat doit cependant être modéré par le caractère subjectif et mal défini <strong>de</strong>s<br />

annotations structurel<strong>les</strong>. De plus, l’évaluation d’inférences hiérarchiques n’étant<br />

pas définie, <strong>les</strong> résultats <strong>de</strong> notre algorithme n’ont été évalués que partiellement.<br />

Ces <strong>de</strong>ux points forment une perspective majeure <strong>de</strong> nos travaux : construire une<br />

méthodologie d’évaluation et d’annotation <strong>de</strong> hiérarchies structurel<strong>les</strong>.


Conclusion et perspectives<br />

Cette thèse décrit un ensemble <strong>de</strong> travaux autour du problème <strong>de</strong> l’inférence<br />

<strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> à partir du contenu musical. Notre approche a suivi une<br />

démarche par étapes successives <strong>de</strong>puis l’étu<strong>de</strong> <strong>de</strong> la similarité musicale jusqu’à<br />

l’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong>.<br />

Dans un premier temps, nous avons spécifié <strong>dans</strong> le Chapitre 1 la notion <strong>de</strong><br />

structure répétitive <strong>dans</strong> la musique et justifié notre choix <strong>de</strong> représentation <strong>de</strong><br />

l’information musicale sous une forme séquentielle, tout en exposant <strong>les</strong> enjeux<br />

majeurs d’efficacité et <strong>de</strong> mise en pratique <strong>de</strong>s métho<strong>de</strong>s que nous proposons.<br />

Nous avons présenté <strong>dans</strong> le Chapitre 2 un ensemble d’outils mathématiques<br />

permettant <strong>de</strong> représenter le signal audio sous la forme d’une séquence <strong>de</strong> symbo<strong>les</strong><br />

caractérisant l’information tonale, en justifiant ce choix par sa prépondérance <strong>dans</strong><br />

la structuration répétitive <strong>de</strong> la musique.<br />

Nous avons alors défini en Chapitre 3 un formalisme pour l’alignement entre<br />

<strong>séquences</strong> symboliques, que nous avons appliqué <strong>dans</strong> le cadre d’un système d’estimation<br />

<strong>de</strong> la similarité musicale. Nous avons étudié une solution permettant <strong>de</strong><br />

réduire significativement le coût calculatoire <strong>de</strong> ce système afin <strong>de</strong> rendre possible<br />

son utilisation en pratique sur <strong>de</strong>s bases <strong>de</strong> données <strong>de</strong> l’ordre <strong>de</strong> cel<strong>les</strong> accessib<strong>les</strong><br />

au grand public.<br />

Nous avons introduit <strong>dans</strong> le Chapitre 4 plusieurs types <strong>de</strong> répétitions <strong>dans</strong><br />

<strong>les</strong> œuvres musica<strong>les</strong>, et nous avons proposé <strong>de</strong>s algorithmes d’i<strong>de</strong>ntification <strong>de</strong><br />

tel<strong>les</strong> répétitions à partir <strong>de</strong>s outils d’estimation <strong>de</strong> similarité. Ces métho<strong>de</strong>s ont<br />

été évaluées en comparant <strong>les</strong> résultats obtenus à <strong>de</strong>s éléments <strong>de</strong> la perception<br />

musicale.<br />

Nous avons étudié <strong>dans</strong> le Chapitre 5 le problème d’inférence <strong>de</strong> <strong>structures</strong><br />

<strong>répétitives</strong> <strong>de</strong> morceaux <strong>de</strong> musique. Après le constat d’une définition insuffisante<br />

du problème <strong>dans</strong> la littérature, nous avons proposé une formalisation <strong>de</strong> celui-ci et<br />

avons détaillé un algorithme d’inférence permettant d’i<strong>de</strong>ntifier une hiérarchie <strong>de</strong><br />

<strong>structures</strong> <strong>répétitives</strong>. Ce <strong>de</strong>rnier a été confronté à l’état <strong>de</strong> l’art en comparant <strong>les</strong><br />

résultats avec <strong>de</strong>s annotations perceptives <strong>de</strong> la structuration musicale.<br />

6.1 Résultats majeurs et contributions<br />

Cette thèse est d’abord une contribution à la recherche en information musicale<br />

dédiée aux notions <strong>de</strong> similarité musicale, <strong>de</strong> répétition et d’analyse <strong>de</strong> la structuration<br />

<strong>de</strong>s morceaux <strong>de</strong> musique. Ces travaux s’appuient sur une approche algorithmique,<br />

généralisant <strong>de</strong>s techniques développées <strong>dans</strong> le cadre <strong>de</strong> comparaisons <strong>de</strong><br />

<strong>séquences</strong> biologiques.<br />

Nos expériences mettent en évi<strong>de</strong>nce que ces techniques permettent d’estimer<br />

<strong>de</strong> manière précise la similarité musicale, notamment <strong>dans</strong> le cadre du problème<br />

<strong>de</strong> l’i<strong>de</strong>ntification <strong>de</strong>s reprises. Nous proposons [MBHF12] alors une métho<strong>de</strong> permettant<br />

<strong>de</strong> résoudre ce problème <strong>de</strong> manière efficace en adaptant une technique<br />

<strong>de</strong> recherche par l’application <strong>de</strong> filtres heuristiques successifs. Nous évaluons notre<br />

solution sur plusieurs bases <strong>de</strong> données audio musica<strong>les</strong> et mettons en évi<strong>de</strong>nce une<br />

perte d’environ un tiers <strong>de</strong> la précision du système tout en proposant un gain sub-


144 Conclusion et perspectives<br />

stantiel sur le temps <strong>de</strong> calcul, avec une i<strong>de</strong>ntification évaluée comme environ 400<br />

fois plus rapi<strong>de</strong> en pratique sur notre jeu <strong>de</strong> données. Ce résultat suggère qu’estimer<br />

la similarité musicale approchée à partir d’heuristiques sur <strong>de</strong> courtes similitu<strong>de</strong>s<br />

loca<strong>les</strong> est une approche prometteuse pour l’analyse efficace <strong>de</strong> bases <strong>de</strong> données<br />

musica<strong>les</strong> conséquentes.<br />

Nous présentons ensuite l’utilisation <strong>de</strong> ces techniques <strong>de</strong> similarité musicale afin<br />

d’i<strong>de</strong>ntifier <strong>de</strong>s répétitions particulières <strong>dans</strong> <strong>les</strong> morceaux <strong>de</strong> musique.<br />

En premier lieu, nous étudions le cas <strong>de</strong> la meilleure répétition d’un extrait<br />

musical donné <strong>dans</strong> un morceau. Nous proposons [MHT + 11] alors une métho<strong>de</strong> <strong>de</strong><br />

reconstruction <strong>de</strong> données manquantes qui décrit une solution au problème <strong>dans</strong><br />

un cadre applicatif particulier. À l’issue d’une évaluation par un ensemble <strong>de</strong> tests<br />

perceptifs, nous mettons en valeur la qualité <strong>de</strong> la métho<strong>de</strong> au sens <strong>de</strong> la perception.<br />

Ce résultat peut être vu comme la première approche d’un problème plus général<br />

<strong>de</strong> modification d’un morceau <strong>de</strong> musique en tenant compte <strong>de</strong> ses répétitions.<br />

En second lieu, nous définissons une répétition particulière, appelée répétition<br />

majeure, et nous décrivons un algorithme permettant <strong>de</strong> l’i<strong>de</strong>ntifier. Nous montrons<br />

[MHRF11a] alors que cette structure répétitive particulière correspond à une<br />

structuration perçue <strong>dans</strong> la musique.<br />

Nous proposons [MHRF11b] en outre une utilisation <strong>de</strong> cette répétition majeure<br />

comme alternative à l’amélioration calculatoire <strong>de</strong> l’estimation <strong>de</strong> la similarité musicale.<br />

Dans le cadre <strong>de</strong> la recherche <strong>de</strong> reprises, nous montrons ainsi que la répétition<br />

majeure permet <strong>de</strong> conserver une précision élevée pour l’i<strong>de</strong>ntification <strong>de</strong>s reprises,<br />

avec une perte d’environ 10% <strong>de</strong> la précision du système, tout en proposant un gain<br />

d’un facteur 8 environ sur le temps <strong>de</strong> calcul pratique. Cette évaluation montre<br />

donc que l’i<strong>de</strong>ntification automatique <strong>de</strong> reprises peut être effectuée à partir d’une<br />

simple partie <strong>de</strong>s signaux.<br />

Nous introduisons notre propre formalisation du problème <strong>de</strong> structuration <strong>de</strong><br />

la musique sous une forme hiérarchique, et nous proposons [MHR + 10] un algorithme<br />

d’inférence <strong>de</strong> structuration <strong>de</strong>s répétitions. Nous montrons sur quelques<br />

exemp<strong>les</strong> que notre algorithme est capable d’i<strong>de</strong>ntifier <strong>de</strong>s arbres <strong>de</strong> <strong>de</strong>scriptions<br />

structurel<strong>les</strong> correspondant à <strong>de</strong>s règ<strong>les</strong> <strong>de</strong> compositions musica<strong>les</strong> bien-fondées. De<br />

plus, nous présentons une évaluation <strong>de</strong> notre algorithme par rapport à l’état <strong>de</strong><br />

l’art qui témoigne <strong>de</strong> résultats prometteurs <strong>de</strong> notre technique pour la détection<br />

<strong>de</strong> segmentations structurel<strong>les</strong>. Ces résultats soulignent ainsi la pertinence <strong>de</strong> notre<br />

métho<strong>de</strong> à la fois pour répondre au problème existant d’analyse structurelle, mais<br />

aussi pour l’i<strong>de</strong>ntification d’une structuration hiérarchique <strong>de</strong> la musique.


Conclusion et perspectives 145<br />

6.2 Perspectives<br />

Les travaux décrits <strong>dans</strong> ce document couvrent plusieurs étu<strong>de</strong>s successives qui<br />

suggèrent chacune <strong>de</strong> nombreuses perspectives. Dans la suite, nous décrivons <strong>les</strong><br />

principaux axes <strong>de</strong> recherches futures en indiquant, le cas échéant, <strong>les</strong> résultats<br />

préliminaires associés à chacun d’entre eux.<br />

Amélioration du calcul <strong>de</strong> similarité musicale<br />

Le Chapitre 2 décrit une métho<strong>de</strong> <strong>de</strong> représentation <strong>de</strong> la musique sous la forme<br />

<strong>de</strong> <strong>séquences</strong> tona<strong>les</strong>. Nous justifions ce choix <strong>dans</strong> le cadre <strong>de</strong> cette thèse par une<br />

volonté <strong>de</strong> circonscrire le problème et <strong>de</strong> l’étudier sur un unique critère musical.<br />

La littérature en analyse structurelle [PMK10] suggère néanmoins que l’utilisation<br />

combinée <strong>de</strong> différents <strong>de</strong>scripteurs audio peut être bénéfique, notamment à la détection<br />

<strong>de</strong>s frontières structurel<strong>les</strong>. L’utilisation d’un autre critère tel que l’information<br />

timbrale ou rythmique, conjointement à l’information tonale, constitue donc<br />

une perspective <strong>de</strong> ces travaux. Pour la combinaison <strong>de</strong>s critères, une technique<br />

peut consister à définir pour la similarité locale un schéma <strong>de</strong> scores <strong>de</strong> pondération<br />

prenant en compte <strong>les</strong> symbo<strong>les</strong> <strong>de</strong> <strong>de</strong>ux <strong>séquences</strong>, chacune représentant un critère<br />

musical distinct.<br />

Plusieurs améliorations <strong>de</strong>s outils <strong>de</strong> comparaison présentés en Chapitre 3 sont<br />

envisageab<strong>les</strong>. D’abord, il est nécessaire d’étudier l’impact <strong>de</strong> la prise en compte<br />

d’opérations d’édition supplémentaires, qui permettent <strong>de</strong> traduire <strong>de</strong>s correspondances<br />

musica<strong>les</strong> particulières. Par exemple, on peut considérer l’introduction <strong>de</strong>s<br />

opérations <strong>de</strong> fragmentation et <strong>de</strong> consolidation tel<strong>les</strong> que définies par Mongeau<br />

et Sankoff [MS90] <strong>dans</strong> le cadre <strong>de</strong> représentations musica<strong>les</strong> symboliques, ou encore<br />

<strong>les</strong> opérations <strong>de</strong> compression et expansion <strong>dans</strong> le cadre <strong>de</strong> représentations<br />

audio [KL99]. De tel<strong>les</strong> opérations permettent <strong>de</strong> donner une signification musicale<br />

plus forte à la comparaison séquentielle calculée, en améliorant par exemple la<br />

robustesse <strong>de</strong> l’estimation <strong>de</strong> similarité face à <strong>de</strong>s variations loca<strong>les</strong> <strong>de</strong> tempo. Le<br />

gain en précision <strong>de</strong>s comparaisons à effectuer reste donc à démontrer. La définition<br />

<strong>de</strong>s scores <strong>de</strong> pondération peut également être améliorée afin <strong>de</strong> correspondre<br />

au contenu musical comparé. Par exemple, notre formalisation introduit <strong>de</strong>s coûts<br />

d’insertion, <strong>de</strong> substitution ou encore <strong>de</strong> transposition constants. Les travaux futurs<br />

peuvent se concentrer sur l’étu<strong>de</strong> <strong>de</strong> fonctions <strong>de</strong> coûts affines voire plus complexes,<br />

ou encore <strong>de</strong> coûts <strong>de</strong> transposition dépendant <strong>de</strong> l’ampleur <strong>de</strong>s décalages locaux<br />

effectués.<br />

L’étu<strong>de</strong> d’in<strong>de</strong>xation BLAST présentée en Chapitre 3 est à notre connaissance<br />

la première approche <strong>de</strong> cette métho<strong>de</strong> heuristique pour in<strong>de</strong>xer l’audio musical.<br />

En conséquence, elle débouche sur un ensemble <strong>de</strong> perspectives faisant écho à <strong>de</strong>s<br />

travaux <strong>de</strong> comparaison <strong>de</strong> <strong>séquences</strong> biologiques qui définissent <strong>de</strong>s raffinements<br />

<strong>de</strong>s heuristiques effectuées par BLAST. En particulier, nos premiers tests indiquent<br />

qu’il semble judicieux <strong>de</strong> considérer <strong>de</strong>s graines espacées [MTL02] afin d’augmenter<br />

la sensibilité <strong>de</strong> la détection ; toutefois, la disposition optimale et le nombre d’espaces<br />

idéal <strong>dans</strong> <strong>les</strong> graines restent <strong>de</strong>s facteurs à déterminer. Une autre perspective<br />

consiste à utiliser <strong>de</strong>s graines <strong>de</strong> taille variable [Csű04] afin d’in<strong>de</strong>xer l’espace <strong>de</strong>


146 Conclusion et perspectives<br />

recherche en ne considérant que <strong>les</strong> transitions musica<strong>les</strong> <strong>les</strong> plus significatives d’un<br />

morceau <strong>de</strong> musique.<br />

Reconstruction audio avancée<br />

La métho<strong>de</strong> <strong>de</strong> reconstruction <strong>de</strong> données manquantes présentée en Chapitre 4<br />

est un autre axe majeur <strong>de</strong> travaux futurs et en cours. En particulier, il semble<br />

intéressant d’étendre la reconstruction en permettant qu’un extrait manquant soit<br />

reconstruit par un ensemble <strong>de</strong> courts extraits placés en série. Nous avons publié<br />

<strong>dans</strong> [BJM12] une première modélisation <strong>de</strong> cette alternative en utilisant une algèbre<br />

spécifique pour la combinaison <strong>de</strong> plusieurs extraits musicaux. Un algorithme<br />

d’optimisation du choix <strong>de</strong>s extraits utilisés pour la reconstruction reste alors à<br />

définir.<br />

Le système <strong>de</strong> reconstruction peut également être adapté pour une application<br />

en temps réel. Dans ce cas, on suppose que le contenu audio est reçu <strong>de</strong> manière progressive<br />

(on parle alors <strong>de</strong> flux entrant) et que l’on n’a connaissance à chaque instant<br />

que d’une partie du signal. Le problème consiste à poursuivre la lecture <strong>de</strong> son en<br />

cas d’incohérence musicale sur le flux entrant (rupture <strong>de</strong> flux), en générant un signal<br />

espéré [Hur06] et garantissant une certaine continuité musicale [Con08, Pac02].<br />

Notre étu<strong>de</strong> préliminaire <strong>de</strong> ce problème suggère qu’il est possible d’utiliser le résultat<br />

d’un alignement local optimal pour i<strong>de</strong>ntifier le meilleur segment, permettant<br />

ainsi <strong>de</strong> générer une suite perceptivement cohérente, à l’image <strong>de</strong> [Jeh05a]. Une<br />

première implémentation montre que la métho<strong>de</strong> semble être robuste au passage<br />

au temps réel <strong>dans</strong> une certaine limite sur la durée <strong>de</strong> signal reçu. La formalisation<br />

précise <strong>de</strong> cette solution et son évaluation perceptive restent à établir.<br />

<strong>Analyse</strong> <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> spécifiques<br />

Outre <strong>les</strong> répétitions présentées <strong>dans</strong> le Chapitre 4, plusieurs structurations spécifiques<br />

proches <strong>de</strong> cel<strong>les</strong> étudiées n’ont pas été formalisées <strong>dans</strong> cette thèse, et leur<br />

étu<strong>de</strong> approfondie est laissée en perspective. En particulier, on peut s’intéresser au<br />

problème <strong>de</strong> détection <strong>de</strong> la “meilleure répétition” d’une taille fixée, ou encore définir<br />

<strong>les</strong> problèmes d’i<strong>de</strong>ntification <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> en relâchant la contrainte<br />

<strong>de</strong> disjonction, afin <strong>de</strong> prendre en compte certaines formes musica<strong>les</strong> particulières<br />

(tel<strong>les</strong> que <strong>les</strong> fugues).<br />

Le Chapitre 5 décrit l’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> sans a priori. Néanmoins,<br />

le problème <strong>de</strong> l’inférence d’une forme musicale peut être défini avec un<br />

ensemble d’hypothèses sur <strong>les</strong> morceaux comparés. En particulier, une étu<strong>de</strong> a été<br />

commencée sur un ensemble <strong>de</strong> morceaux à la forme strophique, ou stanzas, qui désignent<br />

<strong>de</strong>s pièces constituées <strong>de</strong> répétitions multip<strong>les</strong> d’un seul et unique motif. Les<br />

<strong>séquences</strong> représentatives possè<strong>de</strong>nt alors une propriété dite <strong>de</strong> cyclicité, étudiée en<br />

algorithmique du texte (voir par exemple [GT96, CLS + 06]). Les premières évaluations<br />

<strong>de</strong> l’inférence <strong>de</strong> formes strophiques ont été menées sur un corpus <strong>de</strong> chansons<br />

traditionnel<strong>les</strong> néerlandaises 1 , et semblent produire <strong>de</strong>s résultats prometteurs au<br />

vu <strong>de</strong>s étu<strong>de</strong>s existantes [MGW09, BM12, MG12].<br />

1. http://www.lie<strong>de</strong>renbank.nl


Conclusion et perspectives 147<br />

Amélioration du modèle hiérarchique<br />

Le modèle hiérarchique introduit en Chapitre 5 fait l’objet <strong>de</strong> nombreux travaux<br />

en cours. Notre modèle semble présenter <strong>de</strong>s limitations sur certains morceaux. Il<br />

est donc nécessaire <strong>de</strong> caractériser plus précisément l’aspect hiérarchique <strong>de</strong>s <strong>structures</strong><br />

musica<strong>les</strong>, et <strong>de</strong> déterminer l’ensemble <strong>de</strong>s œuvres concernées par une telle<br />

représentation.<br />

En outre, il semble important <strong>dans</strong> le cadre <strong>de</strong> travaux futurs <strong>de</strong> pouvoir évaluer<br />

la validité <strong>de</strong> l’ensemble <strong>de</strong> la hiérarchie i<strong>de</strong>ntifiée, et donc <strong>de</strong> disposer d’une vérité<br />

terrain arborescente. Une solution envisagée consiste à considérer <strong>de</strong>s arborescences<br />

d’harmonies, tels que définies par exemple par [Roc11] ou [MdH11].<br />

Afin <strong>de</strong> comparer <strong>de</strong>ux hiérarchies, il convient <strong>de</strong> définir une métrique spécifique<br />

permettant d’estimer la similarité entre <strong>les</strong> motifs estimés et <strong>les</strong> motifs annotés malgré<br />

<strong>de</strong>s différences <strong>de</strong> niveaux hiérarchiques. Un point <strong>de</strong> départ d’une telle métrique<br />

est suggéré par Chai <strong>dans</strong> [Cha05, 58–62], même si la comparaison est effectuée à<br />

partir <strong>de</strong> <strong>séquences</strong> et non d’une hiérarchie complète.<br />

Enfin, si l’évaluation du système d’inférence <strong>de</strong> <strong>structures</strong> <strong>répétitives</strong> met en<br />

avant sa bonne précision par rapport à l’état <strong>de</strong> l’art, la considération <strong>de</strong> la seule<br />

structure tonale répétitive impose une limitation aux résultats. Dans le cas où <strong>les</strong><br />

similarités et dissimilarités entre motifs structurels sont liées à <strong>de</strong>s critères autres<br />

que la répétition ou l’information tonale, il est nécessaire <strong>de</strong> combiner notre approche<br />

avec une vue complémentaire <strong>de</strong> la structure musicale prenant en compte<br />

ces critères. Une telle combinaison <strong>de</strong>vra faire l’objet d’une étu<strong>de</strong> approfondie afin<br />

<strong>de</strong> tenter <strong>de</strong> réunir <strong>les</strong> qualités <strong>de</strong> plusieurs approches parmi <strong>les</strong> nombreuses techniques<br />

existantes pour l’analyse <strong>de</strong>s répétitions musica<strong>les</strong>.


Publications<br />

Conférences internationa<strong>les</strong> avec comité <strong>de</strong> lecture et publication<br />

<strong>de</strong>s actes<br />

Benjamin Martin, Daniel G. Brown, Pierre Hanna, Pascal Ferraro, BLAST for audio<br />

sequences alignment: a fast scalable cover i<strong>de</strong>ntification tool, Proc. of the 13th<br />

International Society for Music Information Retrieval Conference (ISMIR), pages<br />

529–534, 2012<br />

Florent Berthaut, David Janin, Benjamin Martin, Advanced synchronization of audio<br />

or symbolic musical patterns: an algebraic approach, Proc. of the 6th IEEE<br />

International Conference on Semantic Computing (ICSC), pages 302–309, 2012<br />

Benjamin Martin, Pierre Hanna, Matthias Robine, Pascal Ferraro, Towards an in<strong>de</strong>xing<br />

method to speed-up music retrieval, Proc. of the 34th International ACM<br />

SIGIR Conference on Research and Development in Information Retrieval, pages<br />

1167–1168, 2011<br />

Benjamin Martin, Pierre Hanna, Matthias Robine, Pascal Ferraro, In<strong>de</strong>xing musical<br />

pieces using their major repetition, Proc. of the 11th ACM/IEEE Joint Conference<br />

on Digital Libraries (JCDL), pages 153–156, 2011<br />

Benjamin Martin, Pierre Hanna, Vinh-Thong Ta, Myriam Desainte-Catherine, Exemplarbased<br />

assignment of large missing audio parts using string matching on tonal<br />

features. Proc. of the 12th International Society for Music Information Retrieval<br />

Conference (ISMIR), pages 507–5012, 2011<br />

Benjamin Martin, Matthias Robine, Pierre Hanna, Musical structure retrieval by<br />

aligning self-similarity matrices, Proc. of the 10th International Society for Music<br />

Information Retrieval (ISMIR), pages 483–488, 2009<br />

Revues internationa<strong>les</strong><br />

Benjamin Martin, Pierre Hanna, Matthias Robine, Pascal Ferraro, Major repetition<br />

in musical audio : in<strong>de</strong>xing for content-based retrieval systems, Article soumis en<br />

cours <strong>de</strong> révision<br />

Benjamin Martin, Pierre Hanna, Matthias Robine, Pascal Ferraro, Structural analysis<br />

of audio music using string matching techniques, Article soumis en cours <strong>de</strong><br />

révision


150 Publications<br />

Brevet international<br />

Julien Allali, Myriam Desainte-Catherine, Pascal Ferraro, Pierre Hanna, Benjamin<br />

Martin, Matthias Robine, Vinh-Thong Ta, A process for assigning audio data in<br />

missing audio parts of a music piece and <strong>de</strong>vice for performing the same, PCT IB<br />

2012 055673, 2012<br />

Campagnes d’évaluation internationa<strong>les</strong><br />

Benjamin Martin, Pierre Hanna, Matthias Robine, Julien Allali, Pascal Ferraro,<br />

Structural analysis of harmonic features using string matching techniques, Music<br />

Information Retrieval Evaluation eXchange (MIREX) - Structural Segmentation<br />

task, 2010, 2011, 2012<br />

Benjamin Martin, Pierre Hanna, Matthias Robine, Julien Allali, Pascal Ferraro,<br />

String matching cover song <strong>de</strong>tection algorithm, Music Information Retrieval Evaluation<br />

eXchange (MIREX) - Cover Song I<strong>de</strong>ntification task, 2010


Bibliographie 151<br />

Bibliographie<br />

[AAF + 09] J. Allali, P. Antoniou, P. Ferraro, C.S. Iliopoulos, and S. Michalakopoulos.<br />

Overlay problems for music and combinatorics. In Proc. of<br />

the 15th International Conference on Auditory Display (ICAD), 2009.<br />

Cité p. 112 et 116<br />

[ABSW04] N.H. Adams, M.A. Bartsch, J.B. Shifrin, and G.H. Wakefield. Time<br />

series alignment for music information retrieval. In Proc. of the 5th<br />

International Society for Music Information Retrieval Conference (IS-<br />

MIR), pages 303–311, 2004. Cité p. 35<br />

[AEJ + 11] A. Adler, V. Emiya, M.G. Jafari, M. Elad, R. Gribonval, and M.D.<br />

Plumbley. Audio inpainting. IEEE Transactions on Audio, Speech,<br />

and Language Processing, 20(3):922–932, 2011. Cité p. 74 et 75<br />

[AFHI07] J. Allali, P. Ferraro, P. Hanna, and C. Iliopoulos. Local transpositions<br />

in alignment of polyphonic musical sequences. In String Processing<br />

and Information Retrieval, volume 4726, pages 26–38. 2007.<br />

Cité p. 47 et 50<br />

[AGM + 90] S.F. Altschul, W. Gish, W. Miller, E.W. Myers, and D.J. Lipman.<br />

Basic local alignment search tool. Journal of Molecular Biology,<br />

215(3):403–410, 1990. Cité p. 56 et 58<br />

[AMS + 97] S.F. Altschul, T.L. Mad<strong>de</strong>n, A.A. Schäffer, J. Zhang, Z. Zhang,<br />

W. Miller, and D.J. Lipman. Gapped blast and psi-blast: a new generation<br />

of protein database search programs. Nucleic Acids Research,<br />

25(17):3389–3402, 1997. Cité p. 60 et 61<br />

[ANS + 05] S. Abdallah, K. Noland, M. Sandler, M. Casey, and C. Rho<strong>de</strong>s. Theory<br />

and evaluation of a bayesian music structure extractor. In Proc. of the<br />

6th International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 420–425, 2005. Cité p. 110, 111 et 133<br />

[AP02] J.J. Aucouturier and F. Pachet. Finding songs that sound the same.<br />

In Proc. of IEEE Benelux Workshop on Mo<strong>de</strong>l based Processing and<br />

Coding of Audio, pages 1–8, 2002. Cité p. 10<br />

[APS05] J.J. Aucouturier, F. Pachet, and M. Sandler. The way it sounds:<br />

Timbre mo<strong>de</strong>ls for analysis and retrieval of polyphonic music signals.<br />

IEEE Transactions on Multimedia, 7:1028–1035, 2005.<br />

Cité p. 110 et 111<br />

[AS02] J.J. Aucouturier and M. Sandler. Finding repeating patterns in acoustic<br />

musical signals : Applications for audio thumbnailing. In Audio<br />

Engineering Society 22nd Virtual, Synthetic, and Entertainment Audio<br />

International Conference, 2002. Cité p. 12, 109, 110 et 114<br />

[Ash01] M. Ashikhmin. Synthesizing natural textures. In Proc. of the<br />

ACM Symposium on Interactive 3D graphics, pages 217–226, 2001.<br />

Cité p. 12 et 76<br />

[Auc06] J.J. Aucouturier. Dix expériences sur la modélisation du timbre polyphonique.<br />

PhD thesis, University Paris VI, 2006. Cité p. 18 et 19


152 Bibliographie<br />

[BCL10] L. Barrington, A.B. Chan, and G. Lanckriet. Mo<strong>de</strong>ling music as a<br />

dynamic texture. IEEE Transactions on Audio, Speech, and Language<br />

Processing, 18(3):602–612, 2010. Cité p. 110 et 111<br />

[BDSV11] F. Bimbot, E. Deruty, G. Sargent, and E. Vincent. Methodology<br />

and resources for the structural segmentation of music pieces into<br />

autonomous and comparable blocks. In Proc. of the 12th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

287–292, 2011. Cité p. 113 et 114<br />

[BE47] H.S. Black and J.O. Edson. Pulse co<strong>de</strong> modulation. Transactions of<br />

the American Institute of Electrical Engineers, 66(1):895–899, 1947.<br />

Cité p. 22<br />

[Bel07] J.P. Bello. Audio-based cover song retrieval using approximate chord<br />

sequences: testing shifts, gaps, swaps and beats. In Proc. of the 8th<br />

International Society for Music Information Retrieval Conference (IS-<br />

MIR), pages 239–244, 2007. Cité p. 52<br />

[Bel11] J.P. Bello. Measuring structural similarity in music. IEEE Transactions<br />

on Audio, Speech, and Language Processing, 19(7):2013–2025,<br />

2011. Cité p. 12<br />

[Ben95] G. Benson. A space efficient algorithm for finding the best nonoverlapping<br />

alignment score. Theoretical Computer Science, 145(1):357–369,<br />

1995. Cité p. 91<br />

[Bit87] M. Bitsch. Précis d’harmonie tonale. A. Leduc, 1987.<br />

Cité p. 27, 62 et 66<br />

[BJM12] F. Berthaut, D. Janin, and B. Martin. Advanced synchronization of<br />

audio or symbolic musical patterns: An algebraic approach. In Proc.<br />

of the 6th IEEE International Conference on Semantic Computing,<br />

pages 302–309, 2012. Cité p. 105 et 146<br />

[BLBSV10] F. Bimbot, O. Le Blouch, G. Sargent, and E. Vincent. Decomposition<br />

into autonomous and comparable blocks : a structural <strong>de</strong>scription<br />

of music pieces. In Proc. of the 11th International Society for Music<br />

Information Retrieval Conference (ISMIR), pages 189–194, 2010.<br />

Cité p. 113, 114 et 130<br />

[BM12] C. Bohak and M. Marolt. Finding repeating stanzas in folk songs. In<br />

Proc. of the 13th International Society for Music Information Retrieval<br />

Conference (ISMIR), pages 451–456, 2012. Cité p. 146<br />

[BME11] T. Bertin-Mahieux and D.P.W. Ellis. Large-scale cover song recognition<br />

using hashed chroma landmarks. In IEEE Workshop on Applications<br />

of Signal Processing to Audio and Acoustics (WASPAA), pages<br />

117–120, 2011. Cité p. 68<br />

[BMEWL11] T. Bertin-Mahieux, D.P.W. Ellis, B. Whitman, and P. Lamere. The<br />

million song dataset. In Proc. of the 12th International Society for<br />

Music Information Retrieval Conference (ISMIR), pages 591–596,<br />

2011. Cité p. 63<br />

[BMK06] M.J. Bru<strong>de</strong>rer, M. McKinney, and A.G. Kohlrausch. Structural boundary<br />

perception in popular music. In Proc. of the 7th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

198–201, 2006. Cité p. 113


Bibliographie 153<br />

[BP05] J.P. Bello and J. Pickens. A robust mid-level representation for harmonic<br />

content in music signals. In Proc. of the 6th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

304–311, 2005. Cité p. 28<br />

[BPMW12] J.P. Bello, Grosche P., M. Müller, and R.J. Weiss. Analyzing and<br />

visualizing repetitive <strong>structures</strong> in music recordings. ACM Computers<br />

in Entertainment, 2012. A paraître. Cité p. 12<br />

[Bre94] A.S. Bregman. Auditory scene analysis: The perceptual organization<br />

of sound. The MIT Press, 1994. Cité p. 14 et 17<br />

[BS09] B. Benward and M. Saker. Music in Theory and Practice, volume 2.<br />

McGraw-Hill, 2009. Cité p. 119<br />

[BSCB00] M. Bertalmio, G. Sapiro, V. Casel<strong>les</strong>, and C. Bal<strong>les</strong>ter. Image inpainting.<br />

In Proc. of the 27th ACM annual conference on Computer<br />

Graphics and Interactive Techniques, pages 417–424, 2000. Cité p. 76<br />

[BW01] M.A. Bartsch and G.H. Wakefield. To catch a chorus: Using chromabased<br />

representations for audio thumbnailing. In IEEE Workshop on<br />

the Applications of Signal Processing to Audio and Acoustics (WAS-<br />

PAA), pages 15–18, 2001. Cité p. 27<br />

[BW05] M.A. Bartsch and G.H. Wakefield. Audio thumbnailing of popular<br />

music using chroma-based representations. IEEE Transactions on<br />

Multimedia, 7(1):96–104, 2005. Cité p. 12, 90, 108, 109, 110 et 111<br />

[CBKH05] P. Cano, E. Batlle, T. Kalker, and J. Haitsma. A review of audio<br />

fingerprinting. The Journal of VLSI Signal Processing, 41(3):271–<br />

284, 2005. Cité p. 9<br />

[CCI + 02] E. Cambouropoulos, M. Crochemore, C.S. Iliopoulos, L. Mouchard,<br />

and Y. Pinzon. Algorithms for computing approximate repetitions in<br />

musical sequences. International Journal of Computer Mathematics,<br />

79:1135–1148, 2002. Cité p. 35<br />

[CE10] C.V. Cotton and D.P.W. Ellis. Audio fingerprinting to i<strong>de</strong>ntify multiple<br />

vi<strong>de</strong>os of an event. In IEEE International Conference on Acoustics<br />

Speech and Signal Processing (ICASSP), pages 2386–2389, 2010.<br />

Cité p. 9<br />

[CF04] M. Cooper and J. Foote. Summarizing popular music via structural<br />

similarity analysis. In IEEE Workshop on Applications of Signal<br />

Processing to Audio and Acoustics (WASPAA), pages 127–130, 2004.<br />

Cité p. 90, 109, 110 et 111<br />

[Cha03] W. Chai. Structural analysis of musical signals via pattern matching.<br />

In Proc. of IEEE International Conference on Acoustics,<br />

Speech, and Signal Processing (ICASSP), volume 5, pages 549–552,<br />

2003. Cité p. 110 et 112<br />

[Cha05] W. Chai. Automated analysis of musical structure.<br />

PhD thesis, Massachusetts Institute of Technology, 2005.<br />

Cité p. 97, 109, 113, 114, 119, 132 et 147<br />

[CHL07] M. Crochemore, C. Hancart, and T. Lecroq. Algorithms on strings.<br />

Cambridge University Press, 2007. Cité p. 36<br />

[CI04] R. Clifford and C.S. Iliopoulos. String algorithms in music analysis.<br />

Soft Computing, 8(9):597–603, 2004. Cité p. 35


154 Bibliographie<br />

[CIR98] T. Crawford, C. S. Iliopoulos, and R. Raman. String matching techniques<br />

for musical similarity and melodic recognition. In Proc. of the<br />

7th ACM International Conference on Multimedia, volume 11, pages<br />

71–100, 1998. Cité p. 14<br />

[CL11] R. Chen and M. Li. Music structural segmentation by combining<br />

harmonic and timbral information. In Proc. of the 12th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

477–481, 2011. Cité p. 110 et 111<br />

[CLS + 06] H.L. Chan, T.W. Lam, W.K. Sung, S.L. Tam, and S.S. Wong. A linear<br />

size in<strong>de</strong>x for approximate pattern matching. Journal of Discrete<br />

Algorithms, 9(4):358–364, 2006. Cité p. 146<br />

[Con08] A. Cont. Mo<strong>de</strong>ling Musical Anticipation: From the time of music to<br />

the music of time. PhD thesis, University of Paris 6 and University<br />

of California in San Diego, 2008. Cité p. 15 et 146<br />

[CPT04] A. Criminisi, P. Pérez, and K. Toyama. Region filling and object<br />

removal by exemplar-based image inpainting. IEEE Transactions on<br />

Image Processing, 13(9):1200–1212, 2004. Cité p. 76 et 78<br />

[Cro80] R. Crochiere. A weighted overlap-add method of short-time fourier<br />

analysis/synthesis. IEEE Transactions on Acoustics, Speech and Signal<br />

Processing, 28(1):99–102, 1980. Cité p. 80<br />

[CS06] M. Casey and M. Slaney. The importance of sequences in musical similarity.<br />

In Proc. of IEEE International Conference on Acoustics, Speech<br />

and Signal Processing (ICASSP), volume 5, page V, 2006. Cité p. 14<br />

[Csű04] M. Csűrös. Performing local similarity searches with variable length<br />

seeds. In Combinatorial Pattern Matching, Lecture Notes in Computer<br />

Science, pages 373–387. 2004. Cité p. 145<br />

[CT65] J.W. Cooley and J.W. Tukey. An algorithm for the machine calculation<br />

of complex fourier series. Mathematics and Computation,<br />

19(90):297–301, 1965. Cité p. 25<br />

[CVG + 08] M.A. Casey, R. Veltkamp, M. Goto, M. Leman, C. Rho<strong>de</strong>s, and<br />

M. Slaney. Content-based music information retrieval: Current directions<br />

and future challenges. In Proc. of the IEEE, volume 96, pages<br />

668–696, 2008. Cité p. 5, 6, 7 et 17<br />

[DBEJ08] J.S. Downie, M. Bay, A.F. Ehmann, and M.C. Jones. Audio cover song<br />

i<strong>de</strong>ntification: Mirex 2006-2007 results and analyses. In Proc. of the<br />

9th International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 468–473, 2008. Cité p. 51, 52 et 54<br />

[DBP + 07] R.B. Dannenberg, W.P. Birmingham, B. Pardo, N. Hu, C. Meek, and<br />

G. Tzanetakis. A comparative evaluation of search techniques for<br />

query-by-humming using the musart testbed. Journal of the American<br />

Society for Information Science and Technology, 58(5):687–701, 2007.<br />

Cité p. 9 et 15<br />

[DCWS03] G. Doretto, A. Chiuso, Y.N. Wu, and S. Soatto. Dynamic textures.<br />

International Journal of Computer Vision, 51(2):91–109, 2003.<br />

Cité p. 111<br />

[DEBJ10] J.S. Downie, Andreas Ehmann, Mert Bay, and M. Jones. The<br />

music information retrieval evaluation exchange: Some observations


Bibliographie 155<br />

and insights. In Advances in Music Information Retrieval, volume<br />

274 of Studies in Computational Intelligence, pages 93–115. 2010.<br />

Cité p. 130<br />

[Deu82] D. Deutsch. The processing of pitch combinations. Aca<strong>de</strong>mic Press,<br />

1982. Cité p. 27<br />

[DG09] R.B. Dannenberg and M. Goto. Music structure analysis from acoustic<br />

signals. In Handbook of Signal Processing in Acoustics, pages 305–331.<br />

2009. Cité p. 13 et 113<br />

[DH02] R.B. Dannenberg and N. Hu. Pattern discovery techniques for<br />

music audio. In Proc. of the 3rd International Society for Music<br />

Information Retrieval Conference (ISMIR), pages 63–70, 2002.<br />

Cité p. 35, 109, 110 et 112<br />

[Dig12] DigitalMusicNews. Drowning? The iTunes<br />

Store Now Has 28 Million Songs..., Avril 2012.<br />

http://www.digitalmusicnews.com/permalink/2012/120425itunes.<br />

Cité p. 5<br />

[Don09] O. Donnat. Les pratiques culturel<strong>les</strong> <strong>de</strong>s français à l’ère numérique.<br />

Culture étu<strong>de</strong>s, 1(5):1–12, 2009. Cité p. 5<br />

[Dow03] J. S. Downie. Music information retrieval. Annual Review of Information<br />

Science and Technology, 37:295–340, 2003. Cité p. 6, 8, 10 et 19<br />

[Dow08] J.S. Downie. The music information retrieval evaluation exchange<br />

(2005–2007): A window into music information retrieval research.<br />

Acoustical Science and Technology, 29(4):247–255, 2008.<br />

Cité p. 54, 130 et 139<br />

[DW05] S. Dixon and G. Widmer. Match: A music alignment tool chest. In<br />

Proc. of the 6th International Society for Music Information Retrieval<br />

Conference (ISMIR), pages 492–497, 2005. Cité p. 35<br />

[EKR87] J.P. Eckmann, S.O. Kamphorst, and D. Ruelle. Recurrence plots of<br />

dynamical systems. Europhysics Letters, 4:973, 1987. Cité p. 108<br />

[EL99] A.A. Efros and T.K. Leung. Texture synthesis by non-parametric<br />

sampling. In Proc. of the 7th IEEE International Conference<br />

on Computer Vision (ICCV), volume 2, pages 1033–1038, 1999.<br />

Cité p. 12 et 76<br />

[EMD + 11] A.F. Ehmann, M.Bay, J.S. Downie, I. Fujinaga, and D. De Roure. Music<br />

structure segmentation algorithm evaluation: Expanding on mirex<br />

2010 analyses and datasets. In Proc. of the 12th International Society<br />

for Music Information Retrieval Conference (ISMIR), pages 561–566,<br />

2011. Cité p. 130, 131, 138, 139 et 140<br />

[Eme98] E. Emery. Temps et musique. L’age D’homme, 1998. Cité p. 12 et 17<br />

[EP07] D.P.W. Ellis and G.E. Poliner. I<strong>de</strong>ntifying cover songs with chroma<br />

features and dynamic programming beat tracking. In Proc. of<br />

IEEE International Conference on Acoustics, Speech and Signal<br />

Processing (ICASSP), volume 4, pages 1429–1432. IEEE, 2007.<br />

Cité p. 28, 30, 32, 52 et 68<br />

[Eri75] R. Erickson. Sound structure in music. University of California Press,<br />

1975. Cité p. 17 et 115


156 Bibliographie<br />

[Esc88] F. Escal. Le thème en musique classique. Communications, 47(1):93–<br />

117, 1988. Cité p. 11, 115 et 116<br />

[ET07] A. Eronen and F. Tampere. Chorus <strong>de</strong>tection with combined use of<br />

mfcc and chroma features and image processing filters. In Proc. of<br />

10th International Conference on Digital Audio Effects (DAFx), pages<br />

229–236, 2007. Cité p. 109, 110, 111 et 112<br />

[Ett96] W. Etter. Restoration of a discrete-time signal segment by interpolation<br />

based on the left-si<strong>de</strong>d and right-si<strong>de</strong>d autoregressive parameters.<br />

IEEE Transactions on Signal Processing, 44(5):1124–1135, 1996.<br />

Cité p. 74<br />

[EVRK03] P.A.A. Esquef, V. Välimäki, K. Roth, and I. Kauppinen. Interpolation<br />

of long gaps in audio signals using the warped burg’s method. In Proc.<br />

of the 6th International Conference on Digital Audio Effects (DAFx),<br />

pages 08–11, 2003. Cité p. 75<br />

[EWBL02] D.P.W. Ellis, B. Whitman, A. Berenzweig, and S. Lawrence. The<br />

quest for ground truth in musical artist similarity. In Proc. of the<br />

3rd International Society for Music Information Retrieval Conference<br />

(ISMIR), volume 2, pages 170–177, 2002. Cité p. 7<br />

[Fer99] A.J.S. Ferreira. An odd-dft based approach to time-scale expansion<br />

of audio signals. IEEE Transactions on Speech and Audio Processing,<br />

7(4):441–453, 1999. Cité p. 80<br />

[Foo99] J. Foote. Visualizing music and audio using self-similarity. In Proc. of<br />

the 7th ACM International Conference on Multimedia, pages 77–80,<br />

1999. Cité p. 90, 107 et 108<br />

[Foo00] J. Foote. Automatic audio segmentation using a measure of audio<br />

novelty. In Proc. of IEEE International Conference on Multimedia<br />

and Expo (ICME), pages 452–455, 2000. Cité p. 109, 110 et 111<br />

[Fre06] A. Freed. Music metadata quality: A multiyear case study using<br />

the music of skip james. In Proc. of the Audio Engineering Society<br />

Convention, 2006. Cité p. 7<br />

[Fuj99] T. Fujishima. Realtime chord recognition of musical sound: a system<br />

using common lisp music. In Proc. of the International Computer<br />

Music Conference (ICMC), pages 464–467, 1999. Cité p. 27 et 28<br />

[G´06] E. Gómez. Tonal Description of Music Audio Signals.<br />

PhD thesis, Universitat Pompeu Fabra, pages 63–100, 2006.<br />

Cité p. 19, 27, 28, 30, 31, 50, 52, 62 et 63<br />

[GH06] E. Gómez and P. Herrera. The song remains the same: I<strong>de</strong>ntifying<br />

versions of the same piece using tonal <strong>de</strong>scriptors. In Proc. of the<br />

7th International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 180–185, 2006. Cité p. 52<br />

[GHNO02] M. Goto, H. Hashiguchi, T. Nishimura, and R. Oka. Rwc music database:<br />

Popular, classical, and jazz music databases. In Proc. of the<br />

3rd International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 287–288, 2002. Cité p. 130<br />

[GML03] S. Gao, N.C. Maddage, and C.H. Lee. A hid<strong>de</strong>n markov mo<strong>de</strong>l based<br />

approach to music segmentation and i<strong>de</strong>ntification. In Proc. of the 4th


Bibliographie 157<br />

International Conference on Information, Communications and Signal<br />

Processing, volume 3, pages 1576–1580. IEEE, 2003. Cité p. 111<br />

[GMS12] P. Grosche, M. Müller, and J. Serrà. Audio content-based music retrieval.<br />

In Multimodal Music Processing, volume 3 of Dagstuhl Follow-<br />

Ups, pages 151–174. 2012. Cité p. 9<br />

[GOH06] E. Gómez, BS Ong, and P. Herrera. Automatic tonal analysis from<br />

music summaries for version i<strong>de</strong>ntification. Audio Engineering Society<br />

Convention (AES), 2006. Cité p. 13, 100 et 101<br />

[Góm06] E. Gómez. Tonal <strong>de</strong>scription of polyphonic audio for music content<br />

processing. INFORMS Journal on Computing, 18(3):294–304, 2006.<br />

Cité p. 28<br />

[Got03] M. Goto. A chorus-section <strong>de</strong>tecting method for musical audio signals.<br />

In Proc. of IEEE International Conference on Acoustics,<br />

Speech, and Signal Processing (ICASSP), volume 5, pages 437–440,<br />

2003. Cité p. 11, 12, 90, 100 et 108<br />

[Got06] M. Goto. A chorus section <strong>de</strong>tection method for musical audio signals<br />

and its application to a music listening station. IEEE Transactions<br />

on Audio, Speech, and Language Processing, 14(5):1783–1794, 2006.<br />

Cité p. 28, 90, 108, 109, 110, 111 et 112<br />

[GR98] S.J. Godsill and P.J.W. Rayner. Digital Audio Restoration-a statistical<br />

mo<strong>de</strong>l based approach. Springer, 1998. Cité p. 25, 74 et 75<br />

[GSMA12] P. Grosche, J. Serrà, M. Müller, and J.L. Arcos. Structure-based audio<br />

fingerprinting for music retrieval. In Proc. of the 13th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

55–60, 2012. Cité p. 12<br />

[GT96] J. Gregor and M.G. Thomason. Efficient dynamic programming alignment<br />

of cyclic strings by shift elimination. Pattern Recognition,<br />

29(7):1179–1185, 1996. Cité p. 146<br />

[Gus97] D. Gusfield. Algorithms on strings, trees, and sequences: computer<br />

science and computational biology. Cambridge University Press, pages<br />

215–253, 1997. Cité p. 14, 36, 37, 40, 42, 43, 44 et 50<br />

[GYF + 11] M. Goto, K. Yoshii, H. Fujihara, M. Mauch, and T. Nakano. Songle:<br />

A web service for active music listening improved by user contributions.<br />

Proc. of the 12th International Society for Music Information<br />

Retrieval Conference (ISMIR), pages 311–316, 2011. Cité p. 12<br />

[HAE03] J. Herre, E. Allamanche, and C. Ertel. How similar do songs sound?<br />

towards mo<strong>de</strong>ling human perception of musical similarity. In IEEE<br />

Workshop on Applications of Signal Processing to Audio and Acoustics<br />

(WASPAA), pages 83–86, 2003. Cité p. 10<br />

[Ham50] R.W. Hamming. Error <strong>de</strong>tecting and error correcting co<strong>de</strong>s. Bell<br />

System technical journal, 29(2):147–160, 1950. Cité p. 115<br />

[Hay95] S. Haykin. Advances in spectrum analysis and array processing, volume<br />

3. Prentice-Hall, 1995. Cité p. 26<br />

[HBPD03] P. Herrera-Boyer, G. Peeters, and S. Dubnov. Automatic classification<br />

of musical instrument sounds. Journal of New Music Research,<br />

32(1):3–21, 2003. Cité p. 9


158 Bibliographie<br />

[HCC04] J.L. Hsu, A.L.P. Chen, and H.P. Chen. Finding approximate repeating<br />

patterns from sequence data. In Proc. of the 5th International<br />

Society for Music Information Retrieval Conference (ISMIR), 2004.<br />

Cité p. 35<br />

[HFR07] P. Hanna, P. Ferraro, and M. Robine. On optimizing the editing<br />

algorithms for evaluating similarity between monophonic musical<br />

sequences. Journal of New Music Research, 36(4):267–279, 2007.<br />

Cité p. 35<br />

[Hir75] D.S. Hirschberg. A linear space algorithm for computing maximal<br />

common subsequences. Communications of the ACM, 18(6):341–343,<br />

1975. Cité p. 47<br />

[HS05] C.A. Harte and M. Sandler. Automatic chord i<strong>de</strong>ntification using a<br />

quantised chromagram. In Proc. of the Audio Engineering Society<br />

Convention (AES), pages 291–301, 2005. Cité p. 28<br />

[HSG06] C. Harte, M. Sandler, and M. Gasser. Detecting harmonic change in<br />

musical audio. In Proceedings of the 1st ACM workshop on audio and<br />

music computing multimedia, pages 21–26, 2006. Cité p. 27<br />

[Hur06] D.B. Huron. Sweet anticipation: Music and the psychology of expectation.<br />

The MIT Press, 2006. Cité p. 12, 17, 20 et 146<br />

[IT94] ITU-T. A method for subjective performance assessment of the quality<br />

of speech voice output <strong>de</strong>vices. International Telecommunication<br />

Union Recommandation, page 85, 1994. Cité p. 84 et 85<br />

[JCEJ08] J.H. Jensen, M.G. Christensen, D.P.W. Ellis, and S.H. Jensen. A<br />

tempo-insensitive distance measure for cover song i<strong>de</strong>ntification based<br />

on chroma features. In Proc. of IEEE International Conference on<br />

Acoustics, Speech and Signal Processing (ICASSP), pages 2209–2212,<br />

2008. Cité p. 52<br />

[Jeh05a] T. Jehan. Creating Music by Listening. PhD thesis,<br />

Massachusetts Institute of Technology, pages 57–59, 2005.<br />

Cité p. 10, 12, 18, 32, 64, 68, 76, 77, 110, 112, 114 et 146<br />

[Jeh05b] T. Jehan. Hierarchical multi-class self similarities. In IEEE Workshop<br />

on Applications of Signal Processing to Audio and Acoustics (WAS-<br />

PAA), pages 311–314, 2005. Cité p. 114<br />

[Jen07] K. Jensen. Multiple scale music segmentation using rhythm, timbre,<br />

and harmony. EURASIP Journal on Advances in Signal Processing,<br />

2007(1):159–159, 2007. Cité p. 109, 110 et 111<br />

[KAC05] B. Kater, EHL Aarts, and I.R.A.W. Clout. Music based light effects.<br />

Master’s Thesis. Technische Universiteit Eindhoven, 2005. Cité p. 12<br />

[KAS11] F. Kaiser, M.G. Arvanitidou, and T. Sikora. Audio similarity matrices<br />

enhancement in an image processing framework. In 9th International<br />

Workshop on content-mased multimedia in<strong>de</strong>xing (CBMI), pages 67–<br />

72, 2011. Cité p. 109<br />

[KD06] A. Klapuri and M. Davy. Signal processing methods for music transcription.<br />

Springer, 2006. Cité p. 19 et 31<br />

[KH04] J. Kilian and H.H. Hoos. Musicblast - gapped sequence alignment for<br />

mir. In Proc. of the 5th International Conference on Music Information<br />

Retrieval, pages 38–41, 2004. Cité p. 57


Bibliographie 159<br />

[Kil04] J.F. Kilian. Inferring Score Level Musical Information From Low-<br />

Level Musical Data. PhD thesis, Darmstadt University of Technology,<br />

pages 54–60, 2004. Cité p. 57<br />

[KL99] J.B. Kruskal and M. Liberman. The symmetric time-warping problem:<br />

from continuous to discrete. In Time Warps, String Edits, and<br />

Macromolecu<strong>les</strong> - The Theory and Practice of Sequence Comparison,<br />

chapter 4. CSLI Publications, 1999. Cité p. 145<br />

[KM93] S. Kannan and E.W. Myers. An algorithm for locating nonoverlapping<br />

regions of maximum alignment score. In Proc. of the<br />

4th Annual Symposium on Combinatorial Pattern Matching, pages<br />

74–86, 1993. Cité p. 91 et 95<br />

[KM08] F. Kurth and M. Müller. Efficient in<strong>de</strong>x-based audio matching. IEEE<br />

Transactions on Audio, Speech, and Language Processing, 16(2):382–<br />

395, 2008. Cité p. 52 et 63<br />

[KN08] S. Kim and S. Narayanan. Dynamic chroma feature vectors with<br />

applications to cover song i<strong>de</strong>ntification. In 10th IEEE Workshop on<br />

Multimedia Signal Processing, pages 984–987, 2008. Cité p. 52<br />

[Kru01] C.L. Krumhansl. Cognitive foundations of musical pitch. Oxford<br />

University Press, USA, 2001. Cité p. 17, 23 et 32<br />

[Kru04] C.L. Krumhansl. The cognition of tonality–as we know it today. Journal<br />

of new music research, 33(3):253–268, 2004. Cité p. 19 et 27<br />

[KS10] F. Kaiser and T. Sikora. Music structure discovery in popular music<br />

using non-negative matrix factorization. In Proc. of the 11th International<br />

Society for Music Information Retrieval Conference (ISMIR),<br />

pages 429–434, 2010. Cité p. 110, 111 et 114<br />

[KSM + 10] Y.E. Kim, E.M. Schmidt, R. Migneco, B.G. Morton, P. Richardson,<br />

J. Scott, J.A. Speck, and D. Turnbull. Music emotion recognition:<br />

A state of the art review. In Proc. of the 11th International Society<br />

for Music Information Retrieval Conference (ISMIR), pages 255–266,<br />

2010. Cité p. 7 et 10<br />

[KYB03] I. Korf, M. Yan<strong>de</strong>ll, and J. Be<strong>de</strong>ll. Blast. O’Reilly & Associates, 2003.<br />

Cité p. 56<br />

[Lab] FX Palo Alto Laboratory. Self-similarity analysis: a selected bibilography:<br />

http://www.fxpal.com/?p=similaritybib. Cité p. 108<br />

[Lar98] C. Larkin. The encyclopedia of popular music. Macmillan, 1998.<br />

Cité p. 50<br />

[LC00] B. Logan and S. Chu. Music summarization using key<br />

phrases. In Proc. of IEEE International Conference on Acoustics,<br />

Speech and Signal Processing (ICASSP), pages 749–752, 2000.<br />

Cité p. 12, 90, 110 et 111<br />

[Lem00] K. Lemström. String matching techniques for music retrieval. PhD<br />

thesis, University of Helsinki, 2000. Cité p. 35<br />

[Lev66] V.I. Levenshtein. Binary co<strong>de</strong>s capable of correcting <strong>de</strong>letions, insertions<br />

and reversals. Soviet Physics Doklady, 10(8):707–710, 1966.<br />

Cité p. 37 et 40<br />

[Lev08] D.J. Levitin. This is your brain on music: Un<strong>de</strong>rstanding a human<br />

obsession. Penguin Publishing, 2008. Cité p. 10 et 51


160 Bibliographie<br />

[LJ96] F. Lerdahl and R. Jackendoff. A generative theory of tonal music.<br />

MIT Press, 1996. Cité p. 14, 17, 18, 20, 115 et 116<br />

[LLZ06] L. Lu, D. Liu, and H.J. Zhang. Automatic mood <strong>de</strong>tection and tracking<br />

of music audio signals. IEEE Transactions on Audio, Speech<br />

and Language Processing, 14(1):5–18, 2006. Cité p. 10<br />

[LMR05] M. Lagrange, S. Marchand, and J.B. Rault. Long interpolation of<br />

audio signals using linear prediction in sinusoidal mo<strong>de</strong>ling. Journal of<br />

the Audio Engineering Society, 53(10):891–905, 2005. Cité p. 74 et 75<br />

[LRKO + 08] J. Le Roux, H. Kameoka, N. Ono, A. <strong>de</strong> Cheveigné, and S. Sagayama.<br />

Computational auditory induction by missing-data non-negative matrix<br />

factorization. ISCA Tutorial and Research Workshop on Statistical<br />

And Perceptual Audition (SAPA), 2008. Cité p. 74 et 75<br />

[LS + 99] D.D. Lee, H.S. Seung, et al. Learning the parts of objects by<br />

non-negative matrix factorization. Nature, 401(6755):788–791, 1999.<br />

Cité p. 111<br />

[LS08] M. Levy and M. Sandler. Structural segmentation of musical audio<br />

by constrained clustering. IEEE Transactions on Audio, Speech and<br />

Language Processing, 16(2):318–326, 2008. Cité p. 110 et 132<br />

[Luk08] H.M. Lukashevich. Towards quantitative measures of evaluating song<br />

segmentation. In Proc. of the 9th International Society for Music<br />

Information Retrieval Conference (ISMIR), pages 375–380, 2008.<br />

Cité p. 131, 132 et 133<br />

[LWZ04a] L. Lu, M. Wang, and H.J. Zhang. Repeating pattern discovery and<br />

structure analysis from acoustic music data. In Proc. of the 6th ACM<br />

SIGMM International Workshop on Multimedia Information Retrieval,<br />

pages 275–282, 2004. Cité p. 108, 109, 110 et 111<br />

[LWZ04b] L. Lu, L. Wenyin, and H.J. Zhang. Audio textures: Theory and<br />

applications. IEEE Transactions on Speech and Audio Processing,<br />

12(2):156–167, 2004. Cité p. 12, 76 et 77<br />

[Mah94] R.C. Maher. A method for extrapolation of missing digital audio<br />

data. Journal of the Audio Engineering Society, 42(5):350–357, 1994.<br />

Cité p. 75<br />

[Man83] B.B. Man<strong>de</strong>lbrot. The fractal geometry of nature. W. H. Freeman<br />

and Co., 1983. Cité p. 107<br />

[Mar06] M. Marolt. A mid-level melody-based representation for calculating<br />

audio similarity. In Proc. of the 7th International Society for Music<br />

Information Retrieval Conference (ISMIR), pages 280–285, 2006.<br />

Cité p. 52, 109, 110 et 112<br />

[MBHF12] B. Martin, D.G. Brown, P. Hanna, and P. Ferraro. Blast for audio sequences<br />

alignment: a fast scalable cover i<strong>de</strong>ntification tool. In Proc. of<br />

the 13th International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 529–534, 2012. Cité p. 57, 59, 62 et 143<br />

[MC90] E. Moulines and F. Charpentier. Pitch-synchronous waveform processing<br />

techniques for text-to-speech synthesis using diphones. Speech<br />

communication, 9(5):453–467, 1990. Cité p. 80<br />

[MCD + 09] M. Mauch, C. Cannam, M. Davies, C.Harte, S. Kolozali, D. Tidhar,<br />

and M. Sandler. Omras2 metadata project 2009. In 10th International


Bibliographie 161<br />

Conference on Music Information Retrieval (ISMIR), Late-Breaking<br />

Session, 2009. Cité p. 82, 95 et 130<br />

[MdH11] J.P. Magalhães and W.B. <strong>de</strong> Haas. Functional mo<strong>de</strong>lling of musical<br />

harmony: an experience report. In Proc. of the 16th ACM SIGPLAN<br />

International Conference on Functional Programming, volume 46,<br />

pages 156–162, 2011. Cité p. 147<br />

[ME10] M. Müller and S. Ewert. Towards timbre-invariant audio features<br />

for harmony-based music. IEEE Transactions on Audio, Speech, and<br />

Language Processing, 18(3):649–662, 2010. Cité p. 31<br />

[MEKR11] M. Müller, D. Ellis, A. Klapuri, and G. Richard. Signal processing for<br />

music analysis. IEEE Journal of Selected Topics in Signal Processing,<br />

(99), 2011. Cité p. 17, 18, 19 et 30<br />

[MG12] M. Müller and P. Grosche. Automated segmentation of folk song<br />

field recordings. In Proc. of the 10th IEEE ITG Symposium on<br />

Speech Communication, pages 1–4. VDE VERLAG GmbH, 2012.<br />

Cité p. 115 et 146<br />

[MGW09] M. Müller, P. Grosche, and F. Wiering. Robust segmentation and<br />

annotation of folk song recordings. In Proc. of the 10th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

735–740, 2009. Cité p. 146<br />

[MHR + 10] B. Martin, P. Hanna, M. Robine, J. Allali, and P. Ferraro. Structural<br />

analysis of harmonic features using string matching techniques.<br />

Music Information Retrieval Evaluation eXchange (MIREX), 2010.<br />

Cité p. 110, 131 et 144<br />

[MHRF11a] B. Martin, P. Hanna, M. Robine, and P. Ferraro. In<strong>de</strong>xing musical<br />

pieces using their major repetition. In Proc. of the 11th ACM/IEEE<br />

Joint Conference on Digital Libraries, pages 153–156, Ottawa, Canada,<br />

June 2011. Cité p. 52, 73, 95 et 144<br />

[MHRF11b] B. Martin, P. Hanna, M. Robine, and P. Ferraro. Towards an in<strong>de</strong>xing<br />

method to speed-up music retrieval. In Proc. of the 34th International<br />

ACM SIGIR Conference on Research and Development in Information<br />

Retrieval, pages 1167–1168, 2011. Cité p. 52, 73, 100 et 144<br />

[MHT + 11] B. Martin, P. Hanna, V.T. Ta, M. Desainte-Catherine, and P. Ferraro.<br />

Exemplar-based assignment of large missing audio parts using string<br />

matching on tonal features. In Proc. of the 12th International Society<br />

for Music Information Retrieval Conference (ISMIR), pages 507–512,<br />

2011. Cité p. 73, 77 et 144<br />

[Mid99] R. Middleton. “Form”, Key Terms in Popular Music and Culture.<br />

Wiley-Blackwell, 1999. Cité p. 10<br />

[Mil92] W. Miller. An algorithm for locating a repeated region, 1992. Unpublished<br />

Manuscript. Cité p. 91, 93, 94 et 95<br />

[MK07] M. Müller and F. Kurth. Towards structural analysis of audio<br />

recordings in the presence of musical variations. EUR-<br />

ASIP Journal on Applied Signal Processing, 1(1):163–184, 2007.<br />

Cité p. 12, 109, 110, 111, 112 et 114<br />

[MKC05] M. Müller, F. Kurth, and M. Clausen. Audio matching via chromabased<br />

statistical features. In Proc. of the 6th International Society


162 Bibliographie<br />

for Music Information Retrieval Conference (ISMIR), pages 288–295,<br />

2005. Cité p. 52<br />

[ML81] J.V. Maizel and R.P. Lenk. Enhanced graphic matrix analysis of<br />

nucleic acid and protein sequences. In Proc. of the National Aca<strong>de</strong>my<br />

of Sciences, volume 78, pages 7665–7669, 1981. Cité p. 108<br />

[MM98] S. Masnou and J.M. Morel. Level lines based disocclusion. In Proc. of<br />

International Conference on Image Processing (ICIP), pages 259–263,<br />

1998. Cité p. 76<br />

[MND09] M. Mauch, K.C. Noland, and S. Dixon. Using musical structure to<br />

enhance automatic chord transcription. In Proc. of the 10th International<br />

Society for Music Information Retrieval Conference (ISMIR),<br />

pages 231–236, 2009. Cité p. 13, 109, 110, 112 et 131<br />

[MRH09] B. Martin, M. Robine, and P. Hanna. Musical structure retrieval by<br />

aligning self-similarity matrices. In Proc. of the 10th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

483–488, 2009. Cité p. 12<br />

[MRS08] C.D. Manning, P. Raghavan, and H. Schutze. Introduction to information<br />

retrieval, volume 1. Cambridge University Press, 2008.<br />

Cité p. 55, 102, 131 et 132<br />

[MS90] M. Mongeau and D. Sankoff. Comparison of musical sequences. Computers<br />

and the Humanities, 24(3):161–175, 1990. Cité p. 37 et 145<br />

[MTL02] B. Ma, J. Tromp, and M. Li. Patternhunter: faster and more<br />

sensitive homology search. Bioinformatics, 18(3):440–445, 2002.<br />

Cité p. 71 et 145<br />

[Mül07] M. Müller. Information retrieval for music and motion. Springer-<br />

Verlag, 2007. Cité p. 23, 35, 112, 113 et 114<br />

[Mül11] M. Müller. New <strong>de</strong>velopments in music information retrieval. In Proc.<br />

of the 42nd Audio and Engineering Society Conference, pages 11–20,<br />

2011. Cité p. 107<br />

[MXK06] N.C. Maddage, C. Xu, and M.S. Kankanhalli. Automatic structure<br />

<strong>de</strong>tection for popular music. IEEE MultiMedia, 13:65–77, 2006.<br />

Cité p. 110<br />

[Nic12] A. Nicolas. Etat <strong>de</strong>s lieux <strong>de</strong> l’offre <strong>de</strong> musique numérique. Observatoire<br />

<strong>de</strong> la musique, 2012. Cité p. 5<br />

[NKM02] H. Nagano, K. Kashino, and H. Murase. Fast music retrieval using<br />

polyphonic binary feature vectors. In Proc. of IEEE International<br />

Conference on Multimedia and Expo (ICME), volume 1, pages 101–<br />

104, 2002. Cité p. 52<br />

[NW70] S.B. Needleman and C.D. Wunsch. A general method applicable to<br />

the search for similarities in the amino acid sequence of two proteins.<br />

Journal of Molecular Biology, 48(3):443–453, 1970. Cité p. 40<br />

[Ong07] B. Ong. Structural Analysis and Segmentation of Music<br />

Signals. PhD thesis, Universitat Pompeu Fabra, 2007.<br />

Cité p. 10, 108, 109, 110, 111 et 112<br />

[Ori06] N. Orio. Music retrieval: A tutorial and review, volume 1 of Foundations<br />

and Trends in Information Retrieval. Now Publishers, 2006.<br />

Cité p. 8


Bibliographie 163<br />

[Oud10] L. Oudre. Template-based chord recognition from audio signals. PhD<br />

thesis, Télécom ParisTech, 2010. Cité p. 28<br />

[Pac02] F. Pachet. The continuator: Musical interaction with style. In Proc.<br />

of International Computer Music Conference (ICMC), pages 211–218,<br />

2002. Cité p. 146<br />

[Par94] R. Parncutt. A perceptual mo<strong>de</strong>l of pulse salience and metrical accent<br />

in musical rhythms. Music Perception, 11:409–464, 1994. Cité p. 17<br />

[Par06a] B. Pardo. Finding structure in audio for music information retrieval.<br />

IEEE Signal Processing Magazine, 23(3):126–132, 2006. Cité p. 8<br />

[Par06b] B. Pardo. Music information retrieval. Communications of the ACM,<br />

49(8):29–31, 2006. Cité p. 6<br />

[Pau10] J. Paulus. Signal Processing Methods for Drum Transcription and<br />

Music Structure Analysis. PhD thesis, Tampere University of Technology,<br />

2010. Cité p. 107, 108 et 114<br />

[PBO00] H. Purwins, B. Blankertz, and K. Obermayer. A new method for<br />

tracking modulations in tonal music in audio data format. In Proc.<br />

of the IEEE-INNS-ENNS International Joint Conference on Neural<br />

Networks, volume 6, pages 270–275, 2000. Cité p. 28<br />

[PBR02] G. Peeters, A. La Burthe, and X. Ro<strong>de</strong>t. Toward automatic music<br />

audio summary generation from signal analysis. In Proc. of the<br />

3rd International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 94–100, 2002. Cité p. 111 et 131<br />

[PD09] G. Peeters and E. Deruty. Is music structure annotation<br />

multi-dimensional? a proposal for robust local music annotation.<br />

In Proc. of the 3rd Workshop on Learning the Semantics<br />

of Audio Signals (LSAS), pages 75–90, Graz, Austria, 2009.<br />

Cité p. 84, 90, 91, 107, 113, 114, 130 et 131<br />

[Pee04] G. Peeters. Deriving musical <strong>structures</strong> from signal analysis for<br />

music audio summary generation: Sequence and state approach.<br />

In Computer Music Mo<strong>de</strong>ling and Retrieval, volume 2771 of Lecture<br />

Notes in Computer Science, pages 169–185. Springer, 2004.<br />

Cité p. 13, 109, 110 et 131<br />

[Pee06] G. Peeters. Musical key estimation of audio signal based on hid<strong>de</strong>n<br />

markov mo<strong>de</strong>ling of chroma vectors. In Proceedings of the International<br />

Conference on Digital Audio Effects (DAFx), pages 127–131,<br />

2006. Cité p. 28<br />

[Pee07] G. Peeters. Sequence representation of music structure using<br />

higer-or<strong>de</strong>r similarity matrix and maximum likelihood approach.<br />

In Proc. of the 8th International Society for Music Information<br />

Retrieval Conference (ISMIR), Vienna, Austria, 2007.<br />

Cité p. 109, 110, 111, 112 et 131<br />

[PK06] J. Paulus and A. Klapuri. Music structure analysis by finding repeated<br />

parts. In Proc. of the 1st ACM Workshop on Audio and Music Computing<br />

Multimedia (AMCMM), pages 59–68, 2006. Cité p. 110 et 132<br />

[PK09] J. Paulus and A. Klapuri. Music structure analysis using a probabilistic<br />

fitness measure and a greedy search algorithm. IEEE Transactions


164 Bibliographie<br />

on Audio, Speech and Language Processing, 17(6):1159–1170, 2009.<br />

Cité p. 110, 111, 112 et 113<br />

[PK12] G. Peeters and F. Karën. Towards a (better) <strong>de</strong>finition of the <strong>de</strong>scription<br />

of annotated mir corpora. In Proc. of the 13th International<br />

Society for Music Information Retrieval Conference (ISMIR), pages<br />

25–30, 2012. Cité p. 113<br />

[PLR08] E. Peiszer, T. Lidy, and A. Rauber. Automatic audio segmentation:<br />

Segment boundary and structure <strong>de</strong>tection in popular music. In Proc.<br />

of International Workshop on Learning the Semantics of Audio Signals<br />

(LSAS), 2008. Cité p. 112<br />

[PMK10] J. Paulus, M. Müller, and A. Klapuri. Audio-based music structure<br />

analysis. In Proc. of the 11th International Society for Music Information<br />

Retrieval Conference (ISMIR), pages 625–636, Utrecht, Netherlands,<br />

2010. Cité p. 107, 109, 111, 113, 114, 132 et 145<br />

[PQ11] A. Pires and M. Queiroz. Real-time unsupervised music structural<br />

segmentation using dynamic <strong>de</strong>scriptors. In Proc. of the Sound and<br />

Music Conference (SMC), 2011. Cité p. 111<br />

[PS01] E. Pollastri and G. Simoncelli. Classification of melodies by composer<br />

with hid<strong>de</strong>n markov mo<strong>de</strong>ls. In Proc. of the 1st International Conference<br />

on Web Delivering of Music, pages 88–95, 2001. Cité p. 9<br />

[Pur05] H. Purwins. Profi<strong>les</strong> of Pitch Classes - Circularity of Relative Pitch<br />

and Key - Experiments, Mo<strong>de</strong>ls, Music Analysis, and Perspectives.<br />

PhD thesis, Technischen Universität Berlin, 2005. Cité p. 27<br />

[PWL01] F. Pachet, G. Westermann, and D. Laigre. Musical data mining for<br />

electronic music distribution. In Proc. of the 1st International Conference<br />

on Web Delivering of Music, pages 101–106, 2001. Cité p. 7<br />

[Rab89] L.R. Rabiner. A tutorial on hid<strong>de</strong>n markov mo<strong>de</strong>ls and selected applications<br />

in speech recognition. In Proc. of the IEEE, volume 77,<br />

pages 257–286, 1989. Cité p. 110 et 111<br />

[Rao04] V.M. Rao. Audio compression using repetitive <strong>structures</strong> in music.<br />

Master’s thesis, University of Miami, 2004. Cité p. 13 et 111<br />

[RC07] C. Rho<strong>de</strong>s and M. Casey. Algorithms for <strong>de</strong>termining and labelling<br />

approximate hierarchical self-similarity. In Proc. of the 8th International<br />

Society for Music Information Retrieval Conference (ISMIR),<br />

pages 41–46, 2007. Cité p. 110, 112 et 115<br />

[Ric06] J.A. Rice. Mathematical statistics and data analysis. Thomson Learning,<br />

2006. Cité p. 103<br />

[RN88] J.L. Rodgers and W.A. Nicewan<strong>de</strong>r. Thirteen ways to look at the<br />

correlation coefficient. American Statistician, pages 59–66, 1988.<br />

Cité p. 32<br />

[RN01] D. Reefman and P. Nuijten. Why direct stream digital is the best<br />

choice as a digital audio format. Proc. of Audio Engineering Society<br />

Convention (AES), 2001. Cité p. 22<br />

[Roc11] T. Rocher. <strong>Analyse</strong> et modélisation <strong>de</strong>s informations tona<strong>les</strong> <strong>dans</strong><br />

la musique occi<strong>de</strong>ntale. PhD thesis, Université Bor<strong>de</strong>aux 1, 2011.<br />

Cité p. 13, 62, 66 et 147


Bibliographie 165<br />

[SBF + 11] J.B.L. Smith, J.A. Burgoyne, I. Fujinaga, D. De Roure, and J.S.<br />

Downie. Design and creation of a large-scale database of structural<br />

annotations. In Proc. of the 12th International Society for Music<br />

Information Retrieval Conference (ISMIR), pages 555–560, 2011.<br />

Cité p. 114 et 130<br />

[SBV10] G. Sargent, F. Bimbot, and E. Vincent. A structural segmentation of<br />

songs using generalized likelihood ratio un<strong>de</strong>r regularity assumptions.<br />

Music Information Retrieval Evaluation eXchange (MIREX), 2010.<br />

Cité p. 110, 111 et 131<br />

[SBV + 11] G. Sargent, F. Bimbot, E. Vincent, et al. A regularity-constrained<br />

viterbi algorithm and its application to the structural segmentation<br />

of songs. In Proc. of the 12th International Society for Music<br />

Information Retrieval Conference (ISMIR), pages 483–488, 2011.<br />

Cité p. 110 et 111<br />

[Sch95] J.P. Schmidt. All shortest paths in weighted grid graphs and its<br />

application to finding all approximate repeats in strings. In Proc. of<br />

the 3rd Israel Symposium on theTheory of Computing and Systems,<br />

pages 67–77, 1995. Cité p. 95<br />

[Sch12] D. Schnitzer. In<strong>de</strong>xing Content-Based Music Similarity Mo<strong>de</strong>ls for<br />

Fast Retrieval in Massive Databases. PhD thesis, Johannes Kepler<br />

Universität, 2012. Cité p. 56<br />

[SD06] C. Sailer and K. Dressler. Finding cover songs by melodic similarity.<br />

Music Information Retrieval Evaluation eXchange (MIREX), 2006.<br />

Cité p. 52<br />

[SGH08] J. Serrà, E. Gómez, and P. Herrera. Transposing chroma representations<br />

to a common key. In Proc. of IEEE CS Conference on The Use<br />

of Symbols to Represent Music and Multimedia Objects, pages 45–48,<br />

2008. Cité p. 33<br />

[SGH10] J. Serrà, E. Gómez, and P. Herrera. Audio cover song i<strong>de</strong>ntification<br />

and similarity: background, approaches, evaluation, and beyond, volume<br />

274 of Studies in Computational Intelligence, chapter 14, pages<br />

307–332. 2010. Cité p. 50, 51, 52, 54 et 55<br />

[SGHS08] J. Serrà, E. Gómez, P. Herrera, and X. Serra. Chroma binary similarity<br />

and local alignment applied to cover song i<strong>de</strong>ntification. IEEE<br />

Transactions on Audio, Speech and Language Processing, 16:1138–<br />

1151, 2008. Cité p. 30, 31, 32, 33, 51, 52, 53 et 68<br />

[She82] R.N. Shepard. Structural representations of musical pitch. The psychology<br />

of music, pages 343–390, 1982. Cité p. 27<br />

[SHOB11] A. Sprotte-Hansen, J. Orpinel, and J.P. Bello. The music intervisualizer–integrating<br />

navigation and visualization. 13th International<br />

Society for Music Information Retrieval Conference (ISMIR) -<br />

Late-breaking session, 2011. Cité p. 115<br />

[SJK05] Y. Shiu, H. Jeong, and C.C.J. Kuo. Musical structure analysis using<br />

similarity matrix and dynamic programming. In Proc. of SPIE, volume<br />

6015, pages 398–409, 2005. Cité p. 110 et 112


166 Bibliographie<br />

[SK09] M. Schedl and P. Knees. Context-based music similarity estimation.<br />

In Proc. of the 3rd International Workshop on Learning Semantics of<br />

Audio Signals, page 59, 2009. Cité p. 7<br />

[SL01] D. Seung and L. Lee. Algorithms for non-negative matrix factorization.<br />

Advances in neural information processing systems, 13:556–562,<br />

2001. Cité p. 110<br />

[Smi10] J.B.L. Smith. A comparison and evaluation of approaches to the automatic<br />

formal analysis of musical audio. PhD thesis, McGill University,<br />

2010. Cité p. 112<br />

[SPA07] A. Spanias, T. Painter, and V. Atto. Audio signal processing and<br />

coding. Wiley & Sons, 2007. Cité p. 24<br />

[Spo12] SpotifyLtd. Spotify Metadata API, Accédé en Août 2012.<br />

http://ws.spotify.com/search/1/track?q=year:0-9999. Cité p. 5<br />

[SR99] D. Schwarz and X. Ro<strong>de</strong>t. Spectral envelope estimation and representation<br />

for sound analysis-synthesis. In Proc. of the International<br />

Computer Music Conference (ICMC), 1999. Cité p. 31<br />

[SRS10] P. Smaragdis, B. Raj, and M. Shashanka. Missing data imputation<br />

for time-frequency representations of audio signals. Journal of Signal<br />

Processing Systems, 65(3):1–10, 2010. Cité p. 75<br />

[SSA09] J. Serra, X. Serra, and R.G. Andrzejak. Cross recurrence quantification<br />

for cover song i<strong>de</strong>ntification. New Journal of Physics,<br />

11(9):093017, 2009. Cité p. 52<br />

[SSSE00] A. Schödl, R. Szeliski, D.H. Sa<strong>les</strong>in, and I. Essa. Vi<strong>de</strong>o textures.<br />

In Proc. of the 27th annual conference on Computer Graphics and<br />

Interactive Techniques, pages 489–498, 2000. Cité p. 12<br />

[Ste79] L. Stein. Structure & style: the study and analysis of musical forms.<br />

Suzuki, 1979. Cité p. 11 et 20<br />

[SW81] T.F. Smith and M.S. Waterman. I<strong>de</strong>ntification of common molecular<br />

subsequences. Journal of molecular biology, 147(1):195–197, 1981.<br />

Cité p. 41, 42 et 92<br />

[TB02] B. Tillmann and E. Bigand. A comparative review of priming effects<br />

in language and music. Advances In Consciousness Research, 35:231–<br />

240, 2002. Cité p. 19<br />

[TC99] G. Tzanetakis and P. Cook. Marsyas: A framework for audio analysis.<br />

Organised sound, 4(3):169–175, 1999. Cité p. 12<br />

[TC02] G. Tzanetakis and P. Cook. Musical genre classification of audio signals.<br />

IEEE Transactions on Speech and Audio Processing, 10(5):293–<br />

302, 2002. Cité p. 9<br />

[TD05] D. Tschumperle and R. Deriche. Vector-valued image regularization<br />

with p<strong>de</strong>s: A common framework for different applications. IEEE<br />

Transactions on Pattern Analysis and Machine Intelligence, pages<br />

506–517, 2005. Cité p. 76<br />

[Tem04] D. Temperley. The Cognition of Basic Musical Structures. The MIT<br />

Press, 2004. Cité p. 17 et 19<br />

[Ter60] USA Standard Acoustical Terminology. Timbre, 1960. Cité p. 18<br />

[TL07] D. Turnbull and G. Lanckriet. A supervised approach for <strong>de</strong>tecting<br />

boundaries in music using difference features and boosting. In Proc. of


Bibliographie 167<br />

the 5th International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 42–49, 2007. Cité p. 131 et 132<br />

[TLX + 09] A. Tian, W. Li, L. Xiao, D. Wang, J. Zhou, and T. Zhang. Histogram<br />

matching for music repetition <strong>de</strong>tection. In Proc. of IEEE International<br />

Conference on Multimedia and Expo (ICME), pages 662–665,<br />

2009. Cité p. 109 et 110<br />

[TP80] J. Tenney and L. Polansky. Temporal gestalt perception in music.<br />

Journal of Music Theory, 24(2):205–241, 1980. Cité p. 17<br />

[TYW08] W.H. Tsai, H.M. Yu, and H.M. Wang. Using the similarity of main<br />

melodies to i<strong>de</strong>ntify cover versions of popular songs for music document<br />

retrieval. Journal of Information Science and Engineering,<br />

24(6):1669–1687, 2008. Cité p. 50<br />

[VHP02] H. Vinet, P. Herrera, and F. Pachet. The cuidado project. In Proc. of<br />

the 3rd International Society for Music Information Retrieval Conference<br />

(ISMIR), 2002. Cité p. 9<br />

[Vin05] H. Vinet. The semantic hifi project. Proc. of International Conference<br />

on Music Computing (ICMC), 2005. Cité p. 11<br />

[Vit67] A. Viterbi. Error bounds for convolutional co<strong>de</strong>s and an asymptotically<br />

optimum <strong>de</strong>coding algorithm. IEEE Transactions on Information<br />

Theory, 13(2):260–269, 1967. Cité p. 111<br />

[VV05] M. Viswanathan and M. Viswanathan. Measuring speech quality<br />

for text-to-speech systems: <strong>de</strong>velopment and assessment of a modified<br />

mean opinion score (mos) scale. Computer Speech & Language,<br />

19(1):55–83, 2005. Cité p. 85<br />

[Wan84] C.C. Wang. Effects of some aspects of rhythm on tempo perception.<br />

Journal of Research in Music Education, 32(3):169–176, 1984.<br />

Cité p. 87<br />

[Wan03] A. Wang. An industrial strength audio search algorithm. In Proc. of<br />

the 4th International Society for Music Information Retrieval Conference<br />

(ISMIR), volume 2, 2003. Cité p. 9<br />

[WB10] R. J. Weiss and J. P. Bello. I<strong>de</strong>ntifying repeated patterns in music<br />

using sparse convolutive non-negative matrix factorization. In Proc. of<br />

the 11th International Society for Music Information Retrieval Conference<br />

(ISMIR), pages 123–128, 2010. Cité p. 110, 111, 114 et 131<br />

[WB11] R. Weiss and J. Bello. Unsupervised discovery of temporal structure<br />

in music. IEEE Journal of Selected Topics in Signal Processing,<br />

5(6):1240–1251, 2011. Cité p. 111<br />

[WCB10] A. Wankhammer, I.V.L. Clarkson, and A.P. Bradley. Music structure<br />

discovery based on normalized cross correlation. In Proc. of the 13th<br />

International Conference on Digital Audio Effects (DAFx-10), pages<br />

488–493, 2010. Cité p. 109, 110 et 111<br />

[WCL09] L. Wang, E.S. Chng, and H. Li. Efficient sparse self-similarity matrix<br />

construction for repeating sequence <strong>de</strong>tection. In Proc. of IEEE International<br />

Conference on Multimedia and Expo (ICME), pages 458–461,<br />

2009. Cité p. 109 et 110


168 Bibliographie<br />

[Wei99] Y. Weiss. Segmentation using eigenvectors: a unifying view. In Proc.<br />

of the 7th IEEE International Conference on Computer Vision, volume<br />

2, pages 975–982, 1999. Cité p. 111<br />

[WH03] J. Wellhausen and M. Hoeynck. Audio thumbnailing using mpeg-7<br />

low-level audio <strong>de</strong>scriptors. In Internet Multimedia Management Systems<br />

IV, volume 5242, pages 65–73, 2003. Cité p. 109, 110, 111 et 112<br />

[Whi60] B.W. White. Recognition of distorted melodies. The American journal<br />

of psychology, 73(1):100–107, 1960. Cité p. 51<br />

[WL02] B. Whitman and S. Lawrence. Inferring <strong>de</strong>scriptions and similarity for<br />

music from community metadata. In Proc. of International Computer<br />

Music Conference (ICMC), pages 591–598, 2002. Cité p. 7<br />

[Wri07] C.M. Wright. Listening to music. Schirmer Books, 2007.<br />

Cité p. 128 et 129<br />

[Yan01] C. Yang. Music database retrieval based on spectral similarity. Proc.<br />

of the 2nd International Society for Music Information Retrieval<br />

Conference (ISMIR), 2001. Cité p. 52<br />

[ZKG05] Y. Zhu, M.S. Kankanhalli, and S. Gao. Music key <strong>de</strong>tection for musical<br />

audio. In Proc. of the 11th International Multimedia Mo<strong>de</strong>lling<br />

Conference (MMM), pages 30–37, 2005. Cité p. 28

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!