10.07.2015 Views

Modèles de Markov triplets en restauration des signaux

Modèles de Markov triplets en restauration des signaux

Modèles de Markov triplets en restauration des signaux

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

École Doctorale SMPCThèse prés<strong>en</strong>tée pour l’obt<strong>en</strong>tion du diplôme <strong>de</strong>Docteur <strong>de</strong> Télécom & Managem<strong>en</strong>t SudParisDoctorat conjoint Télécom & Managem<strong>en</strong>t SudPariset Université Pierre et Marie CurieSpécialité : MATHÉMATIQUES APPLIQUÉESPar :Mohamed BEN MABROUKSujet <strong>de</strong> la thèse:Modèles <strong>de</strong> <strong>Markov</strong> <strong>triplets</strong> <strong>en</strong><strong>restauration</strong> <strong>de</strong>s <strong>signaux</strong>Rapporteurs :Sout<strong>en</strong>ue le 26 Avril 2011 <strong>de</strong>vant le jury composé <strong>de</strong> :François ROUEFFNikolaos LIMNIOSProfesseur TELECOM ParisTech.Professeur Université <strong>de</strong> Technologie <strong>de</strong> Compiègne.Examinateurs :Jean-Yves TOURNERET Professeur INP - ENSEEIHT Toulouse.Michel BRONIATOWSKI Professeur Université Pierre et Marie Curie.Pascal LARZABAL Professeur École Normale Supérieure <strong>de</strong> Cachan.Directeur <strong>de</strong> thèse :Wojciech PIECZYNSKIProfesseur Télécom Sud-Paris.Thèse n ○ :2011TELE0014


AbstractRestoration unsupervised statistical signal admits countless applications in fieldsas diverse economy, health, signal processing, meteorology, finance, biology, reliability,transport, <strong>en</strong>vironm<strong>en</strong>t, ... One problem base, which is c<strong>en</strong>tral to this thesis isto estimate a sequ<strong>en</strong>ce hid<strong>de</strong>n(x n ) 1∶N from an observed sequ<strong>en</strong>ce(y n ) 1∶N . Probabilistictreatm<strong>en</strong>t of the problem in these sequ<strong>en</strong>ces are consi<strong>de</strong>red accomplishm<strong>en</strong>ts,respectively, process X =(X n ) 1∶N and Y =(Y n ) 1∶N . Several techniques based onstatistical methods have be<strong>en</strong> <strong>de</strong>veloped for solve this problem. The most commonmo<strong>de</strong>l among the process is the mo<strong>de</strong>l called og hid<strong>de</strong>n <strong>Markov</strong> mo<strong>de</strong>l fg (MMC).In this mo<strong>de</strong>l we assume that the hid<strong>de</strong>n process X is <strong>Markov</strong> and laws p(y∣x) of Yconditional on X is suffici<strong>en</strong>tly simple so that the law p(x∣y) is also <strong>Markov</strong>ian, thislast property is necessary for treatm<strong>en</strong>t. More Ext<strong>en</strong>sions of these mo<strong>de</strong>ls have be<strong>en</strong>proposed since 2000. In <strong>Markov</strong> mo<strong>de</strong>ls couples (MMCouples), more g<strong>en</strong>eral thanthe MMC, the pair(X,Y) is <strong>Markov</strong>ian), implying that p(x∣y) is also <strong>Markov</strong> (wh<strong>en</strong>p(x) is no necessarily), which allows the same treatm<strong>en</strong>t as in MMC. More rec<strong>en</strong>tly(2002), were ext<strong>en</strong><strong>de</strong>d to MMCouples « triplet <strong>Markov</strong> mo<strong>de</strong>ls » (MMT), in whichwe introduce a auxiliary process U and suppose that the triple T=(X,U,Y) is <strong>Markov</strong>.Again it is possible, in a more g<strong>en</strong>eral that of MMCouples, perform treatm<strong>en</strong>tswith a reasonable complexity.The objective of this thesis is to propose new mo<strong>de</strong>ling part of the MMT and toinvestigate their relevance and interest. We offer two types of innovations :(i) Wh<strong>en</strong> the system is discrete and hid<strong>de</strong>n wh<strong>en</strong> the couple(X,Y) is not stationarywith a finite number of « jumps » random parameters, the rec<strong>en</strong>t use of MMTin where the jumps are mo<strong>de</strong>led by a discrete process U a be<strong>en</strong> very convincing(Lanchantin, 2006). Our first i<strong>de</strong>a is to use this approach with a process U continuous,which mo<strong>de</strong>ls non-steady "continuous" from(X,Y). We offer chains andfields and <strong>triplets</strong> pres<strong>en</strong>t some experim<strong>en</strong>ts. The results obtained in the mo<strong>de</strong>lingof non-stationarity still seem less interesting that in the discrete case. However, newmo<strong>de</strong>ls may have other interests, in particular, they seem more effici<strong>en</strong>t than oghid<strong>de</strong>n <strong>Markov</strong> fg classic wh<strong>en</strong> the noise is correlated;(ii) An MMT T=(X,U,Y) such that X and Y are continuous and U is discretefinite. We are <strong>de</strong>aling with the problem of filtering, or smoothing, with randomjumps. In mo<strong>de</strong>ling classic the pair hid<strong>de</strong>n(X,U) is <strong>Markov</strong>, but the pair(U,Y)is not, what is the cause of the impossibility of Exact calculations with linear complexityin time. It is th<strong>en</strong> necessary to use various approximate methods, which thoseusing particle filtering are among the most used. In rec<strong>en</strong>t mo<strong>de</strong>ls MMT the pairhid(X,U) is not necessarily <strong>Markov</strong>ian, but the pair(U,Y) is, what which allowsaccurate treatm<strong>en</strong>t with a reasonable complexity (Pieczynski 2009). Our second i<strong>de</strong>aiii


ABSTRACTis to ext<strong>en</strong>d these mo<strong>de</strong>ls to <strong>triplets</strong> T=(X,U,Y) where the pairs(U,Y) are "partially"<strong>Markov</strong>. Such a pair(U,Y) is not <strong>Markov</strong> but U is <strong>Markov</strong> conditionally onY . We a mo<strong>de</strong>l with T=(X,U,Y) more g<strong>en</strong>eral, which is more <strong>Markov</strong>, wherein thefiltering and smoothing are accurate possible with linear complexity in time. Somepreliminary Simulations show interest in new mo<strong>de</strong>ls smoothing in the pres<strong>en</strong>ce ofjumps.KeywordsHid<strong>de</strong>n <strong>Markov</strong> Chain, pairwise and triplet <strong>Markov</strong> chains, Partially <strong>Markov</strong>chains, Hid<strong>de</strong>n Chain to Jump-<strong>Markov</strong>, long <strong>de</strong>p<strong>en</strong><strong>de</strong>nce, Hid<strong>de</strong>n Gaussian-<strong>Markov</strong>field, Logit mo<strong>de</strong>l, Bayesian infér<strong>en</strong>ce, filtering, smoothing, Expectation Maximisation,Iterative Conditional Estimationiv


Remerciem<strong>en</strong>tsJe ti<strong>en</strong>s à remercier <strong>en</strong> premier lieu Wojciech PIECZYNSKI pour avoir accepté <strong>de</strong>m’accueillir au sein <strong>de</strong> son départem<strong>en</strong>t et qui a dirigé cette thèse dans la continuité<strong>de</strong> mon stage <strong>de</strong> master. Tout au long <strong>de</strong> ma thèse, il a su ori<strong>en</strong>ter mes recherches auxbons mom<strong>en</strong>ts. Malgré son emploi chargé, il a toujours été disponible pour d’int<strong>en</strong>seset rationnelles discussions. Pour tout cela, sa confiance et son souti<strong>en</strong>, je le remercievivem<strong>en</strong>t et j’espère qu’il trouvera dans ce travail, ma gran<strong>de</strong> reconnaissance et monrespect absolu.Je remercie aussi les rapporteurs <strong>de</strong> ma thèse François ROUEFF et NikolaosLIMNIOS pour leur réactivité et les apports constructifs qu’ils ont ajouté et l’intérêtqu’ils ont porté à mon travail.Je ti<strong>en</strong>s égalem<strong>en</strong>t à remercier les autres membres du jury : Jean-Yves TOURNE-RET Professeur INP - ENSEEIHT Toulouse, Michel BRONIATOWSKI ProfesseurUniversité Pierre et Marie Curie et Pascal LARZABAL Professeur École NormaleSupérieure <strong>de</strong> Cachan. Pour avoir accepté <strong>de</strong> juger ce travail, et pour leur disponibilitéinconditionnelle.Je remercie, <strong>de</strong> même, mes collègues <strong>de</strong> bureau pour leur g<strong>en</strong>tillesse, leur disponibilitéet surtout pour la bonne ambiance <strong>de</strong> travail que nous avons partagée :Noufel ABBASSI et Soumaya SALLEM Je ti<strong>en</strong>s aussi à associer à ces remerciem<strong>en</strong>tsl’<strong>en</strong>semble du départem<strong>en</strong>t CITI, et <strong>en</strong> particulier : l’anci<strong>en</strong> post-doc Hawari, ainsique Julie BONNET qui m’a facilité toutes les démarches administratives au sein <strong>de</strong>l’école.Un travail <strong>de</strong> thèse représ<strong>en</strong>te toujours une continuité. Pour cela je n’oublis pas <strong>de</strong>remercier tous les anci<strong>en</strong>s thésards qui ont contribué directem<strong>en</strong>t ou indirectem<strong>en</strong>tà ce sujet par leurs recherche, notamm<strong>en</strong>t : JEROME pour son ai<strong>de</strong> précieuse.Des remerciem<strong>en</strong>ts particuliers vont à toute ma famille pour leur souti<strong>en</strong> inconditionnel: A mon père, j’espère qu’il trouvera dans ce travail les valeurs qu’il m’atransmis : la rigueur, la métho<strong>de</strong>, la pati<strong>en</strong>ce et la persévérance. A ma mère, j’espèrequ’elle trouvera aussi tout ce qu’elle m’a transmis et le résultat <strong>de</strong> ces efforts, sagénérosité, sa créativité et sa persévérance.A mes chers frères, sœurs, mon cousin Nasser et sa famille, j’adresse ma gratitu<strong>de</strong>pour leurs <strong>en</strong>couragem<strong>en</strong>ts, leur souti<strong>en</strong>t et leurs conseilles.v


Table <strong>de</strong>s matièresRésumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Remerciem<strong>en</strong>ts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Table <strong>de</strong>s matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .iiiivviiixIntroduction 1I Modèles <strong>de</strong> <strong>Markov</strong> Classiques 5I.1 Modèle graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5I.1.1 Modèle graphique non ori<strong>en</strong>té . . . . . . . . . . . . . . . . . . . . 6I.1.2 Modèle graphique ori<strong>en</strong>té . . . . . . . . . . . . . . . . . . . . . . 7I.1.3 Factorisation d’une loi selon un graphe . . . . . . . . . . . . . . 10I.2 Chaîne <strong>de</strong> <strong>Markov</strong> cachée . . . . . . . . . . . . . . . . . . . . . . . . . . . 10I.2.1 CMC à espace d’état discret . . . . . . . . . . . . . . . . . . . . . 11I.2.2 Infér<strong>en</strong>ce Bayési<strong>en</strong>ne dans la CMC discrète . . . . . . . . . . . . 14I.3 CMC à espace d’états continu . . . . . . . . . . . . . . . . . . . . . . . . 16I.3.1 Infér<strong>en</strong>ce Bayési<strong>en</strong>ne . . . . . . . . . . . . . . . . . . . . . . . . . 17I.3.2 Filtre <strong>de</strong> Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . 18I.3.3 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19I.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22II Modèle <strong>de</strong> <strong>Markov</strong> Couple 25II.1 Chaîne <strong>de</strong> <strong>Markov</strong> Couple . . . . . . . . . . . . . . . . . . . . . . . . . . 25II.2 Infér<strong>en</strong>ce dans le modèle couple . . . . . . . . . . . . . . . . . . . . . . . 31II.2.1 Algorithme <strong>de</strong> Baum-Welsh . . . . . . . . . . . . . . . . . . . . . 31II.2.2 Algorithme <strong>de</strong> Baum-Welsh conditionnel . . . . . . . . . . . . . 33II.2.3 Programmation dynamique : Algorithme <strong>de</strong> Viterbi . . . . . . . 34II.3 Etu<strong>de</strong> comparative <strong>en</strong>tre CMC-BI et CMCouples . . . . . . . . . . . . 36II.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39IIIEstimation <strong>de</strong>s paramètres 41III.1 L’algorithme EM et ses variantes . . . . . . . . . . . . . . . . . . . . . . 42III.1.1 L’algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . 42III.1.2 Variantes <strong>de</strong> l’algorithme EM . . . . . . . . . . . . . . . . . . . . 43III.2 Estimation Conditionnelle Itérative . . . . . . . . . . . . . . . . . . . . . 45III.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46III.3.1 Mélange indép<strong>en</strong>dant gaussi<strong>en</strong> fini . . . . . . . . . . . . . . . . . 46vii


TABLE DES MATIÈRESIII.3.2 CMC-BI gaussi<strong>en</strong>nes . . . . . . . . . . . . . . . . . . . . . . . . . 48III.3.3 CMCouple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51III.3.4 Exemple numérique . . . . . . . . . . . . . . . . . . . . . . . . . . 53III.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55IV Modèle <strong>de</strong> <strong>Markov</strong> Triplet 57IV.1 Chaîne <strong>de</strong> <strong>Markov</strong> Triplet : Cas discret . . . . . . . . . . . . . . . . . . . 57IV.1.1 Chaîne <strong>de</strong> <strong>Markov</strong> Cachée M-stationnaire . . . . . . . . . . . . . 58IV.1.2 Chaîne <strong>de</strong> <strong>Markov</strong> Couple M-stationnaire . . . . . . . . . . . . . 67IV.1.3 Chaîne Semi-<strong>Markov</strong>i<strong>en</strong>ne Cachée . . . . . . . . . . . . . . . . . 68IV.2 Chaîne <strong>de</strong> <strong>Markov</strong> Triplet Mixte . . . . . . . . . . . . . . . . . . . . . . . 75IV.3 Champ <strong>de</strong> <strong>Markov</strong> Triplet Mixte . . . . . . . . . . . . . . . . . . . . . . 84IV.3.1 Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> . . . . . . . . . . . . . . . . . . . . . 86IV.3.2 Simulation du Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> . . . . . . . . . . . . 87IV.3.3 Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> caché . . . . . . . . . . . . . . . . . 90IV.3.4 Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> triplet . . . . . . . . . . . . . . . . . 94IV.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98V Chaînes conditionnellem<strong>en</strong>t linéaires à sauts markovi<strong>en</strong>s 99V.1 Processus à mémoire longue . . . . . . . . . . . . . . . . . . . . . . . . . 99V.2 Chaîne couple partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> (CCPM) . . . . . . . . . . . . . 101V.2.1 Prés<strong>en</strong>tation <strong>de</strong>s CCPM . . . . . . . . . . . . . . . . . . . . . . . 101V.2.2 Chaînes <strong>de</strong> <strong>Markov</strong> cachées par du bruit gaussi<strong>en</strong>(CMC-BG) . 103V.3 Modèle conditionnellem<strong>en</strong>t linéaire à sauts markovi<strong>en</strong>s . . . . . . . . . 105V.3.1 Modèle Classique . . . . . . . . . . . . . . . . . . . . . . . . . . . 105V.3.2 Modèle conditionnellem<strong>en</strong>t linéaire à sauts markovi<strong>en</strong>s (CCLSM)106V.3.3 CCLSM et bruit gaussi<strong>en</strong> à mémoire longue . . . . . . . . . . . 108V.4 Experim<strong>en</strong>tations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111V.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119Conclusion et perspectives 121A K-means 123B Approximation <strong>de</strong> Laplace 125C Vecteurs gaussi<strong>en</strong>s 127Bibliographie 129viii


NotationsSymbolesN Nombre <strong>de</strong>s observationsK Nombre <strong>de</strong>s étatsS Ensemble <strong>de</strong>s indices.∣S∣ Cardinal <strong>en</strong>semble <strong>de</strong>s indices.X Espace <strong>de</strong>s états cachésY Espace <strong>de</strong>s observationsU Espace <strong>de</strong>s états auxiliairesX 1n Processus caché <strong>de</strong> longueur n(X i ) 1≤i≤n .Y 1n Processus observé <strong>de</strong> longueur n(Y i ) 1≤i≤n .U 1n Processus auxiliaire <strong>de</strong> longueur n(U i ) 1≤i≤n .X n ,U n ,Y n Variables aléatoires indicées par n.x n ,u n ,y n Réalisations <strong>de</strong>s v.a X n ,U n ,Y n .ν Mesure <strong>de</strong> référ<strong>en</strong>ce.P Mesure <strong>de</strong> Probabilité.E Espérance associée.V Variance associée.C Covariance associée.E(.∣.) Espérance conditionnelle.p(x) Pour x discret probabilité X=x, pour x∈X <strong>de</strong>nsité <strong>de</strong> X par rapport à ν.p(.∣.) D<strong>en</strong>sité conditionnelle d’une v.a.α n (.) Quantité directe d’indice n.β n (.) Quantité rétrogra<strong>de</strong> d’indice n.(γ(k)) k∈Z Famille <strong>de</strong> covariance d’un processus. relation d’indép<strong>en</strong>dance.AB A est indép<strong>en</strong>dante <strong>de</strong> B.AB∣C A est indép<strong>en</strong>dante <strong>de</strong> B conditionnellem<strong>en</strong>t à C.N(m,σ 2 ) Loi normale <strong>de</strong> moy<strong>en</strong>ne m et <strong>de</strong> variance σ 2 .G Graphe d’indép<strong>en</strong>dance conditionnelle non ori<strong>en</strong>tée.→ G Graphe d’indép<strong>en</strong>dance conditionnelle ori<strong>en</strong>tée.G m Graphe moral.Ŝ() Fonction <strong>de</strong> classification.L Fonction <strong>de</strong> coût .L Log-vraisemblance.ix


NOTATIONSAcronymesV.AMAPMPMMLCMCCMCoupleCMTCMC-MSCMCouple-MSCSMCCMC-MLCMTMEMECIBIMLCCPMCTPMCGCGMRTSGMLCCLSMVariable Aléatoire.Maximum A Posteriori.Maximum Marginal a Posteriori.Maximum <strong>de</strong> Vraisemblance.Chaîne <strong>de</strong> <strong>Markov</strong> cachée.Chaîne <strong>de</strong> <strong>Markov</strong> couple.Chaîne <strong>de</strong> <strong>Markov</strong> triplet.Chaîne <strong>de</strong> <strong>Markov</strong> cachée M-stationnaire.Chaîne <strong>de</strong> <strong>Markov</strong> Couple M-stationnaire.Chaîne semi-markovi<strong>en</strong>ne cachée.Chaîne <strong>de</strong> <strong>Markov</strong> cachée à mémoire longue.Chaîne <strong>de</strong> <strong>Markov</strong> Triplet Mixte.Expectation Maximization.Estimation Conditionnelle Itérative.Bruit Indép<strong>en</strong>dant.Mémoire Longue.Chaîne Couple Partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong>.Chaîne Triplet Partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong>.Champ Gaussi<strong>en</strong>.Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong>.Rauch-Tung-Striebel.Gaussi<strong>en</strong> à Mémoire Longue.Chaîne conditionnellem<strong>en</strong>t Linéaire à Sauts <strong>Markov</strong>i<strong>en</strong>s.x


IntroductionNotre travail se situe dans le domaine <strong>de</strong>s traitem<strong>en</strong>ts statistiques <strong>de</strong>s <strong>signaux</strong>.Parmi ces traitem<strong>en</strong>ts nous nous intéressons aux métho<strong>de</strong>s bayési<strong>en</strong>nes. Le problèmegénéral est celui <strong>de</strong> l’estimation du signal caché à partir du signal observé.Nous considérons que le signal observé est une réalisation y=(y n ) 1∶N d’un processusaléatoireY=(Y n ) 1∶N sur un réseauS={1,..,N} et nous cherchons à estimer la réalisationx=(xn ) 1∶N d’un processus aléatoire cachéX=(X n ) 1∶N . Nous supposerons queles variables X n pr<strong>en</strong>n<strong>en</strong>t leurs valeurs dans un espaceX et les variables Y n pr<strong>en</strong>n<strong>en</strong>tleurs valeurs dans un espaceY. Lorsque le signal caché est discret son estimationsera appelée « segm<strong>en</strong>tation »; lorsqu’il est continu on parlera <strong>de</strong> « filtrage » ou <strong>de</strong>« lissage ».Une métho<strong>de</strong> bayési<strong>en</strong>ne <strong>de</strong> segm<strong>en</strong>tation ou <strong>de</strong> lissage est caractérisée par unefonction <strong>de</strong> coût, dite aussi fonction <strong>de</strong> perte, L∶X N ×X N → R. La fonction <strong>de</strong>coût L permet <strong>de</strong> mesurer la perte moy<strong>en</strong>ne subie lors <strong>de</strong> l’application d’une métho<strong>de</strong>donnée. En notant une métho<strong>de</strong> bayési<strong>en</strong>ne Ŝ, la métho<strong>de</strong> (on dit souv<strong>en</strong>t la"stratégie") bayési<strong>en</strong>ne vérifie :E[L(Ŝ(Y),X)]=arg min E[L(S(Y),X)] (1)SLorsque l’espaceX est fini les fonctions <strong>de</strong> perte parmi les plus utilisées sont lessuivantes :◻L∶ X N ×X N → R(x 1 1∶N ,x2 1∶N ) ↦ 1−δ(x1 1∶N ,x2 1∶N ) ; (2)◻L∶ X N ×X N → R(x 1 1∶N ,x2 1∶N ) ↦ 1− N∑ 1 N n=1δ(x 1 n,x 2 n)avec δ est l’indice <strong>de</strong> Kronecker δ(a,b)=1 si a=b et 0 sinon.La fonction (2) pénalise <strong>de</strong> la manière toutes les solutions Ŝ(Y) différ<strong>en</strong>tes <strong>de</strong> X.La solution bayési<strong>en</strong>ne correspondant à cette fonction <strong>de</strong> perte, appelée « Maximuma Posteriori » (MAP), est donnée par :(3)̂x MAP (y)=argmax p(x∣y) (4)x∈X NOn remarque que l’estimateur du MAP est équival<strong>en</strong>t à l’estimateur du maximum<strong>de</strong> vraisemblance lorsque la loi a priori est la loi uniforme.Contrairem<strong>en</strong>t à la fonction (2), la fonction (3) a un aspect local et elle ne pénalisepas <strong>de</strong> la même manière toutes les estimations <strong>de</strong> X. La métho<strong>de</strong> bayési<strong>en</strong>ne1


INTRODUCTIONcorrespondant à cette fonction <strong>de</strong> perte est dite « Maximum <strong>de</strong>s Marginales a Posteriori» (MPM). Elle est donnée par :∀ n∈S ̂x n (y)=argmaxx n∈Xp(x n ∣y) (5)Notre travail concerne les situations dans lesquelles le nombre d’observations Nest trop grand pour que l’on puisse <strong>en</strong>visager d’utiliser les lois du couple(X,Y) danstoute leur généralité et il est nécessaire <strong>de</strong> faire appel à <strong>de</strong>s formes particulières <strong>de</strong>ces lois. A titre d’exemple, <strong>en</strong> traitem<strong>en</strong>t <strong>de</strong>s images, le réseauS est constitué <strong>de</strong>s"pixels", ou <strong>de</strong>s "sites", dont le nombre N peut être <strong>de</strong> l’ordre d’un million. Il estalors trop grand pour pouvoir <strong>en</strong>visager le calcul direct <strong>de</strong> la loi p(x,y) du couple(X,Y). Les modèles particuliers utilisés classiquem<strong>en</strong>t à <strong>de</strong>s fin <strong>de</strong> segm<strong>en</strong>tation ou<strong>de</strong> lissage pourN "grand" sont les « modèles <strong>de</strong> <strong>Markov</strong> cachés » (MMC). Introduitsdans les articles fondateurs [5, 9, 10, 53], ils permett<strong>en</strong>t, d’une part, <strong>de</strong> modéliserd’une manière simple la loi p(x,y) et <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> consi<strong>de</strong>ration la corrélationspatiale (dans le cas <strong>de</strong>s images) ou temporelle (dans le cas <strong>de</strong>s <strong>signaux</strong> monodim<strong>en</strong>sionnels)<strong>de</strong>s données cachées. D’autre part, ils permett<strong>en</strong>t <strong>de</strong> calculer (dansle cas <strong>de</strong>s <strong>signaux</strong> mono-dim<strong>en</strong>sionnels) ou d’approcher efficacem<strong>en</strong>t (dans le cas<strong>de</strong>s images) les estimations <strong>de</strong>s données cachées par <strong>de</strong>s métho<strong>de</strong> bayési<strong>en</strong>nes. Cesmodèles ont d’innombrables applications dans divers domaines. Ainsi, <strong>de</strong> manièr<strong>en</strong>on exhaustive, nous pouvons citer quelques publications <strong>en</strong> imagerie médicale [84],biosci<strong>en</strong>ce [29,62], imagerie radar [32,51,55,114], écologie [8,18], communication [25],acoustique [3].Dans les modèles <strong>de</strong> <strong>Markov</strong> cachés on définit la loi p(x,y) <strong>en</strong> <strong>de</strong>ux temps.On définit d’abord p(x), qui est supposée markovi<strong>en</strong>ne, et <strong>en</strong>suite on définit laloi (qui modélise le caractère stochastique du "bruit") p(y∣x). L’important dansces modèles est que la loi p(x∣y), dite « a posteriori », est markovi<strong>en</strong>ne. Or, unefois que l’on a posé la markovianité <strong>de</strong> p(x), on ne peut obt<strong>en</strong>ir la markovianité<strong>de</strong> p(x∣y) qu’au prix <strong>de</strong>s bruits p(y∣x) simples. C’est une faiblesse inutile <strong>de</strong> cesmodèles car la markovianité <strong>de</strong> p(x) n’est pas nécessaire. Cette faiblesse a été levéedans les modèles dits « modèles <strong>de</strong> <strong>Markov</strong> couples » [91, 93, 104], dans lesquelson suppose directem<strong>en</strong>t que le couple(X,Y) est markovi<strong>en</strong>. Comme conséqu<strong>en</strong>c<strong>en</strong>ous obt<strong>en</strong>ons que p(x∣y) et p(y∣x) sont aussi markovi<strong>en</strong>nes. La première propriétéimplique la possibilité d’utiliser les mêmes métho<strong>de</strong>s bayési<strong>en</strong>nes que dans le cas <strong>de</strong>sMMC. La <strong>de</strong>uxième permet une modélisation « markovi<strong>en</strong>ne » <strong>de</strong>s bruits, ce quiest plus complet que les modélisations habituelles. Notons que dans une chaîne <strong>de</strong><strong>Markov</strong> couple la chaîne X n’est pas nécessairem<strong>en</strong>t markovi<strong>en</strong>ne, mais cela ne nuitaucunem<strong>en</strong>t aux traitem<strong>en</strong>ts car la markovianité <strong>de</strong> X ne sert, dans les MMC, quepour montrer la markovianité <strong>de</strong> p(x∣y).Par la suite, les modèles <strong>de</strong> <strong>Markov</strong> Couple ont connu <strong>de</strong>s ext<strong>en</strong>sions qui sontles modèles <strong>de</strong> <strong>Markov</strong> Triplet (MMT) [36, 92,94]. Dans ces modèles on introduitun troisième processus U=(U n ) n∈S et on suppose que le triplet T=(X,U,Y) est<strong>de</strong> <strong>Markov</strong>. On arrive à une famille <strong>de</strong> modèles très riche, où le processus U peutmodéliser <strong>de</strong>s propriétés très diverses. Il peut modéliser la non-stationnarité <strong>de</strong> X[64,67,69], la semi-markovianité <strong>de</strong> X [27,70,71], ou <strong>en</strong>core le caractère "évi<strong>de</strong>ntiel"X [64, 68, 96]. Sachant que dans une chaîne <strong>de</strong> <strong>Markov</strong> T =(X,U,Y) la loi <strong>de</strong>(X,Y) n’est pas nécessairem<strong>en</strong>t markovi<strong>en</strong>ne, le modèle MMT est strictem<strong>en</strong>t plus2


INTRODUCTIONgénéral que le modèle <strong>de</strong> <strong>Markov</strong> couple. Pourtant, les mêmes traitem<strong>en</strong>ts bayési<strong>en</strong>ssont <strong>en</strong>core possibles. En effet, un MMT T =(X,U,Y) peut être vu comme unmodèle markovi<strong>en</strong> couple T=(V,Y), avec V=(X,U). Il est alors possible d’estimersimultaném<strong>en</strong>t X et U.Notre travail concerne les modèles <strong>de</strong> <strong>Markov</strong> <strong>triplets</strong>. Plus particulièrem<strong>en</strong>t nousnous intéressons aux chaînes et aux champs <strong>de</strong> <strong>Markov</strong> triplet. Nous proposons troiscontributions :♢ Dans le cas <strong>de</strong>s chaînes <strong>triplets</strong> avec la chaîne cachée discrète, nous proposonsun nouveau modèle dans lequel U soit une chaîne <strong>de</strong> <strong>Markov</strong> à espace d’étatcontinu [80];♢ Dans le cas <strong>de</strong>s champs <strong>triplets</strong> avec le champ caché discret, nous proposonsun nouveau modèle <strong>de</strong> champ Triplet dans lequel U est champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong>;♢ Un modèle <strong>de</strong> chaînes <strong>de</strong> <strong>Markov</strong> <strong>triplets</strong> réc<strong>en</strong>t (2009) a permis <strong>de</strong> traiter, par<strong>de</strong>s métho<strong>de</strong>s directes et optimales, le problème <strong>de</strong> filtrage et <strong>de</strong> lissage <strong>en</strong> prés<strong>en</strong>ce<strong>de</strong>s sauts. Nous généralisons ce modèle à un modèle original permettant<strong>de</strong> considérer <strong>de</strong>s bruits à mémoire longue.Organisation du manuscritNotre manuscrit est composé <strong>de</strong> cinq chapitres, qui sont organisés comme suit :Le premier chapitre est consacré à <strong>de</strong>s rappels et <strong>de</strong>s définitions concernant lesmodèles graphiques et les chaînes <strong>de</strong> <strong>Markov</strong> cachées. En premier lieu, nous rappelonsles définitions <strong>de</strong>s modèles graphiques ori<strong>en</strong>tés et non-ori<strong>en</strong>tés, qui serv<strong>en</strong>t <strong>en</strong> secondlieu à rappeler les modèles <strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> cachées à espace d’états discret et àespace d’états continu. Pour chacun <strong>de</strong> ces modèles, nous donnons divers algorithmesclassiques d’infér<strong>en</strong>ce Bayési<strong>en</strong>ne permettant <strong>de</strong> calculer p(x n ∣y) et p(x n ∣x n−1 ,y).Nous prés<strong>en</strong>tons égalem<strong>en</strong>t <strong>de</strong>s exemples <strong>de</strong> simulations pour ces modèles.Dans le <strong>de</strong>uxième chapitre, nous introduisons les chaînes <strong>de</strong> <strong>Markov</strong> couples.Nous détaillons <strong>de</strong>s algorithmes d’infér<strong>en</strong>ce Bayési<strong>en</strong>ne : algorithme <strong>de</strong> Baum-Welsh,algorithme <strong>de</strong> Baum-Welsh conditionnel et l’algorithme <strong>de</strong> Viterbi. Ces algorithmespermett<strong>en</strong>t <strong>de</strong> calculer les solutions bayési<strong>en</strong>nes MPM et MAP dans le cas <strong>de</strong> lasegm<strong>en</strong>tation <strong>de</strong>s observations y 1∶N . Nous procédons à une étu<strong>de</strong> comparative <strong>en</strong>trela CMCouple et la CMC-BI <strong>en</strong> prés<strong>en</strong>tant <strong>de</strong>s simulations originales.Dans les <strong>de</strong>ux premiers chapitres, nous prés<strong>en</strong>tons divers algorithmes <strong>de</strong> traitem<strong>en</strong>tcorrespondant aux divers modèles paramétriques, dont les paramètres sontsupposés connus. Le troisième chapitre sera dédié au cas dans lequel ces paramètresne sont pas connus et doiv<strong>en</strong>t être estimés à partir <strong>de</strong>s observations. Nous énonçonsd’abord les principes généraux <strong>de</strong> <strong>de</strong>ux algorithmes généraux d’estimation <strong>de</strong>s paramètres: algorithme Espérance-Maximisation (EM) [16, 20, 22, 34] et EstimationConditionnelle Itérative (ICE) [7,33,89,95]. Ensuite nous détaillons ces algorithmespour certains modèles traités dans les chapitres précé<strong>de</strong>nts. Enfin, nous prés<strong>en</strong>tonsune application numérique originale d’estimation <strong>de</strong>s paramètres.Dans le quatrième chapitre, nous prés<strong>en</strong>tons les modèles <strong>de</strong> <strong>Markov</strong> <strong>triplets</strong>. Enpremier lieu, nous traitons le cas <strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> Triplets (CMT) avec processusauxiliaire U discret, et nous détaillons différ<strong>en</strong>tes utilisations <strong>de</strong> ce processus3


INTRODUCTIONpour modéliser la M-stationnarité et la semi-markovianité. En second lieu, nousprés<strong>en</strong>tons un nouveau modèle <strong>de</strong> la CMT avec processus auxiliaire continu [80] etnous donnons <strong>de</strong>s exemples d’applications <strong>en</strong> segm<strong>en</strong>tation d’images. Nous prés<strong>en</strong>tonsune étu<strong>de</strong> numérique concernant <strong>de</strong>s images simulées et <strong>de</strong>s images artificielles.En troisième lieu, nous prés<strong>en</strong>tons un modèle original <strong>de</strong> champ <strong>de</strong> <strong>Markov</strong> triplet,avec un champ auxiliaire U Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> (CGM) [50,106,108].Dans le cinquième chapitre, nous rappelons tout d’abord la définition d’un processusà mémoire longue. Ensuite, nous prés<strong>en</strong>tons le modèle réc<strong>en</strong>t <strong>de</strong>s chaînescouples partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> (CCPM) qui permet <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> considérationla mémoire longue d’un processus observé, tout <strong>en</strong> préservant la possibilitéd’ét<strong>en</strong>dre l’algorithme <strong>de</strong> Baum-Welsh, qui permet <strong>de</strong> calculer p(x n ∣y). Puis, nousprés<strong>en</strong>tons <strong>de</strong>ux nouveaux modèles pr<strong>en</strong>ant <strong>en</strong> considération la mémoire longue etpermettant <strong>de</strong> faire un filtrage et un lissage exact dans certains modèles cachésà sauts. Le premier, général, est dit « chaîne conditionnellem<strong>en</strong>t linéaire à sautsmarkovi<strong>en</strong>s » (CCLSM). Dans le <strong>de</strong>uxième, appelé « chaîne conditionnellem<strong>en</strong>t linéaireà sauts markovi<strong>en</strong>s et bruit gaussi<strong>en</strong> à mémoire longue » (CCLSM-GML)on considère <strong>de</strong>s bruits gaussi<strong>en</strong>s [49,99, 100].Enfin, nous produisons <strong>de</strong>s résultatsd’expérim<strong>en</strong>tations informatiques concernant ces nouveaux modèles.Le manuscrit se termine par une conclusion et <strong>de</strong>s perspectives, une brève annexe,et une bibliographie.4


Chapitre IModèles <strong>de</strong> <strong>Markov</strong> ClassiquesDans ce chapitre, nous rappelons l’un <strong>de</strong>s modèles <strong>de</strong> <strong>Markov</strong> cachés le plus utilisé<strong>de</strong>puis les années quatre-vingt. Il s’agit du modèle <strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> cachées(CMC), connu <strong>en</strong> anglais sous le nom <strong>de</strong> « Hid<strong>de</strong>n <strong>Markov</strong> Chain » (HMC). Nousdétaillerons les algorithmes <strong>de</strong> calcul dans <strong>de</strong>ux cas : celui où les données lat<strong>en</strong>tessont à valeurs dans un espace d’état discret et celui où elles sont à valeurs dans unespace d’état continu.Pour comm<strong>en</strong>cer, nous rappelons quelques notions sur les modèles graphiquesori<strong>en</strong>tés et non-ori<strong>en</strong>tés. Nous rappelons la notion d’indép<strong>en</strong>dance conditionnelle,qui joue un rôle ess<strong>en</strong>tiel dans le développem<strong>en</strong>t <strong>de</strong>s algorithmes <strong>de</strong> calcul, et aussidans la définition <strong>de</strong>s modèles graphiques.Dans toute la suite, on note par X une collection <strong>de</strong> variables aléatoires(X n )in<strong>de</strong>xées par une partie non vi<strong>de</strong>S <strong>de</strong> N m . Lorsque m=1 il s’agit <strong>de</strong> chaînes et pourm=2, il s’agit <strong>de</strong> champs bidim<strong>en</strong>sionnels. Nous noterons x=(x n ) n∈S les réalisations<strong>de</strong> X. Pour toutAsous-<strong>en</strong>semble <strong>de</strong>S, on notera par ailleurs X A la restriction duprocessus X àA.I.1 Modèle graphiqueLa modélisation graphique est un moy<strong>en</strong> général pour illustrer certains aspects<strong>de</strong>s modèles probabilistes. En effet, elle permet <strong>de</strong> représ<strong>en</strong>ter les variables aléatoirespar les sommets d’un graphe et les relations d’indép<strong>en</strong>dance conditionnelle <strong>en</strong>tre cesvariables par les arêtes <strong>de</strong> ce <strong>de</strong>rnier.Dans toute la suite, nous noterons par p(.) les <strong>de</strong>nsités <strong>de</strong>s lois, év<strong>en</strong>tuellem<strong>en</strong>tp(.∣.) les <strong>de</strong>nsités <strong>de</strong>s lois conditionnelles, par rapport à la mesure <strong>de</strong> comptage dansle cas discret et par rapport à la mesure <strong>de</strong> Lebesgue dans le cas continu. La notion<strong>de</strong> base dans la modélisation graphique est l’indép<strong>en</strong>dance conditionnelle.Définition I.1 SoitA,B etC trois sous <strong>en</strong>sembles <strong>de</strong>S, <strong>de</strong>ux à <strong>de</strong>ux disjoints. Ondit que X A et X C sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à X B - et on note X A X C ∣X B - si et seulem<strong>en</strong>t si :p(x A ,x C ∣x B )=p(x A ∣x B )p(x C ∣x B )(I.1)En terme d’information, ceci se traduit par : connaissant X B , X C n’apporte pasd’information supplém<strong>en</strong>taire sur X A (resp. X A sur X C ).5


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESNous détaillons dans la suite les modèles graphiques ori<strong>en</strong>tés et non-ori<strong>en</strong>tés;pour plus <strong>de</strong> précisions, les lecteurs intéressés pourront égalem<strong>en</strong>t consulter le livre<strong>de</strong> Steff<strong>en</strong> L. Lauritz<strong>en</strong> [74], ou l’article <strong>de</strong> P. Smyth et al. [113].I.1.1 Modèle graphique non ori<strong>en</strong>téSoitS={1,..,N} une partie <strong>de</strong> N, et soitE un sous <strong>en</strong>semble <strong>de</strong>S×S. Nousappelons « graphe » le coupleG=(S,E). L’<strong>en</strong>sembleS sera nommé <strong>en</strong>semble <strong>de</strong>ssommets, etE l’<strong>en</strong>semble <strong>de</strong>s arêtes. Le grapheG sera nommé graphe non ori<strong>en</strong>télorsque pour tout couple <strong>de</strong> sommets(u,v)∈S 2 , si(u,v)∈E alors(v,u)∈E. Soi<strong>en</strong>tu et v <strong>de</strong>ux sommets <strong>de</strong>G. On dit qu’il y a une arête <strong>en</strong>tre u et v dansG, et on noteu↔Gv, si(u,v)∈E. On note u↮Gv s’il n’y a pas d’arête.Pour tout sommet u <strong>de</strong>S, on note ν(u) l’<strong>en</strong>semble <strong>de</strong>s voisins <strong>de</strong> u, cad. l’<strong>en</strong>semble<strong>de</strong>s sommets v qui sont reliés par <strong>de</strong>s arêtes à u :ν(u)={v∈S,u↔Gv}(I.2)Un sous-<strong>en</strong>sembleC <strong>de</strong>G est une clique si et seulem<strong>en</strong>t si :◻C est un singleton, ou◻∀(u,v) <strong>de</strong>ux sommets <strong>de</strong>C, u et v sont mutuellem<strong>en</strong>t voisins (u∈ν(v) etv∈ν(u)).On dit qu’il y a un chemin <strong>en</strong>tre u et v, s’il existe une suite <strong>de</strong>s sommets u 1 ,..,u n ,telle que : u∈ν(u 1 ),..,u i−1 ∈ν(u i ),..,u n ∈ν(v). Soi<strong>en</strong>tA,B etC trois sous-<strong>en</strong>sembles<strong>de</strong>S <strong>de</strong>ux à <strong>de</strong>ux disjoints. On dit queBsépareAetC, si seulem<strong>en</strong>t si pour toutsommet a dansA, tout sommet c dansC, tout chemin <strong>en</strong>tre a et c passe par oumoins un sommet b appart<strong>en</strong>ant àB.Sur la figure (I.1),D={3,4} sépareB={1,2} etC={5,6}. Un chemin <strong>en</strong>tre{1}∈B et{5}∈D passe par{3}∈D.Définition I.2 SoitG un graphe. Le processus aléatoire X=(X n ) 1∶N satisfait lapropriété <strong>de</strong> <strong>Markov</strong> « par paires » par rapport àG, si∀(u,v) couple <strong>de</strong> sommets telque u↮Gv, X u et X v sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à X t∉{u,v} :∀(u,v), si u↮Gv alors X u X v ∣X t∉{u,v}(I.3)Définition I.3 SoitG un graphe. Le processus aléatoire X=(X n ) 1∶N satisfait lapropriété <strong>de</strong> <strong>Markov</strong> « locale »par rapport àG, si pour tout sommet n∈{1,..,N}, X nest indép<strong>en</strong>dant <strong>de</strong> ses non-voisins(X t ) t∉{n∪ν(n)} conditionnellem<strong>en</strong>t à(X t ) t∈ν(n) :∀n∈S X n (X t ) t∉{n∪ν(n)} ∣(X t ) t∈ν(n)(I.4)Définition I.4 SoitG un graphe. Le processus aléatoire X=(X n ) 1∶N satisfait lapropriété <strong>de</strong> <strong>Markov</strong> « globale »par rapport àG, si pour tout triplet(B,C,D) <strong>de</strong>sous-<strong>en</strong>sembles <strong>de</strong>S, disjoints <strong>de</strong>ux à <strong>de</strong>ux, tels queDsépareB etC dansG, on a :X B X C ∣X D(I.5)On dit alors égalem<strong>en</strong>t queG est le graphe d’indép<strong>en</strong>dance conditionnelle pour X.6


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESNotons, à titre d’exemple, que sur la figure (I.1),DsépareBetC :{X 1 ,X 2 }{X 5 ,X 6 }∣{X 3 ,X 4 }B D CX 1 X 3 X 5X 2 X 4 X 6Figure I.1 – Exemple d’un graphe d’indép<strong>en</strong>dance conditionnelle non-ori<strong>en</strong>té :{X 1 ,X 2 } et{X 5 ,X 6 } sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à{X 3 ,X 4 }Remarque I.1 Pour un graphe d’indép<strong>en</strong>dance conditionnelle non-ori<strong>en</strong>téG=(S,E),les trois propriétés <strong>de</strong> <strong>Markov</strong> (locale, par paire et globale) sont équival<strong>en</strong>tes. La démonstration<strong>de</strong> l’équival<strong>en</strong>ce est détaillée dans le livre <strong>de</strong> Steff<strong>en</strong> L. Lauritz<strong>en</strong> [74].Sachant que ces trois propriétés sont équival<strong>en</strong>tes, nous choisirons, lorsqu’il s’agira<strong>de</strong> graphe non ori<strong>en</strong>té, d’utiliser l’une ou l’autre selon nos besoins dans chaque casd’étu<strong>de</strong>. Par exemple, si nous nous intéressons à la loi p(x n ∣x t≠n ) dans le cas d’unechaîne <strong>de</strong> <strong>Markov</strong> la propriété <strong>de</strong> <strong>Markov</strong> locale nous sera la plus utile, et si nousnous intéressons à la factorisation <strong>de</strong> la loi p(x) nous pourrons utiliser la propriété<strong>de</strong> <strong>Markov</strong> globale.I.1.2 Modèle graphique ori<strong>en</strong>téOn appelle graphe ori<strong>en</strong>té et on note → G , tout graphe dont les arêtes sont définiespar leur origine et leur extrémité, c’est-à-dire dont les arêtes sont ori<strong>en</strong>tées, muniesd’un s<strong>en</strong>s. Une arête d’un graphe ori<strong>en</strong>té est appelée arc. On note par → E ⊂S 2l’<strong>en</strong>semble <strong>de</strong>s arcs.Soit → G=(S, → E)un graphe ori<strong>en</strong>té, et soit(u,v)∈S 2 . On dit que u est un par<strong>en</strong>t<strong>de</strong> v s’il existe un arc d’origine u et d’extrémité v, ce que l’on note par u→ →Gv.Un graphe ori<strong>en</strong>té → G est dit acyclique si pour tout u un sommet <strong>de</strong>S il n’existeaucun chemin (cycle) ori<strong>en</strong>té qui part <strong>de</strong> u et revi<strong>en</strong>t à u. Un sommet v <strong>de</strong>S est un<strong>de</strong>sc<strong>en</strong>dant d’un sommet u <strong>de</strong>S s’il existe un arc d’origine u et d’extrémité finalev ; sinon v est un non-<strong>de</strong>sc<strong>en</strong>dant <strong>de</strong> u. On note par pa→ G(v) l’<strong>en</strong>semble <strong>de</strong>s par<strong>en</strong>ts<strong>de</strong> v et par nd→ G(v) l’<strong>en</strong>semble <strong>de</strong>s non-<strong>de</strong>sc<strong>en</strong>dants <strong>de</strong> v.Définition I.5 Soit → G un graphe ori<strong>en</strong>té acyclique. Le processus aléatoire X satisfaitla propriété <strong>de</strong> <strong>Markov</strong> locale ori<strong>en</strong>tée par rapport à → G , si pour tout sommet u7


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUES<strong>de</strong> → G , X u est indép<strong>en</strong>dant <strong>de</strong> ses non <strong>de</strong>sc<strong>en</strong>dants X nd→G (u) conditionnellem<strong>en</strong>t à sespar<strong>en</strong>ts X pa→G (u) :X u X nd→G (u)∣X pa→G (u)(I.6)On dit que(X, → G) est un modèle graphique <strong>Markov</strong>i<strong>en</strong> ori<strong>en</strong>té, si X satisfait lapropriété <strong>de</strong> <strong>Markov</strong> locale ori<strong>en</strong>tée par rapport à → G . On dit égalem<strong>en</strong>t que → G estun graphe d’indép<strong>en</strong>dance conditionnelle ori<strong>en</strong>té <strong>de</strong> X.Exemple I.1 Soit(X n ) n∈N un processus gaussi<strong>en</strong> vérifiant :∀n∈N ∗ X n+1 =ρX n +ǫ navec X 1 une gaussi<strong>en</strong>ne c<strong>en</strong>trée réduite, ρ∈R ∗ et∣ρ∣


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESBX 1 X 3 X 5DCX 2 X 4 X 6 X 7Figure I.2 – Exemple d’un graphe d’indép<strong>en</strong>dance conditionnelle ori<strong>en</strong>tée :{X 7 }et{X 3 ,X 4 } sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à{X 6 }X 1 X 3 X 5X 2 X 4 X 6 X 7Figure I.3 – Graphe moral du graphe (I.2)SoitAune partie <strong>de</strong>S. On dit queAest ancestral, si pour tout u appart<strong>en</strong>antàA, les par<strong>en</strong>ts <strong>de</strong> u sont dansA, pa(u)⊂A. Soi<strong>en</strong>tB,C etD trois sous <strong>en</strong>sembles<strong>de</strong>S, <strong>de</strong>ux à <strong>de</strong>ux disjoints. On dit queDsépareBetC dans → G , si et seulem<strong>en</strong>tsi,DsépareBetC dans le graphe moralG m , avecG m <strong>en</strong>g<strong>en</strong>dré 1 par le plus petit<strong>en</strong>semble ancestral cont<strong>en</strong>antB,C etD.Définition I.6 Soit → G =(S, → E) un graphe ori<strong>en</strong>té. Le processus aléatoire X =(X n ) 1∶N satisfait la propriété <strong>de</strong> <strong>Markov</strong> « globale »par rapport à → G , si pour touttriplet(B,C,D) <strong>de</strong> sous-<strong>en</strong>sembles <strong>de</strong>S, disjoints <strong>de</strong>ux à <strong>de</strong>ux, tel queDsépareBetC dans → G , on a :X B X C ∣X D(I.7)Le choix <strong>en</strong>tre les <strong>de</strong>ux modèles graphiques « ori<strong>en</strong>tés » et « non-ori<strong>en</strong>tés » <strong>de</strong>p<strong>en</strong><strong>de</strong>ss<strong>en</strong>tiellem<strong>en</strong>t <strong>de</strong> type <strong>de</strong> relation que nous cherchons a modéliser. Chaque1. Soit → G =(S, → E) un graphe,S ′ ⊂S, on appelle sous graphe <strong>en</strong>g<strong>en</strong>dré parS ′ le graphe→ G ′ =(S ′ , → E ′ ) où → E ′ est l’<strong>en</strong>semble d’arcs dans → G ayant les <strong>de</strong>ux extrémités dansS ′ .9


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESmodèle a <strong>de</strong>s avantages par rapport à l’autre, comme m<strong>en</strong>tionné par Lauritz<strong>en</strong> [75].Les modèles graphiques ori<strong>en</strong>tés acycliques ont un grand intérêt pour modéliser lesrelations asymétriques ou dites « relations <strong>de</strong> causalité ». Les modèles graphiquesnon-ori<strong>en</strong>tés ont un grand intérêt pour modéliser les relations symétriques d’interaction<strong>en</strong>tre les variables aléatoires. Les <strong>de</strong>ux <strong>en</strong>sembles <strong>de</strong>s modèles graphiquesori<strong>en</strong>tés et non-ori<strong>en</strong>tés ne sont pas égaux : Smyth et al. [113] donn<strong>en</strong>t un exemple<strong>de</strong> modèle graphique ori<strong>en</strong>té acycliques qui n’admet pas <strong>de</strong> modèle graphique nonori<strong>en</strong>tééquival<strong>en</strong>t (un graphe ori<strong>en</strong>té → G=(S, → E) et un graphe on ori<strong>en</strong>téG=(S,E)sont dits « équival<strong>en</strong>ts » <strong>en</strong> terme d’indép<strong>en</strong>dance conditionnelle si et seulem<strong>en</strong>tsi pour tous sous-<strong>en</strong>semblesB,C etD disjoints <strong>de</strong>ux à <strong>de</strong>ux non-vi<strong>de</strong>s <strong>de</strong>S,C sépareBetDdans → G ⇔C sépareBetD dansG ). Il donne égalem<strong>en</strong>t un exemple<strong>de</strong> graphe non-ori<strong>en</strong>té qui n’admet pas <strong>de</strong> modèle graphique ori<strong>en</strong>té acyclique équival<strong>en</strong>t.I.1.3 Factorisation d’une loi selon un grapheIl n’est pas toujours possible <strong>de</strong> définir un graphe d’indép<strong>en</strong>dance conditionnellepour un processus X. Smyth et al. [113] donn<strong>en</strong>t <strong>de</strong>s exemples <strong>de</strong> lois <strong>de</strong> probabilitéqui n’admett<strong>en</strong>t une représ<strong>en</strong>tation graphique ni par modèle ori<strong>en</strong>té ni par modèl<strong>en</strong>on-ori<strong>en</strong>té. Réciproquem<strong>en</strong>t, il est parfois possible d’associer plusieurs lois à ungraphe d’indép<strong>en</strong>dance conditionnelle.Soit X=(X n ) 1∶N un processus aléatoire. Les X n sont à valeurs dans un espaceX,et ils sont in<strong>de</strong>xés par un <strong>en</strong>semble fini <strong>de</strong>s sommetsS d’un graphe d’indép<strong>en</strong>danceconditionnelleG. La <strong>de</strong>nsité <strong>de</strong> la loi <strong>de</strong> X se factorise selon le grapheG par rapportà la mesure <strong>de</strong> référ<strong>en</strong>ce ν X =⊗n∈Sν Xn , si elle s’écrit :p(x)=∏p c (x c )c∈C(I.8)oùC est l’<strong>en</strong>semble <strong>de</strong>s cliques du grapheG.∀c∈C, p c est une fonction <strong>de</strong>X ∣c∣ dansR + .Le développem<strong>en</strong>t <strong>de</strong> la loi d’un processus selon son graphe d’indép<strong>en</strong>danceconditionnelle permet d’abor<strong>de</strong>r <strong>de</strong>s problèmes d’estimation et <strong>de</strong> segm<strong>en</strong>tation danscertains modèles à données incomplètes. Dans toute la suite, nous utilisons <strong>de</strong>s modèlesgraphiques non-ori<strong>en</strong>tés « minimaux », dans lesquels <strong>de</strong>ux points s et t ne sontpas reliés par une arête si et seulem<strong>en</strong>t si les <strong>de</strong>ux variables aléatoires associées X s etX t sont indép<strong>en</strong>dantes conditionnellem<strong>en</strong>t aux autres. Le graphe minimal pr<strong>en</strong>d <strong>en</strong>compte <strong>de</strong> l’indép<strong>en</strong>dance conditionnelle « par paires » pour l’<strong>en</strong>semble <strong>de</strong>s variablesconsidérées [88].I.2 Chaîne <strong>de</strong> <strong>Markov</strong> cachéeDans cette section, nous traitons un modèle <strong>de</strong> <strong>Markov</strong> caché parmi les plussimples, qui est la chaîne <strong>de</strong> <strong>Markov</strong> cachée (CMC). Nous distinguons <strong>de</strong>ux cas :celui où le processus caché X est un processus discret et celui où c’est un processusréel continu.10


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESLes chaînes <strong>de</strong> <strong>Markov</strong> cachées sont <strong>de</strong>s modèles graphiques comportant <strong>de</strong>sdonnées observées et <strong>de</strong>s données lat<strong>en</strong>tes. On notey=(y n ) 1∶N les données observées,qui sont issues <strong>de</strong> la réalisation d’un processus Y =(Y n ) 1∶N sur un réseau monodim<strong>en</strong>sionnelS,et x=(x n ) 1∶N les données lat<strong>en</strong>tes, qui sont issues <strong>de</strong> la réalisationd’un processus X=(X n ) 1∶N .En premier lieu, nous étudions le cas <strong>de</strong>s chaînes mono-dim<strong>en</strong>sionnelles à espaced’état discret : les X n sont à valeurs dans le même espace discretX={ω 1 ,..,ω k }.En second lieu, nous étudions le cas où les X n sont à valeurs dans R.I.2.1 CMC à espace d’état discretDéfinition I.7 Soit X=(X n ) 1∶N un processus aléatoire, avec les X n à valeurs dansun espace discretX ={ω 1 ,..,ω k }. On dit que X est une chaîne <strong>de</strong> <strong>Markov</strong> si etseulem<strong>en</strong>t si il admet comme graphe d’indép<strong>en</strong>dance conditionnelle non-ori<strong>en</strong>té, legraphe où chaque site n admet son prédécesseur n−1 (si n>0) et son successeurn+1 (si n


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESUne chaîne <strong>de</strong> <strong>Markov</strong> est dite homogène si les transitions p(x n+1 ∣x n ) ne dép<strong>en</strong><strong>de</strong>ntpas <strong>de</strong> n. La loi d’une chaîne <strong>de</strong> <strong>Markov</strong> homogène est alors <strong>en</strong>tièrem<strong>en</strong>t déterminéepar sa loi initiale p(x 1 ) et les transitions p(x n+1 ∣x n ). On dit qu’une chaîne <strong>de</strong> <strong>Markov</strong>est stationnaire si elle est homogène et si la loi marginale p(x n ) ne dép<strong>en</strong>d pas<strong>de</strong> n. La loi initiale est alors appelée loi invariante ou stationnaire. Notons qu’il estpossible <strong>de</strong> factoriser la loi d’une chaîne <strong>de</strong> <strong>Markov</strong> selon son graphe d’indép<strong>en</strong>danceconditionnelle. En effet, si X est une chaîne <strong>de</strong> <strong>Markov</strong> admettant pour graphe d’indép<strong>en</strong>danceconditionnelle (I.4), nous obt<strong>en</strong>ons avec la propriété <strong>de</strong> <strong>Markov</strong> globale :X N et X 1∶N−2 sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à X N−1 :p(x 1∶N )=p(x 1∶N−2 ∣x N−1 )p(x N ∣x N−1 )(I.12)par récurr<strong>en</strong>ce sur la chaîne X 1∶N−2 nous obt<strong>en</strong>ons alors :N−1p(x 1∶N )=p(x 1 )∏n=1p(x n+1 ∣x n )(I.13)Dans toute la suite, on notep i pour désigner p(x 1 =ω i ), etP=(p i,j ) k×k pour désignerla matrice <strong>de</strong>s transitions p i,j =p(x n+1 =ω i ∣x n =ω j ).Dans toute la suite nous serons am<strong>en</strong>és à effectuer <strong>de</strong>s simulations <strong>de</strong>s réalisations<strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong>. Ces simulations se font directem<strong>en</strong>t : il suffit <strong>de</strong> fixer la loiinitiale p i et la matriceP. Nous comm<strong>en</strong>çons par simuler x 1 , <strong>en</strong>suite pour tout n,on effectue un tirage aléatoire <strong>de</strong> x n selon sa loi p(x n ∣x n−1 ) conditionnelle à x n−1 .ExempleConsidérons l’exemple <strong>de</strong> simulation suivant. Nous simulons une chaîne X <strong>de</strong>taille N= 128×128 à <strong>de</strong>ux étatsX={ω 1 ,ω 2 }, dont la loi admet pour matrice <strong>de</strong>transitionP :0.98 0.02P=(0.02 0.98 )La loi invariante correspond au vecteur propre gauche associé à la valeur propre 1<strong>de</strong> la matriceP. Le vecteur ligne π d’élém<strong>en</strong>ts p i correspondant à la loi invarianteet est obt<strong>en</strong>u <strong>en</strong> résolvant l’équation matricielle :πP=π.(I.14)Dans le cas <strong>de</strong> la matriceP, la loi invariante est donnée par π=( 1 2 , 1 2 ).Pour visualiser la chaîne simulée sous forme d’une image 2-D, nous allons représ<strong>en</strong>terla réalisation par le parcours d’Hilbert-Peano. Le parcours d’Hilbert-Peano [7,83] est souv<strong>en</strong>t utilisé <strong>en</strong> traitem<strong>en</strong>ts d’images [110] dans le but <strong>de</strong> transformer<strong>de</strong>s données bidim<strong>en</strong>sionnelles <strong>en</strong> données monodim<strong>en</strong>sionnelles. Le parcoursest représ<strong>en</strong>té par la figure (I.5). L’avantage <strong>de</strong> cette transformation est qu’elle permet<strong>de</strong> gar<strong>de</strong>r <strong>de</strong>ux points, voisins dans la chaîne, voisins dans l’image. Cep<strong>en</strong>dant,<strong>de</strong>ux points voisins dans l’image peuv<strong>en</strong>t ne pas l’être dans la chaîne [7]. D’autrestypes <strong>de</strong> transformations sont connus dans la littérature comme la transformation<strong>en</strong> ligne ou <strong>en</strong> colonne, ou <strong>en</strong>core la transformation <strong>de</strong> Hilbert, qui ressemble à celui<strong>de</strong> Hilbert-Peano.12


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESFigure I.5 – Construction du parcours d’Hilbert PéanoFigure I.6 – Exemple <strong>de</strong> simulation d’une chaîne <strong>de</strong> <strong>Markov</strong> : image obt<strong>en</strong>ue avectransformation d’Hilbert-PéanoDéfinition I.8 Soit(X,Y)=(X n ,Y n ) 1∶N un processus aléatoire couple où les X npr<strong>en</strong>n<strong>en</strong>t leurs valeurs dans un espace discretX ={ω 1 ,...,ω K } et les Y n sont àvaleurs dansY = R.(X,Y) est appelée "chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruit indép<strong>en</strong>dant"(CMC-BI), si X est une chaîne <strong>de</strong> <strong>Markov</strong>, et la <strong>de</strong>nsité <strong>de</strong> la loi du Yconditionnellem<strong>en</strong>t à X=x vérifie :◻ les Y n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à X 1∶N :p(y 1∶N ∣x 1∶N )=N∏n=1p(y n ∣x 1∶N )(I.15)◻∀n∈[1,..,N]p(y n ∣x 1∶N )=p(y n ∣x n )(I.16)13


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESY 1 Y 2 Y 3 Y n Y NX 1 X 2 X 3 X n X NFigure I.7 – Graphe d’indép<strong>en</strong>dance conditionnelle d’une chaîne <strong>de</strong> <strong>Markov</strong> cachéeà bruit indép<strong>en</strong>dant.Le modèle <strong>de</strong> la chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruit indép<strong>en</strong>dant (CMC-BI) est souv<strong>en</strong>tutilisé pour l’estimation <strong>de</strong>s données lat<strong>en</strong>tes. Il existe plusieurs algorithmesd’estimation, qui se bas<strong>en</strong>t sur la possibilité du calcul <strong>de</strong>s probabilités p(x n ∣y 1∶N ) etp(x n+1 ∣x n ,y 1∶N ). Nous détaillons dans la suite certains algorithmes qui permett<strong>en</strong>tces calculs.I.2.2 Infér<strong>en</strong>ce Bayési<strong>en</strong>ne dans la CMC discrètePour calculer les probabilités a posteriori p(x n ∣y 1∶N ), l’un <strong>de</strong>s algorithmes lesplus utilisés est celui <strong>de</strong> Baum-Welsh. Cet algorithme comporte <strong>de</strong>ux étapes : lapremière est une étape <strong>de</strong> « filtrage » et la <strong>de</strong>uxième est une étape <strong>de</strong> « lissage »,termes qui seront précisés par la suite. En utilisant la propriété <strong>de</strong> <strong>Markov</strong> globale,la loi p(x n ,y 1∶N ) se développe, sous la forme :Si on note :etp(x n ,y 1∶N )=p(x n ,y 1∶n )p(y n+1∶N ∣x n ,y 1∶n ).α n (x n )=p(x n ,y 1∶n ),β n (x n )=p(y n+1∶N ∣x n ,y n ),nous obt<strong>en</strong>ons p(x n ∣y 1∶N ) <strong>en</strong> fonction <strong>de</strong>s α n et <strong>de</strong>s β n :p(x n ∣y 1∶N )=α n (x n )β n (x n )∑ k j=1α n (x n =ω j )β n (x n =ω j ) .(I.17)(I.18)(I.19)(I.20)De même pour p(x n+1 ∣x n ,y 1∶N ), on a :avec14p(x n+1 ∣x n ,y 1∶N )= p(x n+1,x n ,y 1∶N ),p(x n ,y 1∶N )p(x n+1 ,x n ,y 1∶N ) = p(y n+2∶N ∣x n+1 ,y n+1 )p(x n+1 ,y n+1 ∣x n ,y n )p(x n ,y 1∶n )= β n+1 (x n+1 )p(x n+1 ,y n+1 ∣x n ,y n )p(x n ,y 1∶n )


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESOn a p(x n+1 ,y n+1 ∣x n ,y n )=p(x n+1 ,y n+1 ∣x n ) du fait que c’est une chaîne <strong>de</strong> <strong>Markov</strong>à bruit indép<strong>en</strong>dant. La loi p(x n ,y 1∶N ) se développe comme dans (I.17) et commep(y n+1∶N ∣x n ,y n )=β n (x n ) alors p(x n ,y 1∶N )=β n (x n )p(x n ,y 1∶n ). nous pouvons exprimerp(x n+1 ∣x n ,y 1∶N ) <strong>en</strong> fonction <strong>de</strong>s β n et <strong>de</strong>s transitions p(x n+1 ,y n+1 ∣x n ) :et après simplification :p(x n+1 ∣x n ,y 1∶N )= β n+1(x n+1 )p(x n+1 ,y n+1 ∣x n )p(x n ,y 1∶n ),β n (x n )p(x n ,y 1∶n )p(x n+1 ∣x n ,y 1∶N )= β n+1(x n+1 )β n (x n ) p(x n+1,y n+1 ∣x n ).(I.21)La <strong>de</strong>nsité <strong>de</strong> la loi du couple(X n+1 ,X n ) conditionnellem<strong>en</strong>t à y 1∶N s’écrit :p(x n+1 ,x n ∣y 1∶N )=p(x n ∣y 1∶N )p(x n+1 ∣x n ,y 1∶N )(I.22)En utilisant les équations (I.20) et (I.21) on obti<strong>en</strong>t :p(x n+1 ,x n ∣y 1∶N )∝β n+1 (x n+1 )α n (x n )p(x n+1 ,y n+1 ∣x n )(I.23)Le point important est que les probabilités α n et β n sont calculables par lesrécurr<strong>en</strong>ces suivantes :1. calcul <strong>de</strong>s α n (récurr<strong>en</strong>ce directe) :◻ Initialisation : α 1 (x 1 )=p(x 1 ,y 1 );◻ Supposons α n calculé dans l’étape précé<strong>de</strong>nte(n) :α n+1 (x n+1 ) = p(x n+1 ,y 1∶n+1 )=k∑j=1la formule <strong>de</strong> récurr<strong>en</strong>ce est la suivante :p(x n =w j ,x n+1 ,y 1∶n+1 )α n+1 (x n+1 )=k∑j=1α n (x n =ω j )p(x n+1 ,y n+1 ∣x n =ω j )(I.24)2. calcul <strong>de</strong>s β n (récurr<strong>en</strong>ce rétrogra<strong>de</strong>) :◻ Initialisation : β N (x N )=1 ;◻ Supposons β n+1 (x n+1 ) calculé dans l’étape précé<strong>de</strong>nte(n+1) :β n (x n ) = p(y n+1∶N ∣x n ,y n )=k∑j=1la formule <strong>de</strong> récurr<strong>en</strong>ce est la suivante :p(x n+1 =ω j ,y n+1∶N ∣x n ,y n )β n (x n )=k∑j=1β n+1 (x n+1 =ω j )p(x n+1 ,y n+1 ∣x n ).(I.25)15


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUES(a) (b) (c)Figure I.8 – Exemple : simulation et segm<strong>en</strong>tation d’une chaîne CMC-BI (a) Xsimulé à 2 classes{ω 1 ,ω 2 }, p i =0.5 et p(ω i ∣ω i )=0.99 (b) Y simulé avecN ω1 (0.0,1.0)etN ω2 (2.0,1.0) (c) X estimé avec les vrais paramètres (taux d’erreur 0.61%)Lors <strong>de</strong> l’implém<strong>en</strong>tation <strong>de</strong> l’algorithme <strong>de</strong> Baum-Welsh, <strong>de</strong>s problèmes d’ordr<strong>en</strong>umérique peuv<strong>en</strong>t apparaître car les α n t<strong>en</strong><strong>de</strong>nt vers 0 lorsque n est suffisamm<strong>en</strong>tgrand etβ 1 t<strong>en</strong>d égalem<strong>en</strong>t vers0lorsque la tailleN <strong>de</strong> l’échantillon t<strong>en</strong>d vers l’infini.Pour surmonter ces problèmes, <strong>de</strong>s variations <strong>de</strong> cet algorithme ont été proposées,comme l’algorithme <strong>de</strong> Baum-Welsh conditionnel [35,37].I.3 CMC à espace d’états continuDans cette section, nous nous intéressons au cas <strong>de</strong>s modèles <strong>de</strong> chaînes <strong>de</strong> <strong>Markov</strong>cachées où les données lat<strong>en</strong>tes sont réelles. La définition <strong>de</strong> la markovianité est,bi<strong>en</strong> <strong>en</strong>t<strong>en</strong>du, i<strong>de</strong>ntique à celle <strong>de</strong>s chaînes discrètes :Définition I.9 Soit X=(X n ) 1∶N un processus aléatoire, dont les marginales X nsont à valeurs dans R. X est une chaîne <strong>de</strong> <strong>Markov</strong> si et seulem<strong>en</strong>t si il admetcomme graphe d’indép<strong>en</strong>dance conditionnelle non-ori<strong>en</strong>té le graphe représ<strong>en</strong>te parla figure (I.4).Comme nous l’avons déjà m<strong>en</strong>tionné dans l’exemple (I.1), le processus X qui estun AR(1) est une chaîne <strong>de</strong> <strong>Markov</strong> à espace d’état continu. L’écriture <strong>de</strong>s processusAR(1) se généralise à l’écriture suivante∀n∈{2,..,N}, X n+1 =f(X n ,ǫ n ),(I.26)où les ǫ n sont i<strong>de</strong>ntiquem<strong>en</strong>t distribués dans le cas d’une chaîne homogène. Une telleécriture admet souv<strong>en</strong>t <strong>de</strong>s interprétations physiques <strong>en</strong> termes <strong>de</strong> la dép<strong>en</strong>dance<strong>en</strong>tre les variables cachées et le « bruit », et est <strong>de</strong> ce fait souv<strong>en</strong>t utilisée. Cep<strong>en</strong>dant,nous continuerons à utiliser les mêmes notations p(.∣x n ) pour les transitions : latransition p(.∣x n ) est alors la <strong>de</strong>nsité <strong>de</strong> la variable aléatoire f(x n ,ǫ n ). Comme dansle cas discret, la <strong>de</strong>nsité p(x) est factorisée selon :N−1p(x)=p(x 1 )∏n=1p(x n+1 ∣x n ).(I.27)La définition suivante, rappelée pour mémoire, est i<strong>de</strong>ntique à celle définissant lesCMC-BI discrètes :16


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESDéfinition I.10 Soit(X,Y)=(X n ,Y n ) 1∶N un processus aléatoire couple à valeursdans l’espace produit R×R.(X,Y) est dit une chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruitindép<strong>en</strong>dant, si seulem<strong>en</strong>t si X est une chaîne <strong>de</strong> <strong>Markov</strong>, et la loi p(y∣x) vérifie :◻ les Y n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t aux X 1∶N :◻∀n∈{1,..,N} :I.3.1 Infér<strong>en</strong>ce Bayési<strong>en</strong>nep(y 1∶N ∣x 1∶N )=N∏n=1p(y n ∣x 1∶N ),p(y n ∣x 1∶N )=p(y n ∣x n ).(I.28)(I.29)Le calcul <strong>de</strong>s probabilités à posteriori <strong>de</strong> X n conditionnellem<strong>en</strong>t à y=y 1∶N n’estpas toujours possible d’une manière exacte. Bi<strong>en</strong> que les démarches générales soi<strong>en</strong>tles mêmes que dans le cas <strong>de</strong>s CMC-BI, les sommes sont remplacées par <strong>de</strong>s intégralesne pouvant pas être calculées explicitem<strong>en</strong>t dans tous les cas. En effet, si on désignepar α n = p(x n ,y 1∶n ) les probabilités « Forward »et par β n = p(y n+1∶N ∣x n ,y 1∶n ) lesprobabilités « Backward », alors :et pour tout n∈{2,..,N}p(x 1 ∣y)=∝α 1 (x 1 )β 1 (x 1 )p(x n ∣y)=∝α n (x n )β n (x n ),avec α n et β n sont obt<strong>en</strong>us d’une manière recursive :1. Calcul <strong>de</strong> α n (.) :◻ Initialisation : α 1 (x 1 )=p(x 1 ,y 1 ),◻ Supposons α n calculé a l’étape n :α n+1 (x n+1 )=∫ Rα n (x n )p(x n+1 ,y n+1 ∣x n )dx n .2. Calcul <strong>de</strong> β n (.)◻ Initialisation : β N (x 1 )=1,◻ Supposons β n+1 calculé a l’étape n+1 :β n (x n )=∫ Rβ n+1 (x n+1 )p(x n+1 ,y n+1 ∣x n )dx n+1 .(I.30)(I.31)(I.32)(I.33)Nous traitons dans la suite le cas d’une chaîne <strong>de</strong> <strong>Markov</strong> cachée gaussi<strong>en</strong>ne. Dansce cas, nous avons les propriétés suivantes :– Pour tout n, X n est une variable aléatoire gaussi<strong>en</strong>ne;– Conditionnellem<strong>en</strong>t à X n = x n , le noyau <strong>de</strong> transition p(.∣x n ) est la <strong>de</strong>nsitéd’une loi gaussi<strong>en</strong>ne.Dans ce cas, le calcul <strong>de</strong> α n et <strong>de</strong> β n est possible <strong>de</strong> manière directe par le filtrage <strong>de</strong>Kalman et l’algorithme <strong>de</strong> Rauch-Tung-Striebel (RTS) [105], qui est un algorithme<strong>de</strong> lissage. Considérons l’écriture suivante du modèle :{ X n+1 =FX n +ǫ n ,Y n =m y +HX n +ξ n(I.34)avecX 1 ∼N(m 1 ,V 1 ), et lesǫ n ∼N(0,R) i<strong>de</strong>ntiquem<strong>en</strong>t distribués et tels queǫ n x n ,les ξ n ∼N(0,Q) et tels que ξ n x n . Dans la sous-section suivante, nous détaillonsle filtre <strong>de</strong> Kalman.17


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESI.3.2 Filtre <strong>de</strong> KalmanLe filtre <strong>de</strong> Kalman permet <strong>de</strong> calculer les probabilités « Forward » p(x n ∣y 1∶n )<strong>en</strong> <strong>de</strong>ux étapes : une étape <strong>de</strong> « prédiction »qui permet <strong>de</strong> calculer la loi du X nconditionnellem<strong>en</strong>t à X n−1 et Y 1∶n−1 , et une étape <strong>de</strong> « correction », qui permetd’intégrer les informations apportées par l’observation <strong>de</strong> Y n .PrédictionLe couple(X,Y) est gaussi<strong>en</strong>, donc la loi <strong>de</strong> X n conditionnellem<strong>en</strong>t à Y 1∶n−1 =y 1∶n−1 est une gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne E[X n ∣y 1∶n−1 ]=m − n et <strong>de</strong> variance V[X n ∣y 1∶n−1 ]=P − n. De même, la loi <strong>de</strong> X n conditionnellem<strong>en</strong>t à y 1∶n est une gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>neE[X n ∣y 1∶n ]=m n et <strong>de</strong> variance V[X n ∣y 1∶n ]=P n . D’après les équations du système(I.34), nous pouvons calculer m − n et P − n <strong>en</strong> fonction <strong>de</strong> m n−1 et P n−1 :m − n= E[X n ∣y 1∶n−1 ]=E[(FX n−1 +ǫ n−1 )∣y 1∶n−1 ],comme ǫ n−1 Y 1∶n−1 , et E[X n−1 ∣y 1∶n−1 ]=m n−1 , nous obt<strong>en</strong>ons :<strong>de</strong> même pour la variance :m − n=Fm n−1 ,P − n=F 2 P n−1 +R.(I.35)(I.36)CorrectionDans cette étape, nous utilisons les informations apportées par l’observation <strong>de</strong>Y n , et nous cherchons la formule <strong>de</strong> récurr<strong>en</strong>ce pour calculer m n et P n <strong>en</strong> fonction <strong>de</strong>m − n et P − n . D’après les hypothèses, X n conditionnellem<strong>en</strong>t à y 1∶n−1 est une gaussi<strong>en</strong>ne,<strong>de</strong> même pour Y n ∣y 1∶n−1 . Nous comm<strong>en</strong>çons par calculer la moy<strong>en</strong>ne <strong>de</strong> Y n ∣y 1∶n−1 etsa variance, puis la covariance <strong>en</strong>tre X n ∣y 1∶n−1 et Y n ∣y 1∶n−1 . En utilisant toujours leséquations du système (I.34) :E[Y n ∣y 1∶n−1 ] = E[(m y +HX n +ξ n )∣y 1∶n−1 ]= m y +Hm − nV[Y n ∣y 1∶n−1 ] = E[(Y n − E[Y n ∣y 1∶n−1 ]) 2 ∣y 1∶n−1 ]= H 2 P − n+QC[(X n ,Y n )∣y 1∶n−1 ] = E[(X n − E[X n ∣y 1∶n−1 ])(Y n − E[Y n ∣y 1∶n−1 ])]= HP − n= k nComme conséqu<strong>en</strong>ce, nous obt<strong>en</strong>ons la loi du couple(X n ,Y n ) conditionnellem<strong>en</strong>t ày 1∶n−1 , qui est une gaussi<strong>en</strong>neN 2 (M,V) avec :18M=(m − nm y +Hm − n) et V=( P− n k nk n H 2 P − n+Q )


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESFinalem<strong>en</strong>t, nous obt<strong>en</strong>ons la loi du X n conditionnellem<strong>en</strong>t à y 1∶n à partir <strong>de</strong> la loidu couple, X n ∣y 1∶n ∼N(m n ,P n ) avec k n =HP − n :m n =m − n+k n [y n −m y −Hm − n][H 2 P n −+Q] −1P n =P − n−k n [H 2 P n −+Q] −1 k T n(I.37)(I.38)Une fois calculées les moy<strong>en</strong>nes m n et les variances P n , nous pouvons passer à l’étapesuivante, qui est l’étape <strong>de</strong> lissage qui à pour but <strong>de</strong> calculer les moy<strong>en</strong>nes et lesvariances <strong>de</strong> X n ∣y 1∶N .I.3.3 LissageLe lissage RTS à pour but <strong>de</strong> déterminer la loi duX n ∣y 1∶N et la loi <strong>de</strong>X n ∣x n+1 ,y 1∶Ndans le cas d’un système linéaire gaussi<strong>en</strong> <strong>de</strong> type (I.34). Ces lois étant <strong>de</strong>s gaussi<strong>en</strong>nes,X n ∣y 1∶N ∼N(m ∗ n,P ∗ n) et X n ∣x n+1 ,y 1∶N ∼N(m + n,P + n). Les moy<strong>en</strong>nes m ∗ n, m + net les variances P ∗ n, P + n peuv<strong>en</strong>t être calculées par recurr<strong>en</strong>ce retrogra<strong>de</strong>. Commeinitialisation, nous pr<strong>en</strong>ons les valeurs obt<strong>en</strong>ues avec le filtre <strong>de</strong> Kalman :m ∗ N=m + N=m NP ∗ N=P + N=P N(I.39)(I.40)Sur le graphe d’indép<strong>en</strong>dance conditionnelle non-ori<strong>en</strong>té (I.9), (B) sépare X n (A) etY n+1∶N (C), donc nous avons :CY 1 Y 2 Y n Y n+1 Y NABX 1 X 2 X n X n+1 X NFigure I.9 – Graphe moral obt<strong>en</strong>u a partir du graphe d’indép<strong>en</strong>dance conditionnell<strong>en</strong>on-ori<strong>en</strong>tép(x n ∣x n+1 ,y 1∶N )=p(x n ∣x n+1 ,y 1∶n )Le calcul <strong>de</strong> la covariance du couple(X n ,X n+1 ) conditionnelle à Y 1∶n , qu’on note C n ,19


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESdonne :C[(X n ,X n+1 )∣y 1∶n ] = E[(X n − E[X n ∣y 1∶n ])(X n+1 − E[X n+1 ∣y 1∶n ])]= E[(X n −m n )(X n+1 −m − n+1)]= E[(X n −m n )(FX n +ǫ n −Fm n )]= F E[(X n −m n ) 2 ]= FP n= C nEn utilisant la propriété du calcul <strong>de</strong> loi conditionnelle pour les vecteurs gaussi<strong>en</strong>s,nous pouvons <strong>en</strong> déduire la moy<strong>en</strong>ne m + n et la variance P + n <strong>de</strong> X n ∣x n+1 y 1∶n :m + n=m n +C n [x n+1 −m − n+1][P − n+1] −1P + n=P n −C n [P − n+1] −1 C T nDe même, nous pouvons <strong>en</strong> déduire la loi du x n ∣y 1∶N :(I.41)(I.42)L ∗ n=FP n P −1n+1 (I.43)ce qui était notre objectif.m ∗ n=m n +L ∗ n[m ∗ n+1−m − n+1]P ∗ n=P n −L ∗ n[P ∗ n+1−P − n+1](L ∗ n) T(I.44)(I.45)ExempleDans cet exemple nous simulons <strong>de</strong>s réalisations d’un système linéaire gaussi<strong>en</strong>qui a comme dynamique le système (I.34), et nous prés<strong>en</strong>tons <strong>de</strong>s résultats <strong>de</strong> filtragepar le filtre <strong>de</strong> Kalman et <strong>de</strong> lissage RTS. Les paramètres <strong>de</strong> simulation sont prés<strong>en</strong>tésdans la table 1.1.Paramètres Valeurm 1 0V 1 1F 1R 1m y 0H 2Q 0.1Table I.1 – Paramètres <strong>de</strong> simulationLes réalisations x 1∶N et y 1∶N sont représ<strong>en</strong>tées sur la figure (I.10) avec N= 100.La courbe supérieure est celle <strong>de</strong> y 1∶N et la courbe inférieure est celle <strong>de</strong> x 1∶N . Surla figure (I.11) on trouve l’estimation̂x 1∶N à partir <strong>de</strong> l’observation y 1∶N (a) estl’estimation avec le filtre <strong>de</strong> Kalman et (b) l’estimation par le lissage RTS.20


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESFigure I.10 – Simulation système linéaire gaussi<strong>en</strong>(a)(b)Figure I.11 – (a) Estimation par filtrage <strong>de</strong> Kalman (b) estimation par lissage RTSOn remarque que les trajectoires estimées par le filtre <strong>de</strong> Kalman et le lissageRTS, sont presque i<strong>de</strong>ntiques et elles sont très proches <strong>de</strong> la vraie trajectoire. Cela estdû au fait que la variance <strong>de</strong>ξ n est petite Q=0.1 ; le système est donc peu « bruité ».Dans l’exemple suivant nous considérons Q=1 et nous gardons les mêmes valeurspour les autres paramètres. Les réalisations x 1∶N et y 1∶N sont représ<strong>en</strong>tées sur lafigure (I.12).Figure I.12 – Simulation système linéaire gaussi<strong>en</strong>21


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUES(a)(b)Figure I.13 – (a) Estimation par filtrage <strong>de</strong> Kalman (b) estimation par lissage RTSNous pouvons remarquer que l’estimation <strong>de</strong> la trajectoirêx 1∶N par le lissage RTS(I.13).b est plus proche du signal caché que son estimation par le filtrage <strong>de</strong> Kalman(I.13).a. Bi<strong>en</strong> <strong>en</strong>t<strong>en</strong>du, cela est dû au fait que le lissage pr<strong>en</strong>d <strong>en</strong> considération toutesles observations y 1∶N pour estimer x n tandis que le filtrage pr<strong>en</strong>d <strong>en</strong> considérationque les observations <strong>de</strong> 1 jusqu’a n i.e y 1∶n .Considérons une CMC-BI générale, qui peut se mettre sous la forme du systèmesuivant :(E ′ )∶{ X n+1 =f(X n ,ǫ n )(I.46)Y n =g(X n ,ξ n )avec les fonctions f et g connues. Dans ce cas « non linéaire » et « non gaussi<strong>en</strong> », ilest possible <strong>de</strong> proposer une ext<strong>en</strong>sion du filtre <strong>de</strong> Kalman, qui est le filtre <strong>de</strong> Kalman« ét<strong>en</strong>du » (ou « linéarisé »), qui consiste à linéariser le système <strong>en</strong> remplaçantles equations par leurs développem<strong>en</strong>ts <strong>de</strong> Taylor. Pour tout n dans[1,..,N], ondéveloppe les equations du système (I.46) à l’ordre 1 au point X 0 n, et nous obt<strong>en</strong>onsle système sous sa forme linéarisée (I.47), <strong>en</strong> suite on peut appliquer les mêmesalgorithmes déjà prés<strong>en</strong>tés sur le nouveau système qui est linéaire <strong>en</strong> x.(E”)∶{ X n+1 =f(Xn,ǫ 0 n )+(X n −Xn) 0 ∂f∂x (X0 n,ǫ n )Y n =g(Xn,ξ 0 n )+(X n −Xn) 0 ∂g∂x (X0 n,ξ n )(I.47)Le filtrage particulaire, très utilisé actuellem<strong>en</strong>t, est une autre alternative pour traiterle système non linéaire non gaussi<strong>en</strong> ci-<strong>de</strong>ssus.I.4 ConclusionDans ce chapitre, nous avons tout d’abord rappelé diverses définitions classiques<strong>de</strong> la modélisation graphique. En particulier, nous avons brièvem<strong>en</strong>t discuté <strong>de</strong> relations<strong>en</strong>tre les graphes ori<strong>en</strong>tés et les graphes non ori<strong>en</strong>tés. Ce type <strong>de</strong> modélisationpermet <strong>de</strong> décrire d’une manière visuelle les relations d’indép<strong>en</strong>dance conditionnelle<strong>en</strong>tre les variables aléatoires X n d’un processus X observé sur un réseauS={1,..,N}. En second lieu, nous avons utilisé ces modèles pour définir les modèles<strong>de</strong> chaînes <strong>de</strong> <strong>Markov</strong> cachées, dans les <strong>de</strong>ux cas <strong>de</strong>s données cachées discrètes etcontinues. Dans ces <strong>de</strong>ux cas nous avons détaillé <strong>de</strong>s algorithmes d’infér<strong>en</strong>ce bayési<strong>en</strong>nepermettant <strong>de</strong> calculer la loi a posteriori p(x n ∣y 1∶N ) et p(x n+1 ∣x n ,y 1∶N ). Pour22


CHAPITRE I. MODÈLES DE MARKOV CLASSIQUESle modèle <strong>de</strong> chaîne cachée à états finis nous avons détaillé l’algorithme <strong>de</strong> Baum-Welsh; pour celui <strong>de</strong> chaîne cachée à états continus nous avons détaillé le filtre<strong>de</strong> Kalman et le lissage RTS. Nous avons donné égalem<strong>en</strong>t quelques exemples <strong>de</strong>simulation pour ces différ<strong>en</strong>ts modèles et traitem<strong>en</strong>ts classiques.Dans le chapitre qui suit nous prés<strong>en</strong>tons un autre type <strong>de</strong> modèles <strong>de</strong> <strong>Markov</strong>,dits « modèles <strong>de</strong> <strong>Markov</strong> couples », qui est une généralisation du modèle <strong>de</strong> chaînecachée classique [91,92,101].23


Chapitre IIModèle <strong>de</strong> <strong>Markov</strong> CoupleDans le modèle <strong>de</strong> chaîne <strong>de</strong> <strong>Markov</strong> cachée classique, nous supposons que lesdonnées cachées ont une structure markovi<strong>en</strong>ne p(x)=p(x 1 )∏ N−1n=1 p(x n+1 ∣x n ). D’unepart, cette hypothèse n’est pas toujours vérifiée dans le cas <strong>de</strong>s données issues dumon<strong>de</strong> réel. D’autre part, il s’avère qu’elle n’est pas nécessaire pour la mise <strong>en</strong>oeuvre <strong>de</strong>s traitem<strong>en</strong>ts bayési<strong>en</strong>s discutés dans le chapitre précé<strong>de</strong>nt. Pour allégercette hypothèse et pr<strong>en</strong>dre <strong>en</strong> considération une situation plus générale Pieczynski[91,104] a proposé <strong>de</strong> remplacer l’hypothèse <strong>de</strong> la markovianité <strong>de</strong> processus X parla markovianité du couple(X,Y). Cette hypothèse permet d’assurer la markovianité<strong>de</strong> X conditionnellem<strong>en</strong>t à Y qui est ess<strong>en</strong>tielle pour appliquer les algorithmes <strong>de</strong>calcul pour p(x n ∣y 1∶N ) et p(x n+1 ∣x n ,y 1∶N ). Cep<strong>en</strong>dant, le processus caché peut êtremarkovi<strong>en</strong> ou pas, ce qui mène à un modèle plus général. Ce nouveau modèle est dit« modèle <strong>de</strong> chaîne <strong>de</strong> <strong>Markov</strong> Couple » (CMCouple). Dans la suite, nous prés<strong>en</strong>tonsce modèle d’une manière détaillée ainsi que les algorithmes d’infér<strong>en</strong>ce Bayési<strong>en</strong>nequi permett<strong>en</strong>t <strong>de</strong> calculer les probabilités a posteriori d’intérêt. Nous comparonségalem<strong>en</strong>t le CMCouple avec le modèle <strong>de</strong> CMC classique.II.1 Chaîne <strong>de</strong> <strong>Markov</strong> CoupleDans toute la suite, Z=(Z n ) n=1∶N désigne un processus aléatoire couple à tempsdiscret, où Z n =(X n ,Y n ), avec X n et Y n à valeurs dans un espace respectivem<strong>en</strong>tX etY. Dans le cas discretX est un espace finiX={ω 1 ,...,ω K }, et dans le cascontinu réelX= R. Sauf m<strong>en</strong>tion contraire, les Y n considérés seront réels :Y= R.Définition II.1 Un processus aléatoire couple Z est appelé « Chaîne <strong>de</strong> <strong>Markov</strong>Couple » (CMCouple) si et seulem<strong>en</strong>t si il admet pour graphe d’indép<strong>en</strong>dance conditionnellele graphe représ<strong>en</strong>té par la figure (I.4).Bi<strong>en</strong> <strong>en</strong>t<strong>en</strong>du, une CMCouple vérifie alors les propriétés classiques que nous rappelonsci-<strong>de</strong>ssous pour mémoire :Propriété II.1 Le processus Z vérifie les propriétés <strong>de</strong> <strong>Markov</strong> par rapport augrapheG :◻ Propriété <strong>de</strong> <strong>Markov</strong> globale : SoitB,C etDtrois sous <strong>en</strong>sembles <strong>de</strong>S <strong>de</strong>ux à<strong>de</strong>ux disjoints, siC sépareB etDdansG alors :p(z B ,z D ∣z C )=p(z B ∣z C )p(z D ∣z C )(II.1)25


CHAPITRE II. MODÈLE DE MARKOV COUPLE◻ Propriété <strong>de</strong> <strong>Markov</strong> locale :∀u∈S, <strong>de</strong> voisinage ν(u) dansG.p(z u ∣z v∈[1∶N]/u )=p(z u ∣z v∈ν(u) )(II.2)◻ Propriété <strong>de</strong> <strong>Markov</strong> par paires :∀(u,v) <strong>de</strong>ux sommets <strong>de</strong>S, si v∉ν(u).p(Z u ,Z v ∣Z t≠{u,v} )=p(Z u ∣Z t≠/{u,v} )p(Z v ∣Z t≠{u,v} )(II.3)Nous pouvons factoriser la loi <strong>de</strong> Z selon son graphe d’indép<strong>en</strong>dance conditionnell<strong>en</strong>on ori<strong>en</strong>téG :N−1p(z)=p(z 1 ) p(z n+1 ∣z n )(II.4)∏n=1La proposition suivante précise la markovianité du processus caché conditionnellem<strong>en</strong>taux observations, ce qui va r<strong>en</strong>dre possible les traitem<strong>en</strong>ts bayési<strong>en</strong>s analoguesà ceux pratiqués dans les CMC classiques. Pour <strong>de</strong>s raisons <strong>de</strong> symétrie, leprocessus observé est égalem<strong>en</strong>t markovi<strong>en</strong> conditionnellem<strong>en</strong>t au processus caché.Cette propriété, qui permet <strong>de</strong> modéliser le bruit <strong>de</strong> manière plus complète quedans les CMC classiques, constitue un avantage <strong>de</strong>s CMCouples par rapport à ces<strong>de</strong>rniers.Proposition II.1 Soit Z=(X n ,Y n ) 1∶N une chaîne <strong>de</strong> <strong>Markov</strong> couple. Alors on ales propriétés suivantes :◻ X conditionnellem<strong>en</strong>t à Y=y est une chaîne <strong>de</strong> <strong>Markov</strong>.◻ Y conditionnellem<strong>en</strong>t à X=x est une chaîne <strong>de</strong> <strong>Markov</strong>.La preuve <strong>de</strong> la proposition, qui est proche <strong>de</strong> celle du résultat analogue valabledans le cas <strong>de</strong>s CMC, peut être consulté dans [17,18,92].La proposition suivante, relativem<strong>en</strong>t immédiate montre que les chaînes <strong>de</strong> <strong>Markov</strong>cachées sont <strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> couples.Proposition II.2 Soit Z=(X,Y) une chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruit indép<strong>en</strong>dantalors Z=(Z n ) n=1∶N est une chaîne <strong>de</strong> <strong>Markov</strong> couple.Preuve : Pour montrer qu’un CMC-BI est un cas particulier du modèle CMCouple,il suffit <strong>de</strong> factoriser la <strong>de</strong>nsité <strong>de</strong> la loi du couple(X,Y) comme la <strong>de</strong>nsité <strong>de</strong> la loid’un CMCouple.Soit X=(X n ) n=1∶N un CMC-BI et soit Y =(Y n ) n=1∶N les données observées. Sion note Z=(X n ,Y n ) n=1∶N alors :26p(z) = p(x,y)= p(x)p(y∣x)N−1= p(x 1 )∏n=1N−1= p(x 1 )p(y 1 ∣x 1 )Np(x n+1 ∣x n ) ∏p(y n ∣x n )∏n=1n=1p(x n+1 ∣x n )p(y n+1 ∣x n+1 )


CHAPITRE II. MODÈLE DE MARKOV COUPLEEn utilisant la formule <strong>de</strong> Bayesp(x 1 ,y 1 )=p(x 1 )p(y 1 ∣x 1 ) et∀n∈[1..N−1]p(x n+1 ,y n+1 ∣x n ,y n )=p(x n+1 ∣x n )p(y n+1 ∣x n+1 ) du fait que X est une CMC-BI, nous obt<strong>en</strong>ons par regroupem<strong>en</strong>t:N−1p(z) = p(x 1 ,y 1 )N−1= p(z 1 )∏n=1∏n=1p(x n+1 ,y n+1 ∣x n ,y n )p(z n+1 ∣z n )Ce qui prouve que Z=(X,Y) est un CMCouple.La proposition <strong>de</strong> Pieczynski [93,96] montre que le modèle couple CMCouple eststrictem<strong>en</strong>t plus général que le modèle classique CMC et précise, dans le cas <strong>de</strong>schaînes stationnaires réversibles, <strong>de</strong>s conditions sous lesquelles une CMCouple estune CMC. Autrem<strong>en</strong>t dit, la proposition suivante donne les conditions nécessaireset suffisantes pour que, dans une CMCouple Z=(X,Y), la chaîne cachée X soitune chaîne <strong>de</strong> <strong>Markov</strong>.Proposition II.3 Soit Z=(X,Y) une chaîne <strong>de</strong> <strong>Markov</strong> Couple qui vérifie :1. p(z n ,z n+1 ) ne dép<strong>en</strong>dant pas <strong>de</strong> n∈{1,..,N−1};2. p(z n = a,z n+1 = b)=p(z n = b,z n+1 = a) pour tout n∈{1,..,N−1} et pour touta et b.Alors les trois conditions suivantes :1. X est une chaîne <strong>de</strong> <strong>Markov</strong>;2.∀2≤n≤N−1, p(y n ∣x n ,x n−1 )=p(y n ∣x n );3.∀1≤n≤N, p(y n ∣x)=p(y n ∣x n ),sont équival<strong>en</strong>tes.Preuve : La démonstration a été prés<strong>en</strong>tée par Pieczynski et all. dans les articles[93,96].1⇒2 : Z est une CMCouple, nous pouvons développer sa <strong>de</strong>nsité comme suit :p(z) = ∏N−1 n=1 p(z n ,z n+1 )∏ N−1n=2 p(z n )= ∏N−1 n=1 p(x n ,x n+1 ,y n ,y n+1 )∏ N−1n=2 p(x n ,y n )= ∏N−1 n=1 p(x n ,x n+1 )∏ N−1n=2 p(x n )a(x)∏ N−1n=1 p(y n ,y n+1 ∣x n ,x n+1 )∏ N−1n=2 p(y n ∣x n )b(y)X étant <strong>de</strong> <strong>Markov</strong> nous avons a(x)=p(x). Par ailleurs, nous obt<strong>en</strong>ons la loi <strong>de</strong> X<strong>en</strong> intégrant p(z) par rapport à y :p(x)=∫ p(z)d(y 1∶N )=a(x)Y N27


CHAPITRE II. MODÈLE DE MARKOV COUPLEOn déduit :∫ Y Nb(y)d(y 1∶N )=1et comme pour tout 1


CHAPITRE II. MODÈLE DE MARKOV COUPLE<strong>en</strong> utilisant l’hypothèse p(y n ∣x n−1 ,x n )=p(y n ∣x n ,x n+1 )=p(y n ∣x n ) nous pouvons calculerl’intégrale <strong>de</strong>∫ b(y 1∶N )d(y 1∶n−1 )d(y n+1∶N ) :Y N−1∫ Y N−1∏ N−1n=1 p(y n ,y n+1 ∣x n ,x n+1 )b(y 1∶N )d(y 1∶n−1 )d(y n+1∶N ) = ∫ d(yY N−1∏ N−11∶n−1 )d(y n+1∶N )n=2 p(y n ∣x n )∏ n−1i=1 p(y i ,y i+1 ∣x i ,x i+1 )= ∫ d(yY n−1∏ n−11∶n−1 )i=2 p(y i ∣x i )∏ N−1i=n p(y i ,y i+1 ∣x i ,x i+1 )×∫ d(yY N−n−1∏ N−1n+1∶N )i=n p(y i ∣x i )∏on a :∫ n−1i=1 p(y i,y i+1 ∣x i ,x i+1 )Y n−1∏ n−1∏ n−1i=2∫ p(y i,y i+1 ∣x i ,x i+1 )Y n−2∏ n−1i=3 p(y i∣x i )∏ N−1i=n∫ p(y i,y i+1 ∣x i ,x i+1 )Y N−n−1∏ N−1i=n p(y i∣x i )∏ N−2i=n∫ p(y i,y i+1 ∣x i ,x i+1 )Y N−n−2∏ N−2i=n p(y i∣x i ) ✭✭✭✭✭✭p(y N−1 ∣x N−1 ✭✭✭✭✭✭✭✭✭✭✭✭✭)i=2 p(y i∣x id(y) 1∶n−1 )=∫ Y ✭✭✭✭✭✭✭✭✭✭✭✭[∫ n−2 Yp(y 1 ,y 2 ∣x 1 ,x 2 )dy 1 ] ∏n−1✘ ✘ ✘dy 2∶n−1 =..=1, eti=2 p(y i,y i+1 ∣x i ,x i+1 )dy p(y 2 ∣x 2 )∏ n−1i=3 p(y i∣x i ) 2∶n−1=d(y n+1∶N ) =[∫ Yp(y N−1∶N ∣x N−1∶N )dy N ]d(y n+1∶N−1 )=..=p(y n ∣x n ,x n+1 )∫ Y N−1p(z)d(y 1∶n−1 )d(y n+1∶N )=p(x,y n )=p(x)p(y n ∣x n )En utilisant la formule <strong>de</strong> Bayes et le résultat précè<strong>de</strong>nt p(y n ∣x) = p(x,y n)p(x)p(x)p(y n ∣x n )=p(y n ∣x n ), d’où 3.p(x)3⇒2 : nous avons :=p(y n ∣x n ,x n−1 ) = ∫ X N−2p(y n ,x 1∶n−2 ,x n+1∶N ∣x n ,x n−1 )d(x 1∶n−2 ,x n+1∶N )d’après 3, p(y n ∣x 1∶N )=p(y n ∣x n ) donc :d’où 2.p(y n ,x 1∶N )= ∫ X N−2 p(x n ,x n−1 ) d(x 1∶n−2,x n+1∶N )p(y n ∣x 1∶N )p(x 1∶N )= ∫ d(x 1∶n−2 ,x n+1∶N )X N−2 p(x n ,x n−1 )p(y n ∣x 1∶N )p(x 1∶N )p(y n ∣x n ,x n−1 ) = ∫ d(x 1∶n−2 ,x n+1∶N )X N−2 p(x n ,x n−1 )p(x 1∶N )= p(y n ∣x n )∫ X N−2 p(x n ,x n−1 ) d(x 1∶n−2,x n+1∶N )= p(y n ∣x n )D’après cette proposition, le fait que X soit une chaîne <strong>de</strong> <strong>Markov</strong> sachant que Z=(X,Y) est un CMCouple, est équival<strong>en</strong>t à p(y n ∣x)=p(y n ∣x n ) pour tout n∈{1,..,N}.Pr<strong>en</strong>ons un exemple concret <strong>de</strong> la nature pour interpréter cette propriété. Soit uneimage numérique où chaque pixel peut être "eau" ou "forêt", et supposons que la29


CHAPITRE II. MODÈLE DE MARKOV COUPLEchaîne couple est une ligne <strong>de</strong> cette image. L’observation est alors le niveau <strong>de</strong> gris.Dans le modèle classique CMC nous avons p(y n ∣x)=p(y n ∣x n ), ce qui signifie quel’aspect visuel <strong>de</strong> la forêt (par exemple) ne peut pas dép<strong>en</strong>dre <strong>de</strong>s pixels ("eau" ou"forêt") se trouvant à côté, alors que cette possibilité existe dans les CMCouples.Ainsi les CMCouples permett<strong>en</strong>t <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> compte les différ<strong>en</strong>ces év<strong>en</strong>tuelles<strong>de</strong>s aspects <strong>de</strong>s pixels se trouvant près <strong>de</strong>s frontières.Soit Z=(X,Y) une chaîne <strong>de</strong> <strong>Markov</strong> couple stationnaire et réversible (rappelonsque Z est dite stationnaire si p(z n+1 ,z n ) ne dép<strong>en</strong><strong>de</strong>nt pas <strong>de</strong> n pour toutn∈{1,..,N−1}). La loi d’une chaîne <strong>de</strong> <strong>Markov</strong> couple stationnaire est complètem<strong>en</strong>tdéterminée par la loi du couple(z 2 ,z 1 )=(x 2 ,y 2 ,x 1 ,y 1 ). Pour exploiter laproposition (II.3), nous pouvons développer la loi <strong>de</strong>(Z 1∶2 ) sous plusieurs formesparticulières donnant lieu à autant <strong>de</strong> sous-modèles <strong>de</strong> CMCouple. Les différ<strong>en</strong>tsgraphes d’indép<strong>en</strong>dance conditionnelle <strong>de</strong> ces modèles sont représ<strong>en</strong>tés sur la figure(II.1). Nous comm<strong>en</strong>çons par développer la loi p(z 1∶2 ) sous la forme suivante :CMC-BIp(z 1∶2 )=p(x 1∶2 )p(y 1∶2 ∣x 1∶2 )Dans ce premier modèle, nous supposons que les y n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>taux(x n ) 1∶N et que pour toute n, y n ne dép<strong>en</strong>d que <strong>de</strong> x n . Le graphed’indép<strong>en</strong>dance conditionnelle <strong>de</strong> ce modèle est (a) sur la figure (II.1). D’après laproposition (II.3), X est une chaîne <strong>de</strong> <strong>Markov</strong>. La loi du transition est donnée par :p(z 2 ∣z 1 )=p(x 2 ∣x 1 )p(y 2 ∣x 2 )(II.9)CMCDans le modèle précè<strong>de</strong>nt, nous avons supposé que les y n sont indép<strong>en</strong>dantsconditionnellem<strong>en</strong>t aux(x n ) 1∶N ce qui se traduit par l’abs<strong>en</strong>ce <strong>de</strong>s arêtes <strong>en</strong>tre lesy n sur le graphe (a). Pour généraliser le modèle <strong>de</strong> CMC-BI nous supposons cettefois que les y n sont corrélés et nous gardons l’hypothèse p(y n ∣x n−1 ,x n )=p(y n ∣x n ).Pour cela nous ajoutons <strong>de</strong>s arêtes <strong>en</strong>tre les y n afin <strong>de</strong> modéliser cette dép<strong>en</strong>danceet nous obt<strong>en</strong>ons le graphe (b). X est une chaîne <strong>de</strong> <strong>Markov</strong> et les transitions et laloi initiale <strong>de</strong> la chaîne couple sont données par :p(z 2 ∣z 1 )=p(x 2 ∣x 1 )p(y 2 ∣y 1 ,x 2 )p(z 1 )=p(x 1 )p(y 1 ∣x 1 )(II.10)(II.11)Avec le modèle CMC, nous pouvons modéliser la corrélation <strong>de</strong>s observations avecun nombre réduit <strong>de</strong> paramètres.CMCouple-BIDans ce modèle nous supposons que les Y n sont indép<strong>en</strong>dantes conditionnellem<strong>en</strong>tà X mais l’égalité p(y n ∣x n−1∶n )=p(y n ∣x n ) n’est pas vérifiée. D’après la proposition(II.3), X n’est pas une chaîne <strong>de</strong> <strong>Markov</strong>. En utilisant la formule <strong>de</strong> Bayespour développer la <strong>de</strong>nsité p(y n∶n+1 ∣x n∶n+1 ), on obti<strong>en</strong>t :30p(y 1∶2 ∣x 1∶2 )=p(y 1 ∣x 1∶2 )p(y 2 ∣x 1∶2 )(II.12)


CHAPITRE II. MODÈLE DE MARKOV COUPLEles transitions <strong>de</strong> la chaîne couple sont alors :p(z 2 ∣z 1 )=p(x 2 ∣z 1 )p(y 2 ∣x 1∶2 )(II.13)CMCoupleDans le modèle CMCouple général nous avons :p(y 1∶2 ∣x 1∶2 )=p(y 1 ∣x 1∶2 )p(y 2 ∣z 1 ,x 2 )(II.14)et la forme la plus générale <strong>de</strong>s transitions est :p(z 2 ∣z 1 )=p(x 2 ∣z 1 )p(y 2 ∣z 1 ,x 2 )(II.15)Nous pouvons remarquer sur la figure (II.1) que les arêtes <strong>en</strong>tre les sommets sont<strong>en</strong> nombre croissant d’un graphe à l’autre, ce qui illustre la richesse et la complexitécroissante <strong>de</strong>s modèles considérés.y 1 y 2 y 3 y 1 y 2 y 3x 1 x 2 x 3 x 1 x 2 x 3(a)(b)y 1 y 2 y 3 y 1 y 2 y 3x 1 x 2 x 3 x 1 x 2 x 3(c) (d)Figure II.1 – Graphe d’indép<strong>en</strong>dance conditionnelle <strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> couple.(a) : CMC-BI; (b) : CMC; (c) : CMCouple-BI; (d) : CMCoupleII.2 Infér<strong>en</strong>ce dans le modèle coupleNous prés<strong>en</strong>tons dans cette sous-section l’ext<strong>en</strong>sion <strong>de</strong> l’algorithme <strong>de</strong> Baum-Welsh, qui permet <strong>de</strong> calculer les probabilités a posteriori p(x n ∣y) et p(x n+1 ∣x n ,y)(avec y=y 1∶N ), aux modèles CMCouples. Lorsque le CMCouple est une CMC l’ext<strong>en</strong>sionredonne l’algorithme classique. Comme nous l’avons m<strong>en</strong>tionné, ce calcul est<strong>de</strong> complexité comparable à celle <strong>de</strong> l’algorithme classique dans les CMC.II.2.1 Algorithme <strong>de</strong> Baum-WelshSoit Z=(X,Y) une chaîne <strong>de</strong> <strong>Markov</strong> couple (II.1), dont nous disposons <strong>de</strong>sobservations y= y 1∶N du processus Y sur une grille <strong>de</strong> taille N. La loi <strong>de</strong> Z s’écrit31


CHAPITRE II. MODÈLE DE MARKOV COUPLEsous sa forme factorisée :N−1p(z)=p(z 1 )∏n=1p(z n+1 ∣z n )(II.16)Comme dans le cas classique <strong>de</strong>s CMC, l’algorithme <strong>de</strong> Baum-Welsh permet d’estimerune réalisation du processus caché X à partir <strong>de</strong>s observations au s<strong>en</strong>s <strong>de</strong> lasolution MPM (5).A B Cy 1 y 2 y n−1 y n y n+1 y N−1 y Nx 1 x 2 x n−1 x n x n+1 x N−1 y NFigure II.2 – Graphe d’indép<strong>en</strong>dance conditionnelle d’une chaîne <strong>Markov</strong> coupleNous repr<strong>en</strong>ons ci-après le calcul <strong>de</strong>s probabilités « directes » α n et les probabilités« rétrogra<strong>de</strong>s » β n , qui sont <strong>de</strong>s ext<strong>en</strong>sions <strong>de</strong>s quantités analogues utiliséesdans les CMC classiques. Nous avons :p(x n =ω i ∣y 1∶N )=p(x n =ω i ,y 1∶N )∑ K j=1p(x n =ω j ,y 1∶N )(II.17)Comme nous pouvons remarquer sur la figure (II.2)B=(x n ,y n ) sépareA=(y 1∶n−1 ) etC=(y n+1∶N ) (tout chemin <strong>en</strong>treA etC passe parB voir (I.1.1)) d’où p(x n ,y 1∶N ) peuts’écrire comme un produit :p(x n ,y 1∶N )=p(x n ,y 1∶n )p(y n+1∶N ∣x n ,y 1∶n )En notant parα n (x n )=p(x n ,y 1∶n ) la probabilité directe, et parβ n (x n )=p(y n+1∶N ∣x n ,y n )la probabilité rétrogra<strong>de</strong>, nous avons :p(x n =ω i ∣y 1∶N )=α n (x n =ω i )β n (x n =ω i )∑ K j=1α n (x n =ω j )β n (x n =ω j )(II.18)De même nous pouvons déduire la probabilité <strong>de</strong> X n+1 conditionnellem<strong>en</strong>t à X n ,Y 1∶N<strong>en</strong> fonction <strong>de</strong>s β n et les transitions p(z n+1 ∣z n ) :p(x n+1 ∣x n ,y 1∶N )= β n+1(x n+1 )p(z n+1 ∣z n )β n (x n )(II.19)Les α n et les β n sont calculés par recurr<strong>en</strong>ce :32


CHAPITRE II. MODÈLE DE MARKOV COUPLE1. Étape directe :◻ Initialisation : α 1 (x 1 )=p(x 1 ,y 1 )◻ à l’étape(n+1), supposons α n calculé à l’étape précé<strong>de</strong>nte(n) :α n+1 (x n+1 )=K∑j=1α n (x n =ω j )p(z n+1 ∣z n )2. Étape rétrogra<strong>de</strong> :◻ Initialisation : β N (x N )=1◻ à l’étape n, supposons β n+1 calculé à l’étape précé<strong>de</strong>nte :β n (x n )=K∑j=1β n+1 (x n+1 =ω j )p(z n+1 ∣z n )Lors <strong>de</strong> l’implém<strong>en</strong>tation <strong>de</strong> l’algorithme <strong>de</strong> Baum-Welsh, <strong>de</strong>s problèmes d’ordr<strong>en</strong>umérique peuv<strong>en</strong>t apparaître à cause <strong>de</strong>s α n qui seront considérés comme nuls sin est très grand, <strong>de</strong> même pour les β n si n est petit, et N grand. Pour surmonterces problèmes, P. A. Devijver a proposé l’algorithme <strong>de</strong> Baum-Welsh conditionneldans le cas <strong>de</strong> CMC-BI [37]. Dans la section suivante nous prés<strong>en</strong>tons l’algorithme<strong>de</strong> Baum-Welsh conditionnel dans le cas du chaîne <strong>de</strong> <strong>Markov</strong> couple prés<strong>en</strong>té par S.Derro<strong>de</strong> et W. Pieczynski [35], qui peut être vu comme une généralisation <strong>de</strong> celui<strong>de</strong> P. A. Devijver au cas CMCouple.II.2.2 Algorithme <strong>de</strong> Baum-Welsh conditionnelDans le cas <strong>de</strong> CMC-BI Devijver (1985) a proposé un algorithme fondé sur lafactorisation <strong>de</strong>s probabilités <strong>de</strong> lissagep(x n ∣y 1∶N ) pour assurer la stabilité numériquelors du calcul <strong>de</strong>s α n et <strong>de</strong>s β n . Pour cela, il propose <strong>de</strong> les diviser par <strong>de</strong>s quantitésayant le même ordre <strong>de</strong> gran<strong>de</strong>ur, afin <strong>de</strong> gar<strong>de</strong>r les p(x n ∣y 1∶N ) et p(x n+1 ∣x n ,y 1∶N )invariantes.On pose :̃α n (x n )= α n(x n )p(y 1∶n ) =p(x n∣y 1∶n )(II.20)(on peut remarquer que ceci est équival<strong>en</strong>t à l’étape <strong>de</strong> correction dans le filtre <strong>de</strong>Kalman). On a :p(x n ,y 1∶N )=α n (x n )β n (x n )En remplaçant α n par p(y 1∶n )̃α n (x n ) nous obt<strong>en</strong>ons :p(x n ,y 1∶N )=p(y 1∶n )̃α n (x n )β n (x n )(II.21)En divisant (II.21) par p(y 1∶N ) nous obt<strong>en</strong>ons p(x n ∣y 1∶N ) <strong>en</strong> fonction <strong>de</strong>̃α n :p(x n ∣y 1∶N ) = p(y 1∶n)̃α n (x n )β n (x n )p(y 1∶N )= ̃α n(x n )β n (x n )p(y n+1∶N ∣y 1∶n )33


CHAPITRE II. MODÈLE DE MARKOV COUPLEEn posant :̃β n (x n )=β n (x n )p(y n+1∶N ∣y 1∶n )(II.22)La <strong>de</strong>nsité <strong>de</strong> la loi du X n conditionnellem<strong>en</strong>t aux y 1∶N est donnée <strong>en</strong> fonction <strong>de</strong>̃α net̃β n par :p(x n ∣y 1∶N )=̃α n (x n )̃β n (x n )(II.23)et la loi <strong>de</strong> X n+1 conditionnellem<strong>en</strong>t aux x n et y 1∶N est donnée par :n+1 (x n+1 )p(x n+1 ∣x n ,y 1∶N )=̃βp(z n+1 ∣z n )̃β n (x n )(II.24)Les probabilités̃α n et̃β n sont calculées d’une manière récursive comme dans l’algorithme<strong>de</strong> Baum-Welsh classique. En effet, nous avons :1. Calcul <strong>de</strong>s̃α n :◻ Initialisatioñα 1 (x 1 )=p(x 1 ∣y 1 );◻ à l’étape n+1, supposons̃α n calculé à l’étape n :̃α n+1 (x n+1 )=1p(y n+1 ∣y 1∶n ) ∑ x ñα n (x n )p(z n+1 ∣z n )avec p(y n+1 ∣y 1∶n )=∑ xn+1 ∑ xñα n (x n )p(z n+1 ∣z n ).2. Calcul <strong>de</strong>s̃β n :◻ Initialisatioñβ N (x N )=1 ;◻ à l’étape n supposons̃β n+1 (x n+1 ) calculé à l’étape précé<strong>de</strong>nte :̃β n (x n )= ∑ x n+1̃βn+1 (x n+1 )p(z n+1 ∣z n )∑ xn+1 ∑ xñα n (x n )p(z n+1 ∣z n )(II.25)(II.26)Notons que la plus gran<strong>de</strong> généralité théorique <strong>de</strong>s CMCouples par rapport auxCMC classiques se traduis<strong>en</strong>t par leur plus gran<strong>de</strong> efficacité <strong>en</strong> segm<strong>en</strong>tation nonsupervisée - les paramètres étant estimés par la métho<strong>de</strong> "ICE" prés<strong>en</strong>tée dans lechapitre suivant - <strong>de</strong>s données. Comme prés<strong>en</strong>té dans [35] dans certaines situationsl’erreur <strong>de</strong> classification est systématiquem<strong>en</strong>t divisée par <strong>de</strong>ux. Nous prés<strong>en</strong>tonségalem<strong>en</strong>t quelques résultats dans la sous-section (II.3) ci-après.II.2.3 Programmation dynamique : Algorithme <strong>de</strong> ViterbiDans la section précé<strong>de</strong>nte, nous avons prés<strong>en</strong>té les <strong>de</strong>ux versions <strong>de</strong> l’algorithme<strong>de</strong> Baum-Welsh, qui permett<strong>en</strong>t <strong>de</strong> calculer la solution MPM (5), qui correspond àla fonction <strong>de</strong> perte locale (3) .aveĉx MPM n=argmaxx n∈Ω̂x MPM =(̂x MPMn ) 1∶N (II.27)p(x n ∣y 1∶N ) pour tout n∈{1,..,N}.Dans cette section, nous prés<strong>en</strong>tons l’algorithme qui permet <strong>de</strong> calculer la solutiondu maximum a posteriori MAP (4) qui correspond à la fonction <strong>de</strong> perte globale(2). Cette solution est définie par :34̂x MAP (y 1∶N )=argmax p(x∣y 1∶N ) (II.28)x∈Ω N


CHAPITRE II. MODÈLE DE MARKOV COUPLELe calcul du MAP est possible avec l’algorithme <strong>de</strong> programmation dynamique,appelé algorithme <strong>de</strong> Viterbi.Nous pouvons factoriser max p(z) <strong>de</strong> la façon suivante :xmaxxp(z)=maxx n{maxx n+1∶Np(z n+1∶N ∣z n )maxx 1∶n−1p(z 1∶n )}(II.29)Cette factorisation permet d’avoir la récursion <strong>de</strong> type « avant » basée sur lesprobabilités p(z 1∶n ).Si on définit δ n (z n ) par :δ n (z n )= maxx n+1∶N ∈Ω N−n p(z n+1∶N∣z n )Les δ n (z 1∶n ) vérifi<strong>en</strong>t la récurr<strong>en</strong>ce arrière suivante :<strong>en</strong> effet :δ n−1 (z n−1 )=maxx n∈Ω p(z n∣z n−1 )δ n (z n )δ n−1 (z n−1 ) = maxx n∶N ∈Ω N−n+1 p(z n∶N∣z n−1 )= max p(z n+1∶N∣z n )p(z n ∣z n−1 )x n∶N ∈Ω N−n+1= max p(z n∣z n−1 ) max p(z n+1∶N∣z n )x n∈Ω x n+1∶N ∈Ω N−n= max p(z n∣z n−1 )δ n (z n )x n∈Ω(II.30)(II.31)Pour stocker les valeurs qui maximis<strong>en</strong>t lesδ n−1 (z 1∶n−1 ) dans le s<strong>en</strong>s rétrogra<strong>de</strong>, d’uneétape à l’autre, on utilise l’égalité suivante :ψ n (x n−1 )=argmaxx n∈Ωp(z n ∣z n−1 )δ n (z n )Finalem<strong>en</strong>t, l’algorithme <strong>de</strong> Viterbi se déroule <strong>de</strong> la manière suivante :◻ Initialisation :ψ N (x N−1 )=argmax p(z N ∣z N−1 )x N ∈Ωetδ N−1 (z N−1 )=max p(z N∣z N−1 )x N ∈Ω◻ Calcul dans le s<strong>en</strong>s rétrogra<strong>de</strong> :∀n=N−1,..,1etψ n (x n−1 )=argmaxx n∈Ωp(z n ∣z n−1 )δ n (z n )δ n−1 (z n−1 )=maxx n∈Ω p(z n∣z n−1 )δ n (z n )◻ Calcul dans le s<strong>en</strong>s direct : Initialisation :̂x 1,MAP =argmaxx 1 ∈Ω∀n=2,..,N̂x n+1,MAP =ψ n+1 (̂x n,MAP )(II.32)p(x 1 ,y 1 )δ 1 (z 1 ) etLa métho<strong>de</strong> MAP a été programmée et comparée avec la métho<strong>de</strong> MPM dans lecadre <strong>de</strong>s CMCouples [35]. Malgré leur différ<strong>en</strong>ce les résultats obt<strong>en</strong>us, <strong>de</strong> manièrerelativem<strong>en</strong>t surpr<strong>en</strong>ante, se sont avérés d’être toujours très proches <strong>en</strong> qualité.35


CHAPITRE II. MODÈLE DE MARKOV COUPLEII.3 Etu<strong>de</strong> comparative <strong>en</strong>tre CMC-BI et CMCouplesDans la suite, nous procédons à une étu<strong>de</strong> comparative <strong>en</strong>tre le modèle <strong>de</strong> chaîne<strong>de</strong> <strong>Markov</strong> Couple et celui <strong>de</strong> chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruit indép<strong>en</strong>dant. Enun premier lieu, nous considérons <strong>de</strong>s données issues du modèle CMC-BI classiqueet <strong>en</strong> second lieu <strong>de</strong>s données issues d’un modèle CMCouple. Dans un troisièmetemps, nous segm<strong>en</strong>tons avec les <strong>de</strong>ux modèles <strong>de</strong>s données <strong>de</strong> synthèse obt<strong>en</strong>uespar différ<strong>en</strong>tes bruits introduis sur une image artificielle. Pour finir la comparaisonnous segm<strong>en</strong>tons une image réelle.Dans toutes les séries d’expéri<strong>en</strong>ces nous considérons <strong>de</strong>s chaînes <strong>de</strong> même tailleN= 256×256 et pour visualiser les réalisations <strong>de</strong> la chaîne cachée et <strong>de</strong> la chaîneobservée sous forme bi-dim<strong>en</strong>sionnelle nous utilisons la transformation d’Hilbert-Peano (I.5). Nous comm<strong>en</strong>çons par simuler une chaîne <strong>de</strong> <strong>Markov</strong> à <strong>de</strong>ux classes ω 1et ω 2 dont la loi initiale p(x 1 )= 1 2 et la matrice <strong>de</strong> transitionsP=p(x n+1∣x n ) donnepar :0.99 0.01P=(0.01 0.99 ).La loi p(y n ∣x n ) est une gaussi<strong>en</strong>ne <strong>de</strong> variance égale à 1 pour les <strong>de</strong>ux classes et <strong>de</strong>moy<strong>en</strong>ne 0 si x n vaut ω 1 et <strong>de</strong> moy<strong>en</strong>ne égale à 2 si x n vaut ω 2 . La réalisation x 1∶N estreprés<strong>en</strong>tée par (a) sur la figure (II.3) et la réalisation y 1∶N par b <strong>de</strong> la même figure.(c), (d) et (e) sont les estimées obt<strong>en</strong>ues avec la métho<strong>de</strong> MPM (5). L’estimation<strong>de</strong>s paramètres par l’algorithme ICE sera traitée dans le chapitre suivant.(a) (b) (c)(d)(e)Figure II.3 – Simulation et Segm<strong>en</strong>tation d’une CMC-BI (les pourc<strong>en</strong>tages désign<strong>en</strong>tles taux d’erreur).(a) : réalisation x 1∶N ; (b) : réalisation y 1∶N ; (c) : segm<strong>en</strong>tationpar CMC-BI avec les vrais paramètres 0.62%; (d) : segm<strong>en</strong>tation par CMC-BIparamètres estimés par ICE 0.62%; (e) : segm<strong>en</strong>tation par CMCouple paramètresestimés par ICE 0.70%36


CHAPITRE II. MODÈLE DE MARKOV COUPLENous remarquons que les taux d’erreur sont très proches :0.62% pour le CMC-BIqui est le vrai modèle et 0.70% pour le CMCouple. Cela montre que la métho<strong>de</strong> ICEappliquée au modèle CMCouple est capable <strong>de</strong> lui faire pr<strong>en</strong>dre <strong>en</strong> considération lamarkovianité <strong>de</strong> données cachées. Dans l’expéri<strong>en</strong>ce suivante, nous considérons <strong>de</strong>sdonnées issues du modèle CMCouple qui n’est pas une CMC-BI. La loi du couple(Z n+1 ,Z n ) est donnée par la loi jointeP=p(x n+1 ,x n ) :P=(0.49 0.010.01 0.49 ).et la loi p(y n+1 ,y n ∣x n+1 ,x n ) est une gaussi<strong>en</strong>neN R 2(Γ,Σ) avec : Γ(x n+1 ,x n )= → 0pour tout(x n+1 ,x n )∈X 2 etΣ(ω 1 ,ω 1 )=( 1 00 1 ), Σ(ω 1,ω 2 )=( 50 00 1 ), Σ(ω 2,ω 1 )=( 1 00 50 ) et Σ(ω 2,ω 2 )=(50 4545 50 )(a) (b) (d)(d)(e)Figure II.4 – Simulation et segm<strong>en</strong>tation d’une CMCouple (les pourc<strong>en</strong>tages désign<strong>en</strong>tles taux d’erreur). (a) : réalisation x 1∶N ; (b) : réalisation y 1∶N ; (c) : segm<strong>en</strong>tationpar CMCouple avec les vrais paramètres 1.05%; (d) : segm<strong>en</strong>tation parCMCouple avec paramètres estimés par ICE 2.09%; (e) : segm<strong>en</strong>tation par CMC-BIavec paramètres estimés par ICE 35.51%Nous constatons que le modèle CMC-BI (35.51% taux d’erreur) a une gran<strong>de</strong>difficulté à segm<strong>en</strong>ter <strong>de</strong>s données issues du modèle CMCouple considéré. Le modèleCMCouple à un taux d’erreur <strong>de</strong> 2.09% bi<strong>en</strong> que le bruit soit assez important (varianceégale à 50). Dans l’expéri<strong>en</strong>ce suivante, nous appliquons les modèles CMC-BIet CMCouple sur <strong>de</strong>s données issues <strong>de</strong> <strong>de</strong>ux bruitages d’une image artificielle (a)37


CHAPITRE II. MODÈLE DE MARKOV COUPLEsur la figure (II.5). La première image bruitée (b) est obt<strong>en</strong>ue avec un bruit gaussi<strong>en</strong>indép<strong>en</strong>dant; la <strong>de</strong>uxième image bruitée (c) est obt<strong>en</strong>ue avec un bruit à moy<strong>en</strong>nemobile. Le bruit indép<strong>en</strong>dant estN(1.0,5.0) si x n = ω 1 etN(2.0,5.0) si x n = ω 2 .Le bruit à moy<strong>en</strong>ne mobile sont données par y n =δ ω1 (x n )+αǫ n +β[ǫ n+1 +ǫ n−1 ] avecδ ω1 (x n )=1 si x n = ω 1 et 0 sinon, les ǫ n sont <strong>de</strong>sN(0,1) indép<strong>en</strong>dants, α=0.96 etβ=0.2.(a) (b) (c)(d)(e)(f)(g)Figure II.5 – Segm<strong>en</strong>tation d’une image artificielle ( + estimation <strong>de</strong>s paramètrespar ICE). (a) : réalisation x 1∶N ; (b) : réalisation y1∶N 1 avec bruit gaussi<strong>en</strong> indép<strong>en</strong>dant;(c) : réalisation y1∶N 2 avec bruit à moy<strong>en</strong>ne mobile; (d) : segm<strong>en</strong>tation avecCMCouple <strong>de</strong> y1∶N 1 27.14%; (e) : segm<strong>en</strong>tation avec CMCouple <strong>de</strong> y2 1∶N4.06%; (f) :segm<strong>en</strong>tation avec CMC-BI <strong>de</strong> y1∶N 1 34.81%; (g) : segm<strong>en</strong>tation avec CMC-BI <strong>de</strong>y1∶N 2 16.32%Les résultats <strong>de</strong> la segm<strong>en</strong>tation avec le modèle CMCouple sont nettem<strong>en</strong>t supérieursà ceux obt<strong>en</strong>us avec le modèle CMC-BI dans les <strong>de</strong>ux cas : bruit indép<strong>en</strong>dantet bruit à moy<strong>en</strong>ne mobile. Ceci montre, dans les conditions <strong>de</strong> l’expéri<strong>en</strong>ce, que lemodèle CMCouple peut considérablem<strong>en</strong>t améliorer, <strong>en</strong> segm<strong>en</strong>tation non supervisée,les résultats donnés par le modèle CMC-BI classique.38


CHAPITRE II. MODÈLE DE MARKOV COUPLEDans la <strong>de</strong>rnière expéri<strong>en</strong>ce, nous segm<strong>en</strong>tons une image réelle SAR (SyntheticAperture Radar 1 ), prés<strong>en</strong>tée sur la figure (II.6), (a). Le résultat obt<strong>en</strong>u avec CM-Couple est prés<strong>en</strong>té sur la même figure <strong>en</strong> (b), et celui obt<strong>en</strong>u avec CMC-BI estprés<strong>en</strong>té sur la même figure <strong>en</strong> (c). Il est relativem<strong>en</strong>t difficile d’apprécier les différ<strong>en</strong>ces<strong>en</strong>tre les <strong>de</strong>ux segm<strong>en</strong>tations <strong>de</strong> manière rigoureuse; cep<strong>en</strong>dant, le résultatobt<strong>en</strong>u avec CMCouples semble visuellem<strong>en</strong>t bi<strong>en</strong> plus précis. En particulier, lesfrontières <strong>de</strong>s zones sont mieux retrouvées et les objets <strong>de</strong> petites tailles sont mieuxdétectés.(a) (b) (c)Figure II.6 – Segm<strong>en</strong>tation d’une image SAR ( + estimation <strong>de</strong>s paramètres parICE)(a) image réelle (b) segm<strong>en</strong>tation par CMCouple (b) segm<strong>en</strong>tation par CMC-BIII.4 ConclusionDans ce chapitre, nous avons prés<strong>en</strong>té <strong>en</strong> premier lieu le modèle <strong>de</strong> chaîne <strong>de</strong><strong>Markov</strong> couple, qui généralise le modèle <strong>de</strong> chaîne <strong>de</strong> <strong>Markov</strong> cachée prés<strong>en</strong>té dansle chapitre précé<strong>de</strong>nt. En second lieu, nous avons détaillé les différ<strong>en</strong>ces <strong>en</strong>tre lesmodèles CMCouple et les chaînes <strong>de</strong> <strong>Markov</strong> cachées <strong>en</strong> rappelant les conditions nécessaireset suffisantes sur le couple(X,Y) pour que X soit une chaîne <strong>de</strong> <strong>Markov</strong>.En troisième lieu, nous avons détaillé les algorithmes <strong>de</strong> calcul infér<strong>en</strong>tiel permett<strong>en</strong>t<strong>de</strong> calculer p(x n ∣y 1∶N ) et p(x n+1 ∣x n ,y 1∶N ) dans le cas général d’une CMCouple (généralisationsaux modèles couples <strong>de</strong>s algorithmes classiques <strong>de</strong> Baum-Walsh, Baum-Welsh conditionnel, Viterbi). Pour finir nous avons procédé à une étu<strong>de</strong> comparative<strong>en</strong>tre le modèle classique <strong>de</strong> CMC et son ext<strong>en</strong>sion CMCouple, <strong>en</strong> les appliquant sur<strong>de</strong>s données simulées selon ces <strong>de</strong>ux modèles, artificielles et <strong>de</strong>s réelles. Les résultats<strong>de</strong> cette étu<strong>de</strong> expérim<strong>en</strong>tale montre une nouvelle fois l’intérêt du modèle CMCouplepar rapport au modèle CMC classique.Dans le chapitre suivant, nous nous intéressons à l’estimation <strong>de</strong>s paramètres,qui est d’une gran<strong>de</strong> importance pour le traitem<strong>en</strong>t <strong>de</strong>s problèmes réels.1. http ://www.onera.fr/images-sci<strong>en</strong>ce/observation-imagerie/image-radar-sar.php : Techniqueradar qui exploite le déplacem<strong>en</strong>t <strong>de</strong> l’ant<strong>en</strong>ne pour obt<strong>en</strong>ir une résolution angulaire bi<strong>en</strong> supérieureà celle d’une ant<strong>en</strong>ne immobile. La résolution angulaire d’une ant<strong>en</strong>ne est inversem<strong>en</strong>tproportionnelle à sa taille, nécessairem<strong>en</strong>t réduite à bord d’un avion.39


Chapitre IIIEstimation <strong>de</strong>s paramètresNous avons prés<strong>en</strong>té, jusqu’a maint<strong>en</strong>ant, <strong>de</strong>s algorithmes permettant <strong>de</strong> calculerles probabilités a posteriorip(x n ∣y 1∶N ) pour plusieurs modèles. Nous avons égalem<strong>en</strong>tdétaillé les règles <strong>de</strong> décision pour segm<strong>en</strong>ter un signal ou une image cachés à partir<strong>de</strong>s données observées y 1∶N . Le problème <strong>de</strong> l’estimation <strong>de</strong>s paramètres <strong>de</strong> ces modèles,qui peut être très important dans les applications réelles, n’a pas <strong>en</strong>core étéabordé. Notons θ=(θ 1 ,...,θ M ) l’<strong>en</strong>semble <strong>de</strong>s paramètres d’un modèle considéré.L’objet <strong>de</strong> ce chapitre est <strong>de</strong> prés<strong>en</strong>ter diverses métho<strong>de</strong>s <strong>de</strong> leur estimation à partir<strong>de</strong> y 1∶N . On noteP Θ l’<strong>en</strong>semble <strong>de</strong>s lois paramétriques <strong>de</strong> p(y∣θ)P Θ ={p(y∣θ), θ∈Θ}(III.1)L’estimateur du maximum <strong>de</strong> vraisemblance consiste <strong>en</strong> recherche <strong>de</strong>s paramètresqui maximis<strong>en</strong>t la vraisemblance p(y∣θ) :θ MVL (y)=argmaxθ∈Θp(y∣θ)(III.2)Pour <strong>de</strong>s raisons pratiques, la vraisemblance p(y∣θ) est généralem<strong>en</strong>t remplacée parla log-vraisemblanceL(y∣θ)=log[p(y∣θ)]; la fonction logarithme étant croissante,l’estimateur du maximum <strong>de</strong> vraisemblance est égalem<strong>en</strong>t donné par :θ MVL (y)=argmaxθ∈ΘL(y∣θ)(III.3)Dans le cadre <strong>de</strong> notre étu<strong>de</strong> <strong>de</strong>s modèles markovi<strong>en</strong>s cachés ou couples, la maximisation<strong>de</strong> l’équation (III.3) est généralem<strong>en</strong>t difficile à réaliser directem<strong>en</strong>t du faitque y n’est que la partie observée <strong>de</strong>s données du modèle Z=(X,Y). Des algorithmesnumériques itératifs ont été proposés pour résoudre ce problème <strong>en</strong> utilisantles données complètes et la log-vraisemblance complète :L c (x,y∣θ)=log[p(x,y∣θ)].(III.4)Parmi ces algorithmes, nous pouvons citer l’algorithme Espérance-Maximisation (<strong>en</strong>anglais Expectation-Maximisation algorithm, souv<strong>en</strong>t abrégé <strong>en</strong> « EM ») qui a étéproposé par Dempster et al. <strong>en</strong> 1977 [34], ainsi que ces variantes : GEM, CEM, SEM,SAEM [16,20,22]. L’algorithme EM est composé <strong>de</strong> <strong>de</strong>ux étapes :◊ Étape (E) : à la quelle nous cherchons à évaluer l’espérance conditionnelle <strong>de</strong>la log-vraisemblance complète E θ ∗[L c (X,Y∣θ)∣Y=y]41


CHAPITRE III. ESTIMATION DES PARAMÈTRES◊ Étape (M) : une fois que nous avons évalué l’espérance, nous cherchons à lamaximiser par rapport à θ.On part d’une initialisation et on applique les <strong>de</strong>ux étapes ci-<strong>de</strong>ssus, ce qui donnele paramètre suivant. De proche <strong>en</strong> proche, on obti<strong>en</strong>t une suite <strong>de</strong>s estimées quel’on arrête selon divers critères. Ainsi que nous allons le voir dans la suite, l’étape<strong>de</strong> la maximisation est parfois malaisée; <strong>de</strong> plus, l’algorithme EM est relativem<strong>en</strong>ts<strong>en</strong>sible à l’initialisation.Un autre algorithme itératif d’estimation a été proposé par M. Pieczynski dans[7, 89]. Il s’agit <strong>de</strong> l’algorithme « Estimation Conditionnelle Itérative » (IterativeConditional Estimation, <strong>en</strong> abrégé « ICE »). Cet algorithme est fondé sur l’exist<strong>en</strong>ced’un estimateur̂θ(x,y) <strong>de</strong> θ, à partir <strong>de</strong>s données complètes, et sur la possibilité<strong>de</strong> simulation <strong>de</strong> X selon sa loi conditionnelle aux observations y 1∶N et utilisantla valeur courante θ q <strong>de</strong> θ. Ainsi ICE est très générale et souv<strong>en</strong>t plus facile àutiliser que EM. Par ailleurs, une étu<strong>de</strong> <strong>de</strong> la converg<strong>en</strong>ce <strong>de</strong> l’algorithme ICE a étérécemm<strong>en</strong>t prés<strong>en</strong>tée par M. Pieczynski [95]. Une étu<strong>de</strong> sur le li<strong>en</strong> <strong>en</strong>tre EM et ICEa été proposée par M. Delmas [33] montrant leur équival<strong>en</strong>ces dans certains cas <strong>de</strong>smodèles expon<strong>en</strong>tiels.Nous allons prés<strong>en</strong>ter dans un premier temps ces algorithmes itératifs d’estimation,et dans un <strong>de</strong>uxième temps, nous les appliquerons aux modèles prés<strong>en</strong>tés dansles chapitres précé<strong>de</strong>nts.Dans toute la suite X=(X n ) 1∶N est processus aléatoire discret et Y=(Y n ) 1∶N unprocessus aléatoire continu. On note x=(x n ) 1∶N - respectivem<strong>en</strong>t y=(y n ) 1∶N - uneréalisation <strong>de</strong> X - respectivem<strong>en</strong>t <strong>de</strong> Y . Comme précé<strong>de</strong>mm<strong>en</strong>t, on note Z=(Z n ) 1∶Nle couple(X,Y).III.1 L’algorithme EM et ses variantesL’algorithme EM ainsi que ses variantes sont <strong>de</strong>s algorithmes itératifs. Noustrouvons dans la littérature plusieurs critères d’arrêt, qui peuv<strong>en</strong>t être liés soit autemps d’exécution ou au nombre d’itérations <strong>de</strong> l’algorithme. D’autres critères d’arrêtpeuv<strong>en</strong>t être liés à la stabilité <strong>de</strong> la solution obt<strong>en</strong>ue, comme par exemple lanorme <strong>de</strong> la différ<strong>en</strong>ce <strong>en</strong>tre θ q+1 obt<strong>en</strong>u à l’itération q+1 et θ q obt<strong>en</strong>u à l’itérationq. M<strong>en</strong>tionnons égalem<strong>en</strong>t que le temps d’exécution dép<strong>en</strong>d ess<strong>en</strong>tiellem<strong>en</strong>t <strong>de</strong> lataille du processus considéré, du nombre d’états du processus caché, ainsi que dutype d’algorithme d’optimisation choisi dans l’étape <strong>de</strong> maximisation.III.1.1 L’algorithme EML’idée <strong>de</strong> l’algorithme EM est d’utiliser la log-vraisemblance complète qui estfacile à calculer et à maximiser. Nous avons :L c (z∣θ)=logp(z∣θ)=logp(y∣θ)+logp(x∣y,θ)=L(y∣θ)+logp(x∣y,θ) (III.5)d’ou la relation <strong>en</strong>tre la log-vraisemblance et la log-vraisemblance complète :42L(y∣θ)=L c (z∣θ)−logp(x∣y,θ).(III.6)


CHAPITRE III. ESTIMATION DES PARAMÈTRESL’algorithme EM procè<strong>de</strong> d’une manière iterative pour maximiser la log-vraisemblancecomplète (III.4) <strong>en</strong> utilisant l’espérance conditionnelle <strong>de</strong>(X,Y). Supposons que àl’itération q, nous disposons <strong>de</strong> la valeur courante θ q <strong>de</strong> θ alors l’accroissem<strong>en</strong>t estdonné par :L(y∣θ)−L(y∣θ q )=L c (z∣θ)−L c (z∣θ q )+log[ p(x∣y,θq )p(x∣y,θ) ],(III.7)et l’espérance <strong>de</strong> l’accroissem<strong>en</strong>t, qui est une constante car elle ne dép<strong>en</strong>d pas <strong>de</strong> X,est :L(y∣θ)−L(y∣θ q )=E θ q[L c (z∣θ)−L c (z∣θ q )∣Y=y]+E θ q[log[ p(x∣y,θq )]∣Y=y] (III.8)p(x∣y,θ)Le terme E θ q[log[ p(x∣y,θq )p(x∣y,θ) ]] s’appelle distance <strong>de</strong> Kullback <strong>de</strong> p(x∣y,θq ) par rapportà p(x∣y,θ), qui toujours positive ou nulle d’après l’inégalité <strong>de</strong> J<strong>en</strong>s<strong>en</strong> 1 .E θ q[log[ p(x∣y,θq )p(x∣y,θ) ]∣Y=y]≥0(III.9)Si on pose Q(θ,θ q )=E θ q[L c (Z∣θ)∣Y=y], nous obt<strong>en</strong>ons l’inégalité suivante, du faitque (III.9) est positive ou nulle :L(y∣θ)−L(y∣θ q )≥Q(θ,θ q )−Q(θ q ,θ q )(III.10)il <strong>en</strong> résulte que toute valeur <strong>de</strong> θ qui fait croître Q(θ,θ q )−Q(θ q ,θ q ) fait aussi croîtreL(y∣θ). Et puisque Q(θ q ,θ q ) est une constante par rapport à θ, il suffit <strong>de</strong> maximiserQ(θ,θ q ) par rapport à θ, pour obt<strong>en</strong>ir θ q+1 :θ q+1 =argmaxQ(θ,θ q ) (III.11)θ∈R MPour obt<strong>en</strong>ir l’étape <strong>de</strong> maximisation nous pouvons utiliser les algorithmes <strong>de</strong> maximisationtel que la <strong>de</strong>sc<strong>en</strong>te du gradi<strong>en</strong>t, le gradi<strong>en</strong>t conjugué ou <strong>en</strong>core l’algorithme<strong>de</strong> Newton Raphson dans le cas vectoriel. Finalem<strong>en</strong>t, le déroulem<strong>en</strong>t <strong>de</strong> l’algorithmeEM est le suivant :Algorithme III.1 Choix d’une valeur θ 0 comme valeur initiale;Répéter jusqu’à critère d’arrêt :◻ Étape (E) :Q(θ,θ q )=E[L c (X,Y∣θ)∣Y=y,θ q ]◻ Étape (M) : choisir θ q+1 tel que :θ q+1 =argmaxθ∈R M Q(θ,θ q )III.1.2 Variantes <strong>de</strong> l’algorithme EMLa mise <strong>en</strong> oeuvre <strong>de</strong> l’algorithme EM pose parfois <strong>de</strong>s problèmes et pour simplifierson implém<strong>en</strong>tation <strong>de</strong>s variantes <strong>de</strong> ce <strong>de</strong>rnier ont été proposées.1. Inégalité <strong>de</strong> J<strong>en</strong>s<strong>en</strong> : soit f une fonction convexe sur]a,b[ et X une v.a d’espérance fini, àvaleurs dans]a,b[ alors f(E[X])≤E[f(X)]43


CHAPITRE III. ESTIMATION DES PARAMÈTRESL’algorithme GEML’algorithme EM généralisé (GEM) qui a été proposé par Dempster et al. (1977)[34]. Le principe <strong>de</strong> GEM consiste à choisir à l’itération q+1 <strong>de</strong> l’étape (M) n’importequelle valeur <strong>de</strong> θ q+1 à condition qu’elle permette d’accroître Q, ce qui assuresous certaines hypothèses (Q(.,.) est une fonction continue par rapport aux <strong>de</strong>uxvariables) la converg<strong>en</strong>ce monotone <strong>de</strong> la log-vraisemblanceL(y∣θ) vers une valeurstationnaire(maximum local). Une étu<strong>de</strong> sur les conditions et la nature <strong>de</strong> la converg<strong>en</strong>ce<strong>de</strong> l’algorithme EM et l’algorithme GEM été prés<strong>en</strong>tée par Wu(1983) [118].Q(θ,θ q+1 )≥Q(θ,θ q )L’algorithme GEM se déroule comme suit :Algorithme III.2 Choix d’une valeur θ 0 comme valeur initiale;Répéter jusqu’à critère d’arrêt :◻ Étape (E) :Q(θ,θ q )=E[L c (X,Y∣θ)∣Y=y,θ q ];◻ Étape (M) : choisir θ q+1 tel queVersion stochastique <strong>de</strong> EMQ(θ,θ q+1 )≥Q(θ,θ q )∶Des versions stochastiques <strong>de</strong> l’algorithme EM ont été proposées, aussi bi<strong>en</strong> afind’améliorer son efficacité qu’afin <strong>de</strong> résoudre certains problèmes <strong>de</strong> calcul. En particulier,à cause d’une mauvaise initialisation, l’algorithme EM risque <strong>de</strong> se bloquerdans <strong>de</strong>s minima locaux. Broniatowski et al. [16,20,21] ont proposé d’introduire unephase stochastique (S) <strong>en</strong>tre l’étape (E) et l’étape (M), qui permet <strong>de</strong> perturber lesystème, pour éviter son blocage dans <strong>de</strong>s minima locaux. Cet algorithme est appelé« stochastique EM »(SEM). Il se prés<strong>en</strong>te comme suit [23] :Algorithme III.3 Choix d’une valeur θ 0 comme valeur initiale.Répéter jusqu’à critère d’arrêt :◻ Étape (E) : Calculer les <strong>de</strong>nsités conditionnelles p(x n ∣y 1∶N ,θ q );◻ Étape (S) : Simuler aléatoirem<strong>en</strong>t un échantillon x q 1∶Nselon la loi multinomiale<strong>de</strong> paramètresM(1,p q 1,n ,..,pq K,n ) avec∀i=1,..,K pq i,n =p(x n=ω i ∣y 1∶N ,θ q );◻ Étape (M) : Calculer l’estimateur du maximum <strong>de</strong> vraisemblance θ q+1 :θ q+1 =argmaxθ∈ΘL c (x q 1∶N ,y 1∶N∣θ)Une autre version stochastique appelé SAEM (Stochastic Approximation EM), quipermet <strong>de</strong> combiner la version originale <strong>de</strong> EM et la version stochastique SEM, aété proposée par Celeux et al. [22]. En effet, à chaque itération q on considère <strong>de</strong>uxprocessus d’estimation qui se déroul<strong>en</strong>t séparém<strong>en</strong>t et parallèlem<strong>en</strong>t : EM standardqui permet d’estimerθ q+1EMsuivant :44et SEM pour estimerθq+1SEMθ q+1 =(1− 1T q+1)θq+1 EM + 1T q+1θq+1 SEM, et on pose comme le paramètre


CHAPITRE III. ESTIMATION DES PARAMÈTRESavec T q est une suite croissante. Le SAEM se comporte comme SEM au départ pouréviter les minima locaux, et il se comporte comme EM à la fin.Parfois le calcul analytique <strong>de</strong> la fonction Q(θ,θ q ) est impossible; pour pallierà ce problème dans l’étape (E) <strong>de</strong> l’algorithme EM, Wei et al. [115] ont proposé le« Monte Carlo EM » (MCEM), qui consiste à tirer aléatoirem<strong>en</strong>t, à chaque itérationq,τ réalisations du processus cachéX,{x q 1 ,..,xq τ} selon sa loi conditionnellep(x∣y,θ q )et à poserQ(θ,θ q )= 1 ττ∑i=1logp(x q i ,y,θ).Il est difficile <strong>de</strong> comparer ces différ<strong>en</strong>tes variantes dans le cas général. On peutcep<strong>en</strong>dant noter que l’algorithme EM est très s<strong>en</strong>sible à l’initialisation et il risque<strong>de</strong> se bloquer dans <strong>de</strong>s minima locaux non significatifs contrairem<strong>en</strong>t à ces versionsstochastiques. Par contre le vitesse <strong>de</strong> converg<strong>en</strong>ce <strong>de</strong> l’algorithme SEM est plusfaible que celui <strong>de</strong> EM [22]. Notons égalem<strong>en</strong>t que dans certains cas l’efficacité <strong>de</strong>l’algorithme SEM peut être supérieure à celle <strong>de</strong> l’algorithme EM [19].III.2 Estimation Conditionnelle ItérativeL’algorithme « Estimation Conditionnelle Itérative » (<strong>en</strong> anglais « IterativeConditional Estimation », ICE) a été proposé par Pieczynski [7, 89]. Comme EM,c’est un algorithme itératif qui permet d’estimer les paramètres d’un modèle à structurecachée. Cet algorithme est fondé sur : (i) l’exist<strong>en</strong>ce d’un estimateur̂θ(X,Y)<strong>de</strong> paramètres θ à partir <strong>de</strong>s données complètes, et (ii) la possibilité <strong>de</strong> simuler Xconditionnellem<strong>en</strong>t aux paramètres courants et aux observations y 1∶N . ICE produitalors une suite : à chaque itération, la prochaine valeur θ q+1 est l’espérance conditionnelle<strong>de</strong>̂θ sachant Y= y et la valeur courante du paramètre θ q . L’idée <strong>de</strong> l’ICEvi<strong>en</strong>t du fait que l’espérance conditionnelle est la meilleure approximation, au s<strong>en</strong>s<strong>de</strong> l’erreur quadratique moy<strong>en</strong>ne, d’une variable aléatoire par une autre.θ q+1 (y)=E θ q[̂θ(X,Y)∣Y=y](III.12)Dans le cas où l’espérance conditionnelle n’est pas calculable pour une composanteθ m du vecteur θ, on l’approxime par sa moy<strong>en</strong>ne empirique. Et pour cela, on génèreτ échantillons(x 1 ,...,x τ ) <strong>de</strong> X selon la loi p(x∣y,θ q ), avec x i =(x i 1 ,...,xi N )θ q+1m = 1 ττ∑i=1̂θ m (x i ,y)(III.13)Algorithme III.4 Choix d’une valeur θ 0 comme valeur initiale.Répéter jusqu’à critère d’arret :◻ Calculer θ q+1 =(θ q+11,..,θ q+1M ).● Pour tout m=1,..M◇ Si l’espérance mathématique est calculable, alors :θ q+1m = E θ q[̂θ m (X,Y)∣Y=y,θ q ]45


CHAPITRE III. ESTIMATION DES PARAMÈTRES◇ S’il existe <strong>de</strong>s composantes θ m pour lesquelles l’espérance ci-<strong>de</strong>ssus n’est pascalculable, on simule τ réalisations <strong>de</strong> X selon p(x∣y,θ q ) et on pose :pour toutes ces composantes.θ q+1m = 1 ττ∑i=1̂θ m (x i ,y)Dans certains cas, comme le cas <strong>de</strong>s CMC-BI classiques avec du bruit gaussi<strong>en</strong> [7],celui <strong>de</strong>s arbres <strong>de</strong> <strong>Markov</strong> cachés, avec bruit gaussi<strong>en</strong> ou pas [86], ou <strong>en</strong>core mélangesgaussi<strong>en</strong>s simples [87], les algorithmes EM, SEM et ICE peuv<strong>en</strong>t donner <strong>de</strong>s résultatstrès proches. Au plan théorique, les li<strong>en</strong>s <strong>en</strong>tre EM et ICE ont été étudiés parDelmas [33]. L’avantage <strong>de</strong> l’ICE est qu’il est facile à programmer et nous n’avons pas<strong>de</strong>s problèmes <strong>de</strong> maximisation sous contraintes contrairem<strong>en</strong>t à l’algorithme EM.En général, nous avons plusieurs choix pour les estimateurs <strong>de</strong> paramètres et parmices choix l’estimateur <strong>de</strong> maximum <strong>de</strong> vraisemblance. La vitesse <strong>de</strong> converg<strong>en</strong>ce <strong>de</strong>l’algorithme ICE dép<strong>en</strong>d ess<strong>en</strong>tiellem<strong>en</strong>t du choix <strong>de</strong> ces estimateurs. Une étu<strong>de</strong> surla converg<strong>en</strong>ce <strong>de</strong> ICE était prés<strong>en</strong>tée récemm<strong>en</strong>t par M. Pieczynski [95].III.3 ApplicationsNous prés<strong>en</strong>tons dans cette section <strong>de</strong>s applications <strong>de</strong> l’estimation <strong>de</strong>s paramètrespour quelques types <strong>de</strong> modèle à données incomplètes. Soit X=(X n ) n=1∶Nun processus aléatoire discret à valeurs dans un espace fini Ω={ω 1 ,...,ω K }. Xest inobservé, et les données que nous disposons sont représ<strong>en</strong>tées par le processusY=(Y n ) n=1∶N , qui est un processus réel. On note par Z=(Z n ) n=1∶N le couple(X,Y).La première modélisation classique que nous étudions est le cas d’un mélange indép<strong>en</strong>dantgaussi<strong>en</strong> fini.III.3.1 Mélange indép<strong>en</strong>dant gaussi<strong>en</strong> finiLes hypothèses <strong>de</strong> ce modèle sont les suivantes : les X n sont indép<strong>en</strong>dants, etles Y n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à X, Y n et(X t ) t≠n sont indép<strong>en</strong>dantsconditionnellem<strong>en</strong>t à X n .p(y∣x)=p(x)=N∏n=1N∏n=1p(y n ∣x)=p(x n )N∏n=1p(y n ∣x n )(III.14)(III.15)Dans le cas <strong>de</strong> mélange <strong>de</strong>s gaussi<strong>en</strong>nes considéré, la loi conditionnelle <strong>de</strong> Y n sachantx n = ω k est une gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne µ k et <strong>de</strong> variance σk 2N(µ k,σk 2 ). La logvraisemblanceest donnée par :46L c (z∣θ) = logp(x,y∣θ)=logp(x∣θ)+logp(y∣x,θ)=N∑n=1Nlogp(x n )+ ∑logp(y n ∣x n )n=1(III.16)(III.17)


CHAPITRE III. ESTIMATION DES PARAMÈTRESLes paramètres du modèle sont les probabilités π k =p(x n =ω k ) et les paramètres<strong>de</strong> la loi conditionnelle <strong>de</strong> Y n sachant X n , qui sont les moy<strong>en</strong>nes µ k et les variancesσ 2 k . Nous avons 3K paramètres à estimer, et comme∑K k=1π k = 1 le nombre <strong>de</strong>sparamètres sera réduit à 3K−1.θ=(π 1 ,...,π k ,µ 1 ,...,µ K ,σ 2 1,...,σ 2 K)(III.18)L’espérance conditionnelle <strong>de</strong>L c (z∣θ) sachant y 1∶N et la valeur courante <strong>de</strong> θ notéeθ q est :Q(θ,θ q ) = E[L(z∣θ)∣y,θ q ]=+NK∑∑log(π k )E[1(x n =ω k )∣y,θ q ]n=1k=1N K∑∑logp(y n ∣x n =ω k ,θ)E[1(x n =ω k )∣y,θ q ]n=1k=1Si on note γ n (k,θ q ) la probabilité p(x n = ω k ∣y,θ q )=E[1(x n = ω k )∣y,θ q ], la fonctionà maximiser est :NKQ(θ,θ q )= ∑∑γ n (k,θ q )log(π k )n=1k=1N K+ ∑∑γ n (k,θ q )logp(y n ,µ k ,σk 2)n=1k=1(III.19)L’étape (E) <strong>de</strong> l’algorithme EM consiste à calculer γ n (k,θ q ), qui est donnée par :γ n (k,θ q )=p(x n ∣y,θ q )=π q k N(y n,µ q k ,(σ2 k )q )∑ K k=1π q k N(y n,µ q k ,(σ2 k )q )(III.20)L’étape <strong>de</strong> maximisation <strong>de</strong> la fonction Q(θ,θ q ) par rapport à π k , sous la contrainte∑ K k=1π k =1, donne comme solution :π q+1k= 1 NN∑n=1γ n (k,θ q ),et les paramètres <strong>de</strong> la loi du Y n sachant x n =ω k sont donnés par :µ q+1k= ∑N n=1y n γ n (k,θ q )∑ N n=1γ n (k,θ q )(III.21)(III.22)(σk 2)q+1 = ∑N n=1(y n −µ q+1k) 2 γ n (k,θ q )(III.23)∑ N n=1γ n (k,θ q )Nous pouvons égalem<strong>en</strong>t appliquer l’algorithme ICE pour estimer les paramètres<strong>de</strong> ce modèle. En effet, à chaque étape q+ 1 les(π 1 ,..,π K ) sont estimables parl’espérance mathématique <strong>de</strong> leurs estimateurs. Choisissons comme estimateur àpartir <strong>de</strong>s données complèteŝπ k (x,y) comme estimateur̂π k (x,y)= ∑N n=11(x n =ω k )N47


CHAPITRE III. ESTIMATION DES PARAMÈTRESalors sachant la valeur courante θ q et les observations y=(y n ) 1∶N , nous pouvonscalculer π q+1ipar :π q+1i= E θ q[̂π i (x,y)∣y]= 1 NN∑n=1p(x n =ω i ∣y 1∶N ,θ q )= 1 NN∑n=1γ n (i,θ q ) (III.24)et nous retrouvons le même estimateur pour π q+1ique par l’algorithme EM donnépar l’équation (III.34).Les estimateurs classiques pour les moy<strong>en</strong>nes et les variances à partir <strong>de</strong>s donnéescomplètes sont les suivants :̂µ q+1k= ∑N n=1y n 1(x n =ω k )∑ N n=11(x n =ω k )(III.25)(̂σ k 2)q+1 = ∑N n=1(y n −µ q+1k) 2 1(x n =ω k )(III.26)∑ N n=11(x n =ω k )Les espérances mathématiques <strong>de</strong> ces estimateurs ne sont pas calculables explicitem<strong>en</strong>t;conformém<strong>en</strong>t au principe <strong>de</strong> l’ICE, on effectue <strong>de</strong>s tirages <strong>de</strong>s donnéescachées selon leurs lois conditionnelles aux observations et on applique les estimateursci-<strong>de</strong>ssus aux données simulées.III.3.2 CMC-BI gaussi<strong>en</strong>nesRappelons que dans les CMC-BI X est une chaîne <strong>de</strong> <strong>Markov</strong>, les Y n sont indép<strong>en</strong>dantsconditionnellem<strong>en</strong>t à X,et Y n et(X t ) t≠n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>tàX n . De plus, nous supposons que Y n sachant X n qui sont <strong>de</strong>s lois gaussi<strong>en</strong>nes.Nous avons doncN−1p(x)=p(x 1 )p(y∣x)=N∏n=1∏n=1p(y n ∣x)=p(x n+1 ∣x n )N∏n=1p(y n ∣x n )(III.27)(III.28)Les paramètres <strong>de</strong> ce modèle sont regroupés <strong>en</strong> <strong>de</strong>ux <strong>en</strong>sembles : le premier est constitué<strong>de</strong>s paramètres <strong>de</strong> la loi du processus X, que nous supposons homogène, donnépar sa loi initiale π=(π 1 ,...,π K ) et la matrice <strong>de</strong>s transitions A=(a i,j ) i=1∶k,j=1∶Kavec a i,j = p(x n+1 = ω i ∣x n = ω j ). Le <strong>de</strong>uxième est celui <strong>de</strong>s paramètres <strong>de</strong>s loi <strong>de</strong>Y n conditionnellem<strong>en</strong>t à X n qui sont choisies comme <strong>de</strong>s gaussi<strong>en</strong>nes dans notreexemple. Le vecteur <strong>de</strong>s paramètres θ est donc :θ=(π 1 ,...,π K ,a 1,1 ,...,a K,K ,µ 1 ,...,µ K ,σ 2 1,...,σ 2 K )(III.29)Le nombre <strong>de</strong>s paramètres du modèle peut être réduit du fait qu’il y a <strong>de</strong>s contraintes,comme∑ K k=1π k =1 et∀j=1,..,K ∑ K i=1a i,j =1. On suppose par ailleurs que la chaîneX est réversible (p(X n+1 = ω i ∣X n = ω j )=p(X n+1 = ω j ∣X n = ω i )), ce qui impliquea i,j =a j,iLa log-vraisemblance est donnée par :48N−1L c (z∣θ)=logp(x 1 )+∑n=1logp(x n+1 ,x n )+ ∑logp(y n ∣x n )Nn=1(III.30)


CHAPITRE III. ESTIMATION DES PARAMÈTRESet son espérance conditionnelle sachant y et la valeur courante <strong>de</strong>s paramètres θ qest :Q(θ,θ q ) =+K∑k=1Nlog(π k )E[1(x 1 =ω k )∣y,θ q N−1]+K∑n=1KK∑∑log(a i,j )E[1(x n+1 =ω i ,x n =ω j )∣y,θ q ]i=1 j=1∑∑logp(y n ∣x n =ω i ,θ)E[1(x n =ω i )∣y,θ q ]n=1 i=1En notant γ n (i,θ q )=p(x n =ω i ∣y,θ q ) et ϕ n (i,j,θ q )=p(x n =ω i ,x n+1 =ω j ∣y,θ q ), nousobt<strong>en</strong>ons la fonction à maximiser :KQ(θ,θ q )= ∑i=1γ 1 (i,θ q N−1)log(π i )+NK∑n=1KK∑∑ξ n (i,j,θ q )log(a i,j )i=1 j=1+ ∑∑γ n (i,θ q )logp(y n ,µ i ,σ i )n=1 i=1(III.31)L’étape (E) consiste à calculer les γ n (i,θ q ) et les ϕ n (i,j,θ q ), qui sont calculables parl’algorithme <strong>de</strong> Baum-Welsh sachant les paramètres courants θ q . Nous avonspar ailleurs nous avons :γ n (i,θ q )=p(x n =ω i ∣y,θ q α n (i)β n (i))=∑ K j=1α n (j)β n (j)p(x n+1 =ω j ∣x n =ω i ,y)= β n+1(j)β n (i) p(x n+1∣x n )p(y n+1 ∣x n+1 )<strong>en</strong> utilisant la formule <strong>de</strong> Bayes :nous obt<strong>en</strong>ons :p(x n =ω i ,x n+1 =ω j ∣y)=p(x n =ω i ∣y)p(x n+1 =ω j ∣x n =ω i ,y)(III.32)ϕ n (i,j,θ q )=p(x n =ω i ,x n+1 =ω j ∣y,θ q α n (i)a i,j p(y n+1 ,φ j )β n+1 (j))=∑ K i=1∑ K j=1α n (i)a i,j p(y n+1 ,φ j )β n+1 (j)(III.33)Une fois les quantités γ n (i,θ q ) et ϕ n (i,j,θ q ) calculées, nous pouvons passer à l’étape<strong>de</strong> maximisation (M) <strong>de</strong> la fonction Q(θ,θ q ) par rapport aux paramètres du modèle.La maximisation <strong>de</strong> cette fonction fait interv<strong>en</strong>ir le multiplicateur <strong>de</strong> Lagrangepour pr<strong>en</strong>dre <strong>en</strong> considération les contraintes du modèle. La première contrainteest∑ K i=1π i = 1 et la <strong>de</strong>uxième est∀j= 1,..,K ∑ K i=1a i,j = 1. Le premier terme faitinterv<strong>en</strong>ir la première contrainte et nous obt<strong>en</strong>ons après résolution :π q+1i= 1 NN∑n=1γ n (i,θ q )(III.34)Le <strong>de</strong>uxième terme fait interv<strong>en</strong>ir la contrainte∀j=1,...,K ∑ K i=1a i,j =1, et a q+1i,jestdonnée par :a q+1i,j= ∑N−1 n=1 ϕ n (i,j,θ q )(III.35)∑ N−1n=1 γ n (i,θ q )49


CHAPITRE III. ESTIMATION DES PARAMÈTRESLe troisième terme <strong>de</strong> l’équation (III.31) donne :µ q+1i= ∑N n=1γ n (i,θ q )y n∑ N n=1γ n (i,θ q )(III.36)i= ∑N n=1γ n (i,θ q )(y n −µ q+1i)(y n −µ q+1∑ N n=1γ n (i,θ q )σ q+1i) T(III.37)Les paramètres d’une CMC-BI sont égalem<strong>en</strong>t estimables par l’algorithme ICE.En effet, soit X une chaîne cachée stationnaire (p(x n+1 ,x n ) ne dép<strong>en</strong>d pas <strong>de</strong> n)les estimateurs <strong>de</strong>s paramètres <strong>de</strong> la loi <strong>de</strong> X sont calculables à chaque itération <strong>de</strong>l’algorithme ICE. En utilisant l’algorithme <strong>de</strong> Baum-Welsh et sachant la valeur couranteθq <strong>de</strong>θ et les observationsy 1∶N nous pouvons calculer les quantitésϕ n (i,j,θ q ) etγ n (i,θ q ). Si nous choisissonŝπ i (x,y) comme estimateur pour π i à partir <strong>de</strong>s donnéescomplètes :̂π i (x,y)= ∑N n=11(x n =ω i ),Nalors l’estimation <strong>de</strong> π i à l’itération q+1 est donné par son espérance conditionnelleaux observations. Elle est ici calculable et nous avons :π q+1i= E θ q[̂π i (x,y)∣Y=y]= 1 NN∑n=1γ n (i,θ q )(III.38)Le calcul <strong>de</strong>s transitionsa i,j fait interv<strong>en</strong>ir les probabilitésc i,j =p(x n+1 =ω i ,x n =ω j ),a i,j =p(x n+1 ∣x n )= p(x n+1,x n )p(x n )= c i,jp(x n ) .L’ estimateur empirique <strong>de</strong>s probabilités c i,j sachant les observations complètes(x 1∶N ,y 1∶N ) est :ĉ i,j = ∑N−1 n=1 1(x n+1 =ω i ,x n+1 =ω j ). (III.39)N−1L’espérance conditionnelle aux observations <strong>de</strong> cet estimateur <strong>de</strong> c i,j est à nouveaucalculable; <strong>en</strong> effet, à l’itération q+1 elle est donnée par :c q+1i,j= E θ q[ĉ i,j (x,y)∣Y=y]=N−11N−1∑n=1ϕ n (i,j,θ q )(III.40)Finalem<strong>en</strong>t, nous obt<strong>en</strong>ons les coeffici<strong>en</strong>ts <strong>de</strong> la matrice <strong>de</strong> transition a q+1i,jpar :a q+1i,j= ∑N−1∑ N−1n=1 ϕ n (i,j,θ q )n=1 γ n (i,θ q ) . (III.41)Il est intéressant <strong>de</strong> noter que nous obt<strong>en</strong>ons, par une démarche différ<strong>en</strong>te, uneformule i<strong>de</strong>ntique à celle donnée par l’algorithme EM. Le <strong>de</strong>uxième sous <strong>en</strong>semble<strong>de</strong>s paramètres sont les paramètres <strong>de</strong> la loi <strong>de</strong>Y n sachant X n . Les estimateurs <strong>de</strong> cesparamètres à partir <strong>de</strong>s données complètes, rappelés ci-<strong>de</strong>ssous, sont les mêmes queceux utilisés dans le cas indép<strong>en</strong>dant dans la sous-section précé<strong>de</strong>nte. Comme dansle cas indép<strong>en</strong>dant, le calcul <strong>de</strong> l’espérance conditionnelle <strong>de</strong> ces estimateurs n’est50


CHAPITRE III. ESTIMATION DES PARAMÈTRESpas possible, donc nous faisons recours à l’approximation par le biais <strong>de</strong>s tirages <strong>de</strong>X selon sa loi conditionnelle à Y . La différ<strong>en</strong>ce avec le cas indép<strong>en</strong>dant est qu’icicette loi est markovi<strong>en</strong>ne. Comme dans le cas indép<strong>en</strong>dant, les estimateurs à partir<strong>de</strong>s complètes sont :̂µ k = ∑N n=1y n 1(x n =ω k )∑ N n=11(x n =ω k )(III.42)̂σ 2 k =∑N n=1(y n −̂µ k ) 2 1(x n =ω k )∑ N n=11(x n =ω k )(III.43)Notons que dans la pratique on effectue souv<strong>en</strong>t un seul tirage à chaque itération <strong>de</strong>l’ICE (on pr<strong>en</strong>d τ=1, voir la <strong>de</strong>scription <strong>de</strong> l’ICE).III.3.3 CMCoupleNous traitons dans cette sous-section l’estimation <strong>de</strong>s paramètres pour le modèle<strong>de</strong> la chaîne <strong>de</strong> <strong>Markov</strong> couple, qui généralise les modèles classiques comme nousl’avons vu dans le <strong>de</strong>uxième chapitre. Soit Z une chaîne <strong>de</strong> <strong>Markov</strong> couple, dont la<strong>de</strong>nsité <strong>de</strong> loi s’écrit :p(z)= ∏N−1 n=1 p(z n ,z n+1 )(III.44)∏ N−1n=2 p(z n )Cette <strong>de</strong>nsité peut être développée sous une autre forme. En effet, la loi du couple(Z n ,Z n+1 ) peut s’écrire p(z n ,z n+1 )=p(x n ,x n+1 )p(y n ,y n+1 ∣x n ,x n+1 ), ce qui permet <strong>de</strong>mettre (III.44) sous la forme :p(z)= ∏N−1 n=1 p(x n ,x n+1 )∏ N−1n=1 p(y n ,y n+1 ∣x n ,x n+1 )∏ N−1n=2 p(z n )(III.45)Considérons d’abord l’ext<strong>en</strong>sion aux CMCouples <strong>de</strong> l’algorithme EM.La log-vraisemblance <strong>de</strong>s données complètes est :L c (z∣θ)=Posons :N−1∑ logp(x n ,x n+1 )−n=1N−1∑ logp(z n )+n=2N−1∑ logp(y n ,y n+1 ∣x n ,x n+1 ) (III.46)n=1γ n (k,θ q ) = p(x n =ω k ∣y,θ q )ϕ n (i,j,θ q ) = p(x n =ω i ,x n+1 =ω j ∣y,θ q )c i,j = p(x n =ω i ,x n+1 =ω j )f i,j (y n ,y n+1 ) = p(y n ,y n+1 ∣x n =ω i ,x n+1 =ω j )b k (y n ) = p(x n =ω k ,y n )51


CHAPITRE III. ESTIMATION DES PARAMÈTRESNous obt<strong>en</strong>ons alors la fonction à maximiser suivante :Q(θ,θ q N−1)=∑n=1N−1−∑n=2N−1+ ∑n=1KK∑∑ϕ n (i,j,θ q )logc i,ji=1 j=1K∑k=1Kγ n (k,θ q )logb k (y n )K∑∑ϕ n (i,j,θ q )logf i,j (y n ,y n+1 )i=1 j=1(III.47)L’étape (E) <strong>de</strong> l’algorithme EM consiste à calculer les quantitésγ n (k,θ q ) etϕ n (i,j,θ q );elles sont calculables par l’algorithme <strong>de</strong> Baum-Welsh que nous l’avons prés<strong>en</strong>té dansle <strong>de</strong>uxième chapitre. L’étape (M) fait interv<strong>en</strong>ir le multiplicateur <strong>de</strong> Lagrange pourinclure les contraintes suivantes :1.∑ K i=1∑ K j=1c i,j =12.∀j=1∶K,∑ K i=1∫ u∈Yc i,j f i,j (u,v)=b j (v)3.∀(i,j)∈[1∶K] 2 ,∬ f i,j (u,v)dudv=1La solution <strong>de</strong> ce problème d’optimisation est (l’algorithme EM a été ét<strong>en</strong>du auxchaînes <strong>de</strong> <strong>Markov</strong> Couple par P. Lanchantin; les détails <strong>de</strong>s calculs peuv<strong>en</strong>t êtreconsultés dans sa thèse [64]) :c q+1i,j= ∑N−1n=1 ϕ n (i,j,θ q ); (III.48)N−1f q+1 n=1[(y n ,y n+1 )=(u,v)]ϕ n (i,j,θ q )i,j (u,v)=∑N−1. (III.49)∑ N−1n=1 ϕ n (i,j,θ q )Dans le cas gaussi<strong>en</strong> c’est à dire(Y n∶n+1 ∣x n∶n+1 =(ω i ,ω j ))∼N 2 (m i,j ,Γ i,j ) (rappelonsque malgré la gaussianité <strong>de</strong>(Y n∶n+1 ∣x n∶n+1 =(ω i ,ω j )), dans les CMCouples la loi <strong>de</strong>Y conditionnelle à X n’est pas nécessairem<strong>en</strong>t gaussi<strong>en</strong>ne), les vecteurs moy<strong>en</strong>s etles matrices <strong>de</strong> co-variance sont re-estimés par :m q+1i,j= ∑N−1n=1(y n ,y n+1 ) T ϕ n (i,j,θ q )∑ N−1n=1 ϕ n (i,j,θ q )(III.50)Γ q+1i,j= ∑N−1 n=1(y n∶n+1 −m q+1i,j )(y n∶n+1−m q+1i,j )T ϕ n (i,j,θ q )(III.51)∑ N−1n=1 ϕ n (i,j,θ q )La <strong>de</strong>uxième métho<strong>de</strong> que nous pouvons utiliser afin d’estimer les paramètresd’une CMCouple est l’algorithme ICE. Si nous supposons que(X,Y) est stationnaire,le premier sous-<strong>en</strong>semble <strong>de</strong>s paramètres est la loi p(x n+1 ,x n ) (rappelons quece paramètre ne définit pas nécessairem<strong>en</strong>t la loi <strong>de</strong> X car X n’est pas nécessairem<strong>en</strong>tmarkovi<strong>en</strong>). Comme dans le cas <strong>de</strong>s CMC, on pr<strong>en</strong>d pour l’estimateur à partir<strong>de</strong>s données complètes l’estimateur :52ĉ i,j = ∑N−1 n=1 1[x n∶n+1 =(ω i ,ω j )], (III.52)N−1


CHAPITRE III. ESTIMATION DES PARAMÈTRESalors l’espérance mathématique <strong>de</strong> cet estimateur est calculable à chaque itérationet nous obt<strong>en</strong>ons c q+1i,jpar :c q+1i,j= ∑N−1n=1 ϕ n (i,j,θ q ). (III.53)N−1Le <strong>de</strong>uxième sous <strong>en</strong>sembles <strong>de</strong>s paramètres est constitué par les paramètres<strong>de</strong> la loi conditionnelle <strong>de</strong>(Y n ,Y n+1 ) sachant(X n+1 ,X n ). Dans le cas gaussi<strong>en</strong>, cesparamètres correspon<strong>de</strong>nt au vecteur moy<strong>en</strong> conditionnel m i,j et au matrice <strong>de</strong> covarianceconditionnelle Γ i,j . Comme estimateur empirique <strong>de</strong> vecteur moy<strong>en</strong> nouschoisissons :̂m i,j = ∑N−1 n=1(y n∶n+1 )1[x n∶n+1 =(ω i ,ω j )], (III.54)∑ N−1n=1 1[x n∶n+1 =(ω i ,ω j )]et pour la matrice <strong>de</strong> co-variance :̂Γ i,j = ∑N−1 n=1(y n∶n+1 −̂m i,j )(y n∶n+1 −̂m i,j ) T 1[x n∶n+1 =(ω i ,ω j )]. (III.55)∑ N−1n=1 1[x n∶n+1 =(ω i ,ω j )]Comme dans les cas précé<strong>de</strong>nts, le calcul <strong>de</strong>s espérances conditionnelles <strong>de</strong> ces estimateursn’est pas possible et on utilise les simulations <strong>de</strong>s réalisations <strong>de</strong> la chaînecachée selon sa loi conditionnelle aux observations.III.3.4 Exemple numériqueComme application, nous utilisons l’algorithme ICE pour estimer les paramètresd’une chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruit indép<strong>en</strong>dant <strong>de</strong> taille N= 128×128. Nousappliquons l’algorithme dans une série d’expéri<strong>en</strong>ces suivante. On fait varier d’uneexpéri<strong>en</strong>ce à l’autre les paramètres <strong>de</strong> la chaîne ainsi que les paramètres du bruit.Les résultats <strong>de</strong> l’estimation sont représ<strong>en</strong>tés dans la table (III.1). Pour initialiserles paramètres du modèle nous utilisons l’algorithme <strong>de</strong>s K-moy<strong>en</strong>nes pour obt<strong>en</strong>irx 0 , et sachant ce x 0 et y 1∶N nous estimons θ 0 qui prise comme la valeur initiale pourθ. Pour chaque essai nous itérons 100 fois. Nous pouvons noter que l’estimation <strong>de</strong>sparamètres du bruit reste <strong>de</strong> bonne qualité, même dans l’exemple 3 où le niveaudu bruit est important. L’estimation <strong>de</strong> la loi p(x n+1 ,x n ) semble moins robuste aubruit.Vrais paramètresParamètres estimésp 1 p 2 µ 1 σ1 2 µ 2 σ2 2 ̂p 1 ̂p 2 ̂µ 1 ̂σ1 2 ̂µ 2 ̂σ221 0.95 0.05 0.0 0.5 2.0 0.5 0.94 0.04 0.01 0.5 2.0 0.52 0.95 0.05 0.0 1.0 2.0 1.0 0.91 0.08 0.01 1.0 1.99 1.013 0.98 0.02 1.0 1.0 2.0 1.0 0.91 0.08 1.01 0.97 2.03 0.98Table III.1 – Estimation <strong>de</strong>s paramètres par l’algorithme ICE dans le cas <strong>de</strong> modèleCMC-BI [p 1 =p(x n+1 =ω 1 ∣x n =ω 1 ) p 2 =p(x n+1 =ω 2 ∣x n =ω 1 )]La table (III.2) représ<strong>en</strong>te les taux d’erreur <strong>en</strong> pourc<strong>en</strong>tage <strong>de</strong> la <strong>restauration</strong> <strong>de</strong>la chaîne X à partir <strong>de</strong> Y . La première colonne conti<strong>en</strong>t les taux d’erreur obt<strong>en</strong>usavec <strong>restauration</strong> <strong>en</strong> mo<strong>de</strong> supervisé i.e sachant les vrais paramètres du modèle. Dans53


CHAPITRE III. ESTIMATION DES PARAMÈTRESla <strong>de</strong>uxième colonne nous prés<strong>en</strong>tons les taux obt<strong>en</strong>us <strong>en</strong> utilisant la <strong>restauration</strong>MPM <strong>en</strong> mo<strong>de</strong> non supervisé, i.e <strong>en</strong> estimant les paramètres avec ICE.Expéri<strong>en</strong>ces Mo<strong>de</strong> Supervisé Mo<strong>de</strong> Non Supervisé1 1.3 1.282 3.0 3.023 5.62 5.64Table III.2 – Taux d’erreur(%)Finalem<strong>en</strong>t, pour comparer les algorithmes d’estimation ICE et EM sur <strong>de</strong>s donnéesqui ne suiv<strong>en</strong>t pas le modèle exactem<strong>en</strong>t, nous considérons une image artificielleà <strong>de</strong>ux classes{ω 1 ,ω 2 } bruitée avec un bruit gaussi<strong>en</strong> indép<strong>en</strong>dant. Les résultats sontreprés<strong>en</strong>tés sur la figure (III.1).(a)(b)(c)(d)Figure III.1 – Exemple <strong>de</strong> segm<strong>en</strong>tation non-supervisé avec estimation <strong>de</strong>s paramètrespar ICE et EM : (a) Image originale (b) Image bruitée (c) MPM+ICE3.04%(d)MPM+EM 3.04%Les valeurs <strong>de</strong>s paramètres réelles (le paramètre "vrai" p est celui estimé à partir<strong>de</strong> l’image <strong>de</strong>s classes X) sont données dans la table (III.3) ainsi que les paramètresestimés par les algorithmes ICE et EM.54


CHAPITRE III. ESTIMATION DES PARAMÈTRESω 1 ω 2 taux d’erreur (%)p m σ 2 p m σ 2Vrais paramètres 0.49 0.00 1.00 0.51 1.00 1.00 -ICE 0.49 0.01 1.01 0.51 0.99 1.01 3.04EM 0.48 0.01 1.01 0.51 0.99 1.01 3.04Table III.3 – Estimation <strong>de</strong>s paramètres par ICE et EMNotons que les estimées <strong>de</strong> p donn<strong>en</strong>t pour les estimées <strong>de</strong>s matrices <strong>de</strong>s transitionsP=p(xn+1 ∣x n )P rel =(0.98 0.020.02 0.98 ) ,̂P ICE =(0.99 0.010.00 1.00 ) et̂P EM =(0.99 0.010.01 0.99 )Nous notons que les <strong>de</strong>ux métho<strong>de</strong>s d’estimation ICE et EM prés<strong>en</strong>t<strong>en</strong>t, dans lecadre <strong>de</strong> l’expéri<strong>en</strong>ce, <strong>de</strong>s qualités comparables.III.4 ConclusionL’estimation <strong>de</strong>s paramètres d’un modèle statistique est une phase fondam<strong>en</strong>talepour segm<strong>en</strong>ter <strong>de</strong>s données à variables lat<strong>en</strong>tes. Dans ce chapitre nous avons prés<strong>en</strong>tédiffér<strong>en</strong>ts algorithmes <strong>de</strong> l’estimation itérative : l’algorithme EM, certaines <strong>de</strong>ces variantes stochastiques, ainsi que l’algorithme ICE. Nous avons détaillé les calculspour les modèles CMC et CMCouple, et nous avons prés<strong>en</strong>té quelques résultatsnumériques originaux d’application <strong>de</strong> EM et <strong>de</strong> ICE sur ces modèles. L’équival<strong>en</strong>ce<strong>en</strong>tre les performances <strong>de</strong> EM et ICE, déjà connue dans les CMC classiques avec dubruit gaussi<strong>en</strong>, est montrée une nouvelle fois dans les exemples numériques traités.Dans la suite, nous choisissons d’utiliser l’algorithme ICE.55


Chapitre IVModèle <strong>de</strong> <strong>Markov</strong> TripletDans ce chapitre nous prés<strong>en</strong>tons un modèle réc<strong>en</strong>t, qui est une ext<strong>en</strong>sion <strong>de</strong>smodèles <strong>Markov</strong> cachés (MMC) et <strong>de</strong>s modèles <strong>de</strong> <strong>Markov</strong> couples (MMCouple).Proposé par Pieczynski et all. dans [92,101,103] ce modèle est appelé « modèle <strong>de</strong><strong>Markov</strong> Triplet » (MMT). Le principe <strong>de</strong> ce modèle consiste à introduire un troisièmeprocessus U, qui n’a pas nécessairem<strong>en</strong>t une interprétation physique. On note parV le processus couple(X,U), et par T le processus triplet(X,U,Y)=(V,Y). Onsuppose alors que le processusT est un processus <strong>de</strong> <strong>Markov</strong>. Dans un premier temps,on va s’intéresser dans ce chapitre aux chaînes <strong>de</strong> <strong>Markov</strong> triplet et on distinguera<strong>de</strong>ux cas, selon les valeurs <strong>de</strong>(X,U) qui peuv<strong>en</strong>t être discrètes ou mixtes [80]. Dansun <strong>de</strong>uxième temps on va introduire les champs <strong>de</strong> <strong>Markov</strong> <strong>triplets</strong>.On rappelle que T=(X,U,Y) est une chaîne <strong>de</strong> <strong>Markov</strong> triplet si et seulem<strong>en</strong>tsi T admet pour graphe d’indép<strong>en</strong>dance conditionnel le grapheG (I.4) (c’est-à-direpour tout 1


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETrésultats prés<strong>en</strong>tés dans le chapitre (II) du fait que le couple T =(V,Y) est uneCMCouple. Les marginales a posteriori p(x n ∣y 1∶N ) sont obt<strong>en</strong>ues par :p(x n ∣y 1∶N )= ∑ p(x n ,u n ∣y 1∶N ),u n∈Λ(IV.2)avec les marginales a posteriori p(x n ,u n ∣y 1∶N ) calculées <strong>en</strong> utilisant les probabilitésprogressives α n et les probabilités rétrogra<strong>de</strong>s β n obt<strong>en</strong>ues <strong>en</strong> appliquant les récursionssuivantes, valables dans les CMCouples, à v n =(x n ,u n ) :α 1 (v 1 )=p(t 1 ) et α n+1 (v n+1 )= ∑ α n (v n )p(t n+1 ∣t n )∀2≤n≤Nv n∈X×Λ(IV.3)β N (v N )=1 et β n (v n )= ∑ β n+1 (v n+1 )p(t n+1 ∣t n )∀1≤n≤N−1v n+1 ∈X×Λ(IV.4)Le modèle CMT regroupe plusieurs modèles particuliers qui généralis<strong>en</strong>t les modèlesprés<strong>en</strong>tés dans le chapitre (I) et le chapitre (II). En effet, rappelons la généralisationréc<strong>en</strong>te suivante [66] <strong>de</strong> la proposition (II.3). Soit W=(H,F) une chaînecouple, avec W n =(H n ,F n ) à valeurs dans l’espace produitH×F. Soit η une mesureσ-additive surH, et soit µ une mesure σ-additive surF. Supposons que W est unechaîne <strong>de</strong> <strong>Markov</strong> et on note par la même lettre p les <strong>de</strong>nsités <strong>de</strong>s variables par rapportaux mesures η et µ. En pratique, les mesures utilisées sont celle <strong>de</strong> comptageou celle <strong>de</strong> Lebesgue. Cep<strong>en</strong>dant, <strong>de</strong>s mesures mixtes faisant interv<strong>en</strong>ir <strong>de</strong>s masses<strong>de</strong> Dirac et la mesure <strong>de</strong> Lebesgue peuv<strong>en</strong>t être <strong>en</strong>visagées comme dans [109]. Nousavons le résultat suivant :Proposition IV.1 Soit W=(H,F)=(H n ,F n ) 1∶N une chaîne <strong>de</strong> <strong>Markov</strong> vérifiant :i) p(w n ,w n+1 ) ne dép<strong>en</strong>d pas <strong>de</strong> 1≤n≤N−1;ii) p(w n =a,w n+1 =b)=p(w n =b,w n+1 =a)∀1≤n≤N−1 et∀(a,b)∈(H×F) 2 .Alors les trois conditions suivantes :a) H est une chaîne <strong>de</strong> <strong>Markov</strong> (c’est-à-dire W=(H,F) est une chaîne <strong>de</strong> <strong>Markov</strong>cachée);b)∀2≤n≤N, p(f n ∣h n ,h n−1 )=p(f n ∣h n );c)∀1≤n≤N, p(f n ∣h)=p(f n ∣h n ),sont équival<strong>en</strong>tes.Preuve : La démonstration, donnée dans [66], suit le même schéma général que ladémonstration <strong>de</strong> la proposition II.3.IV.1.1 Chaîne <strong>de</strong> <strong>Markov</strong> Cachée M-stationnaireParmi les applications du modèle <strong>de</strong> la chaîne <strong>de</strong> <strong>Markov</strong> Triplet est la modélisation<strong>de</strong> le M-stationnarité du processus caché X. Une étu<strong>de</strong> et <strong>de</strong>s applications <strong>de</strong>ce modèle ont été prés<strong>en</strong>tées récemm<strong>en</strong>t dans la thèse <strong>de</strong> P. Lanchantin [64,66]. La<strong>de</strong>uxième application est la modélisation <strong>de</strong> la M-stationnarité du couple(X,Y), cequi permet <strong>de</strong> généraliser le modèle <strong>de</strong> la CMC-MS.58


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETDéfinition IV.1 Soit X=(X n ) n=1∶N une chaîne <strong>de</strong> <strong>Markov</strong>, les X n pr<strong>en</strong>ant leurvaleurs dans un espace finiX={ω 1 ,...,ω K }. X est dite une chaîne <strong>de</strong> <strong>Markov</strong> stationnaire(CM-S) si p(x n =ω i ,x n+1 =ω j ) ne dép<strong>en</strong>d pas <strong>de</strong> n. Dans le cas contraireX est dite une chaîne <strong>de</strong> <strong>Markov</strong> non-stationnaire (CM-NS). On dira que X est unechaîne <strong>de</strong> <strong>Markov</strong> M-stationnaire (CM-MS) s’il existe un processus U=(U n ) n=1∶Ntel que les U n pr<strong>en</strong>n<strong>en</strong>t leur valeurs dans un espace fini, Λ=(λ 1 ,...,λ M ), et tel quele couple(X,U) est une chaîne <strong>de</strong> <strong>Markov</strong> stationnaire.Définition IV.2 Soit Z=(X,Y) un processus couple, dont X est caché et Y observé.Z est dit chaîne <strong>de</strong> <strong>Markov</strong> cachée M-stationnaire à bruit indép<strong>en</strong>dant (CMC-MS-BI) si :◻ X est une CM-MS.◻ Y et U sont indép<strong>en</strong>dant conditionnellem<strong>en</strong>t à X :YU∣X(IV.5)◻ Les Y n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à X, et pour toute n, 1≤n≤N,Y n ne dép<strong>en</strong>d que <strong>de</strong> X n .p(y∣x)=N∏n=1p(y n ∣x)=N∏n=1p(y n ∣x n )(IV.6)Dans les modèles classiques nous supposons que le processus caché est stationnairetandis que dans la pratique ce <strong>de</strong>rnier peut ne pas l’être. Ainsi <strong>en</strong> situations réellesl’hypothèse <strong>de</strong> la stationnarité peut conduire à une mauvaise estimation <strong>de</strong>s paramètreset par suite à une mauvaise <strong>restauration</strong> du processus caché. Ainsi la m-stationnarité permet <strong>de</strong> modéliser la non stationnarité du processus caché par unechaîne triplet stationnaire.ExempleSoit T=(X,U,Y) une CMT dont la loi est donnée par p(x 1 ,u 1 ,y 1 ) et les transitionsdéfinies par :p(t n+1 ∣t n )=p(v n+1 ∣v n )p(y n+1 ∣x n+1 )(IV.7)La loi initiale <strong>de</strong> la chaîne(X,U) est p(u 1 )p(x 1 ∣u 1 ) et les transitions sont <strong>de</strong> laforme :p(v n+1 ∣v n )=p(x n+1 ,u n+1 ∣x n ,u n )=p(u n+1 ∣u n )p(x n+1 ∣u n+1 ,x n )(IV.8)59


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETy 1 y 2 y 3x 1 x 2 x 3u 1 u 2 u 3Figure IV.1 – Graphe d’indép<strong>en</strong>dance conditionnelle d’une chaîne <strong>de</strong> <strong>Markov</strong> cachéeM-stationnaire à bruit indép<strong>en</strong>dant (CMC-MS-BI)Les paramètres d’une CMC-MS-BI à bruit indép<strong>en</strong>dant sont classiquem<strong>en</strong>t regroupés<strong>en</strong> <strong>de</strong>ux <strong>en</strong>sembles : le premier est celui <strong>de</strong> la loi du p(y n ∣x n ) et le <strong>de</strong>uxièmecelui <strong>de</strong> la chaîne V=(X,U). Nous avons détaillé dans le chapitre (III) comm<strong>en</strong>t estimerle premier <strong>en</strong>semble <strong>de</strong> paramètres. Pour le <strong>de</strong>uxième <strong>en</strong>semble nous détaillonsle cas oùV est une chaîne stationnaire réversible (p(v n =a,v n+1 =b)=p(v n =b,v n+1 =a)) et que la loip(v n ,v n+1 ) se développe comme dans l’équation (IV.8) alors les paramètresà estimer sont : p(u n+1 ∣u n ) et p(x n+1 ∣u n+1 ,x n ). Ces paramètres sont obt<strong>en</strong>usà partir <strong>de</strong> la loi p(x n+1 ,u n+1 ,x n ,u n ) que nous pouvons les estimer avec l’algorithmeICE (III.2) <strong>en</strong> se donnant un estimateur ̂p à partir <strong>de</strong>s données complètes. Un<strong>en</strong>ouvelle fois, nous choisissons comme estimateur l’estimateur empirique donné par :N−11̂p(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l ) = ∑2(N−1) n=1[ 1(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l )+ 1(x n+1 =ω j ,u n+1 =λ l ,x n =ω i ,u n =λ k )]A chaque itération q+ 1 <strong>de</strong> l’algorithme ICE et sachant la valeur anci<strong>en</strong>ne <strong>de</strong>sparamètres θ q et les observations y 1∶N , l’espérance mathématique <strong>de</strong> cet estimateurest calculable et est donnée par :̂p(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l ,θ q+1 N−11) = ∑2(N−1) n=1[ p(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l ∣θ q ,y 1∶N )cela donne <strong>en</strong> particulier :+ p(x n+1 =ω j ,u n+1 =λ l ,x n =ω i ,u n =λ k ∣θ q ,y 1∶N )]p(u n+1 =λ k ∣u n =λ l ,θ q+1 )= ∑ i,ĵp(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l ,θ q+1 )∑ i,j,k̂p(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l ,θ q+1 ) (IV.9)p(x n+1 =ω i ∣u n+1 =λ k ,x n =ω j ,θ q+1 )= ∑ l̂p(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l ,θ q+1 )∑ i,l̂p(x n+1 =ω i ,u n+1 =λ k ,x n =ω j ,u n =λ l ,θ q+1 )(IV.10)60


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETNous procédons dans la suite à une série d’expéri<strong>en</strong>ces pour étudier le modèle<strong>de</strong> la chaîne <strong>de</strong> <strong>Markov</strong> cachée M-stationnaire et le comparer avec le modèle <strong>de</strong> lachaîne <strong>de</strong> <strong>Markov</strong> cachée.Nous comm<strong>en</strong>çons par simuler une chaîne M-stationnaire à bruit gaussi<strong>en</strong> indép<strong>en</strong>dantà <strong>de</strong>ux classes, <strong>de</strong>ux stationnarités, et <strong>de</strong> taille N= 256×256 (K= 2,M= 2). La loi du couple(X,U) est donnée par (IV.8). Nous comm<strong>en</strong>çons par simulerle processus U <strong>de</strong> loi initiale p(u 1 )= 1 2 et <strong>de</strong> matrice <strong>de</strong> transitionM=(p i,j)avec p i,j =p(u n+1 =i∣u n =j) :M=(0.999 0.0010.001 0.999 ) (IV.11)Conditionnellem<strong>en</strong>t à U les matrices <strong>de</strong> transitions <strong>de</strong> X sont données parM 1 etM 2 qui ont respectivem<strong>en</strong>t comme coeffici<strong>en</strong>ts p(x n+ ∣u n+1 = u 1 ,x n ) et p(x n+ ∣u n+1 =u 2 ,x n ) :M 1 =(0.99 0.010.01 0.99 ) etM 2=(0.7 0.30.3 0.7 ) (IV.12)Dans un premier exemple, conditionnellem<strong>en</strong>t à X, les Y n sont <strong>de</strong>s gaussi<strong>en</strong>nes <strong>de</strong>moy<strong>en</strong>nes m 1 = 0 si x n = ω 1 , m 2 = 2 si x n = ω 2 et <strong>de</strong> même variance σ 2 = 1. Pourvisualiser les processus simulés, prés<strong>en</strong>tés à la figure (IV.2), sous forme d’imagesnous utilisons la transformation d’Hilbert-Peano (I.5).(a) (b) (c)Figure IV.2 – Premier exemple <strong>de</strong> simulation d’une chaîne M-stationnaire à bruitindép<strong>en</strong>dant. (a) : réalisation x 1∶N ; (b) : réalisation u 1∶N (c) : réalisation y 1∶N .Dans le second exemple, on fait augm<strong>en</strong>ter le bruit, au lieu <strong>de</strong> m 2 = 2 pour lesecond classe nous choisissons m 2 =1 et nous gardons les valeurs <strong>de</strong>s autres variablessans modifications. Les réalisations <strong>de</strong>s processus simulés sont représ<strong>en</strong>tées sur lafigure (IV.3).61


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET(a) (b) (c)Figure IV.3 – Second exemple <strong>de</strong> simulation d’une chaîne M-stationnaire à bruitindép<strong>en</strong>dant. (a) : réalisation x 1∶N ; (b) : réalisation u 1∶N (c) : réalisation y 1∶N .Pour le premier exemple, l’estimation supervisée du processus X à partir duprocessus observé y 1∶N nous donne un taux d’erreur <strong>de</strong> 5.84% avec le modèle <strong>de</strong>CMC-MS-BI et un taux <strong>de</strong> 7.54% avec le modèle CMC-BI classique (pour utiliser ce<strong>de</strong>rnier, les paramètres <strong>de</strong> la chaîne X sont estimés à partir <strong>de</strong> la réalisation x 1∶N ).(e) (f) (g)Figure IV.4 – Segm<strong>en</strong>tation supervisée à partir <strong>de</strong> y 1∶N (IV.2). (e) :̂x CMC−MS−BIrestauré avec CMC-MS-BI (5.84%); (f) : û restauré avec CMC-MS-BI (0.58%); (g) :̂x CMC−BI restauré avec CMC-BI (7.54%).Dans le second exemple où le bruit est plus important, nous remarquons bi<strong>en</strong> ladiffér<strong>en</strong>ce <strong>en</strong>tre les résultats obt<strong>en</strong>us par la CMC-MS-BI et la CMC-BI classique,Nous obt<strong>en</strong>ons un taux d’erreur <strong>de</strong> 16.13% avec la première métho<strong>de</strong> et un tauxplus élevé avec la <strong>de</strong>uxième métho<strong>de</strong> qui est <strong>de</strong> 20.30%.62


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET(e) (f) (g)Figure IV.5 – Segm<strong>en</strong>tation supervisée à partir <strong>de</strong> y 1∶N (IV.3). (e) :̂x CMC−MS−BIrestauré avec CMC-MS-BI (16.13%); (f) : û restauré avec CMC-MS-BI (2.86%);(g) :̂x CMC−BI restauré avec CMC-BI (20.30%).Cette expéri<strong>en</strong>ce, ainsi que d’autres expéri<strong>en</strong>ces du même type que nous avonseffectuées,montre que lorsque les données suiv<strong>en</strong>t le modèle CMC-MS-BI, les résultatsobt<strong>en</strong>us avec le modèle CMC-BI sont bi<strong>en</strong> inférieurs à ceux obt<strong>en</strong>us avec le vraimodèle. Cela montre que les <strong>de</strong>ux modèles sont assez différ<strong>en</strong>ts, ou <strong>en</strong>core que lagénéralisation <strong>de</strong> CMC-BI à CMC-MS-BI est significative. Dans la <strong>de</strong>uxième expéri<strong>en</strong>c<strong>en</strong>ous testons si cette plus gran<strong>de</strong> généralité est utile lorsque les données nesuiv<strong>en</strong>t aucun <strong>de</strong> <strong>de</strong>ux modèles.La <strong>de</strong>uxième expéri<strong>en</strong>ce est la segm<strong>en</strong>tation non supervisée d’un processus réel à<strong>de</strong>ux classes représ<strong>en</strong>té par (a) sur la figure (IV.6), sur laquelle nous introduisons <strong>de</strong>sbruits gaussi<strong>en</strong>s indép<strong>en</strong>dants. Les bruits ont la même variance égal à 1 et ont <strong>de</strong>smoy<strong>en</strong>nes différ<strong>en</strong>tes : nulle pour la première classe et égal à 2 pour la secon<strong>de</strong>. Laversion bruitée est prés<strong>en</strong>tée par (b) sur la figure (IV.6). Lors <strong>de</strong> la segm<strong>en</strong>tation avecle modèle CMC-MS-BI nous supposons que le processus réel à trois stationnarités(M=3).(a)(b).Figure IV.6 – (a) : processus réel; (b) : version bruitée63


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETLes paramètres estimés sont les suivantes sont prés<strong>en</strong>tés dans la table (IV.1).modèle Moy<strong>en</strong>ne Variance Taux d’erreurω 1 ω 2 ω 1 ω 2CMC-BI 0.48 1.99 1.68 1.00 6.48%CMC-MS 0.06 1.99 1.07 0.99 3.13%Vrais Paramètres 0.00 2.00 1.00 1.00 -Table IV.1 – Estimation <strong>de</strong>s paramètres du bruit et taux d’erreur <strong>de</strong> la segm<strong>en</strong>tationnon superviséeL’estimation <strong>de</strong> la matrice <strong>de</strong>s transitionsP= p(x n+1 ∣x n ) du modèle CMC-BIdonne :P=(0.992 0.0080.030 0.970 )L’estimation <strong>de</strong> la matrice <strong>de</strong>s transitionsM=p(u n+1 ∣u n ) <strong>en</strong> supposant 3 stationnaritéspour le CMC-MS donne :M=⎛⎜⎝0.999244 0.000065 0.0006910.000145 0.994690 0.0051650.002772 0.009194 0.988035⎞⎟⎠et l’estimation <strong>de</strong>s transitionsM i =p(x n+1 ∣u n+1 =λ i ,x n ) donne :64M 1 =(0.998 0.0010.000 1.000 )M 2=(0.866 0.1330.194 0.805 )M 3=(0.641 0.3580.009 0.990 )


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET(c)(d)(e)Figure IV.7 – Segm<strong>en</strong>tation non supervisée du zèbre bruité prés<strong>en</strong>té à la figure(IV.6) (c) : CMC-MS-BI (3.13%), (d) : U estimé; (e) CMC-BI : (6.48%).Nous pouvons remarquer une nette amélioration <strong>de</strong> la qualité <strong>de</strong> la segm<strong>en</strong>tationlorsque l’on utilise le modèle CMC-MS-BI à la place du modèle CMC-BI. En effet,les taux d’erreur sont respectivem<strong>en</strong>t <strong>de</strong> 3.13% et 6.48%. Les petites taches (zonegrise sur la figure IV.7.d ) sont mieux détectées <strong>en</strong> supposant l’exist<strong>en</strong>ce <strong>de</strong> 3 stationnarités: λ 1 correspond au fond <strong>de</strong> l’image qui à une faible variation <strong>de</strong> couleur,λ 2 qui correspond aux frontières <strong>de</strong> zones homogènes qui sont caractérisées par unevariation forte, et λ 3 qui correspond aux zones qui ont une variation moy<strong>en</strong>ne.La <strong>de</strong>rnière expéri<strong>en</strong>ce consiste à segm<strong>en</strong>ter une image réelle SAR (SyntheticAperture Radar 1 ) représ<strong>en</strong>tée par (a) sur la figure (IV.8). Comme ci-<strong>de</strong>ssus, onutilise le modèle CMC-MS-BI et le modèle CMC-BI. Nous supposons l’exist<strong>en</strong>ce <strong>de</strong>quatre classes et <strong>de</strong> trois stationnarités. Les résultats <strong>de</strong>s différ<strong>en</strong>tes segm<strong>en</strong>tations1. http ://www.onera.fr/images-sci<strong>en</strong>ce/observation-imagerie/image-radar-sar.php : Techniqueradar qui exploite le déplacem<strong>en</strong>t <strong>de</strong> l’ant<strong>en</strong>ne pour obt<strong>en</strong>ir une résolution angulaire bi<strong>en</strong> supérieureà celle d’une ant<strong>en</strong>ne immobile. La résolution angulaire d’une ant<strong>en</strong>ne est inversem<strong>en</strong>tproportionnelle à sa taille, nécessairem<strong>en</strong>t réduite à bord d’un avion.65


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETnon supervisées sont prés<strong>en</strong>tés sur la figure (IV.8).Le résultat <strong>de</strong> la segm<strong>en</strong>tationnon supervisée avec CMC-MS-BI est l’image (b), l’image estimée <strong>de</strong>s différ<strong>en</strong>tesstationnarités est donnée <strong>en</strong> (c), et l’image <strong>de</strong>s classes est estimée par CMC-BI estdonnée <strong>en</strong> (d).(a)(b)(c)(d)Figure IV.8 – Segm<strong>en</strong>tation non supervisée d’une image réelle SAR. (a) : imageréelle; (b) :̂x estimée par CMC-MS-BI; (d) : û stationnarités estimées; (d) :̂xestimée par CMC-BI.Nous pouvons remarquer que les frontières <strong>de</strong>s zones sur la figure (b) sont plusfines que celles sur la figure (d); ce qui est probablem<strong>en</strong>t dû au fait que les frontières<strong>de</strong> zones représ<strong>en</strong>t<strong>en</strong>t une discontinuité <strong>en</strong> int<strong>en</strong>sité et une variation forte <strong>de</strong>scouleurs. Cette hypothèse est prise <strong>en</strong> compte par le modèle <strong>de</strong> la CMC-MS-BI <strong>en</strong>supposant l’exist<strong>en</strong>ce <strong>de</strong> trois zones <strong>de</strong> stationnarité différ<strong>en</strong>tes : zone homogène <strong>de</strong>66


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETfaible variation <strong>de</strong> couleur (couleur blanche), zone <strong>de</strong> forte variation <strong>de</strong> couleur (couleurnoir) et une zone <strong>de</strong> variation moy<strong>en</strong>ne (couleur grise). Le modèle CMC-MS-BIpermet donc <strong>de</strong> mieux détecter les détailles fines sur une image qui comporte <strong>de</strong>sobjets <strong>de</strong> tailles différ<strong>en</strong>tes.IV.1.2 Chaîne <strong>de</strong> <strong>Markov</strong> Couple M-stationnaireNous prés<strong>en</strong>tons dans cette sous-section un modèle original qui généralise celuiprés<strong>en</strong>té dans la sous-section précé<strong>de</strong>nte. Il s’agit du modèle <strong>de</strong> la Chaîne <strong>de</strong> <strong>Markov</strong>Couple M-stationnaire. Dans ce modèle ni X ni le couple Z=(X,Y) n’est nécessairem<strong>en</strong>tune CM stationnaire, ce qui permet <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> considération une gamme<strong>de</strong> cas plus large.Définition IV.3 Soit Z=(X,Y) une chaîne couple, où X=(X n ) n=1∶N est tel queles X n sont à valeurs dans un espace fini et Y =(Y n ) n=1∶N est tel que les Y n sontaux valeurs dans un espaceY). Z est dite chaîne <strong>de</strong> <strong>Markov</strong> couple M-stationnaire(CMCouple-MS) s’il existe un processus U =(U n ) n=1∶N , où les U n pr<strong>en</strong>n<strong>en</strong>t leursvaleurs dans un espace fini <strong>de</strong> cardinal M, Λ=(λ 1 ,...,λ M ), tel que le triplet T=(X,U,Y) est une chaîne <strong>de</strong> <strong>Markov</strong> stationnaire.y 1 y 2 y 3x 1 x 2 x 3u 1 u 2 u 3Figure IV.9 – Graphe d’indép<strong>en</strong>dance conditionnelle d’une chaîne <strong>de</strong> <strong>Markov</strong>couple M-stationnaire.Notons que dans une CMCouple-MS la chaîne Z=(X,Y) n’est pas nécessairem<strong>en</strong>tmarkovi<strong>en</strong>ne. Bi<strong>en</strong> <strong>en</strong>t<strong>en</strong>du, le modèle CMCouple-MS est strictem<strong>en</strong>t plus généralque le modèle CMC-MS-BI et le modèle du CMCouple stationnaire. En particulier, ilpermet <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> compte l’évolution év<strong>en</strong>tuelle <strong>de</strong>s paramètres du bruit. Notonsun cas particulier du modèle CMCouple-MS dans lequel le processus <strong>de</strong>s "sauts" estune chaîne <strong>de</strong> <strong>Markov</strong> et dont la loi s’écrit :p(t n+1 ∣t n )=p(u n+1 ∣u n )p(z n+1 ∣z n ,u n+1 )(IV.13)On peut remarquer que dans ce modèle la chaîne Z=(X,Y) n’est toujours pasnécessairem<strong>en</strong>t markovi<strong>en</strong>ne.67


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETIV.1.3 Chaîne Semi-<strong>Markov</strong>i<strong>en</strong>ne CachéeUne autre application pour les CMT est la modélisation <strong>de</strong> la semi-<strong>Markov</strong>ianitédu processus cachéX. D’une part, les CMT permett<strong>en</strong>t <strong>de</strong>s généralisations aisées <strong>de</strong>smodèles par chaînes semi-markovi<strong>en</strong>nes cachées classiques. D’autre part, les CMTsont à l’origine <strong>de</strong> l’introduction d’une nouvelle famille <strong>de</strong> chaînes semi-markovi<strong>en</strong>nescachées par Lapuya<strong>de</strong> et all. [73]. En effet, une loi semi-markovi<strong>en</strong>ne <strong>de</strong> la chaîne Xpeut être vue comme la loi marginale d’une chaîne <strong>de</strong> <strong>Markov</strong> couple(X,U), où leprocessus U gère le temps <strong>de</strong> séjour <strong>de</strong>s X n dans un état donné. Nous comm<strong>en</strong>çonspar donner quelques définitions concernant la semi-markovianité. Plus <strong>de</strong> précisionssur les modèles classiques peuv<strong>en</strong>t être trouvés dans [4].DéfinitionsNous définissons une chaîne semi-markovi<strong>en</strong>ne à espace d’états fini comme lamarginale d’une chaîne <strong>de</strong> <strong>Markov</strong>.Définition IV.4 SoitX un <strong>en</strong>semble fini <strong>de</strong> cardinal K, et soi<strong>en</strong>t :– la probabilité π surX ;– la transition q(.∣.) surX 2 vérifiant∀x∈X q(x∣x)=0;– pour tout x∈X, les <strong>de</strong>nsités <strong>de</strong> probabilité d(x,.) sur N ∗ .Soit X=(X n ) n>1 un processus aléatoire discret dont chaque X n pr<strong>en</strong>d ses valeursdansX={ω 1 ,..,ω K }. X est une chaîne semi-markovi<strong>en</strong>ne homogène <strong>de</strong> loi initialeπ, <strong>de</strong> transition q, et <strong>de</strong> loi <strong>de</strong> durée d s’il existe un processus U=(U n ) n>1 , chaqueU n pr<strong>en</strong>ant ses valeurs dans N ∗ , tel que V =(X,U) soit une chaîne <strong>de</strong> <strong>Markov</strong> <strong>de</strong>loi donnée par :p(x 1 ,u 1 )=π(x 1 )d(x 1 ,u 1 ),(IV.14)et les transitions :p(x n+1 ,u n+1 ∣x n ,u n )=p(x n+1 ∣u n ,x n )p(u n+1 ∣x n+1 ,u n ),(IV.15)avec :etoù δ a (b)=1 si b=a et 0 sinon .p(x n+1 ∣u n ,x n )={ δ x n(x n+1 ) si u n >1,q(x n+1 ∣x n ) si u n =1,p(u n+1 ∣u n ,x n+1 )={ δ u n−1(u n+1 ) si u n >1,d(x n+1 ,u n+1 ) si u n =1,(IV.16)(IV.17)La chaîne V =(X,U) est dite homogène du fait que les transitions ne dép<strong>en</strong><strong>de</strong>ntpas <strong>de</strong> n. En effet, ni q(.|.)ni d(.,.) ne dép<strong>en</strong>d <strong>de</strong> n. U n représ<strong>en</strong>te alors le temps <strong>de</strong>séjour restant pour la chaîne X dans l’état ω i .Proposition IV.2 Soit(X,U) une chaîne vérifiant (IV.15), (IV.16) et (IV.17).Soit D(x,n)=∑ k≥n d(x,k) la probabilité que le temps <strong>de</strong> séjour dans l’etat x soitsupérieur ou égal à n.La loi <strong>de</strong> la chaîne à temps fini X=(X n ) 1∶N est la loi marginale <strong>de</strong> la chaîne(X 1∶N ,W 1∶N ) à valeurs dansX×{1,..,N} dont la loi est donnée par :68


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET– Loi initiale :avec :– Transition :p(x 1 ,w 1 )=π(x 1 )p(w 1 ∣x 1 ),p(w 1 ∣x 1 )={ d(x 1,w 1 ) si 1≤w 1 ≤N−1,D(x 1 ,N) si w 1 =N,(IV.18)(IV.19)avec :et :p(x n+1 ,w n+1 ∣x n ,w N )=p(x n+1 ∣w n ,x n )p(w n+1 ∣x n+1 ,w n ),p(w n+1 ∣x n+1 ,w n )=p(x n+1 ∣w n ,x n )={ δ x n(x n+1 ) si w n >1,q(x n+1 ∣x n ) si w n =1,⎧⎪⎨⎪⎩δ wn−1(w n+1 ) si w n >1,d(x n+1 ,w n+1 ) si w n =1 et 1≤w n+1 ≤N−1,D(x n+1 ,N) si w n =1 et w n+1 =N,(IV.20)(IV.21)(IV.22)où δ a (b)=1 si b=a et 0 sinon .Preuve : voir [70]Nous pouvons conclure <strong>de</strong> cette proposition que la loi <strong>de</strong> toute chaîne semi-markovi<strong>en</strong>neà temps fini X=(X n ) 1∶N peut être considérée comme la loi marginale d’une chaîne<strong>de</strong> <strong>Markov</strong> à espace d’états fini(X,W)=(X n ,U n ) 1∶N dont les(X n ,U n ) sont à valeursdansX×{1,..N}. Avec cette considération, nous pouvons appliquer les algorithmesd’estimation tel que l’algorithme <strong>de</strong> Baum-Welsh pour une chaîne <strong>de</strong> <strong>Markov</strong> coupleà temps fini(X n ,W n ) 1∶N . Les chaînes semi-markovi<strong>en</strong>nes représ<strong>en</strong>t<strong>en</strong>t une généralisation<strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> [77,78]. Le temps du séjour d’une chaîne <strong>de</strong> markovdans un état est modélisé par une loi géométrique. La proposition suivante donneles conditions nécessaires et suffisantes pour qu’une CSM soit une CM [4,28,78].Proposition IV.3 Soit X=(X n ) n≥1 une chaîne semi-markovi<strong>en</strong>ne à valeurs dansun espace d’état finiX vérifiant (IV.20), (IV.21) et (IV.22). Alors X est une chaîne<strong>de</strong> <strong>Markov</strong> <strong>de</strong> matrice <strong>de</strong> transitions Q(x ′ ,x)=p(x n+1 = x ′ ∣x n = x) si et seulem<strong>en</strong>tsi :d(x,u)=Q(x,x) u−1 ×(1−Q(x,x))∀x∈X et∀u≥1. (IV.23)Si cette condition est vraie, les transitions q(x ′ ∣x) vérifi<strong>en</strong>t :q(x ′ ∣x)= Q(x′ ,x)1−Q(x,x) ∀x,x′ tel que x ′ ≠x(IV.24)La loi d’une chaîne semi-markovi<strong>en</strong>ne cachée(X n ,Y n ) 1∶N tel que(X n ) 1∶N peut ainsiêtre considérée comme la loi marginale d’une chaîne <strong>de</strong> <strong>Markov</strong> triplet tel que lecouple(X n ,U n ) 1∶N est une chaîne <strong>de</strong> <strong>Markov</strong> à espace d’états fini et les(X n ,U n ) sontà valeurs dansX×{1,..,N}. Un tel triplet(X,U,Y) sera <strong>en</strong>core appelé chaîne semimarkovi<strong>en</strong>necachée (CSMC). Un cas particulier <strong>de</strong> ce modèle est la chaîne semimarkovi<strong>en</strong>necachée à bruit indép<strong>en</strong>dant, qui admet pour graphe d’indép<strong>en</strong>danceconditionnelle le graphe représ<strong>en</strong>te sur la figure (IV.10).69


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETy 1 y 2 y 3x 1 x 2 x 3u 1 u 2 u 3Figure IV.10 – Graphe d’indép<strong>en</strong>dance conditionnelle non-ori<strong>en</strong>té d’une chaînesemi-markovi<strong>en</strong>ne cachée à bruit indép<strong>en</strong>dant CSMC-BIPour une chaîne X <strong>de</strong> taille N et à K classes, l’espace d’états du couple(X n ,U n )à un cardinal <strong>de</strong> N×K, ce qui peut poser le problème <strong>de</strong> complexité algorithmiqueélevée pour l’algorithme <strong>de</strong> Baum-Welsh utilisé - grâce au fait que(X,U,Y) est unechaîne <strong>de</strong> <strong>Markov</strong> triplet - dans l’estimation <strong>de</strong>s paramètres et la segm<strong>en</strong>tation. Poursurmonter ce problème <strong>de</strong> complexité algorithmique un nouveau modèle particulier<strong>de</strong> CSMC a été récemm<strong>en</strong>t prés<strong>en</strong>té par J. Lapuya<strong>de</strong> et W. Pieczynski [73]. Dans c<strong>en</strong>ouveau modèle, les U n sont à valeurs dans un espace d’états fini, dont le cardinalest indép<strong>en</strong>dant <strong>de</strong> N. Ce modèle fait ainsi partie <strong>de</strong>s modèles <strong>triplets</strong> discutésprécé<strong>de</strong>mm<strong>en</strong>t.Chaîne semi-markovi<strong>en</strong>ne particulièreCe nouveau modèle diffère du modèle <strong>de</strong> la chaîne semi-markovi<strong>en</strong>ne classiquepar le fait que les transitions q(x∣x) peuv<strong>en</strong>t être non nulles; c’est-à-dire que leprocessus X peut rester dans la même état x malgré que le "temps <strong>de</strong> séjour" danscet état est écoulé. Une autre différ<strong>en</strong>ce par rapport au modèle <strong>de</strong> la CSM classiqueest que les U n sont à valeurs dans un espace fini indép<strong>en</strong>dant <strong>de</strong> N.Soit(X n ,U n ) 1∶N une chaîne tel que les X n et les U n sont à valeurs respectivem<strong>en</strong>tdansX={ω 1 ,..,ω K } et Λ={1,..,L}. Soit :– π une distribution <strong>de</strong> probabilité surX;– pour tout x∈X, soit d(x,.) une distribution <strong>de</strong> probabilité sur Λ ;– r(.∣.) transitions surX 2 .Supposons que la loi <strong>de</strong> la chaîne(X n ,U n ) 1∶N est définie <strong>de</strong> la façon suivante. La loiinitiale <strong>de</strong> la chaîne est donnée par :et les transitions sont définies par :où :70p(x 1 ,u 1 )=π(x 1 )d(x 1 ,u 1 ),p(x n+1 ,u n+1 ∣x n ,u n )=p(x n+1 ∣x n ,u n )p(u n+1 ∣x n+1 ,u n ),p(x n+1 ∣x n ,u n )={ δ x n(x n+1 ) si u n >1,r(x n+1 ∣x n ) si u n =1,(IV.25)(IV.26)(IV.27)


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETet :p(u n+1 ∣x n+1 ,u n )={ δ u n−1(u n+1 ) si u n >1,d(x n+1 ,u n+1 ) si u n =1.(IV.28)Il est alors possible <strong>de</strong> montrer [70,73] que ce modèle est une chaîne semi-markovi<strong>en</strong>neclassique dont les transitions et la loi du temps <strong>de</strong> séjour sont données par :q(x ′ ∣x)= r(x′ ∣x)1−r(x∣x) ∀x≠x′ ;(IV.29)d(x,u)=(1−r(x∣x)) ∑(r(x∣x)) k−1uk=1∑v 1 +..+v k =ud(x,v 1 )..d(x,v k )∀u≥1.(IV.30)Nous avons ainsi une chaîne semi-markovi<strong>en</strong>ne dont la loi <strong>de</strong> séjour n’est pasdonnée explicitem<strong>en</strong>t. Par ailleurs, les conditions nécessaires et suffisantes pour queX soit une chaîne <strong>de</strong> <strong>Markov</strong> <strong>de</strong> matrice <strong>de</strong>s transitions Q(ω i ,ω j )=p(x n+1 =ω i ∣x n =ω j ) sont les suivantes :{ d(ω i,1)=1∀i=1,..,K etr(ω i ∣ω j )=Q(ω i ,ω j ).(IV.31)Dans la suite, nous prés<strong>en</strong>tons <strong>de</strong>ux expéri<strong>en</strong>ces pour tester les différ<strong>en</strong>ces <strong>en</strong>treles chaînes semi-markovi<strong>en</strong>ne cachées et les chaînes <strong>de</strong> <strong>Markov</strong> cachées classiques.La première et la <strong>de</strong>uxième expéri<strong>en</strong>ce consist<strong>en</strong>t à segm<strong>en</strong>ter <strong>de</strong>s données issuesrespectivem<strong>en</strong>t d’un modèle <strong>de</strong> chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruit indép<strong>en</strong>dant etd’un modèle <strong>de</strong> chaîne semi-markovi<strong>en</strong>ne à bruit indép<strong>en</strong>dant. Le but <strong>de</strong> la premièreexpéri<strong>en</strong>ce est <strong>de</strong> vérifier que l’utilisation, <strong>en</strong> non supervisé, <strong>de</strong>s chaînes semimarkovi<strong>en</strong>nesne dégra<strong>de</strong> pas les résultats obt<strong>en</strong>us avec les chaînes markovi<strong>en</strong>nes. Lebut <strong>de</strong> la <strong>de</strong>uxième expéri<strong>en</strong>ce est <strong>de</strong> regar<strong>de</strong>r si les chaînes markovi<strong>en</strong>nes classiquespeuv<strong>en</strong>t "approcher" les chaînes semi-markovi<strong>en</strong>nes.Nous considérons <strong>de</strong>s données <strong>de</strong> taille N=256×256, qui sont représ<strong>en</strong>tées sousforme bi-dim<strong>en</strong>sionnelle <strong>en</strong> utilisant parcours d’Hilbert-Peano (I.5). Pour l’estimation<strong>de</strong>s paramètres <strong>de</strong> chaque modèle nous choisissons d’utiliser l’algorithme ICE etnous itérons 100 fois pour chaque modèle. Concernant l’initialisation <strong>de</strong> l’ICE nousutilisons, comme précé<strong>de</strong>mm<strong>en</strong>t, l’algorithme <strong>de</strong>s K-moy<strong>en</strong>nes ( voir Annexe (A)).Ce <strong>de</strong>rnier nous donne une "réalisation" x 0 du processus X que l’on utilise pourestimer la valeur initiale <strong>de</strong>s paramètres.Les données <strong>de</strong> la première expéri<strong>en</strong>ce sont obt<strong>en</strong>ues par la simulation d’uneréalisation x=(x n ) 1∶N d’une chaîne X=(X n ) 1∶N markovi<strong>en</strong>ne dont les X n sont àvaleurs dansX={ω 1 ,ω 2 }. La matrice <strong>de</strong>s transitionsP=p(x n+1 ∣x n ) <strong>de</strong> la chaîne Xest :0.99 0.01P=( ), (IV.32)0.01 0.99la loi <strong>de</strong> p(y n ∣x n ) est une gaussi<strong>en</strong>neN 1 (0,3) si x N =ω 1 etN 2 (1,3) si x n =ω 2 et noussupposons que les Y n sont indép<strong>en</strong>dantes conditionnellem<strong>en</strong>t aux X n . La réalisation(x n ) 1∶N <strong>de</strong> X est représ<strong>en</strong>tée par (a) <strong>de</strong> la figure (IV.11) et la réalisation(y n ) 1∶N <strong>de</strong>Y par (b) <strong>de</strong> la même figure.71


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET(a) (b) (c)(d)(e)Figure IV.11 – Réalisation et segm<strong>en</strong>tation <strong>de</strong>s données issues du modèle CMC-BI.(a) : réalisation x 1∶N ; (b) : réalisation y 1∶N ; (c) : segm<strong>en</strong>tation supervisé par CMC-BI, taux d’erreur <strong>de</strong> 7.25%; (d) : segm<strong>en</strong>tation non supervisé par CMC-BI , tauxd’erreur <strong>de</strong> 7.56%; (e) : segm<strong>en</strong>tation non supervisé par CSMC-BI , taux d’erreur<strong>de</strong> 7.84%La segm<strong>en</strong>tation <strong>de</strong>s observationsy 1∶N (b) figure (IV.11) par le vrai modèle donneun taux d’erreur <strong>de</strong> 7.25% avec les vrais paramètres <strong>de</strong> simulation et un taux <strong>de</strong>7.56% <strong>en</strong> non-supervisé. Les <strong>de</strong>ux taux d’erreur sont très proches bi<strong>en</strong> que les bruitsont <strong>de</strong>s moy<strong>en</strong>nes proches et <strong>de</strong>s variances importantes. Ceci montre l’efficacité <strong>de</strong>l’algorithme ICE pour l’estimation <strong>de</strong>s paramètres. Les paramètres estimés sont :– Pour la loi p(x n+1 ∣x n )0.98 0.02 ̂P=(0.01 0.99 ),– Pour la loi p(y n ∣x n )ω 1 ω 2 taux d’erreur (%)m σ 2 m σ 2Vrais paramètres 0.00 3.00 1.00 3.00 7.25Paramètres estimés -0.01 2.99 1.01 2.90 7.5672Figure IV.12 – Paramètres <strong>de</strong> la loi p(y n ∣x n )estimés avec ICE.


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETEn supposant un temps <strong>de</strong> séjour maximal <strong>de</strong> L=10, le taux d’erreur <strong>de</strong> la segm<strong>en</strong>tationpar CSMC est <strong>de</strong> 7.84%. Les paramètres estimés sont :– Loi du couple(X,U) :– la loiR=p(x n+1 ∣x n ,u n =1)̂R=(0.94 0.060.05 0.95 )– la loi d(x n ,u n ) :1 2 3 4 5 6 7 8 9 10d(ω 1 ,u n ) 0.10 0.05 0.13 0.12 0.04 0.04 0.14 0.15 0.16 0.06d(ω 2 ,u n ) 0.05 0.09 0.06 0.13 0.12 0.08 0.15 0.08 0.12 0.11Table IV.2 – Paramètres estimés <strong>de</strong> la loi d(ω n ,u n )– les lois p(y n ∣x n )ω 1 ω 2 taux d’erreur (%)m σ 2 m σ 2Vrais paramètres 0.00 3.00 1.00 3.00 7.25Paramètres estimés 0.00 2.99 1.00 2.94 7.84Table IV.3 – Paramètres <strong>de</strong> la loi p(y n ∣x n )Nous remarquons que le taux d’erreur <strong>de</strong> la CSMC est comparable à celui <strong>de</strong> laCMC, bi<strong>en</strong> que les données soi<strong>en</strong>t issues du modèle CMC. Dans l’expéri<strong>en</strong>ce suivante,nous utilisons <strong>de</strong>s données issues <strong>de</strong> CSMC à bruit indép<strong>en</strong>dant. Nous considéronsune chaîne semi-markovi<strong>en</strong>ne(X n ) 1∶N à <strong>de</strong>ux classes ω 1 et ω 2 dont la matrice <strong>de</strong>transitionsR=p(x n+1 ∣x n ,u n =1) est :R=(0.8 0.20.2 0.8 ),Comme précé<strong>de</strong>mm<strong>en</strong>t, nous pr<strong>en</strong>ons L=10. La loi <strong>de</strong> p(u n ∣x n ) est pour toutx n : d(x n ,u n )= 1 45 pour u N ≠ 10 et d(x n ,10)= 4 5 . La loi p(y n∣x n ) est une gaussi<strong>en</strong>neN1 (0,2) si x n = ω 1 etN 2 (1,2) si x n = ω 2 . Les réalisations x 1∶N et y 1∶N sontreprés<strong>en</strong>tées respectivem<strong>en</strong>t par (a) et (b) <strong>de</strong> la figure (IV.13).73


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET(a) (b) (c)(d)(e)Figure IV.13 – Réalisation et segm<strong>en</strong>tation <strong>de</strong>s données issues d’un modèle CSMC-BI. (a) : réalisation x 1∶N ; (b) : réalisation y 1∶N ; (c) : segm<strong>en</strong>tation supervisée parCSMC-BI, taux d’erreur <strong>de</strong> 12.01%; (d) : segm<strong>en</strong>tation non-supervisée par CSMC-BI, taux d’erreur <strong>de</strong> 12.06%; (e) : segm<strong>en</strong>tation non-supervisée par CMC-BI, tauxd’erreur <strong>de</strong> 14.95%.L’estimation <strong>de</strong>s paramètres avec l’algorithme ICE pour le modèle CMC-BI est :– Loi du couple(X,U) :– la loiP=p(x n+1 ∣x n ) :0.92 0.08 ̂P=(0.09 0.91 ),– les lois p(y n ∣x n ) :ω 1 ω 2 taux d’erreur (%)m σ 2 m σ 2Vrais paramètres 0.00 2.00 1.00 2.00 -Paramètres estimés -0.09 1.91 1.08 1.87 14.95Table IV.4 – Paramètres <strong>de</strong> la loi p(y n ∣x n ) estimés avec ICELe taux d’erreur <strong>de</strong> la segm<strong>en</strong>tation par CSMC-BI est <strong>de</strong> 12.01% <strong>en</strong> supervisé et<strong>de</strong> 12.06% <strong>en</strong> non-supervisé. Les valeurs <strong>de</strong>s paramètres estimées par ICE sont lessuivantes :74


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET– Loi du couple(X,U) :– la loiR=p(x n+1 ∣x n ,u n =1)– la loi d(x n ,u n ) :vrai145̂R=(0.88 0.120.12 0.88 )1 2 3 4 5 6 7 8 9 10145145145d(ω 1 ,u n ) 0.13 0.18 0.08 0.02 0.15 0.11 0.13 0.14 0.06 0.00d(ω 2 ,u n ) 0.18 0.16 0.1 0.11 0.1 0.08 0.07 0.06 0.08 0.06– les lois p(y n ∣x n ) :145145145Table IV.5 – Paramètres <strong>de</strong> la loi d(ω n ,u n )ω 1 ω 2 taux d’erreur (%)m σ 2 m σ 2Vrais paramètres 0.00 2.00 1.00 2.00 12.01Paramètres estimés 0.00 2.02 1.00 1.96 12.06Table IV.6 – Paramètres <strong>de</strong> la loi p(y n ∣x n ) estimés avec ICEOn note que les valeurs estimé par ICE <strong>de</strong> loi d(x n ,u n ) sont assez différ<strong>en</strong>tes <strong>de</strong>svraies valeurs; une <strong>de</strong>s raisons possibles est le fait qu’elles ont été initialisées avecd(x n ,u n )= 1 L . Par contre les paramètres <strong>de</strong>s lois p(y n∣x n ) sont bi<strong>en</strong> estimés.Remarquons que la différ<strong>en</strong>ce <strong>en</strong>tre les taux d’erreur <strong>de</strong> la segm<strong>en</strong>tation superviséeet la segm<strong>en</strong>tation non supervisée par le modèle CSMC-BI est très petite,cequi montre la bonne performance <strong>de</strong> l’algorithme ICE dans le contexte considéré.14514545IV.2 Chaîne <strong>de</strong> <strong>Markov</strong> Triplet MixteDans cette partie nous proposons un nouveau modèle étudié dans le cadre <strong>de</strong> laprés<strong>en</strong>te thèse. Il s’agit du modèle <strong>de</strong> chaîne <strong>de</strong> <strong>Markov</strong> Triplet Mixte (CMT Mixte),c’est-à-dire le processus auxiliaire U=(U n ) 1∶N est un processus dont les U n sont àvaleurs dansU= R, et le processus caché X=(X n ) 1∶N est à valeurs dans un espacefini. Dans la thèse <strong>de</strong> P. Lanchantin [64], le processus U est discret et une <strong>de</strong>s applicationsd’une telle CMT, avec <strong>de</strong>s résultats particulièrem<strong>en</strong>t intéressants, est lamodélisation <strong>de</strong> la M-stationnarité <strong>de</strong> la chaîne X ou du couple(X,Y) m<strong>en</strong>tionnéprécé<strong>de</strong>mm<strong>en</strong>t. La question qui se pose alors est l’ext<strong>en</strong>sion <strong>de</strong> la M-stationnarité àune « non-stationarité continue », qui serait modélisée par un processus auxiliairecontinu. Dans ce travail, nous cherchons donc à étudier les possibilités <strong>de</strong>s applications<strong>de</strong> la CMT Mixte à la modélisation <strong>de</strong> la non-stationnarité "continue" duprocessus X. Dans toute la suite, on note V =(X,U) la chaîne couple dont les V nsont à valeurs dans l’espace produitX×R avecX={ω 1 ,..,ω K }. La chaîne T=(V,Y)75


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETest ainsi une chaîne couple où les T n sont à valeurs dans l’espace produitX×R 2 . Ensupposant T markovi<strong>en</strong>ne nous avons :N−1p(t)=p(t 1 )∏n=1p(t n+1 ∣t n )(IV.33)Par ailleurs, la loi marginale a posteriori p(x n ∣y 1∶N ) du processus caché X estobt<strong>en</strong>ue à partir <strong>de</strong> celle du processus couple(X,U) par :p(x n ∣y 1∶N )=∫ Rp(v n ∣y 1∶N )du=∫ Rp(x n ,u n ∣y 1∶N )du n(IV.34)Étant donné que T=(V,Y) est une chaîne <strong>de</strong> <strong>Markov</strong> couple ses lois marginalesa posteriori p(v n ∣y 1∶N ) peuv<strong>en</strong>t être obt<strong>en</strong>ues par <strong>de</strong>s algorithmes analogues à ceuxprés<strong>en</strong>tés dans le chapitre (II), avec cep<strong>en</strong>dant certaines sommes remplacées par<strong>de</strong>s intégrales. Si on note par α n (v) la probabilité (pour simplifier, on continueraà l’appeler « probabilité » sachant que c’est <strong>de</strong>nsité par rapport au produit <strong>de</strong>la mesure <strong>de</strong> comptage par la mesure <strong>de</strong> Lesbegue) progressive et par β n (v) lesprobabilités rétrogra<strong>de</strong>s alors p(v n ∣y 1∶N ) est donné par :p(v n ∣y 1∶N )∝α n (v n )β n (v n )(IV.35)avec les α n (v)=p(v n = v,y 1∶n ) et β n (v)=p(y n+1∶N ∣v n = v,y n ) calculables par récurr<strong>en</strong>ce:α 1 (v 1 )∝p(t 1 ) et α n+1 (v n+1 )=∑∫ α n (v n )p(t n+1 ∣t n )du n ,X R(IV.36)etβ N (v N )=1 et β n (v n )=∑∫ β n+1 (v n+1 )p(t n+1 ∣t n )du n+1X R(IV.37)Le modèle CMTM est très riche sous sa forme générale et, comme dans le cas <strong>de</strong>la CMT classique, on obti<strong>en</strong>t un grand nombre <strong>de</strong> modèles particuliers. Par exemple,<strong>en</strong> considérant le triplet T=(X,U,Y) comme étant un couple T=(V,Y) à bruitindép<strong>en</strong>dant, les transitions p(t n+1 ∣t n ) s’écriv<strong>en</strong>t :p(t n+1 ∣t n )=p(y n+1 ∣x n+1 )p(x n+1 ∣u n+1 ,x n )p(u n+1 ∣u n ,x n )(IV.38)Le graphe d’indép<strong>en</strong>dance conditionnelle non ori<strong>en</strong>té d’un tel modèle est alors lesuivant :76


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETy 1 y 2 y 3 y Nx 1 x 2 x 3 x Nu 1 u 2 u 3 u NFigure IV.14 – Graphe d’indép<strong>en</strong>dance conditionnelle d’une chaîne nonstationnairecachée à bruit indép<strong>en</strong>dant.Nous avons la même expression que dans le cas <strong>de</strong> la chaîne M-stationnaire cachéeétudiée précé<strong>de</strong>mm<strong>en</strong>t; cep<strong>en</strong>dant, le calcul explicite <strong>de</strong>s α n et <strong>de</strong>s β n n’est pastoujours possible à cause <strong>de</strong>s intégrales prés<strong>en</strong>tées dans les formules <strong>de</strong> récurr<strong>en</strong>ce.Considérons le modèle suivant, qui est un cas particulier du modèle précé<strong>de</strong>nt etqui est sans doute parmi les plus simples CMTM possibles. Les transitions p(t n+1 ∣t n )s’écriv<strong>en</strong>t :p(t n+1 ∣t n )=p(u n+1 ∣u n )p(x n+1 ∣u n+1 )p(y n+1 ∣u n+1 ) (IV.39)Un tel modèle peut égalem<strong>en</strong>t être introduit à partir <strong>de</strong>s propriétés suivantes :a) U est un processus <strong>Markov</strong>i<strong>en</strong> :N−1p(u)=p(u 1 )∏n=1p(u n+1 ∣u n );(IV.40)b) X et Y sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à UXY∣U(IV.41)c) Les Y n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à U et Y n U p≠n ∣U np(y∣u)=N∏n=1p(y n ∣u)=N∏n=1p(y n ∣u n )(IV.42)d) Les X n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à U et X n U p≠n ∣U np(x∣u)=N∏n=1p(x n ∣u)=N∏n=1p(x n ∣u n )(IV.43)Comme X et Y sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à U nous pouvons écrirela loi p(t) sous la forme suivante :p(t)=p(x,u,y)=p(u)p(x∣u)p(y∣u)(IV.44)77


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETComme T est une CM sa loi est donnée par la loi initiale et les transitions. Laloi initiale s’écrit :p(t 1 )=p(u 1 )p(x 1 ∣u 1 )p(y 1 ∣u 1 ),(IV.45)et les transitions sont :p(t n+1 ∣t n )=p(u n+1 ∣u n )p(x n+1 ∣u n+1 )p(y n+1 ∣u n+1 ),(IV.46)ce qui donne bi<strong>en</strong> la forme requise.Le graphe d’indép<strong>en</strong>dance conditionnelle non ori<strong>en</strong>té d’un tel modèle est alors lesuivant :y 1 y 2 y 3 y Nu 1 u 2 u 3 u Nx 1 x 2 x 3 x NFigure IV.15 – Graphe d’indép<strong>en</strong>dance conditionnelle non ori<strong>en</strong>té d’une CMTmixteNous sommes <strong>en</strong> face d’un modèle original très simple; cep<strong>en</strong>dant, là <strong>en</strong>core lescalculs explicites <strong>de</strong>s lois marginales a posteriori p(x n ,u n ∣y 1∶N ) et p(x n ∣y 1∶N ) ne sontpas toujours possibles. Ils le sont dans un cas particulier étudié ci-après : le casgaussi<strong>en</strong>.Exemple :(U,Y) gaussi<strong>en</strong>Soit(U,Y) chaîne <strong>de</strong> <strong>Markov</strong> cachée à bruit indép<strong>en</strong>dant gaussi<strong>en</strong>ne et stationnaire.De plus, on supposera le processus U c<strong>en</strong>tré. Classiquem<strong>en</strong>t, les transitions<strong>de</strong> la loi <strong>de</strong>(U,Y) s’écriv<strong>en</strong>t sous forme du système suivant :(E)∶{ U n+1 =ρU n +ǫ nY n =m y +cU n +ξ n(IV.47)Nous considérons U 1 ∼N(0,1), ρ∈R tel que∣ρ∣


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETLa courbe représ<strong>en</strong>tant l’allure générale <strong>de</strong>s probabilités <strong>en</strong> fonction <strong>de</strong>s coeffici<strong>en</strong>tsa,b, dans le cas <strong>de</strong> <strong>de</strong>ux classes, est donnée à la figure (IV.16)p(x=ω 1 ∣u)a=1;b=0a=1;b=1a=10;b=0−4−3−2−11 2 3 4uFigure IV.16 – Courbe <strong>de</strong> probabilité Logit à <strong>de</strong>ux classesLa loip(x n ∣y 1∶N ) est obt<strong>en</strong>ue à partir <strong>de</strong>p(u n ∣y 1∶N ) <strong>en</strong> utilisant l’approximation <strong>de</strong>Laplace (voir annexe B). En effet la loi p(x n ∣y 1∶N ) s’obti<strong>en</strong>t par l’intégrale suivante :p(x n ∣y 1∶N )=∫ Rp(x n ∣u n )p(u n ∣y 1∶N )du nPar ailleurs, nous pouvons écrirep(x n ∣u n )p(u n ∣y 1∶N )=exp[log(p(x n ∣u n ))+log(p(u n ∣y 1∶N ))]=exp[f(u)], avec : p(u n ∣y 1∶N )∼N(m n ,σ 2 n) et m n ,σ 2 n calculés par l’algorithme RTS(I.3.3), donc3f(u)=a i u+b i −log( ∑exp(a j u+b j ))− (u−m n) 2j=1 2πσn2−log( √ 2πσ 2 n)La fonction f admet un développem<strong>en</strong>t <strong>de</strong> Taylor <strong>en</strong> u ∗ (tel que f ′ (u ∗ )=0) à l’ordre2 :f(u)≃ 1 2 f′′ (u ∗ )(u−u ∗ ) 2 +f(u ∗ )L’approximation <strong>de</strong> p(x n ∣y 1∶N ) est alors donnée par :Applications numériques√2πp(x n ∣y 1∶N )≃exp[f(u ∗ )]∣f”(u ∗ )∣Nous prés<strong>en</strong>tons ci-après les résultats <strong>de</strong>s quatre expéri<strong>en</strong>ces. Dans la premièreles données sont simulées par la nouvelle CMTM, qui sera notée NCMTM, et onconsidère trois segm<strong>en</strong>tations : supervisée avec NCMTM, partiellem<strong>en</strong>t non superviséeavec NCMTM, et non supervisée avec le modèle classique CMC-BI. Dans la<strong>de</strong>uxième expéri<strong>en</strong>ce les données sont simulées par une CMC-BI et segm<strong>en</strong>tées parNCMTM et CMC-BI. Dans la troisième série on considère un bruit corrélé, <strong>de</strong> manièreà ce que les données ne correspon<strong>de</strong>nt à aucun <strong>de</strong> <strong>de</strong>ux modèles. Enfin, dans79


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETla quatrième expéri<strong>en</strong>ce on choisit une image <strong>de</strong> <strong>de</strong>ux classes <strong>de</strong>ssinée à la main etbruitée par du bruit corrélé.Nous comm<strong>en</strong>çons par simuler le processus U=(U n ) n=1∶N . La première variableU 1 est une Gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne 0 et <strong>de</strong> variance 1, U 1 ∼N(0,1), et pour 1


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETintégrale qui peut être approchée et son approximation est donnée par (B.3). Enfin,la segm<strong>en</strong>tation <strong>de</strong> y 1∶N est donnée par la solution MPM (5).(1) (2) (3)Figure IV.18 – Restauration du processus X à partir <strong>de</strong> Y par trois métho<strong>de</strong>s.(1) : NCMTM mo<strong>de</strong> supervisé, (taux d’erreur <strong>de</strong> 14%); (2) : NCMTM mo<strong>de</strong> nonsupervisé(taux d’erreur <strong>de</strong> 17%); (3) : CMC mo<strong>de</strong> non-supervisé (taux d’erreur <strong>de</strong>18%)Dans la <strong>de</strong>uxième expéri<strong>en</strong>ce nous simulons une chaîne <strong>de</strong> <strong>Markov</strong> X=(X n ) n=1∶Nà <strong>de</strong>ux classesX={ω 1 ,ω 2 }, avec p(ω 1 ,ω 1 )=p(ω 2 ,ω 2 )=0.46. p(y n ∣x n = ω 1 ) est uneGaussi<strong>en</strong>neN(0,1) et p(y n ∣x n =ω 2 ) est une Gaussi<strong>en</strong>neN(1,1). Nous restaurons Xà partir <strong>de</strong> Y par NCMTM (taux d’erreur <strong>de</strong> 3.80%), et par CMC (taux d’erreur <strong>de</strong>3.07%). Les résultats sont prés<strong>en</strong>tés à la figure (IV.19). Nous pouvons noter que lesrésultats obt<strong>en</strong>us avec NCMTM sont logiquem<strong>en</strong>t moins bons; cep<strong>en</strong>dant, malgréun niveau <strong>de</strong> bruit élevé, ils rest<strong>en</strong>t acceptables. Ces résultats sont intéressants dansla mesure où ils montr<strong>en</strong>t que le modèle NCMTM peut être très flexible et peut"s’adapter" relativem<strong>en</strong>t bi<strong>en</strong> aux données simulées par les CMC-BI classiques.X=x Y=y NCMTM̂x=MPM(y)Figure IV.19 – X : chaîne <strong>de</strong> <strong>Markov</strong>; Y : processus observé;̂x : processus restaurépar NCMTM (taux d’erreur <strong>de</strong> 3.80%)Dans la troisième série, la chaîne X obt<strong>en</strong>ue dans la <strong>de</strong>uxième expéri<strong>en</strong>ce estbruitée avec un bruit corrélé. On pose v n = αu n +∑ m∈ν(n) βu m , avec α=0.85, β=0.15, u n ∼N(0,1), où ν(n) est le système <strong>de</strong> voisinage du pixel n. Les résultatssont prés<strong>en</strong>tés à la figure (IV.20). Ainsi que nous pouvons le constater le modèle81


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETclassique CMC-BI résiste assez mal à la corrélation du bruit. Par contre, malgréle fait que la loi <strong>de</strong> X correspond à CMC-BI, la <strong>restauration</strong> par NCMTM estnettem<strong>en</strong>t meilleure que la <strong>restauration</strong> par CMC-BI. En effet, le taux d’erreur est<strong>de</strong> 8.95% pour NCMTM contre 19.09% pour CMC-BI.Y=y NCMTM (erreur <strong>de</strong> 8.95%) CMC (erreur <strong>de</strong> 19.09%)Figure IV.20 – Restauration <strong>de</strong> X bruité par du bruit corrélé par NCMTM etCMC-BI.Finalem<strong>en</strong>t, nous restaurons une image <strong>de</strong> synthèse bruitée avec un bruit corréléavec NCMTM (taux d’erreur <strong>de</strong> 14.49%) et par CMC (taux d’erreur <strong>de</strong> 20.12%).Les résultats sont prés<strong>en</strong>tés sur la figure (IV.21). Nous pouvons remarquer que laqualité <strong>de</strong> la <strong>restauration</strong> avec NCMTM est meilleure, aussi bi<strong>en</strong> <strong>en</strong> terme <strong>de</strong> qualitévisuelle qu’<strong>en</strong> terme <strong>de</strong>s taux d’erreur, que celle utilisant le modèle CMC-BI.82


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETX=xY=yNCMTM (erreur <strong>de</strong> 14.49%) CMC-BI (erreur <strong>de</strong> 20.12%)Figure IV.21 – Restauration d’image <strong>de</strong> synthèse bruitée avec du bruit corréléNCMTM et CMC-BI.Globalem<strong>en</strong>t, il s’avère qu’il existe <strong>de</strong>s situations dans lesquelles le nouveau modèleest compétitif par rapport au modèle CMC-BI classique. Cep<strong>en</strong>dant, le problème<strong>de</strong> l’estimation <strong>de</strong>s paramètres n’est pas <strong>en</strong>tièrem<strong>en</strong>t résolu et nous avons proposé<strong>de</strong>s traitem<strong>en</strong>ts "partiellem<strong>en</strong>t" non supervisés. D’autres étu<strong>de</strong>s plus poussées sontnécessaires pour bi<strong>en</strong> cerner l’intérêt du modèle NCMTM <strong>en</strong> mo<strong>de</strong> <strong>en</strong>tièrem<strong>en</strong>t nonsupervisée.Notons égalem<strong>en</strong>t que ce modèle est très simple et l’intérêt pratique<strong>de</strong> ses différ<strong>en</strong>tes ext<strong>en</strong>sions possibles constitue un autre axe <strong>de</strong> recherche possible.Enfin, au départ ce modèle a été proposé pour modéliser la non stationnarité "continue"du processus X. De ce point <strong>de</strong> vue nous n’avons pas obt<strong>en</strong>u <strong>de</strong>s résultats aussifrappants que ceux obt<strong>en</strong>us par Pierre Lanchantin dans le cas <strong>de</strong>s discontinuités "discrètes".D’autres étu<strong>de</strong>s et simulations sont nécessaires pour apprécier l’intérêt dunouveau modèle NCMTM dans ce contexte.Dans la partie suivante, nous traitons un nouveau modèle développé dans le cadre<strong>de</strong> notre thèse qui est le modèle <strong>de</strong> Champs <strong>de</strong> <strong>Markov</strong> Triplet cas mixte, c’est-à-dire(Y,U) sont <strong>de</strong>ux processus continus et X est discret.83


•••••••CHAPITRE IV. MODÈLE DE MARKOV TRIPLETIV.3 Champ <strong>de</strong> <strong>Markov</strong> Triplet MixteLe modèle par champ <strong>de</strong> <strong>Markov</strong> aléatoire caché fait partie <strong>de</strong>s outils <strong>de</strong> base <strong>en</strong>traitem<strong>en</strong>t statistique d’images <strong>de</strong>puis les années quatre-vingt [53]. L’application <strong>de</strong>ce modèle est <strong>de</strong>v<strong>en</strong>ue possible et intéressante avec les progrès techniques <strong>de</strong>s calculateursqui ont r<strong>en</strong>du le temps <strong>de</strong> calcul exploitable. L’hypothèse <strong>de</strong> la markovianitépermet <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> considération l’interaction spatiale qui peut exister <strong>en</strong>tre lespixels d’une image satellitaire ou d’image médicale [14,24,117]. Plusieurs travauxont été m<strong>en</strong>és dans le cadre <strong>de</strong> ce modèle, mettant <strong>en</strong> oeuvre <strong>de</strong>s algorithmes <strong>de</strong>calcul exact ou approximatif, visant la <strong>restauration</strong> ainsi que l’estimation <strong>de</strong> paramètres[50, 106, 108]. Dans cette section nous prés<strong>en</strong>tons un modèle original dit« champ <strong>de</strong> <strong>Markov</strong> triplet mixte », qui est l’équival<strong>en</strong>t bi-dim<strong>en</strong>sionnel du modèle« chaîne <strong>de</strong> <strong>Markov</strong> triplet mixte » étudié dans la section précé<strong>de</strong>nte. Plus particulièrem<strong>en</strong>tnous étudions le cas du triplet mixte où dans le couple caché V=(X,U) lechamp U est un champ continu Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> et le champ X est un champsdiscret. Dans toute la suite, on désigne par S une partie <strong>de</strong> N×N <strong>de</strong> tailleN. Chaqueelem<strong>en</strong>t s∈S sera désigné par son rang 1≤n≤N. Soit U=(U n ) n=1∶N un champaléatoire sur S, dont les U n sont à valeurs dans un espaceU. On noteC l’<strong>en</strong>semble<strong>de</strong>s cliques c (IV.22), sachant qu’une clique est soit un singleton soit un <strong>en</strong>semble <strong>de</strong>spixels mutuellem<strong>en</strong>t voisins, associé au système <strong>de</strong> voisinage ν défini sur le réseauS (I.1.1).4-connexité8-connexitéClique d’ordre 1• •Clique d’ordre 2• •Clique d’ordre 1 Clique d’ordre 2• • • • • •• • •Clique d’ordre 3 Clique d’ordre 4• • • • • • • •• • • • • • • •Figure IV.22 – Cliques associées à un système <strong>de</strong> voisinage <strong>en</strong> 4-connexité et <strong>en</strong>8-connexité84


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETFigure IV.23 – GrilleSRappelons les définitions classiques ainsi que l’important théorème d’Hammersley-Clifford. Afin d’introduire la markovianité nous considérons un champ U=(U n ) 1∶Ndiscret. Le cas continu est traité dans la sous-section suivante directem<strong>en</strong>t dans lecas gaussi<strong>en</strong>.Définition IV.5 Soit U=(U n ) 1∶N un champ aléatoire, chaque U n pr<strong>en</strong>ant ses valeursdans un espaceU.U est dit « champ <strong>de</strong> <strong>Markov</strong> relativem<strong>en</strong>t à un système <strong>de</strong> voisinage ν » si etseulem<strong>en</strong>t si sa loi vérifie :∀1≤n≤N, p(u n ∣u t ,t≠n)=p(u n ∣u t∈ν(n) )(IV.49)Ainsi la loi <strong>de</strong> U n <strong>en</strong> un site n conditionnellem<strong>en</strong>t à toutes les autres variablesdu champ ne dép<strong>en</strong>d que <strong>de</strong>s variables sur son voisinage ν(n).Définition IV.6 U=(U n ) 1∶N est dit « champ <strong>de</strong> Gibbs relativem<strong>en</strong>t à un système<strong>de</strong> voisinage ν » si et seulem<strong>en</strong>t si sa loi vérifie :p(u)= 1 Z exp[−U(u)](IV.50)avecC l’<strong>en</strong>semble <strong>de</strong>s cliques c définie par le système <strong>de</strong> voisinage ν et U(u)=∑ c∈C φ c (u c ). U est dite « fonction d’énergie », les fonctions φ c sont dites « fonctionspot<strong>en</strong>tiel », et Z est la constante <strong>de</strong> normalisation Z=∫ u∈U N exp[−U(u)]. Laprobabilité p(u) est appelée "mesure <strong>de</strong> Gibbs".Un champ <strong>de</strong> Gibbs est ainsi caractérisé par sa loi globale dite mesure <strong>de</strong> Gibbs.Le théorème <strong>de</strong> Hammersley-Clifford suivant donne les conditions d’équival<strong>en</strong>ce<strong>en</strong>tre un champ <strong>de</strong> <strong>Markov</strong> et un champ <strong>de</strong> Gibbs :Théorème IV.1 Hammersley-Clifford :SoitS un réseau muni d’un système <strong>de</strong> voisinage ν, et soitC l’<strong>en</strong>semble <strong>de</strong>s cliquesdéfini par ν.U=(U n ) 1∶N est un champ <strong>de</strong> <strong>Markov</strong> relativem<strong>en</strong>t à ν vérifiant∀u∈U N p(u)>0si et seulem<strong>en</strong>t si U est un champ <strong>de</strong> Gibbs avec la fonction d’énergie U(u)=∑ c∈C φ c (u c ).85


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETLa démonstration <strong>de</strong> ce théorème est donnée dans [9]. L’intérêt <strong>de</strong> ce théorèmequ’il nous permet d’accé<strong>de</strong>r à la loi locale conditionnelle p(x n ∣x t ,t∈ν(n)) à partirdu système <strong>de</strong> voisinage et les fonctions « pot<strong>en</strong>tiel ». La loi locale conditionnellep(u n ∣u t ,t∈ν(n)) est donnée par :p(u n ∣u t∈ν(n) )=exp[−φ c (u n ,u c−{n} )]∫ un∈U exp[−φ c(u n ,u c−{n} )] =Φ c(u n ),(IV.51)et la <strong>de</strong>nsité globale est un produit :p(u)=∏Φ c (u c ).c∈C(IV.52)La simulation <strong>de</strong>s réalisations d’un champ <strong>de</strong> <strong>Markov</strong> est alors possible par itération<strong>en</strong> utilisant la loi locale conditionnelle (IV.51), dont la forme est généralem<strong>en</strong>tsimple et qui est généralem<strong>en</strong>t calculable. Cette métho<strong>de</strong> <strong>de</strong> simulation, que nousallons détailler par la suite, s’appelle « échantillonneur <strong>de</strong> Gibbs ».IV.3.1 Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong>Soit U=(U n ) n=1∶N un vecteur aléatoire Gaussi<strong>en</strong> défini sur S. On suppose que Sest muni d’un système <strong>de</strong> voisinage ν. On note par µ le vecteur moy<strong>en</strong> <strong>de</strong> U et parΣ=Q −1 sa matrice <strong>de</strong> covariance. La <strong>de</strong>nsité <strong>de</strong> la loi <strong>de</strong> U s’écrit :p(u)=(2.π) −N 2∣Q∣ 1 2 exp[− 1 2 (u−µ)T Q(u−µ)](IV.53)Le champ U est un champ markovi<strong>en</strong> si et seulem<strong>en</strong>t si p(x n ∣x t ,t≠n) vérifie (IV.49).En terme <strong>de</strong> covariance, cela se traduit par : si t n’apparti<strong>en</strong>t pas au voisinage <strong>de</strong>n, la covariance <strong>en</strong>tre U n et U t conditionnellem<strong>en</strong>t au reste du champ est nulle.Cov(U n ,U t ∣u p ∉{n,t})=0(IV.54)Cette propriété se traduit égalem<strong>en</strong>t par la propriété suivante <strong>de</strong> la structure <strong>de</strong> lamatrice <strong>de</strong> covariance inverse Q=Σ −1 =(Q n,t ) 1≤n≤N,1≤t≤N :Propriété IV.1 La matrice Q vérifie :U n U t ∣U p ,p∉{n,t}⇔Q n,t =0La loi du champ U s’écrit donc égalem<strong>en</strong>t sous la forme <strong>de</strong> mesure <strong>de</strong> Gibbs et p(u)est une mesure <strong>de</strong> Gibbs donnée par :p(u)= 1 Z exp[−∑ c∈Cφ c (u c )] (IV.55)Comme U est un vecteur gaussi<strong>en</strong>, nous pouvons calculer la loi locale conditionnelle.C’est une gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne conditionnelle :86E[U n ∣u t ,t≠n]=µ n − 1 ∑ Q n,t (u t −µ t ),Q n,n t∈ν(n)(IV.56)


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETet <strong>de</strong> variance conditionnelle :V[U n ∣u t ,t≠n]= 1Q n,n.(IV.57)La covariance conditionnelle est donnée par :Q n,tC[U n ,U t ∣u p ,p/∈{n,t}]=− √Qn,n Q t,t(IV.58)La connaissance <strong>de</strong> la loi globale et la loi conditionnelle permett<strong>en</strong>t <strong>de</strong> simuler lechamp U par plusieurs métho<strong>de</strong>s que nous préciserons ci-après.IV.3.2 Simulation du Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong>La simulation d’un champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> est possible par plusieurs métho<strong>de</strong>s.Des logiciels informatiques tels que LAPACK (Linear Algebra Package) etATLAS (Automatically Tuned Linear Algebra Software) permett<strong>en</strong>t d’abor<strong>de</strong>r cetype <strong>de</strong> problèmes avec une taille énorme <strong>de</strong> données (N> 10 8 pour une image <strong>de</strong>taille 128×128).Nous prés<strong>en</strong>tons dans la suite <strong>de</strong>s métho<strong>de</strong>s indirectes <strong>de</strong> simulation et une métho<strong>de</strong>directe qui a été prés<strong>en</strong>tée par Rue dans [106].Soit U=(U n ) n=1∶N un champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> <strong>de</strong> moy<strong>en</strong>ne µ et <strong>de</strong> matrice<strong>de</strong> covariance Σ=Q −1 .Échantillonneur <strong>de</strong> GibbsL’échantillonneur <strong>de</strong> Gibbs est un algorithme itératif <strong>de</strong> simulation. Nous comm<strong>en</strong>çonspar une initialisation arbitraireU=u 0 pour le champ U. A chaque itérationnous balayons la grille S pour mettre à jour les sommets n. En utilisant les équations(IV.56) et (IV.57), nous obt<strong>en</strong>ons les paramètres <strong>de</strong> loi conditionnelle <strong>de</strong> U n sachantson voisinage(u t ,t∈ν(n)), et selon cette loi on fait un tirage pour mettre à jour lesite n avec la nouvelle valeur obt<strong>en</strong>ue.Le déroulem<strong>en</strong>t <strong>de</strong> l’algorithme est le suivant :Algorithme IV.1 Échantillonneur <strong>de</strong> Gibbs :i) Initialiser le champ U d’une manière arbitraire u 0 ;ii) à l’iteration q, balayer le réseau S et pour chaque site s :◻ calculer les paramètres <strong>de</strong> p(u n ∣u t ,t∈ν(n));◻ tirer aléatoirem<strong>en</strong>t selon p(u n ∣u t ,t∈ν(n)) une valeur u n ;◻ mettre à jour le site n avec la nouvelle valeur u n .La suite aléatoireU 0 ,..,U q ainsi obt<strong>en</strong>ue est une chaîne <strong>de</strong> <strong>Markov</strong> qui converge, sous<strong>de</strong>s conditions assez générales, vers la loi donnée par l’équation (IV.55) [117]. Nouspouvons distinguer <strong>de</strong>ux types d’échantillonneur <strong>de</strong> Gibbs selon le parcours utilisépour balayer S. Le premier utilise un parcours séqu<strong>en</strong>tiel dans un ordre prédéfinicomme par exemple 1,2,..,N ; le <strong>de</strong>uxième type utilise un balayage aléatoire <strong>de</strong>ssites.87


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETMétho<strong>de</strong> directeLa métho<strong>de</strong> directe décrite par Rue [106] utilise les propriétés <strong>de</strong> la matrice <strong>de</strong>covariance Q, qui est une matrice symétrique définie positive, et les propriétés <strong>de</strong>svecteurs gaussi<strong>en</strong>s. En utilisant la factorisation <strong>de</strong> Cholesky, il existe une matrice Ltriangulaire inférieure telle que :Q=LL T .(IV.59)La transformation d’un vecteur Gaussi<strong>en</strong> c<strong>en</strong>tré réduit I par une transformation <strong>de</strong>type x↦Ax+B est un vecteur Gaussi<strong>en</strong> <strong>de</strong> moy<strong>en</strong>ne B et <strong>de</strong> matrice <strong>de</strong> covarianceAA T . En utilisant ces <strong>de</strong>ux propriétés, une transformation pour le vecteur U ∼N N (µ,Σ), U↦ L T (U−µ)=Z U permet d’avoir un vecteur Gaussi<strong>en</strong> c<strong>en</strong>tré réduitZ U ∼N N (0 N ,I N×N ). En effet :E[Z U ]=E[L T (U−µ)]=L T E[U−µ]=0V[Z U ]=V[L T (U−µ)]=L T Σ U L=L T Q −1 L=I N×NDonc pour simuler U, il suffit <strong>de</strong> simuler Z U et <strong>de</strong> résoudre l’équation :Z U =L T (U−µ)(IV.60)Supposons, pour simplifier, que µ=0 N . La résolution se fait d’une manière itérative :U N = Z NL N,NNous avons la propriété suivante :Propriété IV.2 (Cholesky) :U n = Z n− 1 N∑ L j,n U j ∀n=N−1,..,1L n,n L n,n j


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET◻ Pour c=1etL 1,1 = √ Q 1,1L k,1 = Q 1,kL 1,1k=2,...,N◻ On suppose la colonne c=i−1 connue. La colonne c=i est donnée par◇L i,i = Qi,i −i−1∑L 2 i,kk=1◇L j,i = Q i,j−∑ i−1k=1L i,k L j,kL i,iNotons qu’il existe <strong>de</strong>s logiciels, comme ATLAS ou LAPACK, qui utilis<strong>en</strong>t cettefactorisation et fourniss<strong>en</strong>t <strong>de</strong>s fonctions rapi<strong>de</strong>s et exactes pour simuler <strong>de</strong>s vecteursaléatoires et pour résoudre <strong>de</strong>s systèmes linéaires <strong>de</strong> gran<strong>de</strong> taille (N≥10 6 ).Simulation parallèleLa simulation parallèle consiste à subdiviser la grilleS <strong>en</strong> plusieurs sous-<strong>en</strong>sembles<strong>de</strong>ux à <strong>de</strong>ux disjoints et tels que les restrictions du processus U=(U n ) 1∶N à certainespaires <strong>de</strong> ces sous-<strong>en</strong>sembles soi<strong>en</strong>t indép<strong>en</strong>dantes conditionnellem<strong>en</strong>t au reste duchamp. Par exemple, soi<strong>en</strong>t trois sous <strong>en</strong>semblesA⊂S,B⊂S etC⊂S :A∩B=∅,A∩C=∅,B∩C=∅A∪B∪C=S(IV.62)(IV.63)(voir la figure (IV.24)). Les processus U ∣A et U ∣C sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>tà U ∣B :U ∣A U ∣C ∣U ∣B(IV.64)Nous comm<strong>en</strong>çons par simuler U ∣B , et comme U ∣A et U ∣C sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>tà U ∣B , nous pouvons simuler parallèlem<strong>en</strong>t U ∣A ∣U ∣B et U ∣C ∣U ∣B par lamétho<strong>de</strong> directe prés<strong>en</strong>tée précé<strong>de</strong>mm<strong>en</strong>t.A B CFigure IV.24 – S=A∪B∪C89


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETLorsque la taille du processus à simuler n’est pas trop gran<strong>de</strong>, la simulation directeest la plus exacte et la plus rapi<strong>de</strong> parmi ces métho<strong>de</strong>s <strong>de</strong> simulation. Cep<strong>en</strong>dant,lorsque la taille du processus à simuler est trop gran<strong>de</strong>, il peut être préférable,afin d’éviter <strong>de</strong>s problèmes numériques, <strong>de</strong> recourir à une métho<strong>de</strong> indirecte commel’échantillonneur <strong>de</strong> Gibbs ou la simulation parallèle.IV.3.3 Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> cachéLe modèle du champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> caché fait partie <strong>de</strong> modèles <strong>de</strong> <strong>Markov</strong>cachés (MMC). On suppose qu’il existe un champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> U=(U n ) 1∶Nnon observé, qui est le processus d’intérêt défini sur une grille S. Les donnés dontnous disposonsy=(y n ) 1∶N sont la réalisation d’un autre champ aléatoireY=(Y n ) 1∶N .Nous nous intéressons dans cette partie au cas du champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> à bruitindép<strong>en</strong>dant (CGMC-BI).Prés<strong>en</strong>tation du modèle CGMC-BIOn appelle « champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> caché à bruit indép<strong>en</strong>dant » (CGMC-BI) le couple(U,Y)=(U n ,Y n ) 1∶N dont la loi est définie <strong>de</strong> la manière suivante. Lechamp inobservable U est Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> ( U∼N N (µ,Σ=Q −1 )). Rappelonsque sa loi s’écrit alors :p(u)=(2.π) −N 2∣Q∣ 1 2 exp[− 1 2 (u−µ)T Q(u−µ)](IV.65)avec la matrice <strong>de</strong> covariance Σ telle que pour tout n∈{1,..,N}, la variable U nest indép<strong>en</strong>dante <strong>de</strong> l’<strong>en</strong>semble <strong>de</strong>s variables(U t ,t∉ν(n)) conditionnellem<strong>en</strong>t aux(U t ,t∈ν(n)) :p(u n ∣u t ,t≠n)=p(u n ∣u t ,t∈ν(n))(IV.66)La loi du champ observé Y conditionnelle au champ caché U est une loi quelconque( qui vérifie certaines conditions données dans la suite) : sachant U=u, les Y n sontindép<strong>en</strong>dantes et pour tout n∈{1,..,N}, la loi <strong>de</strong> Y n conditionnelle à U = u nedép<strong>en</strong>d que <strong>de</strong> U n :p(y∣u)=N∏n=1p(y n ∣u)=N∏n=1p(y n ∣u n )(IV.67)Le champ U conditionnellem<strong>en</strong>t à Y=y est alors égalem<strong>en</strong>t un champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> [11], ce qui permet d’abor<strong>de</strong>r les problèmes <strong>de</strong> <strong>restauration</strong> <strong>de</strong> U à partir<strong>de</strong> Y . En effet, selon la formule <strong>de</strong> Bayes :p(u∣y)= p(u,y)p(y) =∝p(y∣u)p(u),(IV.68)nous avons donc :90p(u∣y)∝exp[− 1 2 (u−µ)T Q(u−µ)+ ∑logp(y n ∣u n )]Nn=1(IV.69)


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETSi log[p(y n ∣u n )] admet un développem<strong>en</strong>t <strong>de</strong> Taylor à l’ordre 2 <strong>en</strong> µ u par rapport àu s qui est donné par :logp(y n ∣u n )∝− 1 2 c n(u n −µ) 2 +b n (u n −µ)+a n(IV.70)soit C= diag(c 1 ,..,c N ) la matrice formée par les c s sur le diagonale et 0 ailleurs etB=(b 1 ,..,b N ) T le vecteur formé par les b s :p(u∣y)=∝exp[− 1 2 (u−µ)T (Q+C)(u−µ)+B T u](IV.71)La <strong>de</strong>nsité <strong>de</strong> la loi du U∣Y=y est proportionnelle à la <strong>de</strong>nsité d’une gaussi<strong>en</strong>ne <strong>de</strong>moy<strong>en</strong>ne µ ∗ = µ+[Q+C] −1 B et <strong>de</strong> matrice <strong>de</strong> covariance Q ∗ = Q+C. La matriceQ ∗ est une matrice symétrique définie positive ce qui permet d’utiliser la métho<strong>de</strong>directe pour simuler U sachant Y=y.µ ∗ =µ+[Q+C] −1 B (IV.72)Q ∗ =Q+C(IV.73)ExemplesDans cette sous-section, nous prés<strong>en</strong>tons quelques exemples d’applications <strong>de</strong>champ <strong>de</strong> <strong>Markov</strong>-Gauss caché. Les résultats d’estimation <strong>de</strong> paramètres et <strong>de</strong> lasegm<strong>en</strong>tation sont obt<strong>en</strong>us par le package R-INLA 2 développé par H. Rue et S.Martino [107].Dans le premier exemple, nous considérons un processus auto-régressif d’ordre 1<strong>de</strong> taille N=100 :∀ 2≤n≤N, U n =ρU n−1 +ǫ n ,(IV.74)avec U 1 est une gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne nulle et <strong>de</strong> variance[τ(1−ρ 2 )] −1 et les ǫ nsont <strong>de</strong>s gaussi<strong>en</strong>nes indép<strong>en</strong>dantes <strong>de</strong> moy<strong>en</strong>ne nulle et <strong>de</strong> variance τ −1 telle queǫ n ⊥ U n−1 . U=(U n ) 1∶N est un champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> <strong>de</strong> vecteur <strong>de</strong> moy<strong>en</strong>ne→ 0 N et <strong>de</strong> matrice <strong>de</strong> Σ=Q 1 :⎛ 1 ρ ρ 2 ⋯ ρ N−1 ⎞ ⎛ 1 −ρ 0 ⋯ 0 ⎞1ρ 1 ρ ⋯ ρ N−2−ρ 1+ρ 2 −ρ ⋱ ⋮Σ=τ(1−ρ 2 )ρ 2 ρ 1 ⋯ ρ N−3Q=τ0 −ρ ⋱ ⋱ 0⎜ ⋮ ⋮ ⋮ ⋱ ⋮⎟ ⎜ ⋮ ⋱ ⋱ 1+ρ 2 −ρ⎟⎝ ρ N−1 ρ N−2 ρ N−3 ... 1 ⎠ ⎝ 0 ... 0 −ρ 1 ⎠(IV.75)La loi <strong>de</strong> p(y n ∣x n ) est un Poisson <strong>de</strong> paramètre λ n =E n exp(u n ) avec les E n sontconnus :p(y n =k∣E n ,u n )= λk nk! exp(−λ n) (IV.76)Les paramètres du modèle sont θ=(τ,ρ). Pour la simulation, ρ=0.9 et τ=10 et lesréalisations <strong>de</strong>s champs U et Y sont représ<strong>en</strong>tés sur la figure (IV.25).2. Integrated nested Laplace approximation91


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET−1.0 0.50 20 40 60 80 100(a)0 20 400 20 40 60 80 100(b)Figure IV.25 – Simulation d’un champ Gaussi<strong>en</strong> <strong>Markov</strong>i<strong>en</strong> caché (a)réalisationu 1∶N (b) réalisation y 1∶N .L’estimation <strong>de</strong>s paramètres par la métho<strong>de</strong> INLA (Integrated nested Laplaceapproximation) [107] <strong>en</strong> utilisant le package R-INLA est la suivante :Paramètre valeur réelle valeur estiméeρ 0.9 0.8τ 10 15.6Table IV.8 – Estimation <strong>de</strong>s paramètres par R-INLAL’estimation <strong>de</strong> la trajectoire u 1∶N conditionnellem<strong>en</strong>t à(̂θ,y 1∶N ) est représ<strong>en</strong>téepar (a) sur la figure (IV.26) ainsi qu’une comparaison <strong>en</strong>tre la vraie trajectoire et latrajectoire estimée (b).92


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET−1 1 20 20 40 60 80 100(a)−1 1 20 20 40 60 80 100(b)Figure IV.26 – Estimation <strong>de</strong> trajectoire (a) û 1∶N estimée (b) trajectoire réelle etestimée.Nous pouvons remarquer que la trajectoire estimée est proche <strong>de</strong> la trajectoireréelle <strong>en</strong> général mais sur une petite échelle elle s’écarte un peu <strong>de</strong> la vraie trajectoireet cela est dû au fait qu’elle est estimée par p(u n ∣̂θ,y 1∶N ) et non pas par p(u n ∣u t ,t∈ν(n),̂θ,y 1∶N ).Dans l’exemple suivant, nous considérons un champ gaussi<strong>en</strong>-markovi<strong>en</strong> dontl’inverse <strong>de</strong> sa matrice <strong>de</strong> covariance Q est donnée par :Q=τ(I N×N − βλ maxC),avec C est une matrice défini positive connue et qui décrit les interactions <strong>en</strong>tre lesdiffér<strong>en</strong>tes sites n, λ max est la valeur propre la plus gran<strong>de</strong> <strong>de</strong> C, β∈[0,1[ et τ unscalaire positif. Les paramètres <strong>de</strong> la loi <strong>de</strong> U sont(τ,β) :Paramètres Vraie valeur Valeur estiméeτ 1.0 1.02β 0.95 0.97Table IV.9 – Paramètres du champ gaussi<strong>en</strong>-markovi<strong>en</strong>93


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET0.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.0(a)(b)0.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.0(c)Figure IV.27 – Simulation et <strong>restauration</strong> d’un champ gaussi<strong>en</strong> markovi<strong>en</strong>La loi p(y n ∣u n ) est une gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne u n et <strong>de</strong> variance σ 2 = 1τ 2 ωavec lesω sont connu égale à 1 et τ 2 = 100 . Les résultats <strong>de</strong> la simulation sont représ<strong>en</strong>téssur la figure (IV.27) (a) champ U et (b) champ Y . L’estimation <strong>de</strong> la trajectoireu 1∶N est représ<strong>en</strong>té par (c) <strong>de</strong> la même figure.Le traitem<strong>en</strong>t <strong>de</strong> champs gaussi<strong>en</strong>s markovi<strong>en</strong>s qui ont une matrice <strong>de</strong> covariancegénérale nécessite <strong>de</strong>s ressources informatiques très importantes pour le calcul et lestockage <strong>de</strong>s résultats pour cela nous avons traité un cas ou N=100 c’est-à-dire uneimage <strong>de</strong> taille 10×10.IV.3.4 Champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> tripletDans cette partie, nous prés<strong>en</strong>tons un nouveau modèle semblable à celui qu<strong>en</strong>ous avons prés<strong>en</strong>té dans le cas <strong>de</strong>s chaînes. Soit T =(X,U,Y) un champ tripletdéfini sur une grille S. On suppose que pour tout n∈{1,..,N}, la variable aléatoireT n =(X n ,U n ,Y n ) est à valeur dans l’espace produitT =X×U×Y. Pour simplifier,on utilisera parfois la notation V pour le couple <strong>de</strong>s champs cachés(X,U).94


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETPrés<strong>en</strong>tation du modèleSoit T=(T n ) 1∶N un champ <strong>Markov</strong>i<strong>en</strong> <strong>de</strong> graphe d’indép<strong>en</strong>dance conditionnellereprés<strong>en</strong>té par le graphe sur la figure (IV.28).y 1 y 2 y 3u 1 u 2 u 3y 4 x 1 y 5 x 2 y 6 x 3u 4 u 5 u 6y 7 x 4 y 8 x 5 y 9 x 6u 7 u 8 u 9x 7 x 8 x 9Figure IV.28 – Graphe d’indép<strong>en</strong>dance conditionnelle du champ TLa loi <strong>de</strong> notre modèle vérifie les propriétés suivantes :Propriété IV.3 Les propriétés du modèle sont les suivantes :a) U est un champ gaussi<strong>en</strong>-markovi<strong>en</strong> :p(u)=N∏n=1p(u n ∣u t ,t∈ν(n))(IV.77)b) X et Y sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à UXY∣U(IV.78)c) Les Y s sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à U et Y s U l≠s ∣U sp(y∣u)=N∏n=1p(y n ∣u)=N∏n=1p(y n ∣u n )(IV.79)d) Les X n sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à U et X n U t≠n ∣U np(x∣u)=N∏n=1p(x n ∣u)=N∏n=1p(x n ∣u n )(IV.80)Infér<strong>en</strong>ce Bayési<strong>en</strong>neLe but <strong>de</strong> ce modèle est <strong>de</strong> trouver X sachant Y pour cela nous utilisons leprocessus auxiliaire U. La loi du couple V=(X,U) sachant Y s’écrit comme suit :p(x,u∣y)=p(u∣y)p(x∣u,y)(IV.81)95


CHAPITRE IV. MODÈLE DE MARKOV TRIPLET<strong>en</strong> utilisant le fait que X et Y sont indép<strong>en</strong>dants conditionnellem<strong>en</strong>t à U nousobt<strong>en</strong>ons :p(x,u∣y)=p(u∣y)p(x∣u)(IV.82)Nous avons détaillé précé<strong>de</strong>mm<strong>en</strong>t comm<strong>en</strong>t nous pouvons approximer la loi duU∣Y dans le cas où U est CGM et comm<strong>en</strong>t nous pouvons le simuler. Supposons queU∼N N (µ,Σ=Q −1 ) alorsU∣Y∼N N (µ ∗ ,Σ ∗ =[Q ∗ ] −1 ) avec µ ∗ et Q ∗ sont obt<strong>en</strong>us parles formules (IV.72) et (IV.73). La loi p(x n ∣y) est obt<strong>en</strong>ue <strong>en</strong> intégrant par rapportà u n :p(x n ∣y)=∫ p(x n ∣u n =u)p(u n =u∣y)du(IV.83)Pour modéliser la loi du X sachant U, nous pouvons utiliser le modèle Logit. Supposonsque les X s sont à valeur dans un espace finiX=Ω={ω 1 ,..,ω K }, alors p(x s ∣u s )est donné par :p(x n =ω i ∣u n )=exp(a i u n +b i )∑ K j=1exp(a j u n +b j )(IV.84)ExempleLe champ U est un champ gaussi<strong>en</strong> <strong>Markov</strong>i<strong>en</strong> <strong>de</strong> moy<strong>en</strong>ne nulle et <strong>de</strong> matrice<strong>de</strong> covariance Σ=Q −1 avec Q=τ(I N×N +φH).H s,t =⎧⎪⎨⎪⎩h s−h s,tsi s=tsi t∈ν(s)0 sinonAvec h s,t > 0 mesure <strong>de</strong> similarité <strong>en</strong>tre le site s et le site t du réseau S, h s,t = h t,s ,et h s =∑ t∈ν(s) h s,t .Sur la figure (IV.29) on fait varier les valeurs φ=0,1,2,10 et nous pr<strong>en</strong>ons <strong>de</strong>svaleurs fixes pour h s,t = 1 <strong>de</strong> τ= 1. Nous concé<strong>de</strong>rons que le système <strong>de</strong> voisinageest celui <strong>de</strong> 4-plus proche voisin. Et pour le champ Y , pour tout n y n ∼N(0,1) et<strong>de</strong> covariance cov(u n ,y n )=0.95. Le champ X est un champ discret à <strong>de</strong>ux classesobt<strong>en</strong>us par filtre Logit a=1 et b=1. Les 4 lignes sur la figure (IV.29) repres<strong>en</strong>tantles différ<strong>en</strong>tes valeurs <strong>de</strong> φ. les colonnes sont les processus : X, U, Y et Xr la<strong>restauration</strong> <strong>de</strong> X à partir <strong>de</strong> Y <strong>en</strong> mo<strong>de</strong> supervisé.96


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETX U Y XrFigure IV.29 – Simulation du champ triplet(X,U,Y) et <strong>restauration</strong> <strong>en</strong> mo<strong>de</strong>superviséPour calculer la loi p(x n ∣y 1∶N ), nous calculons <strong>en</strong> premier lieu le vecteur moy<strong>en</strong><strong>de</strong> U 1∶N conditionnellem<strong>en</strong>t à y 1∶N ainsi que l’inverse <strong>de</strong> la matrice <strong>de</strong> covariance , quisont donnés par les équations (IV.72) et (IV.73). Une fois nous avons le vecteur µ ∗ etla matrice Σ −1,∗ =Q ∗ , la loi p(u n ∣y 1∶N ) est une gaussi<strong>en</strong>ne dont la moy<strong>en</strong>ne et la variancesont respectivem<strong>en</strong>t µ ∗ n et Σ ∗ n,n. En second lieu, nous utilisons l’approximation<strong>de</strong> Laplace (voir annexe (B)) pour approcher l’intégrale sur u <strong>de</strong> p(x n ∣u n )p(u n ∣y 1∶N )qui à la forme suivante :avec M=1 et f(u) est donné par :I=∫ Rexp[Mf(u)]du,2f(u)=a i u+b i −log( ∑exp(a j u+b j ))− (u−µ∗ n) 2j=1 2πΣ ∗ n,n−log( √ 2πΣ ∗ n,n)La fonction f admet un développem<strong>en</strong>t <strong>de</strong> Taylor <strong>en</strong> u ∗ ( qui est un optimum calculéà partir <strong>de</strong>s paramètres a i ,b i ,µ ∗ n et Σ ∗ n,n ) à l’ordre 2 :f(u)≃ 1 2 f′′ (u ∗ )(u−u ∗ ) 2 +f(u ∗ )97


CHAPITRE IV. MODÈLE DE MARKOV TRIPLETL’approximation <strong>de</strong> p(x n ∣y 1∶N ) est donnée par :√2πp(x n ∣y 1∶N )≃exp[f(u ∗ )]∣f”(u ∗ )∣Enfin, pour estimer X nous utilisons la solution MPM.IV.4 ConclusionDans ce chapitre, nous avons traité <strong>de</strong>s modèles <strong>de</strong> <strong>Markov</strong> <strong>triplets</strong> avec le processuscaché X discret.Dans un premier temps nous avons rappelé les modèles réc<strong>en</strong>ts avec U égalem<strong>en</strong>tdiscret; plus particulièrem<strong>en</strong>t, nous avons exposé les modèles M-stationnaires etles modèles semi-markovi<strong>en</strong>s cachés. Nous avons proposé <strong>de</strong>s simulations originalesavec ces modèles et avons appliqué un modèle M-stationnaire à la segm<strong>en</strong>tationd’une image radar réelle. Toutes ces expéri<strong>en</strong>ces confirm<strong>en</strong>t l’intérêt pratique <strong>de</strong> cesmodélisations.Dans un <strong>de</strong>uxième temps nous avons prés<strong>en</strong>té <strong>de</strong>ux nouveaux modèles <strong>triplets</strong>avec U continu. Sachant que X est discret nous les appelons "modèles <strong>de</strong> <strong>Markov</strong><strong>triplets</strong> mixtes". L’idée était d’ét<strong>en</strong>dre la "M-stationnarité" à la non stationnarité"continue". Nous avons proposé <strong>de</strong>ux modèles originaux : chaîne <strong>de</strong> <strong>Markov</strong> tripletmixte et champ <strong>de</strong> <strong>Markov</strong> Gaussi<strong>en</strong> triplet mixte. Dans le cadre <strong>de</strong>s expéri<strong>en</strong>cesm<strong>en</strong>ées ces modèles se sont révélés moins efficaces pour traiter la non stationnaritéque les modèles avec U discret et d’autres étu<strong>de</strong>s sont nécessaires pour cerner pleinem<strong>en</strong>tleur intérêt pratique dans ce domaine. Cep<strong>en</strong>dant, les chaînes <strong>de</strong> <strong>Markov</strong><strong>triplets</strong> mixtes se sont montrées plus efficaces que les chaînes <strong>de</strong> <strong>Markov</strong> cachéesclassiques pour traiter <strong>de</strong>s données avec du bruit fortem<strong>en</strong>t corrélé.Dans le chapitre suivant, nous proposons <strong>de</strong>s nouveaux modèles permettant <strong>de</strong>faire du filtrage et du lissage exacts dans le cas <strong>de</strong>s certains modèles cachés à sautsaléatoires. Les natures <strong>de</strong> U et X seront ainsi inversées : U est discret et X estcontinu. Plus particulièrem<strong>en</strong>t, ces modèles permettront <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> considération<strong>de</strong>s bruits à mémoire longue.98


Chapitre VChaînes conditionnellem<strong>en</strong>t linéairesà sauts markovi<strong>en</strong>sDans ce chapitre, nous proposons un nouveau modèle <strong>de</strong> chaîne triplet « partiellem<strong>en</strong>t» <strong>de</strong> <strong>Markov</strong> qui permet <strong>de</strong> calculer, <strong>en</strong> prés<strong>en</strong>ce <strong>de</strong>s sauts, le filtrage etle lissage optimaux avec une complexité linéaire <strong>en</strong> nombre d’observations. Dans cemodèle, nous considérons un triplet T=(X,R,Y) où X et Y sont <strong>de</strong>ux processus àespace d’état continu aux valeurs respectivem<strong>en</strong>t dansX etY. Le processus R estun processus discret qui modélisera les sauts du système considéré. La nouveauté<strong>de</strong> ce travail, fait <strong>en</strong> collaboration avec Noufel Abbassi, est <strong>de</strong> considérer pour la loi<strong>de</strong> Y conditionnellem<strong>en</strong>t à R une loi à mémoire longue. Nous proposons un modèlegénéral dans lequel le filtrage et le lissage exacts sont possibles avec une complexitélinéaire <strong>en</strong> nombre d’observations. Nous discutons égalem<strong>en</strong>t sa position par rapportaux modélisations classiques dans lesquelles les calculs avec une telle complexité nesont pas possibles et donc on doit faire <strong>de</strong>s approximations. Parmi les métho<strong>de</strong>sd’approximation celle <strong>de</strong> type « filtrage particulaire » est actuellem<strong>en</strong>t sans doute laplus utilisée.Nous comm<strong>en</strong>çons par donner différ<strong>en</strong>tes définitions concernant les processusà longue mémoire ainsi qu’un exemple classique d’un tel processus. Ensuite nousprés<strong>en</strong>tons le modèle <strong>de</strong> la chaîne couple partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> qui permet <strong>de</strong>pr<strong>en</strong>dre <strong>en</strong> considération la mémoire longue. Enfin, nous prés<strong>en</strong>tons le modèle àsaut avec la mémoire longue et précisons les formules du filtre optimal.V.1 Processus à mémoire longueDans cette sous-section, Y=(Y n ) n∈Z est un processus aléatoire dont les composantesY n sont à valeurs dans R.Rappelons que l’on définit L 2 (Ω,P) comme l’<strong>en</strong>semble <strong>de</strong>s v.a Y ∶ Ω→R telleque∥Y∥ 2 =[E(Y 2 )] 1 2 est finie. On dit alors que Y est <strong>de</strong> carré integrable. L 2 (Ω,P)muni du produit scalaire= E[XY] est un espace d’Hilbert. Pour X etY∈L 2 (Ω,P) on note :– σ 2 X = E(∣X− E(X)∣2 ) la variance <strong>de</strong> X ;– Γ(X,Y)=E([X− E(X)][Y− E(Y)]) la covariance <strong>de</strong> X et Y ;– ρ(X,Y)= Γ(X,Y)σ X σ Yle cœffici<strong>en</strong>t <strong>de</strong> corrélation <strong>de</strong> X et Y .99


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSOn dit que Y =(Y n ) n∈Z est un processus aléatoire réel du second ordre si pourtout n∈Z, Y n est <strong>de</strong> carré integrable.Définition V.1 Soit Y =(Y n ) n∈Z un processus réel. Y est stationnaire du secondordre si Y est un processus <strong>de</strong> second ordre dont la moy<strong>en</strong>ne et la covariance sontinvariantes par translation :µ(n)=E(Y n )=µΓ(Y p ,Y n )=γ(n−p)La famille(γ(h)) h∈Z est appelée « la famille <strong>de</strong>s covariances ».Définition V.2 Une fonction C <strong>de</strong> R dans R est à variation l<strong>en</strong>te si pour toutx>0, C(tx)/C(t) t<strong>en</strong>d vers 1 quand t t<strong>en</strong>d vers l’infini.L’exemple classique <strong>de</strong> fonctions à variation l<strong>en</strong>te sont les fonctions constantesC(h)↦C.Définition V.3 Soit Y=(Y n ) n∈Z un processus réel stationnaire du second ordre. Yest dit à "dép<strong>en</strong>dance longue" (ou à "mémoire longue") s’il existe un α∈]0,1[ etune fonction à variation bornée C(h) telle que la famille <strong>de</strong>s covariances(γ(h)) h∈Zest équival<strong>en</strong>te à C(h).h −α quand h t<strong>en</strong>d vers+∞ et on note γ(h) ∼+∞C(h).h −αlimh→+∞ hα γ(h)=C(h)(V.1)Nous pouvons remarquer que dans un processus à mémoire longue nous avons∑ h∈N ∣γ(h)∣=+∞. Dans les cas où cette somme est finie le processus Y est dità "mémoire courte". En particulier, les chaînes <strong>de</strong> <strong>Markov</strong> sont <strong>de</strong>s processus àmémoire courte.L’exemple le plus connu dans la littérature sur les processus à mémoire longuesont les processus « Auto-régressifs-moy<strong>en</strong>nes mobiles fractionnaire » (FARIMA(p,d,q))[56, 58, 81], qui généralis<strong>en</strong>t les processus ARIMA(p,d,q) [15]. On montre que siY =(Y n ) n∈Z est un processus FARIMA(0,d,0) alors sa famille <strong>de</strong> covariance estéquival<strong>en</strong>te à :Γ(1−2d)γ(h) ∼h→+∞ Γ(d)Γ(1−d) σ2 εh 2d−1(V.2)Pour un processus FARIMA on a donc : α=1−2d.Un exemple <strong>de</strong> simulation d’un processus FARIMA est prés<strong>en</strong>té à la figure (V.1).100


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSFigure V.1 – Simulation d’un FARIMA(0,0.49,0),N=1000Beaucoup <strong>de</strong> phénomènes aléatoires doiv<strong>en</strong>t être modélisés par <strong>de</strong>s processus àmémoire longue; <strong>en</strong> particulier, ces phénomènes apparairess<strong>en</strong>t <strong>en</strong> économie, informatique,... [41]. Bi<strong>en</strong> <strong>en</strong>t<strong>en</strong>du, les processus à mémoire longue peuv<strong>en</strong>t prés<strong>en</strong>ter <strong>de</strong>s« non-stationnarités » , ou <strong>de</strong>s « sauts », modélisés par un processus aléatoire discret.Sachant qu’un processus à mémoire longue n’est pas un processus <strong>de</strong> <strong>Markov</strong>, lesmodèles par chaînes <strong>de</strong> <strong>Markov</strong> couple ne peuv<strong>en</strong>t s’appliquer dans ce contexte. Leproblème peut être modélisé par une chaîne « partiellem<strong>en</strong>t » <strong>de</strong> <strong>Markov</strong> récemm<strong>en</strong>tintroduite et étudiée dans [65], que nous prés<strong>en</strong>tons dans la section suivante.V.2 Chaîne couple partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> (CCPM)Dans cette section, nous prés<strong>en</strong>tons le modèle <strong>de</strong> chaînes couples partiellem<strong>en</strong>t<strong>de</strong> <strong>Markov</strong> qui a été proposé dans l’article <strong>de</strong> Pieczynski [94]; voir égalem<strong>en</strong>t lesthèses [64,70]. Dans le cas particulier où le processus caché discret, modélisant lessauts, est markovi<strong>en</strong> et les lois du processus observé conditionnellem<strong>en</strong>t au processuscaché sont gaussi<strong>en</strong>s, il est possible <strong>de</strong> calculer les marginales a posteriori avec unecomplexité linéaire <strong>en</strong> nombre d’observations. De plus, la métho<strong>de</strong> ICE a été ét<strong>en</strong>dueà ce cas et les traitem<strong>en</strong>ts bayési<strong>en</strong>s peuv<strong>en</strong>t être faits <strong>en</strong> non supervisés.V.2.1 Prés<strong>en</strong>tation <strong>de</strong>s CCPMSoi<strong>en</strong>t X=(X n ) 1∶N et Y =(Y n ) 1∶N <strong>de</strong>ux processus aléatoires, avec les X n etles Y n à valeurs respectivem<strong>en</strong>t dans un espace finiX={ω 1 ,..,ω K } etY= R. Onnote par Z=(Z n ) 1∶N le processus couple(X,Y), avec que pour tout 1≤n≤N,Z n =(X n ,Y n ).Définition V.4 On dit que Z=(Z n ) 1∶N est une « chaîne couple partiellem<strong>en</strong>t <strong>de</strong><strong>Markov</strong> » (CCPM) si sa distribution p(z 1∶N ) vérifie :Np(z 1∶N )=p(z 1 ) ∏p(z n ∣x n−1 ,y 1∶n−1 ).n=2(V.3)101


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSNotons que dans une CCPM nous avons l’indép<strong>en</strong>dance conditionnelle suivante :Z n+1∶N X 1∶n−1 ∣(Z n ,Y 1∶n−1 )(V.4)Par ailleurs, les transitions p(z n ∣z 1∶n−1 ) peuv<strong>en</strong>t s’écrire :p(z n ∣z 1∶n−1 )=p(x n ∣x n−1 ,y 1∶n−1 )p(y n ∣x n ,x n−1 ,y 1∶n−1 )(V.5)Notons égalem<strong>en</strong>t que dans le cas général, aucun <strong>de</strong>s processus X, Z n’est ainsinécessairem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong>. Cep<strong>en</strong>dant, l’important est que la loi <strong>de</strong>X conditionnelleà Y est markovi<strong>en</strong>ne. Cette propriété fait l’objet <strong>de</strong> la proposition suivante.Proposition V.1 Soit Z =(X n ,Y n ) 1∶N une CCPM. Alors la distribution <strong>de</strong> Xconditionnelle à Y=y 1∶N est markovi<strong>en</strong>ne.Preuve : Nous avons :p(x n ∣x 1∶n−1 ,y) = ∑x n+1∶Np(x n ,x n+1∶N ∣x 1∶n−1 ,y)= ∑ x n+1∶Np(z)∑ xn∶Np(z)= ∑ x n+1∶Np(z 1∶n−1 )p(z n ,z n+1∶N ∣z 1∶n−1 )∑ xn∶Np(z 1∶n−1 )p(z n∶N ∣z 1∶n−1 )= ∑ x n+1∶Np(z 1∶n−1 )p(z n ∣z 1∶n−1 )p(z n+1∶N ∣z 1∶n )∑ xn∶Np(z 1∶n−1 )p(z n∶N ∣z 1∶n−1 )= p(z n ∣z 1∶n−1 ) ∑ x n+1∶Np(z n+1∶N ∣z 1∶n )∑ xn∶Np(z n∶N ∣z 1∶n−1 )D’après (V.5) on ap(z n ∣z 1∶n−1 )=p(z n ∣z n−1 ,y 1∶n−2 ) etp(z n∶N ∣z 1∶n−1 )=p(z n∶N ∣z n−1 ,y 1∶n−2 ),d’où :Par ailleurs :p(x n ∣x 1∶n−1 ,y) = p(z n ∣z n−1 ,y 1∶n−2 ) ∑ x n+1∶Np(z n+1∶N ∣z n ,y 1∶n−1 )∑ xn∶Np(z n∶N ∣z n−1 ,y 1∶n−2 )= p(z n ∣z n−1 ,y 1∶n−2 ) p(y n+1∶N∣z n ,y 1∶n−1 )p(y n∶N ∣z n−1 ,y 1∶n−2 )p(x n−1 ,y 1∶N ) = p(x n−1 ,y 1∶n−1 )p(y n∶N ∣x n−1 ,y 1∶n−1 )et <strong>en</strong> utilisant y n+1∶N x n−1 ∣z n ,y 1∶n−1 := p(x n−1 ,y 1∶n−1 )p(y n∶N ∣z n−1 ,y 1∶n−2 )102p(x n ,x n−1 ,y 1∶N ) = p(x n−1 ,y 1∶n−1 )p(x n ,y n∶N ∣x n−1 ,y 1∶n−1 )= p(x n−1 ,y 1∶n−1 )p(x n ,y n ∣x n−1 ,y 1∶n−1 )p(y n+1∶N ∣x n−1∶n ,y 1∶n )= p(x n−1 ,y 1∶n−1 )p(z n ∣z n−1 ,y 1∶n−2 )p(y n+1∶N ∣x n−1∶n ,y 1∶n )= p(x n−1 ,y 1∶n−1 )p(z n ∣z n−1 ,y 1∶n−2 )p(y n+1∶N ∣z n ,x n−1 ,y 1∶n−1 )= p(x n−1 ,y 1∶n−1 )p(z n ∣z n−1 ,y 1∶n−2 )p(y n+1∶N ∣z n ,y 1∶n−1 )


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSpar i<strong>de</strong>ntification nous obt<strong>en</strong>ons :p(x n ∣x 1∶n−1 ,y 1∶N )=p(x n ∣x n−1 ,y 1∶N )(V.6)d’où le résultatLe fait que la loi a posteriori soit celle d’une chaîne <strong>de</strong> <strong>Markov</strong> permet d’utiliserles algorithmes classiques <strong>de</strong> <strong>restauration</strong> tels que le filtrage <strong>de</strong> Kalman ou l’algorithme<strong>de</strong> Baum-Welsh. Cep<strong>en</strong>dant, une condition supplém<strong>en</strong>taire liée à la mémoirelongue apparaît : les quantités p(z n ∣z n−1 ,y 1∶n−2 ) doiv<strong>en</strong>t être calculables. En effet,nous avons :p(x n ∣y 1∶N )∝̃α n (x n )̃β n (x n )(V.7)̃β n (x n )p(x n ∣x n−1 ,y 1∶N )=p(z n ∣z n−1 ,y 1∶n−2 )̃β n−1 (x n−1 )(V.8)avec les̃α n (x n )=p(x n ,y 1∶n ) et les̃β n (x n )=p(y n+1∶N ∣x n ,y 1∶n ) calculables par récurr<strong>en</strong>ce:̃α 1 (x 1 )=p(x 1 ,y 1 ) et∀n≥2, ̃α n (x n )=∑x n−1̃α n−1 (x n−1 )p(z n ∣z n−1 ,y 1∶n−2 )(V.9)̃β N (x N )=1 et∀n≤N−1, ̃βn (x n )=∑x n+1̃βn+1 (x n+1 )p(z n+1 ∣z n ,y 1∶n−1 )(V.10)Ainsi toutes quantités sont calculables dès que p(z n ∣z n−1 ,y 1∶n−2 ) apparaissant dans lecalcul <strong>de</strong>s̃α n (x n ) et les̃β n (x n ) sont calculables. Dans le cas où Y est un processusgaussi<strong>en</strong> conditionnellem<strong>en</strong>t à X, que nous précisons ci-après, ces quantités sontcalculables grâce aux propriétés <strong>de</strong>s vecteurs gaussi<strong>en</strong>s (voir Annexe.C). Dans lasuite nous nous intéressons au cas où p(y∣x) est la loi d’un processus gaussi<strong>en</strong> àmémoire longue.V.2.2 Chaînes <strong>de</strong> <strong>Markov</strong> cachées par du bruit gaussi<strong>en</strong>(CMC-BG)Plusieurs types <strong>de</strong> modèles ont été proposés par J. Lapuya<strong>de</strong> dans [70], quipermett<strong>en</strong>t <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> considération les données à mémoire longue et d’appliquerles algorithmes <strong>de</strong> <strong>restauration</strong> <strong>de</strong>s données manquantes. Parmi ces <strong>de</strong>rniers nouspouvons citer le modèle <strong>de</strong> la chaîne <strong>de</strong> <strong>Markov</strong> cachée par du bruit gaussi<strong>en</strong> (CMC-BG). Les hypothèses <strong>de</strong> ce modèle, dans lequel les calculs <strong>de</strong>s quantités d’intérêtsont possibles avec une complexité linéaire <strong>en</strong> N sont les suivantes :Définition V.5 Soit une chaîne couple Z=(X n ,Y n ) 1∶N , dont les X n sont à valeursdansX={ω 1 ,...,ω K } et les Y n sont à valeurs dansY= R. Soi<strong>en</strong>t q i ,..,q K distributionsgaussi<strong>en</strong>nes sur R N , chaqueq i définissantN−1 transitions q i (y 2 ∣y 1 ),..,q i (y N ∣y N−1 ).La chaîne Z est dite « chaîne <strong>de</strong> <strong>Markov</strong> cachée par du bruit gaussi<strong>en</strong> » (CMC-BG)si sa loi vérifie :103


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENS1. p(x n+1 ∣x n ,y 1∶n )=p(x n+1 ∣x n );2. p(y n+1 ∣x n ,x n+1 ,y 1∶n )=p(y n+1 ∣x n+1 ,y 1∶n );3. p(y n+1 ∣x n+1 =ω i ,y 1∶n )=q i (y n+1 ∣y 1∶n ).Notons que dans une CMC-BC la chaîne cachée X est markovi<strong>en</strong>ne. La loi d’uneCMC-BG est ainsi donnée par la loi <strong>de</strong> X et K lois <strong>de</strong>s K processus gaussi<strong>en</strong>sdéfinies par les lois p(y 1∶n+1 ∣x n+1 = ω 1 ), ..., p(y 1∶n+1 ∣x n+1 = ω K ), ces <strong>de</strong>rnières étantdonnées par les K lois gaussi<strong>en</strong>nes, correspondant aux K classes, du vecteur Y 1∶N .Notons égalem<strong>en</strong>t que le point 2. n’est pas indisp<strong>en</strong>sable; cep<strong>en</strong>dant, on simplifielégèrem<strong>en</strong>t le modèle pour le r<strong>en</strong>dre plus "parlant" (dans la version simplifiée l<strong>en</strong>ombre <strong>de</strong>s bruitages gaussi<strong>en</strong>s différ<strong>en</strong>ts correspond au nombre <strong>de</strong>s classes).Les quantités p(z n ∣z n−1 ,y 1∶n−2 ) sont alors calculables dans une récurr<strong>en</strong>ce préalableprogressive. En effet, les moy<strong>en</strong>nes̃m xn+1 et les variances̃γ xn+1 <strong>de</strong>s loisp(y n+1 ∣x n+1 ,y 1∶n )peuv<strong>en</strong>t être calculées par les récurr<strong>en</strong>ces suivantes. On pose y 1 ∣x 1 ∼N(m x1 ,γ x1 (0))et pour tout 1≤n≤N− 1, y n+1 ∣x n+1 ∼N(m xn+1 ,γ xn+1 (0)). Les matrices d’autocorrélationcorrespondant aux K lois gaussi<strong>en</strong>nes du vecteur Y 1∶N sont donc supposéesconnues :Γ n+1x n+1=⎛⎜⎝γ xn+1 (0) γ xn+1 (1) ... γ xn+1 (n)γ xn+1 (1) γ xn+1 (0) ... γ xn+1 (n−1)⋮ ⋮ ⋱ ⋮γ xn+1 (n) γ xn+1 (n−1) ... γ xn+1 (0)⎞⎟⎠=( Γn x n+1 Γ 2,1x n+1Γ 1,2x n+1γ xn+1 (0) )En utilisant les propriétés <strong>de</strong> vecteurs gaussi<strong>en</strong>s (voir Annexe C), nous obt<strong>en</strong>ons :̃m xn+1 =m xn+1 +Γ 2,1x n+1(Γ n x n+1) −1 (y 1∶n −m n x n+1)(V.11)̃γ xn+1 =γ xn+1 −Γ 2,1x n+1(Γ n x n+1) −1 Γ 1,2x n+1(V.12)avecm n x n+1=(m xn+1 ,...,m xn+1 ). Nous pouvons égalem<strong>en</strong>t calculer les lois gaussi<strong>en</strong>nesn foisp(y 1∶n+1 ∣x 1∶n+1 )∼N(M x1∶n+1 ,Γ x1∶n+1 ) par récurr<strong>en</strong>ce :● Initialisation :M x1 =m x1 et Γ x1 =γ x1 (0)●∀ 2≤n≤NM x1∶n+1 =(M x1∶nm xn+1 +Γ 2,1x n+1(Γ n x n+1) −1 [M x1∶n −m n x n+1] ) et(V.13)Γ x1∶n+1 =(Γ x1∶n Γ x1∶n (Γ n x n+1) −1 Γ 1,2x n+1Γ 2,1x n+1(Γ n x n+1) −1 Γ x1∶n γ xn+1 (0)+Γ 2,1x n+1(Γ n x n+1) −1 [Γ x1∶n (Γ n x n+1) −1 Γ 1,2x n+1−Γ 1,2(V.14)Le modèle CMC-BG est général dans la mesure où les matrices <strong>de</strong>s covariance ci<strong>de</strong>ssussont quelconques. Lorsque ces matrices définiss<strong>en</strong>t <strong>de</strong>s distributions gaussi<strong>en</strong>nes« à mémoire longue », on obti<strong>en</strong>t le modèle « chaîne <strong>de</strong> <strong>Markov</strong> cachée pardu bruit gaussi<strong>en</strong> à mémoire longue » (CMC-GML) :104x n+1] )


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSDéfinition V.6 Une CMC-BG est dite « chaîne <strong>de</strong> <strong>Markov</strong> cachée par du bruitgaussi<strong>en</strong> à mémoire longue » (CMC-GML) si les K lois gaussi<strong>en</strong>nes, correspondantaux K classes, du vecteur Y 1∶N sont à mémoire longue.Les <strong>de</strong>ux modèles sont <strong>de</strong>s « chaînes <strong>de</strong> <strong>Markov</strong> cachées » car l’hypothèse 1.implique immédiatem<strong>en</strong>t la markovianité du processus caché X.Ainsi dans le modèle CMC-BG nous pouvons calculer les quantitésp(z n+1 ∣z n ,y 1∶n−1 )nécessaires pour faire <strong>de</strong> la <strong>restauration</strong> <strong>de</strong>s données manquantes. Notons que cestransitions se prés<strong>en</strong>t<strong>en</strong>t sous forme simplifiée :p(z n+1 ∣z n ,y 1∶n−1 )=p(x n+1 ∣x n )p(y n+1 ∣x n+1 ,y 1∶n )(V.15)Dans certains cas où les corrélations sont paramétrisées, il est possible d’appliquerune version ét<strong>en</strong>due <strong>de</strong> l’ICE pour estimer les paramètres. Cep<strong>en</strong>dant, cetteadaptation n’est pas immédiate [65,73]. Nous revi<strong>en</strong>drons à cette question dans la<strong>de</strong>rnière section <strong>de</strong> ce chapitre, où l’ICE sera utilisée pour proposer <strong>de</strong>s métho<strong>de</strong>s"semi-supervisées" <strong>de</strong> filtrage.Notons que le modèle CMC-BG prés<strong>en</strong>te un certain nombre <strong>de</strong> propriétés inhabituelles;<strong>en</strong> particulier, la loi <strong>de</strong> Y n conditionnelle à X 1 ,...,X n dép<strong>en</strong>d <strong>de</strong> tous lesX 1 ,...,X n .V.3 Modèle conditionnellem<strong>en</strong>t linéaire à sauts markovi<strong>en</strong>sDans cette section, nous proposons <strong>de</strong>s nouveaux modèles aléatoires <strong>triplets</strong>,qui permett<strong>en</strong>t <strong>de</strong> faire un calcul exact avec une complexité linéaire <strong>en</strong> nombred’observations <strong>de</strong> E[X n ∣y 1∶n ] et E[X n ∣y 1∶N ] <strong>en</strong> prés<strong>en</strong>ce <strong>de</strong> sauts aléatoires. La nouveautéconsiste dans la prise <strong>en</strong> compte, au sein <strong>de</strong> ces modèles <strong>triplets</strong>, <strong>de</strong>s modèlesCMC-BG brièvem<strong>en</strong>t rappelés dans la sous-section précé<strong>de</strong>nte. En particulier, nouspourrons donc utiliser les CMC-GML.Soi<strong>en</strong>t X =(X n ) 1∶N et Y =(Y n ) 1∶N <strong>de</strong>ux processus aléatoires. Pour tout 1≤n≤N, X n et Y n sont à valeurs dans l’<strong>en</strong>semble <strong>de</strong>s réels R. Soit R=(R n ) 1∶N unprocessus discret dont les composantes R n pr<strong>en</strong>n<strong>en</strong>t leurs valeurs dans un espacefini Ω={ω 1 ,...,ω K }. Nous supposons que Y 1∶N sont observées et que X 1∶N et R 1∶Nne le sont pas. Le problème est alors d’estimer les réalisations <strong>de</strong>s X 1∶N et R 1∶N àpartir <strong>de</strong>s réalisations <strong>de</strong> Y 1∶N .Dans la première sous-section ci-après nous rappelons le modèle classique etprécisons les difficultés du calcul exact <strong>de</strong>s quantités E[X n ∣y 1∶n ] et E[X n ∣y 1∶N ]. La<strong>de</strong>uxième sous-section est consacrée aux modèles réc<strong>en</strong>ts, par chaînes <strong>de</strong> <strong>Markov</strong><strong>triplets</strong>, permettant ce calcul avec une complexité raisonnable. Notre modèle estprés<strong>en</strong>té dans la troisième sous-section.V.3.1 Modèle ClassiqueLe modèle classique consiste à considérer que le processus <strong>de</strong>s sauts est markovi<strong>en</strong>,et conditionnellem<strong>en</strong>t aux sauts le couple(X,Y) est un système linéaire. Afin105


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENS<strong>de</strong> faciliter les comparaisons, supposons que le système est gaussi<strong>en</strong>. Cela s’écrit <strong>de</strong>la façon suivante :R 1∶N est une chaîne <strong>de</strong> <strong>Markov</strong>;(V.16)X n = F n (R n )X n−1 +V n (R n ); (V.17)Y n = G n (R n )X n +W n (R n ), (V.18)où V 1∶N et W 1∶N sont <strong>de</strong>ux vecteurs gaussi<strong>en</strong>s, et X 1 ,V 1 ,...,V N ,W 1 ,...,W N sont indép<strong>en</strong>dantset dép<strong>en</strong><strong>de</strong>nt <strong>de</strong> R n . Pour tout 1≤n≤N, F n et G n dép<strong>en</strong><strong>de</strong>nt égalem<strong>en</strong>t<strong>de</strong> R n .Considérons le problème <strong>de</strong> filtrage optimal (au s<strong>en</strong>s <strong>de</strong> l’erreur quadratiquemoy<strong>en</strong>ne), qui est <strong>de</strong> calculer E[X n+1 ∣y 1∶n+1 ] et V[X n+1 ∣y 1∶n+1 ]. Nous avons :E[X n+1 ∣y 1∶n+1 ]=∑r n+1p(r n+1 ∣y 1∶n+1 )E[X n+1 ∣r n+1 ,y 1∶n+1 ](V.19)on cherche alors une relation <strong>de</strong> récurr<strong>en</strong>ce <strong>en</strong>tre p(r n+1 ∣y 1∶n+1 ) et p(r n ∣y 1∶n ). Nousavons :p(r n+1 ∣y 1∶n+1 )=∑p(r n+1 ,r n ∣y 1∶n+1 )= ∑ r np(r n+1 ,y n+1 ∣r n ,y 1∶n )p(r n ∣y 1∶n )r np(y n+1 ∣y 1∶n )(V.20)et pour le calcul <strong>de</strong> p(x n+1 ∣r n+1 ,y 1∶n+1 ) nous avons les relations suivantes :p(x n+1 ∣r n+1 ,y 1∶n )=∫ Rp(x n+1 ∣x n ,r n+1 )p(x n ∣r n+1 ,y 1∶n )dx n(V.21)p(x n+1 ∣r n+1 ,y 1∶n+1 )= p(x n+1∣r n+1 ,y 1∶n )p(y n+1 ∣x n+1 ,r n+1 )p(y n+1 ∣r n+1 ,y 1∶n )(V.22)On résout alors le problème classiquem<strong>en</strong>t « à sauts fixés »; <strong>en</strong> effet, dans le casoù R 1∶N est connu, <strong>de</strong>s versions du filtre <strong>de</strong> Kalman sont applicables à ce modèlepour calculer les quantités, E[X n ∣r n ,y 1∶n ] dans le cas du filtrage [18, 43, 44, 46] etE[X n ∣r n ,y 1∶N ] dans le cas du lissage [18,47]. Cep<strong>en</strong>dant, lorsque R 1∶N ne sont pasobservés, ces quantités ne sont pas calculables directem<strong>en</strong>t et doiv<strong>en</strong>t être approchées[1,31,40]. Les difficultés sont dues au fait que les distributions p(r n ∣y 1∶n ),p(y n+1 ∣y 1∶n ),et p(y n+1 ∣r n+1 ,y 1∶n ) ne sont pas calculables avec une complexité linéaire <strong>en</strong> N. Parcontre, si le couple(R 1∶N ,Y 1∶N ) est une chaîne <strong>de</strong> <strong>Markov</strong> classique ou une chaînepartiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> ces calculs sont possibles. Dans la suite, nous prés<strong>en</strong>tons<strong>de</strong>ux modèles à saut <strong>Markov</strong>i<strong>en</strong> dans le premier nous supposons que le couple estune chaîne <strong>de</strong> <strong>Markov</strong> et le <strong>de</strong>uxième qu’elle est partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong>.V.3.2 Modèle conditionnellem<strong>en</strong>t linéaire à sauts markovi<strong>en</strong>s(CCLSM)L’idée <strong>de</strong> ce modèle est <strong>de</strong> modifier les hypothèses (V.16) et (V.18) par le faitque le couple(R 1∶N ,Y 1∶N ) est une chaîne <strong>de</strong> <strong>Markov</strong>. De manière générale, danstous les modèles classiques la loi du triplet(X,R,Y) est définie par la loi (markovi<strong>en</strong>ne)<strong>de</strong>(X,R) et les lois <strong>de</strong> Y conditionnelles à(X,R). Le couple(R,Y) n’estalors pas nécessairem<strong>en</strong>t markovi<strong>en</strong>, ce qui implique les difficultés m<strong>en</strong>tionnées dans106


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSla sous-section précé<strong>de</strong>nte. Dans les modèles récemm<strong>en</strong>t proposés [49,98,99] la loidu triplet(X,R,Y) est définie par la loi (markovi<strong>en</strong>ne) <strong>de</strong>(R,Y) et les lois <strong>de</strong> Xconditionnelles à(R,Y).Définition V.7 T=(X,R,Y) une chaîne triplet est dite une chaîne « conditionnellem<strong>en</strong>tlinéaire à sauts markovi<strong>en</strong>s » (CCLSM) si :1.(R,Y) est une chaîne <strong>de</strong> <strong>Markov</strong>;2. pour tout 2≤n≤N, X n =F n (R n ,Y n )X n−1 +G n (R n ,Y n )V n +H n (R n ,Y n )où F n (R n ,Y n ), G n (R n ,Y n ) et H n (R n ,Y n ) <strong>de</strong>s réels dép<strong>en</strong>dant <strong>de</strong>(R n ,Y n ). V 1 ,...,V Nsont c<strong>en</strong>trés, indép<strong>en</strong>dants, i<strong>de</strong>ntiquem<strong>en</strong>t distribués et vérifi<strong>en</strong>t : pour tout 1≤n≤N, V n (R 1∶N ,Y 1∶N )Notons que le mot "conditionnellem<strong>en</strong>t" dans CCLSM concerne aussi bi<strong>en</strong> lalinéarité du processus caché que la markovianité du processus <strong>de</strong>s sauts.Le filtrage et le lissage sont possibles dans CCLSM avec une complexité linéaire<strong>en</strong> nombre d’observations. Nous avons :FiltrageProposition V.2 SoitT=(X,R,Y)une chaîne conditionnellem<strong>en</strong>t linéaire à sautsmarkovi<strong>en</strong>s. Alors p(r n+1 ∣y 1∶n+1 ) et E[X n+1 ∣y 1∶n+1 ] sont calculables avec une complexitélinéaire <strong>en</strong> n.Preuve :(R,Y) est une chaîne <strong>de</strong> <strong>Markov</strong> <strong>de</strong> transition p(r n+1 ,y n+1 ∣r n ,y n ). Laprobabilité conditionnelleest calculable par récurr<strong>en</strong>ce :p(r n+1 ∣y 1∶n+1 )=p(r n+1 ,y 1∶n+1 )∑ rn+1p(r n+1 ,y 1∶n+1 )p(r n+1 ,y 1∶n+1 ) = ∑r np(r n+1 ,r n ,y 1∶n+1 )= ∑r np(r n ,y 1∶n )p(r n+1 ,y n+1 ∣r n ,y 1∶n )= ∑r np(r n ,y 1∶n )p(r n+1 ,y n+1 ∣r n ,y n )Nous pouvons écrire E[X n+1 ∣y 1∶n+1 ] sous la forme suivante :E[X n+1 ∣y 1∶n+1 ]=∑ rn+1E[X n+1 ∣r n+1 ,y 1∶n+1 ]p(r n+1 ∣y 1∶n+1 )E[X n+1 ∣r n+1 ,y 1∶n+1 ] est alors calculable par récurr<strong>en</strong>ce. Nous avons :E[X n+1 ∣r n+1 ,y 1∶n+1 ] = ∑r nE[X n+1 ∣r n ,r n+1 ,y 1∶n+1 ]p(r n ∣r n+1 ,y 1∶n+1 )= ∑r nF n+1 (r n+1 ,y n+1 )E[X n ∣r n ,y 1∶n ]p(r n ∣r n+1 ,y 1∶n+1 )+∑r nH n+1 (r n+1 ,y n+1 )p(r n ∣r n+1 ,y 1∶n+1 )107


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSPar ailleurs, la probabilité p(r n ∣r n+1 ,y 1∶n+1 ) est obt<strong>en</strong>ue à partir du p(r n ,r n+1 ,y 1∶n+1 )par :Lissagep(r n ∣r n+1 ,y 1∶n+1 ) = p(r n,r n+1 ,y 1∶n+1 )p(r n+1 ,y 1∶n+1 )= p(r n,y 1∶n )p(r n+1 ,y n+1 ∣r n ,y 1∶n )p(r n+1 ,y 1∶n+1 )p(r n ,y 1∶n )=p(r n+1 ,y 1∶n+1 ) p(r n+1,y n+1 ∣r n ,y 1∶n )p(r n ,y 1∶n )=p(r n+1 ,y 1∶n+1 ) p(r n+1,y n+1 ∣r n ,y n )Proposition V.3 SoitT=(X,R,Y)une chaîne conditionnellem<strong>en</strong>t linéaire à sautsmarkovi<strong>en</strong>s. Alors p(r n+1 ∣y 1∶N ) et E[X n+1 ∣y 1∶N ] sont calculables avec une complexitélinéaire <strong>en</strong> N.Preuve :(R,Y) est une chaîne <strong>de</strong> <strong>Markov</strong> <strong>de</strong> transition p(r n+1 ,y n+1 ∣r n ,y n ). On a :p(r n+1 ∣y 1∶N )=p(r n+1 ,y 1∶N )∑ rn+1p(r n+1 ,y 1∶N )p(r n+1 ,y 1∶N )=p(r n+1 ,y 1∶n+1 )p(y n+2∶N ∣r n+1 ,y 1∶n+1 )=α n+1 (r n+1 )β n+1 (r n+1 )avec α n+1 (r n+1 ) et β n+1 (r n+1 ) calculables par récurr<strong>en</strong>ce avec une complexité algorithmique<strong>de</strong> l’ordre N×K 2 .L’espérance conditionnelle E[X n+1 ∣r n+1 ,y 1∶N ] est alors calculable par la récurr<strong>en</strong>cesuivante :E[X n+1 ∣r n+1 ,y 1∶N ] = ∑r nE[X n+1 ∣r n ,r n+1 ,y 1∶N ]p(r n ∣r n+1 ,y 1∶N )= ∑r nF n+1 (r n+1 ,y n+1 )E[X n ∣r n ,y 1∶N ]p(r n ∣r n+1 ,y 1∶N )+∑r nH n+1 (r n+1 ,y n+1 )p(r n ∣r n+1 ,y 1∶N )avec p(r n ∣r n+1 ,y 1∶N )= αn(rn)α n+1 (r n+1 ) p(r n+1,y n+1 ∣r n ,y n ), ce qui termine la démonstration.V.3.3 CCLSM et bruit gaussi<strong>en</strong> à mémoire longueNous proposons dans cette sous-section notre modèle original, développé <strong>en</strong> collaborationavec Noufel Abbassi. L’idée générale est <strong>de</strong> remarquer que pour r<strong>en</strong>dreles calculs possibles il est suffisant <strong>de</strong> supposer que(R 1∶N ,Y 1∶N ) est une chaîne partiellem<strong>en</strong>t<strong>de</strong> <strong>Markov</strong>. De plus, comme précisé dans la sous-section 5.2.2 ci-<strong>de</strong>ssus,ces calculs sont simples dans le cas gaussi<strong>en</strong>. Globalem<strong>en</strong>t, notre modèle ressemble,<strong>en</strong> ce qui concerne la loi <strong>de</strong>(X 1∶N ,R 1∶N ) conditionnelle à(Y 1∶N ), au modèle « chaîneconditionnellem<strong>en</strong>t linéaire à sauts markovi<strong>en</strong>s » (CCLSM) considérée dans la soussectionprécé<strong>de</strong>nte; cep<strong>en</strong>dant, la loi du triplet(X 1∶N ,R 1∶N ,Y 1∶N ), qui n’est pas markovi<strong>en</strong>,est ici plus complexe. Cep<strong>en</strong>dant, l’important est que(R,Y)étant une chaîne108


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSpartiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong>, les calculs d’intérêt sont faisables dès que les transitionsp(z n ∣x n−1 ,y 1∶n−1 ) sont calculables.Il y a ainsi trois niveaux <strong>de</strong> généralité dans les nouveaux modèles.Au premier niveau, le plus général, nous avons un modèle i<strong>de</strong>ntique à CCLSMdéfini dans la sous-section précé<strong>de</strong>nte, sauf qu’ici(R,Y)est une chaîne partiellem<strong>en</strong>t<strong>de</strong> <strong>Markov</strong> et non <strong>de</strong> <strong>Markov</strong>. Ce modèle sera <strong>en</strong>core noté CCLSM ici; cep<strong>en</strong>dant,si cette différ<strong>en</strong>ce doit être spécifiée nous dirons que le nouveau modèle est un"CCLSM avec(R,Y) chaîne couple partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> (CCPM)" et nous l<strong>en</strong>oterons CCLSM-CCPM. Un tel modèle est très général; cep<strong>en</strong>dant, pour qu’il soitexploitable les transitions p(z n ∣x n−1 ,y 1∶n−1 ) doiv<strong>en</strong>t être calculables.Au <strong>de</strong>uxième niveau le processus(R,Y)est une CMC-BG. Les transitionsp(z n ∣x n−1 ,y 1∶n−1 )sont alors calculables et un tel modèle, qui sera au besoin appelé CCLSM-CMC-BG,est exploitable.Au troisième niveau le processus(R,Y) est une CMC-GML. C’est un cas particulieroù l’on considère <strong>de</strong>s bruits gaussi<strong>en</strong>s paramétrés "à mémoire longue". Aveccertaines paramétrisations il est alors possible d’estimer la loi <strong>de</strong>(R,Y) et proposer<strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> filtrage et <strong>de</strong> lissage "semi-supervisées". Un tel modèle sera notéappelé CCLSM-CMC-GML.Précisons la définition <strong>de</strong>s CCLSM-CMC-BG :Définition V.8 Soit T=(X,R,Y) une chaîne Triplet. T est une « chaîne conditionnellem<strong>en</strong>tlinéaire à sauts markovi<strong>en</strong>s et bruit gaussi<strong>en</strong> » (CCLSM-BG) :1.(R,Y) est une chaîne Gaussi<strong>en</strong>ne partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> (CGPM);2. pour tout 2≤n≤N, X n =F n (R n ,Y n )X n−1 +G n (R n ,Y n )V n +H n (R n ,Y n ),où F n (R n ,Y n ), G n (R n ,Y n ) et H n (R n ,Y n ) <strong>de</strong>s réels dép<strong>en</strong><strong>de</strong>nt <strong>de</strong>(R n ,Y n ). V 1 ,...,V Nsont c<strong>en</strong>trés, indép<strong>en</strong>dants et i<strong>de</strong>ntiquem<strong>en</strong>t distribués et pour tout 1≤n≤N, V n (R 1∶N ,Y 1∶N )L’important est que(R,Y) étant une chaîne Gaussi<strong>en</strong>ne partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong>,les transitions p(z n ∣x n−1 ,y 1∶n−1 ) sont calculables. Nous pouvons donc énoncer lerésultat suivant :Proposition V.4 SoitT=(X,R,Y)une chaîne conditionnellem<strong>en</strong>t linéaire à sautsmarkovi<strong>en</strong>s et bruit gaussi<strong>en</strong> (CCLSM-BG). Alors le lissage (resp. le filtrage ) estréalisable avec une complexité linéaire <strong>en</strong> N (resp. n).Preuve : La preuve est analogue aux preuves <strong>de</strong>s propositions (V.2) et (V.3). Eneffet, pour le lissage nous avons :E[X n+1 ∣r n+1 ,y 1∶N ] = ∑r nE[X n+1 ∣r n ,r n+1 ,y 1∶N ]p(r n ∣r n+1 ,y 1∶N )= ∑r nF n+1 (r n+1 ,y n+1 )E[X n ∣r n ,y 1∶N ]p(r n ∣r n+1 ,y 1∶N )+∑r nH n+1 (r n+1 ,y n+1 )p(r n ∣r n+1 ,y 1∶N )109


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSet pour le filtrage :E[X n+1 ∣r n+1 ,y 1∶n+1 ] = ∑r nE[X n+1 ∣r n ,r n+1 ,y 1∶n+1 ]p(r n ∣r n+1 ,y 1∶n+1 )= ∑r nF n+1 (r n+1 ,y n+1 )E[X n ∣r n ,y 1∶n ]p(r n ∣r n+1 ,y 1∶n+1 )+∑r nH n+1 (r n+1 ,y n+1 )p(r n ∣r n+1 ,y 1∶n+1 )les probabilitésp(r n ∣r n+1 ,y 1∶N ) etp(r n ∣r n+1 ,y 1∶n+1 ) sont calculables dès quep(r n ,y n+1 ∣r n−1 ,y 1∶n−1 )sont calculables, nous avons :etp(r n ∣r n+1 ,y 1∶N ) = p(r n,r n+1 ,y 1∶N )p(r n+1 ,y 1∶N )= p(r n,y 1∶n )p(y n+1∶N ,r n+1 ∣r n ,y 1∶n )̃α n+1 (r n+1 )̃β n+1 (r n+1 )= p(r n,y 1∶n )p(y n+2∶N ∣r n+1 ,y 1∶n+1 )p(r n+1 ,y n+1 ∣r n ,y 1∶n )̃α n+1 (r n+1 )̃β n+1 (r n+1 )̃α n (r n )=̃α n+1 (r n+1 ) p(r n+1,y n+1 ∣r n ,y 1∶n )p(r n ∣r n+1 ,y 1∶n+1 ) = p(r n,r n+1 ,y 1∶n+1 )p(r n+1 ,y 1∶n+1 )= p(r n,y 1∶n )p(r n+1 ,y n+1 ∣r n ,y 1∶n )p(r n+1 ,y 1∶n+1 )p(r n ,y 1∶n )=p(r n+1 ,y 1∶n+1 ) p(r n+1,y n+1 ∣r n ,y 1∶n )L’hypothèse que(R,Y) est une chaîne Gaussi<strong>en</strong>ne partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> permetainsi <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> considération <strong>de</strong>s chaînes à bruit <strong>de</strong> mémoire longue et <strong>de</strong> faire<strong>de</strong>s calculs exacts dans le cas d’un modèle à sauts markovi<strong>en</strong>s. On peut considérerle cas particulier <strong>de</strong>s CCLSM-BG, le le bruit gaussi<strong>en</strong> est "à mémoire longue". Nousappellerons ces modèles "chaîne conditionnellem<strong>en</strong>t linéaire à sauts markovi<strong>en</strong>s etbruit gaussi<strong>en</strong> à mémoire longue" (CCLSM-GML). En particulier, lorsque ce bruitest paramétré, il est possible d’estimer la loi <strong>de</strong>(R,Y) à partir <strong>de</strong> Y , ce qui permet<strong>de</strong> proposer <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> filtrage "semi-supervisées".Proposition V.5 SoitT=(X,R,Y)une chaîne conditionnellem<strong>en</strong>t linéaire à sautsmarkovi<strong>en</strong>s et bruit gaussi<strong>en</strong> à mémoire longue (CCLSM-GML). Alors le lissage (resp. le filtrage )est réalisable avec une complexité linéaire <strong>en</strong> N (resp. <strong>en</strong> n).Preuve : même preuve que la preuve <strong>de</strong> la proposition (V.4).Nous prés<strong>en</strong>tons dans la sous-section suivante quelques premiers résultats numériquesobt<strong>en</strong>us avec les modèles CCLSM-GML.110


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSV.4 Experim<strong>en</strong>tationsNous prés<strong>en</strong>tons <strong>de</strong>ux séries d’expérim<strong>en</strong>tations.Dans la première on s’intéresse à l’estimation du processus R (la recherche <strong>de</strong>ssauts). On simule <strong>de</strong>ux séries <strong>de</strong> données : une première selon le modèle classiqueCMC-BI et une <strong>de</strong>uxième selon le modèle CCPM. Chacune d’elles est segm<strong>en</strong>téepar la métho<strong>de</strong> bayési<strong>en</strong>ne MPM, avec les vrais paramètres ou <strong>en</strong> non supervisé,utilisant, respectivem<strong>en</strong>t, chacun <strong>de</strong>s <strong>de</strong>ux modèles.Dans la <strong>de</strong>uxième série on s’intéresse au filtrage exact fondé sur notre modèleCCLSM-GML. Nous comparons la qualité du filtrage obt<strong>en</strong>u "à R connu" avec celleobt<strong>en</strong>u dans le cas général où R est caché.Nous comm<strong>en</strong>çons par simuler une chaîne <strong>de</strong> <strong>Markov</strong> R à <strong>de</strong>ux classes et <strong>de</strong>taille N= 500. La chaîne est stationnaire avec la loi définie par p(ω 1 ,ω 1 )=0.495,p(ω 1 ,ω 2 )=0.05. La trajectoire obt<strong>en</strong>ue est prés<strong>en</strong>tée à la figure (V.2).21.510.50−0.5R−10 50 100 150 200 250 300 350 400 450 500Figure V.2 – R : Chaîne <strong>de</strong> <strong>Markov</strong> p(ω 1 ,ω 1 )=0.495 et p(ω 1 ,ω 2 )=0.05Ensuite, nous appliquons trois types <strong>de</strong> bruits sur la chaîne R : un bruit gaussi<strong>en</strong>indép<strong>en</strong>dant et <strong>de</strong>ux bruits gaussi<strong>en</strong>s à mémoire longue. Les trajectoires y1∶N 1 , y2 1∶Net y1∶N 3 obt<strong>en</strong>ues ainsi que les paramètres <strong>de</strong>s bruits sont prés<strong>en</strong>tés à la figure (V.3)Chacune <strong>de</strong> ces trajectoires est segm<strong>en</strong>tée par <strong>de</strong>ux métho<strong>de</strong>s bayési<strong>en</strong>nes MPM : lapremière utilise le modèle CMC-BI, et la <strong>de</strong>uxième utilise le modèle CCLSM-GML.Les segm<strong>en</strong>tations se font <strong>en</strong> non supervisé, les paramètres étant estimés par lamétho<strong>de</strong> ICE. Pour le modèle du CMC-BI, nous utilisons les estimateurs que nousavons détaillés dans le chapitre (III). Dans notre cas, où le bruit est stationnaire dusecond ordre avec une famille <strong>de</strong> covariance γ(h) <strong>de</strong> la forme :∀ h∈N, γ(h)=σ 2 (1+h) −α ,(V.23)les paramètres du modèle CCLSM-GML sont :◻ Pour la loi <strong>de</strong> la chaîne X : les K 2 paramètres p(x n =ω i ,x n+1 =ω j );◻ Pour la chaîne Y conditionnellem<strong>en</strong>t à X :Les K moy<strong>en</strong>nes m ωi ,Les K variances σ 2 ω i=γ ωi (0),Les K paramètres α ωi <strong>de</strong> la famille <strong>de</strong> covariance.111


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSNous utilisons comme estimateur pour p i,j = p(x n = ω i ,x n+1 = ω j ) à partir <strong>de</strong>sdonnées complètes l’estimateur classique donné par :̂p i,j (x,y)=N−11(N−1)∑n=11(x n =ω i ,x n+1 =ω j )À chaque itération(q) <strong>de</strong> l’algorithme ICE, l’espérance conditionnelle <strong>de</strong> l’estimateur̂p i,j est calculable et elle est donnée par :p (q+1)i,j=N−11(N−1)∑n=1p(x n =ω i ,x n+1 =ω j ∣y 1∶N ,θ (q) )Le fait que la loi <strong>de</strong> y n dép<strong>en</strong>d <strong>de</strong> tous les x k 1≤k≤n r<strong>en</strong>d la tache d’estimation <strong>de</strong>sparamètres m ωi et γ ωi (0) à partir <strong>de</strong>s données complètes non triviale. Pour illustrercette difficulté <strong>de</strong>s exemples sont donnés dans [66, 70], ainsi que une <strong>de</strong>scription<strong>de</strong> l’algorithme ICE pour différ<strong>en</strong>ts types <strong>de</strong> modèles (bruit stationnaire <strong>de</strong> secondordre, bruits gaussi<strong>en</strong>s fractionnaires, FARIMA). Dans le cas du bruit stationnaire<strong>de</strong> second ordre avec une famille <strong>de</strong> covariances considérée <strong>de</strong> la forme donnée par(V.23), l’algorithme ICE, pour estimer m ωi , σ ωi et α ωi , se déroule <strong>de</strong> la manièresuivante [66,70] :Algorithme V.1 Estimation <strong>de</strong>s paramètres m ωi , σ ωi et α ωi par ICE cas <strong>de</strong> bruitstationnaire <strong>de</strong> second ordre (V.23) :1. Sous θ (q) , calculer les <strong>de</strong>nsités p(y 1∶n+1 ∣x 1∶n+1 ) par la récurr<strong>en</strong>ce progressive(décrite par les équations (V.13) et (V.14)) et <strong>en</strong> utilisant m ωi =m (q)ω iet Γ n ω i=Γ n,(q)ω i;2. Considérer J(i)={n 1 ,..,n r } sous-<strong>en</strong>semble <strong>de</strong>{1,..,N} tel que∀1≤l≤r,x nl =x nl +1=ω i . Considérer les r échantillons correspondants(y n1 ,y n1 +1),..,(y nr ,y nr+1);3. soi<strong>en</strong>t∀1≤l≤r, M x (q)nl ∶n l +1et Γ (q)x nl ∶n l +1les vecteurs moy<strong>en</strong>ne et matrices <strong>de</strong>covariance <strong>de</strong> p(y nl ∶n l +1∣x 1∶nl +1) calculées dans l’étape (1). Calculer les transformations<strong>de</strong> Cholesky (IV.2) Γ (q)x nl ∶n l +1= C l Cl T et Γ 2,(q)ω i= D l Dl T et construireles r nouveaux échantillons,∀1≤l≤r :( ỹn lỹ nl +1)=D l C −1l [( y n ly nl +1)−M (q)x nl ∶n l +1](C T l )−1 D T l +m 2,(q)ω i;4. estimer les paramètres m ωi , σ 2 ω iet α ωi à partir <strong>de</strong> r nouveaux échantillonsobt<strong>en</strong>us l’étape dans (3) par :m (q+1)ω i= 1 2 (m(q+1) ω i ,(1) +m(q+1) ω i ,(2) );(σ 2 ω i) (q+1) = 1 2 (̂γ (1)(0)+̂γ (2) (0));α (q+1)ω îγ(1)](σω 2 i) (q+1)log[= −log(2)112avec m (q+1) = 1 ω i ,(1) r ∑r l=1ỹ nl , m (q+1) = 1 ω i ,(2) r ∑r l=1ỹ nl +1,̂γ (1) (0)= 1 r ∑r l=1(ỹ nl −m (q+1)ω i ,(1) )2 ,̂γ (2) (0)= 1 r ∑r l=1(ỹ nl +1−m (q+1)ω i ,(2) )2 et̂γ(1)= 1 r ∑r l=1(ỹ nl −m (q+1) )(ỹ ω i ,(1) n l +1−m (q+1) ) ω i ,(2)


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSLes résultats <strong>de</strong>s trois premières segm<strong>en</strong>tations, obt<strong>en</strong>ues avec CMC-BI, sontprés<strong>en</strong>tés à la figure (V.4), et les taux d’erreur sont donnés dans la première colonne<strong>de</strong> la table (V.1). Nous constatons que les données simulées selon CMC-BI sontpresque parfaitem<strong>en</strong>t restaurées; par contre, lorsque les données sont à mémoirelongue les résultats sont soit très mauvais, soit relativem<strong>en</strong>t médiocres. L’association<strong>de</strong> CMC-BI avec ICE apparaît ainsi, lorsque les données sont à mémoire longue,comme étant peu robuste.Les résultats <strong>de</strong>s trois segm<strong>en</strong>tations suivantes, obt<strong>en</strong>ues avec CCLSM-GML,sont prés<strong>en</strong>tés à la figure (V.5), et les taux d’erreur sont donnés dans la <strong>de</strong>uxièmecolonne <strong>de</strong> la table (V.1). Nous constatons que les données simulées selon CMC-BIsont restaurées avec la même qualité que celle donnée par la métho<strong>de</strong> fondée surCMC-BI. Ce constat est intéressant car CMC-BI n’est pas, à proprem<strong>en</strong>t parlé, uncas particulier <strong>de</strong> CCLSM-GML. Cela montre que CCLSM-GML peut gérer efficacem<strong>en</strong>t<strong>de</strong>s bruits non corrélés.Dans la <strong>de</strong>uxième série on s’intéresse au filtrage <strong>de</strong> Y .113


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENS543210−1Y0−2−30 50 100 150 200 250 300 350 400 450 500(a)432Y110−1−2−3−40 50 100 150 200 250 300 350 400 450 500(b)32Y210−1−2−3−40 50 100 150 200 250 300 350 400 450 500(c)Figure V.3 – Version bruitée du chaîneRavec(a)y1∶N 1 : bruit gaussi<strong>en</strong> indép<strong>en</strong>dantN 1 (0,1)N 2 (2,1)(b) y1∶N 2 : bruit à mémoire longue <strong>de</strong> même moy<strong>en</strong>ne 0 et <strong>de</strong> mêmevariance 1, α ω1 = 0.1 α ω2 =0.9(c) y1∶N 3 : bruit à mémoire longue <strong>de</strong> même moy<strong>en</strong>ne0 et <strong>de</strong> même variance 1, α ω1 =0.1 α ω2 =1La segm<strong>en</strong>tation <strong>de</strong>s processus y1∶N 1 , y2 1∶N et y3 1∶Npar le modèle <strong>de</strong> chaîne <strong>de</strong><strong>Markov</strong> cachée est donnée par la figure (V.4) et par le modèle <strong>de</strong> chaîne cachéepartiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> sur la figure (V.5)114


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENS21.510.5R0 (cmc)0−0.5−10 50 100 150 200 250 300 350 400 450 500(a’)21.5R1Â (CMC)10.50−0.5−10 50 100 150 200 250 300 350 400 450 500(b’)21.510.50R2 (CMC)−0.5−10 50 100 150 200 250 300 350 400 450 500(c’)Figure V.4 – Segm<strong>en</strong>tation non supervisée par CMC-BI115


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENS21.510.50R0 (CCPM)−0.5−10 50 100 150 200 250 300 350 400 450 500(a”)21.510.50R1 (CCPM)−0.5−10 50 100 150 200 250 300 350 400 450 500(b”)21.510.5R2 (CCPM)0−0.5−10 50 100 150 200 250 300 350 400 450 500(c”)Figure V.5 – Segm<strong>en</strong>tation non supervisée par CCLSM-GMLLes taux d’erreur <strong>de</strong> ces expéri<strong>en</strong>ces sont résumés dans la table (V.1). Nouspouvons remarquer que les <strong>de</strong>ux modèles ont la même performance que dans le cas(a), par contre dans les <strong>de</strong>ux autres cas(b) et(c), le modèle CCPM à mémoirelongue est plus performant du fait que le modèle CMC ne pr<strong>en</strong>d pas <strong>en</strong> contre lesdonnées corrélées.116


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENSCMC-BI CCLSM-GMLy 1 1∶N0.2 0.2y 2 1∶N61.6 2.0y 3 1∶N13.6 5.1Table V.1 – Taux d’erreur <strong>de</strong> segm<strong>en</strong>tations <strong>en</strong> %Finalem<strong>en</strong>t, nous appliquons l’algorithme <strong>de</strong> lissage pour calculer E[X n ∣y 1∶N ]selon le modèle :∀2≤n≤N, X n =F n (R n ,Y n )X n−1 +G n (R n ,Y n )V n +H n (R n ,Y n ) (V.24)avec pour tout 2≤n≤N, F n (ω 1 ,Y n )= 3×Yn10 , F n(ω 2 ,Y n )=− 3×Yn10 ,H n(ω 1 ,Y n )= 1 2 ,H n (ω 2 ,Y n )=− 1 2 et G n(R n ,Y n )= 1 2 et V n∼N(0,1).Pour chacun <strong>de</strong>s trois cas (a), (b), et (c) <strong>de</strong> la figure (V.3), on procè<strong>de</strong> au lissagepar la nouvelle métho<strong>de</strong> générale. Les résultats obt<strong>en</strong>us sont prés<strong>en</strong>tés sur lafigure (V.5), respectivem<strong>en</strong>t <strong>en</strong> a”, b”, et c”. Dans chaque cas on prés<strong>en</strong>te <strong>de</strong>ux trajectoires: la vraie (X= x simulée selon (V.24)) et l’estimée (à R inconnu). L’écart<strong>en</strong>tre les <strong>de</strong>ux trajectoires est mesuré par l’erreur quadratique moy<strong>en</strong>ne (eq) qui est,respectivem<strong>en</strong>t, <strong>de</strong> 0.60, 0.60, et 0.61. Nous cherchons à comparer notre métho<strong>de</strong>avec celle utilisant la vraie trajectoire <strong>de</strong>s sauts donné à la figure (V.2) Sur la figure(V.7), nous prés<strong>en</strong>tons ainsi les trajectoires du processus X calculées <strong>en</strong> utilisant levrai processus R et les observations y1∶N i avec les trajectoires estimées par le lissage( figure (V.6)). Pour tout i=1,2,3, la trajectoire estimée connaissant la trajectoire<strong>de</strong>s sauts se calcule simplem<strong>en</strong>t par :∀2≤n≤N,x i n=F n (r n ,y i n)x i n−1+H n (r n ,y i n)(V.25)Les résultats obt<strong>en</strong>us sont prés<strong>en</strong>tés sur la figure (V.6), respectivem<strong>en</strong>t <strong>en</strong> a”’,b”’, et c”’. Comme à la figure (V.7), dans chaque cas on prés<strong>en</strong>te <strong>de</strong>ux trajectoires :la vraie (X= x simulée selon (V.24)) et l’estimée (à R connu) par (V.25). L’écart<strong>en</strong>tre les <strong>de</strong>ux trajectoires est mesuré par l’erreur quadratique moy<strong>en</strong>ne (eq) qui est,respectivem<strong>en</strong>t, <strong>de</strong> 0.39, 0.27, et 0.29.Naturellem<strong>en</strong>t, les résultats obt<strong>en</strong>us avec la trajectoire <strong>de</strong>s sauts connue donne<strong>de</strong> meilleurs résultats; cep<strong>en</strong>dant, la différ<strong>en</strong>ce n’est pas très gran<strong>de</strong> et visuellem<strong>en</strong>tles résultats sont assez proches.Rappelons que les résultats <strong>de</strong> la Figure 5.7 sont obt<strong>en</strong>us <strong>de</strong> manière "semisupervisée": la loi <strong>de</strong>(R,Y) est estimée, mais les paramètres F n , B n et G n sontconnus.117


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENS864eq=0.60XXr (R inconnu)20−2−40 50 100 150 200 250 300 350 400 450 500a ′′3210−1−2−3−4eq=0.60XXr (R inconnu)−5−60 50 100 150 200 250 300 350 400 450 500b ′′3210−1−2eq=0.61XXr (R inconnu)−3−40 50 100 150 200 250 300 350 400 450 500c ′′Figure V.6 – Les vraies trajectoires X=x et celles obt<strong>en</strong>ues par lissage fondé surla nouvelle métho<strong>de</strong> (R inconnu). eq est l’erreur quadratique moy<strong>en</strong>ne118


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENS864eq=0.39XXe (R connu)20−2−40 50 100 150 200 250 300 350 400 450 500a ′′′210−1−2−3−4eq=0.27XXr (R connu)−5−60 50 100 150 200 250 300 350 400 450 500b ′′′3210−1−2−3eq=0.29XXr (R connu)−4−50 50 100 150 200 250 300 350 400 450 500c ′′′Figure V.7 – Les vraies trajectoires X= x et celles obt<strong>en</strong>ues par (V.25), avec Rconnu. eq est l’erreur quadratique moy<strong>en</strong>ne.V.5 ConclusionCe <strong>de</strong>rnier chapitre a été consacré au nouveau modèle, développé <strong>en</strong> collaborationavec Noufel Abbassi, permettant le filtrage et le lissage optimaux <strong>en</strong> prés<strong>en</strong>ce<strong>de</strong>s sauts aléatoires. Son originalité consiste <strong>en</strong> introduction <strong>de</strong>s bruits à mémoirelongue. On quitte ainsi le cadre <strong>de</strong>s <strong>triplets</strong> markovi<strong>en</strong>s et l’on se place dans le119


CHAPITRE V. CHAÎNES CONDITIONNELLEMENT LINÉAIRES À SAUTSMARKOVIENScadre <strong>de</strong>s <strong>triplets</strong> "partiellem<strong>en</strong>t" <strong>de</strong> <strong>Markov</strong>. Dans un premier temps, nous avonsrappelé les pré-requis dans le domaine <strong>de</strong>s processus à dép<strong>en</strong>dance longue et lestravaux précé<strong>de</strong>nts sur les modèles <strong>de</strong> chaînes partiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong>. Les modèlespartiellem<strong>en</strong>t <strong>de</strong> <strong>Markov</strong> fur<strong>en</strong>t préalablem<strong>en</strong>t étudiés par P. Lanchantin et J. Lapuya<strong>de</strong>[64,70] dans le cas <strong>de</strong> processus cachés à valeurs discrètes. Nous nous sommesinspirés <strong>de</strong> ces modèles pour développer <strong>de</strong>s algorithmes permettant <strong>de</strong> faire du lissageet du filtrage pour les modèles à sauts markovi<strong>en</strong>s. Le lissage et le filtrage sontalors possibles car le nouveau modèle permet <strong>de</strong> calculer d’une manière exacte etlinéaire <strong>en</strong> N les quantités E[X n ∣y 1∶N ] et E[X n ∣y 1∶n ]. Les premiers résultats <strong>de</strong> simulationset <strong>de</strong> <strong>restauration</strong> prés<strong>en</strong>tés sont <strong>en</strong>courageant. Cep<strong>en</strong>dant, <strong>de</strong>s expéri<strong>en</strong>cesplus complètes sont nécessaires pour vali<strong>de</strong>r définitivem<strong>en</strong>t les nouveaux modèleset les traitem<strong>en</strong>ts associés. Par ailleurs, le problème <strong>de</strong> l’estimation <strong>de</strong>s paramètresn’a été traité que partiellem<strong>en</strong>t, aboutissant à <strong>de</strong>s métho<strong>de</strong>s "semi-supervisées". Là<strong>en</strong>core <strong>de</strong>s étu<strong>de</strong>s complém<strong>en</strong>taires sont nécessaires pour étudier les possibilités <strong>de</strong>straitem<strong>en</strong>ts <strong>en</strong>tièrem<strong>en</strong>t non supervisés.Les comparaisons <strong>de</strong> l’efficacité <strong>de</strong> nos modèles avec les approches classiquespar filtrage particulaire font probablem<strong>en</strong>t partie <strong>de</strong>s perspectives parmi les plusintéressantes.120


Conclusion et perspectivesLe travail <strong>de</strong> notre thèse se situe dans le domaine <strong>de</strong> traitem<strong>en</strong>t statistique <strong>de</strong>s<strong>signaux</strong>. L’objectif <strong>de</strong> cette thèse était <strong>de</strong> proposer et d’étudier <strong>de</strong>s nouveaux modèlespour la segm<strong>en</strong>tation <strong>de</strong>s <strong>signaux</strong> et <strong>de</strong>s images. Les modèles <strong>de</strong> <strong>Markov</strong> cachés[5,12,53] permett<strong>en</strong>t d’estimer la réalisation x=(x n ) 1∶N d’un processus cachéX=(X s ) s∈S à partir <strong>de</strong>s données observé y=(y n ) 1∶N qui sont la réalisation d’unprocessus Y =(Y n ) 1∶N . Les probabilités conditionnelles(x n ∣y) sont calculables dufait que X conditionnellem<strong>en</strong>t à Y est markovi<strong>en</strong> qui est une conséqu<strong>en</strong>ce <strong>de</strong> l’hypothèseX est <strong>de</strong> <strong>Markov</strong>. Cette hypothèse n’est pas toujours vérifiée dans les casréels et elle impose <strong>de</strong>s contraintes restrictives sur la loi p(y∣x). Des ext<strong>en</strong>sionsgénéralis<strong>en</strong>t les modèles <strong>de</strong> <strong>Markov</strong> cachés ont été proposées : modèles <strong>de</strong> <strong>Markov</strong>Couples (MMC) [91,93,104] et modèles <strong>de</strong> <strong>Markov</strong> Triplets (MMT) [36,92,94]. Dansle MMC nous supposons que le couple(X,Y) est <strong>de</strong> <strong>Markov</strong> ce qui permet d’éviter<strong>de</strong>s contraintes sur X et dans le MMT nous introduisons un processus auxiliaireU=(U n ) 1∶N qui peut avoir une interprétation physique ou non et nous supposonsque le couple T=(X,U,Y) est <strong>de</strong> <strong>Markov</strong>. Le processus U peut avoir plusieurs utilisationsdonnant une très gran<strong>de</strong> variété <strong>de</strong> modèles particuliers. En effet, il permet<strong>de</strong> modéliser la semi-markovianité d’une chaîne <strong>de</strong> <strong>Markov</strong> caché (CMC) ou plusgénéralem<strong>en</strong>t d’une chaîne <strong>de</strong> <strong>Markov</strong> Couple (CMCouple) , une autre utilisationdu processus auxiliaire est <strong>de</strong> modéliser la non-stationnarité. Dans cette thèse, nousavons proposé un nouveau modèle particulier <strong>de</strong> CMT dont le processus auxiliaireU est continu, et nous avons utilisé l’approximation <strong>de</strong> Laplace pour estimer la réalisationx du processus X à partir <strong>de</strong> l’observé y <strong>en</strong> supposant que X et Y sontindép<strong>en</strong>dants conditionnellem<strong>en</strong>t à U. Les résultats <strong>de</strong> la segm<strong>en</strong>tation <strong>de</strong>s imagessimulées et artificielles sont meilleurs avec notre nouveau modèle qu’avec le modèleclassique du CMC, et cette amélioration se manifeste clairem<strong>en</strong>t dans le cas<strong>de</strong>s bruits corrélés. Égalem<strong>en</strong>t, nous avons appliqué le modèle du CMT pour proposé<strong>de</strong>s nouveaux modèles qui trait<strong>en</strong>t le filtrage et le lissage <strong>de</strong>s chaînes cachésà saut markovi<strong>en</strong> [49,99,100]. Ces modèles permett<strong>en</strong>t <strong>de</strong> pr<strong>en</strong>dre <strong>en</strong> considérationles bruits à dép<strong>en</strong>dance longue <strong>en</strong> utilisant les modèle <strong>de</strong> chaînes partiellem<strong>en</strong>t <strong>de</strong><strong>Markov</strong> qui ont été prés<strong>en</strong>tés par J. Lapuya<strong>de</strong> [70].Comme perspective, on peut <strong>en</strong>visager <strong>de</strong> faire <strong>de</strong> l’estimation <strong>de</strong>s paramètrespour le modèle du champ Gaussi<strong>en</strong>-<strong>Markov</strong>i<strong>en</strong> triplet par l’algorithme ICE et aussil’estimation <strong>de</strong>s paramètres <strong>de</strong> la chaîne X dans le cas <strong>de</strong>s modèles cachés à sautmarkovi<strong>en</strong>. on peut suggérer aussi <strong>de</strong> comparer les nouveaux modèles <strong>de</strong> filtrage et<strong>de</strong> lissage avec les modèles qui sont basés sur le filtrage particulaire et d’appliquerces nouveaux modèles sur <strong>de</strong>s données réelles.121


Annexe AK-meansL’algorithme K-means est une métho<strong>de</strong> itérative <strong>de</strong> classification, que nous l’utilisonspour initialiser différ<strong>en</strong>ts algorithmes d’estimation <strong>de</strong>s paramètres. Le résultat<strong>de</strong> la classification <strong>en</strong> K classes (∣Ω∣=K) d’un processus y par K-means est notex 0 , et le vecteur <strong>de</strong>s paramètres initial θ 0 est obt<strong>en</strong>u <strong>en</strong> choisissant un estimateur̂θà partir <strong>de</strong>s données completes(x,y)θ 0 =̂θ(x 0 ,y)L’algorithme K-means se prés<strong>en</strong>te comme suit :◻ Initialisation :i) Affecter d’une manière aléatoire à chaque pixel s∈S une classe ω k ∈Ω.ii) Calculer pour chaque classe ω k la masse <strong>de</strong> sa c<strong>en</strong>tre m k◻ Répéter jusqu’à stabilisation :m k = 1∣S∣ ∑ y s 1(x s =ω k )s∈Si) Affecter à chaque pixel s∈S la classe ω k qui minimise sa distance parrapport au c<strong>en</strong>tres <strong>de</strong>s classes.ω k =argmin1≤j≤K∥y s −m j ∥ii) Recalculer les masses <strong>de</strong> c<strong>en</strong>tres <strong>de</strong>s classes.123


Annexe BApproximation <strong>de</strong> LaplaceLa métho<strong>de</strong> <strong>de</strong> Laplace permet d’approximer numériquem<strong>en</strong>t un intégral <strong>de</strong> laforme sous certaines conditions :I=∫ Rexp[Mf(x)]dx(B.1)avec M∈ R ∗ + et f∶ R→R ∗ + <strong>de</strong>ux fois <strong>de</strong>rivable.Un développem<strong>en</strong>t <strong>de</strong> Taylor à l’ordre 2 au voisinage <strong>de</strong> x 0 <strong>de</strong> f :f(x)=f(x 0 )+(x−x 0 )f ′ (x 0 )+ (x−x 0) 2f”(x 0 )+O((x−x 0 ) 3 ) (B.2)2si f admet un maximum global stable <strong>en</strong> x 0 (f ′ (x 0 )=0 et f”(x 0 )


Annexe CVecteurs gaussi<strong>en</strong>sDéfinition C.1 On dit qu’un vecteur réel aléatoire X=(X 1 ,..,X n ) est un vecteurréel gaussi<strong>en</strong> si et seulem<strong>en</strong>t si pour toute suite <strong>de</strong> réels a=(a 1 ,..a n )∈R n , la variablealéatoire Z=∑ n i=1a i X i est une variable réelle gaussi<strong>en</strong>ne.Remarque C.1 Soit X=(X 1 ,..,X n ) est un vecteur réel gaussi<strong>en</strong> :i) Pour toute i=1,..n X i est une variable réelle gaussi<strong>en</strong>ne <strong>de</strong> loiN(m i ,σ 2 i )ii) Si Y=∑ n i=1α i X i , on a :,V[Y]=E[Y]=n∑i,jn∑i=1α i m iα i α j Cov(X i ,X j )Soit X =(X 1 ,..,X n ) est un vecteur réel gaussi<strong>en</strong>, on appelle espérance <strong>de</strong> X le⎛ m 1 ⎞vecteur m= ⎜ ⋮ ⎟ où m i = E[X i ]. On appelle matrice <strong>de</strong> covariance <strong>de</strong> X la⎝ m n⎠matrice Γ telle que Γ i,j =Cov(X i ,X j ). On note la loi <strong>de</strong> X :X∼N n (m,Γ).Soi<strong>en</strong>t X 1 et X 2 <strong>de</strong>ux vecteurs réels gaussi<strong>en</strong>s <strong>de</strong> dim<strong>en</strong>sions respectives n 1 etn 2 , <strong>de</strong> moy<strong>en</strong>nes respectives m 1 et m 2 et <strong>de</strong> matrices <strong>de</strong> covariances respectives Σ 1,1et Σ 2,2 , tel que le couple X=(X 1 ,X 2 ) est un vecteur réel gaussi<strong>en</strong> <strong>de</strong> moy<strong>en</strong>nem=( m1m 2) et <strong>de</strong> matrice <strong>de</strong> covariance Σ=( Σ1,1 Σ 1,2Σ 2,1 Σ 2,2). La loi p(x2 ∣x 1 ) est unegaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne :et <strong>de</strong> matrice <strong>de</strong> covariance :m 2∣1 =m 2 +Σ 2,1 (Σ 1,1 ) −1 (x 1 −m 1 ),Σ 2∣1 =Σ 2,2 −Σ 2,1 (Σ 1,1 ) −1 Σ 1,2 .127


ANNEXE C. VECTEURS GAUSSIENSSoi<strong>en</strong>t X 1 et(X 2 ∣X 1 = x 1 ) <strong>de</strong>ux vecteurs réels gaussi<strong>en</strong>s <strong>de</strong> moy<strong>en</strong>ne respectivesm 1 et A.x 1 +B et <strong>de</strong> matrices <strong>de</strong> covariances respectives Σ 1,1 et Σ 2∣1 alors le coupleX=(X 1 ,X 2 ) est un vecteur gaussi<strong>en</strong> <strong>de</strong> moy<strong>en</strong>neet <strong>de</strong> matrice <strong>de</strong> covariance :m=(Σ=( Σ1,1m 1A.m 1 +B )Σ 1,1 A TAΣ 1,1 Σ 2,1 +AΣ 1,1 A T )128


Bibliographie[1] C. Andrieu, M. Davy, and A. Doucet. Effici<strong>en</strong>t particle filtering for jumpmarkov systems. application to time-varing autoregressions. IEEE Trans. onSignal Process, 51(7) :1762–1770, 2003.[2] B. Annelies. Reconnaissance et compréh<strong>en</strong>sion <strong>de</strong>s gestes, applications à lalangue <strong>de</strong>s signes. PhD thesis, Paris 6, 1996.[3] J. K. Baker. The dragon system. IEEE Trans. on Acoustics Speech and SignalProcessing, 23(1) :24–29, 1975.[4] V. S. Barbu and N. Limnios. Semi-markov chains and hid<strong>de</strong>n semi-markovmo<strong>de</strong>ls toward applications. Their Use in Reliability and DNA Analysis, 191,2008.[5] L.E. Baum, T. Petrie, G. Soules, and N. Weiss. A maximization techniqueoccuring in the statistical analysis of probabilistic functions of markov chain.Ann. of Math. Statistics, 41 :164–171, 1970.[6] D. B<strong>en</strong>boudjema. Champs <strong>de</strong> <strong>Markov</strong> Triplets et segm<strong>en</strong>tation Baysi<strong>en</strong>ne nonsupervisée d’images. Optimisation et sûreté <strong>de</strong>s systèmes, Université <strong>de</strong> Technologie<strong>de</strong> Troyes-Institut National <strong>de</strong>s Télécommunications, 2005.[7] B. B<strong>en</strong>miloud and W. Pieczynski. Estimation <strong>de</strong>s paramètres dans les chaînes<strong>de</strong> markov cachées et segm<strong>en</strong>tation d’images. Traitem<strong>en</strong>t du Signal, 12(5) :433–454, 1995.[8] F. Le Ber, M. B<strong>en</strong>oit, C. Scott, J. F. Mari, and C. Mignolet. Studying cropsequ<strong>en</strong>ces with carrotage a hmm-based data mixing software. Ecological Mo<strong>de</strong>lling,191(1) :170–185, 2006.[9] J. Besag. Spatial interaction and the statistical analysis of lattice systems. J.of the Royal Statistical Society Series B, 36(2) :192–236, 1974.[10] J. Besag. On the statistical analysis of dirty picture. J. of the Royal StatisticalSociety Series B, 48(3) :259–302, 1986.[11] J. Besag and C. Kooperberg. On conditional intrinsic autoregressions. Biometrika,pages 733–746, 1995.[12] J. Besag, J. York, and A. Mollé. Bayesi<strong>en</strong> analysis of agricultural field experim<strong>en</strong>ts(with discussion). J. of the Royal Statistical Society Series B, 61 :691–746, 1991.[13] I. Bloch, Y. Gousseau, H. Maitre, D. Matignon, M. Sigelle, and F. Tupin. Letraitem<strong>en</strong>t <strong>de</strong>s images, volume Tome 1. 2003-2004.129


BIBLIOGRAPHIE[14] A. Bonin, B. Chalmond, and B. Lavayssière. Monte-carlo simulation of industrialradiography images and experim<strong>en</strong>tal <strong>de</strong>signs. NDT et E. International,35(8) :503–510, 2002.[15] G. E. P. Box and G. M. J<strong>en</strong>kins. Times Series Analysis Forcasting and Control.Hol<strong>de</strong>n Day, 1970.[16] M. Broniatowski, G. Celeux, and J. Diebolt. Reconnaissance <strong>de</strong> mélange <strong>de</strong><strong>de</strong>nsités par un algorithme d’appr<strong>en</strong>tissage probabiliste. Data Analysis andInformatics, 3 :359–373, 1984.[17] N. Brunel. Sur quelques ext<strong>en</strong>tions <strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> cachées et couples,Applications àla segm<strong>en</strong>tation non-supervisée <strong>de</strong> <strong>signaux</strong> radar. Mathématiquesappliquées, Université Paris 6, 2005.[18] O. Cappé, E. Moulines, and T.Ry<strong>de</strong>n. Infer<strong>en</strong>ce in hid<strong>de</strong>n <strong>Markov</strong> Mo<strong>de</strong>ls.Springer,Series in Statistics, 2005.[19] G. Celeux, D. Chauveau, and J. Diebolt. A stochastic version of the emalgorithm : an experim<strong>en</strong>tal study. Journal of Statistical Computation andSimulation, 55 :287–314, 1996.[20] G. Celeux and J. Diebolt. The sem algorithm : a probabilistic teacher algorithm<strong>de</strong>rived from the em algorithm for the mixture problem. ComputationalStatistics Quarterly, 2(1) :73–82, 1985.[21] G. Celeux and J. Diebolt. L’algorithme sem : un algorithme d’appr<strong>en</strong>tissageprobabiliste pour la reconnaissance <strong>de</strong> mélanges <strong>de</strong> <strong>de</strong>nsités. Revue <strong>de</strong> StatistiqueAppliquée, 34, 1986.[22] G. Celeux and J. Diebolt. A stochastic approximation type em algorithm forthe mixture problem. In Stochastics and Stochastics Reports, 41 :119–134,1992.[23] G. Celeux and J. Diebolt. Une version <strong>de</strong> type recuit simulé <strong>de</strong> l’algorithmeem. Technical report, INRIA, 2006.[24] B. Chalmond. Elém<strong>en</strong>ts <strong>de</strong> modélisation pour l’analyse d’images. Springer,2000.[25] M. Ch<strong>en</strong>, A. Kundu, and J. Zhou. Off-line handwritt<strong>en</strong> work recognition usinga hid<strong>de</strong>n markov mo<strong>de</strong>l type stochastic network. IEEE Trans. on PatternAnalysis and Machine Intelleg<strong>en</strong>ce, 16(5) :481–496, 1994.[26] R. Christ<strong>en</strong>s<strong>en</strong>. Loglinear mo<strong>de</strong>ls. Springer-Verlag, 1990.[27] O. Chryssaphinou, M. Karaliopoulou, and N. Limnios. On discrete time semimarkovchains and applications in words occur<strong>en</strong>ces. Communications in Statistics,Theory and Methods, 37 :1306–1322, 2008.[28] O. Chryssaphinoua, M. Karaliopouloua, and N. Limnios. On discrete timesemi-markov chains and applications in words occurr<strong>en</strong>ces. Communicationsin statistics. Theory and methods, 37(8) :1306–1322, 2008.[29] G. A. Churchill. Stochastic mo<strong>de</strong>ls for hertergnous dna squ<strong>en</strong>ces. Bulletin ofMathematic Biology, 51 :79–94, 1989.[30] J. P. Cocquerez and S. Philipp. Analyse d’images :filtrage et segm<strong>en</strong>tation.Masson, 1995.130


BIBLIOGRAPHIE[31] O. L. V. Costa, M. D. Fragoso, and R. P. Marques. Discrete time markovjump linear systems. Springer-Verlag, New York, 2005.[32] Y. Delignon, A. Marzouki, and W. Pieczynski. Estimation of g<strong>en</strong>eralized mixtureand its application in image segm<strong>en</strong>tation. IEEE Trans. on Image Processing,6(10) :1364–1375, 1997.[33] J. P. DELMAS. Relations <strong>en</strong>tre les algorithmes d’estimation iteratives em etice avec exemples d’applications. GRETSI Groupe d’Etu<strong>de</strong>s du Traitem<strong>en</strong>t duSignal et <strong>de</strong>s Images, pages 185–188, 1995.[34] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood fromincomplete data via the em algorithm. J. of the Royal Statistical Society SeriesB, 39 :1–38, 1977.[35] S. Derro<strong>de</strong> and W. Pieczynski. Signal and image segm<strong>en</strong>tation using pairwisemarkov chains. IEEE Trans. on Signal Processing, 6(52) :2477–2489, 2004.[36] F. Desbouvries and W. Pieczynski. Modèles <strong>de</strong> markov triplet et filtrage<strong>de</strong> kalman, triplet markov mo<strong>de</strong>ls and kalman filtering. Comptes R<strong>en</strong>dus <strong>de</strong>l’Académie <strong>de</strong>s Sci<strong>en</strong>ces, 336(8) :667–670, Février 2003.[37] P. A. Devijver. Baum’s forward-backward algorithm revisited. Pattern Recognition,3(6) :369–373, 1985.[38] A. M. Djafari. Entropie <strong>en</strong> traitem<strong>en</strong>t du signal. cnrs-supélec-ups.[39] A. M. Djafari and G. Demom<strong>en</strong>t. Using <strong>en</strong>tropy in image reconstruction and<strong>restauration</strong>. Traitem<strong>en</strong>t du signal, 5(4) :235–248, 1988.[40] A. Doucet, A. N. Gordon, and V. Krishnamurthy. Particle filters for stateestimation of jump markov linear systems. IEEE Trans. On Signal Processing,49 :613–624, 2001.[41] Tyrone E. Duncan. Some applications of fractional brownian motion to linearsystems. Springer, 1999.[42] J. B. Durand. Modèles à structure cachée : infér<strong>en</strong>ce, sélection <strong>de</strong>s modèles etapplications. Mathématiques appliquées, Université Gr<strong>en</strong>oble I-Joseph Fourier,2003.[43] B. Ait el Fquih and F. Debouvries. Kalman filtering in triplet markov chains.IEEE Trans. on Signal Proccessing, 54(8) :2957–2963, 2006.[44] B. Ait el Fquih and F. Desbouvries. Bayesian smoothing algorithms in pairwiseand triplet markov chains. In Proceedings of the 2005 IEEE Workshop onStatistical Signal Processing, Bor<strong>de</strong>aux, France, July 17-20 2005.[45] B. Ait el Fquih and F. Desbouvries. Exact and approximate bayesian smoothingalgorithms in partially observed markov chains. In Proceedings of theIEEE Nonlinear Statistical Signal Processing Workshop (NSSPW’06), Cambridge,UK, September 13-15 2006.[46] B. Ait el Fquih and F. Desbouvries. Kalman filtering in triplet markov chains.IEEE Trans. on Signal Processing, 54(8) :57–63, August 2006.[47] B. Ait el Fquih and F. Desbouvries. On bayesian fixed-interval smoothingalgorithms. IEEE Trans. on Automatic Control, 53(10) :2437–2442, November2008.131


BIBLIOGRAPHIE[48] Y. Ephrain and N. Merhav. Hid<strong>de</strong>n markov process. IEEE Trans. on InformationTheory, 48(6) :1518–1569, 2002.[49] N. Abbassi et W. Pieczynski. Filtrage exact partiellem<strong>en</strong>t non supervisé dansles modèles cachés à sauts markovi<strong>en</strong>s. In GRETSI 2009, Dijon, France, 8-11septembre 2009.[50] M. A. Ferreira and V. De Oliveira. Bayesian refer<strong>en</strong>ce analysis for gaussianmarkov random fileds. Journal of Multivariate Analysis, 98 :789–812, 2007.[51] R. Fjørtoft, Y. Delignon, W. Pieczynski, M. Sigelle, and F. Tupin. Unsupervisedsegm<strong>en</strong>tation of radar images using hid<strong>de</strong>n markov chains and hid<strong>de</strong>nmarkov random fields. IEEE Trans. on Geosci<strong>en</strong>ce and Remote S<strong>en</strong>sing,3(41) :675–686, 2003.[52] J. Galambos and E. S<strong>en</strong>eta. Regularly varying sequ<strong>en</strong>ces. Proceedings of theAmerican Mathematical Society, 41(1) :110–116, 1973.[53] S. Geman and D. Geman. Stochastic relaxation,gibbs distrubtions and thebayesian restoration of images. IEEE Trans. on Pattern Analysis and MachineIntelleg<strong>en</strong>ce, 6(6) :721–741, 1984.[54] J. K. Ghosh, M. Delampady, and T. Samanta. An introduction to bayesiananalysis theory and methods. Springer texts in Statistics, 2006.[55] N. Giordana and W. Pieczynski. Estimation of g<strong>en</strong>eralized multis<strong>en</strong>sor hid<strong>de</strong>nmarkov chains and unsupervised image segm<strong>en</strong>tation. IEEE Trans. on PatternAnalysis and Machine Intellig<strong>en</strong>ce, 19(5) :465–475, 1997.[56] C. W. J. Granger and R. Joyeux. An introduction to long memory time seriesand fractional differ<strong>en</strong>cing. Journal of Time Series Analysis, 1 :15–30, 1980.[57] J. Heikkin<strong>en</strong> and E. Arjas. Non-parametric bayesian estimation of a spatialpoisson int<strong>en</strong>sity. Scand. Journal Statist., 25 :435–450, 1998.[58] J. R. M. Hosking. Fractional differ<strong>en</strong>cing. Biometrika, 68(1) :165–176, 1981.[59] J. N. Kapur. Maximum <strong>en</strong>tropy mo<strong>de</strong>ls in sci<strong>en</strong>ce and <strong>en</strong>gineering. Wiley,1989.[60] J. N. Kapur and H. K. Kesavan. G<strong>en</strong>eralised maximum <strong>en</strong>tropy principle (withapplication). Sanford Education Press Waterloo, Canada, 1987.[61] L. Knorr-Held and J. Besag. Mo<strong>de</strong>lling risk from a disease in time and space.Statist. Med., 17 :2045–2060, 1998.[62] T. Koski. Hid<strong>de</strong>n <strong>Markov</strong> mo<strong>de</strong>ls for Bioinformatics. Kluwer Aca<strong>de</strong>mic Publishers,2001.[63] S. Kullback. Information theory and statistics. Wiley, 1959.[64] P. Lanchantin. Chaînes <strong>de</strong> <strong>Markov</strong> Triplets et Segm<strong>en</strong>tation Non Supervisée<strong>de</strong> Signaux. Mathématiques appliquées, Université <strong>de</strong> Technologie <strong>de</strong> Troyes-Institut National <strong>de</strong>s Télécommunications, 2006.[65] P. Lanchantin, J. Lapuya<strong>de</strong>-Lahorgue, and W. Pieczynski. Unsupervised segm<strong>en</strong>tationof triplet markov chains with long-memory noise. Signal Processing,5(88) :1134–1151, May 2008.132


BIBLIOGRAPHIE[66] P. Lanchantin, J. Lapuya<strong>de</strong>-Lahorgue, and W. Pieczynski. Unsupervised segm<strong>en</strong>tationof randomly switching data hid<strong>de</strong>n with non-gaussian correlatednoise. Signal Processing, 91(2) :163–175, 2011.[67] P. Lanchantin and W. Pieczynski. Unsupervised non stationary image segm<strong>en</strong>tationusing triplet markov chains. In Advanced Concepts for Intellig<strong>en</strong>tVision Systems (ACIVS 04), Brussels, Belgium, Aug. 31-Sept. 2004.[68] P. Lanchantin and W. Pieczynski. Chaînes et arbres <strong>de</strong> markov évi<strong>de</strong>ntiels avecapplications à la segm<strong>en</strong>tation <strong>de</strong>s processus non stationnaires. Traitem<strong>en</strong>t duSignal, 22(1) :15–26, 2005.[69] P. Lanchantin and W. Pieczynski. Unsupervised restoration of hid<strong>de</strong>n nonstationary markov chain using evi<strong>de</strong>ntial priors. IEEE Trans. on Signal Processing,53(8) :3091–3098, 2005.[70] J. Lapuya<strong>de</strong>-Lahorgue. Sur divers ext<strong>en</strong>sions <strong>de</strong>s chaînes <strong>de</strong> <strong>Markov</strong> cachéesavec applications au traitem<strong>en</strong>t <strong>de</strong>s <strong>signaux</strong> radar. Mathématiques appliquées,Thèse <strong>de</strong> l’Université Paris VI, 2009.[71] J. Lapuya<strong>de</strong>-Lahorgue and W. Pieczynski. Unsupervised segm<strong>en</strong>tation of hid<strong>de</strong>nsemi-markov non stationary chains. In Tw<strong>en</strong>ty six International Workshopon Bayesian Infer<strong>en</strong>ce and Maximum Entropy Methods in Sci<strong>en</strong>ce and Engineering,MaxEnt, Paris, France, July 2006.[72] J. Lapuya<strong>de</strong>-Lahorgue and W. Pieczynski. Partially markov mo<strong>de</strong>ls and unsupervisedsegm<strong>en</strong>tation of semi-markov chains hid<strong>de</strong>n with long <strong>de</strong>p<strong>en</strong><strong>de</strong>nc<strong>en</strong>oise. In International Symposium on Applied Stochastic Mo<strong>de</strong>ls and DataAnalysis, ASMDA, Crete, Grece, May 2007.[73] J. Lapuya<strong>de</strong>-Lahorgue and W. Pieczynski. Unsupervised segm<strong>en</strong>tation ofnew semi-markov chains hid<strong>de</strong>n with long <strong>de</strong>p<strong>en</strong>d noise. Signal Processing,90(11) :2899–2910, 2010.[74] S. L. Lauritz<strong>en</strong>. Graphical mo<strong>de</strong>ls. Clar<strong>en</strong>don Press Oxford, 1996.[75] S. L. Lauritz<strong>en</strong>. Complex Stochastic Systems, chapter Causal Infer<strong>en</strong>ce fromGraphical Mo<strong>de</strong>ls. CRC Press, 2000.[76] B. G. Leroux. Maximum likelihood estimation for hid<strong>de</strong>n markov mo<strong>de</strong>ls.Stochatic Processes and their applications, 40 :127–143, 1992.[77] N. Limnios. Estimation of the stationary distribution of semi-makov processeswith borel state space. Statistics and Probability Letters, 76(14) :1536–1542,2006.[78] N. Limnios and G. Oprisan. Semi-markov processes and reliability. Birkhäuser,2001.[79] Tristan Lorino. Elém<strong>en</strong>ts <strong>de</strong> statistiques - processus stochastiques, Février2005.[80] M. B<strong>en</strong> Mabrouk and W. Pieczynski. Unsupervised segm<strong>en</strong>tation of randomdiscrete data using triplet markov chains. In International Symposium on AppliedStochastic Mo<strong>de</strong>ls and Data Analysis,ASMDA, Crete, Grece, May 2007.[81] B. B. Man<strong>de</strong>lbort and J.W. Van Ness. Fractional brownian motions, fractionalnoises and applicaions. Revue of the Society of Industriel and appliedMathematics, 10(4) :422–437, 1968.133


BIBLIOGRAPHIE[82] K. V. Mardia. Multidim<strong>en</strong>sional multivariate gaussian markov random fieldswith application to image processing. J. Multiv. Anal., 24 :265–284, 1988.[83] N. Marhic, P. Masson, and W. Pieczynski. Mélange <strong>de</strong> lois et segm<strong>en</strong>tation nonsupervisée <strong>de</strong>s données spot. Statistique et Analyse <strong>de</strong>s Données, 16(2) :59–81,1991.[84] M. Mignotte, J. Meunier, J.P. Soucy, and C. Janicki. Comparison of <strong>de</strong>convolutiontechniques using a distribution mixture parameter estimation :Application in spect imagery. Journal of Electronic Imaging, 11(1) :11–25,2002.[85] A. Mohammed-Djafari. Problèmes inverses <strong>en</strong> imagerie et <strong>en</strong> vision. Lavoisier,2009.[86] E. Monfrini. I<strong>de</strong>ntifiabilité et Métho<strong>de</strong> <strong>de</strong>s Mom<strong>en</strong>ts dans les mélanges généralisés<strong>de</strong> distributions du système <strong>de</strong> Pearson. Mathématiques appliquées,Thèse <strong>de</strong> l’Université Paris VI, 2002.[87] A. P<strong>en</strong>g and W. Pieczynski. Adaptive mixture estimation and unsupervisedlocal bayesian image segm<strong>en</strong>tation. Graphical Mo<strong>de</strong>ls and Image Processing,57(5) :389–399, 1995.[88] P. Perez. Modèles et algorithmes pour l’analyse probabiliste <strong>de</strong>s images. PhDthesis, Université <strong>de</strong> R<strong>en</strong>ne 1, 2003.[89] W. Pieczynski. Statistical image segm<strong>en</strong>tation. Machine Graphics and Vision,1(1/2 (Proceedings of GKiPO’92)) :261–268, May 18-23 1992.[90] W. Pieczynski. Statistical image segm<strong>en</strong>tation. Machine Graphics and Vision,1(1/2) :261–268, 1992.[91] W. Pieczynski. Arbres <strong>de</strong> markov couple. Comptes R<strong>en</strong>dus <strong>de</strong> l’Académie <strong>de</strong>sSci<strong>en</strong>ces -Mathématique, Série I, 335(1) :79–82, 2002.[92] W. Pieczynski. Chaînes <strong>de</strong> markov triplet, triplet markov chains. ComptesR<strong>en</strong>dus <strong>de</strong> l’Académie <strong>de</strong>s Sci<strong>en</strong>ces-Mathématique, 335(3) :275–278, 2002.[93] W. Pieczynski. Pairwise markov chains. IEEE Trans. on Pattern Analysisand Machine Intelleg<strong>en</strong>ce, 25(5) :634–639, 2003.[94] W. Pieczynski. Triplet partially markov chains and trees. In 2nd InternationalSymposium on Image/Vi<strong>de</strong>o Communications over fixed and mobile networks(ISIVC04), Brest, France, 7 - 9 july 2004.[95] W. Pieczynski. Converg<strong>en</strong>ce of the iterative conditional estimation and applicationto mixture proportion i<strong>de</strong>ntification. In IEEE Statistical Signal ProcessingWorkshop, Madison, Wisconsin, USA, 26-29 August 2007.[96] W. Pieczynski. Multis<strong>en</strong>sor triplet markov chains and theory of evi<strong>de</strong>nce.International Journal of Approximate Reasoning, 45(1) :1–16, 2007.[97] W. Pieczynski. Exact calculation of optimal filter in hid<strong>de</strong>n markov switchinglong-memory chain. In 3rd International Confer<strong>en</strong>ce on Mathematics andStatistics, Ath<strong>en</strong>s, Greece, 15-18 June 2009.[98] W. Pieczynski. Exact smoothing in hid<strong>de</strong>n conditionally markov switchingchains. In XIII International Confer<strong>en</strong>ce Applied Stochastic Mo<strong>de</strong>ls and DataAnalysis, Vilnius Lithuania, June 30- July 3 2009.134


BIBLIOGRAPHIE[99] W. Pieczynski and N. Abbassi. Exact filtering and smoothing in short orlong memory stochastic switching systems. In IEEE International Workshopon Machine Learning for Signal Processing, Gr<strong>en</strong>oble, France, September 2-42009.[100] W. Pieczynski, N. Abbassi, and M. B<strong>en</strong> Mabrouk. Exact filtering and smoothingin markov switching systems hid<strong>de</strong>n with gaussian long memory noise. InXIII International Confer<strong>en</strong>ce Applied Stochastic Mo<strong>de</strong>ls and Data Analysis,Vilnius Lithuania, June 30- July 3 2009.[101] W. Pieczynski and F. Desbouvries. On triplet markov chains. In InternationalSymposium on Applied Stochastic Mo<strong>de</strong>ls and Data Analysis, (ASMDA 2005),Brest, France, May 2005.[102] W. Pieczynski and F. Desbouvries. Exact bayesian smoothing in triplet switchingmarkov chains. In S. Co 2009, editor, Complex data mo<strong>de</strong>ling and computationallyint<strong>en</strong>sive statistical methods for estimation and prediction, Milan,Italy, September 14-16 2009.[103] W. Pieczynski, C. Hulard, and T. Veit. Triplet markov chains in hid<strong>de</strong>n signalrestoration. In SPIE’s International Symposium on Remote S<strong>en</strong>sing, Crete,Greece, 22-27 September 2002.[104] W. Pieczynski and A. N. Tebbache. Pairwise markov random fields and itsapplication in textured images segm<strong>en</strong>tation. In Proceedings of IEEE SouthwestSymposium on Image Analysis and Interpretation (SSIAI’2000), pages106–110, Austin, Texas, Etats-Unis, 2-4 April 2000.[105] H. E. Rauch, F. Tung, and C. T. Striebel. Maximum likelihood estimates oflinear dynamic systems. AIAA Journal, 3(8) :1445–1450, August 1965.[106] H. Rue. Fast sampling of gaussian markov randon fields. J. of the RoyalStatistical Society Series B, 65 :325–338, 2001.[107] H. Rue, S. Martino, and N. Chopin. Approximate bayesian infer<strong>en</strong>ce for lat<strong>en</strong>tgaussian mo<strong>de</strong>ls using integrated nested laplace approximations (withdiscussion). J. of the Royal Statistical Society Series B, 71 B :319–392, 2009.[108] H. Rue, I. Steinsland, and S. Erland. Approximating hid<strong>de</strong>n gaussian markovrandon fields. J. of the Royal Statistical Society Series B, 66 :877–892, 2004.[109] F. Salz<strong>en</strong>stein, C. Collet, S. LeCam, and M. Hatt. Non stationary fuzzy markovchains. Pattern Recognition Letters, 28(16) :2201–2208, 2007.[110] F. Salz<strong>en</strong>stein and W. Pieczynski. Sur le choix <strong>de</strong> métho<strong>de</strong> <strong>de</strong> segm<strong>en</strong>tationstatistique d’images. Traitem<strong>en</strong>t du Signal, 15(2) :120–127, 1998.[111] G. Samorodnitsky and M. S. Taqqu. Stable non-Gaussian Random Process.1994.[112] C. Shannon and W. Weaver. The mathematical theory of communication. BellSystem Technical Journal, 27(379-423), 1948.[113] P. Smyth, D. Heckerman, and M. Jordan. Probabilistic in<strong>de</strong>p<strong>en</strong><strong>de</strong>nce networksfor hid<strong>de</strong>n markov probability mo<strong>de</strong>ls. Neural Computation, 9 :227–269, 1997.[114] C. Tison, J. M. Nicolas, F. Tupin, and H. Maître. A new statistical mo<strong>de</strong>l ofurban areas in high resolution sar images for markovian segm<strong>en</strong>tation. IEEETrans. on Geosci<strong>en</strong>ce and Remote S<strong>en</strong>sing, 42(10) :2046–2057, 2004.135


BIBLIOGRAPHIE[115] G. C. Wei and M. A. Tanner. A monte carlo implem<strong>en</strong>tation of the em algorithmand the poor man’s data augm<strong>en</strong>tation algorithms. Journal of theAmerican Statistical Association, 85 :699–704, 1990.[116] M. West and J. Harrison. Bayesian Forecasting and Dynamic Mo<strong>de</strong>ls. NewYork, 1997.[117] G. Winkler. Image Analysis, random fields and <strong>Markov</strong> Chain Monte CarloMethods : a mathematical introduction. Springer, 2003.[118] C. F. Jeff Wu. On the converg<strong>en</strong>ce properties of the em algorithm. The Annalsof statistics, 11(1), 1983.136

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!