24.06.2013 Views

Traitement automatique du signal ECG pour l'aide au diagnostic de ...

Traitement automatique du signal ECG pour l'aide au diagnostic de ...

Traitement automatique du signal ECG pour l'aide au diagnostic de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Université catholique <strong>de</strong> Louvain<br />

Ecole polytechnique <strong>de</strong> Louvain<br />

<strong>Traitement</strong> <strong><strong>au</strong>tomatique</strong> <strong>du</strong> <strong>signal</strong> <strong>ECG</strong><br />

<strong>pour</strong> l’ai<strong>de</strong> <strong>au</strong> <strong>diagnostic</strong><br />

<strong>de</strong> pathologies cardiaques.<br />

Promoteur : Michel Verleysen Réalisé par : Bertrand Lebichot<br />

Lecteurs : Gaël <strong>de</strong> Lannoy<br />

G<strong>au</strong>thier Doquire<br />

Travail <strong>de</strong> fin d’étu<strong>de</strong> présenté en vue <strong>de</strong> l’obtention<br />

<strong>du</strong> diplôme d’Ingénieur Civil Biomédical.<br />

Louvain-la-Neuve<br />

Année académique 2010–2011


Table <strong>de</strong>s matières<br />

1 Avant-propos 4<br />

1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.2 Glossaire <strong>de</strong>s termes anglophones . . . . . . . . . . . . . . . . . . 5<br />

1.3 Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

2 Intro<strong>du</strong>ction 6<br />

2.1 Anatomie <strong>du</strong> cœur . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

2.2 Electrocardiogramme . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

2.3 Instrumentation : le Holter . . . . . . . . . . . . . . . . . . . . . 8<br />

2.4 Bruit et variabilité <strong>du</strong> <strong>signal</strong> . . . . . . . . . . . . . . . . . . . . . 9<br />

2.5 Standards AAMI . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.6 Etat actuel et objectifs . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.6.1 Modification d’algorithmes existants <strong>pour</strong> tenir compte <strong>du</strong><br />

déséquilibre . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.6.2 Sur-échantillonnage <strong>pour</strong> tenir compte <strong>du</strong> déséquilibre . . 13<br />

2.6.3 Sous-échantillonnage <strong>pour</strong> tenir compte <strong>du</strong> déséquilibre . 13<br />

2.7 Plan <strong>du</strong> mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

3 Effet <strong>du</strong> sous-échantillonnage 15<br />

3.1 Métho<strong>de</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

3.1.1 Acquisition et prétraitement . . . . . . . . . . . . . . . . . 15<br />

3.1.2 Mesures <strong>de</strong> dissimilarité . . . . . . . . . . . . . . . . . . . 18<br />

3.1.3 Sous-échantillonnage . . . . . . . . . . . . . . . . . . . . . 20<br />

3.1.4 Sélection <strong>de</strong> caractéristiques . . . . . . . . . . . . . . . . . 25<br />

3.1.5 Classification supervisée . . . . . . . . . . . . . . . . . . . 26<br />

3.1.6 Evaluation <strong>de</strong>s performances . . . . . . . . . . . . . . . . 29<br />

3.2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

3.2.1 Sous-échantillonnage et sélection <strong>de</strong> caractéristiques . . . 31<br />

3.2.2 Classifieurs . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

3.2.3 Matrice <strong>de</strong> confusion et BCR . . . . . . . . . . . . . . . . 33<br />

3.2.4 Structure <strong>de</strong> base . . . . . . . . . . . . . . . . . . . . . . . 33<br />

3.2.5 Description <strong>de</strong>s expériences . . . . . . . . . . . . . . . . . 33<br />

3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

2


TABLE DES MATIÈRES 3<br />

3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

4 Effet <strong>de</strong> la sélection <strong>de</strong> caractéristiques 37<br />

4.1 Métho<strong>de</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

4.2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

5 Effet <strong>de</strong>s outliers 43<br />

5.1 Métho<strong>de</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

5.1.1 Elimination d’outliers <strong>de</strong> la base <strong>de</strong> données (type 1) . . . 43<br />

5.1.2 Elimination d’outliers après un clustering (type 2) . . . . 43<br />

5.2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

5.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45<br />

5.3.1 Elimination <strong>de</strong>s outliers <strong>de</strong> la base <strong>de</strong> données (type 1) . . 45<br />

5.3.2 Elimination <strong>de</strong>s outliers après un clustering (type 2) . . . 45<br />

5.3.3 Sous-échantillonnage simple et élimination <strong>de</strong>s outliers . . 46<br />

5.3.4 Sous-échantillonnage <strong>de</strong> type Clustering et élimination <strong>de</strong>s<br />

outliers (type 1) . . . . . . . . . . . . . . . . . . . . . . . 46<br />

5.3.5 Sous-échantillonnage <strong>de</strong> type Clustering et élimination <strong>de</strong>s<br />

outliers (type 2) . . . . . . . . . . . . . . . . . . . . . . . 46<br />

5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />

6 Validation <strong>du</strong> modèle 55<br />

6.1 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />

6.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />

6.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

7 Conclusions 61<br />

7.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />

7.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />

7.3 Problèmes rencontrés . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

7.4 Trav<strong>au</strong>x futurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63


CHAPITRE 1. AVANT-PROPOS 4<br />

Chapitre 1<br />

Avant-propos<br />

1.1 Notation<br />

Dans ce mémoire, un effort a été consenti <strong>pour</strong> que les notations utilisées<br />

soient les plus cohérentes possible. En voici la liste :<br />

c : Une <strong>de</strong>s classes utilisées <strong>pour</strong> la classification<br />

C : Nombre total <strong>de</strong> classes (C = 4 dans ce mémoire)<br />

d : Une mesure <strong>de</strong> dissimilarité<br />

fc(x) : Probabilité conditionnelle <strong>de</strong> la classe c<br />

G : Matrice <strong>de</strong> programmation dynamique<br />

h : Nombre d’échantillons désirés <strong>pour</strong> la trace<br />

J : Mesure <strong>de</strong> distorsion (k-means)<br />

K : Nombre total <strong>de</strong> centroï<strong>de</strong>s, <strong>au</strong>ssi égal <strong>au</strong> nombre <strong>de</strong><br />

battements N après rééchantillonnage<br />

Ltrace : Longueur d’une segmentation trace<br />

M : Nombre total <strong>de</strong> battements <strong>de</strong> départ<br />

Nc : Nombre <strong>de</strong> battements dans la classe c<br />

prc : Précision <strong>pour</strong> une classe c d’une matrice <strong>de</strong> confusion<br />

prtot : Précision totale d’une matrice <strong>de</strong> confusion<br />

P : Ensemble <strong>de</strong>s battements <strong>de</strong> départ <strong>pour</strong> le rééchantillonnage<br />

P r(H = c|X = x) : Probabilité à postériori d’appartenance à la classe c<br />

connaissant x<br />

Q : Centroï<strong>de</strong>s après contrainte j ou recentrage<br />

R : Ensemble <strong>de</strong>s centroï<strong>de</strong>s <strong>pour</strong> le rééchantillonnage<br />

se : Sensibilité d’une matrice <strong>de</strong> confusion<br />

sp : Spécificité d’une matrice <strong>de</strong> confusion<br />

S : Seuil <strong>de</strong> la technique « On The Fly »<br />

t : Coût d’une transition (DTW)<br />

T : Coût total <strong>de</strong>s transitions (DTW)


CHAPITRE 1. AVANT-PROPOS 5<br />

unk : Booléen d’affectation (k-means)<br />

V : Vraisemblance<br />

x : Un battement x = [x0, ..., xX−1]<br />

X : Longueur d’un battement x<br />

y : Un <strong>au</strong>tre battement y = [y0, ..., yY −1]<br />

Y : Longueur d’un battement y<br />

δ : Augmentation <strong>de</strong> performance minimale <strong>pour</strong> continuer<br />

la sélection <strong>de</strong> caractéristiques (voir Chapitre 4)<br />

∆j : Dérivée partielle cumulée<br />

∆ : Valeur finale <strong>de</strong> la dérivée partielle cumulée<br />

µd : Moyenne <strong>de</strong>s mesures <strong>de</strong> dissimilarité<br />

σd : Ecart-type <strong>de</strong>s mesures <strong>de</strong> dissimilarité<br />

Σ : Matrice <strong>de</strong> covariance<br />

1.2 Glossaire <strong>de</strong>s termes anglophones<br />

Boxplot : Graphe représentant <strong>de</strong>s données. Il y est indiqué la médiane<br />

(centre <strong>du</strong> rectangle), les 25 e et le 75 e percentile (respectivement<br />

le bas et le h<strong>au</strong>t <strong>du</strong> rectangle), la données la plus petite<br />

et la plus gran<strong>de</strong> (respectivement le trait en bas et en h<strong>au</strong>t)<br />

et éventuellement les outliers qui sont représentés par <strong>de</strong>s +.<br />

Cluster : Sous-échantillon ou sous-groupe <strong>de</strong> données homogènes possédant<br />

<strong>de</strong>s propriétés similaires, ce qui correspond souvent à<br />

<strong>de</strong>s critères <strong>de</strong> proximité.<br />

Clustering : Métho<strong>de</strong> permettant d’obtenir <strong>de</strong>s clusters à partir <strong>de</strong> données.<br />

Filter : Approche <strong>pour</strong> la sélection <strong>de</strong> caractéristiques : utilisation<br />

d’un critère indépendant <strong>du</strong> modèle prédictif.<br />

LDA : Ou Analyse Discriminante Linéaire, technique <strong>de</strong> classification<br />

qui fait l’hypothèse <strong>de</strong> normalité sur les classes.<br />

Forward : Métho<strong>de</strong> <strong>de</strong> la sélection <strong>de</strong> caractéristiques. C’est la métho<strong>de</strong><br />

Filter la plus classique.<br />

Outliers : Données hors-normes ou extrêmes.<br />

Wrapper : Approche <strong>pour</strong> la sélection <strong>de</strong> caractéristiques : utilisation <strong>de</strong>s<br />

métho<strong>de</strong>s comme d’une boite noire <strong>pour</strong> donner un score à un<br />

sous-ensemble <strong>de</strong> variable.<br />

1.3 Remerciements<br />

Je tiens à remercier le professeur Michel Verleysen, le promoteur <strong>de</strong> ce mémoire,<br />

ainsi que Gaël <strong>de</strong> Lannoy <strong>pour</strong> leur ai<strong>de</strong> précieuse. Je remercie également<br />

tous les membres <strong>de</strong> mon entourage qui m’ont aidé à relire et finaliser ce rapport.


CHAPITRE 2. INTRODUCTION 6<br />

Chapitre 2<br />

Intro<strong>du</strong>ction<br />

La technologie utilisée en milieu clinique <strong>de</strong>venant <strong>de</strong> plus en plus complexe,<br />

les mé<strong>de</strong>cins se retrouvent <strong>de</strong>vant toujours plus <strong>de</strong> données générées par différentes<br />

modalités [1]. Ces données peuvent être très intéressantes <strong>pour</strong> diverses<br />

tâches comme les interfaces homme-machine, le suivi <strong>de</strong>s fonctions physiologiques<br />

et le <strong>diagnostic</strong> <strong>de</strong> certaines maladies [2]. En particulier, il peut s’agir <strong>de</strong><br />

sign<strong>au</strong>x physiologiques comme l’enregistrement <strong>de</strong> l’activité électrique <strong>du</strong> muscle<br />

cardiaque ou électrocardiogramme (<strong>ECG</strong>). Ceux-ci sont parfois acquis <strong>du</strong>rant <strong>de</strong><br />

très longues pério<strong>de</strong>s (jusqu’à plusieurs jours [1]) et sont <strong>de</strong> nos jours interprétés<br />

visuellement par <strong>de</strong>s experts. Dans le cas <strong>de</strong> l’électrocardiogramme, ce sont plus<br />

<strong>de</strong> 100 000 battements par jour qui doivent être analysés. Cette tâche peut être<br />

très longue et donc très coûteuse, notamment dans le <strong>diagnostic</strong> <strong>de</strong> nombreuses<br />

maladies cardiaques et dans les essais cliniques [3].<br />

Dans le présent mémoire, <strong>de</strong>s métho<strong>de</strong>s simples <strong>de</strong> « Machine Learning » vont<br />

être appliquées <strong>pour</strong> le traitement <strong>du</strong> <strong>signal</strong> <strong>ECG</strong>. Ces métho<strong>de</strong>s sont souvent<br />

à cheval entre mathématiques, statistiques et programmation. Elles permettent<br />

<strong>de</strong> reconnaitre <strong>de</strong>s schémas complexes à partir <strong>de</strong> données expérimentales. La<br />

première étape est <strong>de</strong> bâtir un modèle sur <strong>de</strong>s données connues <strong>pour</strong> plus tard<br />

pouvoir généraliser à d’<strong>au</strong>tres données. De nombreuses solutions utilisant les<br />

rése<strong>au</strong>x <strong>de</strong> neurones artificiels ont été proposées dans la littérature. Les plus<br />

utilisées étant les rése<strong>au</strong>x <strong>de</strong> neurones multicouches [4], [5], [6], les cartes <strong>au</strong>toorganisatrices<br />

<strong>de</strong> Kohonen [7], les systèmes flous [8] et diverses combinaisons<br />

<strong>de</strong> ces <strong>de</strong>rnières [9]. La suite <strong>de</strong> cette intro<strong>du</strong>ction commencera par rappeler<br />

l’anatomie <strong>du</strong> cœur. Elle décrira l’électrocardiogramme, le Holter et leurs diverses<br />

sources <strong>de</strong> bruit. Ensuite viendra la <strong>de</strong>scription <strong>de</strong>s standards utilisés,<br />

puis l’i<strong>de</strong>ntification <strong>du</strong> problème et les objectifs <strong>de</strong> ce mémoire. Finalement, le<br />

plan <strong>de</strong> ce <strong>de</strong>rnier clôturera ce chapitre.


CHAPITRE 2. INTRODUCTION 7<br />

2.1 Anatomie <strong>du</strong> cœur<br />

Le cœur est un organe très étudié et déjà bien connu. Celui-ci se situe dans<br />

le thorax. Les parois <strong>du</strong> cœur sont principalement composées <strong>de</strong> cellules musculaires<br />

constituant le myocar<strong>de</strong>. Ces parois forment plusieurs cavités tapissées <strong>de</strong><br />

cellules endothéliales ou endothélium. Chez l’homme, ces cavités sont <strong>au</strong> nombre<br />

<strong>de</strong> quatre [10].<br />

- L’oreillette droite reçoit le sang <strong>de</strong> la totalité <strong>de</strong> l’organisme (excepté celui<br />

venant <strong>de</strong>s poumons) et déverse celui-ci dans le ventricule droit.<br />

- Le ventricule droit expulse le sang vers les poumons où les sous-unités <strong>de</strong><br />

l’hémoglobine sont chargées en oxygène.<br />

- L’oreillette g<strong>au</strong>che récupère le sang qui revient <strong>de</strong>s poumons.<br />

- Le ventricule g<strong>au</strong>che expulse le sang dans le corps entier.<br />

Entre l’oreillette et le ventricule, <strong>de</strong> chaque côté <strong>du</strong> cœur, se trouvent <strong>de</strong>s valves<br />

qui laissent circuler le sang <strong>de</strong> l’oreillette vers le ventricule mais l’empêche <strong>de</strong> refouler.<br />

L’action <strong>de</strong>s valves est un phénomène passif. Le but <strong>de</strong> cet agencement <strong>du</strong><br />

cœur est <strong>de</strong> pro<strong>du</strong>ire une contraction cardiaque coordonnée qui <strong>pour</strong>ra faire circuler<br />

le sang dans le système vasculaire. Une petite partie <strong>de</strong>s cellules cardiaques<br />

n’intervient pas dans la contraction mais porte <strong>de</strong>s structures spécifiques qui sont<br />

essentielles à l’excitation cardiaque normale. Ces cellules constituent le système<br />

<strong>de</strong> con<strong>du</strong>ction cardiaque (voir Figure 2.1). Elles entrent <strong>au</strong> contact <strong>de</strong>s cellules<br />

musculaires cardiaques via <strong>de</strong>s jonctions communicantes. Le système <strong>de</strong> con<strong>du</strong>ction<br />

initie le battement cardiaque et assure la propogation rapi<strong>de</strong> <strong>de</strong> l’influx dans<br />

tout le coeur [10].<br />

La contraction <strong>du</strong> muscle cardiaque est déclenchée par la dépolarisation<br />

<strong>de</strong>s membranes plasmiques <strong>de</strong> ses cellules. Les jonctions communicantes qui<br />

connectent les cellules <strong>du</strong> myocar<strong>de</strong> assurent la propagation <strong>de</strong>s potentiels d’action<br />

d’une cellule à l’<strong>au</strong>tre. La dépolartisation initiale prend normalement naissance<br />

dans un petit groupe <strong>de</strong> cellules <strong>du</strong> système <strong>de</strong> con<strong>du</strong>ction : le nœud<br />

sinoatrial, localisé dans l’oreillette droite. Le potentiel d’action se propage alors<br />

<strong>de</strong>puis celui-ci dans la totalité <strong>de</strong>s oreillettes, puis <strong>de</strong>s ventricules. C’est l’effet<br />

cumulé <strong>de</strong> toutes ces dépolarisations qui est mesuré par l’électrocardiogramme<br />

[10].<br />

2.2 Electrocardiogramme<br />

L’électrocardiogramme (<strong>ECG</strong>) est la mesure <strong>de</strong> l’activité électrique <strong>du</strong>rant<br />

la contraction <strong>du</strong> cœur, il est caractérisé par <strong>de</strong>s on<strong>de</strong>s appelés on<strong>de</strong>s P, Q, R, S


CHAPITRE 2. INTRODUCTION 8<br />

Figure 2.1 – Système <strong>de</strong> con<strong>du</strong>ction cardiaque [10].<br />

et T [4], [11]. Les on<strong>de</strong>s Q, R, et S forment le complexe QRS (voir Figure 2.2).<br />

L’invention <strong>de</strong> l’<strong>ECG</strong> a valu à Willem Einthoven le prix Nobel <strong>de</strong> mé<strong>de</strong>cine en<br />

1924. De nos jours, l’<strong>ECG</strong> est largement utilisé et présente jusqu’à douze paires<br />

d’électro<strong>de</strong>s d’enregistrement [1], [12]. La différence <strong>de</strong> potentiel enregistrée entre<br />

chaque paire d’électro<strong>de</strong>s constitue le <strong>signal</strong> qui représente l’activité électrique<br />

<strong>du</strong> cœur <strong>de</strong>puis plusieurs points <strong>de</strong> vue. La fréquence d’échantillonnage <strong>de</strong> tels<br />

<strong>ECG</strong> mo<strong>de</strong>rnes se situe entre 250 et 500 Hz [1]. Néanmoins, ce type <strong>de</strong> procé<strong>du</strong>res<br />

est uniquement utilisé <strong>pour</strong> <strong>de</strong>s mesures très courtes (typiquement 10<br />

secon<strong>de</strong>s) <strong>pour</strong> observer <strong>de</strong>s anomalies structurelles <strong>du</strong> cœur. Malheureusement,<br />

une mesure <strong>de</strong> l’<strong>ECG</strong> <strong>de</strong> courte <strong>du</strong>rée peut ne pas permettre <strong>de</strong> diagnostiquer<br />

certaines pathologies comme <strong>de</strong>s arythmies cardiaques, <strong>de</strong>s épiso<strong>de</strong>s ischémiques<br />

transitoires ou <strong>de</strong>s ischémies silencieuses <strong>du</strong> myocar<strong>de</strong> [13], [14]. Dans ce genre<br />

<strong>de</strong> situations, les mé<strong>de</strong>cins ont recours à un enregistrement <strong>ECG</strong> <strong>de</strong> long terme<br />

et utilisant moins d’électro<strong>de</strong>s (seulement <strong>de</strong>ux ou trois) : le Holter.<br />

2.3 Instrumentation : le Holter<br />

Un Holter est un enregistreur d’<strong>ECG</strong> portable qui permet <strong>de</strong> mesurer l’activité<br />

cardiaque sur <strong>de</strong> longues pério<strong>de</strong>s (<strong>de</strong> 24 à 48h) [15], [16]. La Figure 2.3<br />

représente un homme portant un Holter. Cette mesure se fait avec un nombre<br />

restreint <strong>de</strong> paires d’électro<strong>de</strong>s (<strong>de</strong>ux à trois) [1]. L’analyse est effectuée par


CHAPITRE 2. INTRODUCTION 9<br />

Figure 2.2 – Deux battements <strong>ECG</strong> annotés. Ils ont été obtenus artificiellement<br />

car dans la réalité le <strong>signal</strong> est be<strong>au</strong>coup plus bruité [1].<br />

après. De par la <strong>du</strong>rée <strong>de</strong> l’enregistrement, il peut y avoir plus <strong>de</strong> 100 000 battements<br />

par jour et par paire d’électro<strong>de</strong>s à examiner [3]. Malheureusement, le<br />

<strong>diagnostic</strong> peut reposer sur un petit nombre d’entre eux et on ne peut donc pas<br />

en ignorer. En effet, on retrouve seulement quelques battements « anorm<strong>au</strong>x »<br />

parfois dispersés dans tout l’enregistrement [3].<br />

De nos jours, <strong>de</strong>s progrès remarquables sont faits dans les domaines <strong>du</strong> sansfil<br />

et <strong>de</strong>s senseurs portables miniatures qui peuvent remplacer les éléctro<strong>de</strong>s. La<br />

société IMEC, implantée en Belgique, a par exemple réussi à faire d’un GSM un<br />

véritable <strong>ECG</strong> portable grâce à <strong>de</strong>s senseurs sans-fil <strong>de</strong> la taille d’une pièce d’un<br />

euro.<br />

2.4 Bruit et variabilité <strong>du</strong> <strong>signal</strong><br />

Le <strong>signal</strong> <strong>ECG</strong> peut être parasité par certaines sources <strong>de</strong> bruit [1], dont :<br />

- Le secteur :<br />

Selon le pays, la fréquence <strong>du</strong> secteur est <strong>de</strong> 50 ou 60 Hz. On peut éliminer<br />

cette perturbation grâce à un filtre qui enlève sélectivement ces fréquences<br />

(coupe-ban<strong>de</strong>).<br />

- Le contact <strong>de</strong> l’électro<strong>de</strong> :<br />

La perte ou la modification <strong>du</strong> contact entre l’électro<strong>de</strong> et la pe<strong>au</strong> peut<br />

con<strong>du</strong>ire à <strong>de</strong>s changements importants ou <strong>de</strong>s saturations <strong>du</strong> <strong>signal</strong>, d’où<br />

l’utilisation d’un gel con<strong>du</strong>cteur.


CHAPITRE 2. INTRODUCTION 10<br />

Figure 2.3 – Illustration d’un homme portant un Holter.<br />

- L’électromyogramme :<br />

L’activité électrique <strong>de</strong>s <strong>au</strong>tres muscles se superpose à celle <strong>du</strong> cœur. L’inverse<br />

est vrai lors <strong>de</strong> l’acquisition <strong>du</strong> <strong>signal</strong> EMG.<br />

- La respiration :<br />

Des dérives sinusoïdales <strong>de</strong> la ligne <strong>de</strong> base sont observées à une fréquence<br />

inférieure à 1 Hz.<br />

- Le mouvement :<br />

Les mouvements <strong>du</strong> patient peuvent <strong>au</strong>ssi mener à <strong>de</strong>s dérives dans la ligne<br />

<strong>de</strong> base.<br />

2.5 Standards AAMI<br />

Pour pouvoir classifier les battements cardiaques, il f<strong>au</strong>t commencer par définir<br />

<strong>de</strong>s classes. De nombreuses classifications différentes peuvent être trouvées<br />

dans la littérature. Dans ce mémoire, c’est la classification recommandée par<br />

l’AAMI « Association for the Advancement of Medical Instrumentation » [1],<br />

[17] qui a été choisie. La correspondance entre les standards <strong>de</strong> l’AAMI et le<br />

système utilisé <strong>pour</strong> notre base <strong>de</strong> données est repris à la Figure 2.4.


CHAPITRE 2. INTRODUCTION 11<br />

Les classes sont <strong>au</strong> nombre <strong>de</strong> cinq mais dans un souci pratique, la classe Q<br />

(battements inconnus) ne sera pas utilisée car l’hypothèse sera faite que chaque<br />

battement <strong>pour</strong>ra être attribué à l’une <strong>de</strong>s quatre <strong>au</strong>tres classes (N, S, V ou F)<br />

ou sera supprimé <strong>de</strong> la base <strong>de</strong> données. Les quatre classes sont :<br />

- Classe N :<br />

Ce sont les battements « norm<strong>au</strong>x ». Ce sont <strong>de</strong> loin les battements les<br />

plus fréquents.<br />

- Classe S :<br />

Ce sont les battements « anorm<strong>au</strong>x » d’origine Supra-ventriculaire (dont<br />

ceux originaires <strong>de</strong>s oreillettes, voir Section 2.1).<br />

- Classe V :<br />

Ce sont les battements « anorm<strong>au</strong>x » d’origine Ventriculaire (ceux originaires<br />

<strong>de</strong>s ventricules, voir Section 2.1).<br />

- Classe F :<br />

Ce sont les battements « anorm<strong>au</strong>x » résultant <strong>de</strong> la Fusion d’un battement<br />

V et d’un battement N.<br />

Figure 2.4 – Standards <strong>de</strong> l’AAMI et correspondance avec le système utilisé<br />

<strong>pour</strong> notre base <strong>de</strong> données.<br />

2.6 Etat actuel et objectifs<br />

Le but final est <strong>de</strong> repérer les battements anorm<strong>au</strong>x dans un nouve<strong>au</strong> tracé<br />

<strong>ECG</strong> <strong>pour</strong> pouvoir poser un <strong>diagnostic</strong>. On peut distinguer <strong>de</strong>ux genres d’approches<br />

<strong>pour</strong> extraire ces battements :


CHAPITRE 2. INTRODUCTION 12<br />

- Approche supervisée :<br />

Il est nécessaire <strong>de</strong> disposer d’un ensemble <strong>de</strong> battements correctement<br />

annotés par un praticien. Différents algorithmes permettent alors <strong>de</strong> classifier<br />

d’<strong>au</strong>tres battements, ce qui constitue un <strong>diagnostic</strong> <strong>au</strong>tomatisé. Malheureusement,<br />

la gran<strong>de</strong> variabilité <strong>de</strong>s sign<strong>au</strong>x <strong>ECG</strong> issus <strong>de</strong> différents<br />

patients, pathologies et équipements rend ce genre <strong>de</strong> <strong>diagnostic</strong>s trop peu<br />

fiable <strong>pour</strong> pouvoir se passer <strong>de</strong> l’avis d’un cardiologue [12].<br />

- Approche non-supervisée :<br />

Dans ce cas, il n’y a pas besoin <strong>de</strong> battements préalablement annotés,<br />

mais pas <strong>de</strong> <strong>diagnostic</strong>s <strong>au</strong>tomatisés non plus. Les nouve<strong>au</strong>x battements<br />

sont examinés en utilisant une mesure <strong>de</strong> dissimilarité <strong>pour</strong> obtenir un clustering.<br />

Chaque groupe est alors représenté par un « battement-type ». Le<br />

praticien peut alors n’analyser que ces « battements-type », ce qui constitue<br />

un gain <strong>de</strong> temps important. Il f<strong>au</strong>t bien sûr qu’<strong>au</strong>cun battement important<br />

n’ait été per<strong>du</strong> lors <strong>de</strong> la manœuvre <strong>pour</strong> que le <strong>diagnostic</strong> soit le<br />

plus correct possible [12].<br />

Le but d’un problème <strong>de</strong> classification est d’assigner <strong><strong>au</strong>tomatique</strong>ment <strong>de</strong>s<br />

données à l’une <strong>de</strong>s catégories que l’on s’est fixées en nombre fini. Ces catégories<br />

seront ici appelées classes et le modèle servant à classifier sera appelé classifieur.<br />

La difficulté vient <strong>du</strong> fait que la métrique généralement utilisée <strong>pour</strong> évaluer les<br />

performances d’un classifieur (et <strong>au</strong>ssi <strong>du</strong>rant son apprentissage) n’est pas fiable<br />

en cas <strong>de</strong> déséquilibre <strong>de</strong>s classes. Or, les classes N, S, V et F sont fortement<br />

déséquilibrées.<br />

Considérons un cas à <strong>de</strong>ux classes c1 et c2 avec une population <strong>de</strong> données <strong>de</strong><br />

95% et 5% respectivement. Un classifieur un peu naïf qui classifierait la totalité<br />

<strong>de</strong>s données dans la classes c1 s’en sortirait avec une performance respectable <strong>de</strong><br />

95% si l’on considère uniquement le <strong>pour</strong>centage <strong>de</strong> données correctement classifiées.<br />

Or, dans le cas qui nous occupe, ce sont justement les 5 <strong>de</strong>rniers <strong>pour</strong>cents<br />

qui sont les plus importants. Il f<strong>au</strong>dra donc choisir avec be<strong>au</strong>coup d’attention la<br />

métrique utilisée.<br />

Un <strong>au</strong>tre problème majeur <strong>de</strong> cette application est que le déséquilibre <strong>de</strong>s classes<br />

N, V, S et F pousse les classifieurs standards à considérer les classes les moins<br />

représentées (V, S et F) comme <strong>du</strong> bruit et à toujours classifier les battements<br />

comme norm<strong>au</strong>x (principe <strong>du</strong> rasoir d’Occam [1]). Les frontières <strong>de</strong> décision sont<br />

donc biaisées en faveur <strong>de</strong> la classe majoritaire N.<br />

Plusieurs pistes existent <strong>pour</strong> ré<strong>du</strong>ire ce déséquilibre et sont énumérées ici<br />

dans une liste non-exh<strong>au</strong>stive.


CHAPITRE 2. INTRODUCTION 13<br />

2.6.1 Modification d’algorithmes existants <strong>pour</strong> tenir compte <strong>du</strong><br />

déséquilibre<br />

Les algorithmes peuvent souvent être modifiés <strong>pour</strong> obtenir <strong>de</strong> meilleures<br />

performances. Dans [1] et [3] les <strong>au</strong>teurs ont notamment modifié l’analyse discriminante<br />

et les machines à vecteur <strong>de</strong> support (SVM en anglais) <strong>pour</strong> obtenir <strong>de</strong><br />

bons résultats. L’idée générale est <strong>de</strong> changer la fonction <strong>de</strong> coût utilisée <strong>pour</strong><br />

entrainer le classifieur par une approximation <strong>du</strong> t<strong>au</strong>x <strong>de</strong> classification équilibré.<br />

Ce <strong>de</strong>rnier est en effet une métrique adéquate <strong>pour</strong> notre application (voir Section<br />

3.1.6). Pour ce faire, <strong>de</strong>s poids différents sont donnés <strong>au</strong>x erreurs <strong>de</strong> chaque<br />

classe.<br />

2.6.2 Sur-échantillonnage <strong>pour</strong> tenir compte <strong>du</strong> déséquilibre<br />

Une <strong>au</strong>tre piste <strong>pour</strong> ne pas modifier les algorithmes est d’<strong>au</strong>gmenter le<br />

nombre <strong>de</strong> battements anorm<strong>au</strong>x par rapport <strong>au</strong>x battements norm<strong>au</strong>x (soit suréchantillonner).<br />

Cette procé<strong>du</strong>re peut par exemple se faire via <strong>de</strong>s algorithmes<br />

comme SMOTE (Synthetic Minority Oversampling Technique [18]). L’idée est<br />

<strong>de</strong> créer <strong>de</strong> nouvelles observations dans les classes minoritaires en estimant leurs<br />

distributions <strong>de</strong> probabilité et d’utiliser ces <strong>de</strong>rnières <strong>pour</strong> générer <strong>de</strong> nouve<strong>au</strong>x<br />

échantillons.<br />

2.6.3 Sous-échantillonnage <strong>pour</strong> tenir compte <strong>du</strong> déséquilibre<br />

C’est l’approche inverse <strong>de</strong> la précé<strong>de</strong>nte. Elle consiste à diminuer le nombre<br />

<strong>de</strong> battements norm<strong>au</strong>x par rapport <strong>au</strong> nombre <strong>de</strong> battements anorm<strong>au</strong>x (soit<br />

sous-échantillonner). Dans le présent mémoire, le choix a été fait <strong>de</strong> se concentrer<br />

sur les techniques <strong>de</strong> sous-échantillonnage dans le domaine <strong>de</strong> la classification <strong>du</strong><br />

<strong>signal</strong> <strong>ECG</strong>. Ces techniques restent en effet peu étudiées. Plusieurs approches<br />

seront investiguées :<br />

- Sous-échantillonnage simple :<br />

Cela consiste à laisser tomber une partie <strong>de</strong>s battements, soit aléatoirement,<br />

soit <strong>de</strong> manière régulière.<br />

- Technique « On The Fly » (ou OTF) :<br />

Cette technique consiste à analyser les battements dès leur acquisition<br />

<strong>pour</strong> ne gar<strong>de</strong>r que ceux qui s’écartent significativement <strong>de</strong> la distribution<br />

<strong>de</strong>s battements précé<strong>de</strong>nts.<br />

- Clustering :<br />

Les techniques <strong>de</strong> clustering permettent <strong>de</strong> diminuer un nombre d’observations<br />

en les remplaçant par un certain nombre <strong>de</strong> centroï<strong>de</strong>s qui représentent<br />

<strong>au</strong> mieux les observations.


CHAPITRE 2. INTRODUCTION 14<br />

Notre métho<strong>de</strong> se situe donc entre l’approche supervisée et l’approche nonsupervisée<br />

: une première manipulation non-supervisée permet <strong>de</strong> ré<strong>du</strong>ire le jeu<br />

<strong>de</strong> données et une secon<strong>de</strong> étape supervisée classifie les différents battements<br />

restants. Comme la proportion <strong>de</strong> battements norm<strong>au</strong>x par rapport <strong>au</strong>x anorm<strong>au</strong>x<br />

est importante et que l’on souhaiterait rééquilibrer les classes, la phase<br />

non-supervisée concerne uniquement les battements norm<strong>au</strong>x. La phase d’apprentissage<br />

supervisée concerne elle les battements norm<strong>au</strong>x ré<strong>du</strong>its et tous les<br />

battements anorm<strong>au</strong>x.<br />

2.7 Plan <strong>du</strong> mémoire<br />

La suite <strong>du</strong> mémoire est divisée en quatre chapitres, suivis d’une conclusion.<br />

- Chapitre 3 : Effet <strong>du</strong> sous-échantillonnage :<br />

Dans ce chapitre, plusieurs métho<strong>de</strong>s <strong>de</strong> sous-échantillonnage seront comparées<br />

et la meilleure d’entre elles sera choisie <strong>pour</strong> les <strong>au</strong>tres parties.<br />

- Chapitre 4 : Effet <strong>de</strong> la sélection <strong>de</strong> caractéristiques :<br />

La sélection <strong>de</strong> variables sera décortiquée dans le cas choisi et <strong>pour</strong> certaines<br />

variantes. Des conclusions <strong>pour</strong> le Chapitre 6 seront tirées.<br />

- Chapitre 5 : Effet <strong>de</strong>s outliers 1 :<br />

La robustesse <strong>de</strong> la métho<strong>de</strong> choisie vis-à-vis <strong>de</strong>s outliers sera testée dans<br />

ce chapitre. Deux tentatives <strong>pour</strong> enlever certains points extrêmes seront<br />

également testées, afin d’<strong>au</strong>gmenter les performances <strong>de</strong> classification.<br />

- Chapitre 6 : Validation <strong>du</strong> modèle :<br />

Dans ce <strong>de</strong>rnier chapitre avant la conclusion, on essayera <strong>de</strong> procé<strong>de</strong>r à<br />

la validation <strong>de</strong>s paramètres, c’est-à-dire déterminer les paramètres qui<br />

généralisent le mieux la classification. Les informations apprises dans les<br />

parties précé<strong>de</strong>ntes seront utilisées <strong>au</strong> mieux.<br />

1. Terme anglais signifiant points hors-normes, ou extrêmes. Les outliers sont <strong>de</strong>s données<br />

qui entrainent une ré<strong>du</strong>ction <strong>de</strong>s performances <strong>de</strong> nombreuses métho<strong>de</strong>s <strong>de</strong> Machine Learning<br />

<strong>de</strong> par leur côté extrême.


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 15<br />

Chapitre 3<br />

Effet <strong>du</strong> sous-échantillonnage<br />

Dans ce chapitre, l’effet <strong>du</strong> sous-échantillonnage sera étudié en comparant<br />

trois gran<strong>de</strong>s métho<strong>de</strong>s. Le but est <strong>de</strong> ré<strong>du</strong>ire le déséquilibre <strong>de</strong>s quatre classes,<br />

car <strong>pour</strong> rappel celui-ci est responsable <strong>de</strong> la dégradation <strong>de</strong>s performances <strong>de</strong>s<br />

classifieurs. Plusieurs techniques seront utilisées. La première et la plus basique<br />

est le sous-échantillonnage simple : un certain nombre <strong>de</strong> battements norm<strong>au</strong>x<br />

sont gardés <strong>au</strong> hasard (sans remise). Une <strong>au</strong>tre possibilité envisagée est une<br />

technique « On The Fly » : les battements sont considérés dans l’ordre <strong>de</strong> leur<br />

enregistrement et la propriété <strong>de</strong> stationnarité <strong>de</strong> battements norm<strong>au</strong>x est exploitée<br />

: on ne gar<strong>de</strong> les battements que s’ils sont significativement différents <strong>de</strong><br />

l’ensemble <strong>de</strong>s battements déjà analysés. La <strong>de</strong>rnière possilité est une approche<br />

utilisant le clustering : elle permet <strong>de</strong> diminuer un nombre d’observations en les<br />

remplaçant par un certain nombre <strong>de</strong> centroï<strong>de</strong>s qui représentent <strong>au</strong> mieux ces<br />

observations. Pour commencer, les outils utilisés <strong>pour</strong> rééquilibrer les classes et le<br />

classifieur vont être décrits. Ensuite, les différentes expériences seront détaillées<br />

et leurs résultats analysés. Ce chapitre se terminera par une discussion sur les<br />

résultats obtenus.<br />

3.1 Métho<strong>de</strong><br />

Dans cette section, la base <strong>de</strong> données et son prétraitement seront présentés,<br />

ainsi que les outils servant à comparer <strong>de</strong>ux battements, à rééquilibrer les classes,<br />

à choisir <strong>de</strong>s variables pertinentes et à entrainer un modèle <strong>de</strong> classification.<br />

3.1.1 Acquisition et prétraitement<br />

Deux aspects doivent être pris en compte : les battements et les caractéristiques<br />

associées.


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 16<br />

Battements cardiaques<br />

La base <strong>de</strong> données « MIT-BIH arrhythmia database » [19] sera utilisée.<br />

Celle-ci contient 48 heures d’enregistrement issues <strong>de</strong> 48 patients, <strong>pour</strong> un total<br />

d’approximativement 110 000 battements annotés selon 15 types (voir Section<br />

2.5). Quatre patients possédant un pacemaker ont été écartés, suivant les recommandations<br />

<strong>de</strong> l’AAMI.<br />

Les 44 tracés restants sont divisés en <strong>de</strong>ux groupes <strong>de</strong> 22. Le premier groupe<br />

constitue l’ensemble d’apprentissage et est utilisé <strong>pour</strong> bâtir le modèle. Le second<br />

groupe quand à lui constitue l’ensemble <strong>de</strong> test et est utilisé <strong>pour</strong> mesurer<br />

les performances <strong>du</strong> modèle.<br />

Les tracés <strong>ECG</strong> <strong>de</strong>s <strong>de</strong>ux groupes sont ensuite filtrés et débarrassés <strong>de</strong> leurs<br />

artefacts en utilisant la procé<strong>du</strong>re décrite dans [17]. Un premier filtre médian <strong>de</strong><br />

200ms <strong>de</strong> largeur enlève le complexe composé <strong>de</strong>s on<strong>de</strong>s Q, R et S et l’on<strong>de</strong> P. Le<br />

résultat est ensuite soumis à un second filtre médian <strong>de</strong> 600ms <strong>de</strong> largeur <strong>pour</strong><br />

enlever l’on<strong>de</strong> T. Le <strong>signal</strong> en résultant contient la dérive <strong>de</strong> la ligne <strong>de</strong> base et<br />

est soustrait <strong>du</strong> <strong>signal</strong> original. L’artefact issu <strong>du</strong> secteur est ensuite enlevé avec<br />

un filtre coupe-ban<strong>de</strong> <strong>de</strong> 60Hz.<br />

La localisation <strong>de</strong>s pics R et le type <strong>de</strong> chaque battement sont fournis dans la<br />

base <strong>de</strong> données (dans un standard différent <strong>de</strong> celui <strong>de</strong> l’AAMI). La correspondance<br />

avec le standard est alors effectuée <strong>pour</strong> n’obtenir que quatre classes. Pour<br />

finir, les battements ayant un intervalle R-R plus petit que 150ms ou plus grand<br />

que 2000ms sont éliminés <strong>de</strong> la base <strong>de</strong> données car certainement mal annotés.<br />

N S V F Total<br />

Apprentissage 45809 942 3784 413 50948<br />

89,91% 1,85% 7,43% 0,81% 100%<br />

Test 44099 1836 3219 388 49542<br />

89,01% 3,71% 6,50% 0,78% 100%<br />

Table 3.1 – Distribution <strong>de</strong>s battements dans les différentes classes. Les classes<br />

sont, comme atten<strong>du</strong>, fortement déséquilibrées.<br />

Deux métho<strong>de</strong>s <strong>pour</strong> isoler les battements vont être testées :<br />

- Une avec <strong>de</strong>s battements <strong>de</strong> longueur constante :<br />

Ils sont coupés 500ms avant et après le pic R <strong>de</strong> chaque battement.<br />

- Une avec <strong>de</strong>s battements <strong>de</strong> longueurs non-constantes :<br />

Ils sont coupés <strong>du</strong> début <strong>de</strong> l’on<strong>de</strong> P d’un battement jusqu’<strong>au</strong> début <strong>de</strong><br />

l’on<strong>de</strong> P <strong>du</strong> battement suivant.<br />

Le but est <strong>de</strong> voir quelle métho<strong>de</strong> est la meilleure. Bien enten<strong>du</strong>, les outils <strong>de</strong>vront<br />

être différents <strong>pour</strong> chacune <strong>de</strong> ces <strong>de</strong>ux métho<strong>de</strong>s.


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 17<br />

Extraction <strong>de</strong> caratéristiques<br />

L’extraction <strong>de</strong> nombreuses caractéristiques différentes sont proposées dans<br />

la littérature traitant <strong>de</strong> la classification <strong>de</strong>s battements cardiaques. Les mêmes<br />

caractéristiques que dans [1] vont être utilisées, ce qui représente pas moins <strong>de</strong><br />

249 caractéristiques. Celles-ci peuvent être réparties en sept groupes :<br />

- Intervalles <strong>de</strong> segmentation (24 caractéristiques) :<br />

Les points caractéristiques <strong>de</strong> l’<strong>ECG</strong>, correspondant <strong>au</strong> début et à la fin<br />

<strong>de</strong>s on<strong>de</strong>s P, <strong>du</strong> complexe QRS, et <strong>de</strong> l’on<strong>de</strong> T. Ils sont annotés <strong>pour</strong><br />

chaque battement en utilisant l’algorithme non supervisé décrit dans [20].<br />

Un ensemble <strong>de</strong> 24 caractéristiques est alors calculé à partir <strong>de</strong> ces points :<br />

– Complexe QRS : un booléen indiquant si les points Q et S ont été annotés,<br />

l’aire, le maximum, le minimum, l’aire positive, l’aire négative,<br />

l’écart-type, l’asymétrie, le kurthosis, la longueur, la longueur QR et la<br />

longueur RS.<br />

– On<strong>de</strong> P : un booléen indiquant si son début et sa fin ont été annotés,<br />

l’aire, le maximum, le minimum et la longueur.<br />

– On<strong>de</strong> T : un booléen indiquant si son début et sa fin ont été annotés,<br />

l’aire, le maximum, le minimum, la longueur, la longueur QT et la longueur<br />

ST.<br />

Lorsque les points nécessaires <strong>pour</strong> calculer une caractéristique n’ont pas<br />

été détectés à l’étape <strong>de</strong> segmentation <strong>du</strong> battement cardiaque, la valeur<br />

<strong>de</strong> celle-ci est définie par la valeur moyenne <strong>de</strong> cette caractéristique <strong>pour</strong><br />

ce patient.<br />

- Intervalles R-R (8 caractéristiques) :<br />

Ce groupe se compose <strong>de</strong> quatre éléments bâtis à partir <strong>de</strong>s segmentations<br />

originales <strong>du</strong> pic R <strong>de</strong> la base <strong>de</strong> données MIT-BIH ; l’intervalle R-R précé<strong>de</strong>nt,<br />

l’intervalle R-R suivant, l’intervalle R-R en moyenne dans une fenêtre<br />

<strong>de</strong> 10 pics R et l’intervalle R-R moyen <strong>du</strong> patient. Les quatre mêmes caractéristiques<br />

sont également calculées en utilisant les pics R détectés par<br />

l’algorithme <strong>de</strong> segmentation décrit dans [20].<br />

- Caractéristiques morphologiques (19 caractéristiques) :<br />

Dix valeurs sont mesurées par échantillonnage uniforme <strong>de</strong> l’amplitu<strong>de</strong><br />

<strong>ECG</strong> dans une fenêtre définie par le début et la fin <strong>du</strong> complexe QRS, et<br />

neuf <strong>au</strong>tres caractéristiques dans une fenêtre définie par la fin <strong>du</strong> complexe<br />

QRS et la fin <strong>de</strong> l’on<strong>de</strong> T. Comme les sign<strong>au</strong>x <strong>ECG</strong> sont déjà échantillonnés,<br />

l’interpolation linéaire est utilisée <strong>pour</strong> estimer les valeurs intermé-


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 18<br />

diaires <strong>de</strong> l’amplitu<strong>de</strong> <strong>ECG</strong>. Là encore, lorsque les points <strong>de</strong> début ou <strong>de</strong><br />

fin nécessaires <strong>pour</strong> calculer une caractéristique n’ont pas été détectés, la<br />

valeur <strong>de</strong> celle-ci est définie par la valeur moyenne <strong>de</strong> cette caractéristique<br />

<strong>pour</strong> ce patient.<br />

- Coefficients provenant <strong>de</strong>s fonctions <strong>de</strong> base <strong>de</strong> Hermite (20 caractéristiques)<br />

:<br />

Les paramètres <strong>pour</strong> les coefficients <strong>de</strong> dilatation FBH sont choisis comme<br />

dans [21] : l’ordre <strong>du</strong> polynôme <strong>de</strong> Hermite est fixé à 20 et le paramètre <strong>de</strong><br />

largeur σ est estimé <strong>de</strong> façon à minimiser l’erreur <strong>de</strong> reconstruction <strong>pour</strong><br />

chaque battement.<br />

- Coefficients statistiques <strong>de</strong> h<strong>au</strong>t ordre (30 caractéristiques) :<br />

Les fonctions génératrices <strong>de</strong>s cumulants <strong>du</strong> second, troisième et quatrième<br />

ordre ont été calculés. Les paramètres définis dans [2] sont utilisés : les paramètres<br />

<strong>de</strong> délais s’éten<strong>de</strong>nt <strong>de</strong> −250ms à 250ms centrés sur le pic R,<br />

et 10 points équidistants <strong>pour</strong> chaque fonction génératrice <strong>de</strong>s cumulants<br />

sont utilisés comme caractéristiques, <strong>pour</strong> un total <strong>de</strong> 30 caractéristiques.<br />

- Intervalles R-R normalisés (6 caractéristiques) :<br />

Ces caractéristiques correspon<strong>de</strong>nt à celle <strong>du</strong> groupe « intervalles R-R »<br />

excepté qu’elles sont normalisées par leur valeur moyenne <strong>pour</strong> ce patient.<br />

Cette <strong>de</strong>rnière peut être très différente entre les indivi<strong>du</strong>s, et peut influencer<br />

le classifieur en mal. La normalisation n’est bien sûr pas appliquée à la<br />

caractéristique qui correspond à la moyenne <strong>du</strong> patient elle-même, ce qui<br />

ré<strong>du</strong>it la taille <strong>du</strong> groupe à 6 caractéristiques.<br />

- Intervalles <strong>de</strong> segmentation normalisés (21 caractéristiques) :<br />

Ce groupe contient les mêmes caractéristiques que dans le groupe « Intervalles<br />

<strong>de</strong> segmentation », excepté qu’elles sont normalisées par leur valeur<br />

moyenne <strong>pour</strong> ce patient. Cette <strong>de</strong>rnière peut être très différente entre les<br />

indivi<strong>du</strong>s, et peut influencer le classifieur en mal. La normalisation n’est<br />

bien sûr pas appliquée à la caractéristique qui correspond à la moyenne <strong>du</strong><br />

patient elle-même.<br />

Toutes ces caractéristiques sont calculées indépendamment <strong>pour</strong> chaque <strong>signal</strong><br />

(excepté les quatre intervalles R-R et les trois intervalles R-R <strong>de</strong> référence<br />

issus <strong>de</strong> la segmentation originale puisqu’ils sont communs <strong>pour</strong> les <strong>de</strong>ux sign<strong>au</strong>x).<br />

Le total <strong>de</strong>s caractéristiques s’élève donc à 249.<br />

3.1.2 Mesures <strong>de</strong> dissimilarité<br />

Pour i<strong>de</strong>ntifier <strong>de</strong>s groupes <strong>de</strong> battements similaires, il f<strong>au</strong>t se doter d’une<br />

mesure <strong>de</strong> similarité (ou <strong>de</strong> dissimilarité). Trois d’entre elles ont été étudiées. Soit


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 19<br />

<strong>de</strong>ux battements x = [x0, ..., xX−1] et y = [y0, ..., yY −1] <strong>de</strong> longueurs respectives<br />

X et Y :<br />

- Norme <strong>de</strong> Minkowsky L2 :<br />

<br />

<br />

<br />

d(x, y) = X−1 <br />

(xl − yl) 2 . (3.1)<br />

l=0<br />

Cette mesure <strong>de</strong> dissimilarité ne fonctionne bien sûr qu’avec <strong>de</strong>s battements<br />

<strong>de</strong> longueur i<strong>de</strong>ntique X = Y . On l’appellera <strong>au</strong>ssi norme d’ordre 2<br />

à c<strong>au</strong>se <strong>de</strong> son exposant (et <strong>de</strong> la racine carrée).<br />

- Dynamic time warping (DTW) :<br />

Cette mesure <strong>de</strong> dissimilarité permet quant à elle <strong>de</strong> comparer <strong>de</strong>s battements<br />

<strong>de</strong> longueurs différentes. Elle permet <strong>de</strong> comparer les valeurs <strong>de</strong> xi à<br />

celle <strong>de</strong> yj sans forcément que i = j. Le but est <strong>de</strong> trouver un chemin <strong>de</strong> longueur<br />

f, (i1, j1), ..., (if , jf ), tel que le coût final le long <strong>du</strong> chemin soit minimum,<br />

<strong>au</strong> sens d’un certain critère. A chaque nœud, le coût <strong>de</strong> transition<br />

<strong>pour</strong> venir <strong>du</strong> nœud précé<strong>de</strong>nt (il−1, jl−1), t[(il, jl), (il−1, jl−1)] est calculé.<br />

Le coût total <strong>de</strong>s transitions v<strong>au</strong>t donc : T = f l=1 t[(il, jl), (il−1, jl−1)]<br />

On peut utiliser une fonction w quelconque <strong>de</strong> al = il −il−1 et bl = jl −jl−1<br />

<strong>pour</strong> restreindre les transitions possibles. On peut <strong>au</strong>ssi normaliser <strong>pour</strong><br />

obtenir un coût indépendant <strong>de</strong> la longueur <strong>du</strong> chemin :<br />

f<br />

l=1 T =<br />

t[(il, jl), (il−1, jl−1)] ∗ w(al, bl)<br />

f l=1 w(al,<br />

. (3.2)<br />

bl)<br />

T peut alors servir <strong>de</strong> mesure <strong>de</strong> dissimilarité.<br />

Pour effectuer ces opérations efficacement, chaque entrée <strong>de</strong> la matrice<br />

<strong>de</strong> programmation dynamique G[i, j] est calculée en fonction <strong>de</strong>s nœuds<br />

G[i − a, j − b] et <strong>du</strong> coût <strong>de</strong>s transitions (voir la Figure 3.1). Dans notre<br />

cas, <strong>pour</strong> repro<strong>du</strong>ire la fonction w <strong>de</strong> [3], les seules transitions possibles et<br />

leurs coûts associés sont :<br />

G[i, j] = min{G[i, j − 1] + d[(i, j)|(i, j − 1)],<br />

G[i − 1, j] + d[(i, j)|(i − 1, j)],<br />

G[i − 1, j − 1] + 2d[(i, j)|(i − 1, j − 1)]}.<br />

(3.3)<br />

- Trace :<br />

Cette métho<strong>de</strong> sert en réalité <strong>de</strong> sélection <strong>de</strong> variables utilisée en reconnaissance<br />

<strong>de</strong> la parole [22], mais dans notre cas, elle permet <strong>de</strong> ré<strong>du</strong>ire<br />

x et y à une longueur Ltrace ≤ min(X, Y ) ≤ max(X, Y ). Une fois une<br />

longueur commune atteinte, on peut utiliser la norme <strong>de</strong> Minkowsky <strong>pour</strong>


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 20<br />

Figure 3.1 – Exemple <strong>de</strong> matrice G utilisée en programmation dynamique<br />

obtenir une mesure <strong>de</strong> dissimilarité. Le but <strong>de</strong> cette métho<strong>de</strong> est d’obtenir<br />

uniquement les échantillons <strong>du</strong> <strong>signal</strong> où celui-ci a be<strong>au</strong>coup varié. Pour<br />

ce faire, on commence par calculer la dérivée partielle cumulée<br />

ainsi que sa valeur finale<br />

j<br />

∆j = |xi − xi−1|, (3.4)<br />

i=1<br />

∆ =<br />

X−1<br />

<br />

i=0<br />

|xi − xi−1|. (3.5)<br />

Si le nombre d’échantillons désiré après la trace est <strong>de</strong> h + 1, alors la<br />

h<strong>au</strong>teur <strong>de</strong> chaque intervalle d’amplitu<strong>de</strong> est L = ∆/h.<br />

Pour obtenir un vecteur xtr = {xtr 0, ..., xtr h} qui inclut les valeurs <strong>de</strong> x<br />

où les plus grands changements ont eu lieu, chaque échantillon xtr l est pris<br />

d’un échantillon xj. Pour tout entier l allant <strong>de</strong> 0 à h, ce <strong>de</strong>rnier est celui<br />

qui excè<strong>de</strong> l ∗ L. xtr l = xj sachant que :<br />

j = argmin0


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 21<br />

Figure 3.2 – Algorithme <strong>de</strong> segmentation <strong>de</strong> la trace : les échantillons obtenus<br />

sont les échantillons où les changements ont été les plus importants dans le <strong>signal</strong><br />

<strong>de</strong> base. Sur cette illustration nx correspond à X.<br />

Sous-échantillonnage simple<br />

C’est la technique la plus simple, elle consiste à gar<strong>de</strong>r les battements <strong>au</strong><br />

hasard (mais sans remise) ou à gar<strong>de</strong>r un échantillon tous les n échantillons.<br />

Technique « On The Fly »<br />

Cette technique est utilisée dans [3] <strong>pour</strong> effectuer un « pré-clustering » <strong>pour</strong><br />

ré<strong>du</strong>ire le nombre <strong>de</strong> battements et ainsi diminuer le temps <strong>de</strong> calcul. Elle se base<br />

sur la propriété suivante : chaque tracé <strong>ECG</strong> a une faible variablilité intra-<strong>signal</strong>,<br />

il est donc h<strong>au</strong>tement probable que <strong>de</strong>s battements consécutifs appartiennent à<br />

la même classe [3].<br />

Le résultat <strong>de</strong> cette technique est un ensemble <strong>de</strong> centroï<strong>de</strong>s R = {r1, ...rK} où<br />

K


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 22<br />

par µd + nécart−type ∗ σd où µd est la moyenne <strong>de</strong>s N mesures <strong>de</strong> dissimilarité<br />

d <strong>pour</strong> les battements déjà acquis, σd l’écart-type correspondant et nécart−type<br />

un facteur multipliant σd. Ici, la faible variabilité intra-<strong>signal</strong> implique que<br />

µd + nécart−type ∗ σd va rapi<strong>de</strong>ment converger vers une valeur qui contrairement<br />

à δ s’adapte à l’ensemble <strong>de</strong>s battements.<br />

La secon<strong>de</strong> modification est la suivante : <strong>au</strong> lieu <strong>de</strong> calculer la dissimilarité d entre<br />

le battement nouvellement acquis et les N battements précé<strong>de</strong>mment acquis placés<br />

dans le sous-ensemble R ⊂ P , seul le <strong>de</strong>rnier <strong>de</strong>s N battements est considéré.<br />

Cela implique qu’<strong>au</strong>cun battement qui <strong>au</strong>rait été sélectionné par la variante <strong>de</strong><br />

base ne sera manqué, mais que d’<strong>au</strong>tres seront ajoutés <strong>au</strong> sous-ensemble R ⊂ P .<br />

Clustering : les k-means<br />

Les k-means est un algorithme classique <strong>de</strong> clustering. Il procè<strong>de</strong> en <strong>de</strong>ux<br />

étapes : Encodage - Décodage. Un gros désavantage est que les centroï<strong>de</strong>s peuvent<br />

se « perdre » : ils ne contiennent plus <strong>au</strong>cun point à une certaine itération. On<br />

peut cependant traiter ceux-ci <strong>pour</strong> les replacer intelligemment, ce qui permet<br />

<strong>de</strong> gar<strong>de</strong>r K constant. Un <strong>au</strong>tre désavantage est qu’il peut converger vers un<br />

minimum local.<br />

L’algorithme <strong>de</strong>s k-means va maintenant être décrit en détail, cette explication<br />

vient principalement <strong>de</strong> [23].<br />

Le but <strong>de</strong>s k-means est d’i<strong>de</strong>ntifier <strong>de</strong>s groupes, ou clusters <strong>de</strong> points dans un<br />

espace multidimensionnel. Supposons que l’on dispose d’un ensemble <strong>de</strong> points<br />

[b1, ..., bN] consistant en N observations dans un espace en D dimensions. Le but<br />

est <strong>de</strong> partitionner l’ensemble <strong>de</strong> ces points en un certain nombre K <strong>de</strong> clusters.<br />

Intuitivement, un cluster comprend un groupe <strong>de</strong> points <strong>pour</strong> lesquels la distance<br />

entre eux est petite comparée avec la distance entre ces points et les points<br />

n’appartenant pas <strong>au</strong> groupe. On peut formaliser ce concept en intro<strong>du</strong>isant un<br />

ensemble <strong>de</strong> vecteurs {zk} <strong>de</strong> dimension D où k = 1, ..., K. zk sera associé avec le<br />

k e centroï<strong>de</strong>. Le but est maintenant d’assigner les points à <strong>de</strong>s clusters, ainsi que<br />

<strong>de</strong> trouver un ensemble <strong>de</strong> vecteurs zk, <strong>de</strong> telle sorte que la somme <strong>de</strong>s carrés <strong>de</strong>s<br />

distances <strong>de</strong> chaque point bn jusqu’à son plus proche vecteur zk soit minimale.<br />

Définissons l’assignement <strong>de</strong>s points vers les clusters. Pour chaque point bn,<br />

intro<strong>du</strong>isons la variable unk ∈ {0, 1} où k = 1, ..., K qui décrit <strong>au</strong>quel <strong>de</strong>s K<br />

clusters le point bn est assigné : si bn est assigné <strong>au</strong> cluster k, alors unk = 1 et<br />

unj = 0 <strong>pour</strong> j = k. On peut alors définir une fonction objective, appelée mesure<br />

<strong>de</strong> distorsion :<br />

J =<br />

N<br />

n=1 k=1<br />

K<br />

unk bn − zk 2 . (3.7)<br />

Cette équation représente la somme <strong>de</strong>s carrés <strong>de</strong> la distance entre chaque<br />

point et le centroï<strong>de</strong> <strong>de</strong> la classe à laquelle il a été assigné zk. Il f<strong>au</strong>t maintenant<br />

trouver les valeurs <strong>de</strong>s unk et <strong>de</strong> zk tel que J soit minimum. Pour ce faire, la


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 23<br />

métho<strong>de</strong> <strong>de</strong>s k-means a recourt à une procé<strong>du</strong>re itérative dans laquelle chaque<br />

itération est composée <strong>de</strong> <strong>de</strong>ux étapes successives. Pour commencer, il f<strong>au</strong>t choisir<br />

une valeur initiale <strong>pour</strong> zk. Dans ce mémoire, les zk sont initialisés <strong>au</strong> hasard<br />

parmi les points <strong>de</strong> départ, sans remise. Ensuite, la première étape est <strong>de</strong> minimiser<br />

J par rapport à unk en maintenant zk constant. Dans la secon<strong>de</strong> étape,<br />

il f<strong>au</strong>t minimiser J par rapport à zk en maintenant unk constant. Ce processus<br />

à <strong>de</strong>ux étapes est répété jusqu’à convergence. On peut voir cette métho<strong>de</strong><br />

comme un algorithme EM (<strong>pour</strong> Expectation - Maximization). Pour la première<br />

étape (déterminer unk, avec zk constant), J est une fonction linéaire et il suffit<br />

d’assigner le n e point <strong>au</strong> cluster le plus proche. Plus formellement unk = 1 si<br />

k = argminj xn − zj 2 , (3.8)<br />

et unj = 0 si j = k. Pour la secon<strong>de</strong> étape (déterminer zk, avec unk constant),<br />

J est une fonction quadratique <strong>de</strong> zk, qui peut donc être minimisée en posant sa<br />

dérivée égale à zéro :<br />

N<br />

2 unk(xn − zk) = 0. (3.9)<br />

n=1<br />

Ce qui peut aisément être résolu en zk :<br />

Nn=1 unkxn<br />

zk = Nn=1 unk<br />

. (3.10)<br />

Le dénominateur <strong>de</strong> cette expression est simplement égal <strong>au</strong> nombre <strong>de</strong> points<br />

compris dans le cluster k. zk est donc égal à la moyenne <strong>de</strong> tous les points xn<br />

qu’il représente. C’est <strong>de</strong> là que vient le nom <strong>de</strong> l’algorithme : les k-means.<br />

Les <strong>de</strong>ux étapes <strong>de</strong> ré-assignement et <strong>de</strong> recalcul <strong>de</strong>s clusters sont répétées jusqu’à<br />

ce qu’il n’y ait plus <strong>de</strong> changement d’assignement ou que zk ne varie plus<br />

ou presque plus. Comme chaque étape ré<strong>du</strong>it la valeur <strong>de</strong> J, la convergence est<br />

assurée, cependant, il se peut que l’algorithme converge vers un minimum local.<br />

Dans ce mémoire, si un centroï<strong>de</strong> se « perd », il est remplacé par un centroï<strong>de</strong><br />

comprenant uniquement le point le plus éloigné <strong>de</strong> l’ancienne position <strong>du</strong> centroï<strong>de</strong><br />

vi<strong>de</strong>. Le nombre <strong>de</strong> centroï<strong>de</strong>s reste donc constant <strong>du</strong> début à la fin <strong>de</strong><br />

l’algorithme. La Table 3.2 présente un pseudo-co<strong>de</strong> <strong>pour</strong> les k-means.<br />

Algorithmes k-means-like : Competitive learning,... :<br />

Ces algorithmes sont similaires <strong>au</strong>x k-means, mais avec <strong>de</strong>s variantes qui<br />

évitent <strong>au</strong>x centroï<strong>de</strong>s <strong>de</strong> se perdre par exemple. Malheureusement, ils sont plus<br />

lents que les k-means et n’ont donc pas été utilisés.<br />

j-means :<br />

Les j-means sont une variante intéressante <strong>de</strong>s k-means [24], [25] où les centroï<strong>de</strong>s<br />

sont contraints d’être <strong>de</strong>s données initiales, contrairement <strong>au</strong>x k-means.


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 24<br />

@pré : Le nombre <strong>de</strong> centroï<strong>de</strong>s désirés : K<br />

Des données : données<br />

Le nombre <strong>de</strong> ces données : N<br />

Un concept <strong>de</strong> distance : métrique<br />

Un nombre d’itérations maximum : NiterMax<br />

@post : Les centroï<strong>de</strong>s représentant données : Cent<br />

if K ≥ N<br />

erreur !<br />

end<br />

while NON(vérifier convergence) && nombre d’itérations < NiterMax<br />

% encodage<br />

Dist = La matrice <strong>de</strong> distance entre données et cent <strong>au</strong> sens <strong>de</strong><br />

métrique<br />

Allouer chaque donnée à un groupe représenté par un centroï<strong>de</strong> grâce<br />

à Dist : chaque donnée va dans le groupe <strong>pour</strong> lequel le centroï<strong>de</strong><br />

est le plus proche<br />

% décodage<br />

Cent = le centre <strong>de</strong> masse <strong>de</strong> chaque groupe <strong>de</strong> données allouées à un<br />

centroï<strong>de</strong><br />

if le groupe d’un centroï<strong>de</strong> ne contient <strong>au</strong>cune donnée, lui affecter<br />

la donnée la plus éloignée <strong>de</strong> ce centroï<strong>de</strong> <strong>au</strong> sens <strong>de</strong> métrique<br />

end<br />

end<br />

Table 3.2 – Pseudo-co<strong>de</strong> <strong>pour</strong> les k-means.<br />

Tout comme les techniques « On The Fly », le résultat <strong>de</strong> cette technique est<br />

un ensemble <strong>de</strong> centroï<strong>de</strong>s R = {r1, ..., rK} où K


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 25<br />

les k-means. On obtient k centroï<strong>de</strong>s R = {r1, ...rK} qui ne sont pas forcement<br />

(quasi jamais) <strong>de</strong>s données initiales. Pour obtenir un ensemble <strong>de</strong> k nouve<strong>au</strong>x<br />

centroï<strong>de</strong>s Q = {q1, ..., qK} avec Q ⊂ R, une <strong>de</strong>rnière étape est ajoutée : on<br />

remplace chaque ancien centroï<strong>de</strong> ri par la donnée <strong>de</strong> départ pj la plus proche<br />

(<strong>au</strong> sens <strong>de</strong> la même métrique que celle utilisée <strong>pour</strong> les k-means). On obtient<br />

alors les centroï<strong>de</strong>s fin<strong>au</strong>x Q. Si l’on désire en plus savoir quelle donnée <strong>de</strong> départ<br />

est allouée à quel centroï<strong>de</strong>, on peut le déterminer en utilisant la règle <strong>du</strong> plus<br />

proche voisin. Dans le reste <strong>de</strong> ce mémoire, on appellera <strong>au</strong>ssi cette manœuvre<br />

« recentrage ». L’avantage <strong>de</strong> cette technique est d’être be<strong>au</strong>coup plus rapi<strong>de</strong> que<br />

les j-means.<br />

3.1.4 Sélection <strong>de</strong> caractéristiques<br />

Pas moins <strong>de</strong> 249 caractéristiques composent l’ensemble d’apprentissage,<br />

parmi celles-ci, seules quelques-unes doivent être gardées <strong>pour</strong> éviter le surapprentissage.<br />

La sélection <strong>de</strong> caractéristiques est un problème complexe dont<br />

la portée dépasse <strong>de</strong> loin le cadre <strong>de</strong> ce mémoire, cependant plusieurs possibilités<br />

ont été envisagées, en tenant compte <strong>du</strong> fait que la complexité <strong>de</strong>vait rester<br />

acceptable <strong>pour</strong> obtenir <strong>de</strong>s temps <strong>de</strong> calcul raisonnables.<br />

Analyse en Composante Principale :<br />

L’ACP (PCA en anglais) ré<strong>du</strong>it le nombre <strong>de</strong> caractéristiques <strong>de</strong>s données<br />

en créant <strong>de</strong> nouvelles caractéristiques par projection <strong>de</strong>s données sur <strong>de</strong>s axes<br />

minimisant la perte <strong>de</strong> variance. Cette technique est souvent utilisée mais est<br />

non-supervisée : <strong>de</strong> nombreuses caractéristiques étant non pertinentes, cela ré<strong>du</strong>irait<br />

les performances <strong>du</strong> classifieur.<br />

Approche forward :<br />

La procé<strong>du</strong>re forward est un algorithme itératif servant à la recherche <strong>de</strong><br />

sous-ensembles <strong>de</strong> variables optimales. Il démarre avec un ensemble vi<strong>de</strong>, et<br />

ajoute dans cet ensemble, à chaque itération, la variable qui <strong>au</strong>gmente le plus<br />

les performances <strong>du</strong> classifieur. L’algorithme s’arrête quand <strong>au</strong>cune variable ne<br />

permet plus d’<strong>au</strong>gmenter les performances [26].<br />

Validation croisée inter-patient<br />

La plupart <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> classification <strong>de</strong>s battements cardiaques suivent<br />

un paradigme « intra-patient » : les données d’apprentissage et celles à classifier<br />

sont issues <strong>du</strong> même patient. Cela présuppose que <strong>de</strong>s battements annotés sont<br />

disponibles <strong>pour</strong> chaque patient.<br />

Le paradigme « inter-patient » consiste à classifier <strong>de</strong>s battements d’un patient<br />

sur base d’une base <strong>de</strong> données constituée d’<strong>au</strong>tres patients. Cela implique donc<br />

la généralisation d’un patient à un <strong>au</strong>tre. Les résultats <strong>du</strong> premier paradigme sont


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 26<br />

naturellement bien meilleurs que <strong>pour</strong> ce second paradigme, mais en situation<br />

réelle, les battements annotés ne sont généralement pas disponibles <strong>pour</strong> tous<br />

les patients. Ce mémoire suit donc le second paradigme.<br />

Un <strong>au</strong>tre élément doit être intro<strong>du</strong>it : la validation croisée (ou cross-validation<br />

en anglais). Lorsque l’on utilise certains modèles, on doit estimer <strong>de</strong>s paramètres<br />

mais <strong>au</strong>ssi <strong>de</strong>s hyper-paramètres, qui conditionnent la complexité <strong>du</strong> modèle.<br />

A titre d’exemple, si l’on veut approximer une fonction y par<br />

y =<br />

N<br />

ai ∗ x i , (3.11)<br />

i=0<br />

où les ai sont <strong>de</strong>s paramètres et N est un hyper-paramètre.<br />

Dans notre cas, les coefficients <strong>de</strong>s frontières <strong>de</strong> classification <strong>du</strong> classifieur LDA<br />

sont <strong>de</strong>s paramètres (voir Section 3.1.5). Tandis que le nombre <strong>de</strong> battements<br />

norm<strong>au</strong>x après rééchantillonnage K (on notera que le nombre <strong>de</strong> centroï<strong>de</strong>s et<br />

<strong>de</strong> battements après rééchantillonnage sont les mêmes) et les caractéristiques<br />

sélectionnées (et leur nombre) sont <strong>de</strong>s hyper-paramètres.<br />

Pour estimer ces <strong>de</strong>rniers, on doit utiliser une partie <strong>de</strong> l’ensemble d’apprentissage<br />

et pas l’ensemble <strong>de</strong> test puisqu’on le réserve <strong>pour</strong> évaluer les performances<br />

indépendamment. On gar<strong>de</strong> donc habituellement une partie <strong>de</strong> l’ensemble<br />

d’apprentissage <strong>pour</strong> estimer les paramètres (le nouvel ensemble d’entrainement)<br />

et l’<strong>au</strong>tre partie sert à estimer les hyper-paramètres (on appelle cette<br />

partie l’ensemble <strong>de</strong> validation).<br />

Dans bon nombre d’applications, on désire utiliser <strong>au</strong> maximum les données disponibles.<br />

On ne se contente pas <strong>de</strong> diviser les données en trois parties (ensemble<br />

d’apprentissage, <strong>de</strong> validation et <strong>de</strong> test) mais on utilise une technique <strong>de</strong> validation<br />

croisée, par exemple le leave-one-out [23] :<br />

Les données sont divisées en ensembles d’apprentissage et <strong>de</strong> test. Celles d’apprentissage<br />

sont alors divisées par patient. Ensuite tous les patients s<strong>au</strong>f un sont<br />

utilisés <strong>pour</strong> entrainer un modèle et celui-ci est évalué avec les données <strong>du</strong> <strong>de</strong>rnier<br />

patient. Cette procé<strong>du</strong>re est répétée en changeant le patient servant à évaluer<br />

les performances. Lorsque chaque patient a servi à évaluer une fois, les performances<br />

obtenues sont alors moyennées. La Table 3.3 présente un pseudo-co<strong>de</strong><br />

<strong>pour</strong> la validation croisée par leave-one-out.<br />

3.1.5 Classification supervisée<br />

Deux classifieurs ont été utilisés. L’Analyse Discriminante Linéaire (LDA en<br />

anglais) et un LDA pondéré issu <strong>de</strong> la littérature [17]. L’avantage <strong>de</strong> ces <strong>de</strong>ux<br />

classifieurs est qu’ils ont une closed-form solution, qu’ils sont rapi<strong>de</strong>s et qu’il n’y<br />

a pas <strong>de</strong> paramètre supplémentaire à ajuster. Les désavantages sont qu’ils sont<br />

linéaires, et sensibles <strong>au</strong>x outliers. En effet, ce sont <strong>de</strong>s modèles génératifs qui<br />

stipulent la g<strong>au</strong>ssianité <strong>de</strong>s classes, et estimer une g<strong>au</strong>ssienne revient à estimer<br />

la moyenne et l’écart-type, qui sont fort influencés par les outliers. Commençons


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 27<br />

@pré : Des données divisées par patient : Données_Pat<br />

Un modèle : Modèle<br />

@post : Des performances <strong>de</strong> validation croisée : Perf Caract_Gardées<br />

Perf = 0<br />

for Chaque patient i<br />

Ensemble d’entrainement = Données_NON(i)<br />

Ensemble <strong>de</strong> validation = Données_i<br />

Entrainer Modèle avec Ensemble d’entrainement<br />

Inférer sur Ensemble <strong>de</strong> validation et noter les performances<br />

Perf = Perf + les performance <strong>de</strong> l’inférence<br />

end<br />

Table 3.3 – Pseudo-co<strong>de</strong> <strong>de</strong> la validation croisée par leave-one-out.<br />

par expliquer le LDA non pondéré décrit dans [27] :<br />

Pour une classification optimale, les probabilités à postériori <strong>de</strong> chaque classe<br />

P r(H = c|X = x) sont requises. Il est à noter que dans cette section, X ne<br />

représente pas un battement échantillonné mais <strong>de</strong>s données caractéristiques <strong>de</strong><br />

ce battement. Supposons que fc(x) soit la <strong>de</strong>nsité conditionnelle <strong>de</strong> la classe<br />

H = c et πc la probabilité à priori <strong>de</strong> cette même classe (avec K c=1 πc = 1). Par<br />

simple application <strong>de</strong> la règle Bayesienne on obtient :<br />

P r(H = c|X = x) = fc(x) ∗ πc<br />

. (3.12)<br />

Cl=1<br />

fl(x) ∗ πl<br />

Il en ressort qu’en termes <strong>de</strong> capacité à classifier, avoir fc(x) est presque équivalent<br />

à connaître P r(H = c|X = x). Si l’on suppose que l’on peut modéliser<br />

chaque classe par une g<strong>au</strong>ssienne multivariée :<br />

fc(x) =<br />

1<br />

(2π) p/2 1<br />

e− 2<br />

|Σc| 1/2 (x−µ c )T Σ −1<br />

c (x−µ c )<br />

. (3.13)<br />

où Σc est la matrice <strong>de</strong> covariance <strong>de</strong> la classe c. L’Analyse Linéaire Discriminante<br />

fait l’hypothèse <strong>du</strong> cas où les matrices <strong>de</strong> variances sont les mêmes<br />

(Σc = Σ ∀c). Si l’on veut comparer <strong>de</strong>ux classes c et l, il est suffisant <strong>de</strong> considérer<br />

le logarithme <strong>de</strong> leur rapport.<br />

log<br />

P r(H = c|X = x)<br />

P r(H = l|X = x)<br />

fc(x) πc<br />

= log + log<br />

fl(x) πl<br />

= log πc<br />

πl<br />

(3.14)<br />

+ 1<br />

2 (µ c + µ l) T Σ −1 (µ c − µ l) + x T Σ −1 (µ c − µ l).<br />

(3.15)


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 28<br />

L’hypothèse <strong>de</strong>s variances communes c<strong>au</strong>se l’annulation <strong>du</strong> facteur <strong>de</strong> normalisation<br />

et <strong>de</strong> la partie quadratique <strong>de</strong> l’exponentielle <strong>de</strong> l’Equation (3.13).<br />

La frontière <strong>de</strong> décision entre les classes c et l sera donc linéaire. La région où<br />

P r(H = c|X = x) = P r(H = l|X = x) sera linéaire en x, et en p dimensions<br />

sera un hyperplan. Il en va <strong>de</strong> même <strong>pour</strong> toutes les frontières <strong>de</strong> décision entre<br />

<strong>de</strong>ux classes prises <strong>de</strong>ux à <strong>de</strong>ux.<br />

On peut voir que l’Equation (3.15) et la fonction discriminante linéaire yc(x)<br />

yc(x) = x T Σ −1 µ T c − 1<br />

2 µT c Σ −1 µ c + log πc<br />

(3.16)<br />

sont équivalentes en termes <strong>de</strong> décision, avec H(x) = argmaxc yc(x).<br />

En pratique on ne connait pas les paramètres <strong>de</strong> la distribution g<strong>au</strong>ssienne, et<br />

on les estime donc grâce à nos données, en veillant à ce que les expressions <strong>de</strong>s<br />

estimateurs maximisent la vraisemblance :<br />

ˆπc = Nc/N (3.17)<br />

Nc <br />

ˆµ c = xi/Nc<br />

ˆΣc =<br />

i=1<br />

C Nc <br />

c=1 i=1<br />

(3.18)<br />

(xi − ˆµ c)(xi − ˆµ c)) T /(N − C), (3.19)<br />

où Nc est le nombre <strong>de</strong> battements dans la classe c. Une fois les probabilités<br />

à postériori connues <strong>pour</strong> chaque classe, le classifieur attribue l’échantillon à la<br />

classe la plus probable.<br />

Pour un LDA non-pondéré, expliqué dans [17], la vraisemblance est définie<br />

comme :<br />

V =<br />

C<br />

Nc <br />

c=1 n=1<br />

log(gc(x, µ c, Σ)), (3.20)<br />

où C est le nombre <strong>de</strong> classes, Nc le nombre <strong>de</strong> données d’entraînement dans<br />

la classe c, et gk(x, µc, Σ) est la valeur <strong>de</strong> la distribution g<strong>au</strong>ssienne <strong>de</strong> moyenne<br />

ˆµ et <strong>de</strong> covariance commune ˆ Σ.<br />

Or, la proportion relative <strong>de</strong>s classes influence un tel classifieur : si une classe domine<br />

les données d’entrainement, alors le classifieur est h<strong>au</strong>tement influencé par<br />

ces classes [1], [28]. Une solution <strong>pour</strong> contrer ce phénomène a été étudiée dans<br />

[17]. Elle consiste à pondérer les contributions <strong>de</strong> chaque donnée d’apprentissage.<br />

Pour un LDA pondéré, la vraisemblance s’écrit donc :<br />

C Nc <br />

V = ωc log(gc(x, µ c, Σ)). (3.21)<br />

c=1 n=1


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 29<br />

Dans ce cas, le maximum <strong>de</strong> vraisemblance con<strong>du</strong>it à :<br />

Nc <br />

ˆµ c = xi/Nc<br />

i=1<br />

C Nc <br />

ˆΣc = ωc (xi − ˆµ c)(xi − ˆµ c))<br />

c=1 i=1<br />

T c<br />

/ ωcNc<br />

c=1<br />

comme estimateur <strong>de</strong>s paramètres <strong>de</strong>s g<strong>au</strong>ssiennes.<br />

La probabilité à postériori est donc dans les <strong>de</strong>ux cas :<br />

avec :<br />

P r(H = C|X = x) =<br />

(3.22)<br />

(3.23)<br />

exp(yc)<br />

. (3.24)<br />

Cl=1<br />

exp(yl)<br />

yc(x) = x T Σ −1 µ T c − 1<br />

2 µT c Σ −1 µ c + log πc. (3.25)<br />

Une fois les probabilités à postériori connues <strong>pour</strong> chaque classe, le classifieur<br />

attribue l’échantillon à la classe la plus probable.<br />

3.1.6 Evaluation <strong>de</strong>s performances<br />

Pour évaluer les performances <strong>de</strong> notre classifieur, nous allons utiliser la<br />

matrice <strong>de</strong> confusion. Celle-ci est souvent utilisée en apprentissage supervisé, et<br />

est un outil permettant <strong>de</strong> mesurer la qualité d’un système <strong>de</strong> classification.<br />

prédit - prédit + total<br />

réel - vrais positifs f<strong>au</strong>x positifs N−<br />

réel + f<strong>au</strong>x négatifs vrais négatifs N+<br />

Table 3.4 – Chaque colonne <strong>de</strong> la matrice représente le nombre d’occurrences<br />

d’une classe prédite, tandis que chaque ligne représente le nombre d’occurrences<br />

d’une classe réelle.<br />

Pour pouvoir exploiter cette matrice, il est souvent nécessaire <strong>de</strong> le résumer<br />

(parfois jusqu’à un simple scalaire). Cela constitue une perte d’information mais<br />

est souvent plus commo<strong>de</strong>, notamment <strong>pour</strong> ce qui est <strong>de</strong> maximiser. Ici encore<br />

certaines métriques sont souvent utilisées, comme la sensibilité ou la spécificité,<br />

la précision (d’une classe ou totale) et l’aire sous la courbe <strong>de</strong> ROC.<br />

Soit vp le nombre <strong>de</strong> vrais positifs, vpc les vrais positifs <strong>de</strong> la classe c, fp le<br />

nombre <strong>de</strong> f<strong>au</strong>x positifs, fn le nombre <strong>de</strong> f<strong>au</strong>x négatifs, vn le nombre <strong>de</strong> vrais<br />

négatifs et Nc le nombre d’occurences réelles dans la classe c. La sensibilité se,<br />

la spécificité sp, la précision d’une classe c prc et la précision totale prtot sont<br />

définies comme :


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 30<br />

se = vp/(fn + vp) = vp/N+<br />

(3.26)<br />

sp = vn/(vn + fp) = vn/N−<br />

(3.27)<br />

prc = vpc/Nc<br />

(3.28)<br />

vp + vn<br />

.<br />

vp + vn + fp + fn<br />

(3.29)<br />

prtot =<br />

La courbe <strong>de</strong> ROC est un graphe montrant la sensibilité en abscisse et un<br />

moins la spécificité en ordonnée. L’aire sous la courbe <strong>de</strong> ROC permet d’obtenir<br />

un simple scalaire.<br />

Dans le cas présent, la matrice <strong>de</strong> confusion comportera quatre lignes et donc<br />

quatre colonnes puisque C = 4. Bien que les concepts précé<strong>de</strong>nts soient généralisables<br />

à plusieurs classes, une <strong>au</strong>tre manière <strong>de</strong> résumer la matrice <strong>de</strong> confusion<br />

a été choisie.<br />

p r e d<br />

1 2 3 4<br />

N V S F<br />

r 1 N x x x x<br />

é 2 V x x x x<br />

e 3 S x x x x<br />

l 4 F x x x x<br />

Table 3.5 – Matrice <strong>de</strong> confusion à quatre classes (C = 4).<br />

Le t<strong>au</strong>x <strong>de</strong> classification équilibré (balanced classification rate, BCR en anglais)<br />

est défini à <strong>de</strong>ux classes comme la moyenne entre la sensibilité et la spécificité.<br />

A plus <strong>de</strong> <strong>de</strong>ux variables, on peut généraliser le BCR en le définissant<br />

comme la moyenne <strong>de</strong>s précisions.<br />

C<br />

BCR = ( prc)/C<br />

c=1<br />

Cependant, la moyenne géométrique est préférable à la moyenne arithmétique :<br />

elle pénalise plus le résultat si l’une <strong>de</strong>s précisions est très faible. Elle est utilisée<br />

dans [1], [7].<br />

C<br />

BCR = ( prc) 1/C<br />

c=1<br />

Des tests préliminaires (non rapportés ici), ont montré que la secon<strong>de</strong> définition<br />

<strong>du</strong> BCR donnait en effet les meilleurs résultats.<br />

Celle-ci est utilisée dans la métho<strong>de</strong> forward et dans les validations.


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 31<br />

3.2 Méthodologie<br />

Dans cette partie, nous allons mener plusieurs expériences qui respecteront<br />

toutes la structure décrite à la Figure 3.3. Le but est <strong>de</strong> comparer plusieurs<br />

métho<strong>de</strong>s <strong>de</strong> sous-échantillonnage servant à rééquilibrer les quatre classes en<br />

diminuant le nombre <strong>de</strong> battements dans la première. Toutes les expériences sont<br />

astreintes à avoir un nombre <strong>de</strong> battements norm<strong>au</strong>x compris entre le minimum<br />

et le maximum <strong>de</strong>s trois <strong>au</strong>tres classes.<br />

3.2.1 Sous-échantillonnage et sélection <strong>de</strong> caractéristiques<br />

Les différents outils ayant été intro<strong>du</strong>its à la Section 3.1, nous allons maintenant<br />

réfléchir à la meilleure manière <strong>de</strong> les agencer <strong>pour</strong> obtenir <strong>de</strong> bonnes<br />

performances <strong>de</strong> classification.<br />

Le sous-échantillonnage et la sélection <strong>de</strong> caractéristiques ont ici plusieurs buts<br />

distincts :<br />

- Le sous-échantillonnage est utilisé <strong>pour</strong> essayer <strong>de</strong> rééquilibrer les classes.<br />

Seule la classe N sera ré<strong>du</strong>ite, car nous allons faire l’hypothèse que cela<br />

permettra <strong>au</strong>x classes d’être « suffisamment » équilibrées <strong>pour</strong> obtenir <strong>de</strong><br />

bonnes performances. Une <strong>au</strong>tre piste <strong>au</strong>rait pu être <strong>de</strong> ramener toutes les<br />

classes à un nombre commun <strong>de</strong> battements mais comme la classe F ne<br />

comporte qu’un nombre très faible <strong>de</strong> battements, cette piste n’a pas été<br />

investiguée dans un premier temps.<br />

- Pour la sélection <strong>de</strong> caractérisiques, on dispose <strong>de</strong> be<strong>au</strong>coup trop <strong>de</strong> cellesci<br />

et certaines ne sont pas pertinentes. Des caractéristiques inutiles peuvent<br />

entrainer une diminution <strong>de</strong>s performances, spécialement si les classes sont<br />

déséquilibrées [29], [30]. Enlever les caractéristiques superflues est donc important<br />

<strong>pour</strong> cette raison.<br />

- Le nombre <strong>de</strong> battements étant assez important, il sera nécessaire <strong>de</strong> ré<strong>du</strong>ire<br />

les données <strong>pour</strong> diminuer le temps <strong>de</strong> calcul. Les données vont être<br />

ré<strong>du</strong>ites <strong>de</strong>ux fois, par sous-échantillonnage sur l’ensemble <strong>de</strong>s battements<br />

norm<strong>au</strong>x et par une sélection <strong>de</strong> caractéristiques. Ces <strong>de</strong>ux ré<strong>du</strong>ctions <strong>de</strong>vraient<br />

permettre d’obtenir <strong>de</strong>s délais <strong>de</strong> calcul raisonnables.<br />

Une fois la classe N ré<strong>du</strong>ite et les caractéristiques superflues écartées (<strong>pour</strong> l’ensemble<br />

d’apprentissage), l’analyse linéaire discriminante nous fournira un classifieur<br />

que nous <strong>pour</strong>rons évaluer grâce à la matrice <strong>de</strong> confusion et <strong>au</strong> BCR.<br />

Une première question importante est l’agencement <strong>de</strong>s opérations : soit<br />

d’abord sous-échantillonner puis choisir les variables, soit l’inverse. Une secon<strong>de</strong><br />

question est <strong>de</strong> savoir quoi utiliser comme données <strong>pour</strong> le sous-échantillonnage :


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 32<br />

les battements ou les caractéristiques. Les quatre possibilités vont être considérées.<br />

Sélection <strong>de</strong>s caractéristiques d’abord, puis sous-échantillonnage basé<br />

sur les caractéristiques<br />

La sélection peut être m<strong>au</strong>vaise dû <strong>au</strong> déséquilibre. Si celui-ci est traité après,<br />

le processus se mord la queue. On <strong>pour</strong>rait essayer d’inventer un algorithme en<br />

<strong>de</strong>ux temps, mais celui-ci serait sûrement complexe et long en temps <strong>de</strong> calcul.<br />

Sélection <strong>de</strong>s caractéristiques d’abord, puis sous-échantillonnage basé<br />

sur les battements<br />

Même problème qu’<strong>au</strong> cas précé<strong>de</strong>nt.<br />

Sous-échantillonnage basé sur les caractéristiques d’abord, puis sélection<br />

<strong>de</strong>s caractéristiques<br />

Ici le problème se mord la queue mais dans l’<strong>au</strong>tre sens : le sous-échantillonnage<br />

peut être m<strong>au</strong>vais à c<strong>au</strong>se <strong>de</strong>s caractéristiques superflues.<br />

Sous-échantillonnage basé sur les battements d’abord, puis sélection<br />

<strong>de</strong>s caractéristiques<br />

Si l’on choisit <strong>de</strong> sous-échantillonner en fonction <strong>de</strong>s battements et pas <strong>de</strong>s caractéristiques,<br />

alors le problème ne se mord plus la queue : le sous-échantillonnage<br />

est effectué sur base <strong>de</strong> l’allure <strong>de</strong>s battements et les caractéristiques sont choisies<br />

en prenant en compte la base <strong>de</strong> données avec la classe N rééchantillonnée.<br />

Malheureusement, c’est <strong>au</strong>ssi la solution la plus lente. Des tests préliminaires<br />

non rapportés ici ont révélé que cette solution est en effet la meilleure, mais<br />

<strong>au</strong>ssi celle prenant le plus <strong>de</strong> temps.<br />

3.2.2 Classifieurs<br />

Les <strong>de</strong>ux LDA, non-pondéré et pondéré, seront essayés <strong>pour</strong> chaque expérience.<br />

Cela permettra <strong>de</strong> voir si le sous-échantillonnage <strong>de</strong> la classe N est suffisant<br />

ou s’il f<strong>au</strong>t toujours envisager d’utiliser <strong>de</strong>s algorithmes modifiés <strong>pour</strong> tenir<br />

compte <strong>du</strong> déséquilibre.<br />

La suspicion que le rééquilibrage <strong>de</strong>s classes ne soit pas suffisant seul est bien<br />

présent. En effet, le rééchantillonnage se fait uniquement sur la classe N, ce qui<br />

laisse toujours les classes différemment représentées, bien que le déséquilibre ait<br />

été fortement ré<strong>du</strong>it.


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 33<br />

3.2.3 Matrice <strong>de</strong> confusion et BCR<br />

En raison <strong>de</strong>s meilleurs résultats obtenus lors d’une étu<strong>de</strong> rapi<strong>de</strong> non présentée<br />

ici, la définition en moyenne géométrique <strong>du</strong> BCR sera utilisée.<br />

3.2.4 Structure <strong>de</strong> base<br />

La Figure 3.3 représente la structure <strong>de</strong> base <strong>de</strong>s expériences <strong>de</strong> ce chapitre.<br />

Les raisons <strong>de</strong> l’agencement <strong>de</strong>s différents outils ont été débattues précé<strong>de</strong>mment<br />

dans ce chapitre.<br />

Figure 3.3 – Structure <strong>de</strong> base : le nombre <strong>de</strong> battements norm<strong>au</strong>x (classe N) est<br />

ré<strong>du</strong>it par une technique <strong>de</strong> sous-échantillonnage, puis les battements restants<br />

sont ajoutés <strong>au</strong>x battements anorm<strong>au</strong>x (classe S, V, F) et forment l’ensemble<br />

d’apprentissage. Cet ensemble <strong>de</strong> battements est transformé/exprimé sous forme<br />

<strong>de</strong> caractéristiques et une métho<strong>de</strong> forward ne gar<strong>de</strong> que celles qui mènent à <strong>de</strong><br />

bonnes performances. Une fois les bonnes caractéristiques gardées, un modèle <strong>de</strong><br />

classification LDA est bâti et est évalué grâce à l’ensemble <strong>de</strong> test. Ce <strong>de</strong>rnier<br />

n’a pas sa classe N ré<strong>du</strong>ite et ce sont bien les caractéristiques choisies pas la<br />

métho<strong>de</strong> forward qui servent à évaluer les performances.<br />

3.2.5 Description <strong>de</strong>s expériences<br />

Voici la liste <strong>de</strong>s expériences <strong>de</strong> ce chapitre, chacune a été faite en suivant la<br />

Figure 3.3 et faite en double : l’une avec un LDA non-pondéré (les cas impairs)<br />

et l’<strong>au</strong>tre avec un LDA pondéré (les cas pairs).<br />

Sur les battements <strong>de</strong> longueur constante (X = 270) :<br />

- Sous-échantillonnage simple : les battements norm<strong>au</strong>x sont gardés <strong>au</strong> hasard<br />

(cas 1 et 2).


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 34<br />

- Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage à la<br />

fin et la norme d’ordre 2 (cas 3 et 4).<br />

- Sous-échantillonnage <strong>de</strong> type Technique « On The Fly » avec la norme<br />

d’ordre 2 (cas 5 et 6).<br />

Sur les battements <strong>de</strong> longueurs différentes :<br />

- Sous-échantillonnage <strong>de</strong> type Technique « On The Fly » avec la norme<br />

DTW (cas 7 et 8).<br />

- Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage à la<br />

fin et la norme d’ordre 2, les battements ayant été ré<strong>du</strong>its à une longueur<br />

constante <strong>de</strong> 150 échantillons en utilisant la trace (cas 9 et 10).<br />

- Sous-échantillonnage <strong>de</strong> type Technique « On The Fly » avec la norme<br />

d’ordre 2, les battements ayant été ré<strong>du</strong>its à une longueur constante <strong>de</strong> 150<br />

échantillons en utilisant la trace : une étu<strong>de</strong> préliminaire a montré qu’obtenir<br />

un nombre <strong>de</strong> battements compris entre le minimum et le maximum<br />

<strong>de</strong>s classes S, V et F après ce sous-échantillonnage était malaisée. Elle a<br />

donc été abandonnée.<br />

Chacune <strong>de</strong> ces doubles expériences (LDA pondéré et non-pondéré) ont<br />

été répétées n fois. Si n est grand, les résultats seront plus fiables et la<br />

comparaison <strong>de</strong>s expériences entre elles également. n = 20 a été choisi, ce<br />

qui représente déjà une semaine <strong>de</strong> calcul sur <strong>de</strong>s ordinateurs récents <strong>pour</strong><br />

les métho<strong>de</strong>s <strong>de</strong> sous-échantillonnage les plus complexes (clustering). Le<br />

nombre <strong>de</strong> battements fin<strong>au</strong>x <strong>pour</strong> la classe N est aléatoire <strong>pour</strong> chaque<br />

expérience ni mais toujours compris entre le minimum et le maximum <strong>du</strong><br />

nombre <strong>de</strong> battements <strong>pour</strong> les classes S, V et F. Dans le cas <strong>de</strong>s techniques<br />

OTF, le caractère aléatoire est obtenu en fixant nécart−type <strong>au</strong> hasard parmi<br />

les valeurs qui mène à K entre le minimum et le maximum <strong>du</strong> nombre <strong>de</strong><br />

battements <strong>pour</strong> les classes S, V et F. Pour les <strong>au</strong>tres techniques, K est<br />

un paramètre simple à changer.<br />

3.3 Résultats<br />

La Figure 3.4 présente les performances obtenues <strong>pour</strong> chaque double expérience<br />

(n = 20) sous forme <strong>de</strong> boxplot 1 . La Table 3.6 compare ces résultats entre<br />

eux grâce à un test <strong>de</strong> Stu<strong>de</strong>nt <strong>de</strong> supériorité.<br />

1. Souvent tra<strong>du</strong>it par "boîte à moustache"


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 35<br />

Figure 3.4 – Boxplot <strong>de</strong>s performances <strong>de</strong>s cas 1 à 10 (n=20). On observe que<br />

le cas 4 présente les meilleures performances.<br />

Cas 1 Cas 2 Cas 3 Cas 4 Cas 5 Cas 6 Cas 7 Cas 8 Cas 9 Cas 10<br />

Cas 1 - 9,9e-1 9,9e-1 9,9e-1 8,1e-1 9,9e-1 9,3e-1 9,9e-1 9,9e-1 9,9e-1<br />

Cas 2 9,9e-5 - 4,5e-1 9,9e-1 9,0e-4 3,0e-2 1,4e-3 6,2e-2 1,2e-3 1,8e-1<br />

Cas 3 2,4e-4 5,5e-1 - 9,9e-1 2,0e-3 4,9e-2 3,6e-3 9,9e-2 4,7e-3 2,3e-1<br />

Cas 4 2,6e-8 2,4e-3 3,6e-3 - 1,6e-7 6,4e-6 3,2e-8 3,9e-6 4,1e-11 4,7e-4<br />

Cas 5 1,9e-1 9,9e-1 9,9e-1 9,9e-1 - 9,3e-1 7,2e-1 9,8e-1 9,1e-1 9,9e-1<br />

Cas 6 1,1e-2 9,7e-1 9,5e-1 9,9e-1 6,7e-2 - 1,4e-1 7,1e-1 2,8e-1 8,1e-1<br />

Cas 7 6,9e-2 9,9e-1 9,9e-1 9,9e-1 2,8e-1 8,6e-1 - 9,6e-1 7,8e-1 9,7e-1<br />

Cas 8 2,3e-3 9,4e-1 9,0e-1 9,9e-1 1,9e-2 2,9e-1 4,0e-2 - 7,4e-2 6,6e-1<br />

Cas 9 1,3e-2 9,9e-1 9,9e-1 9,9e-1 9,4e-2 7,2e-1 2,2e-1 9,26e-1 - 9,4e-1<br />

Cas 10 2,1e-3 8,2e-1 7,7e-1 9,9e-1 1,5e-2 2,0e-1 3,0e-2 3,4e-1 5,6e-2 -<br />

Table 3.6 – Test <strong>de</strong> supériorité <strong>au</strong> sens <strong>de</strong> Stu<strong>de</strong>nt. Ce table<strong>au</strong> peut être interprété<br />

comme suit : chaque ligne représente les p-valeurs d’un test <strong>de</strong> supériorité<br />

d’un cas vis-à-vis <strong>de</strong>s <strong>au</strong>tres cas. La p-valeur est la probabilité d’obtenir l’écart<br />

observé s’il n’y a pas <strong>de</strong> différence réelle entre les <strong>de</strong>ux groupes. Les p-valeurs<br />

étant inférieures à la valeur classique <strong>de</strong> 5% sont indiquées en gras. Cela signifie<br />

que si une entrée (i,j) est en gras, µi > µj. On constate que le cas 4 est bien<br />

supérieur à tous les <strong>au</strong>tres.


CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 36<br />

3.4 Discussion<br />

Le cas 4 se détache clairement <strong>du</strong> lot, même à l’œil nu. Le test <strong>de</strong> Stu<strong>de</strong>nt <strong>de</strong><br />

supériorité confirme également qu’il est supérieur à tous les <strong>au</strong>tres cas envisagés.<br />

Il obtient en moyenne un BCR <strong>de</strong> 77,43% ce qui est supérieur <strong>au</strong>x résultats obtenus<br />

dans [17] (71,39%), mais inférieur à ceux <strong>de</strong> [1] (85,39%). Le nombre restreint<br />

<strong>de</strong> comparaison vient <strong>du</strong> fait que très peu d’articles utilisent un paradigme interpatient,<br />

et encore moins utilisent les standards <strong>de</strong> l’AAMI. Malheureusement, il<br />

a obtenu une fois sur les vingt un BCR <strong>de</strong> 43,40% ce qui peut sans doute venir<br />

<strong>de</strong> plusieurs sources : soit K le nombre <strong>de</strong> battements <strong>de</strong> classe N gardés avait<br />

une valeur extrême, soit le clustering a convergé vers un minimum local cette<br />

fois-là, soit le problème a sur-appris lors <strong>de</strong> l’étape <strong>de</strong> ré<strong>du</strong>ction <strong>de</strong> dimension,<br />

soit une combinaison <strong>de</strong>s trois. K avait une valeur très moyenne (2477 sachant<br />

qu’il <strong>de</strong>vait être compris entre 412 et 3783). L’étape <strong>de</strong> sélection <strong>de</strong> variables<br />

n’a pas gardé plus ou moins <strong>de</strong> variables que <strong>pour</strong> les 19 <strong>au</strong>tres expériences (11<br />

alors que les <strong>au</strong>tres varient entre 9 et 18). C’est donc soit dû à une m<strong>au</strong>vaise<br />

convergence <strong>du</strong> clustering, soit dû à une sombre combinaison insondable. Certaines<br />

techniques existent <strong>pour</strong> prévenir d’une m<strong>au</strong>vaise convergence lors d’un<br />

clustering et mériteraient d’être appliquées. Il y a <strong>au</strong> moins <strong>de</strong>ux manières <strong>de</strong><br />

faire : soit initialiser plus intelligement les clusters par <strong>de</strong>s techniques heuristiques,<br />

soit relancer le clustering plusieurs fois avec une initialisation aléatoire<br />

différente et choisir celle qui revient le plus souvent, ou la meilleure <strong>au</strong> sens d’un<br />

critère, ou encore moyenner. Evi<strong>de</strong>mment, cela con<strong>du</strong>it à une étape <strong>de</strong> clustering<br />

encore plus longue. F<strong>au</strong>te <strong>de</strong> temps, ces pistes n’ont pas pu être investiguées.<br />

Les techniques « On The Fly » sont peut être utiles <strong>pour</strong> effectuer un « préclustering<br />

» , mais sont moins performantes que le clustering. On peut expliquer<br />

cela par le fait que dans le clustering, un outlier va peut-être influencer celui-ci,<br />

mais a très peu <strong>de</strong> chances d’émerger en tant que centroï<strong>de</strong> (après recentrage).<br />

Dans les techniques OTF par contre, les outliers seront gardés d’office.<br />

Deux jeux <strong>de</strong> battements ont été utilisés : ceux <strong>de</strong> longueur constante (cas<br />

1 à 6) et ceux <strong>de</strong> longueurs non-constantes (cas 7 à 10). Les expériences ne<br />

permettent pas <strong>de</strong> conclure qu’un jeu est meilleur que l’<strong>au</strong>tre. Par contre, le<br />

cas 4 étant meilleur que tous les <strong>au</strong>tres, nous continuerons uniquement avec les<br />

battements <strong>de</strong> longueur constante.<br />

Il est intéressant <strong>de</strong> remarquer que le LDA pondéré obtient systématiquement<br />

un meilleur score que sa version non pondérée, ce qui prouve son utilité.<br />

Par contre, son action n’est pas optimale, et ne permet pas <strong>de</strong> surpasser le<br />

problème <strong>du</strong> déséquilibre seul. L’utilisation simultanée <strong>du</strong> clustering et <strong>de</strong> la<br />

pondération <strong>de</strong> l’algorithme <strong>de</strong> classification donne <strong>de</strong>s meilleurs résultats que<br />

ceux obtenus si on les utilise séparément. Dans la suite, nous gar<strong>de</strong>rons les expériences<br />

1 à 4 comme base, car elles permettent <strong>de</strong> comparer les métho<strong>de</strong>s <strong>de</strong><br />

base (cas 1), l’utilisation <strong>du</strong> clustering seul (cas 3), l’utilisation <strong>de</strong> la modification<br />

d’algorithme (cas 2) et la synergie <strong>de</strong>s <strong>de</strong>ux (cas 4).


CHAPITRE 4. EFFET DE LA SÉLECTION DE CARACTÉRISTIQUES 37<br />

Chapitre 4<br />

Effet <strong>de</strong> la sélection <strong>de</strong><br />

caractéristiques<br />

Dans ce chapitre, la métho<strong>de</strong> forward <strong>pour</strong> sélectionner les variables pertinentes<br />

sera évaluée. Il sera observé si le déséquilibre a un impact sur cette<br />

procé<strong>du</strong>re et si les techniques <strong>de</strong> sous-échantillonage permettent d’améliorer les<br />

résultats. D’<strong>au</strong>tres métho<strong>de</strong>s <strong>de</strong> sélection <strong>de</strong> caractéristiques <strong>au</strong>raient pu être<br />

investiguées, mais cette option n’a pas été suivie f<strong>au</strong>te <strong>de</strong> temps.<br />

4.1 Métho<strong>de</strong><br />

La plupart <strong>de</strong>s mého<strong>de</strong>s utilisées dans ce chapitre ont déjà été expliquées<br />

dans la Section 3.1. Seule la procé<strong>du</strong>re forward est modifiée.<br />

La procé<strong>du</strong>re forward décrite à la Section 3.1.4 est utilisée <strong>pour</strong> choisir les<br />

variables pertinentes. Puisqu’il est connu qu’un risque <strong>de</strong> sur-apprentissage existe<br />

[29], [30], il sera également observé si l’arrêt précoce <strong>de</strong> la procé<strong>du</strong>re peut mener<br />

à une meilleure généralisation. Pour étudier cet effet, un seuil δ est choisi, et la<br />

procé<strong>du</strong>re arrête d’ajouter <strong>de</strong>s caractéristiques si les performances n’<strong>au</strong>gmentent<br />

pas d’<strong>au</strong> moins δ. La Table 4.1 présente un pseudo-co<strong>de</strong> <strong>pour</strong> la métho<strong>de</strong> forward<br />

modifiée.<br />

4.2 Méthodologie<br />

Dans ce chapitre, nous allons nous concentrer sur les cas 1 à 4 <strong>de</strong> la Section<br />

3.2.5 (avec une petite variante <strong>pour</strong> les cas 1 et 2) :<br />

Battements <strong>de</strong> longueur constante :<br />

- Sous-échantillonnage simple : les battements norm<strong>au</strong>x sont gardés <strong>au</strong> hasard,<br />

avec classifieur LDA non-pondéré. Cette fois-ci les battements ne


CHAPITRE 4. EFFET DE LA SÉLECTION DE CARACTÉRISTIQUES 38<br />

@pré : Un ensemble <strong>de</strong> caractéristiques : Caract<br />

@post : Un sous-ensemble <strong>de</strong> Caract plus pertinent : Caract_Gardées<br />

Performances précé<strong>de</strong>ntes = −∞<br />

Performances actuelles = 0<br />

Caract_Gardées = {}<br />

while Performances actuelles - Performances préce<strong>de</strong>ntes ≥ δ<br />

Performances précé<strong>de</strong>ntes = Performances actuelles<br />

for Toutes les caractéristiques <strong>de</strong> Caract<br />

Evaluer les performances avec Caract_Gardées plus une<br />

caractéristique<br />

end<br />

Ajouter à Caract_Gardées la caractéristique <strong>au</strong>gmentant le plus les<br />

performances<br />

Performances actuelles = les performances avec Caract_Gardées<br />

end<br />

Table 4.1 – Pseudo-co<strong>de</strong> <strong>de</strong> la métho<strong>de</strong> forward modifiée. Notez que les performances<br />

sont obtenues par validation croisée.<br />

sont en fait pas tirés tout à fait <strong>au</strong> hasard, mais à intervalles réguliers avec<br />

leur nombre total K qui lui est tiré <strong>au</strong> hasard (cas 1).<br />

- Sous-échantillonnage simple : les battements norm<strong>au</strong>x sont gardés <strong>au</strong> hasard,<br />

avec classifieur LDA pondéré. Même remarque qu’<strong>au</strong> cas précé<strong>de</strong>nt<br />

(cas 2).<br />

- Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage à la<br />

fin et la norme d’ordre 2, avec classifieur LDA non-pondéré (cas 3).<br />

- Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage à la<br />

fin et la norme d’ordre 2, avec classifieur LDA pondéré (cas 4).<br />

Ces quatre cas sont répétés 20 fois, suivant la structure décrite à la Figure<br />

3.3 et K est astreint à être compris entre le minimum et le maximum <strong>de</strong>s classes<br />

S, V et F (respectivement 2, 3 et 4). Ce choix permettra d’évaluer l’effet <strong>de</strong><br />

base <strong>du</strong> déséquilibre (cas 1), l’effet <strong>de</strong> la pondération <strong>du</strong> LDA (cas 2), l’effet <strong>du</strong><br />

sous-échantillonnage par clustering seul (cas 3) et enfin la synergie <strong>de</strong>s <strong>de</strong>ux (cas<br />

4).


CHAPITRE 4. EFFET DE LA SÉLECTION DE CARACTÉRISTIQUES 39<br />

4.3 Résultats<br />

La Figure 4.1 présente les performances <strong>de</strong>s quatre cas.<br />

Figure 4.1 – Performances <strong>pour</strong> chacun <strong>de</strong>s quatre cas. Les performances<br />

moyennes sont en rouge, les <strong>de</strong>ux lignes vertes représentant un écart-type <strong>de</strong><br />

chaque coté <strong>de</strong> la moyenne, <strong>pour</strong> un certain δ.<br />

Les valeurs <strong>de</strong> δ s’éten<strong>de</strong>nt volontairement sur toutes les valeurs possibles<br />

<strong>pour</strong> mettre en évi<strong>de</strong>nce la présence dans tous les cas <strong>de</strong> <strong>de</strong>ux plate<strong>au</strong>x.<br />

Le second plate<strong>au</strong> (présent <strong>de</strong>puis δ = 30% jusque δ = 100%) représente le fait<br />

que la sélection <strong>de</strong> variables n’a choisi qu’une seule variable (l’algorithme sélectionne<br />

toujours <strong>au</strong> moins une variable) et toujours la même (voir ci-<strong>de</strong>ssous). A<br />

cet endroit, la variance est faible, mais le BCR moyen l’est également.<br />

Le premier plate<strong>au</strong> s’étend dans une région <strong>pour</strong> laquelle δ = 2, 5% jusque<br />

δ = 10%. Celui-ci correspond <strong>au</strong> fait que la métho<strong>de</strong> forward a ajouté une<br />

secon<strong>de</strong> caractéristique. Cette secon<strong>de</strong> caractéristique est dans tous les cas choisie<br />

parmi <strong>de</strong>ux particulières, comme on peut le voir <strong>au</strong>x Tables 4.2 et 4.3. Ici, la<br />

variance est toujours faible, mais les performances sont bien meilleures.<br />

Entre ces <strong>de</strong>ux plate<strong>au</strong>x se trouve une zone <strong>de</strong> transition qui représente le fait<br />

qu’en fonction <strong>de</strong>s battements gardés <strong>pour</strong> la classe N, l’ajout <strong>de</strong> la secon<strong>de</strong> ca-


CHAPITRE 4. EFFET DE LA SÉLECTION DE CARACTÉRISTIQUES 40<br />

ractéristique se passe <strong>pour</strong> un δ légèrement différent.<br />

La <strong>de</strong>rnière zone d’intérêt se trouve à droite, <strong>pour</strong> les valeurs <strong>de</strong> δ < 2, 5%. La<br />

Figure 4.2 représente <strong>de</strong> la même façon ces valeurs <strong>de</strong> δ. On observe dans les<br />

cas 2, 3 mais surtout 1 que les performances moyennes décroissent fortement<br />

si δ <strong>de</strong>vient nul, ce qui veut dire que la métho<strong>de</strong> forward a sélectionné trop <strong>de</strong><br />

caractéristiques, et que les performances s’en ressentent. Un tel phénomène est<br />

appelé sur-apprentissage : l’algorithme a voulu être trop fidèle <strong>au</strong>x données (en<br />

basant le classifieur LDA sur <strong>de</strong> trop nombreuses caractéristiques) et a per<strong>du</strong> <strong>de</strong><br />

sa capacité à généraliser.<br />

Ce phénomène ne se passe pas dans le cas 4 (sous-échantillonnage <strong>de</strong> type Clustering<br />

: k-means avec un recentrage à la fin et la norme d’ordre 2, avec classifieur<br />

LDA pondéré). Les performances moyennes sont même meilleures en ajoutant<br />

plus <strong>de</strong> caractéristiques.<br />

Du point <strong>de</strong> vue <strong>de</strong> la variabilité <strong>de</strong>s résultats, c’est encore le cas 4 qui l’emporte,<br />

ce qui le rend plus fiable. Cependant, les variances <strong>de</strong> premier plate<strong>au</strong> (présent<br />

<strong>de</strong>puis δ = 2, 5% jusque δ = 10%) sont dans tous les cas encore plus faibles que<br />

dans le cas 4 avec δ = 0.<br />

Figure 4.2 – Zoom sur les performances moyennes en rouge, les <strong>de</strong>ux lignes<br />

vertes représentant un écart-type <strong>de</strong> chaque côté <strong>de</strong> la moyenne, <strong>pour</strong> un certain<br />

δ.


CHAPITRE 4. EFFET DE LA SÉLECTION DE CARACTÉRISTIQUES 41<br />

D’un point <strong>de</strong> vue pratique, on <strong>pour</strong>rait être tenté d’arrêter le LDA <strong>pour</strong><br />

toujours se trouver sur le premier plate<strong>au</strong>. En effet les performances y sont plutôt<br />

bonnes et la variabilité observée y est très faible. Cela peut donc suffire <strong>pour</strong><br />

certaines applications. L’analyse va cependant être <strong>pour</strong>suivie <strong>pour</strong> le cas plus<br />

général.<br />

Les premières caractéristiques sélectionnées méritent un peu d’attention. La première<br />

caractéristique est toujours la même : celle-ci correspond à l’intervalle R-R<br />

<strong>du</strong> battement précé<strong>de</strong>nt, normalisé par la valeur moyenne <strong>de</strong> cette caractéristique<br />

<strong>pour</strong> ce patient.<br />

Le compte ren<strong>du</strong> <strong>de</strong> la secon<strong>de</strong> et <strong>de</strong> la troisième caractéristique sélectionnée<br />

est indiqué <strong>au</strong>x Tables 4.2 et 4.3 respectivement. On observe que ce sont très<br />

souvent les mêmes caractéristiques qui sont choisies. Les caractéristiques n o 2 et<br />

n o 10 sont <strong>de</strong>s éléments statistiques <strong>de</strong> h<strong>au</strong>t ordre, la caractéristique n o 214 est<br />

l’écart-type <strong>du</strong> complexe QRS normalisé par la valeur moyenne <strong>de</strong> cette caractéristique<br />

<strong>pour</strong> ce patient et la caractéristique n o 219 est la longueur RS elle <strong>au</strong>ssi<br />

normalisée.<br />

n o 2 n o 10 total<br />

Cas 1 16 4 20<br />

Cas 2 2 18 20<br />

Cas 3 20 0 20<br />

Cas 4 14 6 20<br />

total 52 28 80<br />

Table 4.2 – Deuxièmes caractéristiques sélectionnées par la métho<strong>de</strong> forward.<br />

n o 214 n o 219 total<br />

Cas 1 0 20 20<br />

Cas 2 5 15 20<br />

Cas 3 0 20 20<br />

Cas 4 14 6 20<br />

total 61 19 80<br />

Table 4.3 – Troisièmes caractéristiques sélectionnées par la métho<strong>de</strong> forward.<br />

4.4 Discussion<br />

Ce chapitre permet <strong>de</strong> tirer plusieurs conclusions.<br />

Premièrement, la combinaison d’un sous-échantillonnage <strong>de</strong> type clustering allié<br />

à un classifieur pondéré <strong>pour</strong> tenir compte <strong>du</strong> déséquilibre rési<strong>du</strong>el <strong>de</strong>s classes<br />

permet d’éviter le sur-apprentissage <strong>au</strong> nive<strong>au</strong> <strong>de</strong> la sélection <strong>de</strong> caractéristiques.<br />

Cela contribue certainement à faire <strong>de</strong> ce cas le plus performant dans le chapitre<br />

précé<strong>de</strong>nt.


CHAPITRE 4. EFFET DE LA SÉLECTION DE CARACTÉRISTIQUES 42<br />

Deuxièmement, la classification à quatre classes dans cette application peut<br />

très bien se satisfaire <strong>de</strong> très peu <strong>de</strong> caractéristiques <strong>pour</strong> discriminer. Ajouter<br />

d’<strong>au</strong>tres caractéristiques <strong>au</strong>gmente légèrement les performances dans le cas<br />

d’une combinaison d’un sous-échantillonnage <strong>de</strong> type clustering allié à un classifieur<br />

pondéré <strong>pour</strong> tenir compte <strong>du</strong> déséquilibre rési<strong>du</strong>el <strong>de</strong>s classes. Cependant,<br />

cela se fait <strong>au</strong> détriment <strong>de</strong> la variance. Il peut donc il y avoir certains cas où<br />

il f<strong>au</strong>dra privilégier <strong>de</strong>s performances moyennes avec une faible variance et peu<br />

<strong>de</strong> caractéristiques. Dans d’<strong>au</strong>tres cas, on ajoutera plus <strong>de</strong> caractéristiques <strong>pour</strong><br />

obtenir <strong>de</strong> meilleurs résultats moyens.<br />

Troisièmement, on observe l’importance <strong>de</strong> supprimer la redondance dans les<br />

données <strong>de</strong> la classe N. En plus <strong>du</strong> fait qu’un trop grand déséquilibre fait plonger<br />

les performances, le temps <strong>de</strong> calcul diminue quand K, le nombre <strong>de</strong> battements<br />

gardés dans la classe N, diminue.<br />

Finalement, il est <strong>au</strong>ssi important <strong>de</strong> bien choisir les caractéristiques gardées :<br />

une modification a été apportée ici à la métho<strong>de</strong> forward mais il existe d’<strong>au</strong>tres<br />

manières <strong>de</strong> sélectionner les caractéristiques. Il est à noter que la modification<br />

apportée à la métho<strong>de</strong> forward ré<strong>du</strong>it le temps <strong>de</strong> calcul. Ce <strong>de</strong>rnier sera d’<strong>au</strong>tant<br />

plus petit que δ sera grand. Il sera évi<strong>de</strong>mment très court <strong>pour</strong> les <strong>de</strong>ux<br />

plate<strong>au</strong>x. De plus, les premières caractéristiques sont presque systématiquement<br />

les mêmes : elles seront utilisées dans le Chapitre 6 <strong>pour</strong> essayer <strong>de</strong> gagner <strong>du</strong><br />

temps sur la validation <strong>de</strong> K.


CHAPITRE 5. EFFET DES OUTLIERS 43<br />

Chapitre 5<br />

Effet <strong>de</strong>s outliers<br />

Ce chapitre est consacré à l’étu<strong>de</strong> <strong>de</strong> l’influence <strong>de</strong>s outliers. Comme déjà<br />

énoncé, le LDA est sensible à ces <strong>de</strong>rniers. Ce problème n’est pas propre <strong>au</strong><br />

modèle LDA et est un problème récurrent en analyse <strong>de</strong> données. Ce qui suit<br />

est donc une analyse <strong>de</strong>s performances <strong>de</strong> classification après divers essais <strong>pour</strong><br />

enlever ces outliers.<br />

5.1 Métho<strong>de</strong><br />

La plupart <strong>de</strong>s mého<strong>de</strong>s utilisées dans ce chapitre ont déjà été expliquées<br />

dans la Section 3.1. Deux métho<strong>de</strong>s visant à éliminer les outliers doivent encore<br />

être expliquées.<br />

5.1.1 Elimination d’outliers <strong>de</strong> la base <strong>de</strong> données (type 1)<br />

Pour cette métho<strong>de</strong>, l’ensemble d’apprentissage est divisé en 22 groupes <strong>de</strong><br />

battements, un <strong>pour</strong> chaque patient. Pour chaque groupe, on procè<strong>de</strong> comme<br />

suit : le battement étant le plus près <strong>du</strong> centre <strong>de</strong> gravité <strong>du</strong> nuage est considéré<br />

comme la référence et nommé bréf . Ensuite, toutes les mesures <strong>de</strong> dissimilarité<br />

d(bi, bréf ) entre ce battement <strong>de</strong> référence bréf et tous les <strong>au</strong>tres bi sont calculées.<br />

La moyenne et l’écart-type <strong>de</strong> d(bi, bréf ) sont calculés et nommés respectivement<br />

µd et σd. Les battements bi sont alors éliminés si d(bi, bréf ) < µd+3∗σd. Cela correpond,<br />

si l’on fait l’hypothèse d’une ditribution normale <strong>pour</strong> les dissimilarités,<br />

à gar<strong>de</strong>r plus ou moins 1% <strong>de</strong>s battements, ceux ayant les dissimilarités les plus<br />

gran<strong>de</strong>s. La norme <strong>de</strong> Minkowsky sera utilisée comme mesure <strong>de</strong> dissimilarité et<br />

<strong>pour</strong> trouver bréf .<br />

5.1.2 Elimination d’outliers après un clustering (type 2)<br />

Dans cette métho<strong>de</strong>, certains centroï<strong>de</strong>s margin<strong>au</strong>x sont supprimés <strong>du</strong>rant<br />

l’étape <strong>de</strong> clustering. Une inspection visuelle <strong>de</strong>s centroï<strong>de</strong>s n’étant pas possible,


CHAPITRE 5. EFFET DES OUTLIERS 44<br />

il f<strong>au</strong>t trouver un critère d’exclusion. Clairement, lors <strong>du</strong> processus <strong>de</strong> clustering,<br />

les outliers vont soit être oubliés par le clustering lui-même, soit l’outlier va<br />

attirer un centroï<strong>de</strong> en mouvement ou replacé car <strong>au</strong>cune donnée ne lui était<br />

plus affectée. Le critère suivant a été choisi, bien que d’<strong>au</strong>tres <strong>au</strong>raient pu être<br />

investigués (mais ne l’ont pas été f<strong>au</strong>te <strong>de</strong> temps). Soit un centroï<strong>de</strong> K qui co<strong>de</strong><br />

<strong>pour</strong> ni battement(s), ce centroï<strong>de</strong> est éliminé si ni ≤ 3. Ce critère suppose que<br />

les outliers ne sont pas rassemblés entre eux mais sont dispersés dans l’espace<br />

<strong>du</strong> clustering.<br />

5.2 Méthodologie<br />

Dans cette partie, plusieurs expériences vont être menées. Elles respectent<br />

la structure décrite à la Figure 3.3. Le but est d’évaluer à quel point les outliers<br />

jouent un rôle important dans les performances <strong>de</strong> classification après avoir<br />

rééquilibré les quatre classes en diminuant le nombre <strong>de</strong> battements norm<strong>au</strong>x.<br />

Toutes les expériences menant à un nombre <strong>de</strong> battements norm<strong>au</strong>x non compris<br />

entre le minimum et le maximum <strong>de</strong>s trois <strong>au</strong>tres classes ont été abandonnées.<br />

Dix cas ont été considérés. Pour chaque cas, les expériences sont lancées 10 fois,<br />

ce qui est moins qu’avant mais suffit à montrer la supériorité d’un <strong>de</strong>s cas sur<br />

tous les <strong>au</strong>tres. Voici la liste <strong>de</strong>s cas :<br />

- Cas 10 : Sous-échantillonnage simple sans avoir éliminé les outliers, avec<br />

LDA non-pondéré.<br />

- Cas 20 : Sous-échantillonnage simple sans avoir éliminé les outliers, avec<br />

LDA pondéré.<br />

- Cas 11 : Sous-échantillonnage simple en ayant éliminé les outliers grâce à<br />

la métho<strong>de</strong> présentée à la Section 5.1.1 (type 1), avec LDA non-pondéré.<br />

- Cas 21 : Sous-échantillonnage simple en ayant éliminé les outliers grâce à<br />

la métho<strong>de</strong> présentée à la Section 5.1.1 (type 1), avec LDA pondéré.<br />

- Cas 30 : Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage<br />

à la fin et la norme d’ordre 2, sans avoir éliminé les outliers, avec<br />

LDA non-pondéré.<br />

- Cas 40 : Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage<br />

à la fin et la norme d’ordre 2, sans avoir éliminé les outliers, avec<br />

LDA pondéré.<br />

- Cas 31 : Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage<br />

à la fin et la norme d’ordre 2, en ayant éliminé les outliers avant le


CHAPITRE 5. EFFET DES OUTLIERS 45<br />

clustering grâce à la métho<strong>de</strong> présentée à la Section 5.1.1 (type 1), avec<br />

LDA non-pondéré.<br />

- Cas 41 : Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage<br />

à la fin et la norme d’ordre 2, en ayant éliminé les outliers avant le<br />

clustering grâce à la métho<strong>de</strong> présentée à la Section 5.1.1 (type 1), avec<br />

LDA pondéré.<br />

- Cas 32 : Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage<br />

à la fin et la norme d’ordre 2, en ayant éliminé les outliers après le<br />

clustering grâce à la métho<strong>de</strong> présentée à la Section 5.1.2 (type 2), avec<br />

LDA non-pondéré.<br />

- Cas 42 : Sous-échantillonnage <strong>de</strong> type Clustering : k-means avec un recentrage<br />

à la fin et la norme d’ordre 2, en ayant éliminé les outliers après le<br />

clustering grâce à la métho<strong>de</strong> présentée à la Section 5.1.2 (type 2), avec<br />

LDA pondéré.<br />

Il est à noter que le premier chiffre <strong>du</strong> cas correspond <strong>au</strong> cas 1 à 4 <strong>du</strong> Chapitre<br />

3 et le second chiffre <strong>au</strong> type d’élimination d’outliers utilisé : 0 si <strong>au</strong>cun n’a été<br />

utilisé, 1 si type 1 et 2 si type 2.<br />

5.3 Résultats<br />

Pour commencer, l’effet <strong>de</strong> l’élimination d’outliers dans la base <strong>de</strong> données<br />

(type 1) et <strong>de</strong> l’élimination d’outliers après un clustering (type 2) va être représenté<br />

visuellement. Ensuite viendront les résultats en termes <strong>de</strong> performance.<br />

5.3.1 Elimination <strong>de</strong>s outliers <strong>de</strong> la base <strong>de</strong> données (type 1)<br />

L’effet <strong>de</strong> l’élimination <strong>de</strong>s outliers dans la base <strong>de</strong> données est représenté<br />

ci-après, à la Figure 5.1 et à la Figure 5.2, chaque patient indépendamment <strong>pour</strong><br />

plus <strong>de</strong> clarté. Le battement représenté en rouge est le battement <strong>de</strong> référence<br />

bréf <strong>de</strong> chaque patient. Les battements en bleu sont ceux qui ont été éliminés et<br />

les battements en vert sont ceux qui ont été gardés. On observe que l’algorithme<br />

a correctement éliminé les battements manifestement extrêmes, parfois très bien,<br />

parfois moins bien selon les patients.<br />

5.3.2 Elimination <strong>de</strong>s outliers après un clustering (type 2)<br />

La Figure 5.3 représente les battements affectés à chaque centroï<strong>de</strong>. Ceux-ci<br />

ont été représentés par ordre d’enveloppe croissante et seuls les dix premiers et<br />

dix <strong>de</strong>rniers sont représentés à la Figure 5.3. Représenter l’ensemble <strong>de</strong>s quelques<br />

milliers <strong>de</strong> centroï<strong>de</strong>s gardés <strong>au</strong>rait peu d’intérêt, mais on peut constater qu’en


CHAPITRE 5. EFFET DES OUTLIERS 46<br />

effet, les centroï<strong>de</strong>s C1 à C4 sont <strong>de</strong>s outliers et doivent être éliminés. Le centroï<strong>de</strong><br />

C5 sera également éliminé par l’algorithme, car il possè<strong>de</strong> <strong>au</strong>ssi moins<br />

<strong>de</strong> 3 éléments, mais peut-être à tort. Ces remarques sont les mêmes <strong>pour</strong> les<br />

enveloppes plus gran<strong>de</strong>s.<br />

5.3.3 Sous-échantillonnage simple et élimination <strong>de</strong>s outliers<br />

Cette partie contient les résultats <strong>de</strong>s cas 10, 11, 20 et 21. La Figure 5.4<br />

présente les performances obtenues par chaque double expérience (n = 10) sous<br />

forme <strong>de</strong> boxplot. Le résultat est mitigé. Le score médian a <strong>au</strong>gmenté lorsque l’on<br />

a ajouté l’élimination d’outliers <strong>de</strong> type 1 dans le cas <strong>du</strong> sous-échantillonnage<br />

simple avec LDA non-pondéré. Par contre, le score médian a diminué lorsque l’on<br />

a ajouté l’élimination d’outliers <strong>de</strong> type 1 dans le cas <strong>du</strong> sous-échantillonnage<br />

simple avec LDA pondéré.<br />

5.3.4 Sous-échantillonnage <strong>de</strong> type Clustering et élimination <strong>de</strong>s<br />

outliers (type 1)<br />

Cette partie contient les résultats <strong>de</strong>s cas 30, 40, 31 et 41. La Figure 5.5<br />

présente les performances obtenues par chaque double expérience (n = 10) sous<br />

forme <strong>de</strong> boxplot. Le résultat est tout <strong>au</strong>ssi mitigé. Le score médian a <strong>au</strong>gmenté<br />

lorsque l’on a ajouté l’élimination d’outliers <strong>de</strong> type 1 dans le cas <strong>du</strong> souséchantillonnage<br />

<strong>de</strong> type Clustering avec LDA non-pondéré. Par contre, le score<br />

médian a diminué lorsque l’on a ajouté l’élimination d’outliers <strong>de</strong> type 1 dans le<br />

cas <strong>du</strong> sous-échantillonnage <strong>de</strong> type Clustering avec LDA pondéré.<br />

5.3.5 Sous-échantillonnage <strong>de</strong> type Clustering et élimination <strong>de</strong>s<br />

outliers (type 2)<br />

Cette partie contient les résultats <strong>de</strong>s cas 30, 40, 32 et 42. La Figure 5.6<br />

présente les performances obtenues par chaque double expérience (n = 10) sous<br />

forme <strong>de</strong> boxplot. Le résultat est tout <strong>au</strong>ssi mitigé. Le score médian a <strong>au</strong>gmenté<br />

lorsque l’on a ajouté l’élimination d’outliers <strong>de</strong> type 2 dans le cas <strong>du</strong> souséchantillonnage<br />

<strong>de</strong> type Clustering avec LDA non-pondéré. Par contre, le score<br />

médian a diminué lorsque l’on a ajouté l’élimination d’outliers <strong>de</strong> type 2 dans le<br />

cas <strong>du</strong> sous-échantillonnage <strong>de</strong> type Clustering avec LDA pondéré.<br />

5.4 Discussion<br />

La Figure 5.7 présente les performances obtenues par chaque cas (n = 10)<br />

sous forme <strong>de</strong> boxplot.<br />

La Table 5.1 compare tous les résultats <strong>de</strong> ce chapitre entre eux grâce à un<br />

test <strong>de</strong> Stu<strong>de</strong>nt <strong>de</strong> supériorité.


CHAPITRE 5. EFFET DES OUTLIERS 47<br />

Cas 10 Cas 11 Cas 20 Cas 21 Cas 30 Cas 31 Cas 32 Cas 40 Cas 41 Cas 42<br />

Cas 10 - 7,7e-1 7,4e-1 5,6e-1 5,3e-1 7,0e-1 6,8e-1 9,9e-1 9,7e-1 9,9e-1<br />

Cas 11 2,3e-1 - 4,7e-1 2,8e-1 2,8e-1 4,3e-1 3,9e-1 9,9e-1 8,5e-1 9,1e-1<br />

Cas 20 2,6e-1 5,3e-1 - 3,1e-1 3,0e-1 4,6e-1 4,2e-1 9,9e-1 8,8e-1 9,3e-1<br />

Cas 21 4,4e-1 7,2e-1 6,9e-1 - 4,7e-1 6,5e-1 6,2e-1 1,0e+0 9,6e-1 9,8e-1<br />

Cas 30 4,7e-1 7,2e-1 7,0e-1 5,3e-1 - 6,5e-1 6,4e-1 1,0e+0 9,4e-1 9,7e-1<br />

Cas 31 3,1e-1 5,7e-1 5,4e-1 3,5e-1 3,5e-1 - 4,7e-1 9,9e-1 8,8e-1 9,3e-1<br />

Cas 32 3,2e-1 6,1e-1 5,8e-1 3,8e-1 3,6e-1 5,3e-1 - 9,9e-1 9,2e-1 9,6e-1<br />

Cas 40 8,0e-4 1,0e-2 7,9e-3 1,5e-3 4,8e-3 1,1e-2 3,5e-3 - 1,7e-2 8,0e-2<br />

Cas 41 2,7e-2 1,5e-1 1,2e-1 4,0e-2 5,8e-2 1,2e-1 7,8e-2 9,8e-1 - 6,9e-1<br />

Cas 42 1,4e-2 8,8e-2 7,3e-2 2,2e-2 3,5e-2 7,4e-2 4,4e-2 9,2e-1 3,1e-1 -<br />

Table 5.1 – Test <strong>de</strong> supériorité <strong>au</strong> sens <strong>de</strong> Stu<strong>de</strong>nt. Ce table<strong>au</strong> peut être interprété<br />

comme suit : chaque ligne représente les p-valeurs d’un test <strong>de</strong> supériorité<br />

d’un cas vis-à-vis <strong>de</strong>s <strong>au</strong>tres cas. La p-valeur est la probabilité d’obtenir l’écart<br />

observé s’il n’y a pas <strong>de</strong> différence réelle entre les <strong>de</strong>ux groupes. Les p-valeurs<br />

étant inférieures à la valeur classique <strong>de</strong> 5% sont indiquées en gras. Cela signifie<br />

que si une entrée (i,j) est en gras, µi > µj. On constate que le cas 40 est bien<br />

supérieur à tous les <strong>au</strong>tres, excepté peut-être le cas 42 mais la p-valeur n’est que<br />

<strong>de</strong> 8%.<br />

Dans tous les cas, l’élimination <strong>de</strong>s outliers a permis d’<strong>au</strong>gmenter les performances<br />

dans les cas où le LDA non-pondéré était utilisé. Par contre, les <strong>de</strong>ux<br />

métho<strong>de</strong>s proposées diminuent les performances dans tous les cas lorsque le LDA<br />

est utilisé dans sa version pondérée.<br />

Cela peut venir <strong>du</strong> fait que le LDA pondéré est moins sensible ou encore que la<br />

suppression d’outliers ne se fait pas <strong>de</strong> manière optimale. Pour l’élimination <strong>de</strong><br />

type 1, il <strong>au</strong>rait peut-être mieux valu faire le calcul <strong>pour</strong> chaque patient et <strong>pour</strong><br />

chaque classe, plutôt que juste par patient. Pour le type 2, le seuil <strong>de</strong> trois battements<br />

<strong>au</strong>rait pu être ajusté. Ces options n’ont pas pu être investiguées f<strong>au</strong>te<br />

<strong>de</strong> temps.<br />

En particulier, on constate qu’il est inutile d’enlever les outliers avant ou après<br />

un sous-échantillonnage <strong>de</strong> type Clustering si on utilise un LDA pondéré et que<br />

ce traitement possè<strong>de</strong> les meilleures performances. Cela est confirmé par le test<br />

<strong>de</strong> supériorité <strong>de</strong> Stu<strong>de</strong>nt (bien que comparé <strong>au</strong> cas 42, la p-valeur est <strong>de</strong> 8% ><br />

5%).


CHAPITRE 5. EFFET DES OUTLIERS 48<br />

Figure 5.1 – L’effet <strong>de</strong> l’élimination d’outliers <strong>pour</strong> les patients 1 à 12. Le<br />

battement représenté en rouge est le battement <strong>de</strong> référence bréf <strong>de</strong> chaque<br />

patient. Les battements en bleu sont ceux qui ont été éliminés et les battements<br />

en vert sont ceux qui ont été gardés.


CHAPITRE 5. EFFET DES OUTLIERS 49<br />

Figure 5.2 – L’effet <strong>de</strong> l’élimination d’outliers <strong>pour</strong> les patients 13 à 22. Le<br />

battement représenté en rouge est le battement <strong>de</strong> référence bréf <strong>de</strong> chaque<br />

patient. Les battements en bleu sont ceux qui ont été éliminés et les battements<br />

en vert sont ceux qui ont été gardés.


CHAPITRE 5. EFFET DES OUTLIERS 50<br />

Figure 5.3 – Battements affectés <strong>au</strong>x centroï<strong>de</strong>s, par ordre d’enveloppe croissante.<br />

Seuls les dix premiers (C1 à C10) et dix <strong>de</strong>rniers centroï<strong>de</strong>s (C897 à<br />

C906) ont été représentés. K était donc égal à 906 <strong>pour</strong> l’expérience représerntée.<br />

Chaque battement en rouge constitue un battement-centroï<strong>de</strong>, les bleus<br />

représentent les battements oubliés et assimilés à leurs battement-centroï<strong>de</strong>.


CHAPITRE 5. EFFET DES OUTLIERS 51<br />

Figure 5.4 – Boxplot <strong>de</strong>s performances <strong>de</strong>s cas 10, 11, 20 et 21 (n=10).


CHAPITRE 5. EFFET DES OUTLIERS 52<br />

Figure 5.5 – Boxplot <strong>de</strong>s performances <strong>de</strong>s cas 30, 40, 31 et 41 (n=10).


CHAPITRE 5. EFFET DES OUTLIERS 53<br />

Figure 5.6 – Boxplot <strong>de</strong>s performances <strong>de</strong>s cas 30, 40, 32 et 42 (n=10).


CHAPITRE 5. EFFET DES OUTLIERS 54<br />

Figure 5.7 – Boxplot <strong>de</strong>s performances <strong>de</strong> tous les cas <strong>de</strong> ce chapitre (n=10).


CHAPITRE 6. VALIDATION DU MODÈLE 55<br />

Chapitre 6<br />

Validation <strong>du</strong> modèle<br />

Dans ce chapitre, nous allons tenter <strong>de</strong> construire une métho<strong>de</strong> <strong>pour</strong> répondre<br />

<strong>de</strong> la meilleure façon possible <strong>au</strong> problème <strong>de</strong> classification énoncé dans<br />

la Section 2.6. Cette métho<strong>de</strong> utilisera les résultats obtenus dans les chapitres<br />

précé<strong>de</strong>nts tels que le choix <strong>de</strong>s variables, <strong>du</strong> sous-échantillonage et <strong>du</strong> filtrage<br />

<strong>de</strong>s outliers. Ce chapitre commence par expliquer la métho<strong>de</strong> choisie ainsi que les<br />

choix effectués. Ensuite viendront les résultats et une discussion sur ces <strong>de</strong>rniers.<br />

Les différents éléments utilisés dans ce chapitre sont expliqués à la Section 3.1.<br />

6.1 Méthodologie<br />

Concernant la validation <strong>de</strong> K (nombre <strong>de</strong> battements <strong>de</strong> classe N gardés) :<br />

un leave-one-out par patient est effectué <strong>pour</strong> chaque candidat à la validation et<br />

ils sont comparés entre eux grâce <strong>au</strong>x scores obtenus.<br />

Un <strong>de</strong>s désavantages majeur <strong>de</strong> cette technique est que le temps <strong>de</strong> calcul est<br />

multiplié par un facteur égal <strong>au</strong> nombre <strong>de</strong> patients. Un <strong>au</strong>tre problème se<br />

pose lorsque plusieurs paramètres doivent être validés. L’exploration combinatoire<br />

d’un tel ensemble d’hyper-paramètres entraine dans le meilleur <strong>de</strong>s cas<br />

une <strong>au</strong>gmentation exponentielle <strong>du</strong> temps <strong>de</strong> calcul [23]. Historiquement, certains<br />

critères d’information ont été proposés <strong>pour</strong> essayer <strong>de</strong> corriger le biais <strong>du</strong><br />

maximum <strong>de</strong> vraisemblance par addition d’un terme <strong>de</strong> pénalité qui compense le<br />

sur-apprentissage dû <strong>au</strong>x modèles trop complexes. On peut citer le AIC (Akaike,<br />

1974) et le BIC (Bayesian information criterion). Dans notre cas, la littérature<br />

n’a pas permis <strong>de</strong> trouver une telle solution, et après quelques réflexions sur<br />

l’opportunité d’en rechercher une, il a été choisi <strong>de</strong> se concentrer sur un moyen<br />

<strong>de</strong> diminuer le temps <strong>de</strong> calcul <strong>pour</strong> le rendre acceptable.<br />

Il est important <strong>de</strong> réfléchir <strong>au</strong>x paramètres qui doivent être validés, à la façon <strong>de</strong><br />

le faire, mais <strong>au</strong>ssi <strong>au</strong> temps <strong>de</strong> calcul nécessaire. Dans notre cas, c’est cette <strong>de</strong>rnière<br />

contrainte qui était la plus limitante. La démarche a donc été la suivante :<br />

utiliser <strong>au</strong> mieux les informations acquises dans les chapitres précé<strong>de</strong>nts <strong>pour</strong><br />

rendre la validation <strong>de</strong>s hyper-paramètres possible. Le point <strong>de</strong> départ sera donc


CHAPITRE 6. VALIDATION DU MODÈLE 56<br />

ce qui <strong>au</strong>rait dû être fait si les données étaient bien moins nombreuses. Cette<br />

structure est décrite à la Figure 6.1. Des modifications seront ensuite apportées<br />

<strong>pour</strong> pouvoir se permettre d’employer toutes les données à disposition.<br />

Figure 6.1 – Structure <strong>pour</strong> une validation complète (point <strong>de</strong> départ), les<br />

étapes <strong>de</strong> validation étant indiquées en bleu : le nombre <strong>de</strong> battements norm<strong>au</strong>x<br />

(classe N) est ré<strong>du</strong>it par une technique <strong>de</strong> sous-échantillonnage, puis les<br />

battements restants sont ajoutés <strong>au</strong>x battements anorm<strong>au</strong>x (<strong>de</strong> classe S, V, F)<br />

et forment l’ensemble d’apprentissage. Le premier paramètre à vali<strong>de</strong>r est donc<br />

K, le nombre <strong>de</strong> battements gardés. Cet ensemble <strong>de</strong> battements est transformé/exprimé<br />

sous forme <strong>de</strong> caractéristiques et une métho<strong>de</strong> forward ne gar<strong>de</strong><br />

que celles qui mènent à <strong>de</strong> bonnes performances. C’est la secon<strong>de</strong> validation :<br />

les caractéristiques gardées. Une fois celles-ci déterminées, un modèle <strong>de</strong> classification<br />

LDA est bâti et est évalué grâce à l’ensemble <strong>de</strong> test. Ce <strong>de</strong>rnier n’a pas<br />

sa classe N ré<strong>du</strong>ite mais ce sont bien les caractéristiques choisies pas la métho<strong>de</strong><br />

forward qui servent à évaluer les performances. On observe que <strong>pour</strong> vali<strong>de</strong>r K,<br />

il f<strong>au</strong>t faire une validation <strong>de</strong>s caractéristiques gardées à chaque itération <strong>de</strong> la<br />

validation <strong>de</strong> K.<br />

Le grand problème est <strong>de</strong> vali<strong>de</strong>r K. en effet le clustering est une métho<strong>de</strong><br />

non-supervisée, il nous f<strong>au</strong>t donc un moyen d’attribuer un score à chaque candidat<br />

à la validation. Pour ce mémoire, c’est le score <strong>de</strong> la classification suivant<br />

un clustering considéré qui est utilisée <strong>pour</strong> déterminer si ce <strong>de</strong>rnier est meilleur<br />

qu’un <strong>au</strong>tre. Pour savoir si K est un bon nombre <strong>de</strong> battements à gar<strong>de</strong>r, il<br />

f<strong>au</strong>t donc effectuer un clustering sur les battements N, ajouter les battements S,<br />

V et F, sélectionner <strong>de</strong> bonnes caractéristiques <strong>au</strong> sens d’une métho<strong>de</strong> forward<br />

<strong>pour</strong> les battements restants et entrainer un modèle LDA avec ces battements.<br />

Cela permet d’utiliser la matrice <strong>de</strong> confusion et le BCR <strong>pour</strong> avoir le score.


CHAPITRE 6. VALIDATION DU MODÈLE 57<br />

Sélectionner les caractéristiques signifie <strong>au</strong>ssi faire une validation, on se retrouve<br />

donc <strong>de</strong>vant <strong>de</strong>ux validations imbriquées, ce qui est possible <strong>du</strong> point <strong>de</strong> vue<br />

conceptuel, mais trop long <strong>du</strong> point <strong>de</strong> vue calculatoire.<br />

La modification suivante a été apportée <strong>pour</strong> rendre la manœuvre possible : la<br />

validation <strong>de</strong>s caractéristiques gardées va être court-circuitée quand elle est imbriquée<br />

avec la validation <strong>de</strong> K. Cela signifie qu’elle ne le sera pas lorsque Kvalidé<br />

<strong>au</strong>ra été choisi comme étant le candidat à la validation ayant obtenu le meilleur<br />

score. Les particularités <strong>du</strong> plate<strong>au</strong> à <strong>de</strong>ux caractéristiques seront utilisées (voir<br />

Section 4.3). Deux ensembles <strong>de</strong> caractéristiques étaient systématiquement choisis<br />

par la métho<strong>de</strong> forward : Caract1 = {191, 2} ou Caract2 = {191, 10},<br />

Caract1 étant plus représenté (voir la Section 3.1.1 <strong>pour</strong> la signification <strong>de</strong> ces<br />

caractéristiques). Le nombre restreint <strong>de</strong> caractéristiques permet une représentation<br />

en 2D, qui est visible à la Figure 6.2 et 6.3 <strong>pour</strong> Caract1 et Caract2<br />

respectivement. On observe que l’hypothèse <strong>de</strong> g<strong>au</strong>ssianité <strong>de</strong>s classes est bien<br />

respectée dans les <strong>de</strong>ux cas, mais que le résultat ne <strong>pour</strong>ra pas être parfait. L’ensemble<br />

Caract1 étant plus représenté à la Table 4.2, celui-ci sera utilisé.<br />

Figure 6.2 – Représentation <strong>du</strong> problème <strong>de</strong> classification dans le repère <strong>de</strong>s<br />

caractéristiques 191 et 2. Les battements N sont en bleu, les S en rouge, les V<br />

en vert et les F en noir.


CHAPITRE 6. VALIDATION DU MODÈLE 58<br />

Figure 6.3 – Représentation <strong>du</strong> problème <strong>de</strong> classification dans le repère <strong>de</strong>s<br />

caractéristiques 191 et 10. Les battements N sont en bleu, les S en rouge, les V<br />

en vert et les F en noir.<br />

Une fois Kvalidé fixé, on revient à la structure <strong>de</strong> base représentée à la Figure<br />

3.3 avec le nombre <strong>de</strong> battements <strong>de</strong> classe N gardés égal à Kvalidé mais <strong>au</strong>ssi<br />

<strong>pour</strong> les <strong>au</strong>tres candidats à la validation. On <strong>pour</strong>ra ainsi vérifier si la validation<br />

prédit bien le meilleur K.<br />

Les candidats à la validation on été choisis comme suit : le minimum <strong>du</strong> nombre<br />

<strong>de</strong> battements compris dans les classes S, V et N étant 413 et le maximum<br />

3784. Ceux-ci ont d’abord été arrondis à leur centaine la plus proche vers le<br />

centre <strong>de</strong> l’intervalle : 500 et 3700 sont obtenus. Ensuite, cinq valeurs également<br />

distantes, <strong>pour</strong> avoir les cinq candidats à la validation : Kcandidats =<br />

{500, 1300, 2100, 2900, 3700}. A noter que la validation est sensiblement plus<br />

rapi<strong>de</strong> <strong>pour</strong> les petites valeurs <strong>de</strong> Kcandidats.<br />

6.2 Résultats<br />

La Figure 6.4 rapporte les scores obtenus <strong>pour</strong> chaque candidat à la validation<br />

en bleu. On observe que c’est Kvalidé = 2900 qui obtient les meilleures<br />

performances.


CHAPITRE 6. VALIDATION DU MODÈLE 59<br />

La structure décrite à la Figure 3.3 est ensuite utilisée avec comme nombre<br />

<strong>de</strong> battements <strong>de</strong> type N à gar<strong>de</strong>r Kvalidé et les <strong>au</strong>tres candidats à la validation<br />

(soit K = {500, 1300, 2100, 2900, 3700}). Le sous-échantillonnage est <strong>de</strong> type<br />

Clustering k-means avec un recentrage à la fin (norme d’ordre 2) et le classifieur<br />

est le LDA pondéré (le cas 4). On obtient les performances en vert à la Figure<br />

6.4. La Table 6.1 reprend le détail <strong>de</strong> ces performances. Chaque précision <strong>de</strong><br />

classe est toujours comprise entre 50 et 97.5%. On peut diviser les observations<br />

en <strong>de</strong>ux groupes : K1 = {1300, 2100, 3700} et K2 = {500, 2900}. Le groupe K1<br />

possè<strong>de</strong> grosso modo <strong>de</strong>s précisions <strong>de</strong> prN = 75%, prS = 97%, prV = 67% et<br />

prF = 90% <strong>pour</strong> les classes N, S, V et F respectivement. Celles-ci tournent plutôt<br />

<strong>au</strong>tour <strong>de</strong> prN = 82%, prS = 55%, prV = 78% et prF = 83% <strong>pour</strong> le groupe K2.<br />

On peut exprimer l’hypothèse que ces <strong>de</strong>ux groupes résultent <strong>de</strong> <strong>de</strong>ux minima<br />

loc<strong>au</strong>x <strong>du</strong> clustering. On observe que les BCR (quelle que soit sa définition)<br />

sont plus faibles <strong>pour</strong> le groupe K2 à c<strong>au</strong>se <strong>de</strong> la classe S. Cela confirme que le<br />

problème <strong>de</strong> convergence <strong>du</strong> clustering est un élément important.<br />

K= 500 1300 2100 2900 3700<br />

prN 83.60 73.36 76.19 81.80 75.14<br />

prS 59.59 97.22 96.08 50.60 97.00<br />

prV 76.23 66.73 68.93 79.56 67.38<br />

prF 85.05 90.21 90.46 79.64 90.46<br />

BRC 76.12 81.88 82.92 72.90 82.50<br />

BRC 75.39 80.95 82.20 71.56 81.64<br />

Table 6.1 – Précisions <strong>pour</strong> chaque valeur <strong>de</strong> K et <strong>pour</strong> chacune <strong>de</strong>s quatre<br />

classes. La métho<strong>de</strong> utilisée correspond <strong>au</strong> cas 4 (ou 40). La validation-croisée<br />

prévoyait <strong>de</strong>s performances maximales en K = 2900, mais on observe que ce n’est<br />

pas le cas. BRC signifie BCR avec la définition en moyenne arithmétique et<br />

BRC signifie BCR avec la définition en moyenne géométrique.<br />

6.3 Discussion<br />

Malheureusement, la validation proposée dans cette partie ne permet pas <strong>de</strong><br />

prédire correctement le meilleur K, elle a même tendance à prédire le contraire.<br />

Cette incapacité peut venir <strong>de</strong> l’hypothèse formulée <strong>pour</strong> gagner <strong>du</strong> temps (n’utiliser<br />

que <strong>de</strong>ux caractéristiques lors <strong>de</strong> la validation). Cette hypothèse était tout<br />

<strong>de</strong> même nécessaire car elle a permis cette validation en <strong>de</strong>ux semaines (sur PC<br />

récent), <strong>au</strong>tant dire que cela n’<strong>au</strong>rait pas été possible sans ce raccourci. Plus<br />

fondamentalement, le problème vient <strong>du</strong> fait <strong>de</strong> la variablilité <strong>de</strong>s résultats <strong>du</strong>e<br />

<strong>au</strong> clustering lui-même. En effet, le bénéfice tiré lors <strong>de</strong> la validation est <strong>de</strong> loin<br />

inférieur à la perte <strong>de</strong> performance <strong>du</strong>e à la variabilité <strong>du</strong> clustering lui-même.<br />

Cette variablilité est liée <strong>au</strong> risque <strong>de</strong> tomber dans un minimum local. Il se-


CHAPITRE 6. VALIDATION DU MODÈLE 60<br />

Figure 6.4 – Validation <strong>du</strong> nombre K en bleu et performances obtenues en<br />

réutilisant la structure décrite à la Figure 3.3 avec ces mêmes K en vert. On<br />

observe que ce n’est pas le meilleur score <strong>de</strong> validation qui mène <strong>au</strong>x meilleures<br />

performances.<br />

rait donc plus intéressant d’ajouter une étape visant à prévenir d’une m<strong>au</strong>vaise<br />

convergence lors d’un clustering. Cette opportunité avait déjà été énoncée <strong>au</strong><br />

Chapitre 3 : on y présentait <strong>au</strong> moins <strong>de</strong>ux manières <strong>de</strong> faire. Le désavantage<br />

est que cela rallonge encore le temps d’un calcul déjà bien long.


CHAPITRE 7. CONCLUSIONS 61<br />

Chapitre 7<br />

Conclusions<br />

7.1 Résumé<br />

La classification <strong>de</strong>s battements cardiaques est un problème crucial <strong>pour</strong><br />

certaines applications cliniques impliquant un suivi <strong>de</strong> long-terme <strong>de</strong> la fonction<br />

cardiaque. Celle-ci sert d’ai<strong>de</strong> <strong>au</strong> <strong>diagnostic</strong> mais ne remplace pas un avis<br />

médical : le cardiologue gagne toutefois be<strong>au</strong>coup <strong>de</strong> temps car il ne doit pas<br />

considérer tous les battements mais seulement ceux qui ont été annotés comme<br />

anorm<strong>au</strong>x par l’algorithme. Cette classification peut se faire en intra-patient ou<br />

en inter-patient. C’est cette <strong>de</strong>rnière, plus difficile mais <strong>au</strong>ssi plus pertinente, qui<br />

a été investiguée. En se basant sur les directives <strong>de</strong> l’AAMI, et en considérant<br />

que le problème <strong>de</strong> déséquilibre <strong>de</strong>s classes pouvait être réglé grâce à un souséchantillonnage<br />

<strong>de</strong> la classe sur-représentée, plusieurs modèles ont été proposés<br />

<strong>pour</strong> répondre à ce problème <strong>de</strong> classification. Pour ce faire, une métrique appelée<br />

BCR, avec une définition en moyenne géométrique a été utilisée, ainsi qu’un<br />

paradigme <strong>de</strong> validation inter-patient. En particulier, un modèle composé d’une<br />

étape <strong>de</strong> clustering <strong>pour</strong> le sous-échantillonnage et d’un LDA pondéré comme<br />

classifieur a obtenu les meilleurs résutlats. Ce modèle a prouvé sa résistance <strong>au</strong><br />

sur-apprentissage et <strong>au</strong>x outliers dans les Chapitres 4 et 5 respectivement. Pour<br />

ce qui est <strong>de</strong> la validation, celle-ci est non seulement très longue mais <strong>au</strong>ssi peu<br />

fiable. Le problème viendrait d’une variabilité dans la convergence. Pour lutter<br />

contre celle-ci, il serait bon <strong>de</strong> considérer une étape supplémentaire <strong>de</strong> contrôle.<br />

7.2 Discussion<br />

Le modèle retenu par ce mémoire utilise le clustering <strong>pour</strong> sous-échantillonner<br />

la classe N <strong>pour</strong> rééquilibrer les classes, et un classifieur LDA pondéré présenté<br />

à l’origine dans [17]. Ce modèle obtient un BCR moyen <strong>de</strong> 77,43% (définition en<br />

moyenne géométrique).<br />

Le sous-échantillonnage effectué doit l’être avec be<strong>au</strong>coup d’attention car il correspond<br />

à une perte d’information importante. En effet, le nombre <strong>de</strong> battements


CHAPITRE 7. CONCLUSIONS 62<br />

peut être ré<strong>du</strong>it jusqu’à un facteur 100. Il est quelque part logique que se soit<br />

l’approche clustering, qui utilise toute l’information et est non restreinte par<br />

l’ordre d’aquisition, qui ait mené <strong>au</strong>x meilleures performances.<br />

Le gros problème <strong>de</strong> notre métho<strong>de</strong> reste le choix <strong>de</strong> K. En effet, les <strong>de</strong>ux validations<br />

imbriquées ren<strong>de</strong>nt ce choix déjà difficile, mais la variabilité <strong>de</strong>s performances<br />

<strong>du</strong>e à la convergence <strong>du</strong> clustering est plus gran<strong>de</strong> encore que le bénéfice<br />

d’un K bien choisi. Il f<strong>au</strong>drait donc idéalement régler ce problème <strong>de</strong> variabilité<br />

par l’une <strong>de</strong>s métho<strong>de</strong>s proposées <strong>au</strong> Chapitre 3 et utiliser une métho<strong>de</strong> forward<br />

avec toutes les caractéristiques lors <strong>de</strong> la validation. Ce n’était bien sûr pas réalisable<br />

dans le cadre <strong>de</strong> ce mémoire.<br />

Une <strong>au</strong>tre difficulté est l’extraction <strong>de</strong> caractéristiques. La métho<strong>de</strong> proposée<br />

a prouvé qu’elle évitait le sur-apprentissage mais on a pu <strong>au</strong>ssi constater que<br />

l’arrêt <strong>de</strong> la procé<strong>du</strong>re forward à la secon<strong>de</strong> caractéristique donnait <strong>de</strong> bonnes<br />

performances mais surtout possédait une variance très faible vis-à-vis <strong>de</strong> la valeur<br />

<strong>de</strong> K (le nombre <strong>de</strong> battements gardés après sous-échantillonnage). Ce qui<br />

peut représenter une propriété intéressante.<br />

Pour améliorer encore plus les performances, ou <strong>pour</strong> partir d’une <strong>au</strong>tre approche,<br />

les combinaisons <strong>de</strong> classifieurs sont souvent utilisées dans le domaine<br />

<strong>de</strong> la classification d’<strong>ECG</strong>. Ces combinaisons <strong>de</strong> classifieurs sont appellées systèmes<br />

hybri<strong>de</strong>s [12]. Cette approche plus efficace est basée sur la combinaison<br />

<strong>de</strong> plusieurs classifieurs et différents types <strong>de</strong> pré-traitements <strong>de</strong>s données (voir<br />

par exemple [31], [32], [33]). Le modèle présenté dans ce mémoire ne perd pas <strong>de</strong><br />

son intérêt, car celui-ci <strong>pour</strong>rait très bien être l’un <strong>de</strong>s classifieurs d’un système<br />

hybri<strong>de</strong>.<br />

Une critique que l’on peut adresser à la démarche utilisée est le manque<br />

<strong>de</strong> dialogue entre les mé<strong>de</strong>cins cardiologues et les ingénieurs qui développent les<br />

outils <strong>de</strong> la mé<strong>de</strong>cine <strong>de</strong> <strong>de</strong>main. L’utilisation <strong>de</strong>s standards AAMI vient quelque<br />

peu contrer cet argument. Une <strong>au</strong>tre critique est le fait que l’on n’ait pas essayé<br />

d’inverser l’ensemble d’apprentissage et <strong>de</strong> test ou d’avoir recourt à une <strong>au</strong>tre<br />

base <strong>de</strong> données.<br />

7.3 Problèmes rencontrés<br />

Un seul gros problème a été rencontré mais il était <strong>de</strong> taille : le temps <strong>de</strong><br />

calcul. Traiter <strong>au</strong>tant <strong>de</strong> données a contraint à utiliser <strong>de</strong>s techniques simples et<br />

à faire <strong>de</strong>s sacrifices. Be<strong>au</strong>coup <strong>de</strong> temps a été passé à évaluer combien <strong>de</strong> temps<br />

une métho<strong>de</strong> prendrait dans tel cas et les différentes complexités, mais cela n’est<br />

pas reporté <strong>de</strong> manière exh<strong>au</strong>stive dans ce mémoire.


CHAPITRE 7. CONCLUSIONS 63<br />

7.4 Trav<strong>au</strong>x futurs<br />

Les points princip<strong>au</strong>x en suspens restent la validation <strong>de</strong> K et la variablité<br />

<strong>de</strong>s performances <strong>du</strong>e à la convergence <strong>du</strong> clustering. Des pistes ont été avancées<br />

<strong>pour</strong> ces <strong>de</strong>ux problèmes mais elles nécessitent <strong>de</strong> passer sur <strong>de</strong>s machines encore<br />

plus puissantes vu leur temps <strong>de</strong> mise en oeuvre. Dans le cas <strong>de</strong> la validation,<br />

passer d’une approche Wrapper à une approche Filter permetterait sans doute<br />

<strong>de</strong> gagner <strong>du</strong> temps <strong>pour</strong> les étapes <strong>de</strong> sélection <strong>de</strong>s variables.<br />

L’utilisation <strong>du</strong> classifieur LDA a permis un gain <strong>de</strong> temps important qui a<br />

ren<strong>du</strong> possible l’écriture <strong>de</strong> ce mémoire. Un <strong>de</strong>s désavantages <strong>de</strong> ce classifieur est<br />

qu’il est linéaire. L’utilisation <strong>de</strong> techniques plus avancées comme les Machines<br />

à Vecteur <strong>de</strong> Support <strong>au</strong>rait sans doute permis d’<strong>au</strong>gmenter les performances.<br />

De plus, une version pondérée <strong>du</strong> SVM <strong>pour</strong> l’apprentissage avec <strong>de</strong>s classes<br />

déséquilibrées est disponible dans [1].<br />

Dans ce mémoire, le rééquilibrage <strong>de</strong>s classes se fait en sous-échantillonnant<br />

uniquement la classe N, ce qui donne sûrement son utilité <strong>au</strong> LDA pondéré qui<br />

« achève le travail ». Une <strong>au</strong>tre approche <strong>au</strong>rait pu être <strong>de</strong> sous échantillonner<br />

toutes les classes vers un nombre égal <strong>de</strong> battements, rendant le LDA pondéré<br />

inutile car égal <strong>au</strong> LDA non-pondéré. Les premières investigations en ce sens ne<br />

semblent cependant pas montrer d’<strong>au</strong>gmentation <strong>de</strong>s performances.


Bibliographie<br />

[1] G. <strong>de</strong> Lannoy. Automated mo<strong>de</strong>ling and processing of long-term electrocardiogram<br />

<strong>signal</strong>s. PhD thesis, Universite Catholique <strong>de</strong> Louvain, 2011.<br />

[2] S. Osowski, L. Tran Hoai, and T. Markiewics. Support vector machinebased<br />

expert system for reliable heartbeat recognition. IEEE transactions<br />

on biomebical engineering, vol. 51, no. 4, 582-589, 2004.<br />

[3] D. Cuesta-Fr<strong>au</strong>, J. C. Perez-Cortes, and G. Andreu-Garcia. Clustering<br />

of electrocardiograph <strong>signal</strong>s in computer-ai<strong>de</strong>d holter analysis. Computer<br />

Methods and Programs in Biomedicine 72, 179-196, 2003.<br />

[4] Y. H. Hu, W. tompkins, J. L. Urrusti, and V. X. Alfonson. Application of<br />

artificial neural networks for ecg <strong>signal</strong> <strong>de</strong>tection and classification. Electrocardiology,<br />

vol. 24, 123-129, 1994.<br />

[5] K. Minammi, H. Nakajima, and T. Yoyoshima. Real time discrimination<br />

of the ventricular tachyarrhythmia with fourier-transform neural network.<br />

IEEE transactions on biomebical engineering, vol. 46, 179-185, 1999.<br />

[6] G. E. Oien, N. A. Bertelsen, T. Eftestol, and J. H. Husoy. Ecg rythm<br />

classification using artificial neural networks. IEEE digital <strong>signal</strong> processing<br />

workshop, vol. 44, 514-517, 1996.<br />

[7] M. Lagerholm, C. Peterson, G. Braccini, L. E<strong>de</strong>nbrandt, and L. Sornmo.<br />

Clustering ecg complexe using hermite functions and self-organizing maps.<br />

IEEE transactions on biomebical engineering, vol. 47, 838-847, 2000.<br />

[8] S. Osowski and L. T. Hoai. Ecg beat recognition using fuzzy hybrid neural<br />

network. IEEE transactions on biomebical engineering, vol. 48, 1265-1271,<br />

2001.<br />

[9] Y. H. Hu, S.Palreddy, and W. tompkins. A patient adaptable ecg beat classifier<br />

using a mixture of experts approach. IEEE transactions on biomebical<br />

engineering, vol. 44, 891-900, 1997.<br />

[10] Van<strong>de</strong>r, Sherman, and Luciano. Physiologie humaine, 4e edition. Maloine,<br />

2007.<br />

[11] R. Mark and G. Moody. Mit-bih arrythmia database directory. Cambridge,<br />

MA : MIT, 1988.<br />

[12] Clifford, Azuaje, and McSharry. Advanced Methods and Tools for <strong>ECG</strong> Data<br />

Analysis. Artech House, 2006.<br />

64


BIBLIOGRAPHIE 65<br />

[13] R. Jafari, H. Noshadi, S. Ghiasi, and M. Sarrafza<strong>de</strong>h. Adaptative electrocardiagram<br />

feature extraction on distributed embed<strong>de</strong>d systems. IEEE<br />

transaction on parallel and distributed systems, 17 :1-11, 2006.<br />

[14] M. Paoletti and C. Marchesi. Discovering dangerous patterns in long-term<br />

ambulatory ecg recording using a fast qrs <strong>de</strong>tection algorithm and explorative<br />

analysis. Computer Methods and programs in biomedicine, 82 :20-30,<br />

2006.<br />

[15] N. J. Holter. New methods for heart studies. Science 134, 1214, 1961.<br />

[16] E. Jovanov and al. Real time holter monitoring of biomedical <strong>signal</strong>s. DSP<br />

technology and e<strong>du</strong>cation conference (DSPS-99), 1999.<br />

[17] I. Guyon and A. Elisseeff. An intro<strong>du</strong>ction to variable and feature selection.<br />

Journal of Machine Learning Research 3, 1157-1182, 2003.<br />

[18] A. Liu, J.Ghosh, and C. Martin. Generative oversampling for mining imbalanced<br />

datasets. DMIN 2007 : Proceedings of the 2007 international conference<br />

on data mining, 66-72, Las Vegas, Nevada, USA, 2007.<br />

[19] A. L. Goldberger, L. A. N. Amaral, L. Glass, J. M. H<strong>au</strong>sdorff, P. Ch.<br />

Ivanov, R. G. Mark, J. E. Mietus, G. B. Moody, C.-K. Peng, and<br />

H. E. Stanley. PhysioBank, PhysioToolkit, and PhysioNet : Components<br />

of a new research resource for complex physiologic <strong>signal</strong>s. Circulation,<br />

101(23) :e215–e220, 2000 (June 13). Circulation Electronic Pages :<br />

http ://circ.ahajournals.org/cgi/content/full/101/23/e215.<br />

[20] J. P. Martinez, R. Almeida, S. Olmos, A. P. Rocha, and P.Laguna. A<br />

wavelet-based ecg <strong>de</strong>lineator : evaluation on standard databases. IEEE<br />

Transactions on Biomedical Engineering, 51 :570-81, 2004.<br />

[21] K. S. Park, B. H. Cho, D. H. Lee, S. H. Song, J. S. Lee, Y. J. Chee, and<br />

I. Y. Kim. Hierarchical support vector machine based heartbeat classification<br />

using higher or<strong>de</strong>r statistics and hermite basis function. Computer in<br />

Cardiology, 229-232, 2008.<br />

[22] R. Pieraccini. Pattern compression in isolated word recognition. Sign. Proc.<br />

7, 1-15, 1984.<br />

[23] C. M. Bishop. Pattern recognition and machine learning. Springer, 2006.<br />

[24] P. Hansen and N. Mla<strong>de</strong>novic. J-means : A new local search heurisic for<br />

minimum sum-of-square clustering. Pattern Recognition 34, 405-413, 2001.<br />

[25] J. L. Rodriguez-Sotelo, D. Cuesta-Fr<strong>au</strong>, and G. Castellanos-Dominguez.<br />

An improved method for unsupervised analysis of ecg beats based on wt<br />

features and j-means clustering. ISSN 0276-6574 Computers in Cardiology<br />

2007, 34 :581-584, 2007.<br />

[26] P. <strong>de</strong> Chazak, M. O’Dwyer, and R. B. Reilly. Automatic classification of<br />

heartbeats using ecg morphology and heartbeat interval features. IEEE<br />

transactions on biomebical engineering, vol. 51, no. 7, 1196-2006, 2004.


BIBLIOGRAPHIE 66<br />

[27] Hastie, Tibshirani, and Friedman. The Elements of Statistical Learning, 2e<br />

edition. Springer, 2009.<br />

[28] B. D. Ripley. Pattern recognition and neural networks. Cambridge,<br />

U.K. :Cambridge Univ. Press, 1996.<br />

[29] I. Guyon, S. Gunn, M. Nikravesh, and L. A. Za<strong>de</strong>h. Feature extraction :<br />

Foundations and applications (studies in fuzziness and soft computing).<br />

Springer-Verlag New York, Inc., Sec<strong>au</strong>sus, NJ, USA, 2006.<br />

[30] G. H. Nguyen, A. Bouzerdoum, and S. l. Phung. Learning pattern classification<br />

tasks with imbalanced data sets. volume Pattern Recognition.<br />

INTECH, 2009.<br />

[31] S. Osowski and L. T. Hoai. Ecg beat recognition using fuzzy hybrid neural<br />

network. New York : Wiley, 1992.<br />

[32] S. Hashem. Optimal linear combinations of neural networks. Neural Networks,<br />

vol. 10, 599-614, 1997.<br />

[33] L. Xu, A. Krzyzak, and C. Y. Suen. Methods of combining multiple classifiers<br />

and their applications to handwriting recognition. IEEE transactions<br />

on systems, man and cybernetics, vol. 22, 418-434, 1992.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!