Traitement automatique du signal ECG pour l'aide au diagnostic de ...

Université catholique de Louvain 

Ecole polytechnique de Louvain 

Traitement automatique du signal ECG 

pour l’aide au diagnostic 

de pathologies cardiaques. 

Promoteur : Michel Verleysen Réalisé par : Bertrand Lebichot 

Lecteurs : Gaël de Lannoy 

Gauthier Doquire 

Travail de fin d’étude présenté en vue de l’obtention 

du diplôme d’Ingénieur Civil Biomédical. 

Louvain-la-Neuve 

Année académique 2010–2011

Table des matières 

1 Avant-propos 4 

1.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.2 Glossaire des termes anglophones . . . . . . . . . . . . . . . . . . 5 

1.3 Remerciements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2 Introduction 6 

2.1 Anatomie du cœur . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

2.2 Electrocardiogramme . . . . . . . . . . . . . . . . . . . . . . . . . 7 

2.3 Instrumentation : le Holter . . . . . . . . . . . . . . . . . . . . . 8 

2.4 Bruit et variabilité du signal . . . . . . . . . . . . . . . . . . . . . 9 

2.5 Standards AAMI . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.6 Etat actuel et objectifs . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.6.1 Modification d’algorithmes existants pour tenir compte du 

déséquilibre . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.6.2 Sur-échantillonnage pour tenir compte du déséquilibre . . 13 

2.6.3 Sous-échantillonnage pour tenir compte du déséquilibre . 13 

2.7 Plan du mémoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

3 Effet du sous-échantillonnage 15 

3.1 Méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

3.1.1 Acquisition et prétraitement . . . . . . . . . . . . . . . . . 15 

3.1.2 Mesures de dissimilarité . . . . . . . . . . . . . . . . . . . 18 

3.1.3 Sous-échantillonnage . . . . . . . . . . . . . . . . . . . . . 20 

3.1.4 Sélection de caractéristiques . . . . . . . . . . . . . . . . . 25 

3.1.5 Classification supervisée . . . . . . . . . . . . . . . . . . . 26 

3.1.6 Evaluation des performances . . . . . . . . . . . . . . . . 29 

3.2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

3.2.1 Sous-échantillonnage et sélection de caractéristiques . . . 31 

3.2.2 Classifieurs . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

3.2.3 Matrice de confusion et BCR . . . . . . . . . . . . . . . . 33 

3.2.4 Structure de base . . . . . . . . . . . . . . . . . . . . . . . 33 

3.2.5 Description des expériences . . . . . . . . . . . . . . . . . 33 

3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

2

TABLE DES MATIÈRES 3 

3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

4 Effet de la sélection de caractéristiques 37 


4.2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

4.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

5 Effet des outliers 43 


5.1.1 Elimination d’outliers de la base de données (type 1) . . . 43 

5.1.2 Elimination d’outliers après un clustering (type 2) . . . . 43 

5.2 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

5.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

5.3.1 Elimination des outliers de la base de données (type 1) . . 45 

5.3.2 Elimination des outliers après un clustering (type 2) . . . 45 

5.3.3 Sous-échantillonnage simple et élimination des outliers . . 46 

5.3.4 Sous-échantillonnage de type Clustering et élimination des 

outliers (type 1) . . . . . . . . . . . . . . . . . . . . . . . 46 


outliers (type 2) . . . . . . . . . . . . . . . . . . . . . . . 46 

5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

6 Validation du modèle 55 

6.1 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

6.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

6.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 

7 Conclusions 61 

7.1 Résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

7.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

7.3 Problèmes rencontrés . . . . . . . . . . . . . . . . . . . . . . . . . 62 

7.4 Travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

CHAPITRE 1. AVANT-PROPOS 4 

Chapitre 1 

Avant-propos 

1.1 Notation 

Dans ce mémoire, un effort a été consenti pour que les notations utilisées 

soient les plus cohérentes possible. En voici la liste : 

c : Une des classes utilisées pour la classification 

C : Nombre total de classes (C = 4 dans ce mémoire) 

d : Une mesure de dissimilarité 

fc(x) : Probabilité conditionnelle de la classe c 

G : Matrice de programmation dynamique 

h : Nombre d’échantillons désirés pour la trace 

J : Mesure de distorsion (k-means) 

K : Nombre total de centroïdes, aussi égal au nombre de 

battements N après rééchantillonnage 

Ltrace : Longueur d’une segmentation trace 

M : Nombre total de battements de départ 

Nc : Nombre de battements dans la classe c 

prc : Précision pour une classe c d’une matrice de confusion 

prtot : Précision totale d’une matrice de confusion 

P : Ensemble des battements de départ pour le rééchantillonnage 

P r(H = c|X = x) : Probabilité à postériori d’appartenance à la classe c 

connaissant x 

Q : Centroïdes après contrainte j ou recentrage 

R : Ensemble des centroïdes pour le rééchantillonnage 

se : Sensibilité d’une matrice de confusion 

sp : Spécificité d’une matrice de confusion 

S : Seuil de la technique « On The Fly » 

t : Coût d’une transition (DTW) 

T : Coût total des transitions (DTW)

CHAPITRE 1. AVANT-PROPOS 5 

unk : Booléen d’affectation (k-means) 

V : Vraisemblance 

x : Un battement x = [x0, ..., xX−1] 

X : Longueur d’un battement x 

y : Un autre battement y = [y0, ..., yY −1] 

Y : Longueur d’un battement y 

δ : Augmentation de performance minimale pour continuer 

la sélection de caractéristiques (voir Chapitre 4) 

∆j : Dérivée partielle cumulée 

∆ : Valeur finale de la dérivée partielle cumulée 

µd : Moyenne des mesures de dissimilarité 

σd : Ecart-type des mesures de dissimilarité 

Σ : Matrice de covariance 

1.2 Glossaire des termes anglophones 

Boxplot : Graphe représentant des données. Il y est indiqué la médiane 

(centre du rectangle), les 25 e et le 75 e percentile (respectivement 

le bas et le haut du rectangle), la données la plus petite 

et la plus grande (respectivement le trait en bas et en haut) 

et éventuellement les outliers qui sont représentés par des +. 

Cluster : Sous-échantillon ou sous-groupe de données homogènes possédant 

des propriétés similaires, ce qui correspond souvent à 

des critères de proximité. 

Clustering : Méthode permettant d’obtenir des clusters à partir de données. 

Filter : Approche pour la sélection de caractéristiques : utilisation 

d’un critère indépendant du modèle prédictif. 

LDA : Ou Analyse Discriminante Linéaire, technique de classification 

qui fait l’hypothèse de normalité sur les classes. 

Forward : Méthode de la sélection de caractéristiques. C’est la méthode 

Filter la plus classique. 

Outliers : Données hors-normes ou extrêmes. 

Wrapper : Approche pour la sélection de caractéristiques : utilisation des 

méthodes comme d’une boite noire pour donner un score à un 

sous-ensemble de variable. 

1.3 Remerciements 

Je tiens à remercier le professeur Michel Verleysen, le promoteur de ce mémoire, 

ainsi que Gaël de Lannoy pour leur aide précieuse. Je remercie également 

tous les membres de mon entourage qui m’ont aidé à relire et finaliser ce rapport.

CHAPITRE 2. INTRODUCTION 6 

Chapitre 2 

Introduction 

La technologie utilisée en milieu clinique devenant de plus en plus complexe, 

les médecins se retrouvent devant toujours plus de données générées par différentes 

modalités [1]. Ces données peuvent être très intéressantes pour diverses 

tâches comme les interfaces homme-machine, le suivi des fonctions physiologiques 

et le diagnostic de certaines maladies [2]. En particulier, il peut s’agir de 

signaux physiologiques comme l’enregistrement de l’activité électrique du muscle 

cardiaque ou électrocardiogramme (ECG). Ceux-ci sont parfois acquis durant de 

très longues périodes (jusqu’à plusieurs jours [1]) et sont de nos jours interprétés 

visuellement par des experts. Dans le cas de l’électrocardiogramme, ce sont plus 

de 100 000 battements par jour qui doivent être analysés. Cette tâche peut être 

très longue et donc très coûteuse, notamment dans le diagnostic de nombreuses 

maladies cardiaques et dans les essais cliniques [3]. 

Dans le présent mémoire, des méthodes simples de « Machine Learning » vont 

être appliquées pour le traitement du signal ECG. Ces méthodes sont souvent 

à cheval entre mathématiques, statistiques et programmation. Elles permettent 

de reconnaitre des schémas complexes à partir de données expérimentales. La 

première étape est de bâtir un modèle sur des données connues pour plus tard 

pouvoir généraliser à d’autres données. De nombreuses solutions utilisant les 

réseaux de neurones artificiels ont été proposées dans la littérature. Les plus 

utilisées étant les réseaux de neurones multicouches [4], [5], [6], les cartes autoorganisatrices 

de Kohonen [7], les systèmes flous [8] et diverses combinaisons 

de ces dernières [9]. La suite de cette introduction commencera par rappeler 

l’anatomie du cœur. Elle décrira l’électrocardiogramme, le Holter et leurs diverses 

sources de bruit. Ensuite viendra la description des standards utilisés, 

puis l’identification du problème et les objectifs de ce mémoire. Finalement, le 

plan de ce dernier clôturera ce chapitre.


2.1 Anatomie du cœur 

Le cœur est un organe très étudié et déjà bien connu. Celui-ci se situe dans 

le thorax. Les parois du cœur sont principalement composées de cellules musculaires 

constituant le myocarde. Ces parois forment plusieurs cavités tapissées de 

cellules endothéliales ou endothélium. Chez l’homme, ces cavités sont au nombre 

de quatre [10]. 

- L’oreillette droite reçoit le sang de la totalité de l’organisme (excepté celui 

venant des poumons) et déverse celui-ci dans le ventricule droit. 

- Le ventricule droit expulse le sang vers les poumons où les sous-unités de 

l’hémoglobine sont chargées en oxygène. 

- L’oreillette gauche récupère le sang qui revient des poumons. 

- Le ventricule gauche expulse le sang dans le corps entier. 

Entre l’oreillette et le ventricule, de chaque côté du cœur, se trouvent des valves 

qui laissent circuler le sang de l’oreillette vers le ventricule mais l’empêche de refouler. 

L’action des valves est un phénomène passif. Le but de cet agencement du 

cœur est de produire une contraction cardiaque coordonnée qui pourra faire circuler 

le sang dans le système vasculaire. Une petite partie des cellules cardiaques 

n’intervient pas dans la contraction mais porte des structures spécifiques qui sont 

essentielles à l’excitation cardiaque normale. Ces cellules constituent le système 

de conduction cardiaque (voir Figure 2.1). Elles entrent au contact des cellules 

musculaires cardiaques via des jonctions communicantes. Le système de conduction 

initie le battement cardiaque et assure la propogation rapide de l’influx dans 

tout le coeur [10]. 

La contraction du muscle cardiaque est déclenchée par la dépolarisation 

des membranes plasmiques de ses cellules. Les jonctions communicantes qui 

connectent les cellules du myocarde assurent la propagation des potentiels d’action 

d’une cellule à l’autre. La dépolartisation initiale prend normalement naissance 

dans un petit groupe de cellules du système de conduction : le nœud 

sinoatrial, localisé dans l’oreillette droite. Le potentiel d’action se propage alors 

depuis celui-ci dans la totalité des oreillettes, puis des ventricules. C’est l’effet 

cumulé de toutes ces dépolarisations qui est mesuré par l’électrocardiogramme 

[10]. 

2.2 Electrocardiogramme 

L’électrocardiogramme (ECG) est la mesure de l’activité électrique durant 

la contraction du cœur, il est caractérisé par des ondes appelés ondes P, Q, R, S


Figure 2.1 – Système de conduction cardiaque [10]. 

et T [4], [11]. Les ondes Q, R, et S forment le complexe QRS (voir Figure 2.2). 

L’invention de l’ECG a valu à Willem Einthoven le prix Nobel de médecine en 

1924. De nos jours, l’ECG est largement utilisé et présente jusqu’à douze paires 

d’électrodes d’enregistrement [1], [12]. La différence de potentiel enregistrée entre 

chaque paire d’électrodes constitue le signal qui représente l’activité électrique 

du cœur depuis plusieurs points de vue. La fréquence d’échantillonnage de tels 

ECG modernes se situe entre 250 et 500 Hz [1]. Néanmoins, ce type de procédures 

est uniquement utilisé pour des mesures très courtes (typiquement 10 

secondes) pour observer des anomalies structurelles du cœur. Malheureusement, 

une mesure de l’ECG de courte durée peut ne pas permettre de diagnostiquer 

certaines pathologies comme des arythmies cardiaques, des épisodes ischémiques 

transitoires ou des ischémies silencieuses du myocarde [13], [14]. Dans ce genre 

de situations, les médecins ont recours à un enregistrement ECG de long terme 

et utilisant moins d’électrodes (seulement deux ou trois) : le Holter. 

2.3 Instrumentation : le Holter 

Un Holter est un enregistreur d’ECG portable qui permet de mesurer l’activité 

cardiaque sur de longues périodes (de 24 à 48h) [15], [16]. La Figure 2.3 

représente un homme portant un Holter. Cette mesure se fait avec un nombre 

restreint de paires d’électrodes (deux à trois) [1]. L’analyse est effectuée par


Figure 2.2 – Deux battements ECG annotés. Ils ont été obtenus artificiellement 

car dans la réalité le signal est beaucoup plus bruité [1]. 

après. De par la durée de l’enregistrement, il peut y avoir plus de 100 000 battements 

par jour et par paire d’électrodes à examiner [3]. Malheureusement, le 

diagnostic peut reposer sur un petit nombre d’entre eux et on ne peut donc pas 

en ignorer. En effet, on retrouve seulement quelques battements « anormaux » 

parfois dispersés dans tout l’enregistrement [3]. 

De nos jours, des progrès remarquables sont faits dans les domaines du sansfil 

et des senseurs portables miniatures qui peuvent remplacer les éléctrodes. La 

société IMEC, implantée en Belgique, a par exemple réussi à faire d’un GSM un 

véritable ECG portable grâce à des senseurs sans-fil de la taille d’une pièce d’un 

euro. 

2.4 Bruit et variabilité du signal 

Le signal ECG peut être parasité par certaines sources de bruit [1], dont : 

- Le secteur : 

Selon le pays, la fréquence du secteur est de 50 ou 60 Hz. On peut éliminer 

cette perturbation grâce à un filtre qui enlève sélectivement ces fréquences 

(coupe-bande). 

- Le contact de l’électrode : 

La perte ou la modification du contact entre l’électrode et la peau peut 

conduire à des changements importants ou des saturations du signal, d’où 

l’utilisation d’un gel conducteur.


Figure 2.3 – Illustration d’un homme portant un Holter. 

- L’électromyogramme : 

L’activité électrique des autres muscles se superpose à celle du cœur. L’inverse 

est vrai lors de l’acquisition du signal EMG. 

- La respiration : 

Des dérives sinusoïdales de la ligne de base sont observées à une fréquence 

inférieure à 1 Hz. 

- Le mouvement : 

Les mouvements du patient peuvent aussi mener à des dérives dans la ligne 

de base. 

2.5 Standards AAMI 

Pour pouvoir classifier les battements cardiaques, il faut commencer par définir 

des classes. De nombreuses classifications différentes peuvent être trouvées 

dans la littérature. Dans ce mémoire, c’est la classification recommandée par 

l’AAMI « Association for the Advancement of Medical Instrumentation » [1], 

[17] qui a été choisie. La correspondance entre les standards de l’AAMI et le 

système utilisé pour notre base de données est repris à la Figure 2.4.


Les classes sont au nombre de cinq mais dans un souci pratique, la classe Q 

(battements inconnus) ne sera pas utilisée car l’hypothèse sera faite que chaque 

battement pourra être attribué à l’une des quatre autres classes (N, S, V ou F) 

ou sera supprimé de la base de données. Les quatre classes sont : 

- Classe N : 

Ce sont les battements « normaux ». Ce sont de loin les battements les 

plus fréquents. 

- Classe S : 

Ce sont les battements « anormaux » d’origine Supra-ventriculaire (dont 

ceux originaires des oreillettes, voir Section 2.1). 

- Classe V : 

Ce sont les battements « anormaux » d’origine Ventriculaire (ceux originaires 

des ventricules, voir Section 2.1). 

- Classe F : 

Ce sont les battements « anormaux » résultant de la Fusion d’un battement 

V et d’un battement N. 

Figure 2.4 – Standards de l’AAMI et correspondance avec le système utilisé 

pour notre base de données. 

2.6 Etat actuel et objectifs 

Le but final est de repérer les battements anormaux dans un nouveau tracé 

ECG pour pouvoir poser un diagnostic. On peut distinguer deux genres d’approches 

pour extraire ces battements :


- Approche supervisée : 

Il est nécessaire de disposer d’un ensemble de battements correctement 

annotés par un praticien. Différents algorithmes permettent alors de classifier 

d’autres battements, ce qui constitue un diagnostic automatisé. Malheureusement, 

la grande variabilité des signaux ECG issus de différents 

patients, pathologies et équipements rend ce genre de diagnostics trop peu 

fiable pour pouvoir se passer de l’avis d’un cardiologue [12]. 

- Approche non-supervisée : 

Dans ce cas, il n’y a pas besoin de battements préalablement annotés, 

mais pas de diagnostics automatisés non plus. Les nouveaux battements 

sont examinés en utilisant une mesure de dissimilarité pour obtenir un clustering. 

Chaque groupe est alors représenté par un « battement-type ». Le 

praticien peut alors n’analyser que ces « battements-type », ce qui constitue 

un gain de temps important. Il faut bien sûr qu’aucun battement important 

n’ait été perdu lors de la manœuvre pour que le diagnostic soit le 

plus correct possible [12]. 

Le but d’un problème de classification est d’assigner automatiquement des 

données à l’une des catégories que l’on s’est fixées en nombre fini. Ces catégories 

seront ici appelées classes et le modèle servant à classifier sera appelé classifieur. 

La difficulté vient du fait que la métrique généralement utilisée pour évaluer les 

performances d’un classifieur (et aussi durant son apprentissage) n’est pas fiable 

en cas de déséquilibre des classes. Or, les classes N, S, V et F sont fortement 

déséquilibrées. 

Considérons un cas à deux classes c1 et c2 avec une population de données de 

95% et 5% respectivement. Un classifieur un peu naïf qui classifierait la totalité 

des données dans la classes c1 s’en sortirait avec une performance respectable de 

95% si l’on considère uniquement le pourcentage de données correctement classifiées. 

Or, dans le cas qui nous occupe, ce sont justement les 5 derniers pourcents 

qui sont les plus importants. Il faudra donc choisir avec beaucoup d’attention la 

métrique utilisée. 

Un autre problème majeur de cette application est que le déséquilibre des classes 

N, V, S et F pousse les classifieurs standards à considérer les classes les moins 

représentées (V, S et F) comme du bruit et à toujours classifier les battements 

comme normaux (principe du rasoir d’Occam [1]). Les frontières de décision sont 

donc biaisées en faveur de la classe majoritaire N. 

Plusieurs pistes existent pour réduire ce déséquilibre et sont énumérées ici 

dans une liste non-exhaustive.


2.6.1 Modification d’algorithmes existants pour tenir compte du 

déséquilibre 

Les algorithmes peuvent souvent être modifiés pour obtenir de meilleures 

performances. Dans [1] et [3] les auteurs ont notamment modifié l’analyse discriminante 

et les machines à vecteur de support (SVM en anglais) pour obtenir de 

bons résultats. L’idée générale est de changer la fonction de coût utilisée pour 

entrainer le classifieur par une approximation du taux de classification équilibré. 

Ce dernier est en effet une métrique adéquate pour notre application (voir Section 

3.1.6). Pour ce faire, des poids différents sont donnés aux erreurs de chaque 

classe. 

2.6.2 Sur-échantillonnage pour tenir compte du déséquilibre 

Une autre piste pour ne pas modifier les algorithmes est d’augmenter le 

nombre de battements anormaux par rapport aux battements normaux (soit suréchantillonner). 

Cette procédure peut par exemple se faire via des algorithmes 

comme SMOTE (Synthetic Minority Oversampling Technique [18]). L’idée est 

de créer de nouvelles observations dans les classes minoritaires en estimant leurs 

distributions de probabilité et d’utiliser ces dernières pour générer de nouveaux 

échantillons. 

2.6.3 Sous-échantillonnage pour tenir compte du déséquilibre 

C’est l’approche inverse de la précédente. Elle consiste à diminuer le nombre 

de battements normaux par rapport au nombre de battements anormaux (soit 

sous-échantillonner). Dans le présent mémoire, le choix a été fait de se concentrer 

sur les techniques de sous-échantillonnage dans le domaine de la classification du 

signal ECG. Ces techniques restent en effet peu étudiées. Plusieurs approches 

seront investiguées : 

- Sous-échantillonnage simple : 

Cela consiste à laisser tomber une partie des battements, soit aléatoirement, 

soit de manière régulière. 

- Technique « On The Fly » (ou OTF) : 

Cette technique consiste à analyser les battements dès leur acquisition 

pour ne garder que ceux qui s’écartent significativement de la distribution 

des battements précédents. 

- Clustering : 

Les techniques de clustering permettent de diminuer un nombre d’observations 

en les remplaçant par un certain nombre de centroïdes qui représentent 

au mieux les observations.


Notre méthode se situe donc entre l’approche supervisée et l’approche nonsupervisée 

: une première manipulation non-supervisée permet de réduire le jeu 

de données et une seconde étape supervisée classifie les différents battements 

restants. Comme la proportion de battements normaux par rapport aux anormaux 

est importante et que l’on souhaiterait rééquilibrer les classes, la phase 

non-supervisée concerne uniquement les battements normaux. La phase d’apprentissage 

supervisée concerne elle les battements normaux réduits et tous les 

battements anormaux. 

2.7 Plan du mémoire 

La suite du mémoire est divisée en quatre chapitres, suivis d’une conclusion. 

- Chapitre 3 : Effet du sous-échantillonnage : 

Dans ce chapitre, plusieurs méthodes de sous-échantillonnage seront comparées 

et la meilleure d’entre elles sera choisie pour les autres parties. 

- Chapitre 4 : Effet de la sélection de caractéristiques : 

La sélection de variables sera décortiquée dans le cas choisi et pour certaines 

variantes. Des conclusions pour le Chapitre 6 seront tirées. 

- Chapitre 5 : Effet des outliers 1 : 

La robustesse de la méthode choisie vis-à-vis des outliers sera testée dans 

ce chapitre. Deux tentatives pour enlever certains points extrêmes seront 

également testées, afin d’augmenter les performances de classification. 

- Chapitre 6 : Validation du modèle : 

Dans ce dernier chapitre avant la conclusion, on essayera de procéder à 

la validation des paramètres, c’est-à-dire déterminer les paramètres qui 

généralisent le mieux la classification. Les informations apprises dans les 

parties précédentes seront utilisées au mieux. 

1. Terme anglais signifiant points hors-normes, ou extrêmes. Les outliers sont des données 

qui entrainent une réduction des performances de nombreuses méthodes de Machine Learning 

de par leur côté extrême.

CHAPITRE 3. EFFET DU SOUS-ÉCHANTILLONNAGE 15 

Chapitre 3 

Effet du sous-échantillonnage 

Dans ce chapitre, l’effet du sous-échantillonnage sera étudié en comparant 

trois grandes méthodes. Le but est de réduire le déséquilibre des quatre classes, 

car pour rappel celui-ci est responsable de la dégradation des performances des 

classifieurs. Plusieurs techniques seront utilisées. La première et la plus basique 

est le sous-échantillonnage simple : un certain nombre de battements normaux 

sont gardés au hasard (sans remise). Une autre possibilité envisagée est une 

technique « On The Fly » : les battements sont considérés dans l’ordre de leur 

enregistrement et la propriété de stationnarité de battements normaux est exploitée 

: on ne garde les battements que s’ils sont significativement différents de 

l’ensemble des battements déjà analysés. La dernière possilité est une approche 

utilisant le clustering : elle permet de diminuer un nombre d’observations en les 

remplaçant par un certain nombre de centroïdes qui représentent au mieux ces 

observations. Pour commencer, les outils utilisés pour rééquilibrer les classes et le 

classifieur vont être décrits. Ensuite, les différentes expériences seront détaillées 

et leurs résultats analysés. Ce chapitre se terminera par une discussion sur les 

résultats obtenus. 

3.1 Méthode 

Dans cette section, la base de données et son prétraitement seront présentés, 

ainsi que les outils servant à comparer deux battements, à rééquilibrer les classes, 

à choisir des variables pertinentes et à entrainer un modèle de classification. 

3.1.1 Acquisition et prétraitement 

Deux aspects doivent être pris en compte : les battements et les caractéristiques 

associées.


Battements cardiaques 

La base de données « MIT-BIH arrhythmia database » [19] sera utilisée. 

Celle-ci contient 48 heures d’enregistrement issues de 48 patients, pour un total 

d’approximativement 110 000 battements annotés selon 15 types (voir Section 

2.5). Quatre patients possédant un pacemaker ont été écartés, suivant les recommandations 

de l’AAMI. 

Les 44 tracés restants sont divisés en deux groupes de 22. Le premier groupe 

constitue l’ensemble d’apprentissage et est utilisé pour bâtir le modèle. Le second 

groupe quand à lui constitue l’ensemble de test et est utilisé pour mesurer 

les performances du modèle. 

Les tracés ECG des deux groupes sont ensuite filtrés et débarrassés de leurs 

artefacts en utilisant la procédure décrite dans [17]. Un premier filtre médian de 

200ms de largeur enlève le complexe composé des ondes Q, R et S et l’onde P. Le 

résultat est ensuite soumis à un second filtre médian de 600ms de largeur pour 

enlever l’onde T. Le signal en résultant contient la dérive de la ligne de base et 

est soustrait du signal original. L’artefact issu du secteur est ensuite enlevé avec 

un filtre coupe-bande de 60Hz. 

La localisation des pics R et le type de chaque battement sont fournis dans la 

base de données (dans un standard différent de celui de l’AAMI). La correspondance 

avec le standard est alors effectuée pour n’obtenir que quatre classes. Pour 

finir, les battements ayant un intervalle R-R plus petit que 150ms ou plus grand 

que 2000ms sont éliminés de la base de données car certainement mal annotés. 

N S V F Total 

Apprentissage 45809 942 3784 413 50948 

89,91% 1,85% 7,43% 0,81% 100% 

Test 44099 1836 3219 388 49542 

89,01% 3,71% 6,50% 0,78% 100% 

Table 3.1 – Distribution des battements dans les différentes classes. Les classes 

sont, comme attendu, fortement déséquilibrées. 

Deux méthodes pour isoler les battements vont être testées : 

- Une avec des battements de longueur constante : 

Ils sont coupés 500ms avant et après le pic R de chaque battement. 

- Une avec des battements de longueurs non-constantes : 

Ils sont coupés du début de l’onde P d’un battement jusqu’au début de 

l’onde P du battement suivant. 

Le but est de voir quelle méthode est la meilleure. Bien entendu, les outils devront 

être différents pour chacune de ces deux méthodes.


Extraction de caratéristiques 

L’extraction de nombreuses caractéristiques différentes sont proposées dans 

la littérature traitant de la classification des battements cardiaques. Les mêmes 

caractéristiques que dans [1] vont être utilisées, ce qui représente pas moins de 

249 caractéristiques. Celles-ci peuvent être réparties en sept groupes : 

- Intervalles de segmentation (24 caractéristiques) : 

Les points caractéristiques de l’ECG, correspondant au début et à la fin 

des ondes P, du complexe QRS, et de l’onde T. Ils sont annotés pour 

chaque battement en utilisant l’algorithme non supervisé décrit dans [20]. 

Un ensemble de 24 caractéristiques est alors calculé à partir de ces points : 

– Complexe QRS : un booléen indiquant si les points Q et S ont été annotés, 

l’aire, le maximum, le minimum, l’aire positive, l’aire négative, 

l’écart-type, l’asymétrie, le kurthosis, la longueur, la longueur QR et la 

longueur RS. 

– Onde P : un booléen indiquant si son début et sa fin ont été annotés, 

l’aire, le maximum, le minimum et la longueur. 

– Onde T : un booléen indiquant si son début et sa fin ont été annotés, 

l’aire, le maximum, le minimum, la longueur, la longueur QT et la longueur 

ST. 

Lorsque les points nécessaires pour calculer une caractéristique n’ont pas 

été détectés à l’étape de segmentation du battement cardiaque, la valeur 

de celle-ci est définie par la valeur moyenne de cette caractéristique pour 

ce patient. 

- Intervalles R-R (8 caractéristiques) : 

Ce groupe se compose de quatre éléments bâtis à partir des segmentations 

originales du pic R de la base de données MIT-BIH ; l’intervalle R-R précédent, 

l’intervalle R-R suivant, l’intervalle R-R en moyenne dans une fenêtre 

de 10 pics R et l’intervalle R-R moyen du patient. Les quatre mêmes caractéristiques 

sont également calculées en utilisant les pics R détectés par 

l’algorithme de segmentation décrit dans [20]. 

- Caractéristiques morphologiques (19 caractéristiques) : 

Dix valeurs sont mesurées par échantillonnage uniforme de l’amplitude 

ECG dans une fenêtre définie par le début et la fin du complexe QRS, et 

neuf autres caractéristiques dans une fenêtre définie par la fin du complexe 

QRS et la fin de l’onde T. Comme les signaux ECG sont déjà échantillonnés, 

l’interpolation linéaire est utilisée pour estimer les valeurs intermé-


diaires de l’amplitude ECG. Là encore, lorsque les points de début ou de 

fin nécessaires pour calculer une caractéristique n’ont pas été détectés, la 

valeur de celle-ci est définie par la valeur moyenne de cette caractéristique 

pour ce patient. 

- Coefficients provenant des fonctions de base de Hermite (20 caractéristiques) 

: 

Les paramètres pour les coefficients de dilatation FBH sont choisis comme 

dans [21] : l’ordre du polynôme de Hermite est fixé à 20 et le paramètre de 

largeur σ est estimé de façon à minimiser l’erreur de reconstruction pour 

chaque battement. 

- Coefficients statistiques de haut ordre (30 caractéristiques) : 

Les fonctions génératrices des cumulants du second, troisième et quatrième 

ordre ont été calculés. Les paramètres définis dans [2] sont utilisés : les paramètres 

de délais s’étendent de −250ms à 250ms centrés sur le pic R, 

et 10 points équidistants pour chaque fonction génératrice des cumulants 

sont utilisés comme caractéristiques, pour un total de 30 caractéristiques. 

- Intervalles R-R normalisés (6 caractéristiques) : 

Ces caractéristiques correspondent à celle du groupe « intervalles R-R » 

excepté qu’elles sont normalisées par leur valeur moyenne pour ce patient. 

Cette dernière peut être très différente entre les individus, et peut influencer 

le classifieur en mal. La normalisation n’est bien sûr pas appliquée à la 

caractéristique qui correspond à la moyenne du patient elle-même, ce qui 

réduit la taille du groupe à 6 caractéristiques. 

- Intervalles de segmentation normalisés (21 caractéristiques) : 

Ce groupe contient les mêmes caractéristiques que dans le groupe « Intervalles 

de segmentation », excepté qu’elles sont normalisées par leur valeur 

moyenne pour ce patient. Cette dernière peut être très différente entre les 

individus, et peut influencer le classifieur en mal. La normalisation n’est 

bien sûr pas appliquée à la caractéristique qui correspond à la moyenne du 

patient elle-même. 

Toutes ces caractéristiques sont calculées indépendamment pour chaque signal 

(excepté les quatre intervalles R-R et les trois intervalles R-R de référence 

issus de la segmentation originale puisqu’ils sont communs pour les deux signaux). 

Le total des caractéristiques s’élève donc à 249. 

3.1.2 Mesures de dissimilarité 

Pour identifier des groupes de battements similaires, il faut se doter d’une 

mesure de similarité (ou de dissimilarité). Trois d’entre elles ont été étudiées. Soit


deux battements x = [x0, ..., xX−1] et y = [y0, ..., yY −1] de longueurs respectives 

X et Y : 

- Norme de Minkowsky L2 : 

 

 

 

d(x, y) = X−1 

(xl − yl) 2 . (3.1) 

l=0 

Cette mesure de dissimilarité ne fonctionne bien sûr qu’avec des battements 

de longueur identique X = Y . On l’appellera aussi norme d’ordre 2 

à cause de son exposant (et de la racine carrée). 

- Dynamic time warping (DTW) : 

Cette mesure de dissimilarité permet quant à elle de comparer des battements 

de longueurs différentes. Elle permet de comparer les valeurs de xi à 

celle de yj sans forcément que i = j. Le but est de trouver un chemin de longueur 

f, (i1, j1), ..., (if , jf ), tel que le coût final le long du chemin soit minimum, 

au sens d’un certain critère. A chaque nœud, le coût de transition 

pour venir du nœud précédent (il−1, jl−1), t[(il, jl), (il−1, jl−1)] est calculé. 

Le coût total des transitions vaut donc : T = f l=1 t[(il, jl), (il−1, jl−1)] 

On peut utiliser une fonction w quelconque de al = il −il−1 et bl = jl −jl−1 

pour restreindre les transitions possibles. On peut aussi normaliser pour 

obtenir un coût indépendant de la longueur du chemin : 

f 

l=1 T = 

t[(il, jl), (il−1, jl−1)] ∗ w(al, bl) 

f l=1 w(al, 

. (3.2) 

bl) 

T peut alors servir de mesure de dissimilarité. 

Pour effectuer ces opérations efficacement, chaque entrée de la matrice 

de programmation dynamique G[i, j] est calculée en fonction des nœuds 

G[i − a, j − b] et du coût des transitions (voir la Figure 3.1). Dans notre 

cas, pour reproduire la fonction w de [3], les seules transitions possibles et 

leurs coûts associés sont : 

G[i, j] = min{G[i, j − 1] + d[(i, j)|(i, j − 1)], 

G[i − 1, j] + d[(i, j)|(i − 1, j)], 

G[i − 1, j − 1] + 2d[(i, j)|(i − 1, j − 1)]}. 

(3.3) 

- Trace : 

Cette méthode sert en réalité de sélection de variables utilisée en reconnaissance 

de la parole [22], mais dans notre cas, elle permet de réduire 

x et y à une longueur Ltrace ≤ min(X, Y ) ≤ max(X, Y ). Une fois une 

longueur commune atteinte, on peut utiliser la norme de Minkowsky pour


Figure 3.1 – Exemple de matrice G utilisée en programmation dynamique 

obtenir une mesure de dissimilarité. Le but de cette méthode est d’obtenir 

uniquement les échantillons du signal où celui-ci a beaucoup varié. Pour 

ce faire, on commence par calculer la dérivée partielle cumulée 

ainsi que sa valeur finale 

j 

∆j = |xi − xi−1|, (3.4) 

i=1 

∆ = 

X−1 

 

i=0 

|xi − xi−1|. (3.5) 

Si le nombre d’échantillons désiré après la trace est de h + 1, alors la 

hauteur de chaque intervalle d’amplitude est L = ∆/h. 

Pour obtenir un vecteur xtr = {xtr 0, ..., xtr h} qui inclut les valeurs de x 

où les plus grands changements ont eu lieu, chaque échantillon xtr l est pris 

d’un échantillon xj. Pour tout entier l allant de 0 à h, ce dernier est celui 

qui excède l ∗ L. xtr l = xj sachant que : 

j = argmin0


Figure 3.2 – Algorithme de segmentation de la trace : les échantillons obtenus 

sont les échantillons où les changements ont été les plus importants dans le signal 

de base. Sur cette illustration nx correspond à X. 

Sous-échantillonnage simple 

C’est la technique la plus simple, elle consiste à garder les battements au 

hasard (mais sans remise) ou à garder un échantillon tous les n échantillons. 

Technique « On The Fly » 

Cette technique est utilisée dans [3] pour effectuer un « pré-clustering » pour 

réduire le nombre de battements et ainsi diminuer le temps de calcul. Elle se base 

sur la propriété suivante : chaque tracé ECG a une faible variablilité intra-signal, 

il est donc hautement probable que des battements consécutifs appartiennent à 

la même classe [3]. 

Le résultat de cette technique est un ensemble de centroïdes R = {r1, ...rK} où 

K


par µd + nécart−type ∗ σd où µd est la moyenne des N mesures de dissimilarité 

d pour les battements déjà acquis, σd l’écart-type correspondant et nécart−type 

un facteur multipliant σd. Ici, la faible variabilité intra-signal implique que 

µd + nécart−type ∗ σd va rapidement converger vers une valeur qui contrairement 

à δ s’adapte à l’ensemble des battements. 

La seconde modification est la suivante : au lieu de calculer la dissimilarité d entre 

le battement nouvellement acquis et les N battements précédemment acquis placés 

dans le sous-ensemble R ⊂ P , seul le dernier des N battements est considéré. 

Cela implique qu’aucun battement qui aurait été sélectionné par la variante de 

base ne sera manqué, mais que d’autres seront ajoutés au sous-ensemble R ⊂ P . 

Clustering : les k-means 

Les k-means est un algorithme classique de clustering. Il procède en deux 

étapes : Encodage - Décodage. Un gros désavantage est que les centroïdes peuvent 

se « perdre » : ils ne contiennent plus aucun point à une certaine itération. On 

peut cependant traiter ceux-ci pour les replacer intelligemment, ce qui permet 

de garder K constant. Un autre désavantage est qu’il peut converger vers un 

minimum local. 

L’algorithme des k-means va maintenant être décrit en détail, cette explication 

vient principalement de [23]. 

Le but des k-means est d’identifier des groupes, ou clusters de points dans un 

espace multidimensionnel. Supposons que l’on dispose d’un ensemble de points 

[b1, ..., bN] consistant en N observations dans un espace en D dimensions. Le but 

est de partitionner l’ensemble de ces points en un certain nombre K de clusters. 

Intuitivement, un cluster comprend un groupe de points pour lesquels la distance 

entre eux est petite comparée avec la distance entre ces points et les points 

n’appartenant pas au groupe. On peut formaliser ce concept en introduisant un 

ensemble de vecteurs {zk} de dimension D où k = 1, ..., K. zk sera associé avec le 

k e centroïde. Le but est maintenant d’assigner les points à des clusters, ainsi que 

de trouver un ensemble de vecteurs zk, de telle sorte que la somme des carrés des 

distances de chaque point bn jusqu’à son plus proche vecteur zk soit minimale. 

Définissons l’assignement des points vers les clusters. Pour chaque point bn, 

introduisons la variable unk ∈ {0, 1} où k = 1, ..., K qui décrit auquel des K 

clusters le point bn est assigné : si bn est assigné au cluster k, alors unk = 1 et 

unj = 0 pour j = k. On peut alors définir une fonction objective, appelée mesure 

de distorsion : 

J = 

N 

n=1 k=1 

K 

unk bn − zk 2 . (3.7) 

Cette équation représente la somme des carrés de la distance entre chaque 

point et le centroïde de la classe à laquelle il a été assigné zk. Il faut maintenant 

trouver les valeurs des unk et de zk tel que J soit minimum. Pour ce faire, la


méthode des k-means a recourt à une procédure itérative dans laquelle chaque 

itération est composée de deux étapes successives. Pour commencer, il faut choisir 

une valeur initiale pour zk. Dans ce mémoire, les zk sont initialisés au hasard 

parmi les points de départ, sans remise. Ensuite, la première étape est de minimiser 

J par rapport à unk en maintenant zk constant. Dans la seconde étape, 

il faut minimiser J par rapport à zk en maintenant unk constant. Ce processus 

à deux étapes est répété jusqu’à convergence. On peut voir cette méthode 

comme un algorithme EM (pour Expectation - Maximization). Pour la première 

étape (déterminer unk, avec zk constant), J est une fonction linéaire et il suffit 

d’assigner le n e point au cluster le plus proche. Plus formellement unk = 1 si 

k = argminj xn − zj 2 , (3.8) 

et unj = 0 si j = k. Pour la seconde étape (déterminer zk, avec unk constant), 

J est une fonction quadratique de zk, qui peut donc être minimisée en posant sa 

dérivée égale à zéro : 

N 

2 unk(xn − zk) = 0. (3.9) 

n=1 

Ce qui peut aisément être résolu en zk : 

Nn=1 unkxn 

zk = Nn=1 unk 

. (3.10) 

Le dénominateur de cette expression est simplement égal au nombre de points 

compris dans le cluster k. zk est donc égal à la moyenne de tous les points xn 

qu’il représente. C’est de là que vient le nom de l’algorithme : les k-means. 

Les deux étapes de ré-assignement et de recalcul des clusters sont répétées jusqu’à 

ce qu’il n’y ait plus de changement d’assignement ou que zk ne varie plus 

ou presque plus. Comme chaque étape réduit la valeur de J, la convergence est 

assurée, cependant, il se peut que l’algorithme converge vers un minimum local. 

Dans ce mémoire, si un centroïde se « perd », il est remplacé par un centroïde 

comprenant uniquement le point le plus éloigné de l’ancienne position du centroïde 

vide. Le nombre de centroïdes reste donc constant du début à la fin de 

l’algorithme. La Table 3.2 présente un pseudo-code pour les k-means. 

Algorithmes k-means-like : Competitive learning,... : 

Ces algorithmes sont similaires aux k-means, mais avec des variantes qui 

évitent aux centroïdes de se perdre par exemple. Malheureusement, ils sont plus 

lents que les k-means et n’ont donc pas été utilisés. 

j-means : 

Les j-means sont une variante intéressante des k-means [24], [25] où les centroïdes 

sont contraints d’être des données initiales, contrairement aux k-means.


@pré : Le nombre de centroïdes désirés : K 

Des données : données 

Le nombre de ces données : N 

Un concept de distance : métrique 

Un nombre d’itérations maximum : NiterMax 

@post : Les centroïdes représentant données : Cent 

if K ≥ N 

erreur ! 

end 

while NON(vérifier convergence) && nombre d’itérations < NiterMax 

% encodage 

Dist = La matrice de distance entre données et cent au sens de 

métrique 

Allouer chaque donnée à un groupe représenté par un centroïde grâce 

à Dist : chaque donnée va dans le groupe pour lequel le centroïde 

est le plus proche 

% décodage 

Cent = le centre de masse de chaque groupe de données allouées à un 

centroïde 

if le groupe d’un centroïde ne contient aucune donnée, lui affecter 

la donnée la plus éloignée de ce centroïde au sens de métrique 

end 

end 

Table 3.2 – Pseudo-code pour les k-means. 

Tout comme les techniques « On The Fly », le résultat de cette technique est 

un ensemble de centroïdes R = {r1, ..., rK} où K


les k-means. On obtient k centroïdes R = {r1, ...rK} qui ne sont pas forcement 

(quasi jamais) des données initiales. Pour obtenir un ensemble de k nouveaux 

centroïdes Q = {q1, ..., qK} avec Q ⊂ R, une dernière étape est ajoutée : on 

remplace chaque ancien centroïde ri par la donnée de départ pj la plus proche 

(au sens de la même métrique que celle utilisée pour les k-means). On obtient 

alors les centroïdes finaux Q. Si l’on désire en plus savoir quelle donnée de départ 

est allouée à quel centroïde, on peut le déterminer en utilisant la règle du plus 

proche voisin. Dans le reste de ce mémoire, on appellera aussi cette manœuvre 

« recentrage ». L’avantage de cette technique est d’être beaucoup plus rapide que 

les j-means. 

3.1.4 Sélection de caractéristiques 

Pas moins de 249 caractéristiques composent l’ensemble d’apprentissage, 

parmi celles-ci, seules quelques-unes doivent être gardées pour éviter le surapprentissage. 

La sélection de caractéristiques est un problème complexe dont 

la portée dépasse de loin le cadre de ce mémoire, cependant plusieurs possibilités 

ont été envisagées, en tenant compte du fait que la complexité devait rester 

acceptable pour obtenir des temps de calcul raisonnables. 

Analyse en Composante Principale : 

L’ACP (PCA en anglais) réduit le nombre de caractéristiques des données 

en créant de nouvelles caractéristiques par projection des données sur des axes 

minimisant la perte de variance. Cette technique est souvent utilisée mais est 

non-supervisée : de nombreuses caractéristiques étant non pertinentes, cela réduirait 

les performances du classifieur. 

Approche forward : 

La procédure forward est un algorithme itératif servant à la recherche de 

sous-ensembles de variables optimales. Il démarre avec un ensemble vide, et 

ajoute dans cet ensemble, à chaque itération, la variable qui augmente le plus 

les performances du classifieur. L’algorithme s’arrête quand aucune variable ne 

permet plus d’augmenter les performances [26]. 

Validation croisée inter-patient 

La plupart des méthodes de classification des battements cardiaques suivent 

un paradigme « intra-patient » : les données d’apprentissage et celles à classifier 

sont issues du même patient. Cela présuppose que des battements annotés sont 

disponibles pour chaque patient. 

Le paradigme « inter-patient » consiste à classifier des battements d’un patient 

sur base d’une base de données constituée d’autres patients. Cela implique donc 

la généralisation d’un patient à un autre. Les résultats du premier paradigme sont


naturellement bien meilleurs que pour ce second paradigme, mais en situation 

réelle, les battements annotés ne sont généralement pas disponibles pour tous 

les patients. Ce mémoire suit donc le second paradigme. 

Un autre élément doit être introduit : la validation croisée (ou cross-validation 

en anglais). Lorsque l’on utilise certains modèles, on doit estimer des paramètres 

mais aussi des hyper-paramètres, qui conditionnent la complexité du modèle. 

A titre d’exemple, si l’on veut approximer une fonction y par 

y = 

N 

ai ∗ x i , (3.11) 

i=0 

où les ai sont des paramètres et N est un hyper-paramètre. 

Dans notre cas, les coefficients des frontières de classification du classifieur LDA 

sont des paramètres (voir Section 3.1.5). Tandis que le nombre de battements 

normaux après rééchantillonnage K (on notera que le nombre de centroïdes et 

de battements après rééchantillonnage sont les mêmes) et les caractéristiques 

sélectionnées (et leur nombre) sont des hyper-paramètres. 

Pour estimer ces derniers, on doit utiliser une partie de l’ensemble d’apprentissage 

et pas l’ensemble de test puisqu’on le réserve pour évaluer les performances 

indépendamment. On garde donc habituellement une partie de l’ensemble 

d’apprentissage pour estimer les paramètres (le nouvel ensemble d’entrainement) 

et l’autre partie sert à estimer les hyper-paramètres (on appelle cette 

partie l’ensemble de validation). 

Dans bon nombre d’applications, on désire utiliser au maximum les données disponibles. 

On ne se contente pas de diviser les données en trois parties (ensemble 

d’apprentissage, de validation et de test) mais on utilise une technique de validation 

croisée, par exemple le leave-one-out [23] : 

Les données sont divisées en ensembles d’apprentissage et de test. Celles d’apprentissage 

sont alors divisées par patient. Ensuite tous les patients sauf un sont 

utilisés pour entrainer un modèle et celui-ci est évalué avec les données du dernier 

patient. Cette procédure est répétée en changeant le patient servant à évaluer 

les performances. Lorsque chaque patient a servi à évaluer une fois, les performances 

obtenues sont alors moyennées. La Table 3.3 présente un pseudo-code 

pour la validation croisée par leave-one-out. 

3.1.5 Classification supervisée 

Deux classifieurs ont été utilisés. L’Analyse Discriminante Linéaire (LDA en 

anglais) et un LDA pondéré issu de la littérature [17]. L’avantage de ces deux 

classifieurs est qu’ils ont une closed-form solution, qu’ils sont rapides et qu’il n’y 

a pas de paramètre supplémentaire à ajuster. Les désavantages sont qu’ils sont 

linéaires, et sensibles aux outliers. En effet, ce sont des modèles génératifs qui 

stipulent la gaussianité des classes, et estimer une gaussienne revient à estimer 

la moyenne et l’écart-type, qui sont fort influencés par les outliers. Commençons


@pré : Des données divisées par patient : Données_Pat 

Un modèle : Modèle 

@post : Des performances de validation croisée : Perf Caract_Gardées 

Perf = 0 

for Chaque patient i 

Ensemble d’entrainement = Données_NON(i) 

Ensemble de validation = Données_i 

Entrainer Modèle avec Ensemble d’entrainement 

Inférer sur Ensemble de validation et noter les performances 

Perf = Perf + les performance de l’inférence 

end 

Table 3.3 – Pseudo-code de la validation croisée par leave-one-out. 

par expliquer le LDA non pondéré décrit dans [27] : 

Pour une classification optimale, les probabilités à postériori de chaque classe 

P r(H = c|X = x) sont requises. Il est à noter que dans cette section, X ne 

représente pas un battement échantillonné mais des données caractéristiques de 

ce battement. Supposons que fc(x) soit la densité conditionnelle de la classe 

H = c et πc la probabilité à priori de cette même classe (avec K c=1 πc = 1). Par 

simple application de la règle Bayesienne on obtient : 

P r(H = c|X = x) = fc(x) ∗ πc 

. (3.12) 

Cl=1 

fl(x) ∗ πl 

Il en ressort qu’en termes de capacité à classifier, avoir fc(x) est presque équivalent 

à connaître P r(H = c|X = x). Si l’on suppose que l’on peut modéliser 

chaque classe par une gaussienne multivariée : 

fc(x) = 

1 

(2π) p/2 1 

e− 2 

|Σc| 1/2 (x−µ c )T Σ −1 

c (x−µ c ) 

. (3.13) 

où Σc est la matrice de covariance de la classe c. L’Analyse Linéaire Discriminante 

fait l’hypothèse du cas où les matrices de variances sont les mêmes 

(Σc = Σ ∀c). Si l’on veut comparer deux classes c et l, il est suffisant de considérer 

le logarithme de leur rapport. 

log 

P r(H = c|X = x) 

P r(H = l|X = x) 

fc(x) πc 

= log + log 

fl(x) πl 

= log πc 

πl 

(3.14) 

+ 1 

2 (µ c + µ l) T Σ −1 (µ c − µ l) + x T Σ −1 (µ c − µ l). 

(3.15)


L’hypothèse des variances communes cause l’annulation du facteur de normalisation 

et de la partie quadratique de l’exponentielle de l’Equation (3.13). 

La frontière de décision entre les classes c et l sera donc linéaire. La région où 

P r(H = c|X = x) = P r(H = l|X = x) sera linéaire en x, et en p dimensions 

sera un hyperplan. Il en va de même pour toutes les frontières de décision entre 

deux classes prises deux à deux. 

On peut voir que l’Equation (3.15) et la fonction discriminante linéaire yc(x) 

yc(x) = x T Σ −1 µ T c − 1 

2 µT c Σ −1 µ c + log πc 

(3.16) 

sont équivalentes en termes de décision, avec H(x) = argmaxc yc(x). 

En pratique on ne connait pas les paramètres de la distribution gaussienne, et 

on les estime donc grâce à nos données, en veillant à ce que les expressions des 

estimateurs maximisent la vraisemblance : 

ˆπc = Nc/N (3.17) 

Nc 

ˆµ c = xi/Nc 

ˆΣc = 

i=1 

C Nc 

c=1 i=1 

(3.18) 

(xi − ˆµ c)(xi − ˆµ c)) T /(N − C), (3.19) 

où Nc est le nombre de battements dans la classe c. Une fois les probabilités 

à postériori connues pour chaque classe, le classifieur attribue l’échantillon à la 

classe la plus probable. 

Pour un LDA non-pondéré, expliqué dans [17], la vraisemblance est définie 

comme : 

V = 

C 

Nc 

c=1 n=1 

log(gc(x, µ c, Σ)), (3.20) 

où C est le nombre de classes, Nc le nombre de données d’entraînement dans 

la classe c, et gk(x, µc, Σ) est la valeur de la distribution gaussienne de moyenne 

ˆµ et de covariance commune ˆ Σ. 

Or, la proportion relative des classes influence un tel classifieur : si une classe domine 

les données d’entrainement, alors le classifieur est hautement influencé par 

ces classes [1], [28]. Une solution pour contrer ce phénomène a été étudiée dans 

[17]. Elle consiste à pondérer les contributions de chaque donnée d’apprentissage. 

Pour un LDA pondéré, la vraisemblance s’écrit donc : 

C Nc 

V = ωc log(gc(x, µ c, Σ)). (3.21) 

c=1 n=1


Dans ce cas, le maximum de vraisemblance conduit à : 

Nc 

ˆµ c = xi/Nc 

i=1 

C Nc 

ˆΣc = ωc (xi − ˆµ c)(xi − ˆµ c)) 

c=1 i=1 

T c 

/ ωcNc 

c=1 

comme estimateur des paramètres des gaussiennes. 

La probabilité à postériori est donc dans les deux cas : 

avec : 

P r(H = C|X = x) = 

(3.22) 

(3.23) 

exp(yc) 

. (3.24) 

Cl=1 

exp(yl) 

yc(x) = x T Σ −1 µ T c − 1 

2 µT c Σ −1 µ c + log πc. (3.25) 

Une fois les probabilités à postériori connues pour chaque classe, le classifieur 

attribue l’échantillon à la classe la plus probable. 

3.1.6 Evaluation des performances 

Pour évaluer les performances de notre classifieur, nous allons utiliser la 

matrice de confusion. Celle-ci est souvent utilisée en apprentissage supervisé, et 

est un outil permettant de mesurer la qualité d’un système de classification. 

prédit - prédit + total 

réel - vrais positifs faux positifs N− 

réel + faux négatifs vrais négatifs N+ 

Table 3.4 – Chaque colonne de la matrice représente le nombre d’occurrences 

d’une classe prédite, tandis que chaque ligne représente le nombre d’occurrences 

d’une classe réelle. 

Pour pouvoir exploiter cette matrice, il est souvent nécessaire de le résumer 

(parfois jusqu’à un simple scalaire). Cela constitue une perte d’information mais 

est souvent plus commode, notamment pour ce qui est de maximiser. Ici encore 

certaines métriques sont souvent utilisées, comme la sensibilité ou la spécificité, 

la précision (d’une classe ou totale) et l’aire sous la courbe de ROC. 

Soit vp le nombre de vrais positifs, vpc les vrais positifs de la classe c, fp le 

nombre de faux positifs, fn le nombre de faux négatifs, vn le nombre de vrais 

négatifs et Nc le nombre d’occurences réelles dans la classe c. La sensibilité se, 

la spécificité sp, la précision d’une classe c prc et la précision totale prtot sont 

définies comme :


se = vp/(fn + vp) = vp/N+ 

(3.26) 

sp = vn/(vn + fp) = vn/N− 

(3.27) 

prc = vpc/Nc 

(3.28) 

vp + vn 

. 

vp + vn + fp + fn 

(3.29) 

prtot = 

La courbe de ROC est un graphe montrant la sensibilité en abscisse et un 

moins la spécificité en ordonnée. L’aire sous la courbe de ROC permet d’obtenir 

un simple scalaire. 

Dans le cas présent, la matrice de confusion comportera quatre lignes et donc 

quatre colonnes puisque C = 4. Bien que les concepts précédents soient généralisables 

à plusieurs classes, une autre manière de résumer la matrice de confusion 

a été choisie. 

p r e d 

1 2 3 4 

N V S F 

r 1 N x x x x 

é 2 V x x x x 

e 3 S x x x x 

l 4 F x x x x 

Table 3.5 – Matrice de confusion à quatre classes (C = 4). 

Le taux de classification équilibré (balanced classification rate, BCR en anglais) 

est défini à deux classes comme la moyenne entre la sensibilité et la spécificité. 

A plus de deux variables, on peut généraliser le BCR en le définissant 

comme la moyenne des précisions. 

C 

BCR = ( prc)/C 

c=1 

Cependant, la moyenne géométrique est préférable à la moyenne arithmétique : 

elle pénalise plus le résultat si l’une des précisions est très faible. Elle est utilisée 

dans [1], [7]. 

C 

BCR = ( prc) 1/C 

c=1 

Des tests préliminaires (non rapportés ici), ont montré que la seconde définition 

du BCR donnait en effet les meilleurs résultats. 

Celle-ci est utilisée dans la méthode forward et dans les validations.


3.2 Méthodologie 

Dans cette partie, nous allons mener plusieurs expériences qui respecteront 

toutes la structure décrite à la Figure 3.3. Le but est de comparer plusieurs 

méthodes de sous-échantillonnage servant à rééquilibrer les quatre classes en 

diminuant le nombre de battements dans la première. Toutes les expériences sont 

astreintes à avoir un nombre de battements normaux compris entre le minimum 

et le maximum des trois autres classes. 

3.2.1 Sous-échantillonnage et sélection de caractéristiques 

Les différents outils ayant été introduits à la Section 3.1, nous allons maintenant 

réfléchir à la meilleure manière de les agencer pour obtenir de bonnes 

performances de classification. 

Le sous-échantillonnage et la sélection de caractéristiques ont ici plusieurs buts 

distincts : 

- Le sous-échantillonnage est utilisé pour essayer de rééquilibrer les classes. 

Seule la classe N sera réduite, car nous allons faire l’hypothèse que cela 

permettra aux classes d’être « suffisamment » équilibrées pour obtenir de 

bonnes performances. Une autre piste aurait pu être de ramener toutes les 

classes à un nombre commun de battements mais comme la classe F ne 

comporte qu’un nombre très faible de battements, cette piste n’a pas été 

investiguée dans un premier temps. 

- Pour la sélection de caractérisiques, on dispose de beaucoup trop de cellesci 

et certaines ne sont pas pertinentes. Des caractéristiques inutiles peuvent 

entrainer une diminution des performances, spécialement si les classes sont 

déséquilibrées [29], [30]. Enlever les caractéristiques superflues est donc important 

pour cette raison. 

- Le nombre de battements étant assez important, il sera nécessaire de réduire 

les données pour diminuer le temps de calcul. Les données vont être 

réduites deux fois, par sous-échantillonnage sur l’ensemble des battements 

normaux et par une sélection de caractéristiques. Ces deux réductions devraient 

permettre d’obtenir des délais de calcul raisonnables. 

Une fois la classe N réduite et les caractéristiques superflues écartées (pour l’ensemble 

d’apprentissage), l’analyse linéaire discriminante nous fournira un classifieur 

que nous pourrons évaluer grâce à la matrice de confusion et au BCR. 

Une première question importante est l’agencement des opérations : soit 

d’abord sous-échantillonner puis choisir les variables, soit l’inverse. Une seconde 

question est de savoir quoi utiliser comme données pour le sous-échantillonnage :


les battements ou les caractéristiques. Les quatre possibilités vont être considérées. 

Sélection des caractéristiques d’abord, puis sous-échantillonnage basé 

sur les caractéristiques 

La sélection peut être mauvaise dû au déséquilibre. Si celui-ci est traité après, 

le processus se mord la queue. On pourrait essayer d’inventer un algorithme en 

deux temps, mais celui-ci serait sûrement complexe et long en temps de calcul. 

Sélection des caractéristiques d’abord, puis sous-échantillonnage basé 

sur les battements 

Même problème qu’au cas précédent. 

Sous-échantillonnage basé sur les caractéristiques d’abord, puis sélection 

des caractéristiques 

Ici le problème se mord la queue mais dans l’autre sens : le sous-échantillonnage 

peut être mauvais à cause des caractéristiques superflues. 

Sous-échantillonnage basé sur les battements d’abord, puis sélection 

des caractéristiques 

Si l’on choisit de sous-échantillonner en fonction des battements et pas des caractéristiques, 

alors le problème ne se mord plus la queue : le sous-échantillonnage 

est effectué sur base de l’allure des battements et les caractéristiques sont choisies 

en prenant en compte la base de données avec la classe N rééchantillonnée. 

Malheureusement, c’est aussi la solution la plus lente. Des tests préliminaires 

non rapportés ici ont révélé que cette solution est en effet la meilleure, mais 

aussi celle prenant le plus de temps. 

3.2.2 Classifieurs 

Les deux LDA, non-pondéré et pondéré, seront essayés pour chaque expérience. 

Cela permettra de voir si le sous-échantillonnage de la classe N est suffisant 

ou s’il faut toujours envisager d’utiliser des algorithmes modifiés pour tenir 

compte du déséquilibre. 

La suspicion que le rééquilibrage des classes ne soit pas suffisant seul est bien 

présent. En effet, le rééchantillonnage se fait uniquement sur la classe N, ce qui 

laisse toujours les classes différemment représentées, bien que le déséquilibre ait 

été fortement réduit.


3.2.3 Matrice de confusion et BCR 

En raison des meilleurs résultats obtenus lors d’une étude rapide non présentée 

ici, la définition en moyenne géométrique du BCR sera utilisée. 

3.2.4 Structure de base 

La Figure 3.3 représente la structure de base des expériences de ce chapitre. 

Les raisons de l’agencement des différents outils ont été débattues précédemment 

dans ce chapitre. 

Figure 3.3 – Structure de base : le nombre de battements normaux (classe N) est 

réduit par une technique de sous-échantillonnage, puis les battements restants 

sont ajoutés aux battements anormaux (classe S, V, F) et forment l’ensemble 

d’apprentissage. Cet ensemble de battements est transformé/exprimé sous forme 

de caractéristiques et une méthode forward ne garde que celles qui mènent à de 

bonnes performances. Une fois les bonnes caractéristiques gardées, un modèle de 

classification LDA est bâti et est évalué grâce à l’ensemble de test. Ce dernier 

n’a pas sa classe N réduite et ce sont bien les caractéristiques choisies pas la 

méthode forward qui servent à évaluer les performances. 

3.2.5 Description des expériences 

Voici la liste des expériences de ce chapitre, chacune a été faite en suivant la 

Figure 3.3 et faite en double : l’une avec un LDA non-pondéré (les cas impairs) 

et l’autre avec un LDA pondéré (les cas pairs). 

Sur les battements de longueur constante (X = 270) : 

- Sous-échantillonnage simple : les battements normaux sont gardés au hasard 

(cas 1 et 2).


- Sous-échantillonnage de type Clustering : k-means avec un recentrage à la 

fin et la norme d’ordre 2 (cas 3 et 4). 

- Sous-échantillonnage de type Technique « On The Fly » avec la norme 

d’ordre 2 (cas 5 et 6). 

Sur les battements de longueurs différentes : 


DTW (cas 7 et 8). 


fin et la norme d’ordre 2, les battements ayant été réduits à une longueur 

constante de 150 échantillons en utilisant la trace (cas 9 et 10). 


d’ordre 2, les battements ayant été réduits à une longueur constante de 150 

échantillons en utilisant la trace : une étude préliminaire a montré qu’obtenir 

un nombre de battements compris entre le minimum et le maximum 

des classes S, V et F après ce sous-échantillonnage était malaisée. Elle a 

donc été abandonnée. 

Chacune de ces doubles expériences (LDA pondéré et non-pondéré) ont 

été répétées n fois. Si n est grand, les résultats seront plus fiables et la 

comparaison des expériences entre elles également. n = 20 a été choisi, ce 

qui représente déjà une semaine de calcul sur des ordinateurs récents pour 

les méthodes de sous-échantillonnage les plus complexes (clustering). Le 

nombre de battements finaux pour la classe N est aléatoire pour chaque 

expérience ni mais toujours compris entre le minimum et le maximum du 

nombre de battements pour les classes S, V et F. Dans le cas des techniques 

OTF, le caractère aléatoire est obtenu en fixant nécart−type au hasard parmi 

les valeurs qui mène à K entre le minimum et le maximum du nombre de 

battements pour les classes S, V et F. Pour les autres techniques, K est 

un paramètre simple à changer. 

3.3 Résultats 

La Figure 3.4 présente les performances obtenues pour chaque double expérience 

(n = 20) sous forme de boxplot 1 . La Table 3.6 compare ces résultats entre 

eux grâce à un test de Student de supériorité. 

1. Souvent traduit par "boîte à moustache"


Figure 3.4 – Boxplot des performances des cas 1 à 10 (n=20). On observe que 

le cas 4 présente les meilleures performances. 

Cas 1 Cas 2 Cas 3 Cas 4 Cas 5 Cas 6 Cas 7 Cas 8 Cas 9 Cas 10 

Cas 1 - 9,9e-1 9,9e-1 9,9e-1 8,1e-1 9,9e-1 9,3e-1 9,9e-1 9,9e-1 9,9e-1 

Cas 2 9,9e-5 - 4,5e-1 9,9e-1 9,0e-4 3,0e-2 1,4e-3 6,2e-2 1,2e-3 1,8e-1 

Cas 3 2,4e-4 5,5e-1 - 9,9e-1 2,0e-3 4,9e-2 3,6e-3 9,9e-2 4,7e-3 2,3e-1 

Cas 4 2,6e-8 2,4e-3 3,6e-3 - 1,6e-7 6,4e-6 3,2e-8 3,9e-6 4,1e-11 4,7e-4 

Cas 5 1,9e-1 9,9e-1 9,9e-1 9,9e-1 - 9,3e-1 7,2e-1 9,8e-1 9,1e-1 9,9e-1 

Cas 6 1,1e-2 9,7e-1 9,5e-1 9,9e-1 6,7e-2 - 1,4e-1 7,1e-1 2,8e-1 8,1e-1 

Cas 7 6,9e-2 9,9e-1 9,9e-1 9,9e-1 2,8e-1 8,6e-1 - 9,6e-1 7,8e-1 9,7e-1 

Cas 8 2,3e-3 9,4e-1 9,0e-1 9,9e-1 1,9e-2 2,9e-1 4,0e-2 - 7,4e-2 6,6e-1 

Cas 9 1,3e-2 9,9e-1 9,9e-1 9,9e-1 9,4e-2 7,2e-1 2,2e-1 9,26e-1 - 9,4e-1 

Cas 10 2,1e-3 8,2e-1 7,7e-1 9,9e-1 1,5e-2 2,0e-1 3,0e-2 3,4e-1 5,6e-2 - 

Table 3.6 – Test de supériorité au sens de Student. Ce tableau peut être interprété 

comme suit : chaque ligne représente les p-valeurs d’un test de supériorité 

d’un cas vis-à-vis des autres cas. La p-valeur est la probabilité d’obtenir l’écart 

observé s’il n’y a pas de différence réelle entre les deux groupes. Les p-valeurs 

étant inférieures à la valeur classique de 5% sont indiquées en gras. Cela signifie 

que si une entrée (i,j) est en gras, µi > µj. On constate que le cas 4 est bien 

supérieur à tous les autres.


3.4 Discussion 

Le cas 4 se détache clairement du lot, même à l’œil nu. Le test de Student de 

supériorité confirme également qu’il est supérieur à tous les autres cas envisagés. 

Il obtient en moyenne un BCR de 77,43% ce qui est supérieur aux résultats obtenus 

dans [17] (71,39%), mais inférieur à ceux de [1] (85,39%). Le nombre restreint 

de comparaison vient du fait que très peu d’articles utilisent un paradigme interpatient, 

et encore moins utilisent les standards de l’AAMI. Malheureusement, il 

a obtenu une fois sur les vingt un BCR de 43,40% ce qui peut sans doute venir 

de plusieurs sources : soit K le nombre de battements de classe N gardés avait 

une valeur extrême, soit le clustering a convergé vers un minimum local cette 

fois-là, soit le problème a sur-appris lors de l’étape de réduction de dimension, 

soit une combinaison des trois. K avait une valeur très moyenne (2477 sachant 

qu’il devait être compris entre 412 et 3783). L’étape de sélection de variables 

n’a pas gardé plus ou moins de variables que pour les 19 autres expériences (11 

alors que les autres varient entre 9 et 18). C’est donc soit dû à une mauvaise 

convergence du clustering, soit dû à une sombre combinaison insondable. Certaines 

techniques existent pour prévenir d’une mauvaise convergence lors d’un 

clustering et mériteraient d’être appliquées. Il y a au moins deux manières de 

faire : soit initialiser plus intelligement les clusters par des techniques heuristiques, 

soit relancer le clustering plusieurs fois avec une initialisation aléatoire 

différente et choisir celle qui revient le plus souvent, ou la meilleure au sens d’un 

critère, ou encore moyenner. Evidemment, cela conduit à une étape de clustering 

encore plus longue. Faute de temps, ces pistes n’ont pas pu être investiguées. 

Les techniques « On The Fly » sont peut être utiles pour effectuer un « préclustering 

» , mais sont moins performantes que le clustering. On peut expliquer 

cela par le fait que dans le clustering, un outlier va peut-être influencer celui-ci, 

mais a très peu de chances d’émerger en tant que centroïde (après recentrage). 

Dans les techniques OTF par contre, les outliers seront gardés d’office. 

Deux jeux de battements ont été utilisés : ceux de longueur constante (cas 

1 à 6) et ceux de longueurs non-constantes (cas 7 à 10). Les expériences ne 

permettent pas de conclure qu’un jeu est meilleur que l’autre. Par contre, le 

cas 4 étant meilleur que tous les autres, nous continuerons uniquement avec les 

battements de longueur constante. 

Il est intéressant de remarquer que le LDA pondéré obtient systématiquement 

un meilleur score que sa version non pondérée, ce qui prouve son utilité. 

Par contre, son action n’est pas optimale, et ne permet pas de surpasser le 

problème du déséquilibre seul. L’utilisation simultanée du clustering et de la 

pondération de l’algorithme de classification donne des meilleurs résultats que 

ceux obtenus si on les utilise séparément. Dans la suite, nous garderons les expériences 

1 à 4 comme base, car elles permettent de comparer les méthodes de 

base (cas 1), l’utilisation du clustering seul (cas 3), l’utilisation de la modification 

d’algorithme (cas 2) et la synergie des deux (cas 4).

CHAPITRE 4. EFFET DE LA SÉLECTION DE CARACTÉRISTIQUES 37 

Chapitre 4 

Effet de la sélection de 

caractéristiques 

Dans ce chapitre, la méthode forward pour sélectionner les variables pertinentes 

sera évaluée. Il sera observé si le déséquilibre a un impact sur cette 

procédure et si les techniques de sous-échantillonage permettent d’améliorer les 

résultats. D’autres méthodes de sélection de caractéristiques auraient pu être 

investiguées, mais cette option n’a pas été suivie faute de temps. 


La plupart des méhodes utilisées dans ce chapitre ont déjà été expliquées 

dans la Section 3.1. Seule la procédure forward est modifiée. 

La procédure forward décrite à la Section 3.1.4 est utilisée pour choisir les 

variables pertinentes. Puisqu’il est connu qu’un risque de sur-apprentissage existe 

[29], [30], il sera également observé si l’arrêt précoce de la procédure peut mener 

à une meilleure généralisation. Pour étudier cet effet, un seuil δ est choisi, et la 

procédure arrête d’ajouter des caractéristiques si les performances n’augmentent 

pas d’au moins δ. La Table 4.1 présente un pseudo-code pour la méthode forward 

modifiée. 


Dans ce chapitre, nous allons nous concentrer sur les cas 1 à 4 de la Section 

3.2.5 (avec une petite variante pour les cas 1 et 2) : 

Battements de longueur constante : 

- Sous-échantillonnage simple : les battements normaux sont gardés au hasard, 

avec classifieur LDA non-pondéré. Cette fois-ci les battements ne


@pré : Un ensemble de caractéristiques : Caract 

@post : Un sous-ensemble de Caract plus pertinent : Caract_Gardées 

Performances précédentes = −∞ 

Performances actuelles = 0 

Caract_Gardées = {} 

while Performances actuelles - Performances précedentes ≥ δ 

Performances précédentes = Performances actuelles 

for Toutes les caractéristiques de Caract 

Evaluer les performances avec Caract_Gardées plus une 

caractéristique 

end 

Ajouter à Caract_Gardées la caractéristique augmentant le plus les 

performances 

Performances actuelles = les performances avec Caract_Gardées 

end 

Table 4.1 – Pseudo-code de la méthode forward modifiée. Notez que les performances 

sont obtenues par validation croisée. 

sont en fait pas tirés tout à fait au hasard, mais à intervalles réguliers avec 

leur nombre total K qui lui est tiré au hasard (cas 1). 

- Sous-échantillonnage simple : les battements normaux sont gardés au hasard, 

avec classifieur LDA pondéré. Même remarque qu’au cas précédent 

(cas 2). 


fin et la norme d’ordre 2, avec classifieur LDA non-pondéré (cas 3). 


fin et la norme d’ordre 2, avec classifieur LDA pondéré (cas 4). 

Ces quatre cas sont répétés 20 fois, suivant la structure décrite à la Figure 

3.3 et K est astreint à être compris entre le minimum et le maximum des classes 

S, V et F (respectivement 2, 3 et 4). Ce choix permettra d’évaluer l’effet de 

base du déséquilibre (cas 1), l’effet de la pondération du LDA (cas 2), l’effet du 

sous-échantillonnage par clustering seul (cas 3) et enfin la synergie des deux (cas 

4).



La Figure 4.1 présente les performances des quatre cas. 

Figure 4.1 – Performances pour chacun des quatre cas. Les performances 

moyennes sont en rouge, les deux lignes vertes représentant un écart-type de 

chaque coté de la moyenne, pour un certain δ. 

Les valeurs de δ s’étendent volontairement sur toutes les valeurs possibles 

pour mettre en évidence la présence dans tous les cas de deux plateaux. 

Le second plateau (présent depuis δ = 30% jusque δ = 100%) représente le fait 

que la sélection de variables n’a choisi qu’une seule variable (l’algorithme sélectionne 

toujours au moins une variable) et toujours la même (voir ci-dessous). A 

cet endroit, la variance est faible, mais le BCR moyen l’est également. 

Le premier plateau s’étend dans une région pour laquelle δ = 2, 5% jusque 

δ = 10%. Celui-ci correspond au fait que la méthode forward a ajouté une 

seconde caractéristique. Cette seconde caractéristique est dans tous les cas choisie 

parmi deux particulières, comme on peut le voir aux Tables 4.2 et 4.3. Ici, la 

variance est toujours faible, mais les performances sont bien meilleures. 

Entre ces deux plateaux se trouve une zone de transition qui représente le fait 

qu’en fonction des battements gardés pour la classe N, l’ajout de la seconde ca-


ractéristique se passe pour un δ légèrement différent. 

La dernière zone d’intérêt se trouve à droite, pour les valeurs de δ < 2, 5%. La 

Figure 4.2 représente de la même façon ces valeurs de δ. On observe dans les 

cas 2, 3 mais surtout 1 que les performances moyennes décroissent fortement 

si δ devient nul, ce qui veut dire que la méthode forward a sélectionné trop de 

caractéristiques, et que les performances s’en ressentent. Un tel phénomène est 

appelé sur-apprentissage : l’algorithme a voulu être trop fidèle aux données (en 

basant le classifieur LDA sur de trop nombreuses caractéristiques) et a perdu de 

sa capacité à généraliser. 

Ce phénomène ne se passe pas dans le cas 4 (sous-échantillonnage de type Clustering 

: k-means avec un recentrage à la fin et la norme d’ordre 2, avec classifieur 

LDA pondéré). Les performances moyennes sont même meilleures en ajoutant 

plus de caractéristiques. 

Du point de vue de la variabilité des résultats, c’est encore le cas 4 qui l’emporte, 

ce qui le rend plus fiable. Cependant, les variances de premier plateau (présent 

depuis δ = 2, 5% jusque δ = 10%) sont dans tous les cas encore plus faibles que 

dans le cas 4 avec δ = 0. 

Figure 4.2 – Zoom sur les performances moyennes en rouge, les deux lignes 

vertes représentant un écart-type de chaque côté de la moyenne, pour un certain 

δ.


D’un point de vue pratique, on pourrait être tenté d’arrêter le LDA pour 

toujours se trouver sur le premier plateau. En effet les performances y sont plutôt 

bonnes et la variabilité observée y est très faible. Cela peut donc suffire pour 

certaines applications. L’analyse va cependant être poursuivie pour le cas plus 

général. 

Les premières caractéristiques sélectionnées méritent un peu d’attention. La première 

caractéristique est toujours la même : celle-ci correspond à l’intervalle R-R 

du battement précédent, normalisé par la valeur moyenne de cette caractéristique 

pour ce patient. 

Le compte rendu de la seconde et de la troisième caractéristique sélectionnée 

est indiqué aux Tables 4.2 et 4.3 respectivement. On observe que ce sont très 

souvent les mêmes caractéristiques qui sont choisies. Les caractéristiques n o 2 et 

n o 10 sont des éléments statistiques de haut ordre, la caractéristique n o 214 est 

l’écart-type du complexe QRS normalisé par la valeur moyenne de cette caractéristique 

pour ce patient et la caractéristique n o 219 est la longueur RS elle aussi 

normalisée. 

n o 2 n o 10 total 

Cas 1 16 4 20 

Cas 2 2 18 20 

Cas 3 20 0 20 

Cas 4 14 6 20 

total 52 28 80 

Table 4.2 – Deuxièmes caractéristiques sélectionnées par la méthode forward. 

n o 214 n o 219 total 

Cas 1 0 20 20 

Cas 2 5 15 20 

Cas 3 0 20 20 

Cas 4 14 6 20 

total 61 19 80 

Table 4.3 – Troisièmes caractéristiques sélectionnées par la méthode forward. 


Ce chapitre permet de tirer plusieurs conclusions. 

Premièrement, la combinaison d’un sous-échantillonnage de type clustering allié 

à un classifieur pondéré pour tenir compte du déséquilibre résiduel des classes 

permet d’éviter le sur-apprentissage au niveau de la sélection de caractéristiques. 

Cela contribue certainement à faire de ce cas le plus performant dans le chapitre 

précédent.


Deuxièmement, la classification à quatre classes dans cette application peut 

très bien se satisfaire de très peu de caractéristiques pour discriminer. Ajouter 

d’autres caractéristiques augmente légèrement les performances dans le cas 

d’une combinaison d’un sous-échantillonnage de type clustering allié à un classifieur 

pondéré pour tenir compte du déséquilibre résiduel des classes. Cependant, 

cela se fait au détriment de la variance. Il peut donc il y avoir certains cas où 

il faudra privilégier des performances moyennes avec une faible variance et peu 

de caractéristiques. Dans d’autres cas, on ajoutera plus de caractéristiques pour 

obtenir de meilleurs résultats moyens. 

Troisièmement, on observe l’importance de supprimer la redondance dans les 

données de la classe N. En plus du fait qu’un trop grand déséquilibre fait plonger 

les performances, le temps de calcul diminue quand K, le nombre de battements 

gardés dans la classe N, diminue. 

Finalement, il est aussi important de bien choisir les caractéristiques gardées : 

une modification a été apportée ici à la méthode forward mais il existe d’autres 

manières de sélectionner les caractéristiques. Il est à noter que la modification 

apportée à la méthode forward réduit le temps de calcul. Ce dernier sera d’autant 

plus petit que δ sera grand. Il sera évidemment très court pour les deux 

plateaux. De plus, les premières caractéristiques sont presque systématiquement 

les mêmes : elles seront utilisées dans le Chapitre 6 pour essayer de gagner du 

temps sur la validation de K.

CHAPITRE 5. EFFET DES OUTLIERS 43 

Chapitre 5 

Effet des outliers 

Ce chapitre est consacré à l’étude de l’influence des outliers. Comme déjà 

énoncé, le LDA est sensible à ces derniers. Ce problème n’est pas propre au 

modèle LDA et est un problème récurrent en analyse de données. Ce qui suit 

est donc une analyse des performances de classification après divers essais pour 

enlever ces outliers. 


La plupart des méhodes utilisées dans ce chapitre ont déjà été expliquées 

dans la Section 3.1. Deux méthodes visant à éliminer les outliers doivent encore 

être expliquées. 

5.1.1 Elimination d’outliers de la base de données (type 1) 

Pour cette méthode, l’ensemble d’apprentissage est divisé en 22 groupes de 

battements, un pour chaque patient. Pour chaque groupe, on procède comme 

suit : le battement étant le plus près du centre de gravité du nuage est considéré 

comme la référence et nommé bréf . Ensuite, toutes les mesures de dissimilarité 

d(bi, bréf ) entre ce battement de référence bréf et tous les autres bi sont calculées. 

La moyenne et l’écart-type de d(bi, bréf ) sont calculés et nommés respectivement 

µd et σd. Les battements bi sont alors éliminés si d(bi, bréf ) < µd+3∗σd. Cela correpond, 

si l’on fait l’hypothèse d’une ditribution normale pour les dissimilarités, 

à garder plus ou moins 1% des battements, ceux ayant les dissimilarités les plus 

grandes. La norme de Minkowsky sera utilisée comme mesure de dissimilarité et 

pour trouver bréf . 

5.1.2 Elimination d’outliers après un clustering (type 2) 

Dans cette méthode, certains centroïdes marginaux sont supprimés durant 

l’étape de clustering. Une inspection visuelle des centroïdes n’étant pas possible,


il faut trouver un critère d’exclusion. Clairement, lors du processus de clustering, 

les outliers vont soit être oubliés par le clustering lui-même, soit l’outlier va 

attirer un centroïde en mouvement ou replacé car aucune donnée ne lui était 

plus affectée. Le critère suivant a été choisi, bien que d’autres auraient pu être 

investigués (mais ne l’ont pas été faute de temps). Soit un centroïde K qui code 

pour ni battement(s), ce centroïde est éliminé si ni ≤ 3. Ce critère suppose que 

les outliers ne sont pas rassemblés entre eux mais sont dispersés dans l’espace 

du clustering. 


Dans cette partie, plusieurs expériences vont être menées. Elles respectent 

la structure décrite à la Figure 3.3. Le but est d’évaluer à quel point les outliers 

jouent un rôle important dans les performances de classification après avoir 

rééquilibré les quatre classes en diminuant le nombre de battements normaux. 

Toutes les expériences menant à un nombre de battements normaux non compris 

entre le minimum et le maximum des trois autres classes ont été abandonnées. 

Dix cas ont été considérés. Pour chaque cas, les expériences sont lancées 10 fois, 

ce qui est moins qu’avant mais suffit à montrer la supériorité d’un des cas sur 

tous les autres. Voici la liste des cas : 

- Cas 10 : Sous-échantillonnage simple sans avoir éliminé les outliers, avec 

LDA non-pondéré. 

- Cas 20 : Sous-échantillonnage simple sans avoir éliminé les outliers, avec 

LDA pondéré. 

- Cas 11 : Sous-échantillonnage simple en ayant éliminé les outliers grâce à 

la méthode présentée à la Section 5.1.1 (type 1), avec LDA non-pondéré. 

- Cas 21 : Sous-échantillonnage simple en ayant éliminé les outliers grâce à 

la méthode présentée à la Section 5.1.1 (type 1), avec LDA pondéré. 

- Cas 30 : Sous-échantillonnage de type Clustering : k-means avec un recentrage 

à la fin et la norme d’ordre 2, sans avoir éliminé les outliers, avec 



à la fin et la norme d’ordre 2, sans avoir éliminé les outliers, avec 



à la fin et la norme d’ordre 2, en ayant éliminé les outliers avant le


clustering grâce à la méthode présentée à la Section 5.1.1 (type 1), avec 



à la fin et la norme d’ordre 2, en ayant éliminé les outliers avant le 




à la fin et la norme d’ordre 2, en ayant éliminé les outliers après le 




à la fin et la norme d’ordre 2, en ayant éliminé les outliers après le 



Il est à noter que le premier chiffre du cas correspond au cas 1 à 4 du Chapitre 

3 et le second chiffre au type d’élimination d’outliers utilisé : 0 si aucun n’a été 

utilisé, 1 si type 1 et 2 si type 2. 


Pour commencer, l’effet de l’élimination d’outliers dans la base de données 

(type 1) et de l’élimination d’outliers après un clustering (type 2) va être représenté 

visuellement. Ensuite viendront les résultats en termes de performance. 

5.3.1 Elimination des outliers de la base de données (type 1) 

L’effet de l’élimination des outliers dans la base de données est représenté 

ci-après, à la Figure 5.1 et à la Figure 5.2, chaque patient indépendamment pour 

plus de clarté. Le battement représenté en rouge est le battement de référence 

bréf de chaque patient. Les battements en bleu sont ceux qui ont été éliminés et 

les battements en vert sont ceux qui ont été gardés. On observe que l’algorithme 

a correctement éliminé les battements manifestement extrêmes, parfois très bien, 

parfois moins bien selon les patients. 

5.3.2 Elimination des outliers après un clustering (type 2) 

La Figure 5.3 représente les battements affectés à chaque centroïde. Ceux-ci 

ont été représentés par ordre d’enveloppe croissante et seuls les dix premiers et 

dix derniers sont représentés à la Figure 5.3. Représenter l’ensemble des quelques 

milliers de centroïdes gardés aurait peu d’intérêt, mais on peut constater qu’en


effet, les centroïdes C1 à C4 sont des outliers et doivent être éliminés. Le centroïde 

C5 sera également éliminé par l’algorithme, car il possède aussi moins 

de 3 éléments, mais peut-être à tort. Ces remarques sont les mêmes pour les 

enveloppes plus grandes. 

5.3.3 Sous-échantillonnage simple et élimination des outliers 

Cette partie contient les résultats des cas 10, 11, 20 et 21. La Figure 5.4 

présente les performances obtenues par chaque double expérience (n = 10) sous 

forme de boxplot. Le résultat est mitigé. Le score médian a augmenté lorsque l’on 

a ajouté l’élimination d’outliers de type 1 dans le cas du sous-échantillonnage 

simple avec LDA non-pondéré. Par contre, le score médian a diminué lorsque l’on 

a ajouté l’élimination d’outliers de type 1 dans le cas du sous-échantillonnage 

simple avec LDA pondéré. 


outliers (type 1) 



forme de boxplot. Le résultat est tout aussi mitigé. Le score médian a augmenté 

lorsque l’on a ajouté l’élimination d’outliers de type 1 dans le cas du souséchantillonnage 

de type Clustering avec LDA non-pondéré. Par contre, le score 

médian a diminué lorsque l’on a ajouté l’élimination d’outliers de type 1 dans le 

cas du sous-échantillonnage de type Clustering avec LDA pondéré. 


outliers (type 2) 



forme de boxplot. Le résultat est tout aussi mitigé. Le score médian a augmenté 

lorsque l’on a ajouté l’élimination d’outliers de type 2 dans le cas du souséchantillonnage 

de type Clustering avec LDA non-pondéré. Par contre, le score 

médian a diminué lorsque l’on a ajouté l’élimination d’outliers de type 2 dans le 

cas du sous-échantillonnage de type Clustering avec LDA pondéré. 


La Figure 5.7 présente les performances obtenues par chaque cas (n = 10) 

sous forme de boxplot. 

La Table 5.1 compare tous les résultats de ce chapitre entre eux grâce à un 

test de Student de supériorité.


Cas 10 Cas 11 Cas 20 Cas 21 Cas 30 Cas 31 Cas 32 Cas 40 Cas 41 Cas 42 

Cas 10 - 7,7e-1 7,4e-1 5,6e-1 5,3e-1 7,0e-1 6,8e-1 9,9e-1 9,7e-1 9,9e-1 

Cas 11 2,3e-1 - 4,7e-1 2,8e-1 2,8e-1 4,3e-1 3,9e-1 9,9e-1 8,5e-1 9,1e-1 

Cas 20 2,6e-1 5,3e-1 - 3,1e-1 3,0e-1 4,6e-1 4,2e-1 9,9e-1 8,8e-1 9,3e-1 

Cas 21 4,4e-1 7,2e-1 6,9e-1 - 4,7e-1 6,5e-1 6,2e-1 1,0e+0 9,6e-1 9,8e-1 

Cas 30 4,7e-1 7,2e-1 7,0e-1 5,3e-1 - 6,5e-1 6,4e-1 1,0e+0 9,4e-1 9,7e-1 

Cas 31 3,1e-1 5,7e-1 5,4e-1 3,5e-1 3,5e-1 - 4,7e-1 9,9e-1 8,8e-1 9,3e-1 

Cas 32 3,2e-1 6,1e-1 5,8e-1 3,8e-1 3,6e-1 5,3e-1 - 9,9e-1 9,2e-1 9,6e-1 

Cas 40 8,0e-4 1,0e-2 7,9e-3 1,5e-3 4,8e-3 1,1e-2 3,5e-3 - 1,7e-2 8,0e-2 

Cas 41 2,7e-2 1,5e-1 1,2e-1 4,0e-2 5,8e-2 1,2e-1 7,8e-2 9,8e-1 - 6,9e-1 

Cas 42 1,4e-2 8,8e-2 7,3e-2 2,2e-2 3,5e-2 7,4e-2 4,4e-2 9,2e-1 3,1e-1 - 

Table 5.1 – Test de supériorité au sens de Student. Ce tableau peut être interprété 

comme suit : chaque ligne représente les p-valeurs d’un test de supériorité 

d’un cas vis-à-vis des autres cas. La p-valeur est la probabilité d’obtenir l’écart 

observé s’il n’y a pas de différence réelle entre les deux groupes. Les p-valeurs 

étant inférieures à la valeur classique de 5% sont indiquées en gras. Cela signifie 

que si une entrée (i,j) est en gras, µi > µj. On constate que le cas 40 est bien 

supérieur à tous les autres, excepté peut-être le cas 42 mais la p-valeur n’est que 

de 8%. 

Dans tous les cas, l’élimination des outliers a permis d’augmenter les performances 

dans les cas où le LDA non-pondéré était utilisé. Par contre, les deux 

méthodes proposées diminuent les performances dans tous les cas lorsque le LDA 

est utilisé dans sa version pondérée. 

Cela peut venir du fait que le LDA pondéré est moins sensible ou encore que la 

suppression d’outliers ne se fait pas de manière optimale. Pour l’élimination de 

type 1, il aurait peut-être mieux valu faire le calcul pour chaque patient et pour 

chaque classe, plutôt que juste par patient. Pour le type 2, le seuil de trois battements 

aurait pu être ajusté. Ces options n’ont pas pu être investiguées faute 

de temps. 

En particulier, on constate qu’il est inutile d’enlever les outliers avant ou après 

un sous-échantillonnage de type Clustering si on utilise un LDA pondéré et que 

ce traitement possède les meilleures performances. Cela est confirmé par le test 

de supériorité de Student (bien que comparé au cas 42, la p-valeur est de 8% > 

5%).


Figure 5.1 – L’effet de l’élimination d’outliers pour les patients 1 à 12. Le 

battement représenté en rouge est le battement de référence bréf de chaque 

patient. Les battements en bleu sont ceux qui ont été éliminés et les battements 

en vert sont ceux qui ont été gardés.


Figure 5.2 – L’effet de l’élimination d’outliers pour les patients 13 à 22. Le 

battement représenté en rouge est le battement de référence bréf de chaque 

patient. Les battements en bleu sont ceux qui ont été éliminés et les battements 

en vert sont ceux qui ont été gardés.


Figure 5.3 – Battements affectés aux centroïdes, par ordre d’enveloppe croissante. 

Seuls les dix premiers (C1 à C10) et dix derniers centroïdes (C897 à 

C906) ont été représentés. K était donc égal à 906 pour l’expérience représerntée. 

Chaque battement en rouge constitue un battement-centroïde, les bleus 

représentent les battements oubliés et assimilés à leurs battement-centroïde.


Figure 5.4 – Boxplot des performances des cas 10, 11, 20 et 21 (n=10).






Figure 5.7 – Boxplot des performances de tous les cas de ce chapitre (n=10).

CHAPITRE 6. VALIDATION DU MODÈLE 55 

Chapitre 6 

Validation du modèle 

Dans ce chapitre, nous allons tenter de construire une méthode pour répondre 

de la meilleure façon possible au problème de classification énoncé dans 

la Section 2.6. Cette méthode utilisera les résultats obtenus dans les chapitres 

précédents tels que le choix des variables, du sous-échantillonage et du filtrage 

des outliers. Ce chapitre commence par expliquer la méthode choisie ainsi que les 

choix effectués. Ensuite viendront les résultats et une discussion sur ces derniers. 

Les différents éléments utilisés dans ce chapitre sont expliqués à la Section 3.1. 


Concernant la validation de K (nombre de battements de classe N gardés) : 

un leave-one-out par patient est effectué pour chaque candidat à la validation et 

ils sont comparés entre eux grâce aux scores obtenus. 

Un des désavantages majeur de cette technique est que le temps de calcul est 

multiplié par un facteur égal au nombre de patients. Un autre problème se 

pose lorsque plusieurs paramètres doivent être validés. L’exploration combinatoire 

d’un tel ensemble d’hyper-paramètres entraine dans le meilleur des cas 

une augmentation exponentielle du temps de calcul [23]. Historiquement, certains 

critères d’information ont été proposés pour essayer de corriger le biais du 

maximum de vraisemblance par addition d’un terme de pénalité qui compense le 

sur-apprentissage dû aux modèles trop complexes. On peut citer le AIC (Akaike, 

1974) et le BIC (Bayesian information criterion). Dans notre cas, la littérature 

n’a pas permis de trouver une telle solution, et après quelques réflexions sur 

l’opportunité d’en rechercher une, il a été choisi de se concentrer sur un moyen 

de diminuer le temps de calcul pour le rendre acceptable. 

Il est important de réfléchir aux paramètres qui doivent être validés, à la façon de 

le faire, mais aussi au temps de calcul nécessaire. Dans notre cas, c’est cette dernière 

contrainte qui était la plus limitante. La démarche a donc été la suivante : 

utiliser au mieux les informations acquises dans les chapitres précédents pour 

rendre la validation des hyper-paramètres possible. Le point de départ sera donc


ce qui aurait dû être fait si les données étaient bien moins nombreuses. Cette 

structure est décrite à la Figure 6.1. Des modifications seront ensuite apportées 

pour pouvoir se permettre d’employer toutes les données à disposition. 

Figure 6.1 – Structure pour une validation complète (point de départ), les 

étapes de validation étant indiquées en bleu : le nombre de battements normaux 

(classe N) est réduit par une technique de sous-échantillonnage, puis les 

battements restants sont ajoutés aux battements anormaux (de classe S, V, F) 

et forment l’ensemble d’apprentissage. Le premier paramètre à valider est donc 

K, le nombre de battements gardés. Cet ensemble de battements est transformé/exprimé 

sous forme de caractéristiques et une méthode forward ne garde 

que celles qui mènent à de bonnes performances. C’est la seconde validation : 

les caractéristiques gardées. Une fois celles-ci déterminées, un modèle de classification 

LDA est bâti et est évalué grâce à l’ensemble de test. Ce dernier n’a pas 

sa classe N réduite mais ce sont bien les caractéristiques choisies pas la méthode 

forward qui servent à évaluer les performances. On observe que pour valider K, 

il faut faire une validation des caractéristiques gardées à chaque itération de la 

validation de K. 

Le grand problème est de valider K. en effet le clustering est une méthode 

non-supervisée, il nous faut donc un moyen d’attribuer un score à chaque candidat 

à la validation. Pour ce mémoire, c’est le score de la classification suivant 

un clustering considéré qui est utilisée pour déterminer si ce dernier est meilleur 

qu’un autre. Pour savoir si K est un bon nombre de battements à garder, il 

faut donc effectuer un clustering sur les battements N, ajouter les battements S, 

V et F, sélectionner de bonnes caractéristiques au sens d’une méthode forward 

pour les battements restants et entrainer un modèle LDA avec ces battements. 

Cela permet d’utiliser la matrice de confusion et le BCR pour avoir le score.


Sélectionner les caractéristiques signifie aussi faire une validation, on se retrouve 

donc devant deux validations imbriquées, ce qui est possible du point de vue 

conceptuel, mais trop long du point de vue calculatoire. 

La modification suivante a été apportée pour rendre la manœuvre possible : la 

validation des caractéristiques gardées va être court-circuitée quand elle est imbriquée 

avec la validation de K. Cela signifie qu’elle ne le sera pas lorsque Kvalidé 

aura été choisi comme étant le candidat à la validation ayant obtenu le meilleur 

score. Les particularités du plateau à deux caractéristiques seront utilisées (voir 

Section 4.3). Deux ensembles de caractéristiques étaient systématiquement choisis 

par la méthode forward : Caract1 = {191, 2} ou Caract2 = {191, 10}, 

Caract1 étant plus représenté (voir la Section 3.1.1 pour la signification de ces 

caractéristiques). Le nombre restreint de caractéristiques permet une représentation 

en 2D, qui est visible à la Figure 6.2 et 6.3 pour Caract1 et Caract2 

respectivement. On observe que l’hypothèse de gaussianité des classes est bien 

respectée dans les deux cas, mais que le résultat ne pourra pas être parfait. L’ensemble 

Caract1 étant plus représenté à la Table 4.2, celui-ci sera utilisé. 

Figure 6.2 – Représentation du problème de classification dans le repère des 

caractéristiques 191 et 2. Les battements N sont en bleu, les S en rouge, les V 

en vert et les F en noir.


Figure 6.3 – Représentation du problème de classification dans le repère des 

caractéristiques 191 et 10. Les battements N sont en bleu, les S en rouge, les V 

en vert et les F en noir. 

Une fois Kvalidé fixé, on revient à la structure de base représentée à la Figure 

3.3 avec le nombre de battements de classe N gardés égal à Kvalidé mais aussi 

pour les autres candidats à la validation. On pourra ainsi vérifier si la validation 

prédit bien le meilleur K. 

Les candidats à la validation on été choisis comme suit : le minimum du nombre 

de battements compris dans les classes S, V et N étant 413 et le maximum 

3784. Ceux-ci ont d’abord été arrondis à leur centaine la plus proche vers le 

centre de l’intervalle : 500 et 3700 sont obtenus. Ensuite, cinq valeurs également 

distantes, pour avoir les cinq candidats à la validation : Kcandidats = 

{500, 1300, 2100, 2900, 3700}. A noter que la validation est sensiblement plus 

rapide pour les petites valeurs de Kcandidats. 


La Figure 6.4 rapporte les scores obtenus pour chaque candidat à la validation 

en bleu. On observe que c’est Kvalidé = 2900 qui obtient les meilleures 

performances.


La structure décrite à la Figure 3.3 est ensuite utilisée avec comme nombre 

de battements de type N à garder Kvalidé et les autres candidats à la validation 

(soit K = {500, 1300, 2100, 2900, 3700}). Le sous-échantillonnage est de type 

Clustering k-means avec un recentrage à la fin (norme d’ordre 2) et le classifieur 

est le LDA pondéré (le cas 4). On obtient les performances en vert à la Figure 

6.4. La Table 6.1 reprend le détail de ces performances. Chaque précision de 

classe est toujours comprise entre 50 et 97.5%. On peut diviser les observations 

en deux groupes : K1 = {1300, 2100, 3700} et K2 = {500, 2900}. Le groupe K1 

possède grosso modo des précisions de prN = 75%, prS = 97%, prV = 67% et 

prF = 90% pour les classes N, S, V et F respectivement. Celles-ci tournent plutôt 

autour de prN = 82%, prS = 55%, prV = 78% et prF = 83% pour le groupe K2. 

On peut exprimer l’hypothèse que ces deux groupes résultent de deux minima 

locaux du clustering. On observe que les BCR (quelle que soit sa définition) 

sont plus faibles pour le groupe K2 à cause de la classe S. Cela confirme que le 

problème de convergence du clustering est un élément important. 

K= 500 1300 2100 2900 3700 

prN 83.60 73.36 76.19 81.80 75.14 

prS 59.59 97.22 96.08 50.60 97.00 

prV 76.23 66.73 68.93 79.56 67.38 

prF 85.05 90.21 90.46 79.64 90.46 

BRC 76.12 81.88 82.92 72.90 82.50 

BRC 75.39 80.95 82.20 71.56 81.64 

Table 6.1 – Précisions pour chaque valeur de K et pour chacune des quatre 

classes. La méthode utilisée correspond au cas 4 (ou 40). La validation-croisée 

prévoyait des performances maximales en K = 2900, mais on observe que ce n’est 

pas le cas. BRC signifie BCR avec la définition en moyenne arithmétique et 

BRC signifie BCR avec la définition en moyenne géométrique. 


Malheureusement, la validation proposée dans cette partie ne permet pas de 

prédire correctement le meilleur K, elle a même tendance à prédire le contraire. 

Cette incapacité peut venir de l’hypothèse formulée pour gagner du temps (n’utiliser 

que deux caractéristiques lors de la validation). Cette hypothèse était tout 

de même nécessaire car elle a permis cette validation en deux semaines (sur PC 

récent), autant dire que cela n’aurait pas été possible sans ce raccourci. Plus 

fondamentalement, le problème vient du fait de la variablilité des résultats due 

au clustering lui-même. En effet, le bénéfice tiré lors de la validation est de loin 

inférieur à la perte de performance due à la variabilité du clustering lui-même. 

Cette variablilité est liée au risque de tomber dans un minimum local. Il se-


Figure 6.4 – Validation du nombre K en bleu et performances obtenues en 

réutilisant la structure décrite à la Figure 3.3 avec ces mêmes K en vert. On 

observe que ce n’est pas le meilleur score de validation qui mène aux meilleures 

performances. 

rait donc plus intéressant d’ajouter une étape visant à prévenir d’une mauvaise 

convergence lors d’un clustering. Cette opportunité avait déjà été énoncée au 

Chapitre 3 : on y présentait au moins deux manières de faire. Le désavantage 

est que cela rallonge encore le temps d’un calcul déjà bien long.

CHAPITRE 7. CONCLUSIONS 61 

Chapitre 7 

Conclusions 

7.1 Résumé 

La classification des battements cardiaques est un problème crucial pour 

certaines applications cliniques impliquant un suivi de long-terme de la fonction 

cardiaque. Celle-ci sert d’aide au diagnostic mais ne remplace pas un avis 

médical : le cardiologue gagne toutefois beaucoup de temps car il ne doit pas 

considérer tous les battements mais seulement ceux qui ont été annotés comme 

anormaux par l’algorithme. Cette classification peut se faire en intra-patient ou 

en inter-patient. C’est cette dernière, plus difficile mais aussi plus pertinente, qui 

a été investiguée. En se basant sur les directives de l’AAMI, et en considérant 

que le problème de déséquilibre des classes pouvait être réglé grâce à un souséchantillonnage 

de la classe sur-représentée, plusieurs modèles ont été proposés 

pour répondre à ce problème de classification. Pour ce faire, une métrique appelée 

BCR, avec une définition en moyenne géométrique a été utilisée, ainsi qu’un 

paradigme de validation inter-patient. En particulier, un modèle composé d’une 

étape de clustering pour le sous-échantillonnage et d’un LDA pondéré comme 

classifieur a obtenu les meilleurs résutlats. Ce modèle a prouvé sa résistance au 

sur-apprentissage et aux outliers dans les Chapitres 4 et 5 respectivement. Pour 

ce qui est de la validation, celle-ci est non seulement très longue mais aussi peu 

fiable. Le problème viendrait d’une variabilité dans la convergence. Pour lutter 

contre celle-ci, il serait bon de considérer une étape supplémentaire de contrôle. 


Le modèle retenu par ce mémoire utilise le clustering pour sous-échantillonner 

la classe N pour rééquilibrer les classes, et un classifieur LDA pondéré présenté 

à l’origine dans [17]. Ce modèle obtient un BCR moyen de 77,43% (définition en 

moyenne géométrique). 

Le sous-échantillonnage effectué doit l’être avec beaucoup d’attention car il correspond 

à une perte d’information importante. En effet, le nombre de battements


peut être réduit jusqu’à un facteur 100. Il est quelque part logique que se soit 

l’approche clustering, qui utilise toute l’information et est non restreinte par 

l’ordre d’aquisition, qui ait mené aux meilleures performances. 

Le gros problème de notre méthode reste le choix de K. En effet, les deux validations 

imbriquées rendent ce choix déjà difficile, mais la variabilité des performances 

due à la convergence du clustering est plus grande encore que le bénéfice 

d’un K bien choisi. Il faudrait donc idéalement régler ce problème de variabilité 

par l’une des méthodes proposées au Chapitre 3 et utiliser une méthode forward 

avec toutes les caractéristiques lors de la validation. Ce n’était bien sûr pas réalisable 

dans le cadre de ce mémoire. 

Une autre difficulté est l’extraction de caractéristiques. La méthode proposée 

a prouvé qu’elle évitait le sur-apprentissage mais on a pu aussi constater que 

l’arrêt de la procédure forward à la seconde caractéristique donnait de bonnes 

performances mais surtout possédait une variance très faible vis-à-vis de la valeur 

de K (le nombre de battements gardés après sous-échantillonnage). Ce qui 

peut représenter une propriété intéressante. 

Pour améliorer encore plus les performances, ou pour partir d’une autre approche, 

les combinaisons de classifieurs sont souvent utilisées dans le domaine 

de la classification d’ECG. Ces combinaisons de classifieurs sont appellées systèmes 

hybrides [12]. Cette approche plus efficace est basée sur la combinaison 

de plusieurs classifieurs et différents types de pré-traitements des données (voir 

par exemple [31], [32], [33]). Le modèle présenté dans ce mémoire ne perd pas de 

son intérêt, car celui-ci pourrait très bien être l’un des classifieurs d’un système 

hybride. 

Une critique que l’on peut adresser à la démarche utilisée est le manque 

de dialogue entre les médecins cardiologues et les ingénieurs qui développent les 

outils de la médecine de demain. L’utilisation des standards AAMI vient quelque 

peu contrer cet argument. Une autre critique est le fait que l’on n’ait pas essayé 

d’inverser l’ensemble d’apprentissage et de test ou d’avoir recourt à une autre 

base de données. 

7.3 Problèmes rencontrés 

Un seul gros problème a été rencontré mais il était de taille : le temps de 

calcul. Traiter autant de données a contraint à utiliser des techniques simples et 

à faire des sacrifices. Beaucoup de temps a été passé à évaluer combien de temps 

une méthode prendrait dans tel cas et les différentes complexités, mais cela n’est 

pas reporté de manière exhaustive dans ce mémoire.


7.4 Travaux futurs 

Les points principaux en suspens restent la validation de K et la variablité 

des performances due à la convergence du clustering. Des pistes ont été avancées 

pour ces deux problèmes mais elles nécessitent de passer sur des machines encore 

plus puissantes vu leur temps de mise en oeuvre. Dans le cas de la validation, 

passer d’une approche Wrapper à une approche Filter permetterait sans doute 

de gagner du temps pour les étapes de sélection des variables. 

L’utilisation du classifieur LDA a permis un gain de temps important qui a 

rendu possible l’écriture de ce mémoire. Un des désavantages de ce classifieur est 

qu’il est linéaire. L’utilisation de techniques plus avancées comme les Machines 

à Vecteur de Support aurait sans doute permis d’augmenter les performances. 

De plus, une version pondérée du SVM pour l’apprentissage avec des classes 

déséquilibrées est disponible dans [1]. 

Dans ce mémoire, le rééquilibrage des classes se fait en sous-échantillonnant 

uniquement la classe N, ce qui donne sûrement son utilité au LDA pondéré qui 

« achève le travail ». Une autre approche aurait pu être de sous échantillonner 

toutes les classes vers un nombre égal de battements, rendant le LDA pondéré 

inutile car égal au LDA non-pondéré. Les premières investigations en ce sens ne 

semblent cependant pas montrer d’augmentation des performances.

Bibliographie 

[1] G. de Lannoy. Automated modeling and processing of long-term electrocardiogram 

signals. PhD thesis, Universite Catholique de Louvain, 2011. 

[2] S. Osowski, L. Tran Hoai, and T. Markiewics. Support vector machinebased 

expert system for reliable heartbeat recognition. IEEE transactions 

on biomebical engineering, vol. 51, no. 4, 582-589, 2004. 

[3] D. Cuesta-Frau, J. C. Perez-Cortes, and G. Andreu-Garcia. Clustering 

of electrocardiograph signals in computer-aided holter analysis. Computer 

Methods and Programs in Biomedicine 72, 179-196, 2003. 

[4] Y. H. Hu, W. tompkins, J. L. Urrusti, and V. X. Alfonson. Application of 

artificial neural networks for ecg signal detection and classification. Electrocardiology, 

vol. 24, 123-129, 1994. 

[5] K. Minammi, H. Nakajima, and T. Yoyoshima. Real time discrimination 

of the ventricular tachyarrhythmia with fourier-transform neural network. 

IEEE transactions on biomebical engineering, vol. 46, 179-185, 1999. 

[6] G. E. Oien, N. A. Bertelsen, T. Eftestol, and J. H. Husoy. Ecg rythm 

classification using artificial neural networks. IEEE digital signal processing 

workshop, vol. 44, 514-517, 1996. 

[7] M. Lagerholm, C. Peterson, G. Braccini, L. Edenbrandt, and L. Sornmo. 

Clustering ecg complexe using hermite functions and self-organizing maps. 

IEEE transactions on biomebical engineering, vol. 47, 838-847, 2000. 

[8] S. Osowski and L. T. Hoai. Ecg beat recognition using fuzzy hybrid neural 

network. IEEE transactions on biomebical engineering, vol. 48, 1265-1271, 

2001. 

[9] Y. H. Hu, S.Palreddy, and W. tompkins. A patient adaptable ecg beat classifier 

using a mixture of experts approach. IEEE transactions on biomebical 

engineering, vol. 44, 891-900, 1997. 

[10] Vander, Sherman, and Luciano. Physiologie humaine, 4e edition. Maloine, 

2007. 

[11] R. Mark and G. Moody. Mit-bih arrythmia database directory. Cambridge, 

MA : MIT, 1988. 

[12] Clifford, Azuaje, and McSharry. Advanced Methods and Tools for ECG Data 

Analysis. Artech House, 2006. 

64

BIBLIOGRAPHIE 65 

[13] R. Jafari, H. Noshadi, S. Ghiasi, and M. Sarrafzadeh. Adaptative electrocardiagram 

feature extraction on distributed embedded systems. IEEE 

transaction on parallel and distributed systems, 17 :1-11, 2006. 

[14] M. Paoletti and C. Marchesi. Discovering dangerous patterns in long-term 

ambulatory ecg recording using a fast qrs detection algorithm and explorative 

analysis. Computer Methods and programs in biomedicine, 82 :20-30, 

2006. 

[15] N. J. Holter. New methods for heart studies. Science 134, 1214, 1961. 

[16] E. Jovanov and al. Real time holter monitoring of biomedical signals. DSP 

technology and education conference (DSPS-99), 1999. 

[17] I. Guyon and A. Elisseeff. An introduction to variable and feature selection. 

Journal of Machine Learning Research 3, 1157-1182, 2003. 

[18] A. Liu, J.Ghosh, and C. Martin. Generative oversampling for mining imbalanced 

datasets. DMIN 2007 : Proceedings of the 2007 international conference 

on data mining, 66-72, Las Vegas, Nevada, USA, 2007. 

[19] A. L. Goldberger, L. A. N. Amaral, L. Glass, J. M. Hausdorff, P. Ch. 

Ivanov, R. G. Mark, J. E. Mietus, G. B. Moody, C.-K. Peng, and 

H. E. Stanley. PhysioBank, PhysioToolkit, and PhysioNet : Components 

of a new research resource for complex physiologic signals. Circulation, 

101(23) :e215–e220, 2000 (June 13). Circulation Electronic Pages : 

http ://circ.ahajournals.org/cgi/content/full/101/23/e215. 

[20] J. P. Martinez, R. Almeida, S. Olmos, A. P. Rocha, and P.Laguna. A 

wavelet-based ecg delineator : evaluation on standard databases. IEEE 

Transactions on Biomedical Engineering, 51 :570-81, 2004. 

[21] K. S. Park, B. H. Cho, D. H. Lee, S. H. Song, J. S. Lee, Y. J. Chee, and 

I. Y. Kim. Hierarchical support vector machine based heartbeat classification 

using higher order statistics and hermite basis function. Computer in 

Cardiology, 229-232, 2008. 

[22] R. Pieraccini. Pattern compression in isolated word recognition. Sign. Proc. 

7, 1-15, 1984. 

[23] C. M. Bishop. Pattern recognition and machine learning. Springer, 2006. 

[24] P. Hansen and N. Mladenovic. J-means : A new local search heurisic for 

minimum sum-of-square clustering. Pattern Recognition 34, 405-413, 2001. 

[25] J. L. Rodriguez-Sotelo, D. Cuesta-Frau, and G. Castellanos-Dominguez. 

An improved method for unsupervised analysis of ecg beats based on wt 

features and j-means clustering. ISSN 0276-6574 Computers in Cardiology 

2007, 34 :581-584, 2007. 

[26] P. de Chazak, M. O’Dwyer, and R. B. Reilly. Automatic classification of 

heartbeats using ecg morphology and heartbeat interval features. IEEE 

transactions on biomebical engineering, vol. 51, no. 7, 1196-2006, 2004.

BIBLIOGRAPHIE 66 

[27] Hastie, Tibshirani, and Friedman. The Elements of Statistical Learning, 2e 

edition. Springer, 2009. 

[28] B. D. Ripley. Pattern recognition and neural networks. Cambridge, 

U.K. :Cambridge Univ. Press, 1996. 

[29] I. Guyon, S. Gunn, M. Nikravesh, and L. A. Zadeh. Feature extraction : 

Foundations and applications (studies in fuzziness and soft computing). 

Springer-Verlag New York, Inc., Secausus, NJ, USA, 2006. 

[30] G. H. Nguyen, A. Bouzerdoum, and S. l. Phung. Learning pattern classification 

tasks with imbalanced data sets. volume Pattern Recognition. 

INTECH, 2009. 

[31] S. Osowski and L. T. Hoai. Ecg beat recognition using fuzzy hybrid neural 

network. New York : Wiley, 1992. 

[32] S. Hashem. Optimal linear combinations of neural networks. Neural Networks, 

vol. 10, 599-614, 1997. 

[33] L. Xu, A. Krzyzak, and C. Y. Suen. Methods of combining multiple classifiers 

and their applications to handwriting recognition. IEEE transactions 

on systems, man and cybernetics, vol. 22, 418-434, 1992.

Traitement automatique du signal ECG pour l'aide au diagnostic de ...

Create successful ePaper yourself

Delete template?

Save as template?