traitement d'images par modèles discrets sur ... - Olivier Lezoray
traitement d'images par modèles discrets sur ... - Olivier Lezoray
traitement d'images par modèles discrets sur ... - Olivier Lezoray
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
94 Chapitre 3 - Classification de données d’images <strong>par</strong> apprentissage<br />
➌ Décodage global <strong>par</strong> algorithme évolutionnaire A <strong>par</strong>tir des différents schémas de<br />
décomposition de la littérature et nos propositions, nous pouvons globalement faire le classement<br />
suivant de leur performances : DDAG ≤ ADAG ≤ Décodage direct ≤ ODAG ≤ Décodage<br />
<strong>par</strong> stacking. On voit donc que pour améliorer les performances des schémas de décodage, cela<br />
nous amène à prendre en compte le fait que les classificateurs utilisés ne sont pas <strong>par</strong>faits et<br />
voire même que certains sont <strong>par</strong>fois non pertinents pour une classification donnée. Jusqu’à présent,<br />
toutes les méthodes de la littérature (y compris les nôtres) <strong>par</strong>tent du principe naturel que<br />
pour concevoir un schéma multi-classes performant, chacune des fonctions de décision binaires<br />
doit être la plus performante possible. C’est ce qui est mis en avant dans les travaux de Rifkin<br />
[RIFKIN04] qui montre que si les classificateurs binaires sont bien optimisés, des schémas de<br />
décomposition et de décodage différents amènent souvent à des résultats proches. C’est également<br />
ce que nous avons pu constater dans nos travaux. Cependant, les schémas de décodage <strong>par</strong><br />
apprentissage permettent pourtant d’améliorer les performances, ce qui laisse supposer qu’une<br />
autre voie est possible. Ceci nous a amené à nous poser la question suivante : produit-on le<br />
meilleur schéma multi-classes possible en combinant les meilleurs classificateurs binaires <br />
A priori rien ne peut garantir le fait que combiner les fonctions de décision binaires les plus performantes<br />
performantes permette de produire le meilleur schéma de décodage exploitant cellesci.<br />
Il suffit de considérer le principe du boosting [SCHAPI03] pour se persuader du contraire : on<br />
peut produire un schéma de classification performant à <strong>par</strong>tir de plusieurs classificateurs faibles.<br />
Nous nous sommes alors proposés de vérifier ce fait expérimentalement afin de produire des<br />
contre-exemples au triptyque habituel à savoir 1) Décomposition 2) Optimisation des classificateurs<br />
binaires 3) Décodage. Pour cela, nous avons cherché à optimiser globalement le problème<br />
multi-classes <strong>par</strong> décomposition. Cela revient à effectuer une sélection de modèle globale car<br />
l’optimisation d’un classificateur binaire n’est plus effectuée <strong>par</strong> rapport à ses seules performances<br />
en généralisation mais <strong>par</strong> rapport aux performances en généralisation de l’ensemble du<br />
schéma multi-classes. Une telle optimisation globale est un problème difficile car l’espace des<br />
<strong>modèles</strong> potentiels à tester est très grand. Nous avons donc choisi une méta-heuristique à base<br />
d’algorithme évolutionnaire pour effectuer cette sélection globale de modèle. Nous ne détaillons<br />
pas ici sa mise en oeuvre [LEBRUN06, 53]. Nous avons fixé le schéma de décodage comme étant<br />
un décodage direct <strong>par</strong> la méthode de Price pour une décomposition un-contre-un. Le tableau<br />
3.11 présente les résultats que nous avons obtenus <strong>sur</strong> plusieurs bases avec deux schémas de<br />
décomposition différents.<br />
un-contre-tous un-contre-un<br />
Base n c ē ∆ē ē ∆ē<br />
Satimage 6 11,6±1,0% +0,1% 11,8 ± 1,0% -0,0%<br />
USPS 10 8,5±1,6% -0,3% 8,4±1,6% -0,5%<br />
Letter 26 19,7±1,8% -2,4% 18,6±2,1% -2,8%<br />
TAB. 3.11 – Taux d’erreur moyen ē et écart type ∆ē des valeurs estimées de e <strong>par</strong> validation<br />
croisée avec une sélection de <strong>modèles</strong> <strong>par</strong> algorithme évolutionnaire.<br />
La colonne ∆ē correspond à l’écart entre la sélection de modèle global <strong>par</strong> algorithme évolutionnaire<br />
et une sélection de modèle classique (une indépendante <strong>par</strong> fonction de décision<br />
binaire). Les classificateur binaires sont ici des SVM. Les résultats illustrent bien qu’une sélection<br />
multi-modèle est plus performante qu’une sélection classique et cet effet s’accentue lorsque<br />
le nombre de classes augmente. Ces résultats remettent totalement en question le triptyque habituel<br />
de la conception d’un schéma multi-classes de combinaison de classificateurs binaires.