traitement d'images par modèles discrets sur ... - Olivier Lezoray
traitement d'images par modèles discrets sur ... - Olivier Lezoray
traitement d'images par modèles discrets sur ... - Olivier Lezoray
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
60 Chapitre 3 - Classification de données d’images <strong>par</strong> apprentissage<br />
f d : O → X<br />
X<br />
f ∈ H : X → Y<br />
O<br />
f o : O → Y<br />
Y<br />
FIG. 3.1 – Pour un problème d’apprentissage donné, un objet o ∈ O représentatif de ce problème<br />
est décrit <strong>par</strong> un vecteur d’attributs x ∈ X et est identifié <strong>par</strong> l’oracle o comme étant de la classe<br />
y ∈ Y. Dans ce schéma, f d et f o représentent respectivement la procédure réalisant la description<br />
d’un objet o et le processus décisionnel de l’oracle o. L’objectif d’un apprenant est de choisir<br />
une hypothèse f ∈ H dont les prédictions sont les plus proches possible de l’oracle.<br />
La problématique de l’apprentissage supervisé est de trouver une fonction f aussi bonne que<br />
possible qui à un vecteur x ∈ X associe une classe y ∈ Y. L’objectif est alors de choisir f ∗ ∈ H<br />
qui minimise le risque réel correspondant :<br />
f ∗ = arg min R reel (h) (3.1)<br />
h∈H<br />
Pour évaluer la pertinence de la prédiction de f, on introduit généralement une fonction de coût<br />
l(f(x), y). L’estimation du risque lié à une hypothèse h à <strong>par</strong>tir d’un ensemble Z m ∈ Z de m<br />
exemples, appelée risque empirique, est égal à :<br />
R emp (f) = 1 m<br />
m∑<br />
l (f (x i ) , y i ) (3.2)<br />
i=1<br />
Le risque empirique ne permet pas d’évaluer la pertinence d’un modèle car il est possible de<br />
choisir f de manière à ce que le risque empirique soit nul mais que l’erreur en généralisation<br />
soit élevée (<strong>sur</strong>-apprentissage) [CORNUÉ02].<br />
Si l’on replace l’apprentissage supervisé relativement au processus de fouille de données, un<br />
système d’apprentissage doit réaliser l’optimisation d’un problème qui regroupe la sélection des<br />
exemples, la sélection des attributs, la sélection des hyper-<strong>par</strong>amètres relatifs à l’exploitation<br />
d’algorithmes d’apprentissage supervisé, la structure de la décomposition en sous-problèmes et<br />
le principe de décodage mis en œuvre (figure 3.2). La décomposition en sous-problèmes est classique<br />
en apprentissage artificiel. On distinguera plusieurs cas. Le premier classique consiste à<br />
utiliser plusieurs classificateurs puis à les combiner [KUNCHE04]. Le second consiste à décomposer<br />
un problème de classification en n c classes en plusieurs sous problèmes plus simples et<br />
à les combiner ensuite [HSU02] (approches un-contre-tous ou bien un-contre-un <strong>par</strong> exemple).<br />
Nous reviendrons plus en détail (voir section 3.5) <strong>sur</strong> ce second type de décomposition. Chaque<br />
sous-problème peut nécessiter une sélection d’exemples et d’attributs qui lui est propre et donner<br />
naissance à une nouvelle décomposition. Cela signifie que, pris dans sa globalité, un système<br />
d’apprentissage artificiel supervisé devra permettre d’effectuer les étapes 3 à 6 du processus de<br />
fouille de données. Nous pouvons regrouper l’ensemble de ces sélections sous le terme générique<br />
de sélection de <strong>modèles</strong> (ou sélection multi-modèle si nous voulons insister <strong>sur</strong> la pluralité<br />
des sélections à réaliser). La sélection d’un modèle optimisant la qualité du processus décisionnel<br />
correspond donc à un problème d’optimisation difficile et deux approches sont possibles