09.07.2015 Views

Reconnaissance Bayesienne - PRIMA

Reconnaissance Bayesienne - PRIMA

Reconnaissance Bayesienne - PRIMA

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9La Classification <strong>Bayesienne</strong>La technique <strong>Bayesienne</strong> de Classification repose sur une fonction de véritéprobabiliste et le règle de Bayes.Dans un système de vérité probabilisté, la valeur de vérité de la proposition uneprobabilité :p(ω k ) = p(E ∈ ω k ) = vérité(E ∈ ω k )Par convention on écrit p(ω k ) pour p(E ∈ ω k ).Le critère de décision est de minimiser le nombre d'erreur. Dans un systèmeprobabiliste, ca revient de minimiser la probabilité d'erreur. Ceci est équivalent àchoisir la classe le plus probable.ω^k = Decider(E ∈ ω k ). = arg-maxω k{p(ω k | X )}Pour estimer la probabilité nous utilisons les caractéristiques, X → , de l'événement.Conisdère le cas D = 1 et K = 2. Dans ce cas, le domaine d'X est un axe.La classification est équivalente à une decoupage du domaine d'X en deux zones : Z 1et Z 2.ω^1 si X ∈ Z 1 et ω^2 si X ∈ Z 21p(ω 1 |x)p(ω 2 |x)0x minXZone Z 1 Zone Z 29-3x maxx


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9La probabilité d'erreur est la somme des probabilités de p(ω 2 ) en Z1 etla somme de probabilité de p(ω 1 |X) en zone 2.p(erreur) = ∑Z 1p(ω 2 | X) + ∑Z 2p(ω 1 | X)La minimum est atteint quand :Donc d(g k (X)) = arg-max {p(ω k | X )}ω kDans ce cas, nous avons utilisé arg-max {p(ω k | X )} en tant que fonction deω kdécision et g k (X) = p(ω k | X) comme la fonction de discriminationProbabilité :La probabilité peut être assimilé à la fréquence d'occurrence.Par exemple, si nous observons M événements et M k de ces événements sont issusde la classe ω k , on dit que la probabilité qu'un événnement E soit issu de la classeω k est :p(E ∈ ω k ) = p(ω k ) ≡ LimM→ ∞ {M kM }pour M finit, en écritp(ω k ) ≈ M kMEn règle générale, il faut observer M k ≥ 10 pour que cette approximation soitraisonnable.La démonstration de se règle demande un développement qui nous amène trop loinde notre sujet.Cette approche se généralise pour la probabilité des caractéristiques.Soit une caractéristique de valeur entier, X, tel que x ∈ [X min , X max ]On peut représenter p(X=x) avec une table de fréquence, h(x), composé deN = X max – X min +1 cellules.9-4


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9Pour estimer p(X), on observe une ensemble aléatoire de M événements avec leurscaractéristiques. Cet ensemble est dit l'ensemble d'entrainement (training set) {X m }∃ X m ∈ {X m } : h(X m ) := h(X m ) + 1Ensuite :La probabilité à priori que X=x :p(X=x) ≈ 1 M h(x)par convention en écrit p(X=x) comme p(X) ≈ 1 Mh(x)On peut voir chaque cellule comme une sorte de classe de la caractéristique X.Donc, en règle génerale, il faut plus que 10 exemples per cellule de h(x).Pour N cellules, il faut une ensemble d'entrainementde M > 10 N exemples.Dans le cas de K classes, la probabilité conditionnelle de X:p(X=x | ω k ) ≈ 1 M kh k (x)par convention on écrit p(X=x | ω k ) comme p(X | ω k )Et il faut M k > 10 N pour chaque classe.9-5


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9Le Règle de BayesDans la dernière séance nous avons vu que pour deux classes indépendantesd'événements, A et B. .ou bienp(E∈A ∧ E∈Β) = p(E∈Β | E∈A) p(E∈A) = p(E∈A | E∈Β) p(E∈Β)p(A ∧ Β) = p(Β | A) p(A) = p(A | Β) p(Β)Ceci peut se généraliser pour X et ω k . Soit A ≡ (X=x) et B ≡ (E∈ω k )p(X=x ∧ E ∈ ω k ) = p(E ∈ ω k | X=x) p(X=x) = p(X=x | E ∈ ω k ) p(E ∈ ω k )ou bienp(X ∧ ω k ) = p(ω k | X) p(X) = p(X | ω k ) p(ω k )Donc :p(ω k | X ) = p(X | ω k) p(ω k )p(X)En utilisant une table de fréquence pour les probabilités, on obtient une résulteinterressante :p(ω k | X ) = p(X | ω k ) p(ω k )p(X)≈M k 1M Mh k (X) k1M h(X)= h k(X)h(X)9-6


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9Cette technique marche également pour les vecteurs de caractéristiques X →La histogramme est une table a D dimensions : h(X → )probabilité conditionnelle de X → ): p(X → | ω k ) ≈ 1 M kh k (X → )Probabilité à priori de X → : p(X → ) ≈ 1 M h(X→ )ce qui donne :p(ω k | X → ) = p(X→ | ω k ) p(ω k )p(X → )≈M k 1M Mh k (X → ) k1M h(X→ )= h k(X → )h(X → )Cette technique s'avère très utile dans les cas où il y a suffisamment d'échantillonspour faire un histogramme valable. Par exemple quand on traite des images ou lessignaux. Mais il faut toujours M > 10 N exemples. Pour un tableau de Ddimensions, avec B, cellules pers dimensions, celui-ci devientM > 10 B DM accroitre exponentiellement avec le nombre de dimensions.Une détaille :Que faire si la masse d'exemple est insuffisante : M < 10 N ?Que faire si x n'est pas entier ?Dans ces cas, on peut faire appel à une fonction paramétrique pour p(X).La fonction paramétrique la plus utilisée est la loi Normale.9-7


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9La Loi NormaleQuand les variables aléatoires sont issues d'une séquence d’événements aléatoires,leur densité de probabilité prend la forme de la loi normale, N(µ, σ). Ceci estdémontré par le théorème de la limite centrale. Il est un cas fréquent en nature.La loi Normale décrit une population d'exemples {X m }.Les paramètres de N(µ, σ) sont les premiers et deuxième moments de lapopulation.On peut estimer les moments pour n’importe quel nombre d'exemples (M>0)On peut même estimer les moments quand il n'existe pas les bornes (X max –X min )ou quand X est une variable continue.Dans ce cas, p( ) est une "densité" et il faut une fonction paramétrique pour p().Dans la plupart des cas, on peut utiliser N(µ, σ) comme une fonction de densitépour p(x).p(x)≈ N(x; µ, σ) =12πσe –(x–µ)2 2σ 2N(x; µ, σ)µ−σµ µ+σxLe base "e" est : e = 2.718281828....Il s'agit du fonction tel que ∫ e x dx= e xLe terme12πσsert à normaliser la fonction en sorte que sa surface est 1.∞⌠⎮⌡–∞e –(x–µ)2 2σ 2 dx = 2π σ.Le terme d 2 (x)= (x–µ)2σ 2est la difference entre x et µ normalisée par la variance.9-8


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9La différence (x – µ) 2 est la "distance" entre une caractéristique et la moyenne del'ensemble {X m }. La variance, σ 2 , sert à "normaliser" cette distance.La différence normalisée par la variance est connue sous le nom de "Distance deMahalanobis". La Distance de Mahalanobis est un test naturel de similaritéEstimations des moments d'une densitéLe premier moment : La MoyenneSoit M observations d'un variable aléatoire, {X m } : { X 1 , X 2 , ..., X M }La moyenne est l’espérance de {X m }. .µ ≡ E{X} = 1 M ∑MX mm=1Il s'agit d'une somme sur M (le nombre exemples).On note que dans le cas ou il existe une histogramme pour X, on peut aussi estimerla moyenne par la table de fréquence. La masse d’un histogramme, h(x) est lenombre d'échantillons qui composent l'histogramme, M.M =x max∑ h(x)x=x minPour X entier, tel que X ∈ [x min , x max ] on peut démontrer queµ ≡ E{X} = 1 x maxM ∑ h(x) · xx=x mindonc : µ ≡ E{X} = 1 M ∑MX m = 1 x maxM ∑m=1 x=x minh(x)Pour X continue la moyenne peut être calculé par le 1e moment du pdf.µ ≡ E{X} = ∫ p(x)·x dx9-9


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9Le deuxième moment (La variance)La variance σ 2 est le deuxième moment de la densité de probabilité.Pour un ensemble de M observations {X m }σ2 ≡ E{(X m -µ) 2 } = 1 M ∑M(X m – µ) 2m=1Mais l'usage d'µ estimé avec le même ensemble, introduit un biais dans σ2 .Pour l’éviter, on peut utiliser une estimation sans biais.σ2 =1M-1 ∑M(X m – µ) 2m=1Lequel est correct ? (les deux !) Ils ont les usages différents.Pour X entier, tel que X ∈ [X min , X max ] on peut démontrer queσ2 = E{(X m -µ) 2 } = 1 XmaxM ∑ h(x)(x –µ) 2x=x minCeci est vrai par ce que la table h(x) est faite de {X m }.Donc :σ2 =1M∑M(X m – µ) 2 = 1 xmaxM ∑m=1x=x minh(x)(x – µ) 2Pour X réel, la variance est la deuxième moment de la pdf.σ2 ≡ E{(X m –µ) 2 } = ∫ p(x)·(x–µ) 2 dx9-10


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9La Loi Normale pour D = 1La cas le plus simple concerne une seule caractéristique.Avec µ et σ2, on peut estimer la densité p(x) par N(x; µ, σ)p(X) = pr(X=x) = N(x; µ, σ) =12πσe –(x–µ)2 2σ 2N(x; µ, σ) a la forme :N(x; µ, σ)µ−σµ µ+σLa moyenne est le premier moment de la densité p(x).xµ ≡ E{X} = ∫ p(x)·x dxLa variance σ2 est le deuxième moment de p(x).σ2 ≡ E{(X–µ) 2 } = ∫ p(x)·(x–µ) 2 dx9-11


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9La Loi Normale pour D > 1Pour un vecteur de D caractéristiques :µ → ≡ E{X} = 1 M ∑Mm=1⎛X → m = ⎜⎝µ 1⎞µ 2... ⎟ =µ D⎠⎛⎜⎜⎝E{X 1 } ⎞E{X 2 }...E{X D }⎟⎟⎠Pour X → entier, tel que pour chaque d ∈ [1, D], X d ∈ [x dmin , x dmax ] on peutdémontrer queµ d ≡ E{x d } = 1 M ∑x 1 =x 1minx 1max....x Dmax∑→h(x) xdx D =x DminPour x réel, µ d ≡ E{x d } = ∫ ∫ ... ∫ p(x → ) ·x d dX →Dans tous les cas :⎛µ → = E{X} = ⎜⎝12...n⎞⎟⎠=⎛⎜⎜⎝E{x 1 } ⎞E{x 2 }...E{x n }⎟⎟⎠Pour D dimensions, la covariance entre les variables x i et x j est estimée à partirde M observations {X → m}σ ij 2 ≡ E{ (X i – E{X i } )(X j – E{X j })}=1M ∑M(X im – µ i )(X jm – µ j ) )m=1Ces coefficients composent une matrice de covariance. CC x ≡ E{[X → – µ → )(X → – µ → ) T } = E([X → – E{X → })(X → – E{X → }) T }9-12


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9⎛C x ≡ ⎜⎝σ 112 σ 122 ... σ 1D2σ 212 σ 222 ... σ 2D2... ... ...σ D12 σ D22 ... σ DD2⎞⎟⎠Dans le cas d'un vecteur de propriétés, X → , la loi normale prend la forme :p(X → )= N( X → ; µ → ,Cx ) =1D 1(2π) 2det(C x ) 2e– 1 2 (X→ – µ → ) T C x–1 (X→– µ→)x 1x 2Le termeD 1(2π) 2 det(C x ) 2 est un facteur de normalisation.∫ ∫ ...∫ e– 1 2 (X→ – µ → ) T –1 → →C x (X – µ ) DdX 1 dX 2 ... dX D = (2π) 21det(C) 2La déterminante, det(C) est une opération qui donne la "énergie" de C.Pour D=2det ⎛a b ⎞⎝ c d⎠= a·b–c·dPour D=3⎛ a b c ⎞det ⎜ d e f⎟= a·det ⎛e f ⎞⎜ ⎟⎝ h i⎠+ b·det ⎛f d ⎞⎝ i g⎠⎝ g h i⎠= a(ei-fh)+ b(fg-id)+ c(dh-eg)+ c· det ⎛d e ⎞⎝ g h⎠9-13


<strong>Reconnaissance</strong> <strong>Bayesienne</strong> Séance 9pour D > 3 on continue récursivement.L'exposant est une valeur positive et quadrique.(si X est en mètre, 1 2 (X→ – µ → ) T C x–1 (X→– µ→) est en mètre 2. )Cette valeur est connue comme la "distance de Mahalanobis".d 2 (X → )= 1 2 (X→ – µ → ) T C x–1 (X→– µ→)Il s'agit d'une distance euclidienne, normalisé par la covariance C x.Cette distance est bien définie, même si les composants de X → n'ont pas les mêmesunités. (Ceci est souvent le cas).La loi Normale peut être visualisé par ses contours d'"équiprobabilité"x 2x 1p(X | µ, C)Contours d'équi-probabilitéCes contours sont les contours de constant d 2 (X → )La matrice C est positif et semi-definite. Nous allons nous limiter au casou C est positif et definite (C.-à-d. det(C ) = | C | > 0si x i et x j sont statistiquement indépendants, σ ij2 = 0.9-14

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!