09.07.2015 Views

ϕ-Divergence empirique et vraisemblance empirique généralisée

ϕ-Divergence empirique et vraisemblance empirique généralisée

ϕ-Divergence empirique et vraisemblance empirique généralisée

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Propriétés 2.1(a) Par définition, ϕ ∗ est convexe <strong>et</strong> semi-continue inférieurement <strong>et</strong> dedomaine de définition d(ϕ ∗ ) non vide si d(ϕ) est non vide.(b) Sous les hypothèses 2.1, la dérivée de ϕ est inversible <strong>et</strong> :ϕ ∗ (x) = x.ϕ (1) −1 (x) − ϕ(ϕ (1) −1 (x)).On en déduit (ϕ ∗ ) (1) = ϕ (1) −1 <strong>et</strong> (ϕ ∗ ) (2) (0) = 1ϕ (2) (0) .Soit ϕ vérifiant les hypothèses (2.1). La ϕ-divergence associée à ϕ, appliquéeà Q <strong>et</strong> P, où Q (respectivement P) est une mesure signée (respectivementune mesure signée positive), est définie par :{I ϕ ∗(Q, P) =∫Ω ( ϕ∗ dQ− 1) dP si Q ≪ PdP+∞ sinon.Ces pseudo-métriques introduites par Rockafellar (1968 <strong>et</strong> 1970) sont en faitdes cas particuliers de « distances » convexes (Liese-Vajda, 1987). En tant quefonctionnelles sur des espaces de probabilité, elles sont également convexes<strong>et</strong>, vues comme des fonctionnelles sur des espaces de Orlicz (cf. Rao <strong>et</strong> Ren,1991), elles satisfont des propriétés de dualités convexes (Rockafellar, 1971,Léonard, 2001). En particulier, l’intérêt des ϕ -divergences réside pour nousdans le théorème suivant (réécrit sous une forme simplifiée) dû à Borwein &Lewis (1991) (voir également Léonard, 2001) qui résulte des propriétés desintégrales de fonctionnelles convexes.Théorème 2.1 (Minimisation <strong>et</strong> Conjugaison)Soit ϕ une fonction convexe partout finie <strong>et</strong> différentiable telle que ϕ ∗ ≥ 0<strong>et</strong> ϕ ∗ (0) = 0. Soit P une mesure de probabilité discrète. Alors il vient{ }inf I ϕ ∗(Q, P)Q∈M, (Q−P)f=b 0{= sup λ ′ b 0 −λ∈R pSi de plus, on a les contraintes de qualifications suivante :il existe R ∈ M telle que Rf = b 0 <strong>et</strong>inf d(ϕ ∗ ) < infΩdRdP≤ supΩ∫Ω}ϕ(λ ′ f)dP .dRdP < sup d(ϕ∗ ),alors il existe Q ⋄ <strong>et</strong> λ ⋄ réalisant respectivement l’ inf <strong>et</strong> le sup <strong>et</strong> tels queQ ⋄ = ( 1 + ϕ (1) (λ ⋄ ′ f) ) P.4


2.2 ExemplesNous donnons ici quelques exemples de ϕ-divergences qui sont utiliséspour généraliser la méthode de <strong>vraisemblance</strong> <strong>empirique</strong>.2.2.1 Cressie-ReadLes distances les plus utilisées (Kullback, entropie relative, χ 2 <strong>et</strong> Hellinger)se regroupent dans la famille des Cressie-Read (voir Csiszár 1967 <strong>et</strong>Cressie & Read 1984). Le tableau 1 donne les fonctions ϕ <strong>et</strong> ϕ ∗ classiques,ainsi que leur domaine.<strong>Divergence</strong>s α ϕ α ϕ ∗ αϕ α (x) d(ϕ α ) ϕ ∗ α(x) d(ϕ ∗ α)entropie relative 1 e x − 1 − x R (x + 1) log(x + 1) − x ] − 1, +∞]Kullback 0 − log(1 − x) − x ] − ∞, 1[ x − log(1 + x) ] − 1, +∞[Hellinger 0.5x 22−x] − ∞, 2[ 2( √ (x + 1) − 1) 2 ] − 1, +∞[χ 2 2x 22Rx 22RTab. 1 – Les principales Cressie-ReadDans le cas général, les Cressie-Read s’écriventϕ ∗ α(x) = (1 + x)α − αx − 1, ϕ α (x) =α(α − 1)∫ ( ) dQI ϕ ∗ α(Q, P)= ϕ ∗ αdP − 1 dP =α[(α − 1)x + 1]α−1 − αx − 1α[( dQdP) α− α( ) ]dQdP − 1 − 1 dP.1∫Ωα(α − 1) ΩSi on suppose que Q est dominée par P, <strong>et</strong> que Q(Ω) = P(Ω), on peut∫[( dQdP) α− 1]dP. On1simplifier l’écriture de l’intégrale I ϕ ∗ α(Q, P) =α(α−1) Ωnotera que c<strong>et</strong>te forme simplifiée oblige à tenir compte de la contraintesupplémentaire sur la masse de Q, ce qui n’est pas nécessaire si on travailavec la forme initiale.5


3 Extension de la méthode de <strong>vraisemblance</strong><strong>empirique</strong> aux ϕ-divergences.L’objectif de ce chapitre est d’étendre la méthode de <strong>vraisemblance</strong> <strong>empirique</strong>à des ϕ-divergences autres que celle de Kullback ou les Cressie-Read,<strong>et</strong> de montrer en quoi les résultats obtenus par Owen (1990) <strong>et</strong> tous ceuxrécemment obtenus dans la littérature économétrique sont essentiellementliés aux propriétés de convexité de la fonctionnelle I ϕ ∗. Nous nous restreignonsici au cas de la moyenne multivariée pour simplifier l’exposition <strong>et</strong> lespreuves, mais les résultats sont également valides pour des contraintes demoments plus générales en nombres finis, de la forme :E P [m(X, θ)] = 0où m est une fonction régulière de X × R p dans R r avec r ≥ p.3.1 Vraisemblance <strong>empirique</strong>On considère une suite de vecteurs aléatoires X, X 1 , · · · , X n de R p , n ≥ 1,indépendants <strong>et</strong> uniformément distribués de loi de probabilité P dans unespace de probabilité P. On note Pr la probabilité sous la loi jointe P ⊗nde (X 1 , ..., X n ). On cherche alors à obtenir une région de confiance pourµ 0 = E P X = ∫ XdP sous l’hypothèse que V P (X) est une matrice définie positive.Pour cela dans l’optique traditionnelle de Von Mises, on construit la probabilité<strong>empirique</strong> P n = 1 n∑ ni=1 δ X iavec δ x (y) = 1l {y=x} , qui est l’estimateurdu maximum de <strong>vraisemblance</strong> non-paramétrique de P , dans le sens où ellemaximise, parmi les lois de probabilités, la fonctionnelle L(Q) = ∏ ni=1 Q({x i})où ∀i ∈ {1, ..., n}, {x i } représente le singl<strong>et</strong>on x i = X i (ω), pour ω ∈ Ω fixé.On ne s’intéresse donc ici qu’à l’ensemble P n des probabilités Q dominéespar P n , c’est-à-dire de la forme, Q = ∑ ni=1 q iδ Xi , q i ≥ 0, ∑ ni=1 q i = 1.On définit une région de confiance pour la moyenne µ 0 , selon le principede la <strong>vraisemblance</strong> <strong>empirique</strong>, comme suit{C η,n = µ∣ E Q[X − µ] = 0, Q ∈ P n , R n (Q) = L(Q) }L(P n ) ≤ η {n∑n∑∏ }ni=1= µq∣ i (X i − µ) = 0, q i ≥ 0, q i = 1, R n (Q) =q i≤ η ,i=1i=1∏ ni=1où η est déterminé par la précision 1 − α que l’on veut atteindre pour larégion de confiance : Pr(µ 0 ∈ C η,n ) = 1 − α. L’intérêt de la définition de C η,nvient de l’observation suivante de Owen (1988) :∀µ ∈ R p , Pr(µ ∈ C η,n ) = Pr(η n (µ) ≥ η)61n


avec η n (µ) =supQ∈P n,E Q [X−µ]=0R n (Q) = sup {Q∈P n,E Q [X−µ]=0} L(Q),sup Q∈Pn L(Q)qui s’interprète clairement comme un rapport de <strong>vraisemblance</strong>. Un estimateurde µ 0 est alors donné en minimisant le critère η n (µ)̂µ n = arg minµ(η n (µ))Owen (1988, 1991 <strong>et</strong> 2001) a montré que 2β n (µ) := −2 log(η n (µ)) convergevers une loi du χ 2 (p). Ceci perm<strong>et</strong> d’obtenir des intervalles de confianceasymptotiques. En eff<strong>et</strong>, il vient Pr(µ 0 ∈ C η,n ) = Pr(β n (µ 0 ) ≤ − log(η)). Onen déduit que pour η = exp(− χ2 1−α2), C η,n est asymptotiquement de niveau1 − α.On peut lier la statistique pivotale de la <strong>vraisemblance</strong> <strong>empirique</strong>, β n (µ),à la divergence de Kullback, K. En eff<strong>et</strong>,β n (µ) = − log(η n (µ)) = inf − log R n (Q)Q∈P n,E Q [X−µ]=0n∑= infQ∈P n,E Q [X−µ]=0− log(nq i ) = n infi=1Or ∫ ( )dQdP n− 1 dP n = 0 doncβ n (µ) = ninfQ∈P n,E Q [X−µ]=0= n inf K(Q, P n )Q∈P n,E Q [X−µ]=0Q∈P n,E Q [X−µ]=0∫( ) dQ− log dP n .dP n∫ [( ) (dQ− 1 − log 1 + dQ )]− 1 dP ndP n dP nC<strong>et</strong>te présentation suggère la généralisation suivante.3.2 Minimisation <strong>empirique</strong> des ϕ-divergencesOn définit désormais pour une fonction ϕ donnée, βn ϕ (µ) comme le minimumde la ϕ-divergence <strong>empirique</strong> associée, contrainte par la valeur µ de lafonctionnelle <strong>et</strong> la région de confiance C η,n,ϕ ∗ correspondante soitβn ϕ (µ) = n inf {I ϕ ∗(Q, P n)}{Q


s’explique en partie par le théorème 2.1, qui donne des conditions d’existencede solutions seulement pour des mesures signées. Le fait de ne pas imposer quela mesure soit de masse 1 facilite l’optimisation, mais demande de reformulerla contrainte sur le paramètre recherché. En eff<strong>et</strong>, on a E Q [µ] = Q(1) · µ. Onécrit alors le paramètre d’intérêt T Q [X] = E Q[X]. mais demande de prendreQ(1)des précautions avec la contrainte sur le paramètre recherché. En eff<strong>et</strong>, enimposant E Q [X − µ] = 0, on définit µ comme une moyenne renormalisée :µ = E Q[X]Q(1) .Intuitivement, pour généraliser de la méthode de <strong>vraisemblance</strong> <strong>empirique</strong>,on considère la valeur <strong>empirique</strong> de la fonctionnelle définie parM(R, µ) =inf {I ϕ ∗(Q, R)}{Q≪R, T Q [X]=µ E Q [X−µ]=0}pour R ∈ P, i.e. la minimisation d’un contraste sous les contraintes imposéespar le modèle. Si le modèle est vrai, i.e. E P [X] = µ E P [X − µ] = 0 pour laprobabilité P sous-jacente, alors on a clairement M(P, µ) = 0. Un estimateurde M(P, µ) à µ fixé est simplement donné par l’estimateur plugin M(P n , µ),qui n’est rien d’autre que β ϕ n (µ)/n. C<strong>et</strong> estimateur peut donc perm<strong>et</strong>tre d<strong>et</strong>ester M(P, µ) = 0 ou dans une approche duale de construire une région deconfiance pour µ.On suppose que ϕ satisfait les hypothèses suivantes :Hypothèses 3.1 (i) ϕ vérifie les hypothèses 2.1,(ii) La dérivée seconde de ϕ est minorée par m > 0 sur d(ϕ) ∩ R + (≠ ∅).Il est simple de vérifier que les fonctions <strong>et</strong> divergences données dans lapartie précédente vérifient c<strong>et</strong>te hypothèse supplémentaire. L’hypothèse (ii)est vérifiée en particulier lorsque ϕ (1) est elle-même convexe (entraînantϕ (2) (x) croissante donc ≥ ϕ (2) (0) > 0 sur R + ), ce qui est le cas pour toutesles divergences étudiées ici. Pour le cas de la moyenne <strong>et</strong> pour Q dans M n(<strong>et</strong> donc de masse 1), on peut réécrire les contraintes de minimisation sousla formeT (Q−Pn)[X − µ] = µ − ¯µ, où ¯µ = E Pn [X].Il vientE (Q−Pn)[X − µ] = µ − ¯µ, où ¯µ = E Pn [X].βn ϕ (µ) = n inf {I ϕ ∗(Q, P n)}Q∈M n, E Q [X−µ]=0{= n inf Iϕ ∗(Q, P n ) ∣ E(Q−Pn)TQ∈M (Q−Pn)[X − µ] = µ − ¯µ }n{∫}= n sup λ ′ (µ − ¯µ) − ϕ(λ ′ (X − µ))dP n .λ∈R pΩ8


On en déduit l’expression duale de βn ϕ (µ) qui perm<strong>et</strong> de généraliser les propriétésusuelles de la <strong>vraisemblance</strong> <strong>empirique</strong> à notre cadre plus large :{ n∑}n∑βn ϕ (µ) = sup λ ′ (µ − X i ) − ϕ(λ ′ (X i − µ)) . (Dual)λ∈R p i=1i=1Remarque 3.1 L’égalité Dual invalide une conjecture de Newey & Smith(2004), page 6, qui stipule qu’une telle relation de dualité n’est valable quedans la famille des Cressie-Read. On obtient ici que l’opération consistant àminimiser toute ϕ-divergence équivaut à la recherche d’un pseudo maximumde <strong>vraisemblance</strong> (Generalized Empirical Likelihood, GEL, dans la terminologiede Newey & Smith). On introduit ci-dessous, dans le paragraphe 3.5,une famille de ϕ-divergences qui ne sont pas des Cressie-Read, pour lesquellesle programme Dual est équivalent à un GEL, que l’on peut même expliciterpuisque l’on donne l’expression de ϕ. Bertail <strong>et</strong> alt. (2004) exhibe une autrefamille.L’écriture Dual perm<strong>et</strong> d’établir leThéorème 3.1 Si X 1 , · · · , X n sont des vecteurs aléatoires de R p , i.i.d. deloi P absolument continue par rapport à la mesure de Lebesgue sur R p , demoyenne µ <strong>et</strong> de variance V P (X) de rang q <strong>et</strong> si ϕ vérifie les hypothèses 3.1alors,2ϕ (2) (0)βn ϕ en loi(µ 0 ) −−−→n→∞χ2 (q)<strong>et</strong> ∀ 0 < α < 1, <strong>et</strong> pour η = χ2 1−α (q)2ϕ (2) (0) , C η,n,ϕ ∗est convexe <strong>et</strong>lim Pr(µ /∈ C η,n,ϕ∗) = limn→∞ n→∞ Pr(βϕ n (µ) ≥ η)= Pr(Z ≥ 2ϕ (2) (0)η) = 1 − α, où Z ∼ χ 2 (q).Remarque 3.2 Supposons que nous voulions mener le même raisonnementen y intégrant les contraintes Q(1) = 1 <strong>et</strong> Q ≥ 0, forçant la mesure àêtre une probabilité. Alors les contraintes de qualification peuvent ne jamaisêtre vérifiées <strong>et</strong> le problème dual peut ne pas avoir de solutions. Parexemple, en prenant la divergence du χ 2 , c’est-à-dire ϕ(x) = x2 , la contrainte2supplémentaire conduit au problème de minimisation{}min χ 2 n∑n∑(Q, P n )q i X i = µ, q i = 1, q i ≥ 0 .{q i }∈R p ∣i=1Le calcul du Lagrangien correspondant montre facilement qu’il n’existe desolution qu’en µ = 1 n∑ ni=1 X i = ¯µ, la « <strong>vraisemblance</strong> » vaut alors +∞partout ailleurs <strong>et</strong> les régions de confiance dégénèrent.9i=1


c’est-à-dire, en explicitant I ϕ ∗ α<strong>et</strong> ϕ α ,1α(α − 1)∫ [( dQ⋄dPΩQ ⋄ est donné parn∑Q ⋄ = qi ⋄ δ Xi =i=1) α ( ) dQ⋄− αdP − 1 − 1n∑i=1= −1nαn∑i=1i=1]dP{ [1+ (α − 1)λ⋄ ′ (X i − µ) ] }αα−1− 1 .1 [1 + (α − 1)λ⋄ ′ (X i − µ) ] 1α−1δ Xi ,nd’où l’on déduit la valeur du minimum de la divergence du rapport de « <strong>vraisemblance</strong>» généraliséen∑I ϕ ∗ α(Q ⋄ 1n∑, P n ) =n ϕ∗ α(nqi ⋄ (nqi ⋄ ) α − αnqi ⋄ + α − 1− 1) =.nα(α − 1)On regroupe les valeurs des poids <strong>et</strong> des divergences pour les exemples usuels(α = 0, 1/2, 1, 2) dans le tableau 2.i=1<strong>Divergence</strong>s poids optimaux q ⋄ i minimum de la divergenceentropie relative1n exp(λ⋄ ′ (X i − µ))∑ q⋄i log(nq ⋄ i ) + 1 − ∑ q ⋄ iKullback1n(1 − λ ⋄ ′ (X i − µ))−1 − ∑ 1n log(nq⋄ i ) + ∑ q ⋄ iHellinger42 ∑ (√ √q ⋄n(2 − λ ⋄ ′ (X i − µ)) 2 i − 1n) 2χ 2 1 n (1 + λ⋄ ′ (X i − µ))∑ (nq ⋄ i − 1) 22nTab. 2 – Poids <strong>et</strong> rapports de <strong>vraisemblance</strong>s pour les divergences usuelles11


On notera que dans le cas particulier du χ 2 , on peut calculer le multiplicateurde Lagrange <strong>et</strong> donc la valeur de la <strong>vraisemblance</strong> en un point µ. D’unpoint de vue algorithmique, c’est donc la plus simple.∑On obtient en eff<strong>et</strong> parun calcul direct λ n = Sn −1 (µ − ¯µ) avec S n = 1 nn i=1 (X i − µ).(X i − µ) ′ d’oùq i = 1 (1 + (µ − n ¯µ)′ Sn−1 (X i − µ)) <strong>et</strong>I ϕ ∗2(Q, P n ) =n∑ (n · q i − 1) 2i=12n= 1 2 (µ − ¯µ)′ Sn−1 (µ − ¯µ),qui s’interprète directement comme une somme vectorielle autonormalisée.Pour l’étude de l’estimateur basé sur le χ 2 , très lié aux GMM (GeneralizedM<strong>et</strong>hod of Moments), on se référera à Bonnal & Renault (2004) ainsi qu’àNewey & Smith (2004).Notre arbitre indique que l’entropie relative (ϕ 1 ) conduit au KLIC (Kullback-Leibler Information Criterion) qui est différent du maximum de <strong>vraisemblance</strong><strong>empirique</strong> <strong>et</strong> a été étudié sous ce nom par Kitamura & Stutzer (1997).3.5 Quasi-KullbackNous introduisons maintenant une famille de divergences qui possèdentdes propriétés de type Lipschitz intéressantes :∀ε ∈ [0; 1], ∀x ∈] − ∞; 1[ ,K ε (x) = ε x22+ (1 − ε)(−x − log(1 − x)).L’idée est de concilier les avantages de la divergence de Kullback (l’aspectadaptatif des régions de confiance <strong>et</strong> la correction de Bartl<strong>et</strong>t) <strong>et</strong> de la divergencedu χ 2 (la robustesse <strong>et</strong> la simplicité algorithmique). Nous réservonsl’étude détaillée de c<strong>et</strong>te famille à des travaux ultérieurs mais nous donnonsici certaines propriétés intéressantes des Quasi-Kullback.– Conformément aux attentes, la forme des régions s’adaptent d’autantplus aux données que ε est proche de 0, la valeur correspondant à laKullback.– On obtient la correction de Bartl<strong>et</strong>t, pour ε p<strong>et</strong>it.– dès que ε > 0, les régions de confiance peuvent dépasser de l’enveloppeconvexe des données, ce qui augmente fortement la robustesse.– On obtient de plus un contrôle à distance fini du niveau de la régionde confiance, grâce à une inégalité exponentielle explicite.– Enfin, contrairement à la Kullback, la conjuguée convexe de K ε estdéfinie sur R <strong>et</strong> est relativement lisse, ce qui simplifie l’implémentationdu problème d’optimisation.12


Malheureusement les différentes propriétés ci-dessus influencent de façoncontradictoire le choix de ε, qu’il faut donc adapter à chaque problème précis.Une procédure basée sur la validation croisée pourrait s’avérer intéressante.L’idée est de conserver les avantages de la distance de Kullback tout enévitant les problèmes algorithmiques liés au comportement du log au voisinagede 0.La famille des Quasi-Kullback vérifie nos hypothèses 3.1 <strong>et</strong> l’on obtientla convergence vers un χ 2 q grâce au Théorème 3.1. On peut expliciter K ∗ ε , quiest finie quelque soit x ∈ R pour ε > 0 :K ∗ ε (x) = − 1 2 + (2ε − x − 1)√ 1 + x(x + 2 − 4ε) + (x + 1) 24εde dérivée seconde Kε ∗(2) (x) = 1 + 2ε−x−12ε− (ε − 1) log 2ε − x − 1 + √ 1 + x(x + 2 − 4ε)2ε2ε√1+2x(1−2ε)+x . 2Ces expressions perm<strong>et</strong>tent de démontrer très facilement que K ε(2) (x) ≥ ε<strong>et</strong> 0 ≤ Kε∗(2) ≤ 1/ε. Algorithmiquement, on est alors assuré d’une meilleureconvergence. On peut par ailleurs obtenir aisément le résultat suivant.Théorème 3.2 Sous les hypothèses du théorème 3.1, on a :(a) ∀n > 0 fixé, c’est-à-dire non asymptotiquement,Pr(µ /∈ C η,n,K ∗ ε) = Pr(βn Kε(µ) ≥ η)( n)≤ Pr2 (µ − ¯µ)′ Sn−1 (µ − ¯µ) ≥ ηε(b) Si X i − µ est de loi symétrique, alors sans aucune hypothèse de moments,Pr(µ /∈ C η,n,K ∗ ε) ≤ 2 exp(−ηε).(c) Par ailleurs, si on choisit pour ε la suite ε n = O(n −3/2 log(n) −1 ),les Quasi-Kullback sont corrigeables au sens de Bartl<strong>et</strong>t, jusqu’à l’ordreO(n −3/2 ).Sous les hypothèses du théorème 3.1, on a les inégalités suivantes à nfixe :Pr(µ /∈ C η,n,K ∗ ε) = Pr(βn Kε(µ) ≥ η)( n)≤ Pr2ε (µ − ¯µ)′ Sn−1 (µ − ¯µ) ≥ ηSi X i − µ est de loi symétrique, alors sans aucune hypothèse de moments,Pr(µ /∈ C η,n,K ∗ ε) ≤ 2 exp(−ηε).13


Par ailleurs, si on choisit pour ε la suite ε n = O(n −3/2 log(n) −1 ), les Quasi-Kullback sont corrigeables au sens de Bartl<strong>et</strong>t, jusqu’à l’ordre O(n −3/2 ).PINELIS ?Remarque 3.3 L’inégalité exponentielle (b) est classique <strong>et</strong> remonte à destravaux de Efron (1969). La première partie du théorème implique que pourtoute la classe des Quasi-Kullback, le comportement de la divergence <strong>empirique</strong>se ramène à l’étude d’une somme autonormalisée. L’études de c<strong>et</strong>tequantité fait actuellement l’obj<strong>et</strong> de nombreux travaux : voir Götze & Chistyakov(2003) <strong>et</strong> Jing & Wang (1999).Remarque 3.4 Le choix de ε perm<strong>et</strong>tant la correction au sens de Bartl<strong>et</strong>tn’est sans doute pas optimale mais perm<strong>et</strong> de simplifier considérablement lespreuves. Une lecture attentive des travaux de Corcoran (2001) qui donnentdes conditions nécessaires de corrigeabilité au sens de Bartl<strong>et</strong>t (pour des divergencesne dépendant pas de n, ce qui n’est pas le cas ici), perm<strong>et</strong>tentégalement de montrer que si ε est p<strong>et</strong>it, alors la statistique est corrigeableau sens de Bartl<strong>et</strong>t mais ne perm<strong>et</strong>tent pas précisément de calibrer ε. Nousconjecturons qu’une vitesse en o(n −1 ) est suffisante. Ceci fera l’obj<strong>et</strong> de travauxultérieurs. Il convient de noter que les choix de ε selon que l’on veuilleobtenir une bonne borne exponentielle (obtenue pour ε = 1 i.e. le cas χ 2 ) oula correction au sens de Bartl<strong>et</strong>t (correction asymptotique du biais) ne sontpas compatibles : il s’agit d’approches différentes.4 Simulations <strong>et</strong> comparaisonsC<strong>et</strong>te partie présente quelques résultats de simulations dans le cas multivarié,pour différentes métriques. Nous comparons les zones de confianceobtenues. Les simulations <strong>et</strong> les graphiques ont été réalisés à l’aide du logicielMatlab : les algorithmes sont disponibles auprès des auteurs.4.1 Exemple introductif : données uniformesLes données sont ici des v.a. uniformes sur le carré [0, 1] 2 . On a choisi dereprésenter les zones de confiance à 90%, 95% <strong>et</strong> 99% pour les divergencesde Kullback, d’Hellinger, du χ 2 <strong>et</strong> de l’entropie relative (figure 1).14


Fig. 1 – Zones de confiance pour 4 divergences avec les mêmes donnéesNaturellement, les zones grandissent avec la confiance <strong>et</strong> sont convexes.On remarque tous de suite que la figure obtenue pour le χ 2 se distingue : leszones sont circulaires <strong>et</strong> particulièrement grandes. Il s’agit en fait d’un casparticulier à bien des égards. La divergence du χ 2 , point fixe de la conjugaisonconvexe, donne toujours des régions en ellipses, ici très proche de cercles carnos données sont réparties indépendamment <strong>et</strong> de la même façon suivant desdeux axes. On peut aussi remarquer que ces zones sortent de l’enveloppeconvexe des observations pour le χ 2 , <strong>et</strong> même du support de la loi, le carré[0, 1] 2 . C’est le cas pour des valeurs de α proche de 1 ou des données en p<strong>et</strong>itnombre, comme pour la figure 3. Ceci tient au fait que certains poids sontnégatifs. En eff<strong>et</strong>, avec c<strong>et</strong>te divergence, si l’on impose à la mesure Q d’êtreune probabilité, il n’existe pas de solution à la minimisation. Pour certainesvaleurs de µ, pourtant hors de l’enveloppe convexe des données, on peut alorstrouver des mesures Q telles que la divergence reste acceptable.Il peut être judicieux de faire varier le nombre de données, pour observerla variation des surfaces en fonction de ce nombre.Fig. 2 – Zones de confiance pour 100 données uniformesFig. 3 – Zones de confiance pour 10 données uniformesPour les données en faible quantité, on note que les zones s’adaptent bienau données, comme c’est classique pour la <strong>vraisemblance</strong> <strong>empirique</strong>. Il y abien sûr une particularité pour le χ 2 , qui ne peut qu’adapter les axes del’ellipse, <strong>et</strong> explose si les données sont en très faible quantité (dans la figure3, la ligne de niveau correspondant à 99% est hors du cadre, <strong>et</strong> est doncinvisible).4.2 Sur le choix de la divergenceOn peut étudier des données de tous types avec nos 4 divergences, pouressayer de mieux saisir leurs différences. Il apparaît sur nos simulations, cequi est conforme à la théorie (comportement asymptotique), que dès que lenombre de données est important (supérieur à 25), les surfaces sont fortement15


similaires. On a représenté dans la figure 4 les zones de confiance pour 50données suivant une loi de Marshall-Olkin (ce copule a une dépendance entreles 2 coordonnées qui fait apparaître une courbe exponentielle) : 4 lois :– gaussienne,– exponentielle (de paramètre 1),– Marshall-Olkin (ce copule a une dépendance entre les 2 coordonnéesqui fait apparaître une courbe exponentielle) <strong>et</strong>– copule (de type ’t’ <strong>et</strong> de paramètre 0.9 <strong>et</strong> 4, ce qui charge beaucoup ladiagonale).Fig. 4 – Zones de confiance un copule pour différentes loisRemarque 4.1 Nos simulations de copules de Marshall-Olkin sont réaliséesà partir de Embrechts, Lindskog & McNeil (2001), où l’on trouve une bonneintroduction aux copules en général, celles concernant les t-copules utilisentle programme MATLAB de P<strong>et</strong>er Perkins, matlabcode for copulas.Comme l’on dispose d’une formule de calcul directe de la <strong>vraisemblance</strong>pour le χ 2 , on gagne beaucoup en vitesse de calcul en utilisant c<strong>et</strong>te divergencepour effectuer des tests ou construire des régions de confiance.On a représenté dans la figure 5 l’évolution en fonction de n des niveaux deconfiance estimé par une méthode de type Monte-Carlo (10000 répétitions desexpériences) pour 5 distances (Kullback, χ 2 , Hellinger, Entropie relative <strong>et</strong>PolyLog0) <strong>et</strong> 3 types de données (de mélange, exponentielles <strong>et</strong> uniformes).Les données que nous appelons « de mélange » ou « hétéroscédastiques »consistent en un produit d’une gaussienne centrée réduite sur R 2 <strong>et</strong> d’uneuniforme sur [0, 2]. Le graphique donne un exemple de zones de confiance.Fig. 5 – Évolution des taux de couvertureLes taux de couverture sont bien meilleurs pour le χ 2 , mais avec unesurface significativement plus grande. On notera cependant que c’est c<strong>et</strong>teméthode qui est la plus robuste, ce qui s’explique par le caractère autonormaliséde la somme dans sa version duale <strong>et</strong> par les résultats du Théorème 3.2.16


5 ConclusionCe travail généralise la validité des raisonnements sur la <strong>vraisemblance</strong><strong>empirique</strong> menés par Owen (1990) aux ϕ-divergences. On gagne un choixétendu de métriques pour une méthode qui ne suppose que peu de chosessur le modèle sous-jacent aux données. Ce travail propose des pistes pourchoisir la divergence en fonction du nombre de données <strong>et</strong> pour éviter lesproblèmes d’implémentation, en particulier en introduisant la famille desQuasi-Kullback.AQuelques éléments de calcul convexe.Le lemme suivant simplifie la recherche des fonctions convexes dont onconnaît la conjuguée <strong>et</strong> réciproquement (voir Borwein & Lewis 1991) :Lemme A.1 (Involutivité de la conjugaison) Quelle que soit ϕ convexe,il y a équivalence entre les assertions suivantes :(i) ϕ = (ϕ ∗ ) ∗ ,(ii) ϕ est fermée, c’est-à-dire que son graphe G = {(x, ϕ(x)), x ∈ R} estfermé,(iii) ϕ est semi-continue inférieurement.Grâce à ces méthodes, il est assez simple d’obtenir les tableaux 3 <strong>et</strong> 4 quiperm<strong>et</strong>tent de calculer les conjuguées convexes utilisées dans ce travail.Fonction h f(x) f(ax) f(x + b) af(x)Fonction h ∗ g(x) = f ∗ (x) g ( )xag(x) − bxag ( )xavalidité ∀a ≠ 0 ∀b ∀a > 0Tab. 3 – Propriétés élémentaires17


f = g ∗g = f ∗Fonction d(f) Fonction d(g)0 [−1, 1] | x| R0 [0, 1] x + R|x|pp∀p > 1 R|x| qq pour1+ 1 = 1p qR− |x|pp∀p ∈]0, 1[ R+ − (−x) qq−R ∗ +√(1 + x2 ) R − √ (1 − x 2 ) [−1, 1]− log(x) R ∗ + −1 − log(−y) −R ∗ +log(cos(x))]−π, [π2 2x− 1 log(1 + tan(x) 2 x2 )Re xR{x log(x) − 1 si x > 00 si x = 0R +log(1 + e x )R{x log(x) + (1 − x) log(1 − x) si x ∈]0, 1[0 si x ∈ {0, 1}[0, 1]− log(1 − e x ) R ∗ +{x log(x) − (1 + x) log(1 + x) si x > 00 si x = 0R +Tab. 4 – Tableau des principales conjuguées convexes18


BDémonstrations des résultatsB.1 Preuve du Théorème 3.1La preuve suit les grandes lignes de Owen (1990). Tout d’abord, si q < p,on peut, par une nouvelle paramétrisation, se ramener à des données de tailleq, ce qui perm<strong>et</strong> de démontrer le résultat si on le prouve pour q = p. Cecirevient à supposer que la matrice de variance-covariance (notée Σ) des X iest inversible. La convexité de C η,n,ϕ ∗ découle immédiatement de celle de ϕ ∗<strong>et</strong> de la linéarité de l’intégrale. Comme on a supposé les X i de loi continue,les X i sont distincts avec probabilité 1.Pour démontrer le Théorème 3.1, il nous faut nous assurer de l’existencede η n (µ) <strong>et</strong> de βn ϕ (µ), au moins pour certains µ. D’après Owen (2001),chap. 11, p. 217 pour S la sphère des vecteurs unités de R p ,inf Pr[(X −θ∈S µ)′ θ > 0] > 0.On pose alors ε = inf θ∈S Pr[(X − µ) ′ θ > 0] <strong>et</strong> on remarque que Glivenko-Cantelli nous donnesup[Pr −P n ][(X − µ) ′ θ > 0]θ∈SPr p.s.−−−→n→∞ 0d’où l’on déduit inf θ∈S P n [(X −µ) ′ θ > 0] > ε pour n assez grand. Ceci signifie2qu’en prenant n assez grand, tout µ appartenant à l’enveloppe convexe despoints formés par l’échantillon est admissible.On rappelle également le lemme suivant : voir Owen (2001),Lemme B.1 (Négligeabilité) Soit (Y i ) n i=1 une suite de variables aléatoiresindépendantes <strong>et</strong> identiquement distribuées <strong>et</strong> ∀ n ∈ N,∑Z n = max i=1,..,n |Y i |.Si E [Y1 2 ] < ∞, alors, en probabilité, Z n = o(n 1/2 ) <strong>et</strong> 1 nn i=1 |Y i| 3 = o(n 1/2 ).Rappelons que le programme d’optimisation dual d’après (2.1) vaut{ n∑}n∑βn ϕ (µ) = sup λ ′ (µ − X i ) − ϕ(λ ′ (X i − µ)) . (Dual)λ∈R p i=1i=1La condition au premier ordre impliquée par (Dual) nous perm<strong>et</strong> d’affirmerque la dérivée par rapport à λ j de la partie droite est nulle, pourj ∈ {1, ..., p}. Il vient les conditions suivantesn∑∀ j ∈ {1, ..., p} 0 = (X j i − µj )[1 + ϕ (1) (λ ′ (X i − µ))]i=1donc 0 = g(λ) = 1 nn∑(X i − µ) [1 + ϕ (1) (λ ′ (X i − µ))]i=119


On pose Y i = X i −µ, Y i est alors centrée <strong>et</strong> de même matrice de variancecovarianceque X i , Σ. On note λ n le λ réalisant le sup dans (Dual), on adonc g(λ n ) = 0. On pose λ n = ρ n θ n avec ρ n ≥ 0 <strong>et</strong> ‖θ n ‖ 2 = 1,0 = θ ng(λ ′ n )n∑−θ nȲ ′ = 1 θ ′ n nY i · ϕ (1) (λ ′ nY i ).Un développement de Taylor de ϕ (1) au voisinage de 0 donnei=1ϕ (1) (ρ n θ ′ nY i ) = ρ n θ ′ nY i · ϕ (2) (ρ n t i ),avec t i entre 0 <strong>et</strong> θ ′ nY i . On a alors sous l’hypothèse (ii) de 3.1Or,1nn∑i:θ ′ n Y i≥0−θ ′ nȲ = ρ n 1 n≥ ρ n1n≥ mρ n1nn∑(θ nY ′ i ) 2 · ϕ (2) (ρ n t i )i=1n∑i:θ ′ nY i ≥0n∑i:θ ′ n Y i≥0(θ ′ nY i ) 2 · ϕ (2) (ρ n t i )(θ ′ nY i ) 2 .(θ ′ nY i ) 2 est minorée. En eff<strong>et</strong>, en raisonnant par l’absurde,<strong>et</strong> en remarquant que θ n prend ses valeurs dans un compact, on peut extraireune sous-suite telle que 1 (θ ′ nnY i ) 2 → 0 <strong>et</strong> θ n → θ 0 . On an∑alorsi:θ ′ nY i ≥0E P [(θ 0Y ′ i ) 2 1l θ ′0 Y i ≥0] = 0, ce qui contredit que Σ est inversible.Le Théorème centrale limite implique que −θ nȲ ′ = O P(n −1/2 ). Par suite,il vient ‖λ n ‖ 2 = ρ n = O P (n −1/2 ). On définit alors ˜λ n = λ n + S−1 n (¯µ−µ). Enϕ (2) (0)effectuant un développement de Taylor de ϕ en 0 dans l’expression de g(λ n ),il vient0 = ϕ (2) (0)S n˜λn + 1 n∑(X i − µ)α i,n ,noù, uniformément en i,i=1‖α i,n ‖ ≤ B|λ ′ n(X i − µ)| ≤ B‖λ n ‖Z n = o P (1),car Z n = max i=1,..,n ‖X i − µ‖ = o P (n 1/2 ) d’après le lemme B.1. Finalement,comme S n est minorée <strong>et</strong> que ¯µ − µ = O P (n −1/2 ), on a ˜λ n = o P (n −1/2 ).20


De même, en effectuant un développement limité de ϕ autour de 0 dansl’expression de β ϕ n (µ), il vientβn ϕ (µ) = −n.λ ′ n(¯µ − µ) − ∑ ni=1 ϕ (λ′ n(X i − µ))= −n.λ ′ n(¯µ − µ) − ∑ ( )n (λ ′n (X i −µ)) 2i=1ϕ (2) (0) + ˜α2 i,n= −n.λ ′ n(¯µ − µ) − γ(2) (0)(nλ ′ 2 nS n λ n ) − ∑ ni=1 ˜α i,n= −nλ ′ n(¯µ − µ) − ∑ n−n γ(2) (0)2i=1 ˜α i,n(˜λ′ n S n˜λn − 2 ˜λ ′ γ (2) (0) n(¯µ − µ) + (¯µ−µ)′ Sn−1(¯µ − γ (2) (0) µ)′ Sn−1 (¯µ − µ) − ∑ ni=1 ˜α i,n− γ(2) (0)n˜λ ′ 2 nS n˜λn − n(¯µ−µ)′ Sn−1 (¯µ−µ)=n= n(¯µ−µ)′ Sn−12ϕ (2) (0)(¯µ−µ)− γ(2) (0)2γ (2) (0)2n˜λ ′ nS n˜λn − ∑ ni=1 ˜α i,n)(¯µ−µ)ϕ (2) (0) 2où ‖˜α i,n ‖ ≤ ˜B|λ ′ n(X i − µ)| 3 , pour ˜B > 0, en probabilité, ce qui donne :n∑‖ ˜α i,n ‖ ≤ ˜Bn∑3 ‖λ n ‖ 3 ‖(X i − µ)‖ 3 = O P (n −3/2 ) · n · o P (n 1/2 ) = o P (1)i=1i=1De plus, comme on sait que λ n = O P (n −1/2 ), ˜λ n = o P (n −1/2 ), S n = O P (1),¯µ − µ = O P (n −1/2 ) <strong>et</strong> n(¯µ − µ) ′ Sn−1 (¯µ − µ)2ϕ (2) (0)β ϕ n (µ)B.2 Preuve du Théorème 3.2en loi−−−→n→∞en loi−−−→n→∞χ2 (p).χ2 (p), il vientInégalité exponentielle Pour alléger les notations, on note βn(µ) ε = βn Kε .D’après l’égalité (Dual) donnant βn(µ) ε <strong>et</strong> en développant K ε au voisinage de0 on a}βn(µ) ε = sup{nλ ′ (µ − ¯µ) − 1 n∑(λ ′ (X i − µ)) 2 K ε (2) (t i,n )λ∈R p 2i=1}car K (2)εβ ε n(µ) ≤ supλ∈R p {nλ ′ (µ − ¯µ) − 1 2supλ∈R p {nλ ′ (µ − ¯µ) − 1 2n∑(λ ′ (X i − µ)) 2 εi=1≥ ε. Si l’on pose l = ελ,}n∑(λ ′ (X i − µ)) 2 ε =i=11ε supl∈R p {nl ′ (µ − ¯µ) − 1 221,}n∑(X i − µ) ′ ll ′ (X i − µ) .i=1


Or ce sup est∑le même que dans le cas du χ 2 . Il est atteint en λ n = Sn−1 (µ− ¯µ)avec S n = 1 nn i=1 (X i − µ).(X i − µ) ′ <strong>et</strong> vaut n(µ − 2 ¯µ)′ Sn−1 (µ − ¯µ) d’oùβn(µ) ε ≤ n 2ε (µ − ¯µ)′ Sn−1 (µ − ¯µ)( n)Pr(µ /∈ C η,n,K ∗ ε) ≤ Pr2 (µ − ¯µ)′ Sn−1 (µ − ¯µ) ≥ ηε .L’inégalité exponentielle est une conséquence directe de l’inégalité de Hoeffding,cf. Efron (1969).Correction de Bartl<strong>et</strong>t Montrons maintenant la propriété de correctionau sens de Bartl<strong>et</strong>t. βn(µ) ε est défini comme n fois le sup dans le programmedual écrit pour K ε . βn(µ) 0 correspond alors à la <strong>vraisemblance</strong> <strong>empirique</strong>(ϕ = K 0 ) <strong>et</strong> βn(µ) 1 au χ 2 (ϕ = K 1 ). Soit E n un estimateur de E[βn(µ)]/p, 0 onpeut écrire{ n∑}Tn ε = 2βε n(µ)= 2 sup λ ′ (µ − X i ) − K ε (λ ′ (X i − µ))E n E n λ∈R p i=1{= 2 n∑sup ε λ ′ (µ − X i ) − K 1 (λ ′ (X i − µ))E n λ∈R p i=1}n∑+(1 − ε) λ ′ (µ − X i ) − K 0 (λ ′ (X i − µ))d’oùi=1≤ 2 E n{εβ1n (µ) + (1 − ε)β 0 n(µ) }T ε n ≤ T 0 n + ε [ T 1 n − T 0 n],¯F T ε n(η) ≤ ¯F T 0 n +ε[T 1 n −T 0 n ] (η).D’après les résultats de DiCiccio, Hall & Romano (1991),( )2β0¯F T 0 n= Pr n (µ)≥ · =E ¯F χ 2 + O(n −2 )n<strong>et</strong> donc,¯F T 0 n +ε[T 1 n −T 0 n ] (η) = Pr{T 0 n + ε [ T 1 n − T 0 n]≥ η, T1n − T 0 n ≤ ε −1 n −3/2 }+ Pr{T 0 n + ε [ T 1 n − T 0 n]≥ η, T1n − T 0 n ≥ ε −1 n −3/2 }≤ Pr{T 0 n + n −3/2 ≥ η} + Pr{T 1 n − T 0 n ≥ ε −1 n −3/2 }≤ ¯F T 0 n(η − n −3/2 ) + Pr{T 1 n − T 0 n ≥ ε −1 n −3/2 } (Bartl<strong>et</strong>t pour T 0 n)≤ ¯F χ 2(η − n −3/2 ) + O(n −2 ) + Pr{T 1 n − T 0 n ≥ ε −1 n −3/2 }≤ ¯F χ 2(η) + O(n −3/2 ) + Pr{T 1 n − T 0 n ≥ ε −1 n −3/2 }.22


Si on prend ε de l’ordre de n −3/2 log(n) −1 , le reste est de l’ordre de O(n −3/2 )(puisque T 1 n est bornée en probabilité <strong>et</strong> que T 0 n est déjà corrigé au sens deBartl<strong>et</strong>t). La divergence est donc corrigeable au sens de Bartl<strong>et</strong>t (au moinsjusqu’à l’ordre n −3/2 ).Références[1] Baggerly, K. A. Empirical likelihood as a goodness of fit measure.Biom<strong>et</strong>rika 85 (1998), 535–547.[2] Bertail, P. Empirical likelihood in some nonparam<strong>et</strong>ric and semiparam<strong>et</strong>ricmodels, M.S. Nikulin, N. Balakrishnan, M. Mesbah and N.Limnios ed. 2004, ch. Param<strong>et</strong>ric and Semiparam<strong>et</strong>ric Models with Applicationsto Reliability, Survival Analysis, and Quality of Life.[3] Bertail, P. Empirical likelihood in some semi-param<strong>et</strong>ric models. Bernoulli12, 2 (2006).[4] Bertail, P., Harari-Kermadec, H., and Ravaille, D.γ−<strong>Divergence</strong> <strong>empirique</strong> <strong>et</strong> <strong>vraisemblance</strong> <strong>empirique</strong> généralisée. Documentde travail du CREST, 2004.[5] Bonnal, H., and Renault, E. On the efficient use of the informationalcontent of estimating equations : Implied probabilities and euclideanempirical likelihood. Cahiers scientifiques (CIRANO), 2004s-18, 2004.[6] Borwein, J. M., and Lewis, A. S. Duality relationships for entropylike minimization problem. SIAM Journal on Computation andOptimization 29, 2 (1991), 325–338.[7] Broniatowski, M., and Kéziou, A. Param<strong>et</strong>ric estimation and teststhrough divergences. PhD thesis, L.S.T.A., 2003.[8] Chistyakov, G. P., and Götze, F. Moderate deviations for Student’sstatistic. Theory of Probability & Its Applications 47, 3 (2003),415–428.[9] Corcoran, S. A. Bartl<strong>et</strong>t adjustment of empirical discrepancy statistics.Biom<strong>et</strong>rika 85, 4 (1998), 967–972.[10] Cressie, N., and Read, T. R. C. Multinomial goodness-of-fit tests.Journal of the Royal Statistical Soci<strong>et</strong>y, Series B 46, 3 (1984), 440–464.[11] Csiszár, I. Information type measures of difference of probability distributionsand indirect observations. Studia Scientiarum MathematicarumHungarica 2 (1967), 299–318.23


[12] Deville, J. C., and Sarndal, C. E. Calibration estimators in surveysampling. Journal of the American Statistical Association 87 (1992),376–382.[13] DiCiccio, T., Hall, P., and Romano, J. Empirical likelihood isbartl<strong>et</strong>t-correctable. Annals of statistics 19, 2 (1991), 1053–1061.[14] DiCiccio, T., and Romano, J. Nonparam<strong>et</strong>ric confidence limits byresampling m<strong>et</strong>hods and least favorable families. International StatisticalReview 58 (1990), 59–76.[15] Efron, B. Student’s t-test under symm<strong>et</strong>ry conditions. Journal ofamerican statistical soci<strong>et</strong>y 64 (1969), 1278–1302.[16] Embrechts, P., Lindskog, F., and McNeil, A. J. Handbook ofheavy tailed distributions in finance. Elsevier, 2003, ch. Modelling dependencewith copulas and applications to risk management. edited byRachev ST.[17] Golan, A., Judge, G., and Miller, D. Maximum Entropy Econom<strong>et</strong>rics.Wiley, New York, 1996.[18] Hartley, H. O., and Rao, J. N. K. A new estimation theory forsample surveys. Biom<strong>et</strong>rika 55 (1968), 547–557.[19] Jing, B.-Y., and Wang, Q. An exponential nonuniform Berry-Esseenbound for self-normalized sums. Annals of Probability 27, 4 (1999), 2068–2088.[20] Jing, B. Y., and Wood, A. T. A. Exponential empirical likelihoodis not bartl<strong>et</strong>t correctable. Annals of Statistics 24 (1996), 365–369.[21] Liese, F., and Vajda, I. Convex Statistical distance. Teubner, Leipzig,1987.[22] Léonard, C. Minimizers of energy functionals. Acta MathematicaHungarica 93, 4 (2001), 281–325.[23] Mykland, P. A. Bartl<strong>et</strong>t type of identities. Annals of Statistics 22(1994), 21–38.[24] Mykland, P. A. Dual likelihood. Annals of Statistics 23 (1995),396–421.[25] Newey, W. K., and Smith, R. J. Higher order properties of GMMand generalized empirical likelihood estimators. Econom<strong>et</strong>rica 72, 1(2004), 219–255.[26] Owen, A. B. Empirical likelihood ratio confidence intervals for a singlefunctional. Biom<strong>et</strong>rika 75, 2 (1988), 237–249.24


[27] Owen, A. B. Empirical likelihood ratio confidence regions. Annals ofStatistics 18 (1990), 90–120.[28] Owen, A. B. Empirical Likelihood. Chapman and Hall/CRC, BocaRaton, 2001.[29] Qin, y. s., and Lawless, J. Empirical likelihood and general estimatingequations. Annals of Statistics 22, 1 (1994), 300–325.[30] Rao, M. M., and Ren, Z. D. Theory of Orlicz Spaces. Marcel Dekker,New York, 1991.[31] Rockafellar, R. T. Integrals which are convex functionals. PacificJournal of Mathematics 24 (1968), 525–539.[32] Rockafellar, R. T. Convex Analysis. Princ<strong>et</strong>on University Press,Princ<strong>et</strong>on, NJ, 1970.[33] Rockafellar, R. T. Integrals which are convex functionals (II). PacificJournal of Mathematics 39 (1971), 439–469.25

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!