13.07.2015 Views

THÈSE DE DOCTORAT DE L'UNIVERSITÉ PARIS 6 Spécialité ...

THÈSE DE DOCTORAT DE L'UNIVERSITÉ PARIS 6 Spécialité ...

THÈSE DE DOCTORAT DE L'UNIVERSITÉ PARIS 6 Spécialité ...

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>THÈSE</strong> <strong>DE</strong> <strong>DOCTORAT</strong> <strong>DE</strong> L’UNIVERSITÉ <strong>PARIS</strong> 6<strong>Spécialité</strong>Mathématiquesprésentée parKarine BertinSujet de la thèse:ESTIMATION ASYMPTOTIQUEMENT EXACTE EN NORME SUP<strong>DE</strong> FONCTIONS MULTIDIMENSIONNELLESsoutenue le 23 novembre 2004 devant le jury composé deMonsieur Lucien BIRGÉMonsieur Wolfgang HÄRDLEMonsieur Oleg LEPSKIMadame Dominique PICARDMonsieur Alexandre TSYBAKOVMonsieur Jon WELLNERExaminateurRapporteurExaminateurExaminateurDirecteur de ThèseExaminateur


RemerciementsMes premiers remerciements sont adressés à mon directeur de thèse, Alexandre Tsybakov,sans qui ce travail n’aurait pas vu le jour. Je lui suis reconnaissante pour les qualitésscientifiques et pédagogiques de son encadrement et pour sa grande disponibilité.Je remercie Wolfgang Härdle et Michael Nussbaum d’avoir accepté d’être rapporteursde cette thèse, ainsi que Lucien Birgé, Oleg Lepski, Dominique Picard et Jon Wellnerd’avoir accepté de faire partie du jury. Je voudrais remercier tous les membres du LaboratoirePMA de m’avoir accueilli pendant ces 3 années de thèse, ainsi que toute l’équipeMODAL’X de Nanterre. Un grand merci également à toute l’équipe administrative dulabo.Je remercie vivement les thésards du labo : Alexis, Bénédicte, Eulalia, Fabien, Hélène,Joaquín, Julien, Luciano, Olivier, Pañales, Philippe, Victor... et en particulier Florent etVincent avec qui j’ai partagé de très bons moments. Je remercie tous les amis qui ontbeaucoup compté pour moi ces dernières années: Ariane, Cécile, Céline, Eric, Frantiska,Françoise et Cedric, Guénolé, Joan, Katell et Julien, Katell, Sandrine, Solen et Damienet tous les magisteriens. Gracias a los mexicanitos de París: Victor et Maika.Enfin, j’adresse mes plus tendres remerciements à toute ma famille et mes remerciementsles plus tendres à Joaquín.


Table des matières 1Table des matières1 Introduction 41.1 Objet de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.1.1 Approche minimax . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.1.2 Approche minimax adaptative . . . . . . . . . . . . . . . . . . . . . 91.2 Principaux résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2.1 Quelques résultats d’estimation asymptotiquement exacte . . . . . . 111.2.2 Estimation asymptotiquement exacte adaptative de fonctions hölderiennesmultidimensionnelles . . . . . . . . . . . . . . . . . . . . . 171.2.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 Asymptotically exact estimation in sup-norm for nonparametric regressionwith random design 212.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2 The main result and the estimator . . . . . . . . . . . . . . . . . . . . . . . 232.3 Proofs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.1 Proof of inequality (2.9) . . . . . . . . . . . . . . . . . . . . . . . . 262.3.2 Proof of inequality (2.10) . . . . . . . . . . . . . . . . . . . . . . . . 282.3.3 Proofs of lemmas and propositions . . . . . . . . . . . . . . . . . . 332.4 Appendix of Chapter 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 Asymptotically exact minimax estimation in sup-norm for anisotropicHölder classes 403.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.2 The estimator and main result . . . . . . . . . . . . . . . . . . . . . . . . . 423.3 Upper bound . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.4 Lower bound . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47


2 Table des matières3.5 Appendix of Chapter 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504 Asymptotically exact minimax estimation in sup-norm for additive models554.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2 Main result . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.3 Upper bound . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.4 Lower bound . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 Optimal recovery et estimation statistique 665.1 Cadre général de l’optimal recovery et principaux résultats . . . . . . . . . 675.2 Application au problème d’approximation d’une fonction Hölderienne . . . 685.2.1 Cas d’une fonction unidimensionnelle . . . . . . . . . . . . . . . . . 685.2.2 Cas d’une fonction Hölderienne anisotrope . . . . . . . . . . . . . . 745.3 Lien entre l’optimal recovery et l’estimation statistique en norme L ∞ . . . 815.4 Etudes des constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 866 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classes 886.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886.2 Main results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 906.2.1 The set B . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 906.2.2 Three families of estimators . . . . . . . . . . . . . . . . . . . . . . 916.2.3 A lower bound for anisotropic classes . . . . . . . . . . . . . . . . . 926.2.4 Exact asymptotics for particular forms of the set B . . . . . . . . . 926.2.5 Upper bounds for anisotropic classes . . . . . . . . . . . . . . . . . 936.2.6 Some remarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.3 Some preliminary results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 966.4 Proof of Theorem 6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 986.5 Proof of Theorem 6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1026.6 Proof of Theorem 6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1066.7 Proof of Theorem 6.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1106.8 Proofs of the lemmas and propositions . . . . . . . . . . . . . . . . . . . . 113Annexe 119.1 Résultats sur les processus gaussiens . . . . . . . . . . . . . . . . . . . . . 119


Table des matières 3.2 Un théorème de borne inférieure . . . . . . . . . . . . . . . . . . . . . . . . 119.3 Quelques théorèmes d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . 120Bibliographie 120


4 Chapitre 1. IntroductionChapitre 1Introduction1.1 Objet de la thèseCette thèse présente plusieurs résultats d’estimation minimax asymptotiquement exacteen norme L ∞ , de fonctions multidimensionnelles principalement. Ces résultats sont obtenusdans deux modèles statistiques: le modèle de régression et le modèle de bruit blancgaussien. Nous estimons des fonctions appartenant à différentes classes de fonctions hölderiennesF(β,L) où β est un paramètre de régularité et L est un paramètre d’amplitude.Nous adoptons deux approches dans la procédure d’estimation: l’approche minimax danslaquelle les paramètres de la classe de fonctions sont connus, et l’approche minimax adaptativedans laquelle les paramètres de la classe de fonctions sont inconnus. Nous nousintéressons à la vitesse de convergence sur la classe F(β,L) et à l’asymptotique exact durisque minimax ou du risque minimax adaptatif sur les différentes classes de fonctionsconsidérées.Le modèle de régression non-paramétrique est donné parY i = f(X i ) + ξ i , i = 1, . . . ,n, (1.1)où f est la fonction à estimer à partir de n observations (X 1 ,Y 1 ), . . . ,(X n ,Y n ), Y i ∈ R,X i ∈ [0,1] d , d ∈ N ∗ et les ξ i sont des variables gaussiennes de moyenne nulle et de varianceσ 2 > 0 (N (0,σ 2 )) indépendantes et identiquement distribuées (i.i.d.). Ce modèle est ditmodèle de régression à pas fixe si les X i sont des points déterministes dans [0,1] d (parexemple pour d = 1, X i = i/n, i ∈ {1, . . . ,n}). Ce modèle est dit modèle de régression àpas aléatoire si les X i sont des variables aléatoires dans [0,1] d , et nous étudions dans cettethèse le cas où les X i sont i.i.d. et indépendantes des ξ i .Le modèle de bruit blanc gaussien est défini par l’équation différentielledY t = f(t)dt + σ √ ndW t , t ∈ ∆, (1.2)où f est la fonction à estimer à partir des observations (Y t ) t∈∆ , W t est un champ Browniensur ∆, σ > 0 et n ∈ N ∗ . On étudiera le cas ∆ = [0,1] d et ∆ = R d . Le modèle de bruit


1.1. Objet de la thèse 5blanc gaussien joue un rôle important en Statistique (cf. Ibragimov et Hasminskii (1981)).L’avantage de ce modèle est qu’il est simple à utiliser et qu’il approche d’autres modèlesstatistiques, en particulier le modèle (1.1) (cf. Brown et Low (1996), Nussbaum (1996) etBrown et al. (2002)).Dans chacun des deux modèles décrits précédemment, notre but est d’estimer en normeL ∞ sur [0,1] d la fonction f appartenant à une classe hölderienne, à partir de y, en adoptantune approche minimax ou minimax adaptative, où y est soit (X 1 ,Y 1 ), . . . ,(X n ,Y n ) si noustravaillons dans le modèle (1.1), soit (Y t ) t∈∆ si nous travaillons dans le modèle (1.2).1.1.1 Approche minimaxDans l’approche minimax, la qualité d’un estimateur ˆf n , i.e. une fonction mesurablepar rapport à y, se mesure à l’aide d’un risque maximal sur une classe de fonctions Fconnue, associé à une fonction ρ:( )}sup E f{ρ ˆfn ,f ,f∈Foù E f représente l’espérance par rapport à y et ρ est une fonction à valeurs dans R + . Lebut est de trouver un estimateur qui minimise le risque maximal et on étudie le risqueminimax r n (F)r n (F) = infˆf n( )}sup E f{ρ ˆfn ,f ,f∈Fet son comportement quand n tend vers ∞, où inf ˆfnreprésente l’infimum sur tous lesestimateurs.Dans cette thèse, nous considérons pour chaque n un risque maximal renormalisé dela forme(d(sup E f{wˆf)}n ,f),f∈Fλ noù w est une fonction w : [0,∞[→ [0,∞[, d est une semi-distance (i.e. d a les mêmespropriétés qu’une distance sauf peut-être [ d(f,g) = 0 implique f = g ]) et (λ n ) n∈N estune suite strictement positive telle que λ n → 0 quand n → ∞. On supposera que w estune fonction continue croissante telle que w(0) = 0 et w(x) ≤ A(1 + x q ) pour x > 0 avecA > 0 et q > 0.On étudier n (F,λ n ) = infˆf nsup E f{wf∈F(d( ˆf)}n ,f),λ npour (λ n ) n∈N une suite strictement positive et on cherche à trouver la vitesse de convergenceminimax.Définition 1.1. Étant donnée une suite (ψ n ) n∈N strictement positive qui tend vers 0quand n tend vers ∞, on dit que ψ n est la vitesse de convergence minimax sur la


6 Chapitre 1. Introductionclasse de fonctions F, associée à la semi-distance d, s’il existe deux constantes C 1 > 0,C 2 > 0 telles que ∀n ∈ NC 1 ≤ r n (F,ψ n ) ≤ C 2 .Un estimateur ˆf n est dit optimal en vitesse de convergence pour la semi-distance det la classe F s’il vérifie ∀n ∈ N(d(sup E f{wˆf)}n ,f)≤ C,f∈Fψ navec une constante C > 0.On peut ensuite vouloir préciser le comportement asymptotique de r n (F,ψ n ) en cherchantla constante exacte et un estimateur asymptotiquement exact.Définition 1.2. Soit ψ n la vitesse de convergence minimax sur la classe de fonctions F,associée à la semi-distance d. Un estimateur fn ∗ est dit asymptotiquement exact pourla semi-distance d et la classe F s’il vérifielim supn→∞f∈F( )} d(f∗E f{w n ,f)= lim infψ n n→∞ ˆf nsup E f{wf∈F(d( ˆf)}n ,f)= w(C 0 ),ψ net C 0 est alors appelée constante exacte associée à la vitesse de convergence ψ n .La fonction w s’appelle fonction de perte. Quand d(f,g) = ‖f − g‖ p , avec p ∈ [1,∞],on parle d’estimation en norme L p , et quand d(f,g) = |f(x 0 ) − g(x 0 )|, avec x 0 ∈ R d , onparle d’estimation en un point fixé. Pour p ∈ [1,∞[, on définit ‖g‖ p = ( ∫ [0,1] d |g(t)| p dt) 1/pet ‖g‖ ∞ = sup x∈[0,1] d |g(x)|.La vitesse de convergence n’est pas unique et on choisit classiquement de la représentersous la forme n α ou (log n) γ n α . Dans la suite, une fois fixée la représentation de la vitesse,nous parlons simplement de constante exacte et d’estimateur asymptotiquement exact.Les vitesses de convergence ont été calculées pour de nombreux modèles et classesde fonctions, en particulier, pour les modèles (1.1) et (1.2) sur les classes de Hölderunidimensionnelles Σ(β,L) avec β > 0 et L > 0.Définition 1.3. Pour β > 0 et L > 0, on définit la classe de Hölder unidimensionnelleΣ(β,L) = { f : R → R,|f (m) (x) − f (m) (y)| ≤ L|x − y| β−m , x,y ∈ R } ,où m = ⌊β⌋ = max{n ∈ N tel que n < β}.Sur Σ(β,L), dans le modèle de bruit blanc gaussien et le modèle de régression, la vitessede convergence minimax est n − β2β+1 pour l’estimation en norme Lp avec p ∈ [1,∞[ ou en) βun point fixé, et ( log n 2β+1pour l’estimation en norme Ln∞ (cf. Ibragimov et Hasminskii(1980, 1981, 1982), Stone (1982)). Les vitesses de convergence minimax ont aussi été


1.1. Objet de la thèse 7calculées dans le modèle de densité sur les classes de Hölder Σ(β,L) et sont les mêmesque dans les modèles de régression et bruit blanc gaussien (cf. Ibragimov et Hasminskii(1981)).Pour l’estimation sur des classes hölderiennes multidimensionnelles isotropes, de régularitéβ > 0 dans chaque direction, Stone (1980,1982) a prouvé que, dans le modèlede régression, la vitesse de convergence est n − β2β+d pour l’estimation en norme Lp avec) β2β+dp ∈ [1,∞[ ou en un point fixé, et ( log npour l’estimation en norme Ln∞ . Nussbaum(1986) a trouvé des vitesses identiques pour l’estimation sur des classes de Sobolev multidimensionnellesisotropes dans le modèle de régression.Les vitesses de convergence pour l’estimation en norme L ∞ sur des classes hölderiennesanisotropes n’ont pas été calculées dans les modèles (1.1) et (1.2). Par contre, plusieursrésultats d’estimation sur des classes anisotropes de régularité (β 1 , . . . ,β d ) ∈ R + montrentque les vitesses de convergence dépendent de β = ( ∑ di=1 1/β i) −1 . Barron et al. (1999) ontmontré que la vitesse de convergence est n − 2β+1 , dans le modèle de densité, pour l’estimationen norme L 2 de fonctions hölderiennes anisotropes. Kerkyacharian et al. (2001), dansle modèle de bruit blanc gaussien, pour l’estimation sur des classes de Besov anisotropesen norme L p avec p ∈ [1,∞[ ont trouvé une vitesse similaire ( cf. aussi Neumann et vonSachs (1997) dans le cas d = 2 pour l’estimation en norme L 2 sur des classes de Sobolevanisotropes dans le modèle de bruit blanc gaussien).Concernant l’estimation de fonctions hölderiennes additives, on a les résultats suivants.Pour l’estimation en norme L 2 de fonctions additives f vérifiantβf(t) = µ +d∑f i (t i ),t = (t 1 , . . . ,t d ) ∈ [0,1] d , (1.3)i=1avec µ ∈ R et les f j ∈ Σ(β,L) avec β > 0 et L > 0, Stone (1985) a prouvé que lavitesse de convergence est n − β2β+1 dans le modèle de régression, i.e. il existe un effet deréduction de la dimension car la vitesse ne dépend pas de d. Baraud et al (2001) et Baraud(2002) ont montré que, dans un modèle de régression, pour l’estimation en norme L 2 defonctions f vérifiant (1.3) avec f j appartenant à une classe de Besov de régularité β i où(β 1 , . . . ,β d ) ∈ R d +, la vitesse de convergence est n − ˜β2 ˜β+1 , où ˜β = mini=1,...,d β i .Les ouvrages et articles de Korostelev et Tsybakov (1993), Donoho et al. (1995), Härdleet al. (1998) et Tsybakov (2004) donnent un aperçu des résultats sur les vitesses deconvergence.Si les vitesses de convergence minimax sont connues pour de nombreux modèles etclasses de fonctions, par contre, il existe moins de résultats sur les constantes exactes.Le premier résultat de constante exacte est dû à Pinsker (1980). Pinsker (1980) a trouvéla constante exacte et un estimateur asymptotiquement exact dans le cas de l’estimationen norme L 2 pour la fonction de perte w(x) = x 2 sur des classes de Sobolev unidimensionnellesdans un modèle de bruit blanc gaussien. Les résultats de Pinsker (1980) ont


8 Chapitre 1. Introductionété étendus à d’autres modèles par Efroimovich et Pinsker (1981,1982) pour l’estimationde densités et de densités spectrales, par Nussbaum (1985), Golubev et Nussbaum(1992), Efromovich (1996) et Tsybakov (1997) pour l’estimation de fonctions de régressionnon-paramétrique et par Golubev (1992) dans le modèle de projection pursuit.Le deuxième cas pour lequel il existe des résultats de constantes exactes est l’estimationen norme L ∞ de fonctions hölderiennes. Dans le cas de l’estimation en norme L ∞ sur laclasse Σ(β,L) avec β ∈]0,1] et L > 0, dans le modèle (1.1) avec X i = i/n pour i = 1, . . . ,n,Korostelev (1993) a prouvé que la constante exacte associée à la vitesse de convergenceψ n = ( )log n β/(2β+1)n est la constanteC 0 (β) =(σ 2β L( ) ) 1β 2β+1β + 1, (1.4)2β 2et a trouvé un estimateur asymptotiquement exact qui est un estimateur à noyau de noyauK β et de fenêtre d’estimation h n oùet( ) 1/β C0 (β)ψ nh n =,LK β (t) = β + 12β (1 − |t|β ) + ,t ∈ R,avec x + = max(0,x). Donoho (1994a) a étendu le résultat de Korostelev à des régularitésβ > 0 dans le modèle de bruit blanc gaussien (modèle (1.2)) dans le cas de l’estimationsur Σ(β,L) en norme L ∞ . Il a prouvé que des estimateurs asymptotiquement exacts et laconstante exacte associée à ψ n dépendaient de la solution f β du problème d’optimisationmax∫R f 2 (t)dt≤1f∈Σ(β,1)f(0), (1.5)qui est relié à certains problèmes d’optimal recovery (cf. Chapitre 5). En particulier, il aprouvé que certains estimateurs asymptotiquement exacts sont des estimateurs à noyaudont le noyau K β dépend de la solution f β de (1.5) de la manière suivante:K β (t) =∫ f β(t),t ∈ R,fβ (s)dset que la constante exacte associée à ψ n dépend de f β (0) (cf. Chapitre 5). Korostelevet Nussbaum (1999) ont obtenu la constante exacte et un estimateur asymptotiquementexact dans le cas de l’estimation en norme L ∞ de fonctions de Σ(β,L) avec β > 0 etL > 0 dans le modèle de densité. Les premiers chapitres de cette thèse généralisent lesrésultats de constantes exactes pour l’estimation en norme L ∞ , à des classes hölderiennesmultidimensionnelles.


1.1. Objet de la thèse 9Un troisième cas où l’étude des constantes exactes a été faite est l’estimation surdes classes de fonctions analytiques, pour l’estimation en norme L p , 1 ≤ p ≤ ∞, dansle modèle de bruit blanc gaussien (cf. Golubev, Levit et Tsybakov (1996) et Guerre etTsybakov (1998)) et l’estimation en un point fixé dans le modèle de densité (cf. Golubevet Levit (1996)).D’autres résultats de constantes exactes sont donnés par Korostelev (1996) dans lemodèle de régression pour le risque basé sur la probabilité de grande déviation en unpoint fixé ou associé à la norme L ∞ et par Lepski et Tsybakov (2000) pour l’etude destests d’hypothèse asymptotiquement exacts.1.1.2 Approche minimax adaptativeDans l’approche minimax adaptative, on suppose toujours que la fonction f à estimerappartient à une classe de fonctions F. Dans la pratique, la classe F est inconnue maisnous pouvons supposer que F ∈ {F β } β∈B , où B est un ensemble donné et les F β sont desclasses connues de fonctions. On définit la quantité{R n,β ( ˆf n ,λ n ) = sup E f wf∈F β(d( ˆf)}n ,f),λ npour (λ n ) n∈N une suite strictement positive qui tend vers 0 et ˆf n un estimateur. Pourβ ∈ B, on suppose que ψ n (β) est la vitesse de convergence minimax sur la classe F βassociée à la semi-distance d. On cherche tout d’abord s’il existe des estimateurs “optimalau sens adaptatif en vitesse de convergence”, i.e. des estimateurs indépendants de β ∈ Bqui convergent à la vitesse ψ n (β) sur chacune des classes F β . On s’intéresse ensuite àpréciser le comportement asymptotique de ces estimateurs en cherchant la “constanteexacte adaptative” et des estimateurs asymptotiquement exacts adaptatifs et on étudie lerisque minimax adaptatifinfˆf nsup R n,β ( ˆf n ,ψ n (β)).β∈BDéfinition 1.4. Un estimateur ˆf n est dit optimal adaptatif en vitesse de convergence(O.A.) sur la famille de classes {F β } β∈B pour la semi-distance d s’il vérifielim supn→∞sup R n,β ( ˆf n ,ψ n (β)) ≤ C,β∈Boù C > 0 est une constante. Un estimateur f ∗ n est dit asymptotiquement exact adaptatifsur la famille de classes {F β } β∈B pour la semi-distance d s’il existe des constantesC β > 0 telles quelim supn→∞β∈BR n,β (f ∗ n,C β ψ n (β)) = limn→∞infˆf nsup R n,β ( ˆf n ,C β ψ n (β)) = w(1),β∈Boù inf ˆfnreprésente l’infimum sur tous les estimateurs. On dit alors que C β est la constanteexacte adaptative associée à la vitesse de convergence ψ n (β).


10 Chapitre 1. IntroductionDans certains problèmes d’estimation adaptative, il n’existe pas d’estimateur O.A. (cf.Lepski (1990) pour l’estimation en un point fixé de fonctions hölderiennes Σ(β,L) oùβ ∈ B ⊂ R + et B contient au moins deux éléments). En revanche, on peut avoirlim supn→∞sup R n,β ( ˆf n ,λ n (β)) ≤ C, (1.6)β∈Boù C > 0 est une constante, pour un estimateur ˆf n et pour une suite λ n (β) strictementpositive qui n’est pas la vitesse de convergence minimax sur la classe F β .Définition 1.5. Étant donné une suite (λ n (β)) n∈N strictement positive qui tend vers 0,on dit que λ n (β) est la vitesse de convergence adaptative sur la famille de classes{F β } β∈B pour la semi-distance d si:(1) la condition (1.6) est vérifiée pour un estimateur ˆf n ,(2) la quantité S n (β) vérifie une condition analogue à (1.6):et la conditionalors il existe β ′′ ∈ B tel quelim supn→∞sup R n,β ( ˆf n ,S n (β)) ≤ C, (1.7)β∈B∃β ′ ∈ B : limn→∞S n (β ′ )λ n (β ′ ) = 0,limn→∞S n (β ′ ) S n (β ′′ )λ n (β ′ ) λ n (β ′′ ) = ∞.Un estimateur vérifiant (1.6) est alors dit adaptatif en vitesse de convergence.Dans le modèle de bruit blanc gaussien, Lepski (1991) a montré qu’il existait desestimateurs optimaux adaptatifs en vitesse de convergence (avec une définition d’“optimaladaptatif” légèrement différente: il a utilisé la définition 1.4 avec le “sup” et la “lim sup”inversés) pour l’estimation en norme L p avec p ≥ 2 ou en norme L ∞ , sur des classes deHölder Σ(β,L,Q) avec B un intervalle fermé de ]0,∞[ oùΣ(β,L,Q) = Σ(β,L) ∩ {f : ‖f‖ ∞ ≤ Q}, β > 0, L > 0 et Q > 0 .Lepski (1990) a montré qu’en revanche pour l’estimation en un point fixé sur des classesde Hölder Σ(β,L), il n’existait pas d’estimateurs O.A. et que la vitesse de convergenceadaptative était ( )log n β/(2β+1).n Pour l’estimation en norme L∞ sur des classes de HölderΣ(β,L), la fonction de perte w(x) = x r , r > 0, et un ensemble B ⊂]0,∞[ fini, Lepski(1992) a construit un estimateur asymptotiquement exact adaptatif et il a montré que laconstante exacte adaptative associée à la vitesse de convergence ψ n (β) = ( )log n β/(2β+1)nest(C 1 (β) = C 0 (β) 1 + r(β ) βmax − β)2β+1,2β max + 1


1.2. Principaux résultats 11où β max = max{β ∈ B}. Il a également construit des estimateurs asymptotiquementexacts adaptatifs et montré que la constante exacte adaptative est C 0 (β) dans le mêmecadre mais pour des fonctions de perte vérifiant pour tout r > 0 lim x→∞ w(x)x −r = 0.Tsybakov (1998) a construit un estimateur asymptotiquement exact adaptatif et a donnéla constante exacte adaptative dans le cas de l’estimation en norme L ∞ sur des classes deSobolev dans le modèle de bruit blanc gaussien. Il a également montré dans le même cadreque pour l’estimation en un point fixé, il n’existait pas d’estimateurs optimaux adaptatifsen vitesse de convergence.D’autres résultats de constantes exactes adaptatives sur des classes unidimensionnellessont donnés par Efromovich et Pinsker (1984), Golubev (1990), Golubev et Nussbaum(1992), Goldenshluger et Nemirovski (1997), Goldenshluger et Tsybakov (2001), Cavalieret Tsybakov (2002) pour l’estimation en norme L 2 , et par Lepski et Spokoiny (1997),Tsybakov (1998), Lepski et Levit (1998), Butucea (2001) pour l’estimation en un pointfixé (cf. aussi Butucea et Neumann (2004)). Des résultats d’estimation asymptotiquementexacte adaptative sur des classes multidimensionnelles ont été obtenus par Lepski et Levit(1999) (fonctions analytiques), Efromovich (2000) (estimation en norme L 2 ) et Klemeläet Tsybakov (2001,2004) (estimation en un point fixé).1.2 Principaux résultatsNous démontrons dans cette thèse des résultats d’estimation asymptotiquement exacteen norme L ∞ dans le modèle de régression ou le modèle de bruit blanc gaussien. Cetravail est fait pour différentes classes de fonctions: Σ(β,L), Σ(β,L,Q), Σ ad (β,L), Σ ani (β,L)(cf. Définitions 1.6 et 1.7). Pour l’estimation en norme L ∞ sur ces classes, nous nousintéressons à préciser l’asymptotique du risque minimax en calculant la constante exacteet en donnant un estimateur asymptotiquement exact pour chaque problème considéré.Nous étudions également le risque minimax adaptatif dans le cas de l’estimation surΣ ani (β,L). Dans la plupart des chapitres de cette thèse, nous présentons des résultatsd’asymptotique exacte explicite, i.e. les constantes exactes ou exactes adaptatives, et lesestimateurs asymptotiquement exacts ou exacts adaptatifs sont connus et donnés de façonexplicite en fonction de β, L, Q et des données du modèle étudié. C’est la raison pourlaquelle nous sommes amenés à considérer des régularités assez petites. Dans le Chapitre 5,nous expliquons comment obtenir des résultats d’asymptotique exacte pour des régularitésplus grandes. Mais pour des régularités β plus grandes, on ne connait pas, généralement,les constantes exactes et les estimateurs asymptotiquement exacts de façon explicite, etils dépendent d’une fonction f β qui n’est pas connue.1.2.1 Quelques résultats d’estimation asymptotiquement exacteLe résultat du Chapitre 2 est une généralisation du résultat de Korostelev (1993) et faitl’objet de l’article Bertin (2004). Alors que Korostelev (1993) travaille dans le modèle de


12 Chapitre 1. Introductionrégression à pas fixe, nous considérons dans le Chapitre 2 le modèle (1.1) avec d = 1 et lesX i sont des variables aléatoires de densité µ sur [0,1], indépendantes des ξ i . Nous supposonsde plus que µ ∈ Σ(l,C) avec l ∈]0,1], C > 0, que µ vérifie min x∈[0,1] µ(x) = µ 0 > 0 etque la fonction f à estimer appartient à Σ(β,L,Q). Stone (1982) a montré que la vitessede convergence dans ce modèle pour l’estimation en norme L ∞ sur la classe Σ(β,L,Q)est ψ n (β) = ( )log n β/(2β+1).n Le théorème suivant démontré dans le Chapitre 2 donne laconstante exacte et un estimateur asymptotiquement exact θn.∗Théorème 1.1. Pour β ∈]0,1], L > 0 et Q > 0, on alimsupn→∞ f∈Σ(β,L,Q)oùE f{w( )}‖f − θ∗n ‖ ∞= lim inf sup E f{wψ n (β)n→∞ ˆf n f∈Σ(β,L,Q)C ′ 0(β) =(σ 2β L( ) ) 1β 2β+1β + 1.2β 2 µ 0(‖f − ˆf n ‖ ∞ψ n (β))}= w(C ′ 0(β)),L’estimateur θn∗ est proche d’un estimateur de Nadaraya-Watson construit à partir dunoyauK β (t) = β + 1 ( ) 1 − |t|β2β, (1.8)+avec un pas d’estimation h (cf. Chapitre 2 pour la construction précise de θ ∗ n) où( ) 1C′h = 0 (β)ψ n (β)β.LLa constante C ′ 0(β) est égale à celle de Korostelev (1993) définie en (1.4) pour µ 0 = 1.Ceci paraît logique car Korostelev (1993) considérait un design à pas fixe régulier (i.e.X i = i/n, i = 1, . . . ,n), qui est proche d’un modèle de régression à pas aléatoire où les X isuivent une loi uniforme (qui correspond au cas µ 0 = 1). L’estimateur θ ∗ n et la constanteC ′ 0(β) dépendent de µ 0 , le minimum de la densité µ, ce qui indique que les points où il y ale moins d’observations ont plus d’importance dans l’estimation. Par ailleurs, l’estimateurθ ∗ n ne dépend pas de Q et nous donnons dans le Chapitre 2 une méthode pour construireun estimateur asymptotiquement exact ˜θ ∗ n proche de θ ∗ n et indépendant de µ 0 .Dans les chapitres suivants, nous travaillons dans le modèle de bruit blanc gaussien(1.2) avec soit ∆ = [0,1] d , soit ∆ = R d , et d ≥ 1, et nous faisons de l’estimation surdes classes de Hölder multidimensionnelles. L’intérêt de travailler dans ce modèle est queles calculs y sont plus simples. Par ailleurs en adaptant les preuves des résultats obtenuspour le modèle de bruit blanc gaussien au modèle de régression, ou bien en utilisant despropriétés d’équivalence de modèle, des résultats similaires pourraient être obtenus pourle modèle de régression (1.1).Dans les Chapitres 3 et 4, nous estimons une fonction f qui appartient à une classehölderienne multidimensionnelle. Le Chapitre 3 correspond à l’article Bertin (2003). Dans


1.2. Principaux résultats 13le Chapitre 3, nous supposons que f ∈ Σ ani (β,L) avec β = (β 1 , . . . ,β d ) ∈]0,1] d et L ∈]0,∞[ dconnus. Dans le Chapitre 4, nous supposons que f ∈ Σ ad (β,L), où β = (β 1 , . . . ,β d ) ∈ R d +et L ∈]0,∞[ d sont connus et tels que min i=1,...,d β i ∈]0,1] . Les classes Σ ad (β,L) et Σ ani (β,L)sont définies de la façon suivante.Définition 1.6. Pour d ≥ 1, β = (β 1 , . . . ,β d ) ∈]0,∞[ d et L = (L 1 , . . . ,L d ) ∈]0,∞[ d , ondéfinit la classe de fonctions hölderiennes additives{d∑∫}Σ ad (β,L) = f : R d → R : f(t) = f i (t i ) avec f i ∈ Σ(β i ,L i ) et f i (u)du = 0 .i=1pour t = (t 1 , . . . ,t d ) ∈ R d .Définition 1.7. Soit β = (β 1 , . . . ,β d ) ∈]0,∞[ d tel que ⌊β i ⌋ = ⌊β j ⌋ l pour i,j ∈ {1, . . . ,d}et L = (L 1 , . . . ,L d ) ∈]0,∞[ d . On définit la classe de Hölder anisotrope multidimensionnelleΣ ani (β,L) comme l’ensemble des fonctions f de classe C l sur R d qui vérifient|f(b) − P l (f)(b − a,a)| ≤d∑L i |b i − a i | β i,où a = (a 1 , . . . ,a d ),b = (b 1 , . . . ,b d ) ∈ R d et P l (f)(x,a) est le polynôme de Taylor d’ordre lassocié à f au voisinage de a.Dans le Chapitre 3, nous étudions le modèle (1.2) avec ∆ = [0,1] d et d ≥ 1 et dans leChapitre 4 nous étudions le modèle (1.2) avec ∆ = R d . Les deux théorèmes qui suiventmettent en évidence que, pour l’estimation en norme L ∞ sur Σ ani (β,L), la vitesse deconvergence est ψ n (β) = ( )log n β/(2β+1),n et pour l’estimation en norme L∞ sur Σ ad (β,L),la vitesse de convergence est ˜ψ n (β) = ( )log n˜β/(2 ˜β+1)n où( d∑) −11β =etβ ˜β = min β i.i=1 i i=1,...,dOn a les théorèmes suivants.Théorème 1.2. Pour β ∈]0,1] d et L ∈]0,∞[ d , on alimsupn→∞ f∈Σ ani (β,L)E f{wi=1( )}‖f − f∗n ‖ ∞= lim inf sup E f{wψ n (β)n→∞ ˆf n f∈Σ ani (β,L)(R‖f − ˆf n ‖ ∞ψ n (β))}= w(C 0 (β)),oùavec⎛ ( ) ⎞ βC 0 (β) = ⎝σ 2β β + 1L ∗⎠α(β)β 3∏α(β) = 2d di=1 Γ( ( 1β i)d∏Γ( 1 ) ∏ dβ i=1 β , L ∗ =ii=112β+1L 1/β jj,) β,


14 Chapitre 1. Introductionoù Γ désigne la fonction Gamma. L’estimateur f ∗ n est l’estimateur défini pour t = (t 1 , . . . ,t d ) ∈[0,1] d parf ∗ n(t) =∫1h 1 · · · h doù pour u = (u 1 , . . . ,u d ) ∈ R d ,et(u1 − t 1K β[0,1] h d 1(K β (u 1 , . . . ,u d ) = β + 1α(β)β 2 1 −h i =(C 0 (β)L i, . . . , u ) d∏d − t dg(u i ,t i ,h i )dY u , (1.9)h di=1)d∑|u i | β ii=1( ) ) 1/βi β/(2β+1) log n,i = 1, . . . ,d,n⎧1 ⎪⎨ ( )si t i ∈ [h i ,1 − h i ]ug(u i ,t i ,h i ) = 2I i −t i[0,1] h isi t i ∈ [0,h i )( )⎪⎩u2I i −t i[−1,0] h isi t i ∈ (1 − h i ,1].Dans le Théorème 1.2, si nous avions travaillé dans le modèle (1.2) avec cette fois∆ = R d , nous aurions obtenu la même vitesse de convergence minimax, la même constanteexacte et un estimateur asymptotiquement exact aurait été donné par (1.9) en prenantg(u i ,t i ,h i ) = 1 pour tous u i , t i , h i . Dans les Chapitres suivants, nous avons choisi detravailler dans le modèle (1.2) avec ∆ = R d , ce qui permet d’avoir des estimateurs plussimples.Théorème 1.3. Pour β ∈ R d + telle que ˜β ∈]0,1] et L ∈]0,∞[ d , on alimsupn→∞ f∈Σ ad (β,L)( )]‖f∗E f[w n − f‖ ∞˜ψ n (β)= limn→∞infˆf nsup E f[wf∈Σ ad (β,L)(+,‖ ˆf n − f‖ ∞˜ψ n (β))]= w(C ad ),où()C ad = σ 2˜L˜β+1 ˜β ˜β2+ 1˜β+1˜β,2˜β 2˜L = ∑ 1 {˜β+1Li et Λ = i ∈ {1, . . . ,d} : β i = ˜β}.i∈ΛL’estimateur f ∗ n est l’estimateur défini pour t = (t 1 , . . . ,t d ) ∈ [0,1] d par∫fn(t) ∗ =d∑R d j=11h j (β) K˜β( )uj − t jdY uh j (β)


1.2. Principaux résultats 15où K˜βest défini par (1.8) et⎧⎪⎨h j (β) =⎪⎩pour j ∈ {1, . . . ,d} et D > 0.C 1/˜βad( log nn( log n) 1n) 1− 12 ˜β+1 L ˜β+1j˜L1˜βsi β j = ˜β,2 ˜β+1 (log n) D si β j ≠ ˜β.Ces deux théorèmes donnent la vitesse de convergence minimax pour l’estimation ennorme L ∞ sur les classes de Hölder Σ ani (β,L) pour β ∈]0,1] d et Σ ad (β,L) pour ˜β ∈]0,1], cequi n’avait pas été fait précisément dans les cadres considérés. De plus, ils donnent de façonexplicite l’asymptotique exacte (constante exacte et estimateur asymptotiquement exact).La vitesse de convergence est donc meilleure et n’est pas influencée par la dimension sif ∈ Σ ad (β,L). Cette différence apparaît plus clairement dans le cas isotrope (ie. β 1 = β 2 =· · · = β d b) puisqu’on a ψ n (β) = ( )log n b/(2b+d)n et ˜ψn (β) = ( )log n b/(2b+1).n La vitesse ˜ψn (β)correspond à la vitesse d’estimation sur une classe hölderienne de régularité b. Dans le casde l’estimation en norme L ∞ sur Σ ad (β,L), la vitesse de convergence dépend uniquementde β via ˜β et c’est aussi le cas de la constante exacte C ad .La démonstration des trois théorèmes précédents se fait classiquement en deux étapes:la borne supérieure qui consiste à trouver un estimateur fn ∗ tel que( )]‖f − f∗lim sup sup E f[wn ‖ ∞≤ w(C F ),n→∞ψ n (F)f∈Fet la borne inférieure qui consiste à montrer que(lim infn→∞infˆθ nsup E f[wf∈F‖f − ˆθ n ‖ ∞ψ n (F))]≥ w(C F ), (1.10)où F est la classe de fonctions considérée (ici Σ(β,L,Q), Σ ad (β,L) et Σ ani (β,L)), C F > 0,ψ n (F) est une suite qui tend vers 0 et l’infimum est pris sur tous les estimateurs ˆθ n .Montrer ces deux relations permet de prouver que ψ n (F) est la vitesse de convergence surF, que C F est la constante exacte et que f ∗ n est un estimateur asymptotiquement exactpour l’estimation en norme L ∞ sur la classe F.Pour prouver la borne inférieure de chacun de ces trois théorèmes, nous utilisons desméthodes développées par Tsybakov (2004) et des techniques de minoration du risqueminimax par le risque bayesien, que Pinsker (1980) avait utilisé pour obtenir son résultatd’estimation exacte en norme L 2 . Dans chacune des démonstrations de borne inférieure,nous adoptons le schéma suivant.(1) Réduction aux bornes en probabilité. Pour f ∈ F et ˆf n un estimateur, on a d’aprèsl’inégalité de Markov et puisque w est croissante(‖f −E f[wˆf)]n ‖ ∞≥ w(C F (1 − ε))P f[‖f −ψ n (F)ˆθ]n ‖ ∞ ≥ C F ψ n (F)(1 − ε) ,


16 Chapitre 1. Introductionpour 0 < ε < 1 et P f est la probabilité associée à y. Ainsi pour obtenir (1.10), εpouvant être choisi arbitrairement petit, il suffit de prouver quelim inf inf sup P f[‖f − ˆθ]n ‖ ∞ ≥ C F ψ n (F)(1 − ε) ≥ 1.n→∞ ˆθ n f∈FOn est donc amené à prouver un résultat de minoration sur des probabilités.(2) Réduction à une sous-classe. Dans les trois démonstrations de borne inférieure, ona choisit une sous-classe F ′ ⊂ F telle que F ′ est paramétrisable. La classe F ′ esttelle que pour tout f ∈ F ′ , il existe θ ∈ [−1,1] M , avec M ∈ N ∗ une quantité quidépend de n, tel que f(·) = f θ,n (·), où f θ,n ∈ F. On est donc amené à prouver quelim infn→∞infˆθ n[sup P fθ,n ‖f θ,n − ˆθ n ‖ ∞ ≥ C F ψ n (F)(1 − ε)θ∈[−1,1] M]≥ 1.(3) Minoration du risque minimax en probabilité par le risque bayesien. Pour une densitédonnée π(·) sur [−1,1] M , on a[inf sup P fθ,n ‖f θ,n − ˆθ]n ‖ ∞ ≥ C F ψ n (F)(1 − ε)ˆθ n θ∈[−1,1]∫M [≥ inf P fθ,n ‖f θ,n − ˆθ]n ‖ ∞ ≥ C F ψ n (F)(1 − ε) π(θ)dθ. (1.11)ˆθ n [−1,1] MDans chacun des cas, on a pris la distribution π uniforme sur {−(1−ε),1−ε} M , et ona choisi des fonctions f θ,n et la quantité M pour avoir ‖f θ,n −f θ ′ ,n‖ ∞ ≥ 2C F ψ n (F)(1−ε) et de bonnes propriétés pour dP f θ,ndP f0,n, où f 0,n est la fonction identiquement nulle.Ceci permet d’obtenir que la quantité (1.11) tende vers 0.Pour obtenir la borne supérieure de chacun de ces trois théorèmes, nous construisons desestimateurs à noyau avec des noyaux choisis à partir de résultats d’optimal recovery. Dansle Chapitre 5, nous présentons comment la théorie de l’optimal recovery permet d’obtenirdes résultats d’estimation en norme L ∞ de fonctions hölderiennes. Nous étudions, dansce chapitre, le modèle déterministey(t) = f(t) + εz(t), t ∈ R d , (1.12)où ε > 0, f ∈ Σ(β,1) et z : R d → R est tel que ∫ R d z 2 (t)dt ≤ 1. Nous nous intéressonsà l’approximation de la fonctionnelle T (f) = f(0) à partir de y, où 0 est le vecteur nulde R d . Pour d = 1 et f ∈ Σ(β,L), les algorithmes optimaux (cf. Chapitre 5) dépendentde la fonction f β solution du problème d’optimisation (1.5). La solution f β du problèmed’optimisation (1.5) existe, est unique, paire et à support compact (cf. Donoho (1994a),Leonov (1997) et Chapitre 5 de cette thèse). La fonction f β n’est pas connue de façonexplicite, sauf pour β ∈]0,1] et β = 2. Nous utilisons les résultats obtenus dans le modèledéterministe (1.12) pour en déduire des résultats dans le modèle de bruit blanc gaussien.Dans le modèle de bruit blanc gaussien (1.2) avec ∆ = R, pour l’estimation en norme L ∞


1.2. Principaux résultats 17de fonctions f ∈ Σ(β,L) avec β > 0 et L > 0, nous mettons en évidence qu’on peut trouverun estimateur asymptotiquement exact qui est un estimateur à noyau construit à partirdu noyau K β (·) = ∫f β(·). Le noyau KR f β(s)ds β(·) =f β(·)intervient dans la construction∫R f β(s)dsdes estimateurs asymptotiquement exacts des Chapitres 2 et 4. Dans ces deux chapitres,nous nous restreignons à des régularités β ∈]0,1] ou ˜β ∈]0,1] pour obtenir des résultatsd’asymptotique exacte explicite. Des résultats d’estimation asymptotiquement exacte auraientpu être obtenus pour des régularités plus grandes mais les constantes exactes et lesestimateurs asymptotiquement exacts auraient été donnés en fonction de f β inconnue(cf.remarques des paragraphes 2.2 et 4.2).Pour β ∈]0,∞[ d et L ∈]0,∞[ d , nous étudions le modèle (1.12) en supposant que f ∈Σ ani (β,L). Nous mettons en évidence que l’erreur minimax du problème d’approximationde f(0) dépend de la solution fβani du problème d’optimisationsupf∈Σ ani (β,1)‖f‖ 2 ≤1f(0), (1.13)où 1 = (1, . . . ,1) est le vecteur unité de R d . Nous montrons l’existence, l’unicité et lecaractère symétrique de la solution fβani de ce problème. La solution de ce problème estconnue de façon explicite pour β ∈]0,1] d . Nous nous restreignons donc à des régularitésβ ∈]0,1] d dans les Chapitres 3 et 6 pour obtenir des résultats d’asymptotique exacte ouexacte au sens adaptatif, explicites.1.2.2 Estimation asymptotiquement exacte adaptative de fonctionshölderiennes multidimensionnellesLe Chapitre 6 correspond à la suite du Chapitre 3. Dans le Chapitre 3, nous estimonsune fonction f ∈ Σ ani (β,L) avec β ∈]0,1] d et L ∈]0,∞[ d connus. Dans le Chapitre 6,nous considérons le modèle (1.2) avec ∆ = R d et nous supposons que f ∈ Σ ani (β,L) avecβ ∈]0,1] d inconnu et L ∈]0,∞[ d connu et β ∈ B ⊂]0,1] d . A tous β = (β 1 , . . . ,β d ) ∈ B, onassocie β ∈ R tel que β = ( ∑ di=1 1/β i) −1 . Nous supposons que B vérifie l’hypothèse (H 1 ).(H 1 ) L’ensemble B est fini et pour tous β,γ ∈ B tels que β ≠ γ, on a β ≠ γ.Pour des ensembles B vérifiant (H 1 ) nous démontrons qu’il existe des estimateursadaptatifs en vitesse de convergence pour l’estimation en norme L ∞ dans le cas où lafonction de perte est w(x) = x p , p > 0. Pour des ensembles B vérifiant en plus l’hypothèse(H 2 ) (cf. Théorème 1.4), nous donnons la constante exacte adaptative et un estimateurasymptotiquement exact adaptatif. Nous montrons le théorème suivant.Théorème 1.4. Soit B ⊂]0,1] d un ensemble fini vérifiant la condition (H 1 ) et la conditionsuivante:(H 2 ) Si β = (β 1 , . . . ,β d ),γ = (γ 1 , . . . ,γ d ) ∈ B sont tels que β < γ, alors pour tout


18 Chapitre 1. Introductioni ∈ {1, . . . ,d}, β i < γ i .Alors il existe un estimateur fn ∗ qui vérifie[lim inf‖f −sup sup E ˆf]n ‖ p ∞fn→∞ ˆf n β∈B f∈Σ ani (β,L) ψn(β)C p p β= limsup supn→∞ β∈B f∈Σ ani (β,L)E f[‖f − f ∗ n‖ p ∞ψ p n(β)C p β]= 1.où⎛ ( (C β = ⎝σ 2β β + 1L ∗α(β)β 3 1 + p(β ) ) ⎞ βmax − β)⎠2β max + 112β+1,et β max = max{β,β ∈ B}.Quand l’ensemble B vérifie seulement la condition (H 1 ), nous montrons la borne inférieure[lim inf inf‖f −sup sup E ˆf]n ‖ p ∞fn→∞ ˆf n β∈B f∈Σ ani (β,L) ψn(β)C p p ≥ 1, (1.14)βet nous construisons un estimateur ˜f ani qui vérifie[‖f −lim sup sup sup E ˜f]ani ‖ p ∞fn→∞ψn(β)C p p β M p ≤ 1, (1.15)2 (β)β∈B f∈Σ ani (β,L)où la quantité M 2 (β) est une constante plus grande que 1 qui dépend de l’ensemble B etqui est définie dans le Chapitre 6 dans la paragraphe 6.2.5.Quand l’ensemble B contient seulement deux éléments, B = {γ,β}, avec γ < β, nousconstruisons un estimateur ˜f ani2 un peu meilleur qui vérifieetlim supn→∞lim supn→∞supf∈Σ ani (β,L)supf∈Σ ani (γ,L)où M 3 (γ) ∈]1,2] et M 3 (γ) ≤ M 2 (γ) (cf. §6.2.5).E f{‖ ˜f ani2 − f‖ p ∞(ψ n (β)C β ) −p }≤ 1, (1.16)E f{‖ ˜f ani2 − f‖ p ∞(ψ n (γ)C γ ) −p }≤ (M 3 (γ)) p , (1.17)La démonstration des résultats ci-dessus ainsi que ceux du Théorème 1.4 se fait classiquementen deux étapes, la borne supérieure et la borne inférieure. Pour obtenir laborne inférieure adaptative, autrement dit la relation (1.14), nous utilisons un théorèmede borne inférieure démontré par Tsybakov (1998) et donné en annexe (cf. Annexe .2).Pour obtenir les résultats de bornes supérieures, nous construisons des estimateurs à partirde la méthode de Lepski ou en généralisant cette méthode. Lepski (1992) a construitun estimateur asymptotiquement exact adaptatif dans le cas de l’estimation adaptativeen norme L ∞ sur des classes de Hölder Σ(β,L) avec β ∈ B ⊂]0,1], B un ensemble fini et


1.2. Principaux résultats 19L > 0 connu. Il s’est donné une famille d’estimateurs à noyau ( ˆf β ) β∈B , où pour β ∈ B, ˆf βa un pas d’estimation h(β) de l’ordre de ( )log n 1/(2β+1)n et Kβ comme noyau. L’estimateurˆf β est optimal en vitesse de convergence sur Σ(β,L) pour β ∈ B. La méthode de Lepski(1992) consiste à choisir ˆβ le plus grand β ∈ B tel que ‖ ˆf β − ˆf γ ‖ ∞ ≤ cψ n (γ) pour toutγ ≤ β et à obtenir comme estimateur asymptotiquement exact adaptatif ˆf ˆβen choisissantjudicieusement la constante c > 0 et le pas des estimateurs ˆf β . Ce choix est basé sur lefait que, pour f ∈ Σ(λ,L) et γ ≤ β ≤ λ, le biais de ˆf β − ˆf γ est borné en valeur absolue parun terme d’ordre max{h λ (β),h λ (γ)} qui est lui-même borné par un terme d’ordre ψ n (γ).Pour l’estimation en norme L ∞ sur des classes de Hölder Σ ani (β,L) avec β ⊂]0,1] d et Bun ensemble fini, la méthode de Lepski (1992) fonctionne bien si B vérifie les conditions(H 1 ) et (H 2 ). L’estimateur f ∗ n du Théorème 1.4 est construit à partir de cette méthodeet c’est le choix de la constante c et des estimateurs ˆf β qui permet d’avoir un résultatd’asymptotique exacte.Quand B ne vérifie pas (H 2 ), on ne peut en général contrôler le biais de ˆf β − ˆf γ pourβ,γ ∈ B. Kerkyacharian et al. (2001) généralise la méthode de Lepski dans le cas del’estimation sur des boules de Besov et donnent un nouveau critère pour sélectionner unerégularité ˆβ. Ils considèrent l’ordre suivant sur B:γ = (γ 1 , . . . ,γ d ) ≤ β = (β 1 , . . . ,β d ) ssi γ ≤ β, (1.18)et ont à leur disposition une famille d’estimateurs à noyau ( ˆf β ) β∈B de noyau K et defenêtre d’estimation h(β) = (h 1 (β), . . . ,h d (β)). La fonction K est une fonction bornéeà support compact d’intégrale 1, et pour i ∈ {1, . . . ,d}, λ = (λ 1 , . . . ,λ d ) ∈ B h i (λ)λest d’ordre n − λ i (2λ+1). Dans cette nouvelle méthode, qu’on appelle “méthode de Lepskigénéralisée”, plutôt que de comparer ˆf β à ˆf γ pour γ ≤ β, ils comparent ˆf γ à l’estimateurà noyau ˆf β,γ de noyau K et de fenêtre d’estimation h(β,γ) = (h 1 (β,γ), . . . ,h d (β,γ)) oùh i (β,γ) = max(h i (γ),h i (β)). Leur méthode consiste à sélectionner ˆβ, le plus grand β ∈ B(par rapport à l’ordre défini en 1.18) tel que ‖ ˆf β,γ − ˆf γ ‖ ∞ ≤ cn − γ2γ+1 pour tout γ ≤ β. Cechoix est basé sur le fait que si f ∈ Σ(β,L), alors pour tout γ ≤ β, le biais de ˆf β,γ − ˆf γ estborné en valeur absolue par un terme d’ordre τ n = max i=1,...,d | max(h i (γ),h i (β))−h i (γ)| β i.Or τ n est d’ordre max i=1,...,d |h i (β)| β i, donc d’ordre n − 2β+1 ≤ n− γ2γ+1 . Nous appliquons cetype de méthode pour construire ˜f ani en modifiant l’estimateur de comparaison ˆf β,γ eten choisissant une famille d’estimateurs ˆf β de façon à obtenir la plus petite constantepossible pour M 2 (β) dans (1.15). La méthode de construction de ˜f ani2 est légèrementdifférente de celle de ˜f ani car deux critères interviennent dans la sélection de la régularitéˆβ (cf. §6.2.5), ceci pour permettre d’obtenir les relations (1.16) et (1.17) et la plus petiteconstante possible pour M 3 (β).β


20 Chapitre 1. Introduction1.2.3 PerspectivesCette thèse contient plusieurs résultats nouveaux d’estimation asymptotiquement exacteou exacte adaptative en norme L ∞ pour l’estimation sur des classes hölderiennes anisotropes.On a adopté une approche minimax adaptative uniquement pour l’estimation surla classe Σ ani (β,L). Comme on l’a suggéré dans les Chapitres 2 et 4, on devrait pouvoirtrouver des résultats d’asymptotique exacte adaptative pour l’estimation en norme L ∞sur Σ(β,L,Q) et Σ ad (β,L), en utilisant la méthode de Lepski.Il serait intéressant d’étendre nos résultats à des modèles statistiques plus proches desapplications, tels que le modèle de densité et le modèle de régression à pas aléatoire,dans un cadre multidimensionnel anisotrope. L’importance de l’estimation dans un cadremultidimensionnel anisotrope est liée à son application à l’image. Les résultats de cettethèse donnent une voie pour obtenir les estimateurs adaptatifs ou adaptatifs exacts dansles modèles de densité et de régression à pas aléatoire, en adoptant la même approchequ’on a utilisé dans le modèle de bruit blanc gaussien.L’adaptation en norme L 2 est souvent basée sur des inégalités d’oracle qu’on peut obtenirpar des méthodes classiques (estimation sans biais du risque, méthode C p , estimateurde Stein,... cf. Mallows (1973), Akaike (1973), Stein(1981), Donoho et Johnstone (1995),Barron et al. (1999), Cavalier et al. (2002)) ou bien par des méthodes d’aggrégation d’estimateurs(cf. Juditsky et Nemirovski (2000), Nemirovski (2000), Yang (2000), Catoni(2001), Tsybakov (2003)). Dans le cas de l’estimation en norme L ∞ , à la différence deL 2 , il n’y a pas d’inégalité d’oracle connue. Il serait intéressant de développer des inégalitésd’oracle pour l’estimation en norme L ∞ ou des méthodes d’aggregation qui sont plussouples puisqu’elles s’appliquent à des estimateurs quelconques.


Chapitre 2Asymptotically exact estimation insup-norm for nonparametric regressionwith random design2.1 IntroductionWe study the problem of estimating a nonparametric regression function f on [0, 1] fromobservationsY i = f(X i ) + ξ i , i = 1, . . . , n, (2.1)for n > 1 where the X i are independent random variables in [0, 1] and the ξ i are independentzero-mean Gaussian random variables with known variance σ 2 and independent ofthe X i . We suppose that f belongs to the Hölder smoothness class Σ(β, L) with β and Lpositive constants defined by:Σ(β, L) = { f : |f (m) (x) − f (m) (y)| ≤ L|x − y| α , x, y ∈ R } , (2.2)where m = ⌊β⌋ is an integer such that 0 < α ≤ 1 and α = β − m. Moreover, we supposethat f is bounded by a fixed constant Q > 0, so that f belongs to Σ(β, L, Q) whereΣ(β, L, Q) = Σ(β, L) ∩ {f : ‖f‖ ∞ ≤ Q},and ‖f‖ ∞ = sup x∈[0,1] |f(x)|. We suppose that the X i have a density µ w.r.t. the Lebesguemeasure, µ belongs to a Hölder class Σ(l, C) with 0 < l ≤ 1 and C > 0, and there existsµ 0 > 0 such that min x∈[0,1] µ(x) = µ 0 .An estimator θ n = θ n (x) of f is a measurable function with respect to the observations(2.1) and defined for x ∈ [0, 1]. We define the maximal risk with sup-norm loss of anestimator θ n by( ))‖θn − f‖ ∞R n (θ n ) = sup E f(w,f∈Σ(β,L,Q)ψ n21


22 Exact estimation in sup-norm for nonparametric regression with random designwhere w(u) is a continuous non-decreasing function defined for u ≥ 0 which has a polynomialupper bound w(u) ≤ W 0 (1 + u γ ) with some positive constants W 0 , γ and such thatw(0) = 0, E f is the expectation with respect to the joint distribution P f of the (X i , Y i ) and) βψ n = ( log n 2β+1. Let us recall that in our model, ψnn is the minimax rate of convergence(c.f. Ibragimov and Hasminskii (1981), Ibragimov and Hasminskii (1982) , Stone (1982)).Our goal is to determine the minimax exact constant C and an estimator θ ∗ n such thatw(C) = lim inf R n (θ n ) = lim R n (θ ∗n→∞ θ nn→∞n), (2.3)where inf θn stands for the infimum over all the estimators. An estimator that satisfies(2.3) is said to be asymptotically exact. The aim of this paper is to extend a resultproved by Korostelev (1993) to the regression model with random design. Korostelev(1993) studied the estimation of a function f ∈ Σ(β, L) with 0 < β ≤ 1 with sup-normloss and for the regression model with fixed equidistant design (X i = i/n in (2.1)). Heobtained the exact constant which is w(C 0 ) withC 0 =(σ 2β L( ) ) 1β 2β+1β + 12β 2and an asymptotically exact estimator which is a kernel estimator close tôf n (t) = 1nhn∑( ) t − i/nY i K. (2.4)hi=1Here h is a bandwidth depending on n andK(t) = β + 12β (1 − |t|β ) + (2.5)with x + = max(0, x). Donoho (1994a) extended Korostelev’s result to the Gaussian whitenoise model for Hölder classes with β > 1 for estimation in sup-norm. He proved thatasymptotically exact estimators and exact constants in several settings with Hölder classes(2.2) are closely related to the solution f β of the optimization problemmax f(0), (2.6)‖f‖ 2 ≤1f∈Σ(β,1)which is linked to an “optimal recovery problem”. He proved that the asymptotically exactestimators are kernel estimators (the equivalent of (2.4) for white noise model) where thekernel K is expressed in terms of the solution f β :K(t) =f β(t)∫fβ (s)ds , (2.7)


2.2. The main result and the estimator 23and that the exact constant depends on f β (0). For 0 < β ≤ 1, the solution of (2.6)is known (see Korostelev (1993) or Donoho (1994a)) and the kernel used by Korostelevdefined in (2.5) is equal to that defined in (2.7) up to a renormalization on the support.However the function f β is not known for β > 1, except for β = 2. Korostelev andNussbaum (1999) have found the exact constant and asymptotically exact estimator forthe density model in sup-norm. Lepski (1992) has studied the exact constant in the caseof adaptation for the white noise model. The sup-norm estimation is only one of theapproaches studied in the nonparametric literature. For the L 2 -norm risk, one can findoverview of results on exact minimax and adaptive estimation in the books of Efromovich(1999) and Tsybakov (2004)Our results are the following. In Section 2.2, we give an asymptotically exactestimator θn ∗ and the exact constant for the regression model with random design. Ifthe density µ is uniform (µ 0 = 1), then the constant is equal to w(C 0 ) (the constant ofKorostelev (1993)). As it could be expected, the exact constant and the asymptoticallyexact estimator θn ∗ depend on the minimum value of the design density µ 0 . It means thatthe asymptotically minimax estimators contribute to the sup-norm risk essentially at thepoints where we have less observations. The estimator θn ∗ that is proposed in Section 2.2is close to a Nadaraya-Watson estimator and is independent of Q. The proofs are givenin Section 2.3.2.2 The main result and the estimatorIn this section, we define an estimator θ ∗ n. We shall prove in Subsection 2.3.1 that θ ∗ n is anasymptotically exact estimator. This estimator is close to a Nadaraya-Watson estimatorwith the kernel K defined in (2.5). The bandwidth of θ ∗ n ish =( ) 1C′0 ψβ n ,LwithC ′ 0 =(σ 2β L( ) ) 1β 2β+1β + 1.2β 2 µ 0First let us define θ ∗ n in a regular grid of points x k = km n∈ [0, 1] for k ∈ {1, . . . , [ n ]}, withmm = [δ n nψ 1 βn + 1], δ n = 1 and [x] denotes the integer part of x. To account for thelog nboundary effects, we need to introduce other kernels:K 1 (t) = 2K(t)I [0,1] (t), K 2 (t) = 2K(t)I [−1,0] (t) for t ∈ R.


24 Exact estimation in sup-norm for nonparametric regression with random designThe estimator θn ∗ is defined for k ∈ {1, . . . , [ n ]} bymθ ∗ n(x k ) =1nh(max∑ nj=1 K (Xj −x kh1nh)∑ nj=1 K (Xj −x khY j), δ n), (2.8)if x k ∈ [h, 1−h]. If x k ∈ [0, h) (respectively x k ∈ (1−h, 1]), θn(x ∗ k ) is defined by (2.8) whereK is replaced by K 1 (respectively by K 2 ). Finally the function θn ∗ is defined to be thepolygonal function connecting the points (x k , θn(x ∗ k )) for k ∈ {1, . . . , [ n ]}. Moreover, wemput θn(x) ∗ = θn(x ∗ 1 ) if x ∈ [0, x 1 ] and if x [nm ] < 1 we put θn(x) ∗ = θn(x ∗ [nm ] ) for x ∈ [x [nm ] , 1].The results we obtain are the following:Theorem 2.1. We consider the model and the assumptions defined in Section 2.1. Wesuppose that the function f ∈ Σ(β, L, Q), with 0 < β ≤ 1. The estimator θ ∗ n satisfieslim inf R n (θ n ) = lim R n (θ ∗n→∞ θ nn→∞n) = w(C 0).′We are going to prove Theorem 2.1 in two steps: the upper bound (Subsection 2.3.1)and the lower bound (Subsection 2.3.2). Let 0 < ε < 1/2. In Subsection 2.3.1, we showthat θn ∗ satisfieslim supn→∞supf∈Σ(β,L,Q)In Subsection 2.3.2, we prove thatlim infn→∞infθ n[ ( )] (E f w ‖θ∗n − f‖ ∞ ψn−1 ≤ w C′0 (1 + ε) 2) . (2.9)sup E f [w(‖θ n − f‖ ∞ ψn −1 )] ≥ w(C 0(1 ′ − ε)). (2.10)f∈Σ(β,L,Q)Since 0 < ε < 1/2 in (2.9) and (2.10) can be arbitrarily small and w is a continuousfunction, this proves Theorem 2.1.Remarks:∑ ( )(i) We introduce the cut-off δ n in (2.8) to account for the case 1 nnh j=1 K Xj −x k= 0h∑ ( )1which leads to a zero denominator. As it is proved in Lemma 2.1, nnh j=1 K Xj −x k−h∑ ( )µ(x k ) tends to 0 in probability as soon as n tends to ∞, so that 1 nnh j=1 K Xj −x k= 0hessentially does not occur.(ii) The estimator θn ∗ does not depend on Q, but it depends on µ 0 . It is possible toconstruct an asymptotically exact estimator independent of µ 0 and Q but the proof israther technical. For this purpose, we cut the sample (X 1 , . . . , X n ) in two parts of sizeα n and n − α n , where α n is an integer such that α n → ∞ and α n /n → 0 as n → ∞. Weestimate µ 0 with the part (X 1 , . . . , X αn ) of the sample by( ) kˆµ 0 = min ˆµ n ,k=1,...,n n


2.2. The main result and the estimator 25∑ ( )where ˆµ n (x) = 1 αnα ng n i=1 K X i −xg nand g n such that g n → 0 and α n g n → ∞. We constructan estimator of f in the same way as θn ∗ except we only use the part (X αn+1, . . . , X n )of the sample and we replace µ 0 by ˆµ 0 , if the latter is not zero, in C 0 ′ and h. The resultsare similar to those of this paper for this estimator but one needs to consider the lawconditioned by (X 1 , . . . , X αn ).(iii) We have only solved the problem of exact constant and asymptotically exact estimatorfor the Hölder classes Σ(β, L, Q) such that 0 < β ≤ 1. In this case we have an explicitform for the constant and the estimator. An extension to β > 1 is possible but it doesnot give realizable estimators (since the solution f β of the problem (2.6) is not explicitlyknown except for β = 2). A similar result could be found and the exact constant will beC 1 with( (C 1 = f β (0) σ 2β Lθ ∗ n(t) =2µ 0 (2β + 1)) β) 12β+1.The analogue of inequality (2.9) for β > 1 holds for example for the estimator θn ∗ definedfor t ∈ [0, 1] by:∑ ( )1 nnh j=1 K Xj −tYh j(max1nh∑ nj=1 K (Xj −th), δ n), (2.11)with certain modifications near the boundaries. To prove inequality (2.9) with this newestimator, we will use methods similar to those of Lepski and Tsybakov (2000), basedon the supremum of Gaussian processes. For β > 1, the proof of inequality (2.10) is thesame as that of Subsection 2.3.2, but we need to use the function f β and the fact thatf β is compactly supported. This was proved by Leonov (1997)He also proved that f β iscontinuous and even for all β > 1.(iv) Our result can be presumably extended to the white noise modeldY (t) = f(t)dt + σ(t)dW (t), t ∈ [0, 1],where W is a standard Wiener process and σ −2 serves to replace the density of the designpoints. In this model, the maximum of σ 2 corresponds to the minimum value of the designdensity µ 0 . An asymptotically exact estimator will be of the formθn(t) ∗ = 1 ∫ ( ) u − tK dY (u),h hwhere h a bandwidth that depends on n and K is defined in (2.7).(v) The constants L and β are supposed to be known, but using the techniques similar toLepski (1992), one can presumably obtain adaptive asymptotically exact estimator. Oneshould note however that the exact constant for adaptive estimator would be in generaldifferent.


26 Exact estimation in sup-norm for nonparametric regression with random design2.3 Proofs2.3.1 Proof of inequality (2.9)We define the event A n as{A n =maxx k ∈[h,1−h]∣∣µ(x k ) − 1nhn∑( ) }Xj − x ∣∣∣kK< δn .hj=1Similarly we define A 1,n (respectively A 2,n ) which are obtained by replacing K by K 1(respectively by K 2 ) and taking the supremum over x k ∈ [0, h) (respectively over x k ∈(1 − h, 1]). We define alsoA ′ n ={maxx k ∈[h,1−h]∣ µ(x k)(β + 1)2β + 1− 1nhn∑j=1( ) }K 2 Xj − x ∣∣∣k< δn ,hand the events A ′ 1,n (respectively A ′ 2,n) obtained by replacing K by K 1 (respectively byK 2 ) and taking the supremum over x k ∈ [0, h) (respectively over x k ∈ (1 − h, 1]). LetB n = A n ∩ A 1,n ∩ A 2,n ∩ A ′ n ∩ A ′ 1,n ∩ A ′ 2,n. We have the following result.Lemma 2.1. There exists c > 0 such thatP X (B n ) ≥ 1 − 12 n m exp ( −cnhδ 2 n),for n large enough, where P X is the joint distribution of X = (X 1 , . . . , X n ).The proof of the lemma is given in Subsection 2.3.3.Before proving inequality (2.9), we give four propositions studying the behaviour of∆ n = ψn−1 ‖f − θn‖ ∗ ∞ on B n and Bn C . We postpone their proofs to Subsection 2.3.3. Wedenote I B the indicator function of a set B which takes the value 1 on B and 0 otherwise.In the sequel, D 0 , D 1 ,. . . are positive constants.Proposition 2.1. We havelimsupn→∞ f∈Σ(β,L,Q)E f[w(ψ−1n ‖f − θ ∗ n‖ ∞)IB C n]= 0.Define the bias and the stochastic terms for x ∈ [0, 1]Proposition 2.2. The bias term satisfiesb n (x, f) = E f (θ ∗ n(x)I Bn ) − f(x)P X (B n ),Z n (x, f) = θ ∗ n(x)P X (B n ) − E f (θ ∗ n(x)I Bn ).lim supn→∞supf∈Σ(β,L,Q)ψ −1n ‖b n (., f)‖ ∞ ≤ C′ 02β + 1 .


2.3. Proofs 27We study the stochastic term at the points x k and we take n large enough suchthat(P X (B n ) > 0. For k ∈ {1, . . . , [ n ]}, the process Z m n(·, f) satisfies Z n (x k , f)I Bn =˜Zn (x k , f) + Ẑn(x k , f))I Bn , where for x k ∈ [h, 1 − h], on B nẐ n (x k , f) =∑ (1 nnh j=1 ξ Xj −x kjKh1nh∑ nj=1 K (Xj −x kh)) P X (B n ),˜Z n (x k , f) = U n (x k , f)P X (B n ) − E f (U n (x k , f)I Bn ),withU n (x k , f) =∑ (1 nnh j=1 f(X Xj −x kj)Kh1nh∑ nj=1 K (Xj −x kh)) .For x k ∈ [0, h) (respectively (1 − h, 1]), Ẑn(x k , f), ˜Z n (x k , f) and U n (x k , f) are defined inthe same way except that we replace K by K 1 (respectively K 2 ).Proposition 2.3. The process Ẑn(·, f) satisfies for all z > 1 and n large enough[{sup P f ψn−1 max ∣ Ẑn (x k , f) ∣ } ]2βC ′>0z∩ B n ≤ δn −1 (log n) − 12β+1 n−α 1 (n) ,f∈Σ(β,L,Q)k2β + 1where α 1 (n) = z2 C(δ n )−12β+1and C(δ n ) tends to 1 as n → ∞.Proposition 2.4. The process ˜Z n (·, f) satisfies for z ≥ ε/2[{P f ψn−1 max ∣ ˜Zn (x k , f) ∣ } ]> 2βC′ 0z∩ B n ≤ 2δn−1 ψn −1/β exp (−D 0 zψ n ) ,k2β + 1where D 0 is independent of f ∈ Σ(β, L, Q).Here we prove inequality (2.9). By Proposition 2.1, lim sup n→∞ E f (w(∆ n )I B C n) = 0.We have, using the monotonicity of wE f (w(∆ n )I Bn ) ≤ w(C ′ 0(1 + ε) 2 )P f[∆n I Bn ≤ C ′ 0(1 + ε) 2]+ ( E f(w 2 (∆ n )I Bn)) 12 ( P f[∆n I Bn > C ′ 0(1 + ε) 2]) 1 2.To obtain the inequality (2.9), it is enough to prove that(i) lim n→∞ sup f∈Σ(β,L,Q) P f [∆ n I Bn > C ′ 0(1 + ε) 2 ] = 0,(ii) there exists a constant D 1 such that lim sup n→∞ sup f∈Σ(β,L,Q) E f (w 2 (∆ n )I Bn ) ≤ D 1 .Here we prove (i). Considering n large enough such that P X (B n ) ≥ 1 , we have1+εP f[∆n I Bn > C ′ 0(1 + ε) 2] = P f[∆n I Bn P X (B n ) > C ′ 0P X (B n )(1 + ε) 2]


28 Exact estimation in sup-norm for nonparametric regression with random designNote also that≤ P f[∆n I Bn P X (B n ) > C ′ 0(1 + ε) ] .∆ n I Bn P X (B n ) ≤ ψ −1n (‖b n (·, f)‖ ∞ + ‖Z n (·, f)‖ ∞ )I Bn .Thus using Proposition 2.2, we deduce that, for n large enough[P f ∆n I Bn > C 0(1 ′ + ε) 2] [{} ]≤ P f ψn −1 ‖Z n (·, f)‖ ∞ > 2βC′ 0(1 + ε)∩ B n .(2β + 1)Since θn∗ is the polygonal function connecting the points (x k , θn(x ∗ k )), Z n (·, f) is thepolygonal function connecting the points (x k , Z n (x k , f)). Thus we have ‖Z n (·, f)‖ ∞ =max k |Z n (x k , f)|,[{} ] [{} ]P f ψn −1 ‖Z n (·, f)‖ ∞ > 2βC′ 0(1 + ε)∩ B n = P f ψn−1 max |Z n (x k , f)| > 2βC′ 0(1 + ε)∩ B n ,2β + 1k2β + 1andP f[{ψn−1} ] [{max |Z n (x k , f)| > 2βC′ 0(1 + ε)∩ B n ≤ P fk2β + 1[{+P fψn−1max | ˜Z n (x k , f)| > 2βC′ 0ε/2k2β + 1ψ −1nmax |Ẑn(x k , f)| > 2βC′ 0(1 + ε/2)k2β + 1}∩ B n].Since C(δ n ) tends to 1 as n → ∞, in view of Propositions 2.3 and 2.4 used respectivelywith z = 1 + ε/2 and z = ε/2, the right hand side of the last inequality tends to 0 as ntends to ∞ uniformly in f ∈ Σ(β, L, Q). So we obtain (i).Here we prove (ii). We have, since w(u) ≤ W 0 (1 + u γ ),E f(w 2 (∆ n )I Bn)≤ D2 +D 3[E f( (ψ−1n ‖Z n (·, f)‖ ∞) 2γIBn)+ ( ψ −1n ‖b n (., f)‖ ∞) 2γ](1+o(1)).Using the fact thatE f( (ψ−1n ‖Z n (·, f)‖ ∞) 2γIBn)=∫ +∞0[ (ψ ) ]−12γP f n ‖Z n (·, f)‖ ∞ IBn > t dt,Propositions 2.3 and 2.4, and noting that C(δ n ) tends to 1 as n → ∞, we prove thatlim sup n→∞ E f[(ψ n−1 ‖Z n (·, f)‖ ∞ ) 2γ] < ∞. This and Proposition 2.2 entail (ii).}∩ B n]2.3.2 Proof of inequality (2.10)PreliminariesFirst, we need to define Σ ′ , a subspace of Σ(β, L, Q). Since µ satisfies a Lipschitz conditionon [0, 1], there exists x 0 ∈ [0, 1] such that µ(x 0 ) = min x∈[0,1] µ(x). Let γ n = (n/ log n) − ε2β+1


2.3. Proofs 29[for ε introduced in Section 2.2. Let M =γ n2h(2 1/β +1)]and define the points a 1 , . . . , a M ina neighbourhood of x 0 in the following way. For n large enough and if x 0 ∈ (0, 1), we puta 1 = x 0 − γ n /2 + ( 2 1/β + 1 ) h, a j+1 − a j = 2 ( 2 1/β + 1 ) h.If x 0 = 0 (respectively x 0 = 1), we define the points a j in the same way except that a 1 is(2 1/β + 1 ) h (respectively 1 − γ n + ( 2 1/β + 1 ) h). We define the set Σ ′ aswhere for θ = (θ 1 , . . . , θ M ) ∈ [−1, 1] M and x ∈ [0, 1]Σ ′ = { f(·, θ), θ ∈ [−1, 1] M} , (2.12)f(x, θ) = Lh βM∑j=1θ j(1 −x − a j∣ hFor all θ ∈ [−1, 1] M , f(·, θ) ∈ Σ(β, L)(cf. the appendix of Chapter 2) and ‖f‖ ∞ ≤ Q forn large enough. Therefore for n large enough Σ ′ ⊂ Σ(β, L, Q).Remark: For β > 1 the subspace Σ ′ should be defined in a similar way:{∑ M ( )}x −Σ ′ = f(x, θ) = Lh βajθ j f β , θ ∈ [−1, 1] Mhj=1and the values (a j ) j=1,...,M should satisfy a j+1 − a j = 2A β h(2 1/β + 1) where [−A β , A β ] isthe support of f β .∣β ) +Then we need to introduce an event N n that satisfies the following lemma.Lemma 2.2. The event⎧⎨N n =⎩ (X 1, . . . , X n ) :supj=1,...,M∣(β + 1)(2β + 1)4µ 0 β 2 nh(n∑1 −X k − a j∣ hk=1∣β ) 2+⎫ ⎬− 1∣ < ε ⎭ ,satisfies lim n→∞ P X (N n ) = 1.The proof is in Subsection 2.3.3.Finally, we study a set of statistics. Let θ ∈ [−1, 1] M . We suppose that f(·) = f(·, θ).The model (2.1) is then written in the formY k = f(X k , θ) + ξ k , k = 1, . . . , n,and the vector (X 1 , Y 1 , . . . , X n , Y n ) follows the law P f(·,θ) that we will denote for brevityP θ . For X ∈ N n , consider the statisticsy j =∑ nk=1 Y kf j (X k )∑ nk=1 f j 2(X , j = 1, . . . , M (2.13)k)


30 Exact estimation in sup-norm for nonparametric regression with random design(where f j (x) = Lh β 1 − ∣ x−a j ∣ β) for x ∈ [0, 1]. For X ∈ Nhn the statistics y j are well+defined. These statistics satisfy the following proposition.Proposition 2.5. (i) For all j ∈ {1, . . . , M}, the conditional distribution of y j givenX ∈ N n is gaussian with mean θ j and variance vj 2 . The variance vj2 does not depend onθ and satisfies2β + 12 log(n)(1 + ε) ≤ 2β + 1v2 j ≤2 log(n)(1 − ε) . (2.14)(ii) Conditionally on X, for X ∈ N n , the variables y j are independent.(iii) In the model (2.1), with f(·) = f(·, θ), conditionally on X, for X ∈ N n , (y 1 , . . . , y M )is a sufficient statistic for θ and the likelihood function of (Y 1 , . . . , Y n ) conditionally onX, for X ∈ N n , has the formg(Y 1 , . . . , Y n ) =n∏ M∏ϕ σ (Y i )i=1j=1ϕ vj (y j − θ j ),ϕ vj (y j )where ϕ v is the density of N (0, v 2 ) for v > 0.The proof is in Subsection 2.3.3.Proof of the inequalityHere we prove inequality (2.10). For f ∈ Σ(β, L, Q) and an estimator θ n , using themonotonicity of w and the Markov inequality we obtain that[ ( )] [ ( )E f w ψ−1n ‖θ n − f‖ ∞ ≥w(C′0 (1 − ε))P f w ψ−1n ‖θ n − f‖ ∞ ≥ w(C′0 (1 − ε)) ][≥w(C 0(1 ′ − ε))P f ψ−1n ‖θ n − f‖ ∞ ≥ C 0(1 ′ − ε) ] .Since Σ ′ ⊂ Σ(β, L, Q) for n large enough, it is enough to prove that lim n→∞ Λ n = 1, whereΛ n = infθ n(sup P f ψ−1n ‖θ n − f‖ ∞ ≥ C 0(1 ′ − ε) ) .f∈Σ ′We have max j=1,...,M |θ n (a j ) − f(a j )| ≤ ‖θ n − f‖ ∞ . Setting ˆθ j = θ n (a j )C ′ 0ψ n and usingthat f(a j ) = C ′ 0ψ n θ j , we see thatΛ n ≥ inf sup P θ (C n ),ˆθ∈R M θ∈[−1,1] Mwhere C n = {max j=1,...,M |ˆθ j − θ j | ≥ 1 − ε} and ˆθ = (ˆθ 1 , . . . , ˆθ M ) ∈ R M is measurable withrespect to the (X i , Y i )’s. We have∫∫Λ n ≥ infP θ,X (C n )dP X (X)π(dθ), (2.15)ˆθ∈R M {−(1−ε),1−ε} M N n


2.3. Proofs 31where P θ,X is the distribution of Y 1 , . . . , Y n conditionally on X = (X 1 , . . . , X n ) and π isthe prior distribution on θ, π(dθ) = ∏ Mj=1 π j(dθ j ), where π j is the Bernoulli distributionon {−(1 − ε), 1 − ε} that assigns probability 1/2 to −(1 − ε) and to (1 − ε). We will provethat for X ∈ N n ∫Hn X = inf P θ,X (C n )π(dθ) ≥ 1 + o(1), (2.16)ˆθ∈R Mwhere o(1) is independent of X. This entails that∫ ∫inf P θ,X (C n )π(dθ)dP X (X) ≥ (1 + o(1))P X (N n ).ˆθ∈R MN nUsing (2.15) and the Fubini and Fatou theorems, we find that Λ n is greater than the lefthand side of the last inequality. Thus we obtain thatΛ n ≥ P X (N n )(1 + o(1)),and by Lemma 2.2, we conclude that lim n→∞ Λ n = 1.Proof of the inequality (2.16). We fix X ∈ N n . We have∫∏ MHnX = 1 − sup I {|ˆθj −θ j |


32 Exact estimation in sup-norm for nonparametric regression with random designwhere the max is taken over the class Υ of all the estimators of the form ˆθ =(ˆθ 1 (y 1 ), . . . , ˆθ M (y M )) where ˆθ j is a measurable function of y j with values in {−(1−ε), 1−ε}and the supremum is taken on the estimators which are measurable with respect to the(X i , Y i )’s. Moreover we have, as ˆθ depends only on T = (y 1 , . . . , y M )∫maxˆθ∈ΥM∏j=1∫I {|ˆθj −θ j |


2.3. Proofs 33as n → ∞ and using inequality (2.14) for v j , we get( ( ) 1−ε)n 2β+1Now M = O , thereforelog ninf rj X ≥ D 4√ n − (1−ε)2 (1+ε)2β+1(1 + o(1)).X∈N n log ninfX∈N nMr X j≥ D 5 (log n) 1−ε2β+1 − 1 2 n(1−ε)ε 22β+1 (1 + o(1)).From this last inequality and inequality (2.19), we obtain the inequality (2.16), whichfinishes the proof of the lower bound.2.3.3 Proofs of lemmas and propositionsProof of Lemma 2.1We are going to prove that the event A n satisfiesP X (A n ) ≥ 1 − 2 n m exp ( −c A nhδ 2 n),for a constant c A > 0. There are similar results for the events A 1,n ,. . . ,A ′ 2,n with otherconstants. Together these results entail the lemma. We are going to use Bernstein’sinequality. First we take a point x k ∈ [h, 1 − h]. The proof will be similar for x k ∈[0, h) ∪ (1 − h, 1] and we define the random variables Z i , for i ∈ {1, . . . , n} byZ i = 1 h K (Xi − x kh)− E f[ 1h K (Xi − x khThese variables satisfy E f [Z i ] = 0, E f [Zi 2 ] ≤ K2 maxµ 1and |Zhi | ≤ 2K max. The constantK max is such that K(x) ≤ K max for all x in [−1, 1] and µ 1 is such thathµ(x) {∣ ≤ µ 1 for all x in [0, 1] (such µ 1 exists because µ is continuous). Let A(k) =∣µ(xk∑) − 1 nnh i=1 K ( X i) ∣ }−x kh < δn . We haveP X (A(k)) = P X (∣∣ 1n)].n∑(Z i + δ k,h ) ∣ )< δn ,i=1where δ k,h = ∫ 1K(y)[µ(x −1 k + yh) − µ(x k )]dy. As µ satisfies a Lipschitz condition, δ k,hsatisfies |δ k,h | ≤ ρh ∫ 1K(y)|y|dy with ρ > 0. We have for n large enough−1()P X (A(k)) ≥ P X | 1 n∑Z i | < δ n − |δ k,h | .ni=1


34 Exact estimation in sup-norm for nonparametric regression with random designBy Bernstein’s inequality applied to the variables Z i , we have()⎛P X | 1 n∑n(δ n − |δ k,h |)Z i | < δ n − |δ k,h | ≥ 1 − 2 exp ⎝− ( 2ni=12 K 2 max µ 1h+ 2(δ n−|δ k,h |)K max3h⎞) ⎠ .Using the fact that δ k,h = O(h), we obtain that for n large enough, there exists a constantc A independent of k such thatP X (A(k)) ≥ 1 − 2 exp ( −c A nhδ 2 n).From this we deduce easily the result about A n because card{k} ≤ n m .Proof of Proposition 2.1Let f ∈ Σ(β, L, Q). We have[ ( ) ] √√E f w ψ−1n ‖f − θn‖ ∗ ∞ IB C n ≤ E f [w 2 (ψn −1 ‖f − θn‖ ∗ ∞ )] P f (Bn C )√≤ E f (1 + (ψn −1 ‖f − θn‖ ∗ ∞ ) γ ) 2√ P X (Bn C )since the event B n only depends on X,≤ √ √(2 1 + E f (ψ−1n ‖f − θn‖ ∗ ∞ ) 2γ) √PX(Bn C ).Now E f((ψ n−1 ‖f − θn‖ ∗ ∞ ) 2γ) ≤ ψn −2γ D 6 (Q 2γ + E f ‖θn‖ ∗ 2γ ∞). Some algebra and the factthat(max1nhn∑(Xj − x kKhj=1), δ n)≥ δ n ,yield E f ‖θ ∗ n‖ 2γ ∞ = O(n γ 1), with some γ 1 ≥ 0. From the relations above and Lemma 2.1,we deduce that lim n→∞ E f[w (ψ−1n ‖f − θ ∗ n‖ ∞ ) I B C n]= 0.Proof of Proposition 2.2Let f ∈ Σ(β, L, Q) and x k ∈ [h, 1−h]. Consider n large enough such that δ n ≤ µ(x k )−δ n .We have on B nµ(x k ) − δ n ≤ 1 n∑( )Xj − x kK.nhhj=1


2.3. Proofs 35Thus some algebra and the fact f ∈ Σ(β, L, Q) yield∣ Ef (θn(x ∗ k )I Bn ) − f(x k )P X (B n ) ∣ [∣ ∣∣ 1 1≤ E fµ(x k ) − δ n nhn∑( )]Xi − x ∣∣∣kK(f(X i ) − f(x k ))I Bnhi=1≤ Lhβ ∫ 1−1 |y|β K(y)µ(x k + yh)dyµ(x k ) − δ n≤ Lhβ µ(x k )(1 + o(1))(µ(x k ) − δ n )(2β + 1) .For x k belonging to [0, h) or (1−h, 1], we have the same result. Thus for all k ∈ {1, . . . , [ n ]} m(ψn−1 |E f (θn(x ∗ k )I Bn ) − f(x k )P X (B n )| ≤ 1 + δ )n C′0 (1 + o(1))≤ C′ 0(1 + o(1)).µ 0 − δ n 2β + 1 2β + 1As f ∈ Σ(β, L, Q), we have for x ∈ [0, 1]( m) β|b n (x, f)| ≤ max |b n(x k , f)| + L P X (B n )k∈{1,...,[ n m ]} n≤ max |b n(x k , f)| + ψ n δnL(1 β + o(1)).k∈{1,...,[ n m ]}Then we obtain that ψn−1 |b n (x, f)| ≤ C′ 0 (1+o(1)) with o(1) independent of f.2β+1Proof of Proposition 2.3Let f ∈ Σ(β, L, Q), z > 1 andP n = P f[{maxk} ]ψn−1 |Ẑn(x k , f)| > 2βC′ 0z∩ B n .2β + 1We haveP n ≤ ∑ kP f[{ψn−1} ]|Ẑn(x k , f)| > 2βC′ 0z∩ B n .2β + 1We are going to reason for x k ∈ [h, 1−h], but the proof is similar for x k ∈ [0, h)∪(1−h, 1].As B n depends only on X 1 , . . . , X n , we have[{} ] [] ]P f ψn−1 |Ẑn(x k , f)| > 2βC′ 0z∩ B n = E f[P f ψn−1 |Ẑn(x k , f)| > 2βC′ 0z ⏐⏐X 1 , . . . , X n I Bn .2β + 12β + 1The variable Ẑn(x k , f) is gaussian conditionally on the X i ’s, with conditional varianceequal toσ 2 (P X (B n )) ∑ ( )2 n Xjj=1 K2 −x kh( ∑n( )) 2.j=1 K Xj −x kh


36 Exact estimation in sup-norm for nonparametric regression with random designSince n has been chosen such that P X (B n ) > 0 in the definition of the stochastic term,we obtain⎡ ⎡([{} ]∑n( )) 2⎤ ⎤P f ψn−1 |Ẑn(x k , f)| > 2βC′ 0z⎢ ⎢ψn(2βC 2 0z) ′ 2 j=1 K Xj −x kh∩ B n ≤ E f ⎣exp ⎣−2β + 1σ 2 (P X (B n )) ∑ ( )⎥ ⎥2 n Xj⎦ I Bn ⎦ .j=1 K2 −x khReplacing the expression for h and σ 2 in terms of n, C 0, ′ L, β and µ 0 , we obtain that thequantity above in the right hand side is equal to⎡ ⎡( ∑ ( )) 2⎤ ⎤⎢ ⎢z 2 1log n(β + 1) nnh j=1 K Xj −x khE f ⎣exp ⎣−∑ ( )⎥ ⎥µ 0 (P X (B n )) 2 (2β + 1) 2 1 n Xj⎦ I Bn ⎦ .nh j=1 K2 −x khWe have on B nn∑j=1n∑j=1( )1nh K Xj − x k≥ µ(x k ) − δ n ≥ µ 0 − δ n ,h( )1 Xj − x knh K2 ≤ β + 1h 2β + 1 µ(x k) + δ n .Consider n large enough such that µ 0 − δ n > 0. Thus we deduce using the inequalitiesabove that[{} ] []P f ψn−1 |Ẑn(x k , f)| > 2βC′ 0z∩ B n ≤ exp − z2 log nC(δ n ),2β + 1(2β + 1)with⎡C(δ n ) = (µ 0 − δ n )⎣1 −µ 0 (P X (B n )) 2δ n (3β + 2)((β + 1)µ 1 + δn(2β+1)β+1⎤) ⎦ .The quantity C(δ n ) tends to 1 as n → ∞. Because of the fact that card{k} ≤ δn−1we haveP n ≤ δn −1 (log n) − 12β+1 n−α 1 (n) .Proof of Proposition 2.4ψn −1/β ,Let f ∈ Σ(β, L, Q). We are still going to reason for x k ∈ [h, 1−h], and the proof is similarfor x k ∈ [0, h)∪(1−h, 1]. Let Ũn(x k , f) = U n (x k , f)P X (B n )I Bn −E f [U n (x k , f)P X (B n )I Bn ].If B n holds, we have ˜Z n (x k , f) = Ũn(x k , f) − E f [U n (x k , f)I Bn ]P X (B C n ). Consider n largeenough such that for all z ≥ ε/2 we have|E f [U n (x k , f)I Bn ]P X (B C n )| ≤ βC′ 0zψ n2β + 1 .


2.3. Proofs 37Such choice of n is possible in view of Lemma 2.1, since E f [U n (x k , f)I Bn ] is bounded.Thus we have[{} ] []P f ψn−1 | ˜Z n (x k , f)| > 2βC′ 0z∩ B n ≤ P f ψn−1 |Ũn(x k , f)| > βC′ 0z.2β + 12β + 1We are going to apply Bernstein’s inequality to the variable Ũn(x k , f) which is a zero-meanvariable bounded by 2Q. Since µ(x k ) ≥ µ 0 , the variance of Ũn(x k , f) satisfies⎡⎛∑ ( )]1 nE f[Ũn (x k , f) 2 ⎢ nh j=1≤E f ⎣⎝f(X Xj⎞⎤2−x kj)Kh∑ ( ) ⎠ Inj=1 K Bn (P X (B n )) 2 ⎥Xj⎦ ,−x k1nh1≤(µ(x k ) − δ n ) 2 nh E 2 f≤ Q2 µ(x k )(1 + o(1))(µ(x k ) − δ n ) 2 nh≤ D 7(1 + o(1)),nhh[ (f 2 (X 1 )K 2 X1 − x kh∫ 1−1K 2 (y)dy,)](P X (B n )) 2 ,where o(1) is uniform in f ∈ Σ(β, L, Q) and D 7 is independent of f ∈ Σ(β, L, Q), n andk. By applying Bernstein’s inequality to the variable Ũn(x k , f) (note that here the familyof random variables contains only one summand), we obtain⎛⎞[]P f ψ −1 |Ũn(x k , f)| > βC′ 0zλ≤ 2 exp ⎝−2) ⎠ ,where λ = ψnβC′ 0 z2β+1n2β + 12(D7 (1+o(1))nh+ 2λQ3. Thus for n large enough, we have[]P f ψn−1 |Ũn(x k , f)| > βC′ 0z≤ 2 exp (−D 0 zψ n ) ,2β + 1with D 0 independent of f ∈ Σ(β, L, Q) and k. To finish the proof, it is enough to notethat card{k} = [ n ] ≤ m δ−1 n ψn −1/β .Proof of Lemma 2.2Like in Lemma 2.1, using Bernstein’s inequality we obtain that for n large enough{ }∣∣∣P X (β + 1)(2β + 1)n∑(1 − | X k − a j| β ) 2 4µ 0 β 2 + − 1∣ ≥ ε ≤ 2 exp(−nhD 8 )nhhj=0k=1where D 8 is a constant which depends on ε, but does not depend on n. NowP [ ] M{ }∑ ∣∣∣ X NnC ≤ P X (β + 1)(2β + 1)n∑(1 − | X k − a j| β ) 2 4µ 0 β 2 + − 1∣ ≥ ε .nhhk=1


38 Exact estimation in sup-norm for nonparametric regression with random designThusP [ ] X NnC ≤ 2M exp(−nhD8 ).( ( ) 1−ε)n 2β+1Since M = O , we deduce that limlog nn→∞ P [ ] X NnC = 0.Proof of Proposition 2.5(i) The fact that y j is conditionally gaussian with conditional mean θ j comes from thedefinition of y j and the fact that the functions f j have disjoint supports. The conditionalvariance of y j satisfies for X ∈ N n[( ∑ ]nk=1V ar(y j |X) =E ξ kf j (X k )) 2f (∑ nk=1 f j 2(X k) ) ∣2 Xσ 2= ∑ nk=1 f j 2(X k)=L 2 h 2β ∑ nk=1σ 2(1 −∣∣ X k−a jh∣ β) 2.Using that X ∈ N n and replacing the expression for σ and h in terms of C 0, ′ n, β and L,we obtain the inequality for v j .(ii) comes from the fact the functions f j have disjoint supports and that the ξ i ’s areindependent and independent of the X i ’s. (iii) is obtained by calculating the likelihoodfunction of Y 1 , . . . , Y n conditionally on X, for X ∈ N n .+2.4 Appendix of Chapter 2Proposition 2.6. For all θ ∈ [−1, 1] M , we have f(·, θ) ∈ Σ(β, L).(Proof. Let x ∈ [0, 1]. We set f j (x) = Lh β 1 − ∣ x−aj ∣ β) +.Then we have f(x, θ) = ∑ Mi=0 θ jf j (x).h


2.4. Appendix of Chapter 2 39• First we are going to show that f j ∈ Σ(β, L). Let x, x ′ ∈ [0, 1]. We haveThis gives the result.|f j (x) − f j (x ′ )| ≤ Lh β ∣ ∣∣∣∣ ∣ ∣∣∣ x − a jh≤ Lh β ∣ ∣∣∣ x − a jh≤ L |x − x ′ | β .∣β−x ′ − a j∣ ∣ ∣∣∣∣ ∣βhβ∣− x′ − a jh• Let show that f(·, θ) ∈ Σ(β, L). To obtain that we consider the case x ∈ [a j −h, a j + h] and x ′ ∈ [a j+1 − h, a j+1 + h], pour j ∈ {1, . . . , M − 1}. We have|f(x) − f(x ′ )| = |θ j f j (x) − θ j+1 f j+1 (x ′ )|≤ |f j (x) − f j (a j + h)| + |f j+1 (a j+1 − h) − f j+1 (x ′ )|≤ 2L(2h) β≤ L ( 2 1/β 2h ) β.Since |x − x ′ | ≥ 2 1/β 2h we obtain that |f(x) − f(x ′ )| ≤ |x − x ′ | β . From this particularcase we can easily show that |f(x) − f(x ′ )| ≤ |x − x ′ | β for all x, x ′ ∈ [0, 1].


Chapitre 3Asymptotically exact minimaxestimation in sup-norm for anisotropicHölder classes3.1 IntroductionLet { Y t , t ∈ [0, 1] d} , be a random process defined by the stochastic differential equationdY t = f(t)dt + σ √ ndW t , t ∈ [0, 1] d , (3.1)where f is an unknown function, n > 1, σ > 0 is known and W is a standard Browniansheet in [0, 1] d . We wish to estimate the function f given a realization y = { Y t , t ∈ [0, 1] d} .This is known as the Gaussian white noise problem and has been studied in severalpapers starting with Ibragimov and Hasminskii (1981). We suppose that f belongs toa d-dimensional anisotropic Hölder class Σ(β, L) for β = (β 1 , . . . , β d ) ∈ (0, 1] d and L =(L 1 , . . . , L d ) such that 0 < L i < ∞. This class is defined by :Σ(β, L) = { f : R d → R : |f(x) − f(y)| ≤ L 1 |x 1 − y 1 | β 1+ · · · + L d |x d − y d | β d, x, y ∈ R d} ,where x = (x 1 , . . . , x d ) and y = (y 1 , . . . , y d ).In the following P f is the distribution of y under model (3.1) and E f is the correspondingexpectation. We denote by β the real number β = ( ∑ di=1 1/β i) −1 . Let w(u),u ≥ 0, be a continuous non-decreasing function which admits a polynomial majorantw(u) ≤ W 0 (1 + u γ ) with some finite positive constants W 0 , γ and such that w(0) = 0.Let ̂f n be an estimator of f, i.e. a random function on [0, 1] d with values in R measurablewith respect to { Y t , t ∈ [0, 1] d} . The quality of ̂f n is characterized by the maximalrisk in sup-normR n ( ̂f n ) =sup E f wf∈Σ(β,L)40(‖ ̂f)n − f‖ ∞,ψ n


3.1. Introduction 41where ψ n = ( )log nβ2β+1and ‖g‖n∞ = sup t∈[0,1] d |g(t)|. The normalizing factor ψ n is usedhere because it is a minimax rate of convergence. For the one-dimensional case, thefact that ψ n is the minimax rate for the sup-norm has been proved by Ibragimov andHasminskii (1981). For the multidimensional case, this fact was shown by Stone (1982)and Nussbaum (1986) for the isotropic setting (β 1 = · · · = β d ), but it has not beenshown for the anisotropic setting considered here. Nevertheless there exist results forestimation in L p norm with p < ∞ on anisotropic Besov classes Kerkyacharian et al.(2001) suggesting similar rates but without a logarithmic factor. The case p = 2 has beentreated by several authors (Neumann and von Sachs (1997), Barron et al. (1999)).Our result implies in particular that ψ n is the minimax rate of convergence for estimationin sup-norm. But we prove a stronger assertion: we find an estimator f ∗ n anddetermine the minimax exact constant C(β, L, σ 2 ) such thatC(β, L, σ 2 ) = lim inf R n ( ̂f n ) = lim R n (f ∗n→∞ ̂f nn→∞n), (3.2)where inf ̂fnstands for the infimum over all the estimators. Such an estimator fn ∗ will becalled asymptotically exact.The problem of asymptotically exact constants under the sup-norm was first studiedin the one-dimensional case by Korostelev (1993) for the regression model with fixedequidistant design. Korostelev found the exact constant and an asymptotically exact estimatorfor this set-up. Donoho (1994a) extended Korostelev’s result to the Gaussianwhite noise model and Hölder classes with β > 1. However asymptotically exact estimatorsare not available in the explicit form for β > 1, except for β = 2. Korostelev andNussbaum (1999) found the exact constant and asymptotically exact estimator for thedensity model. Lepski (1992) studied the exact constant in the case of adaptation for thewhite noise model. In Chapter 2, we have found the exact constant and an asymptoticallyexact estimator for the regression model with random design.The estimator fn ∗ defined in Section 3.2 and which will be shown to satisfy (3.2) is akernel estimator. For d = 1, the kernel used in our estimator (and defined in (3.3)) is theone derived by Korostelev (1993) and can be viewed as a solution of an optimal recoveryproblem. This is explained in Donoho (1994a) and Lepski and Tsybakov (2000). For ourset-up, i.e. the Gaussian white noise model and d-dimensional anisotropic Hölder classΣ(β, L) for β = (β 1 , . . . , β d ) ∈ (0, 1] d and L ∈ (0, +∞) d , the choice of optimal parametersof the estimator (i.e. kernel, bandwidth) is also related to a solution of optimal recoveryproblems. In the same way as in Donoho (1994a), the kernel defined in (3.3) can beexpressed, up to a renormalization on the support, asK(t) =f β (t)∫R d f β (s)ds ,where f β is the solution of the optimization problemmax f(0),‖f‖ 2 ≤1f∈Σ(β,1)


42 Exact minimax estimation in sup-norm for anisotropic Hölder classeswhere we denote ‖f‖ 2 = (∫ R d f 2 (t)dt ) 1/2and 1 is the vector (1, . . . , 1) in R d .The anisotropic class of functions in this paper does not turn into a traditional isotropicLipschitz class in the case β 1 = . . . = β d . For an isotropic class defined as{f : [0, 1] d → R : |f(x) − f(y)| ≤ L‖x − y‖ β , x, y ∈ [0, 1] d} ,with β ∈ (0, 1], L > 0 and ‖ · ‖ the Euclidian norm in R d , radial symmetric ’cone-type’kernels should be optimal. Such kernels of the form K(x) = (1 − ‖x‖) + , for x ∈ R d , arestudied in Klemelä and Tsybakov (2001). We denote (t) + = max(0, t).In Section 3.2, we give an asymptotically exact estimator f ∗ n and the exact constantfor the Gaussian white noise model. The proofs are given in Sections 3.3 and 3.4.3.2 The estimator and main resultConsider the kernel K defined for u = (u 1 , . . . , u d ) ∈ [−1, 1] d bywhereK(u 1 , . . . , u d ) = β + 1∏α = 2d di=1 Γ( 1 β i)Γ( 1 ) ∏ dβ i=1 β ,iΓ denotes the gamma function and |u| β = ∑ di=1 |u i| β i.Lemma 3.1. The kernel K satisfies ∫ [−1,1] d K(u)du = 1 andwith∫[−1,1] d K 2 (u)du =αβ 2 (1 − |u| β) + , (3.3)2(β + 1)βα(2β + 1) .This lemma is a consequence of Lemma 3.3 in the Appendix of Chapter 3.We consider the bandwidth (h 1 , . . . , h d ) whereh i =( ( ) ) 1/βi⎛ ( ) ⎞β/(2β+1)βC 0 log n, C 0 = ⎝σ 2β β + 1L ∗⎠L i nαβ 3L ∗ =( d∏i=1L 1/β jj) β.12β+1,


3.2. The estimator and main result 43Finally, we consider the kernel estimatorf ∗ n(t) =∫1h 1 · · · h d[0,1] d K n (u, t) dY u , (3.4)defined for t = (t 1 , . . . , t d ) ∈ [0, 1] d , where for u = (u 1 , . . . , u d ) ∈ [0, 1] d(u1 − t 1K n (u, t) = K , . . . , u ) d∏d − t dg(u i , t i , h i ),h 1 h di=1and⎧1 ⎪⎨ ( )if t i ∈ [h i , 1 − h i ]ug(u i , t i , h i ) = 2I i −t i[0,1] h iif t i ∈ [0, h i )( )⎪⎩u2I i −t i[−1,0] h iif t i ∈ (1 − h i , 1].We add the functions g(u i , t i , h i ) to account for the boundary effects. Here and later I Adenotes the indicator of the set A. We suppose that n is large enough so that h i < 1/2, fori = 1, . . . , d. Using a change of variables and the symmetry of the function K in each ofits variables, i.e. for all u = (u 1 , . . . , u d ) ∈ R d , K(u 1 , . . . , u d ) = K(. . . , u i−1 , −u i , u i+1 , . . .),we obtain that∫∫1K n (u, t) du = K(u)du = 1. (3.5)h 1 · · · h d [0,1] d [−1,1] dThe main result of the paper is given in the following theorem.Theorem 3.1. Under the above assumptions, relation (3.2) holds for the estimator f ∗ ndefined in (3.4) withC(β, L, σ 2 ) = w(C 0 ).Remark. For d = 1 the constant w(C 0 ) coincides with that of Korostelev (1993).We will prove this theorem in two stages. Let 0 < ε < 1/2. In Section 3.3, we showthat fn ∗ satisfies the upper bound[ ( )]lim sup sup E f w ‖f∗n − f‖ ∞ ψn−1 ≤ w (C0 (1 + ε)) . (3.6)n→∞f∈Σ(β,L)In Section 3.4, we prove the corresponding lower bound(lim inf inf sup E f[w ‖ ̂f)]n − f‖ ∞ ψn−1 ≥ w(C 0 (1 − ε)). (3.7)n→∞ ̂f n f∈Σ(β,L)Since ε > 0 in (3.6) and (3.7) can be arbitrarily small and w is a continuous function, thisproves Theorem 3.1.


44 Exact minimax estimation in sup-norm for anisotropic Hölder classes3.3 Upper boundDefine for t ∈ [0, 1] d and f ∈ Σ(β, L) the bias termand the stochastic termZ n (t) = f ∗ n(t) − E f (f ∗ n(t)) =b n (t, f) = E f (f ∗ n(t)) − f(t)∫σ√h 1 · · · h d n[0,1] d K n (u, t)dW u .Note that Z n (t) does not depend on f. Here we prove inequality (3.6).Proposition 3.1. The bias term satisfiessup ψn −1 ‖b n (·, f)‖ ∞ ≤ C 0f∈Σ(β,L)2β + 1 .Proof. Let f ∈ Σ(β, L) and t ∈ [0, 1] d . Suppose n large enough such that (3.5) is satisfied.Then∫|E f (fn(t)) ∗ − f(t)| =1∣K n (u, t) (f(u) − f(t))duh 1 · · · h d∣[0,1] d∫( d∑)σ≤K n (u, t) L i |u i − t i | β idu.h 1 · · · h d [0,1] d i=1Then, using a change of variables and the symmetry of the function K in each of itsvariables, we have|E (fn(t)) ∗ − f(t)| ≤ β + 1 d∑αβ 2 L i h β ii B i,where∫B i = |u i | β i(1 − |u| β ) du =[−1,1] di=1αβ 3β i (β + 1)(2β + 1) ,the last equality being obtained from Lemma 3.3 in the Appendix of this chapter. Puttingthese inequalities together, we obtain, for all t ∈ [0, 1] d|b n (t, f)| ≤ C 02β + 1( log nn) β2β+1.Proposition 3.2. The stochastic term satisfies for any z > 1 and n large enough,[sup P f ψn−1 ‖Z n ‖ ∞ ≥ 2βC ]0z≤ D 1 n − (z2 −1)2β+1 (log n) 1/2β+1 ,f∈Σ(β,L)2β + 1where D 1 is a finite positive constant.


3.3. Upper bound 45Proof. The stochastic term is a Gaussian process on [0, 1] d . To prove this proposition, weuse a more general lemma about the supremum of a Gaussian process (Lemma 3.4 in theAppendix of Chapter 3). We haveP f[ψn−1‖Z n ‖ ∞ ≥ 2βC ] [0z= P f2β + 1]sup |ξ t | ≥ r 0 ,t∈[0,1] dwithandξ t =r 0 = 2βC 0zψ n√ nh1 · · · h dσ(2β + 1)1√h1 · · · h d∫[0,1] d K n (u, t) dW u .We will apply Lemma 3.4 (cf. Appendix of this chapter) to the process ξ t on the sets ∆belonging to{}d∏S = ∆ = ∆ i : ∆ i ∈ {[0, h i ), [h i , 1 − h i ], (1 − h i , 1]} .i=1Let ∆ ∈ S. The process ξ t on ∆ has the form(1u1 − tξ t = √ 1Q , . . . ,h1 · · · h d∫[0,1] u )d − t ddW u ,h d dwhere Q(u 1 , . . . , u d ) = K(u 1 , . . . , u d ) ∏ di=1 g i(u i ) and⎧⎨ 1 if ∆ i = [h i , 1 − h i ]g i (u i ) = 2I [0,1] if ∆ i = [0, h i )⎩2I [−1,0] if ∆ i = (1 − h i , 1].The function Q satisfies ‖Q‖ 2 2 = ∫ R d Q 2 = ‖K‖ 2 2. Moreover we have the following lemmawhich will be proved in the Appendix of Chapter 3.Lemma 3.2. There exists a constant D 2 > 0 such that, for all t ∈ [−1, 1] d∫h 1R d (Q(t + u) − Q(u)) 2 du ≤ D 2( d∑i=1|t i | min(1/2,β i)) 2. (3.8)The process ξ t satisfies the conditions of Lemma 3.4 and in particular satisfies condition(3.12) of that lemma with α i = min(1/2, β i ) in view of Lemma 3.2. We have by Lemma 3.3h =d∏i=1h i = C1/β 0L 1/β∗( ) 1/(2β+1) log n,nr 2 02‖K‖ 2 2= z2 log n2β + 1 .


46 Exact minimax estimation in sup-norm for anisotropic Hölder classescThe condition r 0 > 2is then satisfied for n large enough. We obtain for n large| log h| 1/2enough that the quantity N(h) (cf. Lemma 3.4) satisfiesN(h) ≤ D 3( ) | log h|1/2 1/β+1/2h≤ D 3 n 12β+1 (log n) 1/2β+1 ,rwhere D 3 is a finite positive constant. Moreover the quantity 0is well defined and| log h| 1/2bounded independently of n, for n large enough. Then there exists D 4 > 0 such that]P f[sup |ξ t | ≥ r 0 ≤ D 4 n − (z2 −1)2β+1 (log n)1/2β+1t∈∆and we obtain Proposition 3.2 by noting that card(S) = 3 d .We can now complete our proof of inequality (3.6). Let ∆ n,f = ψn−1 ‖fn ∗ − f‖ ∞ forf ∈ Σ(β, L). We have, since w is non-decreasing,( ( )E f (w (∆ n,f )) = E f w (∆n,f ) I {∆n,f ≤(1+ε)C 0 })+ Ef w (∆n,f ) I {∆n,f >(1+ε)C 0 }≤ w((1 + ε)C 0 ) + ( E f(w 2 (∆ n,f ) )) 1 2(P f [∆ n,f > (1 + ε)C 0 ]) 1 2 .Therefore to prove inequality (3.6), it is enough to prove the following two relations(i) lim n→∞ sup f∈Σ(β,L) P f [∆ n,f > (1 + ε)C 0 ] = 0,(ii) there exists a constant D 5 such that lim sup n→∞ sup f∈Σ(β,L) E f (w 2 (∆ n,f )) ≤ D 5 .Let f ∈ Σ(β, L). To prove (i), note that, for n large enough[P f [∆ n,f > (1 + ε)C 0 ] ≤ P f ψn −1 ‖Z n ‖ ∞ > 2βC ]0(1 + ε),2β + 1which is a consequence of Proposition 3.1. By Proposition 3.2 with z = 1 + ε, the righthandside of this inequality tends to 0 as n → ∞.Let us prove (ii). The assumptions on w imply that there exist constants D 6 and D 7such that(E f w 2 (∆ n,f ) ) [ ( (ψ ) )−12γ≤ D 6 + D 7 E f n ‖Z n ‖ ∞ + ( ) ]ψn −12γ‖b n (·, f)‖ ∞ .Using the fact thatE f( (ψ−1n ‖Z n ‖ ∞) 2γ)=∫ +∞0[P f (ψ−1n ‖Z n ‖ ∞ ) 2γ > t ] dt,and Proposition 3.2, we prove that lim sup n→∞ E f[(ψ n −1 ‖Z n ‖ ∞ ) 2γ] < ∞. This andProposition 3.1 entail (ii).


3.4. Lower bound 473.4 Lower boundBefore proving inequality (3.7), we need to introduce some notation and preliminary facts.We write( ) 1 ( ) 1 ( ) β1β log n 2β+1 C0 β i log n β i (2β+1)h = C0, hi = .nL i n[]1Let m i =− 1 with [x] the integer part of x and M = ∏ d2h i (2 1/β +1) i=1 m i. Consider thepoints a(l 1 , . . . , l d ) ∈ [0, 1] d for l i ∈ {1, . . . , m i } and i ∈ {1, . . . , d} such that:a(l 1 , . . . , l d ) = 2(2 1 β + 1) (h1 l 1 , . . . , h d l d ) .To simplify the notation, we denote these points a 1 , . . . , a M and each a j takes the form:a j = (a j,1 , . . . , a j,d ).Let θ = (θ 1 , . . . , θ M ) ∈ [−1, 1] M . Denote by f(·, θ) the function defined for t ∈ [0, 1] d byf(t, θ) =M∑θ j f j (t),j=1whereDefine the setf j (t) = h β (1 −d∑∣ )t i − a j,i ∣∣∣β i∣ h ii=1Σ ′ = { f(·, θ) : θ ∈ [−1, 1] M} .For all θ ∈ [−1, 1] M , f(·, θ) ∈ Σ(β, L), therefore Σ ′ ⊂ Σ(β, L).Suppose that f(·) = f(·, θ), with θ ∈ [−1, 1] M , in model (3.1), and denote P f(·,θ) = P θ .Consider the statistics:∫f[0,1]y j =d j (t)dY t, j ∈ {1, . . . , M}.f∫[0,1] 2 d j (t)dtProposition 3.3. Let f = f(·, θ) in model (3.1).(i) For all j ∈ {1, . . . , M}, y j is a Gaussian variable with mean θ j and variance equaltov 2 n = 2β + 12 log n .+.


48 Exact minimax estimation in sup-norm for anisotropic Hölder classes(ii) Moreover, P θ is absolutely continuous with respect to P 0 anddP θdP 0(y) =M∏j=1ϕ vn (y j − θ j ),ϕ vn (y j )where ϕ vn is the density of N (0, v 2 n) and P 0 = P (0,...,0) .Proof. (i). Let j ∈ {1, . . . , M}. Since the functions f j have disjoint supports, the statisticy j is equal to∫y j = θ j + √ σ f[0,1] d j (t)dW tn f∫[0,1] 2 d j (t)dt .Since (W t ) is a standard Brownian sheet, y j is gaussian with mean θ j and variancev 2 n =σ 2n ∫ [0,1] d f 2 j (t)dt = σ 2nh 2β h 1 · · · h d I(3.9)where (see Lemma 3.3) 3)∫[−1,1] d (I = 1 −d∑|t i | β ii=1) 2+dt =2αβ 3(β + 1)(2β + 1) . (3.10)Thereforev 2 n =σ 2 L 1/β∗2β+1βIC0 log nUsing the definition of C 0 , we obtain (3.9).(ii). Using the Girsanov’s theorem (see (Gihman and Skorohod, 1974, Chap. VII,Section 4)), since the functions f(·, θ) belong to L ( 2 [0, 1] d) , P θ is absolutely continuouswith respect to P 0 and we havedP θdP 0(y) = exp{√ ∫ nSince the functions f j have disjoint supportsdP θdP 0(y) = exp{1v 2 nσM∑j=1f(t, θ)dW t −θ j y j − 12v 2 nM∑j=1θ 2 j.n ∫2σ 2}=M∏j=1}f 2 (t, θ)dt .ϕ vn (y j − θ j ).ϕ vn (y j )


3.4. Lower bound 49With these preliminaries, we can now prove inequality (3.7). For any f ∈ Σ(β, L) andfor any estimator ̂f n , using the monotonicity of w and the Markov inequality, we obtainthat(E f[w ψn −1 ‖ ̂f)][n − f‖ ∞ ≥w(C 0 (1 − ε))P f ψn −1 ‖ ̂f]n − f‖ ∞ ≥ C 0 (1 − ε) .Since Σ ′ ⊂ Σ(β, L), it is enough to prove that lim n→∞ Λ n = 1, where[Λ n = inf sup P f ψn −1 ‖ ̂f]n − f‖ ∞ ≥ C 0 (1 − ε) .̂f n f∈Σ ′We have max j=1,...,M | ̂f n (a j ) − f(a j )| ≤ ‖ ̂f n − f‖ ∞ . Setting ˆθ j = ̂f n (a j )C 0 ψ n and usingthe fact that f(a j , θ) = C 0 ψ n θ j for θ ∈ [−1, 1] M , we see thatwhere C n =Λ n ≥ inf sup P θ (C n ),ˆθ∈R M θ∈[−1,1] M{}max j=1,...,M |ˆθ j − θ j | ≥ 1 − ε and ˆθ = (ˆθ 1 , . . . , ˆθ M ) ∈ R Mwith respect to y = {Y t , t ∈ [0, 1] d }. We have∫Λ n ≥ infP θ (C n )π(dθ),ˆθ∈R M {−(1−ε),1−ε} Mis measurablewhere π is the prior distribution on θ, π(dθ) = ∏ Mj=1 π j(dθ j ), where π j is the Bernoullidistribution on {−(1 − ε), 1 − ε} that assigns probability 1/2 to −(1 − ε) and to (1 − ε).Since P θ is absolutely continuous with respect to P 0 (see Proposition 3.3), we have∫Λ n ≥ infˆθ∈R M∫= infˆθ∈R M( )dP θE 0 I Cn π(dθ)dP 0( M)∏ ϕ vn (y j − θ j )E 0 I Cnπ(dθ).ϕ vn (y j )By the Fubini and Fatou theorems, we can write∫( ∫ M)1 ∏Λ n ≥1 − sup ∏ Mˆθ∈R M j=1 ϕ I {|θj −ˆθv n(y j )j |


50 Exact minimax estimation in sup-norm for anisotropic Hölder classesadmits the solution ˜θ j (y j ) = (1 − ε)I {yj ≥0} − (1 − ε)I {yj


3.5. Appendix of Chapter 3 51• If |t + u| β ≥ 1 and |u| β ≤ 1, then for the same reason | ˜Q(t + u) − ˜Q(u)| ≤ |t| β .Thus to prove (3.8), it is enough to bound from above the integral∫ ( ) 2I(t) = ˜Q(t + u) − ˜Q(u) IAt du,where A t = {u ∈ R : |t + u| β ≤ 1, |u| β ≤ 1}. We have I(t) = B 1 (t) + B 2 (t) where∫ ( ) 2B 1 (t) = ˜Q(t + u) − ˜Q(u) IAt du, ∩ÃtWe have∫ ( ) 2B 2 (t) = ˜Q(t + u) − ˜Q(u) IAt du,∩ÃC t{à t = u ∈ R : ˜Q(u) ≠ 0, ˜Q(t}+ u) ≠ 0 .B 1 (t) ≤ 2 d (|t| β ) 2 ≤ 2( d∑i=1|t i | min(β i,1/2)) 2,since mes{u ∈ R : |u| β ≤ 1} ≤ 2, where mes(·) denotes the Lebesgue measure. Moreoverwe have mes(A t ∩ ÃC t ) ≤ 2 ∑ di=1 |t i| and thenB 2 (t) ≤ 2 d(d∑d∑|t i | ≤ D 9 |t i | min(β i,1/2)i=1i=1) 2with D 9 a positive constant. This completes the proof.Lemma 3.3. (Gradshteyn and Ryzhik, 1965, formula 4.635.2) For a continuous functionf : ∆ 0 → R, we have∫ ()x β 11 + · · · + x β ddx p 1−11 · · · x p d−1ddx 1 · · · dx dwhere=∆ 0f1 Γβ 1 · · · β d Γ(p 1β 1)( )p dβ d· · · Γ()p 1β 1+ · · · + p dβ d∫ 10f(x)x p 1β 1+···+ p dβ d −1 dx∆ 0 = { (x 1 , . . . , x d ) ∈ [0, 1] d : x β 11 + · · · + x β dd ≤ 1 }and the β i and p i are positive numbers.


52 Exact minimax estimation in sup-norm for anisotropic Hölder classesLemma 3.4. Let Q : R d → R be a function such that ‖Q‖ 2 2 = ∫ Q 2 < ∞, ∆ be aR dcompact set ∆ = ∏ di=1 ∆ i with ∆ i intervals of [0, +∞) of length T i > 0 and W be thestandard Brownian sheet on ∆. Let h 1 , . . . , h d be arbitrary positive numbers and we writeh = ∏ di=1 h i. We consider the gaussian process defined for t = (t 1 , . . . , t d ) ∈ ∆:(1u1 − tX t = √ 1Q , . . . ,h1 · · · h d∫R u )d − t ddW u , (3.11)h d dwith u = (u 1 , . . . , u d ). Let (α 1 , . . . , α d ) ∈ (0, ∞) d and let α be the number such that1/α = ∑ di=1 1/α i. Let T = ∏ di=1 T i. We suppose that there exists 0 < c 1 < ∞ such that,for t ∈ [−1, 1] d ,∫(2d∑(Q(t + u) − Q(u)) 2 du ≤ c 1 |t i | i) α . (3.12)R dThen there exists a constant c 2 > 0, such that for b ≥ c 2 /| log h| 1/2 and h small enough,[]) ()P sup |X t | ≥ b ≤ N(h) exp(− b2c 2 bexp, (3.13)t∈∆2‖Q‖ 2 2 ‖Q‖ 2 2| log h| 1/2where c 2 = c 3 (c 4 + 1/ √ α), c 3 and c 4 do not depend on h 1 , . . . , h d , T and α, P denotes thedistribution of {X t , t ∈ ∆} andN(h) = 2d∏i=1h 1i=1(Tih i(c1 d| log h| 1/2) 1/α i+ 1).Note that if the h i /T i → 0, then for the h i /T i small enoughN(h) ≤ 2 d+1 T h(c1 d| log h| 1/2) 1/α.This lemma is close to various results on the supremum of Gaussian processes (seeAdler (1990), Lifshits (1995), Piterbarg (1996)). The closest result is Theorem 8-1 ofPiterbarg (1996) which, however, cannot be used directly since there is no explicit expressionfor the constants that in our case depend on h and T and may tend to 0 or ∞. Alsothe explicit dependence of the constants on α is given here. This can be useful for thepurpose of adaptive estimation.Proof. Let λ > 0 and N 1 (λ, S) be the minimal number of hyperrectangles with edges of( )λ 1/α1,. ( 1/αdlength h 1 c 1 d . .λ ,hdc 1 d)that cover a set S ⊂ ∆. We haveN 1 (λ, ∆) ≤d∏i=1([ ( ) ] )1/αiT i c1 d+ 1 ,h i λ


3.5. Appendix of Chapter 3 53where [x] denotes the integer part of the real x. Denote by B 1 ,. . . ,B N1 (λ,∆) such hyperrectanglesthat cover ∆ and choose λ = | log h| −1/2 , well defined for h < 1. We have, forb ≥ 0,[]P sup |X t | ≥ bt∈∆≤N 1 (λ,∆)∑j=1P[sup |X t | ≥ bt∈B j]N 1 (λ,∆)∑≤ 2 Pj=1[sup X t ≥ bt∈B j]. (3.14)Let j ∈ {1, . . . , N 1 (λ, ∆)}. Using Corollary 14.2 of Lifshits (1995) (cf Annex .1), we obtainfor b ≥ 4 √ 2D(B j , σ j /2)[ ] (P sup X t ≥ b ≤ exp − 1 (b − 4 √ ) ) 22D(Bt∈B j2σj2 j , σ j /2) , (3.15)where σ 2 j = sup t∈Bj E(X 2 t ),D(B j , σ j /2) =∫ σ/20(log NBj (u) ) 1/2du,where N Bj (u) is the minimal number of ρ-balls of radius u necessary to cover B j and ρ isthe semi-metric defined byρ(s, t) = ( E [ (X s − X t ) 2]) 1/2, s, t ∈ ∆,where E is the expectation with respect to P. Let us evaluate σj 2 . We have, by a changeof variables,(σj 2 1= supQt∈B jh 1 · · · h d∫∆2 u1 − t 1, . . . , u )d − t ddu ≤ ‖Q‖ 2h 1 h2. (3.16)d ∣ Let s, t ∈ B j . For h small enough, we have ∣ s i−t i ∣∣h i< 1 and, using (3.12) and a change ofvariables, we obtaind∑∣ ρ(s, t) ≤ c 1s i − t i ∣∣∣α i∣ . (3.17)h iIn view of (3.17), we have a rough bound for h small enough( [d∏ (λ ]) 1/αiN Bj (u) ≤ N 1 (u, B j ) ≤ 1 +.u)Thus for h small enough4 √ 2D(B j , σ j /2) ≤ 4 √ 2≤ 4λ √ 2∫ λ0d∑i=1i=1i=1[log (N 1 (u, B j ))] 1/2 du ≤ 4λ √ 2∫ 10[log(1 + u−1/α i)] 1/2du.∫ 10[ d∑i=1log ( 1 + u −1/α i )] 1/2du


54 Exact minimax estimation in sup-norm for anisotropic Hölder classesHere∫ 10[log(1 + u−1/α i)] 1/2du =∫ 10[log ( 1 + u 1/α i ) − 1 α ilog u] 1/2du≤ √ log 2 + √ 1 ∫ 1| log x| 1/2 dx.αi0Then we have for j ∈ {1, . . . , N 1 (λ, ∆)}4 √ 2D(B j , σ j /2) ≤ λc 3 (c 4 + 1/ √ α) = c 2 λ, (3.18)where c 3 and c 4 are positive constants independent of j, T , h and α. Substituting (3.15),(3.16) and (3.18) into inequality (3.14), we obtain, for b ≥ c 2 λ and for h small enough,[](P sup |X t | ≥ b ≤2N 1 (λ, ∆) exp − 1)(b − ct∈∆2‖Q‖ 2 2 λ) 2 ,2) ( )≤N(h) exp(− b2 c2 λbexp .2‖Q‖ 2 2 ‖Q‖ 2 2Then for b ≥ c 2| log h| 1/2 and for h small enough, we obtain (3.13).


Chapitre 4Asymptotically exact minimaxestimation in sup-norm for additivemodels4.1 IntroductionIn Chapter 3, we estimate a d-dimensional Hölder function in white noise model in L ∞norm. For the estimation of anisotropic Hölder functions belonging to Σ(β, L), withβ = (β 1 , . . . , β d ) ∈]0, 1] d , we have seen that the optimal rate of convergence is of the form) ( β∑d) −1.2β+1, with β =i=1 1/β i For isotropic Hölder functions (i.e. when βi = β( log nnfor all i), this rate is ( )log nβ2β+d. The problem is that, when d increases, the optimal ratenof convergence becomes worse. This problem is known as “the curse of dimensionality”.To overcome it, Stone (1985) presents a dimensionality reduction principle. He explainsthat, for a non-parametric model in which the function f is defined explicitly in termsof other functions and in which at least one is d ′ -dimensional and none is more than d ′ -dimensional, the model will also be consider d ′ -dimensional. We can find in the literaturethat this principle is satisfied for some generalized additive models. These models wereintroduced by Hastie and Tibshirani (c.f. Hastie and Tibshirani (1986),(1990)). Stone(1985) shows that this heuristic principle can be applied in the additive regression modelfor the following setting. He studied the estimation in L 2 norm of the regression functionf such that f(x) = E[Y |X = x], where Y and X = (X 1 , . . . , X d ) are two random variableswith values in R and [0, 1] d respectively. He supposed that f is additive, i.e. that it takesthe formf(x 1 , . . . , x d ) = µ +d∑f j (x j ), (x 1 , . . . , x d ) ∈ [0, 1] d ,j=1with µ = E[f(X)], E[f j (X j )] = 0 and that the f j belong to the class Σ(β, L) with β > 0and L > 0. He established under some mild conditions that the rate of convergence for55


56 Asymptotically exact minimax estimation in sup-norm for additive modelsβthe estimation of f in L 2 norm is n − 2β+1 , in other words it is the same rate of convergenceas for the estimation of a one-dimensional Hölder function of smoothness β. In Stone(1986), he studied another generalized additive model, where E[Y |X = x] = b(f(x))where b is a given function and f is additive. He proved that the dimensionality reductionprinciple is valid for estimation in this model in L 2 norm. Golubev (1992) studies the exactasymptotics of the minimax risk for additive Gaussian white noise models and projectionpursuit models in L 2 norm. Baraud (2002) and Baraud et al. (2001) study the estimationin L 2 norm of an additive regression. They suppose that the f j belong to a Besov classof smoothness β i and they prove that the rate of convergence is of order n −˜β2 ˜β+1 with˜β = mini=1,...,d β i. (4.1)In this chapter, we study the Gaussian white noise additive model. Our goal is to estimatean unknown function in L ∞ ([0, 1] d ) norm and to study the exact asymptotics of the L ∞ -risk. This will imply that the dimension reduction principle is satisfied under the L ∞ -risk) ˜βwith the rate of convergence ( log n 2 ˜β+1 .nLet { Y t , t ∈ R d} , be a random process defined by the stochastic differential equationdY t = f(t)dt + σ √ ndW t , t ∈ R d , (4.2)where f is an unknown function, n ∈ N ∗ , σ > 0 is known and W is a standard Browniansheet in R d . We want to estimate the function f on [0, 1] d given a realization y ={Yt , t ∈ R d} . We suppose that f belongs to the anisotropic additive class Σ ad (β, L) withβ = (β 1 , . . . , β d ) ∈ R d + and L = (L 1 , . . . , L d ) ∈ R d + whereΣ ad (β, L) ={f : R d → R : f(t) =d∑∫f i (t i ) with f i ∈ Σ(β i , L i ) andi=1Rf i (x)dx = 0for t = (t 1 , . . . , t d ) ∈ R d . An estimator θ n = θ n (x), x ∈ R d , is a measurable function withrespect to the observations (4.2). We define the maximal risk with sup-norm loss of anestimator θ n by( ))‖θn − f‖ ∞R n (θ n ) = sup E f(w,f∈Σ ad (β,L)ψ nwhere w(u) is a loss function, i.e. a continuous non-decreasing function defined for u ≥ 0which has a polynomial upper bound w(u) ≤ W 0 (1 + u γ ) with some positive constantsW 0 , γ and such that w(0) = 0, ‖f‖ ∞ = sup x∈[0,1] d |f(x)| and E f is the expectation withrespect to the distribution P f of y under the model (4.2). We denote( ) log n˜β2ψ n =˜β+1, (4.3)n}


4.2. Main result 57with ˜β defined in (4.1). We will study the case ˜β ∈]0, 1]. We are going to prove that ψ n isthe minimax rate of convergence on the class Σ ad (β, L) and we will find the minimax exactconstant C ad and an asymptotically exact estimator ̂f n for this problem of estimation, i.e.the constant C ad and the estimator ̂f n that satisfyw(C ad ) = lim inf R n (θ n ) = lim R n ( ̂f n ), (4.4)n→∞ θ nn→∞where inf θn stands for the infimum over all the estimators. The rate of convergencedepends only ˜β. We will see that C ad and the asymptotically exact estimator dependonly on ˜β and L. This is understandable because the estimation in the direction withsmoothness greater than ˜β is faster. Moreover the optimal rate of convergence is the rateof convergence for the estimation of a one-dimensional function of smoothness ˜β, whichcan be interpreted as the dimension reduction principle.This chapter is organized as follows. In Section 4.2, we give an asymptotically exactestimator ̂f n and the exact constant which satisfy (4.4). Section 4.3 and 4.4 are devotedto the proofs.4.2 Main resultBefore giving the result, we introduce some notation. We set{Λ = i ∈ {1, . . . , d} : β i = ˜β},C ad =(σ 2˜L˜β+1˜β˜β + 12˜β 2) ˜β2 ˜β+1,˜L = ∑ i∈ΛL1˜β+1i .We consider the estimator∫̂f n (t) =R dd∑j=1( )1 uj − t jK˜βdY u (4.5)h j h jdefined for t = (t 1 , . . . , t d ) ∈ [0, 1] d , where the bandwidth h = (h 1 , . . . , h d ) satisfies forj ∈ {1, . . . , d} and some D > 0⎧⎪⎨h j =⎪⎩C 1/˜βad( log nn( log n) 1n) 1− 12 ˜β+1 L ˜β+1j˜L1˜βif β j = ˜β,2 ˜β+1 (log n) D if β j ≠ ˜β,(4.6)


58 Asymptotically exact minimax estimation in sup-norm for additive modelsand the kernel K˜βisK˜β(x) = ˜β + 12˜βWe have the following result.supf∈Σ ad (β,L)( )1 − |x|˜β+, x ∈ R. (4.7)Theorem 4.1. Let β ∈ R d + such that ˜β ∈]0, 1] et L ∈]0, ∞] d . Let w a loss function andlet ψ n be defined in (4.3). Under the above assumptions, we have(lim sup E f[w ‖ ̂f)]n − f‖ ∞ ψn−1n→∞ f∈Σ ad (β,L)[ ( )]= lim inf E f w ‖θn − f‖ ∞ ψn−1 = w(Cad ),n→∞ θ nwhere inf θnstands for the infimum over all the estimators.We are going to prove this theorem in two stages. Let 0 < ε < 1/2. In Section 4.3,we show that ̂f n satisfies the upper bound(lim sup sup E f[w ‖ ̂f)]n − f‖ ∞ ψn−1 ≤ w (C ad (1 + ε)) . (4.8)n→∞f∈Σ ad (β,L)In Section 4.4, we prove the corresponding lower boundlim inf inf[ ( )]E f w ‖θn − f‖ ∞ ψn−1 ≥ w(Cad (1 − ε)). (4.9)n→∞ θ nsupf∈Σ ad (β,L)Since ε > 0 in (4.8) and (4.9) can be arbitrarily small and w is a continuous function,this proves Theorem 4.1.Remarks:1. Our result is for Hölder classes Σ ad (β, L) with β = (β 1 , . . . , β d ) ∈ R d + such that˜β ∈]0, 1]. For this setting the exact constant and the asymptotically exact estimatordepend only on β via ˜β and are explicitly known. For β ∈ R d + such that ˜β > 1, asimilar result can be obtained but the exact constant and the exact estimator arenot explicitly known. It can be proved by a similar proof that ψ n = ( log nnthe minimax rate of convergence and that the minimax constant is⎛ ⎞˜β+1C ad = f˜β(0) ⎝ σ2˜L ˜β⎠2˜β + 1where f˜βis the solution of the optimization problemmax f(0)‖f‖ 2 ≤1f∈Σ(˜β,1)˜β2 ˜β+1,) ˜β2 ˜β+1 is


4.2. Main result 59(cf. Chapter 5 for more details on this problem). The asymptotically exact estimatorfor ˜β > 1 has the form∫̂f n (t) =d∑R d j=1( )1 uj − t jK˜βdY u ,h j h jwhere h j is defined as previously with the new constant C ad and a new kernelK˜β(t) =∫ f ˜β(t) . f ˜β(s)ds2. We suppose that we have observations Y t for t ∈ R d . We could have obtained thesame result for observations Y t with t ∈ [0, 1] d by modifying the kernel K˜βon theboundary as in Chapter 2 and Chapter 3.3. Our result is for estimation in the Gaussian white noise additive model. We couldhave obtained a similar result for the regression additive model with fixed design:Y i = f(l i ) + ξ i , i = 1, . . . , n,where (l 1 , . . . , l d ) is an equidistant grid on [0, 1] d and the function f is of the formf(x) = µ +d∑f j (x j ),with µ ∈ R and the f j such that ∫ f j (t)dt = 0 and f j ∈ Σ(β j , L j ). For this model,the minimax rate of convergence and the exact constant will be the same as inTheorem 4.1 and an asymptotically exact estimator can be chosen as a Nadaraya-Watson estimator defined for t ∈ [0, 1] by:)j=1̂f n (t) =∑ ni=1 Y iK˜β∑ ni=1 K˜β( li −th( li −thwhere the notation t s for two vectors t = (t 1, . . . , t d ), s = (s 1 , . . . , s d ) represents thevector (t 1 /s 1 , . . . , t d /s d ), h = (h 1 , . . . , h d ) with the h j are defined by (4.6) and thekernel K˜βis the same as in (4.7) modified on the boundary.For the regression additive model with random design, the exact constant and theasymptotically exact estimator will be almost the same but they will in additiondepend on the minimum of the design density (as in Chapter 2).4. For adaptive estimation, we conjecture that the Lepski method provides the exactadaptive asymptotics for loss function w(x) = x p (cf. Chapter 6). For the Lepskimethod, in the case of estimation in sup-norm of Hölderian functions (cf. Lepski(1992)), the goal is to estimate a function f ∈ Σ(β, L) knowing that β ∈ B where Bis a subset of R + . For each smoothness β ∈ B, we denote ψ n (β) the minimax rate of) ,


60 Asymptotically exact minimax estimation in sup-norm for additive modelsconvergence on the class Σ(β, L) and we associate an estimator ˆf β that converges atthe rate ψ n (β) on the class Σ(β, L). Then, we choose ˆβ, the largest β ∈ B such that‖ ˆf β − ˆf γ ‖ ∞ ≤ cψ n (γ) for all γ ≤ β, γ ∈ B, with an appropriately chosen constantc > 0. This choice of ˆβ is based on the fact that if f ∈ Σ(λ, L) and γ ≤ β ≤ λ, withγ, β, λ ∈ B, the sup-norm of the bias of ˆf β − ˆf γ is bounded from above by a termof order ψ n (γ). Finally, the estimator ˆf ˆβis adaptive in rate (i.e. converges at therate ψ n (β) on each class Σ(β, L)).For additive models, we have a similar property on the bias of ˆf β − ˆf γ with estimatorsˆf β defined as in (4.5). Then, the Lepski method could be extended to additivemodels and give exact asymptotics in the upper bound by an appropriate choice ofconstants and selecting the larger ˜β using a similar criteria.4.3 Upper boundFor t ∈ R d and f ∈ Σ ad (β, L), define the bias termb n (t, f) = E f ( ̂f n (t)) − f(t)and the stochastic term∫σd∑( )1 uj − tZ n (t) = √n jK˜βdW u .R h d j h jNote that Z n (t) does not depend on f.j=1As in the proof of Theorem 3.1 in Chapter 3, we study the bias and the stochasticterm of the estimator ̂f n . We have the following two propositions which are of the sametype as Propositions 3.1 and 3.2 in Chapter 3.Proposition 4.1. We havesup ‖b n (·, f)‖ ∞ ≤ C adψ n(1 + o(1)).f∈Σ ad (β,L)2˜β + 1Proof. Let f ∈ Σ ad (β, L) and let f 1 , . . . , f d be such that f(t) = ∑ dj=1 f j(t j ) for t =(t 1 , . . . , t d ) ∈ R d . We have for t = (t 1 , . . . , t d ) ∈ R d , since ∫ f R i(x)dx = 0,( ) ∫E f ̂fn (t) =R d=d∑j=1( )1 uj − t jK˜βf(u)du =h j h jd∑∫K˜β(u)f j (t j + uh j )du.j=1Rd∑j=1( )1 uj − t jK˜βf j (u j )du jh j∫R h j


4.3. Upper bound 61Then we have( )∣∣E f ̂fn (t)− f(t) ∣ ≤≤d∑∫j=1RK˜β(u)|f j (t j + uh j ) − f j (t j )|dud∑∫L j |h j | β jj=1≤ C adψ n˜L∫RK˜β(u)|u| β jduRK˜β(u)|u|˜βdu ∑ j∈ΛL 1− ˜β˜β+1j(1 + o(1)) = C adψ n(1 + o(1)).2˜β + 1The first line comes from the equality ∫ R K˜β(u)du = 1 and the second line follows from thefact that f ∈ Σ ad (β, L). The last line is a consequence of the equality ∫ R K˜β(u)|u|˜βdu =12˜β+1 and of the fact that |h j| β j= o(ψ n ) for j /∈ Λ.Proposition 4.2. We have for z > 1[]P ‖Z n ‖ ∞ ≥2˜β2˜β + 1 zC adψ n ≤ D 0 n − (z2 −1)2 ˜β+1 (log n)D 1,where D 0 is a positive constant and D 1 ∈ R.Proof. To prove this proposition, we follow a similar scheme as in the proof of Lemma3.4. We consider the Gaussian process ξ t defined for t = (t 1 , . . . , t d ) ∈ R d bywhere h(n) = ( ) 1log nnξ t = √ ∫h(n)R d2 ˜β+1 C 1/˜βadd∑j=1( )1 uj − t jK˜βdW uh j h j. We will study the quantity v2 = sup t∈[0,1] d E[ξ 2 t ] and thesemi-metric ρ on R d defined by ρ(s, t) = √ E[(ξ t − ξ s ) 2 ] for t, s ∈ R d . We have fort = (t 1 , . . . , t d ) ∈ R d∫ ( d∑E[ξt 2 ] =h(n)R d j=1∑=‖K˜β‖ 2 2˜L 1˜βj∈Λ( ) ) 21 uj − t jK˜βdu =h j h jL1˜β+1jd∑j=1(1 + o(1)) = ‖K˜β‖ 2 ˜β+1˜β2˜L (1 + o(1)),h(n)h‖K˜β‖ 2 2 + d(d − 1)h(n)jwith o(1) tending to 0 as n tends to ∞. The third equality follows from the fact thath(n)/h j = (log n) −D for β j ≠ ˜β. Then v 2 ≤ ‖K˜β‖ 2 2˜L˜β+1˜β (1+o(1)). For s = (s1 , . . . , s d ), t =


62 Asymptotically exact minimax estimation in sup-norm for additive models(t 1 , . . . , t d ) ∈ R d , we have∫ ( d∑ρ 2 (s, t) =h(n)R d j=1( d∏≤D 2 h(n)j=1( ) ( )}1 uj − t j{K˜β) 2uj − s j− K˜βduh j h j h jh j) ( d∑j=11h j∣ ∣∣∣ t j − s jh j∣ ∣∣∣˜β) 2,where the last line is obtained first by integration over u ∈ R d and then by using theproperties of the function x ↦→ x˜β.Here and in what follows we denote by D j , j = 2, 3, . . .positive constants. Thereforewith d 1 (n) =√D 2 h(n) ∏ dj=1 h j.ρ(s, t) ≤ d 1 (n)d∑t j − s j∣ ∣j=1h 1+1/˜βj˜β, (4.10)Now for λ > 0, let N 1 (λ, S) be the minimal number of hyperrectangles with edges( ) 1/˜β ( 1/˜βof length h 1+1/˜β λ1+1/˜β∏1 d 1 (n)d , . . . , hλd d 1 (n)d)that cover a set S =di=1 S i where S iis an interval of R of length T i > 0. Now we choose λ = | log h| −1/2 and we suppose nlarge enough such that h < 1. We set N(h) = N 1 (λ, [0, 1] d ). Denote B 1 ,. . . ,B N(h) suchhyperrectangles that cover [0, 1] d . We haveN 1 (λ, S) ≤([d∏i=1T ih 1+1/˜βi(d1 (n)dλ) 1/˜β]+ 1where [x] denotes the integer part of the real x. We have for b ≥ 0P [‖ξ t ‖ ∞ ≥ b] ≤N(h)∑j=1P[sup |ξ t | ≥ bt∈B j]),. (4.11)Let j ∈ {1, . . . , N(h)}. Using Corollary 14.2 of Lifshits (1995) (cf. Annexe .1), we get forb ≥ 4 √ 2D(B j , v/2)P[sup |ξ t | ≥ bt∈B j]≤ 2P[sup ξ t ≥ bt∈B j](≤ 2 exp − 1 (b − 4 √ ) ) 22D(B2v 2 j , v/2) , (4.12)whereD(B j , v/2) =∫ v/20(log NBj (u) ) 1/2du,


4.3. Upper bound 63where N Bj (u) is the minimal number of ρ-balls of radius u necessary to cover B j . In viewof (4.10), we have for n large enough(d∏( 1/˜β) λN Bj (u) ≤ N 1 (u, B j ) ≤ 1 + .u)Following the same lines as in the proof of Lemma 3.4, we obtain that µ ≤ D 3 λ with somepositive constant D 3 . Substituting (4.12) and the inequality on v 2 into the inequality(4.11), we get for b ≥ D 3 λ and for n large enough⎛⎞ ⎛ ⎞b 2D 3λbP [‖ξ t ‖ ∞ ≥ b] ≤ 2N(h) exp ⎝−i=1˜β+12‖K˜β‖ 2 ˜β2˜L⎠ exp ⎝˜β+1‖K˜β‖ 2 ˜β2˜LHere we come back to the process Z n (t). We have[]P ‖Z n ‖ ∞ ≥2˜β2˜β + 1 zC adψ n = P [‖ξ‖ ∞ ≥ r 0 (n)] ,with r 0 (n) =2˜β zC √ n2˜β+1adψ n . We have, by using the equality ‖K˜β‖ 2 σ 2 = ˜β+1 , that2˜β+1(r 0 (n)) 2 = 2‖K˜β‖ 2 ˜β+1˜β2˜Lz2 log n2˜β + 1 .Therefore for n large enough r 0 (n) is larger than D 3 λ andD 3 λr 0 (n)˜β+1‖K˜β‖ 2 ˜β2˜Lis bounded. Then for n large enough[]P ‖Z n ‖ ∞ ≥2˜β2˜β + 1 zC adψ n ≤ D 4 N(h)n − z22 ˜β+1 .To finish the proof, we show that for n large enough N(h) ≤ D 5 (log n) D 6/h(n). Indeed,we have for n large enough⎛d∏( ) ( ) ⎞11h(n) 2N(h) ≤D 7⎝1 +˜β 1 ∏ 2 ˜βh j⎠hi=1i h ij≠id∏≤D 8(1 + (log n) D 9n 1 d−1(1− )) 2 ˜β+1 2 ˜β .i=1This yields()- for d = 1, N(h) ≤ D 10 1 + (log n) D 11n 12 ˜β+1 ,⎠ .


64 Asymptotically exact minimax estimation in sup-norm for additive models- for d = 2, N(h) ≤ D 10(1 + (log n) D 11n 12(2 ˜β+1)) 2,- for d ≥ 3, N(h) is bounded from above by a constant.This finishes the proof.Now the upper bound (4.8) is proved exactly as in Section 3.3 of Chapter 3, replacingPropositions 3.1 and 3.2 of Chapter 3 by Propositions 4.1 and 4.2.4.4 Lower boundThe proof of the inequality (4.9) is similar to the proof of the lower bound for anisotropicHölder classes (cf. Chapter 3). The only difference is the family of functions f j used inthe proof. Here in place of the functions f j , we consider functions g j defined for t ∈ R dand j ∈ {1, . . . , M} byg j (t) = ∑ i∈Λh˜βi L iwith the h i defined as in Section 4.3, M =(1 −∣∣t i − a j,i ∣∣∣˜β)h i+[ ( ) ]1n 2 ˜β+1, where [x] denotes the integerlog npart of x and a j,i = 2(2 1/˜β + 1)jh i for j ∈ {1, . . . , M} and i ∈ Λ. We define the pointsa j by a j = (a j,1 , . . . , a j,d ) for j ∈ {1, . . . , M}. The points a j are chosen such that all thefunctions g j have disjoint supports.Now, as in Section 3.4, for θ = (θ 1 , . . . , θ M ) ∈ [−1, 1] M , we denote by f(·, θ) thefunction defined for t ∈ [0, 1] d byf(t, θ) =M∑θ j g j (t).j=1The functions f(·, θ) satisfy similar properties as the functions defined in the same wayin Section 3.4. Indeed we have the following proposition.Proposition 4.3. We have for all θ = (θ 1 , . . . , θ M ) ∈ [−1, 1] M :(i) the function f(·, θ) belongs to Σ ad (β, L),(ii) f(a j , θ) = θ j C ad ψ n ,(iii) if f = f(·, θ) in the model (4.2), for j ∈ {1, . . . , M}, the statistic∫gRy j =d j (t)dY tg∫R 2 d j (t)dt ,


4.4. Lower bound 65is a Gaussian random variable with mean θ j and variance equal tov 2 n = 2˜β + 12 log n .Proof. (i) The result (i) comes from the fact the functions g j belong to Σ ad (β, L) andhave disjoint supports.(ii) Since the functions g j have disjoint supports, we have f(a j , θ) = θ j g j (a j ) andg j (a j ) = C adψ n˜L∑L i L − ˜β˜β+1i = C ad ψ n .(iii) Since the functions g j have disjoint supports, the statistic y j is equal to :y j = θ j + √ σ ∫gR d j (t)dW tn g∫R 2 d j (t)dt .i∈ΛSince (W t ) is a standard Brownian sheet, y j is Gaussian with mean θ j and varianceWe have:∫V ar (y j ) =R d g 2 j (t)dt = ∑ i∈Λσ 2n ∫ R d g 2 j (t)dt.h 2˜β+1i L 2 i∫ 10( ) 21 − |t|˜βdt.+Since ∫ ( ) 214˜β1 − |t|˜β dt =2and using the value of h 0+ (2˜β+1)(˜β+1)i and C ad we deducethat2∫˜β+1gj 2 (t)dt = C ˜βadlog n 4˜β 2 ∑LR d (2˜β + 1)(˜β + 1)n˜L 2 ˜β+1˜β= 2σ2 log nn(2˜β + 1)i∈Λ12 ˜β+1iFinally using Proposition 4.3 and following the same lines as the proof of the lowerbound in Section 3.4, it is easy to obtain the result (4.9).


66 Optimal recovery et estimation statistiqueChapitre 5Optimal recovery et estimationstatistiqueDans un problème d’optimal recovery (O.R.), le but est d’approcher un signal ou desfonctions de ce signal à partir d’observations associées à un bruit déterministe. Il existeun grand nombre de travaux concernant ces problèmes (voir Stechkin (1968), Gabushin(1970), Micchelli et Rivlin (1977), Arestov (1989)) dans lesquels est étudiée l’approximationd’opérateurs linéaires ou de fonctionnelles linéaires. Il existe un lien entre certains problèmesd’O.R. et certains problèmes d’estimation statistique. La résolution d’un problèmed’O.R. peut permettre par exemple de trouver des vitesses de convergence, des constantesminimax exactes ou des estimateurs asymptotiquement exacts dans un problème d’estimationstatistique. Le concept d’O.R. est utilisé pour l’estimation de fonctionnelles linéaires:Donoho et Low (1992) ont montré que la vitesse de convergence minimax dépendait dumodule de continuité; Donoho et Liu (1991) et Donoho (1994b) ont mis en évidence lelien entre des algorithmes optimaux d’O.R. et les estimateurs minimax linéaires. Donoho(1994a) s’est intéressé à l’estimation en norme L ∞ d’une fonction Hölderienne et autilisé des outils d’O.R. pour trouver des estimateurs asymptotiquement exacts. Korostelev(1996) a montré comment étaient obtenus des estimateurs asymptotiquement exactsà partir de résultats d’O.R., dans un problème d’estimation de fonctions Hölderiennespour le risque en grande déviation associé à la norme L ∞ . Leonov (1997,1999) a prouvécertaines propriétés de solutions d’un problème d’O.R. qui permettent d’obtenir des résultatsd’estimation statistique de fonctions hölderiennes. De nombreux travaux utilisentle concept d’O.R.: Tsybakov (1998) l’a fait pour le problème d’estimation adaptative ennorme L ∞ et en un point fixé sur des boules de Sobolev; Korostelev et Nussbaum (1999)en ont déduit la constante exacte et un estimateur asymptotiquement exact dans le modèlede densité sur des classes hölderiennes; Lepski et Tsybakov (2000) l’ont utilisé pourl’étude des tests d’hypothèses asymptotiquement exacts. Pour l’estimation adaptative defonctionnelles linéaires, Klemelä et Tsybakov (2001) ont construit un estimateur adaptatifasymptotiquement exact en utilisant la méthode de Lepski appliquée à une familled’estimateurs obtenus par recalibration d’algorithme d’O.R. (voir aussi Klemelä et Tsy-


5.1. Cadre général de l’optimal recovery et principaux résultats 67bakov (2004)). Klemelä (2003) étudie le lien entre des résultats d’O.R. et l’estimation dela dérivée partielle en un point fixé d’une fonction appartenant à un espace de Sobolev,dans un modèle de bruit blanc Gaussien et un modèle de régression.Nous allons plus particulièrement développer dans ce chapitre l’application de l’O.R.à l’estimation en norme L ∞ de fonctions Hölderiennes. On présentera dans un premiertemps le cadre général de l’O.R. avec un bruit déterministe (Paragraphe 5.1). Dans leParagraphe 5.2, on développera un exemple de problème d’O.R.: l’approximation d’unefonction Hölderienne. Nous utiliserons cet exemple pour obtenir des résultats d’estimationstatistique en norme L ∞ dans le Paragraphe 5.3. Le Paragraphe 5.4 présente quelquesrésultats numériques.5.1 Cadre général de l’optimal recovery et principauxrésultatsLe cadre général de l’O.R. est décrit par exemple dans les articles de synthèse deMicchelli et Rivlin (1977) et d’Arestov (1989) (voir aussi Stechkin (1968) et Gabushin(1970)). Les résultats de ce paragraphe sont présentés dans les articles précédemmentcités.On considère X un espace vectoriel et (Y,‖ · ‖ Y ) et (V,‖ · ‖ V ) deux espaces vectorielsnormés. On suppose que C est un sous-ensemble de X et U un opérateur linéaire U : C →V . On suppose que l’on observe y ∈ Y qui vérifiey = If + εz,où ε ≥ 0, z ∈ S, S = {y ∈ Y : ‖y‖ Y ≤ 1}, I : C → Y et f est un élément inconnu de C.Le but de l’O.R. est d’approcher Uf pour f ∈ C à l’aide d’un algorithme. Un algorithmeˆT est une applicationˆT : IC + εS −→ V.On mesure la qualité d’un algorithme ˆT par l’erreurDéfinition 5.1. La quantitéE( ˆT ,ε,C) = sup ‖Uf − ˆT (y)‖ V .f∈C‖If−y‖ Y ≤εE(ε,C) = infˆTE( ˆT ,ε,C),où l’infimum est pris sur tous les algorithmes, est appelé erreur minimax du problèmed’O.R. Un algorithme ˆT qui vérifie E( ˆT ,ε,C) = E(ε,C) est appelé algorithme optimal.


68 Optimal recovery et estimation statistiqueDéfinition 5.2. On note e(ε,C) la quantitée(ε,C) =sup ‖Uf‖ Vf∈C‖If‖ Y ≤εet on appelle fonction la plus défavorable une fonction f qui vérifie ‖Uf‖ V = e(ε,C)avec ‖If‖ Y ≤ ε et f ∈ C.On a le théorème suivant.Théorème 5.1. Si C est un convexe équilibré (c’est-à-dire si f ∈ C alors −f ∈ C) alorse(ε,C) ≤ E(ε,C) ≤ 2e(ε,C).Ce théorème met en évidence l’importance de la quantité e(ε,C) dans le problème d’O.R.Supposons désormais que X est un espace vectoriel sur R, que (V,‖ · ‖ V ) = (R,| · |),autrement dit U est une fonctionnelle linéaire, et que C est un sous-ensemble convexe équilibréde X. Dans ce cas, s’il existe des algorithmes optimaux, alors il existe un algorithmeoptimal linéaire et continu comme le montre le résultat suivant.Théorème 5.2. Pour ε > 0, on aE(ε,C) = e(ε,C) =inf supˆT ∈L(Y ) f∈C‖If−y‖ Y ≤ε= infˆT ∈L(Y ){supf∈C∣∣Uf − ˆT (y)∣∣∣Uf − ˆT }(If) ∣ + ε‖ ˆT ‖ ,où L(Y ) est l’ensemble des algorithmes linéaires et continus. De plus, si il existe ˆT ∈ L(Y )tel que sup f∈C |Uf − ˆT (If)| < ∞, alors pour ε > 0, un algorithme optimal linéaire etcontinu existe.Théorème 5.3. Si f 0 est une fonction la plus défavorable alors ˆT 0 ∈ L(Y ) est un algorithmeoptimal ssi(i)(ii)ε‖ ˆT 0 ‖ = ˆT 0 (If 0 )maxf∈C |Uf − ˆT 0 (If)| = Uf 0 − ˆT 0 (If 0 ).Ce théorème est intéressant car il permet de donner une caractérisation des algorithmesoptimaux.


5.2. Application au problème d’approximation d’une fonction Hölderienne 695.2 Application au problème d’approximation d’une fonctionHölderienne5.2.1 Cas d’une fonction unidimensionnelleSupposons qu’on dispose des observations y(t), t ∈ R, qui vérifienty(t) = f(t) + εz(t), t ∈ R, (5.1)où ε > 0, z est une fonction inconnue telle que ‖z‖ 2 ≤ 1, f est une fonction inconnue àapprocher appartenant àC(β,L) Σ(β,L) ∩ L 2 (R)où ‖f‖ 2 = (∫ R f 2 (t)dt ) 1/2, β > 0, L > 0, la classe Σ(β,L) est définie de la manière suivanteΣ(β,L) = { f : R → R,|f (l) (x) − f (l) (y)| ≤ L|x − y| β−l ,∀x,y ∈ R } ,où l = ⌊β⌋ et on a utilisé la notation suivante.Notation 5.1. Pour m ∈]0,∞[, on note ⌊m⌋ = max{n ∈ N tel que n < m}.• Approximation en un point fixé.On s’intéresse tout d’abord à un premier problème d’O.R.: l’approximation de f en0. Notre but est d’approcher la fonctionnelle linéaire f(0) pour f ∈ C(β,L) à partir desobservations {y(t),t ∈ R}, de trouver l’erreur minimax et un algorithme optimal. Dansla suite du paragraphe, posons C = C(β,L) , X = Y = L 2 (R) muni de la norme ‖ · ‖ 2 ,V = R muni de la norme | · |, la fonctionnelle Uf = f(0) et I l’opérateur identité surC(β,L). En appliquant le Théorème 5.2, on déduit queE β (ε,L) E(ε,C(β,L)) = inf̂T= e(ε,C(β,L)) = supsupf∈C(β,L)‖f−y‖ 2 ≤εf∈C(β,L)‖f‖ 2 ≤ε∣ ̂T (y) − f(0)|Uf| =supf∈Σ(β,L)‖f‖ 2 ≤ε∣f(0), (5.2)où inf ̂Treprésente l’infimum sur tous les algorithmes possibles. En utilisant le Théorème5.2 et le théorème de représentation de Riesz dans L 2 (R), on a également queE β (ε,L) = inf sup ∣ ̂T (y) − f(0) ∣ˆT ∈L(Y ) f∈C(β,L)‖f−y‖ 2 ≤ε∣∫∣= infK∈L 2 (R)= infK∈L 2 (R)supf∈C(β,L)‖f−y‖ 2 ≤ε{sup∣f∈C(β,L)R∫∣K(t)y(t)dt − f(0)∣ (5.3)R}K(t)f(t)dt − f(0)∣ + ε‖K‖ 2 ,


70 Optimal recovery et estimation statistiqueoù L(Y ) est l’ensemble des fonctionnelles linéaires continues sur L 2 (R) à valeurs dans R.On déduit donc de (5.2) et des relations précédentes que{∫}E β (ε,L) = sup f(0) =sup∣ K(t)f(t)dt − f(0)∣ + ε‖K‖ 2 . (5.4)f∈Σ(β,L)‖f‖ 2 ≤εinfK∈L 2 (R)f∈C(β,L)Pour évaluer l’erreur minimax du problème d’O.R., il suffit donc résoudre le problèmed’optimisation(P ε,L (β)) supf∈Σ(β,L)‖f‖ 2 ≤εRf(0).Pour trouver un algorithme optimal, il faut trouver K ∈ L 2 (R) qui réalise l’infimum dans(5.3).Renormalisation.Donoho (1994a) a mis en évidence des propriétés de renormalisation relativement auproblème d’optimisation (P ε,L (β)) et aux algorithmes optimaux pour le problème d’approximationde f(0), qui sont données dans la proposition suivante.Proposition 5.1. Soit β > 0.(i) Pour L > 0 et ε > 0, on aE β (ε,L) = E β (1,1)L 1/(2β+1) ε 2β/(2β+1) .(ii) Si ˆT 1,β (y) = ∫ K R β(t)y(t)dt est un algorithme optimal pour le problème d’approximationde la fonctionnelle f(0) avec ε = 1, L = 1 et K β ∈ L 2 (R), alors ˆT ε,β (y) =∫K R h,β(t)y(t)dt, où K h,β (t) = 1 K h β( t ) et h = ( ) 2ε 2β+1, est un algorithme optimalh Lpour le problème d’approximation de la fonctionnelle f(0) avec ε > 0 et L > 0.La preuve de cette proposition se trouve dans Donoho (1994a) ou bien s’obtient facilementde la Proposition 5.6 donnée au Paragraphe 5.2.2. Ainsi pour trouver la solution duproblème d’approximation pour L > 0 et ε > 0 quelconques, il suffit de trouver la solutionpour ε = 1 et L = 1.Problème d’approximation de f(0) pour ε = 1 et L = 1.Il y a plusieurs résultats connus sur le problème (P 1,1 (β)) que l’on donne dans la propositionsuivante.Proposition 5.2. Soit β > 0.(i) Il existe une unique solution f β au problème (P 1,1 (β)).


5.2. Application au problème d’approximation d’une fonction Hölderienne 71(ii) La fonction f β est paire, à support compact et vérifie f β (0) > 0.(iii) La fonction f β vérifie ‖f β ‖ 2 = 1.(iv) Soit (Q 1,1 (β)) le problème d’optimisation, dual de (P 1,1 (β)),(Q 1,1 (β)) infg∈Σ(β,1)g(0)=1‖g‖ 2 .Alors f β est solution de (P 1,1 (β)) si et seulement si la solution de (Q 1,1 (β)) est, pourt ∈ R,g β (t) = 1)f β (0) f β((f β (0)) 1 β t .(v) La fonction g β vérifie∫Rg β (t)dt =2β ∫g2β + 1β(t)dt.2RLes propriétés (i) et (ii) sont montrées dans Leonov (1997). Les propriétés (iii) et (iv)se démontrent de la même façon que (iii) et (iv) dans la démonstration de la Proposition5.7. La propriété (v) a été prouvée par Leonov (1999).La fonction f β n’est pas connue excepté pour β ∈]0,1] et β = 2. On a la propositionsuivante.Proposition 5.3. (i) Pour 0 < β ≤ 1, la solution de (P 1,1 (β)) est la fonction f β définieparf β (t) = λ β (1 − λ −1β |t|β ) + , t ∈ R,où( ) β(2β + 1)(β + 1)2β+1λ β = f β (0) = E β (1,1) =.4β 2(ii) Pour β = 2, la solution de (P 1,1 (β)) est la fonction f β définie parf β (t) = θ −2/5 g β (θ −2/5 t),où g β est la solution du problème (Q 1,1 (β)) et satisfaitg β (t) =∞∑j=0[(−1) j q j + 1 2 (−1)j+1 (t − t 2j ) 2 ]I {t∈[t2j−1 ,t 2j+1 ]},q = 1 16(3 + √ √33 − 26 + 6 √ 233),θ = 2(23q2 − 14q + 23) √ 1 + q,30(1 − q 5/2 )t −1 = t 0 = 0, t 1 = √ 1 + q et pour j ∈ N ∗ , t 2j = 2 √ 1 + q ∑ j−1i=0 qi/2 , t 2j+1 =t 2j + q j/2√ 1 + q.


72 Optimal recovery et estimation statistiqueLa preuve de (i) appartient à Korostelev (1993) ou bien s’obtient à partir de la Proposition5.8 donnée au Paragraphe 5.2.2. La solution pour β = 2 est donnée dans Fuller(1960) (cf. aussi Leonov (1997), Lepski and Tsybakov (2000)).Ce qui précède permet d’évaluer l’erreur minimax. De plus, la solution f β de (P 1,1 (β))permet d’obtenir les algorithmes optimaux (cf. par exemple Donoho (1994a) ou Lepskiand Tsybakov (2000) pour une démonstration détaillée).Proposition 5.4. Soit β > 0. Si f β est la solution de (P 1,1 (β)) alors ∫ R f β(t)dt > 0 etˆT 1,β (y) = ∫ R K β(t)y(t)dt, avecK β (t) =f β (t)∫R f β(u)du ,est un algorithme optimal pour le problème d’approximation de f(0) avec ε = 1 et L = 1.Démonstration. Prouvons tout d’abord que ∫ R f β(t)dt > 0. On poseF 0 = {f ∈ C(β,1), f(0) = f β (0)} .Si f ∈ F 0 , alors nécessairement on a ∫ f 2 (t)dt ≥ ∫ ∫f 2 R R β (t)dt. En effet, si on avaitf 2 (t)dt < 1, alors f serait une solution de (PR 1,1 (β)) telle que ‖f‖ 2 < 1, ce qui estimpossible d’après le point (iii) de la Proposition 5.2. Soit u ∈]0,1] et f ∈ F 0 , alors, parconvexité de F 0 , uf + (1 − u)f β appartient à F 0 et donc(∫∫ )1(uf(t) + (1 − u)f β (t)) 2 dt − fuβ(t)dt2 ≥ 0. (5.5)RREn développant et en faisant tendre u vers 0 dans la relation (5.5), on déduit que, pourtout f ∈ F 0 ,∫∫f(t)f β (t)dt ≥ fβ(t)dt 2 = 1. (5.6)On poseRF 1 = {f ∈ Σ(β,1), f(0) = f β (0)} .Puisque f β est à support compact, si une fonction appartient à F 1 alors elle coïncide surle support de f β avec une fonction de F 0 . D’où pour tout f ∈ F 1 , on a∫∫f(t)f β (t)dt ≥ fβ(t)dt 2 = 1. (5.7)RLa fonction f, définie par f ≡ f β (0) appartient à F 1 , donc∫ ∫f β (0) f β (t)dt ≥ fβ(t)dt 2 = 1. (5.8)ROn déduit donc que ∫ R f β(t)dt > 0 puisque f β (0) > 0 d’après la Propososition 5.2.RRR


5.2. Application au problème d’approximation d’une fonction Hölderienne 73Montrons maintenant que ˆT 1,β est un algorithme optimal. Ceci est une conséquencedu Théorème 5.3 et des deux propriétés suivantes‖K β ‖ 2 = ˆT 1,β (f β ) (5.9)∣max ∣f(0) − ˆT ∣1,β (f) ∣ = max ∣f(0) − ˆT 1,β (f) ∣ = f β (0) − ˆT 1,β (f β ) (5.10)f∈Σ(β,1)f∈C(β,1)La relation (5.9) vient du fait que ‖f β ‖ 2 = 1. En effet, on a∫ˆT 1,β (f β ) = ∫ f 2 R β (t)dtf R β(t)dt = 1∫R f β(t)dt = ‖K β‖ 2 .Prouvons (5.10). Soit f ∈ Σ(β,1). La fonction g définie, pour t ∈ R, par g(t) = f β (0) −f(t) + f(0), appartient à F 1 . En appliquant (5.7), on obtient que ∫ f R β(t)g(t)dt ≥ 1 etdonc∫∫f β (t)(f(t) − f(0))dt ≤ f β (0) f β (t)dt − 1.RDe même, la fonction h(·) = f β (0) + f(·) − f(0) appartient à F 1 et donc (5.7) impliqueque∫∫f β (t)(f(t) − f(0))dt ≥ 1 − f β (0) f β (t)dt.RRPuisque f β (0) ∫ f R β(t)dt − 1 ≥ 0 d’après (5.8), on a que∫∫sup∣ f β (t)(f(t) − f(0))dt∣ ≤ f β(0)f∈Σ(β,1)RRRf β (t)dt − 1. (5.11)La fonction f(·) = (f β (0)−f β (·)) appartient à Σ(β,1) et vérifie ∣ ∣ ∫ R f β(t)(f(t) − f(0))dt ∣ ∣ =f β (0) ∫ R f β(t)dt − 1, donc on a finalementsupf∈Σ(β,1)∫f R β(t)(f(t) − f(0))dt∣∫f R β(t)dt ∣ =supf∈Σ(β,1)= supf∈C(β,1)la dernière égalité venant du fait que f β ∈ C(β,1) ⊂ Σ(β,1).∣∣f(0) − ˆT 1,β (f) ∣ = f β (0) − ˆT 1,β (f β )∣∣f(0) − ˆT 1,β (f) ∣ ,Problème d’approximation de f(0) pour ε et L quelconques.On connait en fonction de f β la solution du problème (erreur minimax et algorithme optimal)pour ε = 1 et L = 1 grâce aux Propositions 5.3 et 5.4. Il suffit donc d’utiliserla Proposition 5.1 pour trouver, en fonction de f β , l’erreur minimax du problème et unalgoritme optimal pour ε > 0 et L > 0 quelconques.


74 Optimal recovery et estimation statistique• Approximation en norme L ∞ .Un point intéressant est que le noyau K β n’est pas seulement optimal pour le problèmed’approximation de f en 0, mais il l’est aussi pour celui de l’approximation de la fonctionf en norme L ∞ . Supposons maintenant que V = L ∞ (R) et on pose ‖f‖ ∞ = sup x∈R |f(x)|.On a le résultat suivant.Proposition 5.5. Soit β > 0, L > 0 et ε > 0. On ainf̂Tsup ‖ ̂T − f‖ ∞ =f∈C(β,L)‖f−y‖ 2 ≤εsup ‖ ˆf − f‖ ∞ = E β (ε,L),f∈C(β,L)‖f−y‖ 2 ≤εoù l’infimum est pris sur tous les algorithmes ˆT et∫ ( )1 u − tˆf(t) =h K β y(u)du, t ∈ R,havec h = ( ) 2ε 2β+1et KLβ est donné dans la Proposition 5.4.RDémonstration. A partir des observations (5.1), on définit, pour t ∈ R,ỹ(u) = g(u) + z(u + t), u ∈ R,avec g(u) = f(u + t) et ỹ(u) = y(u + t). On a, par l’invariance par translation de la classeΣ(β,L) et de la norme L 2 , pour tout t ∈ R,sup ∣ ˆf(t) − f(t) ∣ = sup ∣ ˜f(0) − g(0) ∣ = E β (ε,L),f∈C(β,L)g∈C(β,L)‖f−y‖ 2 ≤ε‖g−ỹ‖ 2 ≤εoù ˜f(0) = ∫ 1K h β( u )ỹ(u)du. On en déduit que pour tout t ∈ R et pour toute fonctionhf ∈ C(β,L) telle que ‖f − y‖ 2 ≤ ε,∣ ˆf(t) − f(t) ∣ ≤ E β (ε,L),ce qui impliquesup ‖ ˆf − f‖ ∞ ≤ E β (ε,L).f∈C(β,L)‖f−y‖ 2 ≤εMaintenant, en utilisant que pour un algorithme quelconque ̂T , ∣ ̂T (0) − f(0) ∣ ≤ ∥ ̂T − f∥ ,∞en prenant le supremum sur les fonctions f ∈ C(β,L) telles que ‖f − y‖ 2 ≤ ε, puis enprenant l’infimum sur tous les algorithmes ˆT et en utilisant la définition de E(β,L), onobtient le résultat de la proposition.


5.2. Application au problème d’approximation d’une fonction Hölderienne 755.2.2 Cas d’une fonction Hölderienne anisotropeOn dispose des observations {y(t), t ∈ R d } avec d ≥ 1, qui vérifienty(t) = f(t) + εz(t), t ∈ R d , (5.12)où ε > 0, z est une fonction telle que ‖z‖ 2 ≤ 1, f est une fonction inconnue appartenantàC ani (β,L) Σ ani (β,L) ∩ {f : R d → R,‖f‖ 2 < ∞}où ‖f‖ 2 = (∫ f 2 (t)dt ) 1/2R , β = d (β1 , . . . ,β d ) ∈]0, + ∞[ d tel que ⌊β i ⌋ = ⌊β j ⌋ pour i,j ∈{1, . . . ,d}, L = (L 1 , . . . ,L d ) ∈]0,∞[ d et la classe Σ ani (β,L) est donnée dans la définitionsuivante.Définition 5.3. Soit β = (β 1 , . . . ,β d ) ∈]0, + ∞[ d tel que ⌊β i ⌋ = ⌊β j ⌋ l pour i,j ∈{1, . . . ,d} et L = (L 1 , . . . ,L d ) ∈]0, + ∞[ d . On définit la classe de Hölder anisotrope multidimensionnelleΣ ani (β,L) comme l’ensemble des fonctions f de classe C l sur R d quivérifientd∑|f(b) − P l (f)(b − a,a)| ≤ L i |b i − a i | β i,où a = (a 1 , . . . ,a d ),b = (b 1 , . . . ,b d ) ∈ R d et P l (f)(x,a) est le polynôme de Taylor d’ordre lassocié à f au voisinage de a.• Approximation en un point fixé.Notre but est d’approcher, dans un premier temps, la fonctionnelle linéaire f(0, . . . ,0) =f(0), de trouver l’erreur minimax et un algorithme optimal. On notera par la suite0= (0, . . . ,0) et 1= (1, . . . ,1). Notre démarche sera identique à celle du paragraphe précédent.De la même façon, on aEβani (ε,L) inf̂T= infsupf∈C ani (β,L)‖f−y‖ 2 ≤εK∈L 2 (R d ) f∈C ani (β,L)‖f−y‖ 2 ≤ε= infK∈L 2 (R d ){∣ ̂T (y) − f(0)supsupf∈C ani (β,L)i=1∣ =supf∈Σ ani (β,L)‖f‖ 2 ≤ε∫∣ K(t)y(t)dt − f(0)∣R df(0)∫}∣ K(t)f(t)dt − f(0)∣ + ε‖K‖ 2 .R dOn définit le problème d’optimation (Pε,L ani (β)) de la façon suivante(P aniε,L (β))supf∈Σ ani (β,L)‖f‖ 2 ≤εf(0).


76 Optimal recovery et estimation statistiqueRenormalisation.On peut mettre en évidence les propriétés de renormalisation suivantes.Proposition 5.6. Soit β ∈]0, + ∞[ d .(i) Pour L ∈]0, + ∞[ d et ε > 0, on aoù β =( ∑di=1E aniβ) −11β iet L∗ =(ε,L) = E aniβ( ∏d)i=1 L1/β iβ.i(1,1)L 1/(2β+1)∗ ε 2β/(2β+1) ,(ii) Si ˆT 1,β = ∫ KR d β (t)y(t)dt est un algorithme optimal pour le problème d’approximationde la fonctionnelle f(0) avec ε = 1, L = 1 et K β ∫∈ L 2 (R d ), alors ˆT ε,β =KR d h,β (t)y(t)dt avec(1 t1K h,β (t 1 , . . . ,t d ) = ∏ di=1 h K β , . . . , t )dih 1 h d( )εet h i =r L 1−r1β∗ iL iest un algorithme optimal pour le problème d’approximation dela fonctionnelle f(0) pour ε > 0 et L = (L 1 , . . . ,L d ) ∈]0, + ∞[ d .Démonstration.(i) Soient L = (L 1 , . . . ,L d ) ∈]0, + ∞[ d et ε > 0. Si f vérifie les conditions f ∈ Σ ani (β,1)et ‖f‖ 2 ≤ 1, alors g(t) = af(b 1 t 1 , . . . ,b d t d ), avec a et b = (b 1 , . . . ,b d ) satisfaisantε = ad∏i=1b −1/2i , (5.13)L i = ab β ii , i = 1, . . . ,d, (5.14)vérifie les conditions g ∈ Σ ani (β,L) et ‖g‖ 2 ≤ ε. Puisque g(0) = af(0), ceci impliqueque Eβani (ε,L) ≥ aEani β (1,1).De la même manière, si g vérifie les conditions g ∈ Σ ani (β,L) et ‖g‖ 2 ≤ ε alorsf(t) = a −1 g(b −11 t 1 , . . . ,b −1d t d), avec a et b = (b 1 , . . . ,b d ) définis en (5.13) et (5.14),vérifie les conditions f ∈ Σ ani (β,1) et ‖f‖ 2 ≤ 1 avec L = (L 1 , . . . ,L d ). Ceci impliqueque Eβani(1,1)≥ a−1 Eβani (ε,L). On a alors Eani β (ε,L) = aEani β (1,1). A partir des√ ∏déquations (5.13) et (5.14), on déduit que a vérifie a = εi=1 b i et a ∏ 1/β di=1 b i =∏ di=1 L1/β ii , et donc que a = ε r L 1−r∗ avec r = 2β . 2β+1(ii) On considère de nouvelles observations ỹ(t) = a −1 y(b −11 t 1 , . . . ,b −1dt d), où a et b vérifient(5.13) et (5.14), obtenues à partir des observations (y(t),t ∈ R d ) du modèle(5.12). Doncỹ(t) = g(t) + ˜z(t), t ∈ R d , (5.15)


5.2. Application au problème d’approximation d’une fonction Hölderienne 77où g(t) = a −1 f(b −11 t 1 , . . . ,b −1dt d) et ˜z(t) = εa −1 z(b −11 t 1 , . . . ,b −1dt d). Notons que ‖ỹ −g‖ 2 = ‖˜z‖ 2 ≤ 1 et g ∈ Σ ani (β,1) ∩ L 2 (R d ). On va appliquer la propriété d’optimalitéde ˆT 1,β dans le modèle (5.15). En faisant un changement de variables et en utilisantque b −1i = (a/L i ) 1/β i= h i , on obtient que a ˆT 1,β (ỹ) = ˆT ε,β (y). De plus, on a ag(0) =f(0), d’où on obtient queEβ ani∣(ε,L) ≤ sup ∣f(0) − ˆT ∣ε,β (y) ∣ = a sup ∣g(0) − ˆT 1,β (ỹ) ∣ .f∈C ani (β,L)‖y−f‖ 2 ≤εg∈C ani (β,1)‖ỹ−g‖ 2 ≤1Puisque ˆT 1,ε est optimal, on déduit d’après (i) que :∣a sup ∣g(0) − ˆT 1,β (ỹ) ∣ = aE ani (1,1) = E ani (ε,L).g∈C ani (β,1)‖ỹ−g‖ 2 ≤1Ceci prouve donc queE aniβ (ε,L) = supf∈C ani (β,L)‖y−f‖ 2 ≤εβ∣∣f(0) − ˆT ε,β (y)L’algorithme ˆT ε,β est donc optimal pour le problème d’approximation de f(0) pourε > 0 et L ∈]0, + ∞[ d .β∣ .Problème d’approximation pour ε = 1 et L = 1.On peut montrer plusieurs résultats concernant le problème (P ani1,1 (β)) que l’on donnedans la proposition suivante.Proposition 5.7. Soit β ∈]0,∞[ d .(i) Il existe une unique solution fβani solution du problème (P1,1 ani (β)).(ii) La fonction fβani est symétrique en chacune de ses variables.(iii) La fonction fβani vérifie ‖fβani ‖ 2 = 1 et fβ ani (0) > 0.(iv) Soit (Q ani1,1 (β)) le problème d’optimisation suivant, dual de P1,1 ani (β)),Q ani1,1 (β)) infg∈Σ ani (β,1)g(0)=1‖g‖ 2 .Alors fβani est la solution du problème (P1,1 ani (β)) si et seulement si la solution deQ ani1,1 (β)) est la fonction gβani définie, pour t ∈ R, parg aniβ (t) =f aniβ1(0) f βani((f aniβ (0)) 1β 1 t 1 , . . . ,(f aniβ (0)) 1β d t d). (5.16)


78 Optimal recovery et estimation statistiqueDémonstration. (i) Pour montrer l’existence d’une solution pour le problème P ani1,1 (β),nous allons utiliser le théorème de Weierstrass généralisé (cf Annexe .3). Puisque L 2 (R d )est réflexif, il suffit donc de montrer que ∆ C ani (β,L) ∩ {f ∈ L 2 (R d ) : ‖f‖ 2 ≤ 1} est unfermé faible borné dans L 2 (R d ) et que la fonctionnelle f(0) est faiblement semi-continuesupérieurement. Les fonctionnelles f ↦→ ‖f‖ 2 etf ↦→|f(b) − P l (f)(b − a,a)|sup ∑ d(a,b)∈R d ,a≠b i=1 |b i − a i | β isont convexes et à valeurs finies, donc l’espace ∆ est faiblement fermé (Vainberg (1972)p107, Lemme 8.6). De plus, la fonctionnelle f(0) est concave à valeurs finies, donc elle estsemi-continue supérieurement. Avant de prouver l’unicité, prouvons (iii).(iii) Tout d’abord, si f β est solution de (P1,1 ani (β)) alors nécessairement on a f β (0) > 0.On peut trouver facilement des fonctions f qui vérifient f(0) ≠ 0, f ∈ Σ ani (β,1) et‖f‖ 2 2 ≤ 1. Si f β est solution de (P1,1 ani (β)) avec f β (0) < 0 alors −f β vérifie −f β ∈ Σ ani (β,1),‖ − f β ‖ 2 2 ≤ 1 avec −f β (0) > 0. Donc nécessairement f β (0) > 0.Montrons que si f βest solution de (P ani1,1 (β)) alors nécessairement ‖f β ‖ 2 = 1. Soit f βsolution de (P1,1 ani (β)) telle que ‖f β ‖ 2 = λ < 1. On pose κ = λ − 2β2β+1 . On considère lafonction ˜g β définie pour t ∈ R d , par()t1˜g β (t) = κf βκ , . . . , t d.1/β 1 κ 1/β dCette fonction vérifie ˜g β ∈ Σ ani (β,1), ‖˜g β ‖ 2 2 = κ 2β+1β‖f β ‖ 2 2 = 1 et pourtant ˜g β (0) =κf β (0) > f β (0) > 0, ce qui est impossible puisque f β est solution de (P1,1 ani (β)). Donc sif β est solution de (P1,1 ani (β)) alors nécessairement ‖f β ‖ 2 = 1.(i) Prouvons l’unicité de la solution de (P ani1,1 (β)). Supposons que deux solutionsexistent x 1 et x 2 telles que ‖x 1 − x 2 ‖ 2 > 0. La fonction x ∗ = (x 1 − x 2 )/2 vérifie alors‖x ∗ ‖ 2 2 = 1 2(‖x1 ‖ 2 2 + ‖x 2 ‖ 2 2)−14 ‖x 1 − x 2 ‖ 2 2. (5.17)D’après (iii), on a ‖x 1 ‖ 2 = ‖x 2 ‖ 2 = 1, donc ‖x ∗ ‖ 2 < 1 d’après (5.17). De plus, la fonctionx ∗ vérifie x ∗ ∈ C ani (β,1) et x ∗ (0) = x 1 (0), donc la fonction x ∗ est solution de (P1,1 ani (β)).D’après (iii), ceci est impossible car ‖x ∗ ‖ 2 < 1. Donc il existe une unique solution auproblème (P1,1 ani (β)).(ii) Soit fβani la solution de (P1,1 ani (β)). La fonction t ↦→ fβani (ε 1 t 1 , . . . ,ε d t d ), avec ε i ∈{−1,1}, i = 1, . . . ,d, est aussi solution de (P1,1 ani (β)). Donc, par unicité de la solution de(P1,1 ani (β)), on en déduit que fβani est symétrique en chacune de ses variables.


5.2. Application au problème d’approximation d’une fonction Hölderienne 79(iv) Montrons que si g β est solution de (Q ani1,1 (β)) alors la fonction f β définie parf β (t) = ag β (b 1 t 1 , . . . ,b d t d ), avec a et b = (b 1 , . . . ,b d ) donnés parab β ii = 1, i = 1, . . . ,d (5.18)d∏a b −1/2i ‖g β ‖ 2 2 = 1, (5.19)i=1est solution de (P1,1 ani (β)). En effet, si f β n’est pas solution de (P1,1 ani (β)), alors il existe unefonction ˜f β qui vérifie ˜f β (0) = λf β (0) avec λ > 1, ˜f β ∈ Σ ani (β,1), ‖ ˜f β ‖ 2 2 = 1 d’après (iii).La fonction ˜g β définie par˜g β (t) = 1 (λa ˜ft1β , . . . , t )d,b 1 b dvérifie ˜g β (0) = g β (0) = 1, ˜g β ∈ Σ ani (β,1). De plus, on a ‖˜g β ‖ 2 = λ −1 ‖g β ‖ 2 < ‖g β ‖ 2 , cequi est impossible si g β est solution de (Q ani1,1 (β)). D’où f β est solution de (P1,1 ani (β)). Dela même manière, on a que si f β est solution de (P1,1 ani (β)), alors la fonction g β définie parg β (t) = a −1 g β (b −11 t 1 , . . . ,b −1dt d), avec a et b = (b 1 , . . . ,b d ) donnés par (5.18) et (5.19) estsolution de (Q ani1,1 (β)). En utilisant l’équation (5.18), on déduit que la solution de (Q ani1,1 (β))est donnée par (5.16).On peut trouver explicitement la solution du problème (P1,1 ani (β)) quand β ∈]0,1] d .Proposition 5.8. Pour β = (β 1 , . . . ,β d ) ∈]0,1] d , la solution de (P anif aniβoùetdéfinie parfβani (t) = λ aniβλ aniβoù Γ est la fonction Gamma.()d∑1 − (λ aniβ ) −1 |t i | β ii=1= fβani (0) = Eβ ani (1,1) =(+∏α = 2d di=1 Γ(1/β i)Γ(1/β) ∏ di=1 β ,i1,1 (β)) est la fonction, t = (t 1 , . . . ,t d ) ∈ R d (5.20)2αβ 3(2β + 1)(β + 1)) −β2β+1Démonstration. Nous allons utiliser le résultat (iv) de la Proposition 5.7. Montrons quela solution de (Q ani1,1 (β)) pour β ∈]0,1] d est la fonction()g aniβ (t) =1 −d∑|t i | β ii=1+, t = (t 1 , . . . ,t d ) ∈ R d . (5.21)


80 Optimal recovery et estimation statistiqueTout d’abord, elle vérifie gβani (0) = 1 et gani β ∈ Σ ani (β,1). Par ailleurs si une autre fonction˜g vérifie ˜g(0) = 1 et ˜g ∈ Σ ani (β,1) alors ˜g(t) ≥ ˜g(0) − ∑ di=1 |t i| β i= 1 − ∑ di=1 |t i| β i. On aalorsd∑˜g(t) ≥ gβ ani (t), pour t = (t 1 , . . . ,t d ) ∈ R d tel que |t i | β i≤ 1.Ceci implique que∫‖˜g‖ 2 2 ≥∆˜g 2 ≥ ‖g aniβ ‖ 2 2où ∆ = {t = (t 1 , . . . ,t d ) ∈ R d tel que ∑ di=1 |t i| β i≤ 1}. Donc gβani est solution de (Q ani1,1 (β))pour β ∈]0,1] d .La fonction fβani (t) = agβani(b1t 1 , . . . ,b d t d ) est donc solution de (P1,1 ani (β)) pour β ∈]0,1] det a et b définis en (5.18) et (5.19). Identifions ces coefficients. D’après les Lemmes 3.1 ou3.3 du Chapitre 3, on a ‖g aniβ ‖2 2 =2αβ 3. On obtient par un calcul similaire à celui(2β+1)(β+1)de la preuve (ii) de la Proposition 5.6 que a = ‖gβani2 = fβani (0) et que b i = a − 1 β i . Laproposition est ainsi démontrée.De plus, la solution f aniβ2β‖− 2β+1de (P ani1,1 (β)) permet d’obtenir les algorithmes optimaux du problèmed’approximation de la fonctionnelle f(0).Proposition 5.9. Soit β ∈]0,1] d ani. L’algorithme ˆTK aniβ (t) =i=11,β = ∫ K aniR d β (t)y(t)dt, avecfβani (t)∫f aniR d β(u)du ,et fβani la fonction définie en (5.20), est un algorithme optimal pour le problème d’estimationde la fonctionnelle f(0), avec ε = 1 et L = 1.Démonstration. Ceci est une conséquence du Théorème 5.3 et des relations suivantes‖K aniβˆTani1,β (f ani‖ 2 = ∣max ∣f(0) −f∈Σ ani (β,1)β ), (5.22)∣ani1,β (f) ∣ = max ∣f(0) − ˆT 1,β (f) ∣ = fβani ani(0) − ˆT 1,β (fβ ani ). (5.23)ˆTanif∈C ani (β,1)Ces deux relations se montrent de la même façon que dans la preuve de la Proposition 5.4.On utilise en particulier que, pour β ∈]0,1] d , la fonction fβani est à support compact pourprouver la relation (5.23).Problème d’approximation pour ε et L quelconques.Comme précedemment les Propositions 5.8 et 5.9 donnent la solution du problème d’approximationde la fonctionnelle f(0) pour ε = 1, L = 1 et β ∈]0,1] d . Il suffit d’utiliserla Proposition 5.6 pour obtenir l’erreur minimax et un algorithme optimal pour ε > 0


5.3. Lien entre l’optimal recovery et l’estimation statistique en norme L ∞ 81et L ∈ R d quelconques, et β ∈]0,1] d . Pour β ∈]0, + ∞[ d , ε > 0 et L ∈ R d quelconques,la Proposition 5.6 donne en fonction de fβani la valeur de l’erreur minimax. En prouvantla compacité de la fonction fβani pour β ∈]0, + ∞[ d , on obtiendrait que le résultat de laProposition 5.9 est vrai pour β ∈]0, + ∞[ d , ce qui fournirait un algorithme optimal pourle problème d’approximation de f(0).• Approximation en norme L ∞ .De la même façon qu’au cas unidimensionnel, le noyau Kβani n’est pas seulement optimalpour le problème d’approximation de la fonctionnelle f(0), mais il l’est aussi pourcelui de l’approximation de la fonction f en norme L ∞ . Ainsi on a le résultat suivant.Proposition 5.10. Soit β ∈]0,1] d . On ainf̂Tsupf∈C ani (β,L)‖f−y‖ 2 ≤ε‖ ̂T − f‖ ∞ =supf∈C ani (β,L)‖f−y‖ 2 ≤ε‖ ˆf − f‖ ∞ = Eβani (ε,L),où ‖f‖ ∞ = sup x∈R d |f(x)| et ˆf(t) = ∫ R d K h,β (u−t)y(u)du pour t ∈ R d , avec K h,β construità partir de K aniβ (Proposition 5.9) comme dans la Proposition 5.6.Démonstration. On raisonne comme dans la Proposition 5.5.5.3 Lien entre l’optimal recovery et l’estimation statistiqueen norme L ∞Nous mettons en évidence dans ce paragraphe que certains résultats d’O.R. démontrésdans le Paragraphe 5.2 peuvent servir à obtenir les estimateurs statistiques à noyau optimauxet la constante exacte pour l’estimation en norme L ∞ (cf. Donoho (1994a)). Nousconsidérons le modèle de bruit blanc Gaussien qui est une version aléatoire du modèle(5.1).Supposons qu’on dispose des observations (Y t ) t∈R qui vérifientdY t = f(t)dt + 1 √ ndW t , t ∈ R, (5.24)où f ∈ Σ(β,L) avec β > 0 et L > 0 et W t est un mouvement Brownien standard sur R.On s’intéresse à l’estimation de la fonction f sur [0,1] à partir des observations (Y t ) t∈Ret on pose ‖f‖ ∞ = sup x∈[0,1] |f(x)|. On mesure la qualité d’un estimateur ˆθ n par le risquemaximum sur Σ(β,L) défini parR(ˆθ n ) =sup E f[wf∈Σ(β,L)(‖ˆθ n − f‖ ∞ψ n)],


82 Optimal recovery et estimation statistiqueoù w est une fonction de perte continue croissante majorée par un polynôme et telle) βque w(0) = 0 et ψ n = ( log n 2β+1est la vitesse de convergence minimax sur Σ(β,L)n(cf.Ibragimov and Hasminskii (1981)). On s’intéresse à l’asymptotique du risque minimaxquand n → ∞ et à trouver les estimateurs statistiques à noyau optimaux.Considérons un estimateur à noyau défini pour t ∈ [0,1] parˆf K,h (t) = 1 ∫ ( ) u − tK dY u ,h hRavec K ∈ L 2 (R) et h > 0. Le biais de cet estimateur, pour f ∈ Σ(β,L) et t ∈ [0,1], estdonné par[ ]b K,h (f,t) = E f ˆfK,h (t) − f(t).NotonsB K,h =sup ‖b K,h (f,·)‖ ∞ .f∈Σ(β,L)Soit Z K,h la partie stochastique de l’erreur de ˆf K,h , définie pour t ∈ [0,1] parZ K,h (t) = ˆf[ ]K,h (t) − E f ˆfK,h (t) = 1 ∫ ( ) u − th √ K dW u .n R hProposition 5.11. On aB K,h = sup ‖b K,h (f)‖ ∞ = sup∣ f(0) − 1 ∫ ( u K f(u)duf∈Σ(β,L)f∈Σ(β,L) h R h)∣∫= Lh β sup∣ f(0) − K(u)f(u)du∣ .f∈Σ(β,1)Cette proposition est une conséquence des propriétés de l’invariance par translation dela classe Σ(β,L) et de la norme L ∞ et se démontre de la même façon que la Proposition5.5. De plus, en appliquant le Lemme 3.4 de l’annexe du Chapitre 3 au processus √ hZ ε K,hon obtient la proposition suivante.Proposition 5.12. Le processus Z K,h vérifielimh→0 P fpour tout 0 < δ < 1/2.[‖Z K,h ‖ ∞ >√ ε√ ]‖K‖ 2 (1 + δ) 2 log 1 = 0h hÉtant donné qu’on veut trouver les estimateurs à noyau optimaux, étudions la quantitéinfK∈L 2 (R)h>0RR( ˆf K,h ). (5.25)


5.3. Lien entre l’optimal recovery et l’estimation statistique en norme L ∞ 83Puisque la vitesse de convergence minimax sur Σ(β,L) est atteinte par des estimateurs ànoyau de pas d’estimation h de l’ordre τ n = ψ 1 βn , il suffit de prendre, dans la relation (5.25)l’infimum sur les h de cet ordre. Soit K ∈ L 2 (R) et h de l’ordre de τ n . Soit 0 < δ < 1/2.En raisonnant comme dans les démonstrations de bornes supérieures des Chapitres 2 et3 et en utilisant les Propositions 5.11 et 5.12, on a que, quand n → ∞,( {R( ˆf (1 + δ)K,h ) ≤ wsupψ n∣ f(0) − 1 ∫ ( t K f(t)dth h)∣ + √ 1√ })‖K‖ 2 2 log 1 +o(1).nh h√2f∈Σ(β,L)√La quantité log 1 est alors de l’ordre de n halors que, quand n → ∞,( {R( ˆf (1 + δ)K,h ) ≤ wsupψ n∣ f(0) − 1 ∫hf∈Σ(β,L)R22β+1Rlog nnOn a la proposition suivante.Proposition 5.13. Soit β > 0 et L > 0. On a{inf supK∈L 2 (R)∣ f(0) − 1 ∫K(t/h)f(t)dtf∈Σ(β,L) h∣ +Rh>0= sup∣ f(0) − 1 ∫K β (t/h β )f(t)dth β∣ +f∈Σ(β,L)R. Posons ˜ε = √22β+1log n, on obtientn( })t K f(t)dth)∣ + √ ˜ε ‖K‖ 2 + o(1).h}√ ˜ε ‖K‖ 2hoù h β = (˜ε/L) 2/(2β+1) , K β est défini dans la Proposition 5.4 et( ) βC 0 (β) = L 12β+122β+1Eβ (1,1).2β + 1˜ε √hβ‖K β ‖ 2 = E β (˜ε,L) = C 0 (β)ψ n ,(5.26)Démonstration. D’après le Paragraphe 5.2, l’algorithme ˆT˜ε,β (y) = 1h β∫R K β(t/h β )y(t)dt,où h β = (˜ε/L) 2/(2β+1) et K β est le noyau défini dans la Proposition 5.4, est un algorithmeoptimal pour le problème d’approximation de la fonctionnelle f(0) dans le modèle (5.1)avec ε = ˜ε. Donc, d’après le Théorème 5.3, on aE β (˜ε,L) =supf∈C(β,L)1∣h β∫R( )tK β f(t)dt − f(0) ∣h β∣ +˜ε √hβ‖K β ‖ 2 .Si une fonction appartient à Σ(β,L), alors elle coïncide sur le support de K β (·/h β ) et en0 avec une fonction de C(β,L), donc( )E β (˜ε,L) = sup1 t∣ K β f(t)dt − f(0)h β∣ + √ ˜ε ‖K β ‖ 2 .hβf∈Σ(β,L)h β∫R


84 Optimal recovery et estimation statistiqueOr, on aAinsi on aE β (˜ε,L) =infK∈L 2 (R)= infK∈L 2 (R)≤≤infK∈L 2 (R)h>0h>0infK∈L 2 (R)h>0supf∈Σ(β,L){sup{{{1∣f∈Σ(β,L)supf∈C(β,L)supf∈C(β,L)supf∈Σ(β,L)h β∫R∫1∣h∫∣R∫1∣h}K(t)f(t)dt − f(0)∣ + ˜ε‖K‖ 2R}K(t/h)f(t)dt − f(0)∣ + √ ˜ε ‖K‖ 2h∫1∣hR( )tK β f(t)dt − f(0) ∣h β= ˜ε 2β2β+1 L1− 2β2β+1 Eβ (1,1) = ψ n C 0 (β),R}K(t/h)f(t)dt − f(0)∣ + √ ˜ε ‖K‖ 2h∣ +˜ε √hβ‖K β ‖ 2 = E β (˜ε,L).} K(t/h)f(t)dt − f(0)∣ + √ ˜ε ‖K‖ 2 = E β (˜ε,L)hoù la dernière égalité est une conséquence de la Proposition 5.1. On en déduit le résultatde la proposition.La Proposition 5.13 implique qu’il faut prendre K = K β et h = h β pour minimiser lemembre de droite de (5.26) et laisse penser que l’estimateur ˆf Kβ ,h βest un estimateur ànoyau optimal. Par ailleurs la Proposition 5.13 implique la borne supérieure suivante:lim supn→∞infK∈L 2 (R)h>0R( ˆf K,h ) ≤ lim sup R( ˆf Kβ ,h β) ≤ w(C 0 (β)), (5.27)n→∞puisque, dans (5.26), δ peut être choisi arbitrairement petit. On peut démontrer la borneinférieure suivante:lim inf R( ˆθ n ) ≥ w (C 0 (β)) , (5.28)ε→0 θˆnoù inf ˆθndésigne cette fois l’infimum sur tous les estimateurs (cf. aussi Donoho (1994a)).Ceci se fait en utilisant le même type de démonstration de borne inférieure qu’aux Chapitres2 et 3 en faisant la réduction à une sous-classe de fonctions construites à partir def β (cf. Remarque dans les préliminaires du Paragraphe 2.3.2 ). Ainsi ˆfKβ ,h βest asymptotiquementexact parmi tous les estimateurs et optimal parmi les estimateurs à noyau.De plus, on obtient que la constante exacte C 0 (β) et l’estimateur ˆf Kβ ,h βdépendent de lafonction f β .Pour 0 < β ≤ 1, en utilisant la valeur de E β (1,1) obtenue dans la Proposition 5.3, ontrouve une valeur explicite de C 0 (β)( ( ) ) 1β 2β+1β + 1C 0 (β) = L,2β 2


5.3. Lien entre l’optimal recovery et l’estimation statistique en norme L ∞ 85qui est la même que celle obtenue par Korostelev (1993) pour σ = 1 ou celle obtenue auChapitre 2 pour σ = 1 et µ 0 = 1.On peut faire un raisonnement similaire pour l’estimation en norme L ∞ dans le modèledY t = f(t)dt + 1 √ ndW t , t ∈ R d ,où d > 1, f appartient à la classe de Hölder anisotrope Σ ani (β,L) avec β = (β 1 , . . . ,β d ) ∈]0,1] d et L = (L 1 , . . . ,L d ) ∈ R d et W est un champ Brownien standard. De la même façon,en utilisant en particulier que la fonction fβani est compacte, on obtient que la constanteexacte et un estimateur asymptotiquement exact dépendent de fβani . On trouve commeconstante exacte C 0 (β) oùC 0 (β) =⎛ ( ) ⎞ ββ + 1⎝L ∗⎠αβ 3(la même constante obtenue dans le Théorème 3.1 avec σ = 1), où β = ( ∑ d 1i=1 β i) −1 ,12β+1,etL ∗ =( d∏i=1L 1/β jj) β,∏α = 2d di=1 Γ( 1 β i)Γ( 1 ) ∏ dβ i=1 β .iOn obtient comme estimateur asymptotiquement exact, l’estimateur∫ (1ˆf β (t) = ∏ di=1 h K ani ti − u 1β , . . . , t )d − u ddY u , t ∈ [0,1] di R h d i h doù K aniβ est défini dans la Proposition 5.9,√et ˜ε =22β+1log nn .⎛h i = ⎝2β 1˜ε2β+1 L2β+1∗L iPour faire un raisonnement similaire pour β ∈]0, + ∞[ d , une première possibilitéconsiste à prouver que fβani est une fonction à support compact. Si ceci était vrai, on devraitalors obtenir les mêmes résultats que pour β ∈]0,1] d . Une autre possibilité consiste⎞⎠1/β i


86 Optimal recovery et estimation statistiqueà adapter la méthode utilisée par Lepski et Tsybakov (2000) au cas multidimensionnel.Ces auteurs considèrent un problème d’optimisation du typesup f(0),f∈Σ(β,1)∫ D−D f 2 ≤1qui admet une solution f β,D . Ils construisent, dans le modèle (5.24), des tests asymptotiquementminimax ˆT n à partir f β,Dn I [−Dn ,D n ] (qui est à support compact) avec lim n→∞ D n =∞.On a mis en évidence, comment on a choisi dans les chapitres précédents les noyaux desestimateurs utilisés pour obtenir des résultats de bornes supérieures. L’approche qu’ona adopté ici pour l’estimation en norme L ∞ de fonctions Hölderiennes peut être utiliséepour l’estimation en norme L ∞ sur d’autres classes de fonctions.5.4 Etudes des constantes• Etude de la constante C 0 (β) =(L( ) ) 1β 2β+1β+12β pour β ∈]0,1].2Pour β ∈]0,1], on a L 12β+1≤ max (1,L). Le graphique suivant représente la valeur de( ) ββ+1 2β+1f(β) =en fonction de β ∈]0,1].2β 2f(beta)2.01.91.81.71.61.51.41.31.21.11.00.90.80.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0betaLa fonction f(β) est toujours comprise entre 1 et 1.5 et admet 1 comme limite en 0.• Etude de la constante C 0 (β) =Pour β ∈]0,1] 2 , on a L12β+1∗( ) ) 1β 2β+1β+1(L ∗ pour β ∈]0,1] 2 .αβ 3≤ max (1,L 1 ,L 2 ), où L = (L 1 ,L 2 ). Le graphique suivant repré-


5.4. Etudes des constantes 87sente la valeur de f(β) =( ) ββ+1 2β+1αβ 3en fonction de β = (β 1 ,β 2 ) ∈]0,1] 2 .f(beta1,beta2)2.501.250.000.00.00.50.5beta21.01.0beta1La fonction f(β) est comprise entre 1 et 2.1 sur ]0,1] 2 privé du voisinage de ]0,0.01] 2 . Ona les comportements suivants :– Pour β 2 > 0, lim β1 →0 f(β 1 ,β 2 ) = 1.– Pour β 1 > 0, lim β2 →0 f(β 1 ,β 2 ) = 1.– Quand (β 1 ,β 2 ) → (0,0), la limite de f(β 1 ,β 2 ) dépend de la façon dont β 1 et β 2tendent vers 0.


Chapitre 6Sharp adaptive estimation in sup-normfor d-dimensional Hölder classes6.1 IntroductionMinimax adaptive estimation of a non-parametric function f from noisy data is the subjectof many papers. Assuming that f belongs to a smoothness class Σ β , where β is anunknown smoothness parameter, the aim is to find an estimator of f independent of βand which attains asymptotically optimal behaviour on all the classes Σ β , for β givenin a known set B. In this Chapter, we study the problem of adaptive estimation in theGaussian white noise model in sup-norm, assuming that the function f satisfies a Höldercondition. We observe { Y t , t ∈ R d} , where Y t is a random process defined by the stochasticdifferential equationdY t = f(t)dt + √ σ dW t , t ∈ R d , (6.1)nwhere f is an unknown function, n ∈ N, σ > 0 is known and W is a standard Browniansheet on [0, 1] d . We want to estimate the function f on R d given a realizationy = { Y t , t ∈ R d} . We suppose that f belongs to a d-dimensional anisotropic Hölderclass Σ(β, L) where L = (L 1 , . . . , L d ) ∈ (0, +∞) d is known, β = (β 1 , . . . , β d ) ∈ (0, 1] d isunknown and belongs to a finite set B ⊂ (0, 1] d known. The class Σ(β, L) is defined byΣ(β, L) = { f : R d → R : |f(x) − f(y)| ≤ L 1 |x 1 − y 1 | β 1+ · · · + L d |x d − y d | β d, x, y ∈ R d} ,where x = (x 1 , . . . , x d ) and y = (y 1 , . . . , y d ). In the following, P f is the distribution of yunder the model (6.1) and E f is the corresponding expectation. An estimator θ n of f is arandom function on [0, 1] d taking its values in R, measurable with respect to y. We willevaluate the quality of an estimator θ n by the maximal risk in sup-norm on BR n (θ n ) = supsupβ∈B f∈Σ(β,L)E f{( ‖θn − f‖ ∞ψ n (β)) p }, (6.2)88


6.1. Introduction 89(where ‖g‖ ∞ = sup t∈[0,1] d |g(t)|, p > 0 and ψ n (β) has the form ψ n (β) = C log n) β2β+1 β forn( ∑d) −1,β = (β 1 , . . . , β d ) ∈ B, β =i=1 1/β i Cβ being a constant depending on β. Inthe non-adaptive case, i.e. when B contains only one vector, it has been proved thatψ n (β) is the minimax rate of convergence for sup-norm estimation: for d = 1, it was doneby Ibragimov and Hasminskii (1981); for multidimensional case, this fact was shown byStone (1985) and Nussbaum (1986) for isotropic setting (β 1 = · · · = β d ) and in Chapter 3for anisotropic setting considered here. Moreover, there exist results for estimation in L qnorm with q < ∞ on anisotropic Besov classes (Kerkyacharian et al. (2001) ), suggestingsimilar rates but without a logarithmic factor. In an adaptive set-up, Lepski (1992) provedthat ψ n (β) is the adaptive rate of convergence (cf. Tsybakov (1998) for precise definitionof adaptive rate of convergence) for the problem considered here when d = 1.Our goal is to study the asymptotics of the minimax risk in sup-norm on B (i.e. theadaptive minimax risk), in others words to study the asymptotics ofinfθ nR n (θ n ).We want to prove that there exist optimal rate adaptive estimators on the scale of classes{Σ(β, L)} β∈B for the L ∞ norm and to find an estimator ˜f n and the constant C β withψ n (β) = C β( log nn) β2β+1, such that we havelim inf R n (θ n ) = lim R n ( ˜f n ) = 1, (6.3)n→∞ θ nn→∞where inf θn stands for the infimum over all the estimators. To obtain that there existoptimal rate adaptive estimators, it is enough to have that there exist an estimator ˜θ nand a positive constant C such thatlim sup R n (˜θ n ) ≤ C.n→∞An estimator ˜f n that satisfies (6.3) is called asymptotically exact adaptive estimator on thescale of classes {Σ(β, L)} β∈B for the L ∞ norm, and C β is called exact adaptive constant.In the non-adaptive case (cf. Chapter 3), the relation (6.3) is satisfied by a constantC 0 (β) which depends on β, L and σ 2 , and for ˆf β a kernel estimator with kernel close tothe kernel K β . The kernel K β is defined for u = (u 1 , . . . , u d ) ∈ R d byK β (u 1 , . . . , u d ) = β + 1α(β)β 2 (1 −d∑|u i | β i) + ,i=1with∏ α(β) = 2d di=1 Γ( 1 β i)Γ( 1 ) ∏ dβ i=1 β ,i


90 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesΓ denotes the gamma function and (x) + = max(0, x). The constant C 0 (β) satisfiesand⎛C 0 (β) = ⎝σ 2β L ∗ (β)L ∗ (β) =(( d∏i=1) ⎞ ββ + 1⎠α(β)β 3L 1/β jjIn this Chapter, we prove that there exist optimal rate adaptive estimators on{Σ(β, L)} β∈B for the L ∞ norm. We give precise upper and lower bounds for any finite setB. When B contains only two vectors, we improve the upper bound.For particular forms of the set B (including sets B of isotropic classes), we prove itexist an estimator ˜f n and a constant C β satisfying (6.3). The constant C β we have found isequal to the constant C 0 (β)(which was the solution of (6.3) in Chapter 3) multiplied by aconstant larger than 1, depending on the set B and p. As a consequence, for this case, welose efficiency in the constant under adaptation. We will see that the estimator satisfying(6.3) is obtained using the Lepski method. This method is introduced in Lepski (1992)for the problem considered here with d = 1 and it has been studied by many authors.In particular, for d > 1, Klemelä and Tsybakov (2001) have used it for the estimationof linear functionals in isotropic settings. Tsybakov (1998) used this method to studypointwise and sup-norm estimation on Sobolev classes.) β.12β+16.2 Main resultsIn this section, we introduce the notation and the assumptions about the set B, we definethree families of estimators and we give our results.6.2.1 The set BWe suppose that the set B = { β (1) , . . . , β (l)} contains l vectors belonging to (0, 1] d . Thecoordinates of β (i) are denoted by β (i)j , j = 1, . . . , d:β (i) = (β (i)1 , . . . , β (i)d ) ∈ (0, 1]d . (6.4)We define the real β (i) byβ (i) =( d∑j=11β (i)j) −1(6.5)


6.2. Main results 91and we denote by B the set:B ={β (1) , . . . , β (l)} .We suppose that β (i) ≠ β (j) for all i, j ∈ {1, . . . , l} such that i ≠ j. As a consequence,a β ∈ B is matched to a unique β ∈ B via the relations (6.4) and (6.5). We define thefollowing relation of order in B: the vectors β and γ satisfyβ ≤ γ if and only if β ≤ γ.This is a relation of total order in B, thus the notion of maximum and minimum in B arewell-defined. We denote β max = max{β (i) , i = 1, · · · , l} (respectively β min = min{β (i) , i =1, · · · , l}) and β max (respectively β min ) the associated real number in B via (6.5).Remark. In the isotropic setting (i.e. for all β = (β 1 , . . . , β d ) ∈ B, β 1 = · · · = β d ), thisorder is the order β = (β 1 , . . . , β d ) ≤ γ = (γ 1 , . . . , γ d ) if and only if β 1 ≤ γ 1 .6.2.2 Three families of estimatorsHere we define three families of kernel estimators ( ˆf β,1 ) β∈B , ( ˆf β,2 ) β∈B and ( ˆf β,3 ) β∈B . Theyare close to the asymptotically exact estimator of Chapter 3, but the kernel is somewhatdifferent at the boundary. This is a consequence of the fact that the observations hereare for t ∈ R d whereas they were for t ∈ [0, 1] d in Chapter 3. The estimators are definedin the following way. For β ∈ B and j ∈ {1, 2, 3},∫ˆf β,j (t) = K β,j (t − u) dY u ,R ddefined for t = (t 1 , . . . , t d ) ∈ [0, 1] d , where for u = (u 1 , . . . , u d ) ∈ R dK β,j (u) =1h 1,j (β) · · · h d,j (β) K β(u1h 1,j (β) , . . . ,)u d.h d,j (β)For j ∈ {1, 2, 3}, the bandwidth h j = (h 1,j (β), . . . , h d,j (β)) satisfies for i ∈ {1, . . . , d}h i,j (β) =(C β λ j (β)L i( ) ) 1/βi β/(2β+1) log n,nwhere⎧1 for j = 1,⎪⎨ ( )λ j (β) = 2 − 2ββc2 (β) 2β+12β+1c 1for j = 2,(β)⎪⎩2 − 2β2β+1for j = 3,⎛ () ⎞ 1β 2β+1C β = ⎝σ 2β c 1 (β)(β + 1)L ∗ (β)⎠α(β)β 3, (6.6)


92 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesand( λµ(β) = maxλ>β 2λ + 1 −c 1 (β) = 1 + p(β max − β)2β max + 1 ,c 2 (β) = 1 + pµ(β)(2β + 1){ γminγ 0. We have the following lower boundwhich is valid for any finite set B satisfying the conditions of Subsection 6.2.1.Theorem 6.1. The minimax risk in sup-norm on B satisfieslim infn→∞infθ nR n (θ n ) ≥ 1.


6.2. Main results 936.2.4 Exact asymptotics for particular forms of the set BFor β ∈ B and j ∈ {1, 2, 3}, we consider() 1/22‖K β ‖ 2η j (β) =2σ 2 c j (β)n ∏ di=1 h i,j(β)(2β + 1) log n ,where c 3 (β) = c 1 (β). We select the vector ˆβ (p) ∈ B defined by{ˆβ (p) = max β ∈ B : ∀γ < β, ‖ ˆf β,1 − ˆf}γ,1 ‖ ∞ ≤ η 1 (γ)We have the following theorem for particular forms of the set B, which include the setsB of isotropic classes.Theorem 6.2. We suppose that the set B satisfies the property (P ):(P ) For all β = (β 1 , . . . , β d ), γ = (γ 1 , . . . , γ d ) ∈ B, if β ≤ γ then for all i = 1, . . . , dβ i < γ i .Then, the estimator ˜f (p) = ˆf ˆβ(p) ,1is asymptotically exact adaptive, i.e. it satisfies thecondition (6.3) with the constant C β defined in (6.6):lim inf R n (θ n ) = lim R n ( ˜f (p) ) = 1n→∞ θ nn→∞Remark. The estimator ˜f (p) is obtained using the method of Lepski. The constant C β hasthe form of the constant obtained by Lepski (1992) in the case d = 1 where we replace βby β.6.2.5 Upper bounds for anisotropic classesIf the set B does not satisfy Condition (P), Theorem 6.2 is not true anymore. In this subsection,Theorem 6.3 gives an upper bound for any finite set B ⊂ (0, 1] d and Theorem 6.4improves this upper bound when B contains only two vectors.We consider new estimators defined for β and γ ∈ B and t ∈ [0, 1] d by∫ˆf β∗γ,2 (t) = K β∗γ,2 (t − u)dY uwhereK β∗γ,2 = K β,2 ∗ K γ,2 .We consider the vector ˆβ ani ∈ B defined by{ˆβ ani = max β ∈ B : ∀γ < β, ‖ ˆf β∗γ,2 − ˆf}γ,2 ‖ ∞ ≤ η 2 (γ) .


94 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesTheorem 6.3. The estimator ˜f ani = ˆf ˆβani ,2satisfies for p > 0lim supn→∞supsupβ∈B f∈Σ(β,L)where, for j ∈ {2, 3} and β ∈ B,E f{‖ ˜f ani − f‖ p ∞ (ψ n (β)M 2 (β)) −p} ≤ 1, (6.7)( ) β()cj (β) 2β+1 2 1/(2β+1) + β2 2β/(2β+1)M j (β) =.c 1 (β)2β + 1The relation (6.7) imply that ˜f ani is an optimal rate adaptive estimator on {Σ(β, L)} β∈Bfor the L ∞ norm, for any finite set B ⊂ (0, 1] d .For l = 2, we have a better result. We suppose that B = {γ, β} with γ < β. Weconsider a new estimator defined for t ∈ [0, 1] d by∫ˆf β∗γ,1 (t) = K β∗γ,1 (t − u)dY uwhereK β∗γ,1 = K β,1 ∗ K γ,3 .We select the estimator ˜f ani2 defined by{ˆfβ,1 if ‖ ˜f ani2 =ˆf β∗γ,1 − ˆf γ,3 ‖ ∞ ≤ η 3 (γ) or ‖ ˆf β∗γ,1 − ˆf β,1 ‖ ∞ ≥ λ 3(γ)ψ n(γ)(1 + ρ2γ+1 n )otherwise,where ρ nˆf γ,3= ψn((β+γ)/2)ψ n(γ)) λand ψ n (λ), for λ = (λ 1 , . . . , λ d ) ∈ (0, 1] d ∩ B c , is defined by( ∑d) −1.2λ+1with λ =i=1 1/λ i Here B c denotes the complement of the setψ n (λ) = ( log nnB. Then we have the following theoremTheorem 6.4. The estimator ˜f ani2 satisfies for p > 0{lim sup sup E f ‖ ˜f}ani2 − f‖ p ∞ψn−p (β) ≤ 1 (6.8)n→∞f∈Σ(β,L)andlim supn→∞supf∈Σ(γ,L){E f ‖ ˜f}ani2 − f‖ p ∞ψ −p (γ) ≤ (M 3 (γ)) p . (6.9)n6.2.6 Some remarks1. In the model here, we choose to have observations in R d to simplify the calculations.To obtain the results, it is enough to have observations in a neighborhood in [0, 1] d .


6.2. Main results 952. These results can be generalized to others models such regression with regular design.This can be done by following the same proofs with minor modifications.3. In this chapter, we have considered a finite set B such that its cardinality, card(B),does not depend on n. We could have considered a set B such that card(B) growsas n → ∞ and there exists M > 0 such that, for all β ∈ B, β > M. In Theorems6.2 and 6.4, following the same proofs, it is possible to have the same results1taking B such card(B) ≤ (log n)2(2βmax+1)(The last condition is necessary to havelim n→∞ R 1 (β) = 0 in Section 6.5 and the relation (6.49)). A weaker condition ispossible on B. If, for j ∈ {1, 2, 3}, we replace c j (β) by c j (β) + 1 in η log log n j(β), theresults of Theorem 6.2, Theorem 6.3 and Theorem 6.4 can be obtained for B suchthat card(B) ≤ (log n) a with a > 0.4. For d = 1, in the Lepski method, for a given family of estimators ( ˆf β ) β∈B , wechoose ˆβ, the largest β ∈ B ⊂ R + such that ‖ ˆf β − ˆf γ ‖ ∞ ≤ cψ n (γ) for all γ ≤ β,with a constant c > 0. This choice is based on the fact that, if f ∈ Σ(β v , L) andγ ≤ β ≤ β v , the bias of ˆf β − ˆf γ is upper-bounded by a term of order ψ n (γ). Thisproperty is still valid for anisotropic settings when B satisfies Condition (P ), but itdoes not work for general anisotropic settings. Indeed, for anisotropic settings, wedo not have such a property on the bias of ˆf β − ˆf γ and this bias can be very large.Kerkyacharian et al. (2001) give a new criteria which permits to obtain results inanisotropic Besov classes. Rather than comparing ˆf β to ˆf γ for γ ≤ β, they compare,for γ ≤ β, ˆf γ to a kernel estimator ˆf βγ with bandwidth (h 1 (β, γ), . . . , h d (β, γ)) whereh i (β, γ) = max(h i (β), h i (γ)) and (h 1 (β), . . . , h d (β)), respectively (h 1 (γ), . . . , h d (γ)),is the bandwidth of ˆfβ , respectively ˆf γ . This comparison permits to have a newcriteria for selecting ˆβ. In Theorem 6.3 and Theorem 6.4, we use another estimatorˆf β∗γ,j to do this kind of comparison. The different choice of ˆf β∗γ,j is motivated byour goal to have better constants.5. Our results are adaptation with respect to β and we suppose that L is fixedand known. To use our method of estimation, the statistician need to knowL. Here we suppose the statistician does not know L. We suppose that βbelongs to B and L ∈ {L (1) , . . . , L (l) } ⊂]0, +∞[ d . We note for j = 1, . . . , l,L (j) = (L (j)1 , . . . , L (j)d). Our method can be applied to select β ∈ B with˜L = (max j=1,...,d L (j)1 , . . . , max j=1,...,d L (j)d ).6. Theorem 6.2 gives a result of exact estimation. In Theorem 6.3 and in Theorem 6.4in the case f ∈ Σ(γ, L), the difference between the lower bound and the upper boundis the factor (M 2 (β)) p and (M 3 (γ)) p respectively. The following plot represents the


96 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesquantity M 3 (β)(on the vertical axis) as a function of β ∈ (0, 1/2].2.01.91.81.71.61.51.41.31.21.11.00.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50We can see that, for β ∈ (0, 1/2], 1.06 ≤ M 3 (β) ≤ 2 and then it implies that1.06 ≤ 1.06( ) βc2 (β)c 1 (β)2β+1≤ M2 (β) ≤ 2(c2 (β)c 1 (β)) β2β+1.The following sections are devoted to preliminary results and to the proofs of the theorems.6.3 Some preliminary resultsIn the following, D i , with i = 1, 2, . . ., denote positive constants, except otherwise mentioned.These constants can depend on β ∈ B but we do not indicate explicitly thedependence on β. This does not have consequences on the proofs since B is a finite set.The quantity η j (β) satisfies the following lemma which will be proved in Section 6.8.Lemma 6.2. For β ∈ B and j ∈ {1, 2}, we haveη j (β) + jψ n(β)λ j (β)2β + 1= M j (β)ψ n (β),where M 1 (β) = 1. Moreover, for β ∈ B, we haveη 3 (β) + 2ψ n(β)λ 3 (β)2β + 1= M 3 (β)ψ n (β).We have the following results for the families of estimators ( ˆf β,1 ) β∈B , ( ˆf β,2 ) β∈B and( ˆf β,3 ) β∈B .Proposition 6.1. For β ∈ B and j ∈ {1, 2, 3}, we havesupf∈Σ(β,L)‖b β,j (·, f)‖ ∞ ≤ ψ n(β)λ j (β).2β + 1


6.3. Some preliminary results 97Proposition 6.2. For β ∈ B, j ∈ {1, 2, 3} and t ∈ [0, 1] d , we haveand for b ≥ D 0√n˜h j (β)log(˜h j (β)), we haveE f(Z2β,j (t) ) ≤ σ2 ‖K β ‖ 2 2n˜h j (β) ,{}P f [‖Z β,j ‖ ∞ ≥ b] ≤ D 1˜h j (β) exp − b2 n˜h j (β)exp2‖K β ‖ 2 2σ 2where ˜h j (β) = ∏ di=1 h i,j(β).Proposition 6.3. For p > 0, β ∈ B and j ∈ {1, 2, 3}, we havelimsupn→∞ f∈Σ(β,L)lim supn→∞supf∈Σ(β,L)⎧⎨⎩√ ⎫D 2 (β)b n˜h j (β) ⎬(log(˜h j (β))) 1/2 ⎭ ,E f[(‖ ˆf β,j − f‖ ∞ (M j (β)ψ n (β)) −1 ) p ]≤ 1 (6.10)E f[(‖ ˆf β,j − f‖ ∞ ψ −1n (β)) pI{‖ ˆfβ,j −f‖ ∞ ≥(1+ε(n))M j (β)ψ n (β)}]= 0, (6.11)where ε(n) satisfies ε(n) ≥ (log n) −1/4 , and I A denotes the indicator function of a set A.Proposition 6.1, respectively Proposition 6.2, can be obtained following the proof of Proposition3.1, respectively Lemma 3.4, of Chapter 3. The proof of Proposition 6.3 can bededuced from the proofs of Chapter 3 and we add some elements of proof in Section 6.8.Define for t ∈ [0, 1] d , j ∈ {1, 2} and a function f the bias term of ˆf β∗γ,jb β∗γ,j (t, f) = E f ( ˆf β∗γ,j (t)) − f(t),and the stochastic term of ˆf β∗γ,jZ β∗γ,j (t) = ˆf β∗γ,j (t) − E f ( ˆf β∗γ,j (t)) =σ √ n∫K β∗γ (t − u)dW u .The estimator ˆf β∗γ,j satisfies the two lemmas.Lemma 6.3. For β, γ ∈ B, we havesup ‖b β∗γ,2 (·, f) − b γ,2 (·, f)‖ ∞ ≤f∈Σ(β,L)When B = {γ, β} with γ < β we haveandsupf∈Σ(β,L)‖b β,2 (·, f)‖ ∞ ≤ ψ n(β)λ 2 (β).2β + 1sup ‖b β∗γ,1 (·, f) − b γ,3 (·, f)‖ ∞ ≤ sup ‖b β,1 (·, f)‖ ∞ ≤ ψ n(β)f∈Σ(β,L)f∈Σ(β,L)2β + 1sup ‖b β∗γ,1 (·, f) − b β,1 (·, f)‖ ∞ ≤f∈Σ(γ,L)supf∈Σ(γ,L)‖b γ,3 (·, f)‖ ∞ ≤ ψ n(γ)λ 3 (γ).2γ + 1


98 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesLemma 6.4. For β, γ ∈ B such that γ < β and j ∈ {1, 2}, we have for all t ∈ [0, 1] dand for b ≥ D 3√n˜h j (β)log(˜h j (β))E f((Zβ∗γ,j ) 2 (t) ) ≤ σ2 ‖K β ‖ 2 2n˜h j (β) ,{} ⎧ √ ⎫P f [‖Z β∗γ,j ‖ ∞ ≥ b] ≤ D 4˜h j (β) exp − b2 n˜h j (β)⎨ D 5 b n˜h j (β) ⎬exp2‖K β ‖ 2 2σ 2 ⎩(log(˜h j (β))) 1/2 ⎭ . (6.12)Lemma 6.5. Let j ∈ {1, 2, 3}. We have, for γ, β ∈ B such γ < β,limsupn→∞ f∈Σ(β,L)E f{‖Zγ,j ‖ p ∞ψ −pn (β)I {‖Zγ,j ‖ ∞ >τ n,j (γ)}}= 0,whereτ n,j (γ) =() 1/22‖K γ ‖ 2 2σ 2 (1 + pβ max ) log nn ∏ di=1 h .i,j(γ)(2γ + 1)Remark: τ n,j (γ) is of the same order of ψ n (γ).These three lemmas will be proved in Section 6.8.6.4 Proof of Theorem 6.1The proof of the lower bound is similar to the proof of lower bounds in Tsybakov (1998)Thedifficulties consist in finding a good subclass of Σ(β, L) and good parameters to applyTheorem 6 of Tsybakov (1998). We havewhere∆ n = infT nsupsupβ∈B f∈Σ(β,L)∆ n (β) = infT n{E f ‖Tn − f‖ p ∞ψn−p (β) } ≥ max {∆ n(β)},β∈B{sup E f ‖Tn − f‖ p ∞ψn −p (β) } .f∈Σ(β,L)By Theorem 3.1 of Chapter 3, we know that lim inf n→∞ ∆ n (β max ) ≥ 1. This comes fromthe fact that the loss function w(x) = x p satisfies the conditions required in this theorem(i.e. w is a non-decreasing function which admits a polynomial majorant and such thatw(0) = 0), and the exact constant C βmax in the rate of convergence is the same as theexact constant in the non-adaptive case. Now, in order to prove the theorem, it is enoughto prove that lim inf n→∞ ∆ n (β) ≥ 1 for all β ∈ B \βmax .


6.4. Proof of Theorem 6.1 99Let 0 < ε < 1/2. Let β ∈ B \βmax . In the following several quantities depend on β,but we do not indicate this dependence to simplify the notations. We consider the set offunctions f j,β (·) defined, for j ∈ {0, · · · , M}, by{(f j,β = ψ n (β)(1 − ε) 1 − ∑ df 0,β = 0,∣∣i=1 ∣ t i−a j,ih i,1 (β)∣ β i), j = 1, . . . , M+where the a j = (a j,1 , . . . , a j,d ) form a grid of points in [0, 1] d . This grid is defined in thefollowing manner. For[]1m i =2h i,1 (2 1/β + 1) − 1with [x] the integer part of x and M = ∏ di=1 m i, we consider the points a(l 1 , . . . , l d ) ∈[0, 1] d for l i ∈ {1, . . . , m i } and i ∈ {1, . . . , d}, such that:a(l 1 , . . . , l d ) = 2(2 1 β + 1) (h1,1 l 1 , . . . , h d,1 l d ) .To simplify the notation, we denote these points a 1 , . . . , a M and each a j takes the form:a j = (a j,1 , . . . , a j,d ).The functions f j,β satisfy the following lemma which can be proved as in Chapter 3.Lemma 6.6.1- f j,β ∈ Σ(β, L),2- ‖f j,β ‖ 2 2 = σ2 c 1 (β) log n(1−ε) 2n(2β+1)3- the functions f j,β have disjoint support.Here we come back to the study of ∆ n . Let j ∈ {1, . . . , M} and T n an estimator. Wehave, since f j,β (a k ) = (1 − ε)ψ n (β)δ j,k ,ψ −1n(β)‖T n − f j,β ‖ ∞ ≥ψn−1 (β) max |T n(a k ) − f j,β (a k )|1≤k≤M ∣∣ ∣∣≥(1 − ε) max ∣ˆθ k − δ j,k ,1≤k≤Mwhere δ j,k is the Kronecker delta and ˆθ k = Tn(a k)ψn−11−ε(β)ψ −1n (β)‖T n − f j,β ‖ ∞ ≥ d(ˆθ, θ j ),. As a consequencewhere ˆθ = (ˆθ 1 , . . . , ˆθ M ), θ j = (δ 1,j , . . . , δ M,j ), and d(u, v) = (1 − ε) max 1≤k≤M |u k − v k | fortwo vectors u = (u 1 , . . . , u M ) and v = (v 1 , . . . , v M ) of R M .


100 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesIn the same way∆ n (β) ≥ infT nψ −1n0≤k≤M E k(β)‖T n − f 0,β ‖ ∞ ≥ψn−1 (β) max |T n(a k )|1≤k≤Mwhere θ 0 is the null-vector of R M . Then we have(max ‖Tn − f k,β ‖ p ∞ψn −p (β) )≥ infˆθ∈R d max{E 0((ψn (β)ψ n (β max )≥ψn−1 (β max ) max |T n(a k )|1≤k≤M≥ψ n(β)ψ n (β max ) d(ˆθ, θ 0 ),) pd p (ˆθ, θ 0 )), max1≤k≤M E k(d p (ˆθ, θ k )) } , (6.13)where E k is the expectation E k = E fk,β . We denote also P k = P fk,β .Here we apply Theorem 6 of Tsybakov (1998) to the relation (6.13). We consider theM + 1 parameters {θ 0 , . . . , θ M } ⊂ [0, 1] M , the family of probability measures {P θj = P j },the loss function w(x) = x p and the distance d previously defined. The parameters θ jsatisfy d(θ i , θ k ) ≥ 1 − ε for i, k ∈ {0, . . . , M} and i ≠ k. We are now going to prove thatthere exists α n , with 0 ≤ α n ≤ 1 and lim n→∞ α n = 0, such that( ) dP0QdQ ≥ τ n ≥ 1 − α n , (6.14)pβ − εc 1(β)2β+1∑where Q = 1 MM k=1 P k, τ n = n −ν , ν = pβ max−(1 − ε/2) and ε is chosen2β max +1 2β+1small enough to have ν > 0.Indeed, if we prove (6.14), Theorem 6 of Tsybakov implies that∆ n (β) ≥) p((1 − α n )τ n (1 − 2ε) p ψn (β)εψ n (β max )( ) p .(1 − 2ε) p + τψn (β)εn ψ n (β max )We have lim n→∞ τ n(ψn(β)εψ n(β max)) p= +∞. Thenlim infn→∞ ∆ n(β) ≥ (1 − 2ε) p .Since ε can be arbitrarily small, we obtain that lim inf n→∞ ∆ n (β) ≥ 1 and it proves thetheorem.Here we prove (6.14). In the same way as Tsybakov (1998), we have that under P i{dP k exp {ξ=k v n + vn}2 k = idP 0 exp {ξ k v n − vn} 2 k ≠ i,


6.4. Proof of Theorem 6.1 101where the ξ k are i.i.d. N (0, 1) variables and vn 2 = n ‖fσ 2 k,β ‖ 2 2 = 2 log n c 2β+11(β)(1 − ε) 2 . Now,by the independence of the ξ i , we have() ()1M∑ dP k1M∑ dP kP i < 1/τ n ≥ P i < 1 ( 1 dP iP i < 1 ). (6.15)M dP 0 M dP 0 2τ n M dP 0 2τ nk=1k=1,k≠iThe probabilities above satisfy, since the ξ k are N (0, 1) variables,() (1M∑ dP kP i < 1 1M∑=P i exp { )}ξ k v n − v 2 1n


102 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classes6.5 Proof of Theorem 6.2Since Theorem 6.1 is true, in particular for set B satisfying Condition (P ), to proveTheorem 6.2, it is enough to show that{lim sup sup sup E f ‖ ˜f}(p) − f‖ p ∞ψn−p (β) ≤ 1. (6.20)n→∞β∈B f∈Σ(β,L)Here we prove (6.20). Since the cardinal of B is finite, we are going to prove that for allβ ∈ B,lim sup ∆(β, n) ≤ 1,n→∞wherewithand{∆(β, n) = sup E f ‖ ˜f}(p) − f‖ p ∞ψn−p (β) ≤ R 1,n (β) + R 2,n (β),f∈Σ(β,L){R 1,n (β) = sup E f ‖ ˜f}(p) − f‖ p ∞ψn−p (β)I { ˆβ(p)


6.5. Proof of Theorem 6.2 103withA 1,n (β ′ ) ={‖ ˆf γ ′ ,1 − ˆf}β ′ ,1‖ ∞ > η 1 (β ′ ) .We do not indicate the dependence of the set A 1,n (β ′ ) on γ ′ because we argue for fixed γin B and then for fixed γ ′ . To prove the result (6.21), since the cardinal of B is finite, itis enough to prove that the following quantity, for β ′ ∈ B with β ′ < γ ′ ,{sup E f ‖ ˆf}γ,1 − f‖ p ∞ψn −p (β)I A1,n (β ′ ) , (6.23)f∈Σ(β,L)tends to 0 as n → ∞.Here we study the quantity (6.23). Let f ∈ Σ(β, L). We fix β ′ ∈ B such that β ′ < γ ′ . Wehave{E f ‖ ˆf}γ,1 − f‖ p ∞ψn −p (β)I A1,n (β ′ ) ≤ 2 p ψn −p (β) ( {‖b γ,1 (·, f)‖ p ∞P f (A 1,n (β ′ )) + E f ‖Zγ,1 ‖ p ∞I A1,n (β )}) ′ .To study the quantity above, we need the following lemma which will be proved in Section6.8.Lemma 6.7. We have for n large enoughsup P f [A 1,n (β ′ )] ≤ D 6 (log n) − 12β ′ − p(β max −β′ )+1 n(2β max +1)(2β ′ +1) .f∈Σ(β,L)The bias b γ,1 satisfies, for all f ∈ Σ(β, L),∫‖b γ,1 (·, f)‖ ∞ ≤K γ (u)Since for all i ∈ {1, · · · , d}, γ i < β i , we have thatd∑L i |u i h i,1 (γ)| β idu.i=1sup ‖b γ,1 (·, f)‖ = o(ψ n (γ)),f∈Σ(β,L)as n → ∞. As a consequence, we deduce from Lemma 6.7 thatsup ψn −p (β)‖b γ,1 (·, f)‖ p ∞P f (A 1,n (β ′ )) ≤ D 7 (log n) − 12β ′ + pγ+1 2γ+1 − pβ2β+1n − pβ max + pβ′2β max +1 2β ′ − pγ+1 2γ+1 + pβ2β+1.f∈Σ(β,L)(6.24)Moreover,{ }E f ψ−pn (β)‖Z γ,1 ‖ p ∞I A1,n (β ′ ) ≤ (τn,1 (γ)) p ψn −p (β)P f (A 1,n (β ′ )){+ E f ‖Zγ,1 ‖ p ∞ψn −p (β)I {‖Zγ,1 ‖ ∞ >τ n,1 (γ)}}. (6.25)


104 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesFrom Lemma 6.7, we know that P f (A 1,n (β ′ )) is at most of order(log n) − 12β ′ −+1 n pβ max + pβ′2β max +1 2β ′ +1 thus(τ n,1 (γ)) p ψn −p (β)P f (A 1,n (β ′ )) ≤ D 8 (log n) − 12β ′ + pγ+1 2γ+1 − pβ2β+1n − pβ max + pβ′2β max +1 2β ′ − pγ+1 2γ+1 + pβ2β+1.Since β ′ ≤ γ < β ≤ β max , we obtain thatandlimsupn→∞ f∈Σ(β,L)limsupn→∞ f∈Σ(β,L)Using Lemma 6.5, we deduce thatlimsupn→∞ f∈Σ(β,L)ψ −pn (β)‖b γ,1 (·, f)‖ p ∞P f (A 1,n (β ′ )) = 0 (6.26)(τ n,1 (γ)) p ψn −p (β)P f (A 1,n (β ′ )) = 0.E f{ψ−pn (β)‖Z γ,1 ‖ p ∞I A1,n (β ′ )}= 0. (6.27)From (6.26) and (6.27), we conclude that the quantity (6.23) tends to 0 as n → ∞.•Proof of (6.22)( 1/41Let δ n =log n)and β ∈ B. We haveR 2,n (β) ≤ (1 + δ n ) p +≤ (1 + δ n ) p +supf∈Σ(β,L)∑{E f ‖ ˜f (p) − f‖ p ∞ψ −p (β)I { ˆβ(p) ≥β}∩{‖ ˜f (p) −f‖ ∞ ψ −1supγ∈B,γ≥βf∈Σ(β,L)nQ 2,n (β, γ, f),n (β)>1+δ n }}where{Q 2,n (β, γ, f) = E f ‖ ˆf γ,1 − f‖ p ∞ψ −p (β)I { ˆβ(p) =γ}∩{‖ ˆf γ,1 −f‖ ∞ ψ −1nn (β)>1+δ n }}.By Proposition 6.3, we have lim n→∞ sup f∈Σ(β,L) Q 2,n (β, β, f) = 0. To prove (6.22), sincethe cardinal of B is finite and lim n→∞ δ n = 0, it is enough to prove, for γ ∈ B with γ > β,thatlim sup Q 2,n (β, γ, f) = 0. (6.28)n→∞ f∈Σ(β,L)Here we prove the result (6.28). Let γ ∈ B such that γ > β and f ∈ Σ(β, L). Ifˆβ (p) = γ, since γ > β, we have ‖ ˆf γ,1 − ˆf β,1 ‖ ∞ ≤ η 1 (β). Then,‖ ˆf(γ,1 − f‖ ∞ I { ˆβ(p) =γ} ≤ ‖ ˆf γ,1 − ˆf β,1 ‖ ∞ + ‖ ˆf)β,1 − f‖ ∞ I { ˆβ(p) =γ}≤(η 1 (β) + ‖ ˆf)β,1 − f‖ ∞ I { ˆβ(p) =γ} . (6.29)


6.5. Proof of Theorem 6.2 105The quantity Q 2,n (β, γ, f) is upper bounded by{ (E f ‖ ˆf}) 1/2 (γ,1 − f‖ 2p ∞ψn−2p (β)I { ˆβ(p) =γ}(P f { ˆβ (p) = γ} ∩ {‖ ˆf1/2γ,1 − f‖ ∞ ψn −1 (β) > 1 + δ n })).Then, (6.29) and Proposition 6.3 imply that{sup(E f ‖ ˆf γ,1 − f‖ 2p ∞ψn−2p (β)I { ˆβ(p) =γ}f∈Σ(β,L)}) 1/2is bounded above by a positive constant for n large enough and we deduce that[ (sup Q 2,n (β, γ, f) ≤ D 9 P f { ˆβ (p) = γ} ∩ {‖ ˆf1/2γ,1 − f‖ ∞ ψn −1 (β) > 1 + δ n })],f∈Σ(β,L)(6.30)for n large enough. Now we are going to prove that the right hand side of inequality(6.30) tends to 0 as n → ∞. We have‖ ˆf γ,1 − f‖ ∞ I { ˆβ(p) =γ} ≤ (‖b γ,1(·, f) − b β,1 (·, f)‖ ∞ + ‖b β,1 (·, f)‖ ∞ + ‖Z γ,1 ‖ ∞ ) I { ˆβ(p) =γ}(≤ ‖b γ,1 (·, f) − b β,1 (·, f)‖ ∞ + ψ )n(β)2β + 1 + ‖Z γ,1‖ ∞ I { ˆβ(p) =γ} , (6.31)where the last line is a consequence of Proposition ( ) 6.1. ( )∥∥∥∥∞We have ‖b γ,1 (·, f) − b β,1 (·, f)‖ ∞ = ∥E f ˆfγ,1 − E f ˆfβ,1 . The function φ : t ↦−→( ) ( )E f ˆfγ,1 (t) − E f ˆfβ,1 (t) is a continuous function on [0, 1] d which admits a non-randommaximum x 0 satisfying‖b γ,1 (·, f) − b β,1 (·, f)‖ ∞ = φ(x 0 )≤ ∣ ˆf γ,1 (x 0 ) − ˆf β,1 (x 0 ) ∣ + |ϕ 1 |≤ ‖ ˆf γ,1 − ˆf β,1 ‖ ∞ + |ϕ 1 | ≤ η 1 (β) + |ϕ 1 |, (6.32)where ϕ 1 = ˆf γ,1 (x 0 ) − ˆf[β,1 (x 0 ) − E f ˆfγ,1 (x 0 ) − ˆf]β,1 (x 0 ) . Since ϕ 1 is a N (0, πn) 2 variable,by Proposition 6.2, we deduce that its variance π 2 n satisfies(πn 2 ≤ 2E f (Zβ,1 ( x 0 )) 2) (+ 2E f (Zγ,1 (x 0 )) 2) ≤ 2‖K β‖ 2 2σ 2 (1 + o(1)). (6.33)n˜h 1 (β)Then using (6.31) and (6.32) we deduce that[‖ ˆf γ,1 − f‖ ∞ I { ˆβ(p) =γ} ≤ η 1 (β) + ψ ]n(β)2β + 1 + ‖Z γ,1‖ ∞ + |ϕ 1 | I { ˆβ(p) =γ}≤ (ψ n (β) + ‖Z γ,1 ‖ ∞ + |ϕ 1 |) I { ˆβ(p) =γ} ,


106 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesthe last line being a consequence of Lemma 6.2. Thus,P f({ ˆβ (p) = γ} ∩ {‖ ˆf)γ,1 − f‖ ∞ > (1 + δ n )ψ n (β)}≤P f (‖Z γ,1 ‖ ∞ + |ϕ 1 | > δ n ψ n (β))(≤P f ‖Z γ,1 ‖ ∞ > δ ) (n2 ψ n(β) + P f |ϕ 1 | > δ )n2 ψ n(β) . (6.34)As ϕ 1 is a N (0, πn) 2 variable and using (6.33), we have(P f |ϕ 1 | > δ ) {}n2 ψ n(β) ≤ exp − ψ2 n(β)δnn˜h 2 1 (β).16‖K β ‖ 2 2σ 2The quantity ψn(β)δ 2 nn˜h 2 1 (β) is of order √ log n, and then(lim P f |ϕ 1 | > δ )nn→∞ 2 ψ n(β) = 0. (6.35)Using Proposition 6.2, we have(P f ‖Z γ,1 ‖ ∞ > δ ){}n2 ψ n(β) ≤ D 1˜h 1 (γ) exp − ψ2 n(β)δnn˜h 2 1 (γ)exp8‖K β ‖ 2 2σ 2⎧⎨⎩√ ⎫D 2 δ n ψ n (β) n˜h 1 (γ) ⎬2(log ˜h 1 (γ)) 1/2 ⎭ .The quantity ψn(β)δ 2 nn˜h 2 1 (γ) is of order ψn(β)ψ 2 n −2 (γ)(log n) D 10with some D 10 ∈ R and˜h 1 (γ) is of order ( )log n 1/(2γ+1).n Hence, since β < γ, this implies that(lim P f ‖Z γ,1 ‖ ∞ > δ )nn→∞ 2 ψ n(β) = 0. (6.36)Using (6.35), (6.36) and that the fact that the right hand side of inequality (6.34) doesnot depend on f, we deduce thatlim sup P f({ ˆβ (p) = γ} ∩ {‖ ˆf)γ,1 − f‖ ∞ > (1 + δ n )ψ n (β)} = 0.n→∞ f∈Σ(β,L)Then we obtain the result (6.28) which implies (6.22).6.6 Proof of Theorem 6.3The scheme of proof is similar to the proof of relation (6.20) in the proof of Theorem 6.2.To prove Theorem 6.3, we will prove that, for all β ∈ B,lim R 3,n(β) = 0 (6.37)n→∞


6.6. Proof of Theorem 6.3 107andwhere•Proof of (6.37)Let β, γ ∈ B such that γ < β.{ }The event ˆβani = γ satisfieslim sup R 4,n (β) ≤ (M 2 (β)) p , (6.38)n→∞{R 3,n (β) = sup E f ‖ ˜f}ani − f‖ p ∞ψn−p (β)I { ˆβani


108 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesis upper bounded bywhereD 12 (log n) −pω(β,γ)− 12β ′ +1 n−p(µ(β ′ )−ω(β,γ))ω(β, γ) =If B satisfies Condition (P ), thenβ2β + 1 − min β i γi=1,...,d γ i (2γ + 1) .ω(β, γ) γ and µ(β ′ ) > 0, this implies thatlimsupn→∞ f∈Σ(β,L)β2β + 1 − γ2γ + 1 .ψ −pn (β)‖b γ,2 (·, f)‖ p ∞P f (A 2,n (β ′ )) = 0. (6.40)If B do not satisfy Condition (P ), there exists i ∈ {1, . . . , d} such that β i /γ i ≤ 1, thenThis implies thatµ(β ′ ) ≥ ω(β, γ) ≥β2β + 1 − γ2γ + 1 > 0.limsupn→∞ f∈Σ(β,L)ψ −pn (β)‖b γ,2 (·, f)‖ p ∞P f (A 2,n (β ′ )) = 0. (6.41)Reasoning as in the proof of (6.21), using the decomposition (6.25), Lemma 6.5, Lemma 6.8and thatβ2β + 1 − γ2γ + 1 ≤ µ(β′ ),we deduce thatlimsupn→∞ f∈Σ(β,L)From (6.41), (6.40) and (6.42), we obtain (6.37).E f{ψ−pn (β)‖Z γ,2 ‖ p ∞I A2,n (β ′ )}= 0. (6.42)•Proof of (6.38)(1 1/4.The proof will be similar to the proof in the proof of (6.22). We fix δ n =log n)WehaveR 4,n (β) ≤ (1 + δ n ) p (M 2 (β)) p +∑sup Q 4,n (β, γ, f),whereandγ∈B,γ≥βf∈Σ(β,L)Q 4,n (β, γ, f) = E f{‖ ˆf γ,2 − f‖ p ∞ψ −pn (β)I { ˆβani =γ}∩C 1,n},C 1,n = {‖ ˆf γ,2 − f‖ ∞ ψ −1n (β) > M 2 (β)(1 + δ n )}.


6.6. Proof of Theorem 6.3 109By Proposition 6.3, we have lim n→∞ sup f∈Σ(β,L) Q 4,n (β, β, f) = 0. To prove (6.38), it isenough to prove that, for all γ ∈ B such that γ > β,limsupn→∞ f∈Σ(β,L)Q 4,n (β, γ, f) = 0. (6.43)Let γ ∈ B, such that γ > β, and f ∈ Σ(β, L). Following the same reasoning as in theproof of (6.22) from (6.31) to (6.33), using Proposition 6.1, Lemma 6.2 and Lemma 6.3,we deduce that‖ ˆf γ,2 − f‖ ∞ I { ˆβani =γ} ≤(‖b β∗γ,2(·, f) − b γ,2 (·, f)‖ ∞ + ‖b β∗γ,2 (·, f) − b β,2 (·, f)‖ ∞+‖b β,2 (·, f)‖ ∞ + ‖Z γ,2 ‖ ∞ )I { ˆβani =γ}( )2ψn (β)λ 2 (β)≤+ η 2 (β) + ‖Z γ,2 ‖ ∞ + |ϕ 2 | I2β + 1{ ˆβani =γ} ,≤ (M 2 (β) + ‖Z γ,2 ‖ ∞ + |ϕ 2 |) I { ˆβani =γ}(6.44)where ϕ 2 = ˆf β∗γ,2 (x 0 ) − ˆf[β,2 (x 0 ) − E f ˆfβ∗γ,2 (x 0 ) − ˆf]β,2 (x 0 ) , with some x 0 ∈ [0, 1] d . UsingLemma 6.4 and Proposition 6.2, we have that ϕ 2 is a N (0, πn) 2 variable, with variance πn2satisfyingπn 2 ≤ 2‖K β‖ 2 2σ 2 (1 + o(1)).n˜h 1 (β)We haveE f[‖Zγ,2 ‖ 2p ∞ψ −2pn(β) ] [≤ (τ n,2 (γ)) 2p ψn−2p (β) + ψn −2p (β)E f ‖Zγ,2 ‖ 2p ∞I {‖Zγ,2 ‖ ∞ >τ n,2 (γ)}].Reasoning as in the proof of Lemma 6.5, we have thatlim (ψ n(β)) −2pn→∞Since γ > β, we deduce thatlimsupf∈Σ(β,L)supn→∞ f∈Σ(β,L)E f[‖Zγ,2 ‖ 2p ∞I {‖Zγ,2 ‖ ∞ >τ n,2 (γ)}]= 0.E f[‖Zγ,2 ‖ 2p∞ψ −2pn (β) ] = 0. (6.45)Moreover, the variable ϕ 3 satisfies the properties{P f [|ϕ 2 | > δ n ψ n (β)t] ≤ exp −D 13 t 2√ }log n , t ≥ 0, (6.46)limsupn→∞ f∈Σ(β,L)E f[|ϕ2 | 2p ψ −2pn (β) ] = 0. (6.47)The property (6.46) comes from the fact that ϕ 2 is a N (0, π 2 n) variable, and the property(6.47) can be proved as (6.45) using (6.46) and the proof of Lemma 6.5.


110 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesThe relations (6.45) and (6.47) and Proposition 6.3 imply that{sup(E f ‖ ˆf γ,2 − f‖ 2p ∞ψn−2p (β)I { ˆβani =γ}f∈Σ(β,L)}) 1/2is bounded above by a positive constant for n large enough. Now to have (6.43), it isenough to prove thatlim sup P f[C 1,n ∩ { ˆβ]ani = γ} = 0. (6.48)n→∞ f∈Σ(β,L)Using the relations (6.44) and (6.46), and following the proof of (6.22) from (6.34) to(6.36), we deduce (6.48), which finishes the proof.6.7 Proof of Theorem 6.4•Proof of (6.8)By Proposition 6.3, we havelim supn→∞supf∈Σ(β,L)Then to have (6.8), it is enough to prove thatlimsupn→∞ f∈Σ(β,L){E f ‖ ˆf}β,1 − f‖ p ∞ψ −p (β) ≤ 1E f{‖ ˆf γ,3 − f‖ p ∞ψ −pn (β)I { ˜fani2 = ˆf γ,3 }{The event ˜fani2 = ˆf} {γ,3 satisfies ˜fani2 = ˆf}γ,3 ⊂ A 3,n ∩ A 4,n , whereA 3,n =The event A 3,n satisfies the lemma:{‖ ˆf β∗γ,1 − ˆf}γ,3 ‖ ∞ > η 3 (γ) ,{A 4,n = ‖ ˆf β∗γ,1 − ˆf β,1 ‖ ∞ < ψ }n(γ)λ 3 (γ)(1 + ρ n ) ,2γ + 1Lemma 6.9. We have for n large enoughsup P f [A 3,n ] ≤ D 14 (log n) − 1 −2γ+1 n p(β−γ)(2β+1)(2γ+1) .f∈Σ(β,L)n}= 0 (6.49)


6.7. Proof of Theorem 6.4 111The proof of Lemma 6.9 is similar to the proof of Lemma 6.7 and 6.8. Let f ∈ Σ(β, L).We have‖ ˆf γ,3 − f‖ ∞ I A3,n ∩A 4,n≤(‖ ˆf β∗γ,1 − ˆf γ,3 ‖ ∞ + ‖ ˆf β∗γ,1 − ˆf β,1 ‖ ∞ + ‖ ˆf)β,1 − f‖ ∞ I A3,n ∩A 4,nUsing Proposition 6.3 and Lemma 6.9 we deduce thatlimsupn→∞ f∈Σ(β,L)Moreover, using the definition of A 4,n , we haveE f{‖ ˆf β∗γ,1 − ˆf β,1 ‖ p ∞ψ −pn (β)I A3,n ∩A 4,n}≤E f{‖ ˆf β,1 − f‖ p ∞ψ −pn (β)I A3,n ∩A 4,n}= 0,(λ3 (γ)ψ n (γ)ψn−12γ + 1) p(β)(1 + ρ n ) p P f (A 3,n ).Using Lemma 6.9, we deduce that, for n large enough, ψn−p (β)ψn(γ)(1 p + ρ n ) p P f (A 3,n ) isat most of order (log n) − 12γ+1 + pγ2γ+1 − pβ2β+1 , therefore, since γ < β,{lim sup E f ‖ ˆf β∗γ,1 − ˆf}β,1 ‖ p ∞ψn −p (β)I A3,n ∩A 4,n= 0n→∞ f∈Σ(β,L)To prove (6.49), it remains to prove thatWe havelimsupn→∞ f∈Σ(β,L)E f{‖ ˆf β∗γ,1 − ˆf γ,3 ‖ p ∞ψ −pn (β)I A3,n ∩A 4,n}= 0.‖ ˆf β∗γ,1 − ˆf γ,3 ‖ ∞ I A3,n ∩A 4,n≤ (‖b β∗γ,1 (·, f) − b γ,3 (·, f)‖ ∞ + ‖Z γ,3 ‖ ∞ + ‖Z β∗γ,1 ‖ ∞ ) I A3,n ∩A 4,n.Reasoning as in the proof of (6.21), using the decomposition (6.25) and applyingLemma 6.5 to Z γ,3 , we deduce thatlimsupn→∞ f∈Σ(β,L)E f{(‖Zγ,3 ‖ ∞ ) p ψ −pn (β)I A3,n ∩A 4,n}= 0.Since Z β∗γ,1 satisfies Lemma 6.4, a similar reasoning permits to havelimsupn→∞ f∈Σ(β,L)E f{(‖Zβ∗γ,3 ‖ ∞ ) p ψ −pn (β)I A3,n ∩A 4,n}= 0.Appying Lemma 6.3, we obtain that the quantity sup f∈Σ(β,L) ‖b β∗γ,1 (·, f) − b γ,3 (·, f)‖ ∞ isof order ψ n (β), and finally we have by Lemma 6.9 thatlimsupn→∞ f∈Σ(β,L)which prove (6.49) and then (6.8).‖b β∗γ,1 (·, f) − b γ,3 (·, f)‖ ∞ ψ −pn (β)P f (A 3,n ∩ A 4,n ) = 0,


112 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classes•Proof of (6.9)The proof will be similar to the proof in the proof of (6.22). Let f ∈ Σ(γ, L). We fix(1 1/4.δ n =log n)We have{E f ‖ ˜f} {ani2 − f‖ p ∞ψn−p (γ) ≤(1 + δ n ) p (M 3 (γ)) p + E f ‖ ˜f}ani2 − f‖ p ∞ψn −p (γ)I C2,n ,{≤(1 + δ n ) p (M 3 (γ)) p + E f ‖ ˆf}β,1 − f‖ p ∞ψn −p (γ)I C2,n ∩A n{+E f ‖ ˆf}γ,3 − f‖ p ∞ψn−p (γ)I C2,n ∩A c ,nwhere{C 2,n = ‖ ˜f}ani2 − f‖ ∞ ψn−1 (γ) > (1 + δ n )M 3 (γ) ,and A n = (A 3,n ∩ A 4,n ) c . By Proposition 6.3, we havelimsupn→∞ f∈Σ(γ,L)The event A 4,n satisfies the lemmaE f{‖ ˆf γ,3 − f‖ p ∞ψ p n(γ)I C2,n ∩A c }= 0.Lemma 6.10. For n large enough, we have[ ]sup P f Ac D 154,n ≤f∈Σ(γ,L)˜h 1 (β) exp { −D 16 (log n) D 17n } √ }D 18exp{−D 19 (log n)D 17n D 18 ,with D 17 ∈ R.Lemma 6.10 implies thatlimsupn→∞ f∈Σ(γ,L)Then to have (6.9), it is enough to prove thatlimsupn→∞ f∈Σ(γ,L){E f ‖ ˆf}β,1 − f‖ p ∞ψn −p (γ)I C2,n ∩A c = 0.4,nwhere A 5,n = C 2,n ∩ A c 3,n ∩ A 4,n On A c 3,n ∩ A 4,n , we haveE f{‖ ˆf β,1 − f‖ p ∞ψ −pn (γ)I A5,n}= 0, (6.50)‖ ˆf β,1 − f‖ ∞ ≤‖ ˆf β,1 − ˆf β∗γ,1 ‖ ∞ + ‖ ˆf β∗γ,1 − ˆf γ,3 ‖ ∞ + ‖ ˆf γ,3 − f‖ ∞≤η 3 (γ) + ψ n(γ)λ 3 (γ)(1 + ρ n )+ ‖2γ + 1ˆf γ,3 − f‖ ∞ .Using Proposition 6.3, we deduce that, for n large enough,{sup E f ‖ ˆf}β,1 − f‖ 2p∞ψn −2p (γ)I A5,nf∈Σ(γ,L)


6.8. Proofs of the lemmas and propositions 113is upper bounded by a constant. Now to have (6.50), it is enough to prove thatlimsupn→∞ f∈Σ(γ,L)P f [A 5,n ] = 0. (6.51)We have by Lemma 6.2 and Proposition 6.1,‖ ˆf β,1 − f‖ ∞ I A5,n ≤(‖ ˆf β,1 − ˆf)β∗γ,1 ‖ ∞ + ‖b β∗γ,1 (·, f) − b γ,3 (·, f)‖ ∞ + ‖b γ,3 (·, f)‖ ∞ + ‖Z β∗γ,1 ‖ ∞ I A5,n≤‖b β∗γ,1 (·, f) − b γ,3 (·, f)‖ ∞ + 2λ 3(γ)ψ n (γ)2γ + 1+ ‖Z β∗γ,1 ‖ ∞ .Following the same argument as in the proof of (6.22) from (6.31) to (6.33), we deducethat‖b β∗γ,1 (·, f) − b γ,3 (·, f)‖ ∞ ≤ η 3 (γ) + |ϕ 3 | (6.52)where ϕ 3 = ˆf β∗γ,1 (x 0 ) − ˆf[γ,3 (x 0 ) − E f ˆfβ∗γ,1 (x 0 ) − ˆf]γ,3 (x 0 ) , with some x 0 ∈ [0, 1] d . UsingLemma 6.4, we have that ϕ 3 is a random variable N (0, π 2 n), where π 2 n satisfiesπn 2 ≤ 2‖K γ‖ 2 2σ 2 (1 + o(1)).n˜h 1 (γ)Using Lemma 6.3 and Lemma 6.4, we obtain finally that(‖ ˆf β,1 − f‖ ∞ I A5,n ≤ η 3 (γ) + 2λ )3(γ)ψ n (γ)+ ‖Z β∗γ,1 ‖ ∞ + |ϕ 3 |2γ + 1≤ (M 3 (γ)ψ n (γ) + ‖Z β∗γ,1 ‖ ∞ + |ϕ 3 |) I A5,nNow following the proof of (6.22) from (6.34) to (6.36), we deduce (6.51), which finishesthe proof of (6.50).I A5,n6.8 Proofs of the lemmas and propositionsProof of Lemma 6.2Since ‖K β ‖ 2 2 =2(β+1) , we have for j ∈ {1, 2, 3},βα(β)(2β+1)( log nη j (β) =n( log n=n) β(2β+1 − 1C2ββ) 1/22c j (β)‖K β ‖ 2 2σ 2 L 1/β∗(λ j (β)) − 12β ,2β + 1) β()2β+1 − 1C2β4β 2 1/2c j (β)(β + 1)σ 2 L 1/β∗β(2β + 1) 2 α(β)β 3 (λ j (β)) − 12β .


114 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classesFor j=1, we deduce that( log nη 1 (β) =n) β2β+1C− 12ββ2β+12βCβ2β2β + 1 =2β2β + 1 ψ n(β).This implies the result of the lemma for j = 1. For j ∈ {2, 3}, we haveη j (β) =which permits to have the result for j ∈ {2, 3}.2β( ) β2β + 1 ψ n(β)2 −1/(2β+1) cj (β) 2β+1,c 1 (β)Proof of Proposition 6.3Following the proof of Theorem 3.1 of Chapter 3 with the loss function w(x) = x p ,studying the bias term and the stochastic term of ˆf β,j , we can deduce, for j ∈ {1, 2, 3},thatlim supn→∞supf∈Σ(β,L)(P f[‖ ˆfλj (β)β,j − f‖ ∞ > (1 + ε n )ψ n (β)2β + 1 +)]η j (β)= 0ψ n (β)(c j (β)) 1/2andlim supn→∞supf∈Σ(β,L)[E f ‖ ˆf]β,j − f‖ p ∞ψ −p (β) ≤n(λj (β)2β + 1 +) pη j (β).ψ n (β)c j (β)For j = 1, using that η 1 (β) =we have that2β2β+1 ψ n(β) (cf. proof of Lemma 6.2), and that c 1 (β) ≥ 1,λ 1 (β)2β + 1 + η 1 (β)ψ n (β)c 1 (β) = 12β + 1 + 2β≤ 1.(2β + 1)(c 1 (β))1/2( ) βFor j ∈ {2, 3}, using that η j (β) = 2β ψ 2β+1n(β)2 −1/(2β+1) cj (β) 2β+1c 1 (β)Lemma 6.2), and that c j (β) ≥ 1, we have thatλ j (β)2β + 1 +( ) βη j (β)ψ n (β)c j (β) = cj (β) 2β+1c 1 (β)⎛2β2− 2β+1⎝The above lines imply the results of Proposition 6.3.(cf.proof of⎞2β + 1 + 2β2 − 12β+1⎠ ≤ M j (β).(2β + 1)(c 2 (β)) 1/2Proof of Lemma 6.3Here we prove the first result of the lemma. Let β = (β 1 , . . . , β d ) ∈ B, γ ∈ B, f ∈ Σ(β, L)and x = (x 1 , . . . , x d ), y = (y 1 , . . . , y d ) ∈ R d . We have


6.8. Proofs of the lemmas and propositions 115∣∣K γ,2 ∗ f(x) − K γ,2 ∗ f(y) ∣ ∫=∣ K γ (u) {f(x 1 − u 1 h 1,2 (γ), . . . , x d − u d h d,2 (γ)) − f(y 1 − u 1 h 1,2 (γ), . . . , y d − u d h d,2 (γ))} du∣(∫ ) d∑ d∑≤ K γ (u)du L i |x i − y i | β i= L i |x i − y i | β ii=1i=1Then, K γ,2 ∗ f belongs to Σ(β, L). As a consequence, we have‖b β∗γ,2 (·, f) − b γ,2 (·, f)‖ ∞ = ‖b β,2 (·, K γ,2 ∗ f)‖ ∞ ≤Thus, from Proposition 6.1, we deduce thatsupf∈Σ(β,L)‖b β∗γ,2 (·, f) − b γ,2 (·, f)‖ ∞ ≤ ψ n(β)λ 2 (β).2β + 1The two other results can be proved exactly in the same way.sup ‖b β,2 (·, f)‖ ∞ .f∈Σ(β,L)Proof of Lemma 6.4We prove here the result for j = 2. The result for j = 1 can be proved exactly in thesame way. Let β = (β 1 , . . . , β d ), γ ∈ B such that γ < β and t ∈ [0, 1] d . We haveE f[Z2β∗γ,2 (t) ] =σ 2n˜h 2 2(β)˜h 2 2(γ)∫ (∫( ) (t − u − vK β K γh 2 (β)vh 2 (γ))dv) 2du,where the notation u, for two vectors u = (u t 1, . . . , u d ) and t = (t 1 , . . . , t d ), represents thevector (u 1 /t 1 , . . . , u d /t d ). By the generalized Minkowskii inequality (cf. Annex .3), wededuce that[E f Z2β∗γ,2 (t) ] ( ∫ (∫ ( ) ( ) )σ 21/2 2t − u − v v≤K 2n˜h 2 2(β)˜h 2 βKγdu) 2 dv2(γ)h 2 (β) h 2 (γ)(∫ ( ) )≤ σ2 ‖K β ‖ 2 22vKn˜h 2 2(β)˜h 2 γ dv = σ2 ‖K β ‖ 2 22(γ) h 2 (γ) n˜h 2 (β) .Now the proof of (6.12) is similar to the proof of Proposition 6.3, and then tothat of Lemma 3.4 of Chapter 3. The process Z β∗γ satisfies as Z β , E f[Z2β∗γ (t) ] ≤σ 2 ‖K β ‖ 2 2n˜h 2 (β) .Furthermore, to apply that argument, we need to bound the quantity[ (Z ] 2E f β∗γ (t) − Zβ∗γ 2 (s)) 2 1 ∣ ∣by a multiple of for s = (s 1 , . . . , s d ),∑ dn˜h 2 (β) i=1 ∣ s i−t ih i,2 (β)∣ β i


116 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classest = (t 1 , . . . , t d ) in [0, 1] d . Here we look at this quantity. Let s, t ∈ [0, 1] d , we haveE f[ (Z2β∗γ (t) − Z 2 β∗γ(s) ) 2 ]σ 2 ∫ (∫ ( v=Kn˜h 2 2(β)˜h 2 γ2(γ)h 2 (γ)⎛σ 2 ∫ ( ∫≤⎝ Kn˜h 2 2(β)˜h 2 γ22(γ)( ∫≤ σ2 D 20 1n˜h 2 (β) ˜h 2 (γ)) ( ( ) ( )) 2 t − u − v s − u − vK β − K β dv)duh 2 (β)h 2 (β)( ) ( ( ) ( )) 2 v t − u − v s − u − vK β − K β duh 2 (γ) h 2 (β)h 2 (β)( ) ) 2 d∑ vK γ dvh 2 (γ)i=1β s i − t ii ∣h i,2 (β) ∣ = σ2 D 20n˜h 2 (β)d∑s i − t i∣∣h i,2 (β)i=1∣β i,) 1/2dv⎞the second line being obtained by the generalized Minkowskii inequality (cf. Annex .3)and the third line coming from the fact K β satisfies an Hölder condition of order β.As a consequence, following the proof of Lemma 3.4 of Chapter 3, we will obtain theresult for j = 2 of Lemma 6.4.Proof of Lemma 6.5⎠2Let f ∈ Σ(β, L) and j ∈ {1, 2, 3}. We have, by a change of variables,{ }E f ‖Zγ,j ‖ p ∞ψn−p (β)I {‖Zγ,j ‖ ∞>τ n,j (γ)} = ψ−pn (β)=ψ −p∫ +∞∫ +∞n (β) (τ n,j (γ)) p (P f ‖Zγ,j ‖ p ∞I {‖Zγ,j ‖ ∞ >τ n,j (γ)} > t (τ n,j (γ)) p) dt0∫ +∞= ψn−p (β) (τ n,j (γ)) p P f (‖Z γ,j ‖ ∞ > τ n,j (γ))+ψn −p (β) (τ n,j (γ)) p0P f(‖Zγ,j ‖ p ∞I {‖Zγ,j ‖ ∞>τ n,j (γ)} > t ) dt1P f (‖Z γ,j ‖ p ∞ > t (τ n,j (γ)) p ) dt.(6.53)We are going to prove that the two elements of the sum (6.53) tend to 0 as n tends to ∞.We obtain by Proposition 6.2 that( ) 1}nP f (‖Z γ,j ‖ p ∞ > t (τ n,j (γ)) p 2γ+1) ≤ D 1 exp{− t2/p (1 + pβ max )√ }log n exp{t 1/p D 21 log n .log n2γ + 1(6.54)Using the formula (6.54) with t = 1, we deduce thatψn −p (β) (τ n,j (γ)) p P f (‖Z γ,j ‖ ∞ > τ n,j (γ)) is of order n p( β− γ2β+1 2γ+1 − β max2γ+1 ) (log n) D 22withsome D 22 ∈ R, and then it tends to 0 as n tends to ∞ since γ ≤ β ≤ β max . Moreover by(6.54) we have, after a change of variables,∫ +∞1P f (‖Z γ,j ‖ p ∞ > t (τ n,j (γ)) p ) dt


6.8. Proofs of the lemmas and propositions 117is bounded above by( nD 23log n) 12γ+1 ∫ +∞1} {exp{− t22γ + 1 (1 + pβ max) log n exp D 21 t √ }log n t p−1 dt.By using several integrations by parts, one can find that this integral is at most of order( ) 1n2γ+1exp{− (1 + pβ }max)log n = n − pβ max2γ+1 (log n)− 12γ+1 .log n2γ + 1Hence ψ −pn (β) (τ n,j (γ)) p ∫ +∞1P f (‖Z γ,j ‖ p ∞ > t (τ n,j (γ)) p ) dt tends to 0 as n tends to ∞.Proof of Lemma 6.7Let f ∈ Σ(β, L). Using the same argument as in the proof of (6.21), we can deducethat ‖b γ ′ ,1(·, f)‖ ∞ = o(ψ n (γ ′ )) and ‖b β ′ ,1(·, f)‖ ∞ = o(ψ n (β ′ )) for all f ∈ Σ(β, L). As aconsequence for all f ∈ Σ(β, L) ‖b γ ′ ,1(·, f) − b β ′ ,1(·, f)‖ ∞ = o(ψ n (β ′ )), since β ′ < γ ′ , andthereforeP f[‖ ˆf γ ′ ,1 − ˆf]β ′ ,1‖ ∞ > η 1 (β ′ ) ≤ P f [‖Z γ ′ ,1‖ ∞ + ‖Z β ′ ,1‖ ∞ > η 1 (β ′ ) (1 + κ n )] ≤ P 1 (n) + P 2 (n),where κ n is of order n −δ with a δ > 0 andP 1 (n) = P f [‖Z γ ′ ,1‖ ∞ > ψ n ((β ′ + γ ′ )/2)(1 + κ n )] ,(1 − ψ )]n( β′ +γ ′P 2 (n) = P f[‖Z β ′ ,1‖ ∞ > η 1 (β ′ ) (1 + κ n )Using Proposition 6.2, since η2 1 (β′ )n˜h 1 (β ′ )= 12‖K β ′‖ 2 2 σ2 2β ′ +1n large enough(1 + p β max −β′2β max +12).η 1 (β ′ ))log n, we obtain that for{ ( ) }P 2 (n) ≤ D 24 (log n) − 12β ′ +1 exp −p β max − β ′2β ′ log n . (6.55)+ 1 2β max + 1Using Proposition 6.2, it can be proved that P 1 (n) is negligible with respect to P 2 (n) asn → ∞. The relation (6.55) implies the lemma.Proof of Lemma 6.8Let f ∈ Σ(β, L). By Lemma 6.3, we have that ‖b β ′ ∗β,2(·, f) − b β ′ ,2(·, f)‖ ∞ is at most oforder ψ n (β). Since β ′ < β, ψ n (β) is negligible with respect to η 2 (β ′ ) and thereforeP f[‖ ˆf β∗β ′ ,2 − ˆf]β ′ ,2‖ ∞ > η 2 (β ′ ) ≤ P f [‖Z β∗β ′ ,2‖ ∞ + ‖Z β ′ ,2‖ ∞ > η 2 (β ′ ) (1 + κ n )] ≤ P 3 (n) + P 4 (n),


118 Sharp adaptive estimation in sup-norm for d-dimensional Hölder classeswhere κ n is of order ψ n (β)/η 2 (β ′ ),andUsing Proposition 6.2, sinceP 3 (n) = P f [‖Z β∗β ′ ,2‖ ∞ > ψ n ((β ′ + β)/2)(1 + κ n )] ,P 4 (n) = P f[‖Z β ′ ,2‖ ∞ > η 2 (β ′ ) (1 + κ n )η 2 2(β ′ ) ∏ di=1 h i,2(β ′ )2‖K β ′‖ 2 2σ 2 =we obtain that for n large enough(1 − ψ n( β′ +βη 2 (β ′ )2)()12β ′ + 1 + pµ(β′ ) log n,P 4 (n) ≤ D 11 (log n) − 12β ′ +1 exp {− (pµ(β ′ )) log n} . (6.56)Using Lemma 6.4, it can be proved that P 3 (n) is negligible with respect to P 4 (n) asn → ∞. The relation (6.56) implies the lemma.Proof of Lemma 6.10)].Let f ∈ Σ(γ, L). By Lemma 6.3, we have thatThenwhereand‖b β∗γ,1 (·, f) − b β,1 (·, f)‖ ∞ ≤ ψ n(γ)λ 3 (γ).2γ + 1[P f ‖ ˆf β∗γ,1 − ˆf β,1 ‖ ∞ ≥ ψ ]n(γ)λ 3 (γ)(1 + ρ n ) ≤ P 5 (n) + P 6 (n),2γ + 1[P 5 (n) = P f ‖Z β∗γ,1 ‖ ∞ > ψ ]n(γ)λ 3 (γ)ρ n,2(2γ + 1)[P 6 (n) = P f ‖Z β,1 ‖ ∞ > ψ ]n(γ)λ 3 (γ)ρ n.2(2γ + 1)Using Proposition 6.2, since ρ n = ψ n((β+γ)/2)ψ n, we obtain that(γ){} ⎧√ ⎫P 6 (n) ≤ D 1˜h 1 (β) exp − λ2 3(γ)ψn((β 2 + γ)/2)n˜h 1 (β)⎨exp8‖K β ‖ 2 2σ 2 (2γ + 1) 2 ⎩ −D 2λ 3 (γ)ψ n ((β + γ)/2) n˜h 1 (β) ⎬√2(2γ + 1) log ˜h ⎭ .1 (β)(6.57)Using Lemma 6.4, we have that P 5 (n) satisfies the same inequality as (6.57) but withdifferent constants D 1 and D 2 . Now, since β > γ, we havewith D 17 ∈ R, which includes the lemma.λ 2 3(γ)ψ 2 n((β + γ)/2)n˜h 1 (β)8‖K β ‖ 2 2σ 2 (2γ + 1) 2 = D 16 (log n) D 17n D 18,


119Annexe.1 Résultats sur les processus gaussiensDéfinition. Soit (T,ρ), un espace T muni d’une semi-métrique ρ et ε > 0. Un sousensembleS ⊂ T est appelé un ε-réseau de l’ensemble T si, pour tout t ∈ T , il existes ∈ S tel que ρ(s,t) ≤ ε. On note N(T,ε), le nombre minimum de points d’un ε-réseau del’ensemble T . On appelle alors intégrale de Dudley de l’espace (T,ρ), la quantitéD(T,ε) =∫ ε0(log N(T,ε)) 1/2 .Définition. Soit {ξ t ,t ∈ T } un processus gaussien(i.e. pour tout (t 1 , . . . ,t n ) ∈ T , (ξ t1 , . . . ,ξ tn )est un vecteur gaussien). On définit la semi-métrique ρ ξ , associé à ξ, parρ ξ (s,t) = √ E [(ξ t − ξ s ) 2 ],où (s,t) ∈ T . L’intégrale de Dudley associé au processus gaussien ξ est l’intégrale deDudley de l’espace (T,ρ ξ ).Théorème. (Lifshits, 1995) Soit {ξ t ,t ∈ T } un processus gaussien centré tel que sonintégrale de Dudley est finie (i.e. D(T,ε) < ∞ pour tout ε > 0) et tel que l’espace (T,ρ ξ )est totalement borné. Alors, pour tout r ≥ 4 √ 2D(T,σ/2), on a l’inégalité{ }P sup ξ t > rt∈T≤ 1 − Φ(r − 4 √ 2D(T,σ/2)σoù σ = √ sup t∈T V arξ t et Φ est la fonction de répartition d’une variable gaussienne centéeréduite.),.2 Un théorème de borne inférieureSoit w : [0,∞[→ [0,∞[ une fonction croissante. Soit (Θ,S) un espace mesurable deparamètres muni d’une pseudo-distance d(·,·) (i.e., d(·,·) satisfait la définition de distance,


120 Annexeexcepté peut-être la condition d(θ,θ ′ ) = 0 ⇒ θ = θ ′ ). Etant donné un entier M ≥ 1, onconsidère M + 1 éléments de Θ: θ 0 , . . . ,θ M , et une famille de mesure de probabilités {P θ ,θ ∈ Θ} sur un espace mesurable (H,A). Afin de simplifier les notations, on note, pourk ∈ {1, . . . ,M}, P k = P θk , et E k l’espérance par rapport à P k .Théorème. (Tsybakov, 1998) Soit q > 0, τ > 0, 0 < δ < 1/2 et 0 < α < 1 des réelsfixés. On suppose que, pour tous i,k ∈ {1, . . . ,M} tels que i ≠ k, on ad(θ i ,θ k ) ≥ 1 − δ.On suppose, de plus, que P 0 est absolument continue par rapport à Q et que( ) dP0QdQ ≥ τ ≥ 1 − α,où Q = M ∑ −1 Mk=1 P k. On a alors,infˆθmax≥[ ][ ] {E }0 w(qd(ˆθ,θ 0 )) , max E k w(d(ˆθ,θ k ))k=1,...,M(1 − α)τw(1 − 2δ)w(qδ),w(1 − 2δ) + τw(qδ)dès que w(1 − 2δ) > 0 et w(qδ) > 0, où inf ˆθreprésente l’infimum sur toutes les fonctionsmesurables ˆθ : H→ Θ..3 Quelques théorèmes d’analyseInégalité de Minkowskii généralisée. Pour toute fonction g borélienne sur R d × R d ,on a∫ (∫( 2 ∫ (∫ ) 1/2g(u,x)du)dx ≤ g (u,x)dx) 2 du .La preuve de ce lemme est faite dans Besov et al. (1978).Théorème de Weierstrass généralisé. ( cf. Vainberg (1964), p100) Soit E un espacede Banach réflexif et A ⊂ E un ensemble borné faiblement fermé. Alors si T : A → R estune fonctionnelle faiblement semi-continue supérieurement, alors T atteint son maximumsur A.


Bibliographie 121BibliographieAdler, R. J. (1990). An introduction to continuity, extrema, and related topics for generalGaussian processes. Institute of Mathematical Statistics Lecture Notes—MonographSeries, 12. Institute of Mathematical Statistics, Hayward, CA.Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle.In Second International Symposium on Information Theory (Tsahkadsor, 1971),pages 267–281. Akadémiai Kiadó, Budapest.Arestov, V. V. (1989). Optimal recovery of operators and related problems. Trudy Mat.Inst. Steklov., 189:3–20. Translated in Proc. Steklov Inst. Math. 1990, no. 4, 1–20, Acollection of papers from the All-Union School on the Theory of Functions (Russian)(Dushanbe, 1986).Baraud, Y. (2002). Model selection for regression on a random design. ESAIM Probab.Statist., 6:127–146 (electronic).Baraud, Y., Comte, F., and Viennet, G. (2001). Adaptive estimation in autoregression orβ-mixing regression via model selection. Ann. Statist., 29(3):839–875.Barron, A., Birgé, L., and Massart, P. (1999). Risk bounds for model selection via penalization.Probab. Theory Related Fields, 113(3):301–413.Belitser, E. N. and Levit, B. Y. (1995). On minimax filtering over ellipsoids. Math.Methods Statist., 4(3):259–273.Bertin, K. (2003). Asymptotically exact minimax estimation in sup-norm for anisotropicHölder classes. To appear in Bernoulli, Prépublication 811 du Laboratoire de Probabilitéset Modèles Aléatoires.Bertin, K. (2004). Minimax exact constant in sup-norm for nonparametric regression withrandom design. J. Statist. Plann. Inference, 123(2):225–242.Besov, O. V., Ilin, V. P., and Nikolskii, S. M. (1978). Integral representations of functionsand imbedding theorems. Vol. I. V. H. Winston & Sons, Washington, D.C. ScriptaSeries in Mathematics, Edited by Mitchell H. Taibleson.Brown, L. D., Cai, T. T., Low, M. G., and Zhang, C.-H. (2002). Asymptotic equivalencetheory for nonparametric regression with random design. Ann. Statist., 30(3):688–707.Dedicated to the memory of Lucien Le Cam.Brown, L. D. and Low, M. G. (1996). Asymptotic equivalence of nonparametric regressionand white noise. Ann. Statist., 24(6):2384–2398.


122 BibliographieButucea, C. (2001). Exact adaptive pointwise estimation on Sobolev classes of densities.ESAIM Probab. Statist., 5:1–31 (electronic).Butucea, C. and Neumann, M. (2004). Exact asymptotics for estimating the marginal densityof discretely observed diffusion processes. To appear in "bernoulli", Prépublicationdu laboratoire de Probabilités et Modèles Aléatoires.Catoni, O. (2001). Statistical learning theory and stochastic optimization. In Lectureson probability theory and statistics (Saint-Flour, 2001), Lecture Notes in Math., pages1–230. Springer, Berlin.Cavalier, L., Golubev, G. K., Picard, D., and Tsybakov, A. B. (2002). Oracle inequalitiesfor inverse problems. Ann. Statist., 30(3):843–874. Dedicated to the memory of LucienLe Cam.Cavalier, L. and Tsybakov, A. (2002). Sharp adaptation for inverse problems with randomnoise. Probab. Theory Related Fields, 123(3):323–354.Donoho, D. L. (1994a). Asymptotic minimax risk for sup-norm loss: solution via optimalrecovery. Probab. Theory Related Fields, 99(2):145–170.Donoho, D. L. (1994b). Statistical estimation and optimal recovery. Ann. Statist.,22(1):238–270.Donoho, D. L. and Johnstone, I. M. (1995). Adapting to unknown smoothness via waveletshrinkage. J. Amer. Statist. Assoc., 90(432):1200–1224.Donoho, D. L., Johnstone, I. M., Kerkyacharian, G., and Picard, D. (1995). Waveletshrinkage: asymptopia? J. Roy. Statist. Soc. Ser. B, 57(2):301–369. With discussionand a reply by the authors.Donoho, D. L. and Liu, R. C. (1991). Geometrizing rates of convergence. II, III. Ann.Statist., 19(2):633–667, 668–701.Donoho, D. L. and Low, M. G. (1992). Renormalization exponents and optimal pointwiserates of convergence. Ann. Statist., 20(2):944–970.Efroimovich, S. Y. and Pinsker, M. S. (1981). Estimation of square-integrable densityon the basis of a sequence of observations. Problems of Information Transmission,17:50–68.Efroimovich, S. Y. and Pinsker, M. S. (1982). Estimation of square-integrable probabilitydensity of a random variable. Problems of Information Transmission, 18:175–182.Efroimovich, S. Y. and Pinsker, M. S. (1984). A self-training algorithm for nonparametricfiltering. Automat. Remote Control, 11:1434–1440.Efromovich, S. (1996). On nonparametric regression for IID observations in a generalsetting. Ann. Statist., 24(3):1125–1144.Efromovich, S. (1999). Nonparametric curve estimation. Springer Series in Statistics.Springer-Verlag, New York. Methods, theory, and applications.Efromovich, S. (2000). On sharp adaptive estimation of multivariate curves. Math. MethodsStatist., 9(2):117–139.Farrell, R. H. (1967). On the lack of a uniformly consistent sequence of estimators of adensity function in certain cases. Ann. Math. Statist., 38:471–474.


Bibliographie 123Fuller, A. T. (1960). Relay control systems optimized for various performance criteria,volume II of Proceedings of the First International Congress of the International Federationof Automatic Control. IFAC Congress, Moscow pp.584–607. Translated inAutomatic and remote control, vol I Butterworths, London;1961, pp.510–519.Gabushin, V. N. (1970). Best approximations of functionals on certain sets. Math. Notes,8:780–785.Gihman, I. I. and Skorohod, A. V. (1974). The theory of stochastic processes. I. Springer-Verlag, New York. Translated from the Russian by S. Kotz, Die Grundlehren dermathematischen Wissenschaften, Band 210.Goldenshluger, A. and Nemirovski, A. (1997). On spatially adaptive estimation of nonparametricregression. Math. Methods Statist., 6(2):135–170.Goldenshluger, A. and Tsybakov, A. (2001). Adaptive prediction and estimation in linearregression with infinitely many parameters. Ann. Statist., 29(6):1601–1619.Golubev, G. K. (1990). Quasilinear estimates for signals in L 2 . Problems Inform. Transmission,26(1):15–20.Golubev, G. K. (1992). Asymptotically minimax estimation of a regression function in anadditive model. Probl. Inf. Transm., 28(2):3–15.Golubev, G. K. and Levit, B. Y. (1996). Asymptotically efficient estimation for analyticdistributions. Math. Methods Statist., 5(3):357–368.Golubev, G. K., Levit, B. Y., and Tsybakov, A. B. (1996). Asymptotically efficient estimationof analytic functions in Gaussian noise. Bernoulli, 2(2):167–181.Golubev, G. K. and Nussbaum, M. (1992). Adaptive spline estimates in a nonparametricregression model. Theory Probab. Appl., 37(3):521–529.Gradshteyn, I. S. and Ryzhik, I. M. (1965). Table of integrals, series, and products. Fourthedition prepared by Ju. V. Geronimus and M. Ju. Ceĭtlin. Translated from the Russianby Scripta Technica, Inc. Translation edited by Alan Jeffrey. Academic Press, New York.Guerre, E. and Tsybakov, A. B. (1998). Exact asymptotic minimax constants for theestimation of analytical functions in L p . Probab. Theory Related Fields, 112(1):33–51.Härdle, W., Kerkyacharian, G., Picard, D., and Tsybakov, A. (1998). Wavelets, approximation,and statistical applications, volume 129 of Lecture Notes in Statistics. Springer-Verlag, New York.Hastie, T. and Tibshirani, R. (1986). Generalized additive models. Statist. Sci., 1(3):297–318. With discussion.Hastie, T. J. and Tibshirani, R. J. (1990). Generalized additive models, volume 43 ofMonographs on Statistics and Applied Probability. Chapman and Hall Ltd., London.Ibragimov, I. A. and Hasminskii, R. Z. (1980). On the estimation of a signal, its derivativesand the maximum point for Gaussian observations. Theory Probab. Appl., 25(4):718–733.Ibragimov, I. A. and Hasminskii, R. Z. (1981). Statistical estimation, volume 16 of Applicationsof Mathematics. Springer-Verlag, New York. Asymptotic theory, Translatedfrom the Russian by Samuel Kotz.


124 BibliographieIbragimov, I. A. and Hasminskii, R. Z. (1982). Bounds for the quality of nonparametricestimation of regression. Theory Probab. Appl., 27(1):81–94.Juditsky, A. and Nemirovski, A. (2000). Functional aggregation for nonparametric regression.Ann. Statist., 28(3):681–712.Kerkyacharian, G., Lepski, O., and Picard, D. (2001). Nonlinear estimation in anisotropicmulti-index denoising. Probab. Theory Related Fields, 121(2):137–170.Klemelä, J. (2003). Optimal recovery and statistical estimation in L p Sobolev classes.Math. Methods Statist., 12(4):429–453 (2004).Klemelä, J. and Tsybakov, A. B. (2001). Sharp adaptive estimation of linear functionals.Ann. Statist., 29(6):1567–1600.Klemelä, J. and Tsybakov, A. B. (2004). Exact constants fot pointwise adaptive estimationunder the riesz transform. Probab. Theory Related Fields, 129(3):441–467.Korostelev, A. (1993). An asymptotically minimax regression estimator in the uniformnorm up to a constant. Theory Probab. Appl., 38(4):875–882.Korostelev, A. (1996). A minimaxity criterion in nonparametric regression based on largedeviationsprobabilities. Ann. Statist., 24(3):1075–1083.Korostelev, A. and Nussbaum, M. (1999). The asymptotic minimax constant for sup-normloss in nonparametric density estimation. Bernoulli, 5(6):1099–1118.Korostelev, A. P. and Tsybakov, A. B. (1993). Minimax theory of image reconstruction,volume 82 of Lecture Notes in Statistics. Springer-Verlag, New York.Leonov, S. L. (1997). On the solution of an optimal recovery problem and its applicationsin nonparametric regression. Math. Methods Statist., 6(4):476–490 (1998).Leonov, S. L. (1999). Remarks on extremal problems in nonparametric curve estimation.Statist. Probab. Lett., 43(2):169–178.Lepski, O. V. (1990). A problem of adaptive estimation in Gaussian white noise. TheoryProbab. Appl., 35(3):459–470.Lepski, O. V. (1991). Asymptotically minimax adaptive estimation. I. Upper bounds.Optimally adaptive estimates. Theory Probab. Appl., 36(4):645–659.Lepski, O. V. (1992). On problems of adaptive estimation in white Gaussian noise. InTopics in nonparametric estimation, volume 12 of Adv. Soviet Math., pages 87–106.Amer. Math. Soc., Providence, RI.Lepski, O. V. and Levit, B. Y. (1998). Adaptive minimax estimation of infinitely differentiablefunctions. Math. Methods Statist., 7(2):123–156.Lepski, O. V. and Levit, B. Y. (1999). Adaptive nonparametric estimation of smoothmultivariate functions. Math. Methods Statist., 8(3):344–370.Lepski, O. V. and Tsybakov, A. B. (2000). Asymptotically exact nonparametric hypothesistesting in sup-norm and at a fixed point. Probab. Theory Related Fields, 117(1):17–48.Lifshits, M. A. (1995). Gaussian random functions, volume 322 of Mathematics and itsApplications. Kluwer Academic Publishers, Dordrecht.Mallows, C. L. (1973). More comments on C p . Technometrics, 15:661–673.


Bibliographie 125Micchelli, C. A. and Rivlin, T. J. (1977). A survey of optimal recovery. In Optimal estimationin approximation theory (Proc. Internat. Sympos., Freudenstadt, 1976), pages1–54. Plenum, New York.Nemirovski, A. (2000). Topics in non-parametric statistics. In Lectures on probabilitytheory and statistics (Saint-Flour, 1998), volume 1738 of Lecture Notes in Math., pages85–277. Springer, Berlin.Neumann, M. H. and von Sachs, R. (1997). Wavelet thresholding in anisotropic functionclasses and application to adaptive estimation of evolutionary spectra. Ann. Statist.,25(1):38–76.Nussbaum, M. (1985). Spline smoothing in regression models and asymptotic efficiencyin L 2 . Ann. Statist., 13(3):984–997.Nussbaum, M. (1986). On the nonparametric estimation of regression functions that aresmooth in a domain in R k . Theory Probab. Appl., 31(1):118–125.Nussbaum, M. (1996). Asymptotic equivalence of density estimation and Gaussian whitenoise. Ann. Statist., 24(6):2399–2430.Pinsker, M. S. (1980). Optimal filtration of square-integrable signals in Gaussian noise.Problems of Information Transmission, 16:52–68.Piterbarg, V. I. (1996). Asymptotic methods in the theory of Gaussian processes and fields,volume 148 of Translations of Mathematical Monographs. American Mathematical Society,Providence, RI. Translated from the Russian by V. V. Piterbarg, Revised by theauthor.Stechkin, S. B. (1968). Best approximation of linear operators. Math. Notes, 1:91–99.Stein, C. M. (1981). Estimation of the mean of a multivariate normal distribution. Ann.Statist., 9(6):1135–1151.Stone, C. J. (1980). Optimal rates of convergence for nonparametric estimators. Ann.Statist., 8(6):1348–1360.Stone, C. J. (1982). Optimal global rates of convergence for nonparametric regression.Ann. Statist., 10(4):1040–1053.Stone, C. J. (1984). An asymptotically optimal window selection rule for kernel densityestimates. Ann. Statist., 12(4):1285–1297.Stone, C. J. (1985). Additive regression and other nonparametric models. Ann. Statist.,13(2):689–705.Stone, C. J. (1986). The dimensionality reduction principle for generalized additive models.Ann. Statist., 14(2):590–606.Tsybakov, A. B. (1997). Asymptotically efficient estimation of a signal in L 2 with generalloss functions. Problems of Information Transmission, 33(1):78–88.Tsybakov, A. B. (1998). Pointwise and sup-norm sharp adaptive estimation of functionson the Sobolev classes. Ann. Statist., 26(6):2420–2469.Tsybakov, A. B. (2003). Optimal rates of aggregation. In Computational Learning Theoryan Kernel Machines, Lectures Notes in Artificial Intelligence, pages 303–313. Springer,Heidelberg.


126 BibliographieTsybakov, A. B. (2004). Introduction à l’estimation non-paramétrique, volume 41 of Mathématiques& Applications (Berlin) [Mathematics & Applications]. Springer-Verlag,Berlin.Vainberg, M. M. (1964). Variational methods for the study of nonlinear operators. Witha chapter on Newton’s method by L. V. Kantorovich and G. P. Akilov. Translated andsupplemented by Amiel Feinstein. Holden-Day Inc., San Francisco, Calif.Vainberg, M. M. (1972). Variational method and method of monotone operators in thetheory of nonlinear equations. Izdat. “Nauka”, Moscow.Yang, Y. (2000). Mixing strategies for density estimation. Ann. Statist., 28(1):75–87.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!