Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012

Généralisation de la décomposition de 

Hoeffding-Sobol pour variables 

corrélées-Application à l’analyse de sensibilité 

Gaëlle Chastaing 1 & Fabrice Gamboa 2 & Clémentine Prieur 3 

1 LJK/MOISE, 51 rue des mathématiques, BP 53 38041 Grenoble Cedex 09, 

gaelle.chastaing@imag.fr 

2 Université Paul Sabatier, IMT-EPS, 118 route de Narbonne, 31062 Toulouse Cedex 

09, fabrice.gamboa@univ-tlse.fr 

3 LJK/MOISE, 51 rue des mathématiques, BP 53 38041 Grenoble Cedex 09, 

clementine.prieur@imag.fr 

Résumé. L’analyse de sensibilité permet d’étudier la variabilité d’une sortie de 

modèle en fonction des différentes sources de variation de ses paramètres d’entrée. L’analyse 

de sensibilité globale a pour objectif d’étudier un critère global de variabilité par le biais 

de la distribution jointe des variables de sortie et d’entrée. 

Sous l’hypothèse d’indépendance des paramètres d’entrée, l’indice de Sobol est le plus 

fréquemment utilisé. Sa construction se base sur la décomposition ANOVA fonctionnelle 

de la sortie d’un modèle. Cette décomposition, aussi appelée la décomposition de 

Hoeffding-Sobol, consiste à écrire la sortie d’un modèle comme la somme orthogonale de 

fonctions de dimensions croissantes. Basé sur la décomposition de la variance globale, cet 

indice permet ainsi de mesurer la contribution d’un groupe de variables dans le modèle. 

Cependant, lorsque les variables sont corrélées, l’utilisation de cet indice peut mener à de 

mauvaises interprétations de sensibilité. Pour éviter cela, nous proposons de généraliser 

cette décomposition au cas de variables d’entrée corrélées. Sous certaines hypothèses, nous 

montrons que la sortie du modèle s’exprime comme une unique somme hiérarchiquement 

orthogonale de fonctions de dimensions croissantes. De cette décomposition, il découle la 

construction d’indices généralisés qui permettent de mesurer l’influence d’un groupe de 

variables dans le modèle en tenant compte de leur corrélation. Nous proposons aussi une 

méthode d’estimation de ces nouveaux indices, et présentons des résultats numériques. 

Mots-clés. Analyse de sensibilité, variables corrélées, décomposition ANOVA, indices 

de Sobol. 

Abstract. Sensitivity analysis is the study of how the variation in the output can 

be apportioned to different sources of variation in the inputs of a model. The global 

sensitivity analysis aims at studying a global variability criteria based on the joint distribution 

of the output-input variables. Under the hypothesis of incomes’ independence, 

the most usual quantification is the Sobol index. It is built on the functional ANOVA 

decomposition. This decomposition, also called Hoeffding-Sobol decomposition, consists 

1

in expressing the output of a model as an orthogonal sum of increasing dimension functions. 

Based on the global variance decomposition, this index allows for measuring the 

contribution of a group of inputs into the model. However, when input variables are non 

independent, the use of this quantity can lead to a bad interpretation of the sensitivity. 

To remedy to it, we give an exact and unambiguous generalized decomposition definition 

for correlated variables. Under suitable conditions, we show that the output is equal to 

an exact hierarchically orthogonal sum of increasing dimension functions. This decomposition 

leads to the construction of generalized sensitivity indices well suited to perform 

global sensitivity analysis when the incomes are correlated. We also propose a method to 

estimate generalized sensitivity indices, and give some numerical results. 

Keywords. Sensitivity analysis, correlated variables, ANOVA decomposition, Sobol 

indices. 

Résumé 

Nous considérons ici Y , la sortie d’un modèle déterministe η. Y est un scalaire réel et 

s’obtient à partir du vecteur aléatoire X ∈ R p par la relation: 

Y = η(X) 

Nous supposons que X admet une distribution PX absolument continue par rapport 

à ν, une mesure de référence donnée. On note la densité associée pX = dPX . Nous 

dν 

supposerons que η ∈ L2 R (Rp , B(Rp ), PX). Le produit scalaire sur L2 R (Rp , B(Rp ), PX) est 

 

〈h1, h2〉 = 

h1(x)h2(x)pXdν(x) = E(h1(X)h2(X)), ∀ h1, h2 ∈ L 2 R(R p , B(R p ), PX). 

Dans le cas où PX = PX1 ⊗ · · · ⊗ PXp, c’est-à-dire lorsque les variables Xi sont 

indépendantes, la décomposition ANOVA fonctionnelle classique donnée dans Sobol (1993) 

est de la forme 

η(X) = η0 + 

= 

 

p 

ηi(Xi) + 

i=1 

u⊆{1···p} 

1≤i

L’expression (1) existe et est unique sous l’hypothèse supplémentaire d’orthogonalité 

des termes de la décomposition, c’est-à-dire si 

 

ηu(xu)ηv(xv)dPX = E(ηu(Xu)ηv(Xv)) = 0, ∀ u, v ⊆ {1 · · · p}, u = v. 

Ainsi, la variance globale V (Y ) de Y peut être décomposée comme V (Y ) = 

u V (ηu(Xu)). 

Remarquons que chaque terme ηu peut être calculé explicitement à partir d’espérances 

conditionnelles. On en déduit que l’indice de Sobol pour un groupe de variables Xu est 

de la forme 

V (ηu) 

Su = 

V (Y ) = V [E(Y/Xu)] − 

v⊂u V [E(Y/Xv)] 

. (2) 

V (Y ) 

Néanmoins, cet indice, et la plupart des méthodes utilisées pour l’estimer reposent sur 

l’hypothèse d’indépendance des entrées, ce qui semble irréaliste pour beaucoup de modèles 

étudiés. Par conséquent, nous proposons d’étudier maintenant le cas de non indépendance 

des variables d’entrée. 

On suppose que ν, la mesure de référence, est un produit tensoriel quelconque de mesures 

unidimensionnelles, permettant ainsi de ne pas se limiter qu’à la mesure de Lebesgue. 

Notre l’hypothèse principale est la minoration de la densité jointe des entrées par le produit 

des densités marginales obtenues pour n’importe quelle partitionnement des variables en 

deux groupes (à une constante près) 

ν(dx) = ν1(dx1) ⊗ · · · ⊗ νp(dxp) 

∃ 0 < M ≤ 1, ∀ u ⊆ {1, · · · , p}, pX ≥ M · pXupX u c 

ν-a.e., 

où u c est le complémentaire de u, et pXu est la densité marginale de Xu. 

On présentera des exemples de distributions satisfaisant ces conditions pour des modèles 

à p dimensions, et une série d’exemples avec copules pour des modèles à 2 variables. 

Sous cette hypothèse, nous donnons une généralisation de la décomposition fonctionnelle 

ANOVA. Ce travail, inspiré par Stone (1994) et par Hooker (2007), consiste à 

décomposer la sortie du modèle en une somme de fonctions de dimensions croissantes, 

comme celle donnée en (1). Néanmoins, l’existence et l’unicité sont cette fois assurées si 

l’on exige l’orthogonalité hiérarchique des composantes, définie de la manière suivante: 

 

ηu(xu)ηv(xv)dPX = E(ηu(Xu)ηv(Xv)) = 0 ∀ u, v ⊆ {1 · · · p}, v ⊂ u. 

Cette nouvelle décomposition conduit à une formule de désagrégation de la variance 

de Y . On en déduit donc des indices de sensibilité généralisés qui permettent de mesurer 

la contribution d’un ensemble Xu: 

3

On a alors 

V (ηu(Xu)) + 

Su = 

v=∅ Cov(ηu(Xu), ηv(Xv)) 

u∩v=u,v 

V (Y ) 

. (3) 

 

u∈{1,··· ,p}\{∅} 

Su = 1. 

Dans ces nouveaux indices, les termes de covariance permettent de prendre en compte 

la corrélation éventuelle des variables, en distinguant la contribution à part entière d’une 

variable (grâce au terme V (ηu(Xu))), et sa contribution cachée dans une variable corrélée 

(grâce à Cov(ηu(Xu), ηv(Xv)), pour v = ∅ et u ∩ v = u, v). 

Aussi, cet indice généralise bien celui de Sobol, puisqu’en cas d’indépendance des entrées, 

les termes de covariance sont réduits à 0, et l’indice coïncide exactement avec celui de 

Sobol. 

Pour estimer ces indices, nous adopterons l’approche intuitive, qui consiste à estimer 

les termes de la décomposition, puis à estimer empiriquement leurs covariances. Ici, nous 

nous concentrerons sur l’estimation d’indices pour des modèles de paires indépendantes 

de variables corrélées. Supposons qu’on dispose d’un tel modèle à p = 2k variables. On 

note les groupes de variables corrélées de la façon suivante: 

X = (X1, X2, 

· · · , X2k−1, X2k) 

 

X (1) 

 

X (k) 

Le principe est d’abord d’appliquer la décomposition de Sobol classique sur les groupes 

de variables X (i) , ce qui livre 

η(X) = η0 + η1(X (1) ) + · · · + ηk(X (k) ) + 

où X (u) = (X (u1) , · · · , X (ut) ) si u = (u1, · · · , ut). 

k 

ηu(X (u) ), (4) 

Ensuite, pour chaque terme de premier ordre (ηi)i=1,··· ,k, nous utilisons la décomposition 

généralisée, puis les indices de sensibilité généralisés sur cette nouvelle décomposition. On 

obtient ainsi des indices qui permettent de mesurer l’influence des variables corrélées dans 

le modèle. Les résultats théoriques seront illustrés sur des exemples numériques. 

4 

|u|=2

Bibliographie 

[1] Chastaing, G. et Gamboa, F. et Prieur, C. (2011),Generalized Hoeffding-Sobol Decomposition 

for Dependent Variables- Application to Sensitivity Analysis, http://hal.archivesouvertes.fr/hal-00649404/fr/. 

[2] Sobol, I.M. (1993), Sensitivity estimates for nonlinear mathematical models, Wiley 

Ed., 1, 407–414. 

[3] Stone, C.J. (1994), The use of Polynomial Splines and their tensor products in multivariate 

function estimation, The Annals of Statistics, 22, 118–171. 

[4] Hooker, G. (2007), Generalized functional ANOVA diagnostics for high-dimensional 

functions of dependent variables, Journal of Computational and Graphical Statistics, 16, 

709–732. 

5

Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012

Create successful ePaper yourself

Delete template?

Save as template?