Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012
Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012
Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Généralisation</strong> <strong>de</strong> <strong>la</strong> <strong>décomposition</strong> <strong>de</strong><br />
<strong>Hoeffding</strong>-<strong>Sobol</strong> pour variables<br />
corrélées-Application à l’analyse <strong>de</strong> sensibilité<br />
Gaëlle Chastaing 1 & Fabrice Gamboa 2 & Clémentine Prieur 3<br />
1 LJK/MOISE, 51 rue <strong>de</strong>s mathématiques, BP 53 38041 Grenoble Ce<strong>de</strong>x 09,<br />
gaelle.chastaing@imag.fr<br />
2 Université Paul Sabatier, IMT-EPS, 118 route <strong>de</strong> Narbonne, 31062 Toulouse Ce<strong>de</strong>x<br />
09, fabrice.gamboa@univ-tlse.fr<br />
3 LJK/MOISE, 51 rue <strong>de</strong>s mathématiques, BP 53 38041 Grenoble Ce<strong>de</strong>x 09,<br />
clementine.prieur@imag.fr<br />
Résumé. L’analyse <strong>de</strong> sensibilité permet d’étudier <strong>la</strong> variabilité d’une sortie <strong>de</strong><br />
modèle en fonction <strong>de</strong>s différentes sources <strong>de</strong> variation <strong>de</strong> ses paramètres d’entrée. L’analyse<br />
<strong>de</strong> sensibilité globale a pour objectif d’étudier un critère global <strong>de</strong> variabilité par le biais<br />
<strong>de</strong> <strong>la</strong> distribution jointe <strong>de</strong>s variables <strong>de</strong> sortie et d’entrée.<br />
Sous l’hypothèse d’indépendance <strong>de</strong>s paramètres d’entrée, l’indice <strong>de</strong> <strong>Sobol</strong> est le plus<br />
fréquemment utilisé. Sa construction se base sur <strong>la</strong> <strong>décomposition</strong> ANOVA fonctionnelle<br />
<strong>de</strong> <strong>la</strong> sortie d’un modèle. Cette <strong>décomposition</strong>, aussi appelée <strong>la</strong> <strong>décomposition</strong> <strong>de</strong><br />
<strong>Hoeffding</strong>-<strong>Sobol</strong>, consiste à écrire <strong>la</strong> sortie d’un modèle comme <strong>la</strong> somme orthogonale <strong>de</strong><br />
fonctions <strong>de</strong> dimensions croissantes. Basé sur <strong>la</strong> <strong>décomposition</strong> <strong>de</strong> <strong>la</strong> variance globale, cet<br />
indice permet ainsi <strong>de</strong> mesurer <strong>la</strong> contribution d’un groupe <strong>de</strong> variables dans le modèle.<br />
Cependant, lorsque les variables sont corrélées, l’utilisation <strong>de</strong> cet indice peut mener à <strong>de</strong><br />
mauvaises interprétations <strong>de</strong> sensibilité. Pour éviter ce<strong>la</strong>, nous proposons <strong>de</strong> généraliser<br />
cette <strong>décomposition</strong> au cas <strong>de</strong> variables d’entrée corrélées. Sous certaines hypothèses, nous<br />
montrons que <strong>la</strong> sortie du modèle s’exprime comme une unique somme hiérarchiquement<br />
orthogonale <strong>de</strong> fonctions <strong>de</strong> dimensions croissantes. De cette <strong>décomposition</strong>, il découle <strong>la</strong><br />
construction d’indices généralisés qui permettent <strong>de</strong> mesurer l’influence d’un groupe <strong>de</strong><br />
variables dans le modèle en tenant compte <strong>de</strong> leur corré<strong>la</strong>tion. Nous proposons aussi une<br />
métho<strong>de</strong> d’estimation <strong>de</strong> ces nouveaux indices, et présentons <strong>de</strong>s résultats numériques.<br />
Mots-clés. Analyse <strong>de</strong> sensibilité, variables corrélées, <strong>décomposition</strong> ANOVA, indices<br />
<strong>de</strong> <strong>Sobol</strong>.<br />
Abstract. Sensitivity analysis is the study of how the variation in the output can<br />
be apportioned to different sources of variation in the inputs of a mo<strong>de</strong>l. The global<br />
sensitivity analysis aims at studying a global variability criteria based on the joint distribution<br />
of the output-input variables. Un<strong>de</strong>r the hypothesis of incomes’ in<strong>de</strong>pen<strong>de</strong>nce,<br />
the most usual quantification is the <strong>Sobol</strong> in<strong>de</strong>x. It is built on the functional ANOVA<br />
<strong>de</strong>composition. This <strong>de</strong>composition, also called <strong>Hoeffding</strong>-<strong>Sobol</strong> <strong>de</strong>composition, consists<br />
1
in expressing the output of a mo<strong>de</strong>l as an orthogonal sum of increasing dimension functions.<br />
Based on the global variance <strong>de</strong>composition, this in<strong>de</strong>x allows for measuring the<br />
contribution of a group of inputs into the mo<strong>de</strong>l. However, when input variables are non<br />
in<strong>de</strong>pen<strong>de</strong>nt, the use of this quantity can lead to a bad interpretation of the sensitivity.<br />
To remedy to it, we give an exact and unambiguous generalized <strong>de</strong>composition <strong>de</strong>finition<br />
for corre<strong>la</strong>ted variables. Un<strong>de</strong>r suitable conditions, we show that the output is equal to<br />
an exact hierarchically orthogonal sum of increasing dimension functions. This <strong>de</strong>composition<br />
leads to the construction of generalized sensitivity indices well suited to perform<br />
global sensitivity analysis when the incomes are corre<strong>la</strong>ted. We also propose a method to<br />
estimate generalized sensitivity indices, and give some numerical results.<br />
Keywords. Sensitivity analysis, corre<strong>la</strong>ted variables, ANOVA <strong>de</strong>composition, <strong>Sobol</strong><br />
indices.<br />
Résumé<br />
Nous considérons ici Y , <strong>la</strong> sortie d’un modèle déterministe η. Y est un sca<strong>la</strong>ire réel et<br />
s’obtient à partir du vecteur aléatoire X ∈ R p par <strong>la</strong> re<strong>la</strong>tion:<br />
Y = η(X)<br />
Nous supposons que X admet une distribution PX absolument continue par rapport<br />
à ν, une mesure <strong>de</strong> référence donnée. On note <strong>la</strong> <strong>de</strong>nsité associée pX = dPX . Nous<br />
dν<br />
supposerons que η ∈ L2 R (Rp , B(Rp ), PX). Le produit sca<strong>la</strong>ire sur L2 R (Rp , B(Rp ), PX) est<br />
<br />
〈h1, h2〉 =<br />
h1(x)h2(x)pXdν(x) = E(h1(X)h2(X)), ∀ h1, h2 ∈ L 2 R(R p , B(R p ), PX).<br />
Dans le cas où PX = PX1 ⊗ · · · ⊗ PXp, c’est-à-dire lorsque les variables Xi sont<br />
indépendantes, <strong>la</strong> <strong>décomposition</strong> ANOVA fonctionnelle c<strong>la</strong>ssique donnée dans <strong>Sobol</strong> (1993)<br />
est <strong>de</strong> <strong>la</strong> forme<br />
η(X) = η0 +<br />
=<br />
<br />
p<br />
ηi(Xi) + <br />
i=1<br />
u⊆{1···p}<br />
1≤i
L’expression (1) existe et est unique sous l’hypothèse supplémentaire d’orthogonalité<br />
<strong>de</strong>s termes <strong>de</strong> <strong>la</strong> <strong>décomposition</strong>, c’est-à-dire si<br />
<br />
ηu(xu)ηv(xv)dPX = E(ηu(Xu)ηv(Xv)) = 0, ∀ u, v ⊆ {1 · · · p}, u = v.<br />
Ainsi, <strong>la</strong> variance globale V (Y ) <strong>de</strong> Y peut être décomposée comme V (Y ) = <br />
u V (ηu(Xu)).<br />
Remarquons que chaque terme ηu peut être calculé explicitement à partir d’espérances<br />
conditionnelles. On en déduit que l’indice <strong>de</strong> <strong>Sobol</strong> pour un groupe <strong>de</strong> variables Xu est<br />
<strong>de</strong> <strong>la</strong> forme<br />
V (ηu)<br />
Su =<br />
V (Y ) = V [E(Y/Xu)] − <br />
v⊂u V [E(Y/Xv)]<br />
. (2)<br />
V (Y )<br />
Néanmoins, cet indice, et <strong>la</strong> plupart <strong>de</strong>s métho<strong>de</strong>s utilisées pour l’estimer reposent sur<br />
l’hypothèse d’indépendance <strong>de</strong>s entrées, ce qui semble irréaliste pour beaucoup <strong>de</strong> modèles<br />
étudiés. Par conséquent, nous proposons d’étudier maintenant le cas <strong>de</strong> non indépendance<br />
<strong>de</strong>s variables d’entrée.<br />
On suppose que ν, <strong>la</strong> mesure <strong>de</strong> référence, est un produit tensoriel quelconque <strong>de</strong> mesures<br />
unidimensionnelles, permettant ainsi <strong>de</strong> ne pas se limiter qu’à <strong>la</strong> mesure <strong>de</strong> Lebesgue.<br />
Notre l’hypothèse principale est <strong>la</strong> minoration <strong>de</strong> <strong>la</strong> <strong>de</strong>nsité jointe <strong>de</strong>s entrées par le produit<br />
<strong>de</strong>s <strong>de</strong>nsités marginales obtenues pour n’importe quelle partitionnement <strong>de</strong>s variables en<br />
<strong>de</strong>ux groupes (à une constante près)<br />
ν(dx) = ν1(dx1) ⊗ · · · ⊗ νp(dxp)<br />
∃ 0 < M ≤ 1, ∀ u ⊆ {1, · · · , p}, pX ≥ M · pXupX u c<br />
ν-a.e.,<br />
où u c est le complémentaire <strong>de</strong> u, et pXu est <strong>la</strong> <strong>de</strong>nsité marginale <strong>de</strong> Xu.<br />
On présentera <strong>de</strong>s exemples <strong>de</strong> distributions satisfaisant ces conditions pour <strong>de</strong>s modèles<br />
à p dimensions, et une série d’exemples avec copules pour <strong>de</strong>s modèles à 2 variables.<br />
Sous cette hypothèse, nous donnons une généralisation <strong>de</strong> <strong>la</strong> <strong>décomposition</strong> fonctionnelle<br />
ANOVA. Ce travail, inspiré par Stone (1994) et par Hooker (2007), consiste à<br />
décomposer <strong>la</strong> sortie du modèle en une somme <strong>de</strong> fonctions <strong>de</strong> dimensions croissantes,<br />
comme celle donnée en (1). Néanmoins, l’existence et l’unicité sont cette fois assurées si<br />
l’on exige l’orthogonalité hiérarchique <strong>de</strong>s composantes, définie <strong>de</strong> <strong>la</strong> manière suivante:<br />
<br />
ηu(xu)ηv(xv)dPX = E(ηu(Xu)ηv(Xv)) = 0 ∀ u, v ⊆ {1 · · · p}, v ⊂ u.<br />
Cette nouvelle <strong>décomposition</strong> conduit à une formule <strong>de</strong> désagrégation <strong>de</strong> <strong>la</strong> variance<br />
<strong>de</strong> Y . On en déduit donc <strong>de</strong>s indices <strong>de</strong> sensibilité généralisés qui permettent <strong>de</strong> mesurer<br />
<strong>la</strong> contribution d’un ensemble Xu:<br />
3
On a alors<br />
V (ηu(Xu)) +<br />
Su =<br />
v=∅ Cov(ηu(Xu), ηv(Xv))<br />
u∩v=u,v<br />
V (Y )<br />
. (3)<br />
<br />
u∈{1,··· ,p}\{∅}<br />
Su = 1.<br />
Dans ces nouveaux indices, les termes <strong>de</strong> covariance permettent <strong>de</strong> prendre en compte<br />
<strong>la</strong> corré<strong>la</strong>tion éventuelle <strong>de</strong>s variables, en distinguant <strong>la</strong> contribution à part entière d’une<br />
variable (grâce au terme V (ηu(Xu))), et sa contribution cachée dans une variable corrélée<br />
(grâce à Cov(ηu(Xu), ηv(Xv)), pour v = ∅ et u ∩ v = u, v).<br />
Aussi, cet indice généralise bien celui <strong>de</strong> <strong>Sobol</strong>, puisqu’en cas d’indépendance <strong>de</strong>s entrées,<br />
les termes <strong>de</strong> covariance sont réduits à 0, et l’indice coïnci<strong>de</strong> exactement avec celui <strong>de</strong><br />
<strong>Sobol</strong>.<br />
Pour estimer ces indices, nous adopterons l’approche intuitive, qui consiste à estimer<br />
les termes <strong>de</strong> <strong>la</strong> <strong>décomposition</strong>, puis à estimer empiriquement leurs covariances. Ici, nous<br />
nous concentrerons sur l’estimation d’indices pour <strong>de</strong>s modèles <strong>de</strong> paires indépendantes<br />
<strong>de</strong> variables corrélées. Supposons qu’on dispose d’un tel modèle à p = 2k variables. On<br />
note les groupes <strong>de</strong> variables corrélées <strong>de</strong> <strong>la</strong> façon suivante:<br />
X = (X1, X2,<br />
· · · , X2k−1, X2k)<br />
<br />
X (1)<br />
<br />
X (k)<br />
Le principe est d’abord d’appliquer <strong>la</strong> <strong>décomposition</strong> <strong>de</strong> <strong>Sobol</strong> c<strong>la</strong>ssique sur les groupes<br />
<strong>de</strong> variables X (i) , ce qui livre<br />
η(X) = η0 + η1(X (1) ) + · · · + ηk(X (k) ) +<br />
où X (u) = (X (u1) , · · · , X (ut) ) si u = (u1, · · · , ut).<br />
k<br />
ηu(X (u) ), (4)<br />
Ensuite, pour chaque terme <strong>de</strong> premier ordre (ηi)i=1,··· ,k, nous utilisons <strong>la</strong> <strong>décomposition</strong><br />
généralisée, puis les indices <strong>de</strong> sensibilité généralisés sur cette nouvelle <strong>décomposition</strong>. On<br />
obtient ainsi <strong>de</strong>s indices qui permettent <strong>de</strong> mesurer l’influence <strong>de</strong>s variables corrélées dans<br />
le modèle. Les résultats théoriques seront illustrés sur <strong>de</strong>s exemples numériques.<br />
4<br />
|u|=2
Bibliographie<br />
[1] Chastaing, G. et Gamboa, F. et Prieur, C. (2011),Generalized <strong>Hoeffding</strong>-<strong>Sobol</strong> Decomposition<br />
for Depen<strong>de</strong>nt Variables- Application to Sensitivity Analysis, http://hal.archivesouvertes.fr/hal-00649404/fr/.<br />
[2] <strong>Sobol</strong>, I.M. (1993), Sensitivity estimates for nonlinear mathematical mo<strong>de</strong>ls, Wiley<br />
Ed., 1, 407–414.<br />
[3] Stone, C.J. (1994), The use of Polynomial Splines and their tensor products in multivariate<br />
function estimation, The Annals of Statistics, 22, 118–171.<br />
[4] Hooker, G. (2007), Generalized functional ANOVA diagnostics for high-dimensional<br />
functions of <strong>de</strong>pen<strong>de</strong>nt variables, Journal of Computational and Graphical Statistics, 16,<br />
709–732.<br />
5