26.07.2013 Views

Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012

Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012

Généralisation de la décomposition de Hoeffding-Sobol ... - JdS'2012

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Généralisation</strong> <strong>de</strong> <strong>la</strong> <strong>décomposition</strong> <strong>de</strong><br />

<strong>Hoeffding</strong>-<strong>Sobol</strong> pour variables<br />

corrélées-Application à l’analyse <strong>de</strong> sensibilité<br />

Gaëlle Chastaing 1 & Fabrice Gamboa 2 & Clémentine Prieur 3<br />

1 LJK/MOISE, 51 rue <strong>de</strong>s mathématiques, BP 53 38041 Grenoble Ce<strong>de</strong>x 09,<br />

gaelle.chastaing@imag.fr<br />

2 Université Paul Sabatier, IMT-EPS, 118 route <strong>de</strong> Narbonne, 31062 Toulouse Ce<strong>de</strong>x<br />

09, fabrice.gamboa@univ-tlse.fr<br />

3 LJK/MOISE, 51 rue <strong>de</strong>s mathématiques, BP 53 38041 Grenoble Ce<strong>de</strong>x 09,<br />

clementine.prieur@imag.fr<br />

Résumé. L’analyse <strong>de</strong> sensibilité permet d’étudier <strong>la</strong> variabilité d’une sortie <strong>de</strong><br />

modèle en fonction <strong>de</strong>s différentes sources <strong>de</strong> variation <strong>de</strong> ses paramètres d’entrée. L’analyse<br />

<strong>de</strong> sensibilité globale a pour objectif d’étudier un critère global <strong>de</strong> variabilité par le biais<br />

<strong>de</strong> <strong>la</strong> distribution jointe <strong>de</strong>s variables <strong>de</strong> sortie et d’entrée.<br />

Sous l’hypothèse d’indépendance <strong>de</strong>s paramètres d’entrée, l’indice <strong>de</strong> <strong>Sobol</strong> est le plus<br />

fréquemment utilisé. Sa construction se base sur <strong>la</strong> <strong>décomposition</strong> ANOVA fonctionnelle<br />

<strong>de</strong> <strong>la</strong> sortie d’un modèle. Cette <strong>décomposition</strong>, aussi appelée <strong>la</strong> <strong>décomposition</strong> <strong>de</strong><br />

<strong>Hoeffding</strong>-<strong>Sobol</strong>, consiste à écrire <strong>la</strong> sortie d’un modèle comme <strong>la</strong> somme orthogonale <strong>de</strong><br />

fonctions <strong>de</strong> dimensions croissantes. Basé sur <strong>la</strong> <strong>décomposition</strong> <strong>de</strong> <strong>la</strong> variance globale, cet<br />

indice permet ainsi <strong>de</strong> mesurer <strong>la</strong> contribution d’un groupe <strong>de</strong> variables dans le modèle.<br />

Cependant, lorsque les variables sont corrélées, l’utilisation <strong>de</strong> cet indice peut mener à <strong>de</strong><br />

mauvaises interprétations <strong>de</strong> sensibilité. Pour éviter ce<strong>la</strong>, nous proposons <strong>de</strong> généraliser<br />

cette <strong>décomposition</strong> au cas <strong>de</strong> variables d’entrée corrélées. Sous certaines hypothèses, nous<br />

montrons que <strong>la</strong> sortie du modèle s’exprime comme une unique somme hiérarchiquement<br />

orthogonale <strong>de</strong> fonctions <strong>de</strong> dimensions croissantes. De cette <strong>décomposition</strong>, il découle <strong>la</strong><br />

construction d’indices généralisés qui permettent <strong>de</strong> mesurer l’influence d’un groupe <strong>de</strong><br />

variables dans le modèle en tenant compte <strong>de</strong> leur corré<strong>la</strong>tion. Nous proposons aussi une<br />

métho<strong>de</strong> d’estimation <strong>de</strong> ces nouveaux indices, et présentons <strong>de</strong>s résultats numériques.<br />

Mots-clés. Analyse <strong>de</strong> sensibilité, variables corrélées, <strong>décomposition</strong> ANOVA, indices<br />

<strong>de</strong> <strong>Sobol</strong>.<br />

Abstract. Sensitivity analysis is the study of how the variation in the output can<br />

be apportioned to different sources of variation in the inputs of a mo<strong>de</strong>l. The global<br />

sensitivity analysis aims at studying a global variability criteria based on the joint distribution<br />

of the output-input variables. Un<strong>de</strong>r the hypothesis of incomes’ in<strong>de</strong>pen<strong>de</strong>nce,<br />

the most usual quantification is the <strong>Sobol</strong> in<strong>de</strong>x. It is built on the functional ANOVA<br />

<strong>de</strong>composition. This <strong>de</strong>composition, also called <strong>Hoeffding</strong>-<strong>Sobol</strong> <strong>de</strong>composition, consists<br />

1


in expressing the output of a mo<strong>de</strong>l as an orthogonal sum of increasing dimension functions.<br />

Based on the global variance <strong>de</strong>composition, this in<strong>de</strong>x allows for measuring the<br />

contribution of a group of inputs into the mo<strong>de</strong>l. However, when input variables are non<br />

in<strong>de</strong>pen<strong>de</strong>nt, the use of this quantity can lead to a bad interpretation of the sensitivity.<br />

To remedy to it, we give an exact and unambiguous generalized <strong>de</strong>composition <strong>de</strong>finition<br />

for corre<strong>la</strong>ted variables. Un<strong>de</strong>r suitable conditions, we show that the output is equal to<br />

an exact hierarchically orthogonal sum of increasing dimension functions. This <strong>de</strong>composition<br />

leads to the construction of generalized sensitivity indices well suited to perform<br />

global sensitivity analysis when the incomes are corre<strong>la</strong>ted. We also propose a method to<br />

estimate generalized sensitivity indices, and give some numerical results.<br />

Keywords. Sensitivity analysis, corre<strong>la</strong>ted variables, ANOVA <strong>de</strong>composition, <strong>Sobol</strong><br />

indices.<br />

Résumé<br />

Nous considérons ici Y , <strong>la</strong> sortie d’un modèle déterministe η. Y est un sca<strong>la</strong>ire réel et<br />

s’obtient à partir du vecteur aléatoire X ∈ R p par <strong>la</strong> re<strong>la</strong>tion:<br />

Y = η(X)<br />

Nous supposons que X admet une distribution PX absolument continue par rapport<br />

à ν, une mesure <strong>de</strong> référence donnée. On note <strong>la</strong> <strong>de</strong>nsité associée pX = dPX . Nous<br />

dν<br />

supposerons que η ∈ L2 R (Rp , B(Rp ), PX). Le produit sca<strong>la</strong>ire sur L2 R (Rp , B(Rp ), PX) est<br />

<br />

〈h1, h2〉 =<br />

h1(x)h2(x)pXdν(x) = E(h1(X)h2(X)), ∀ h1, h2 ∈ L 2 R(R p , B(R p ), PX).<br />

Dans le cas où PX = PX1 ⊗ · · · ⊗ PXp, c’est-à-dire lorsque les variables Xi sont<br />

indépendantes, <strong>la</strong> <strong>décomposition</strong> ANOVA fonctionnelle c<strong>la</strong>ssique donnée dans <strong>Sobol</strong> (1993)<br />

est <strong>de</strong> <strong>la</strong> forme<br />

η(X) = η0 +<br />

=<br />

<br />

p<br />

ηi(Xi) + <br />

i=1<br />

u⊆{1···p}<br />

1≤i


L’expression (1) existe et est unique sous l’hypothèse supplémentaire d’orthogonalité<br />

<strong>de</strong>s termes <strong>de</strong> <strong>la</strong> <strong>décomposition</strong>, c’est-à-dire si<br />

<br />

ηu(xu)ηv(xv)dPX = E(ηu(Xu)ηv(Xv)) = 0, ∀ u, v ⊆ {1 · · · p}, u = v.<br />

Ainsi, <strong>la</strong> variance globale V (Y ) <strong>de</strong> Y peut être décomposée comme V (Y ) = <br />

u V (ηu(Xu)).<br />

Remarquons que chaque terme ηu peut être calculé explicitement à partir d’espérances<br />

conditionnelles. On en déduit que l’indice <strong>de</strong> <strong>Sobol</strong> pour un groupe <strong>de</strong> variables Xu est<br />

<strong>de</strong> <strong>la</strong> forme<br />

V (ηu)<br />

Su =<br />

V (Y ) = V [E(Y/Xu)] − <br />

v⊂u V [E(Y/Xv)]<br />

. (2)<br />

V (Y )<br />

Néanmoins, cet indice, et <strong>la</strong> plupart <strong>de</strong>s métho<strong>de</strong>s utilisées pour l’estimer reposent sur<br />

l’hypothèse d’indépendance <strong>de</strong>s entrées, ce qui semble irréaliste pour beaucoup <strong>de</strong> modèles<br />

étudiés. Par conséquent, nous proposons d’étudier maintenant le cas <strong>de</strong> non indépendance<br />

<strong>de</strong>s variables d’entrée.<br />

On suppose que ν, <strong>la</strong> mesure <strong>de</strong> référence, est un produit tensoriel quelconque <strong>de</strong> mesures<br />

unidimensionnelles, permettant ainsi <strong>de</strong> ne pas se limiter qu’à <strong>la</strong> mesure <strong>de</strong> Lebesgue.<br />

Notre l’hypothèse principale est <strong>la</strong> minoration <strong>de</strong> <strong>la</strong> <strong>de</strong>nsité jointe <strong>de</strong>s entrées par le produit<br />

<strong>de</strong>s <strong>de</strong>nsités marginales obtenues pour n’importe quelle partitionnement <strong>de</strong>s variables en<br />

<strong>de</strong>ux groupes (à une constante près)<br />

ν(dx) = ν1(dx1) ⊗ · · · ⊗ νp(dxp)<br />

∃ 0 < M ≤ 1, ∀ u ⊆ {1, · · · , p}, pX ≥ M · pXupX u c<br />

ν-a.e.,<br />

où u c est le complémentaire <strong>de</strong> u, et pXu est <strong>la</strong> <strong>de</strong>nsité marginale <strong>de</strong> Xu.<br />

On présentera <strong>de</strong>s exemples <strong>de</strong> distributions satisfaisant ces conditions pour <strong>de</strong>s modèles<br />

à p dimensions, et une série d’exemples avec copules pour <strong>de</strong>s modèles à 2 variables.<br />

Sous cette hypothèse, nous donnons une généralisation <strong>de</strong> <strong>la</strong> <strong>décomposition</strong> fonctionnelle<br />

ANOVA. Ce travail, inspiré par Stone (1994) et par Hooker (2007), consiste à<br />

décomposer <strong>la</strong> sortie du modèle en une somme <strong>de</strong> fonctions <strong>de</strong> dimensions croissantes,<br />

comme celle donnée en (1). Néanmoins, l’existence et l’unicité sont cette fois assurées si<br />

l’on exige l’orthogonalité hiérarchique <strong>de</strong>s composantes, définie <strong>de</strong> <strong>la</strong> manière suivante:<br />

<br />

ηu(xu)ηv(xv)dPX = E(ηu(Xu)ηv(Xv)) = 0 ∀ u, v ⊆ {1 · · · p}, v ⊂ u.<br />

Cette nouvelle <strong>décomposition</strong> conduit à une formule <strong>de</strong> désagrégation <strong>de</strong> <strong>la</strong> variance<br />

<strong>de</strong> Y . On en déduit donc <strong>de</strong>s indices <strong>de</strong> sensibilité généralisés qui permettent <strong>de</strong> mesurer<br />

<strong>la</strong> contribution d’un ensemble Xu:<br />

3


On a alors<br />

V (ηu(Xu)) +<br />

Su =<br />

v=∅ Cov(ηu(Xu), ηv(Xv))<br />

u∩v=u,v<br />

V (Y )<br />

. (3)<br />

<br />

u∈{1,··· ,p}\{∅}<br />

Su = 1.<br />

Dans ces nouveaux indices, les termes <strong>de</strong> covariance permettent <strong>de</strong> prendre en compte<br />

<strong>la</strong> corré<strong>la</strong>tion éventuelle <strong>de</strong>s variables, en distinguant <strong>la</strong> contribution à part entière d’une<br />

variable (grâce au terme V (ηu(Xu))), et sa contribution cachée dans une variable corrélée<br />

(grâce à Cov(ηu(Xu), ηv(Xv)), pour v = ∅ et u ∩ v = u, v).<br />

Aussi, cet indice généralise bien celui <strong>de</strong> <strong>Sobol</strong>, puisqu’en cas d’indépendance <strong>de</strong>s entrées,<br />

les termes <strong>de</strong> covariance sont réduits à 0, et l’indice coïnci<strong>de</strong> exactement avec celui <strong>de</strong><br />

<strong>Sobol</strong>.<br />

Pour estimer ces indices, nous adopterons l’approche intuitive, qui consiste à estimer<br />

les termes <strong>de</strong> <strong>la</strong> <strong>décomposition</strong>, puis à estimer empiriquement leurs covariances. Ici, nous<br />

nous concentrerons sur l’estimation d’indices pour <strong>de</strong>s modèles <strong>de</strong> paires indépendantes<br />

<strong>de</strong> variables corrélées. Supposons qu’on dispose d’un tel modèle à p = 2k variables. On<br />

note les groupes <strong>de</strong> variables corrélées <strong>de</strong> <strong>la</strong> façon suivante:<br />

X = (X1, X2,<br />

· · · , X2k−1, X2k)<br />

<br />

X (1)<br />

<br />

X (k)<br />

Le principe est d’abord d’appliquer <strong>la</strong> <strong>décomposition</strong> <strong>de</strong> <strong>Sobol</strong> c<strong>la</strong>ssique sur les groupes<br />

<strong>de</strong> variables X (i) , ce qui livre<br />

η(X) = η0 + η1(X (1) ) + · · · + ηk(X (k) ) +<br />

où X (u) = (X (u1) , · · · , X (ut) ) si u = (u1, · · · , ut).<br />

k<br />

ηu(X (u) ), (4)<br />

Ensuite, pour chaque terme <strong>de</strong> premier ordre (ηi)i=1,··· ,k, nous utilisons <strong>la</strong> <strong>décomposition</strong><br />

généralisée, puis les indices <strong>de</strong> sensibilité généralisés sur cette nouvelle <strong>décomposition</strong>. On<br />

obtient ainsi <strong>de</strong>s indices qui permettent <strong>de</strong> mesurer l’influence <strong>de</strong>s variables corrélées dans<br />

le modèle. Les résultats théoriques seront illustrés sur <strong>de</strong>s exemples numériques.<br />

4<br />

|u|=2


Bibliographie<br />

[1] Chastaing, G. et Gamboa, F. et Prieur, C. (2011),Generalized <strong>Hoeffding</strong>-<strong>Sobol</strong> Decomposition<br />

for Depen<strong>de</strong>nt Variables- Application to Sensitivity Analysis, http://hal.archivesouvertes.fr/hal-00649404/fr/.<br />

[2] <strong>Sobol</strong>, I.M. (1993), Sensitivity estimates for nonlinear mathematical mo<strong>de</strong>ls, Wiley<br />

Ed., 1, 407–414.<br />

[3] Stone, C.J. (1994), The use of Polynomial Splines and their tensor products in multivariate<br />

function estimation, The Annals of Statistics, 22, 118–171.<br />

[4] Hooker, G. (2007), Generalized functional ANOVA diagnostics for high-dimensional<br />

functions of <strong>de</strong>pen<strong>de</strong>nt variables, Journal of Computational and Graphical Statistics, 16,<br />

709–732.<br />

5

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!