03.10.2013 Views

nonstationarity, covariance estimation and state-space ... - EPFL

nonstationarity, covariance estimation and state-space ... - EPFL

nonstationarity, covariance estimation and state-space ... - EPFL

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ASPECTS OF MODERN GEOSTATISTICS:<br />

NONSTATIONARITY, COVARIANCE ESTIMATION AND<br />

STATE-SPACE DECOMPOSITIONS<br />

THÈSE No 2562 (2002)<br />

PRÉSENTÉE A LA FACULTÉ SB SECTION DE MATHÉMATIQUES<br />

ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE<br />

POUR L'OBTENTION DU GRADE DE DOCTEUR ÈS SCIENCES<br />

PAR<br />

Reinhard FURRER<br />

ingénieur mathématicien diplômé EPF<br />

de nationalité suisse et originaire dlEisten (VS)<br />

acceptée sur proposition du jury:<br />

Prof. S. Morgenthaler, directeur de thèse<br />

Prof. A.C. Davison, rapporteur<br />

Prof. J. Hüsler, rapporteur<br />

Prof. R. Webster, rapporteur<br />

Lausanne, <strong>EPFL</strong><br />

2002


A bstract<br />

Geostatistical data are measurements taken at fixed locations in a spatial domain. Generally the latter are<br />

spatially continuous, as is typically the case in mining engineering, geology, soi1 science, <strong>and</strong> hydrology.<br />

Geostatistical models are based on the concept of spatial or spatio-temporal processes <strong>and</strong> aim to describe<br />

the underlying dependence structure. Spatial variability is modeled as a function of the distance between<br />

sampling sites. Called the 'variogram' or 'covariogram', this function is used to apply statistical methods<br />

such as <strong>estimation</strong> <strong>and</strong>/or prediction, referred to as 'kriging' in the geostatistical context. To quantify the<br />

spatio-temporal dependence, <strong>estimation</strong> techniques relying on certain hypotheses of stationarity (seldom<br />

met in reality) are applied.<br />

Nonstationarity <strong>and</strong> <strong>covariance</strong> <strong>estimation</strong> are the underlying topics of the present thesis, which consists<br />

of four chapters.<br />

The first chapter gives a concise overview of geostatistical definitions <strong>and</strong> notation used throughout the<br />

thesis. Prior to generalizing the concepts to multivariate <strong>and</strong> spatio-temporal processes, they are explained<br />

on spatial processes.<br />

There exist many different forms of <strong>nonstationarity</strong>. Two of them are discussed in the second chapter.<br />

First, the case where the mean of the process depends on the location is studied. The identification of<br />

a trend is a nontrivial problem <strong>and</strong> we emphasize that there exists no trend <strong>estimation</strong> procedure for<br />

spatial processes with unknown dependence structure. Exploratory tools for the empirical variogram or<br />

for the observed process, as well as a commonly used parametric <strong>and</strong> nonparametric method for trend<br />

<strong>estimation</strong> are illustrated. A simple method that evolved out of the corisequences of visual data analysis is<br />

developed, namely variogram <strong>estimation</strong> based on 'local trend <strong>estimation</strong>'. The latter separates the domain<br />

in several subdomains, or patches, on which an individual trend is estimated, <strong>and</strong> the residuals are combined<br />

throughout the entire domain to allow global <strong>estimation</strong> <strong>and</strong>/or inference. Simulations show that a simple<br />

<strong>and</strong> almost arbitrary subdivision is already sufficient to improve the results of variogram <strong>estimation</strong>.<br />

Moreover, the method does not break down when the (heuristic) decomposition does not coincide with<br />

the (true) separation of the populations. Even if the true trend is not linear the method performs better<br />

than other well-known parametric or nonparametric trend <strong>estimation</strong> techniques. To underline these<br />

<strong>state</strong>ments the method is applied to real data. A second form of <strong>nonstationarity</strong> is the dependence of the<br />

<strong>covariance</strong> structure on the location. Under this circumstance classical covariogram <strong>estimation</strong> techniques<br />

are not applicable. For example, in atmospheric science one can easily imagine situations where the spatial<br />

dependence changes with time or where the maximum magnitude of variability may alter in time. For<br />

such phenornena new models are needed. Hence the remaining part of the second chapter discusses a<br />

new method of valid covariogram construction for nonstationary spatio-temporal processes. These new<br />

covariogram models are illustrated with simulations <strong>and</strong> an application to a dataset is given.<br />

Several statistical tools are based on the <strong>covariance</strong> matrix of the underlying process. An example of<br />

such a method is (functional) principal components analysis, which aims to represent a set of possibly<br />

vii


viii<br />

--<br />

Abstract<br />

correlated. variables into uncorrelated orthogonal components. These uncorrelated components can be<br />

construc.ted successively, each one extracting a maximal amount of the remaining variance. This often<br />

leads to an appreciable reduction in dimensionality, replacing the original variables by a few components.<br />

To calculate the orthogonal components the <strong>covariance</strong> matrix of a multivariate or spatio-temporal process<br />

is required. The latter is rarely known <strong>and</strong> therefore has to be estimated. As mentionecl, an important<br />

aspect o:f geostatistical datais dependence over <strong>space</strong> as well as over time. This has to be taken into account<br />

when esti:mating the <strong>covariance</strong> matrix <strong>and</strong> the natural estimator of the <strong>covariance</strong> matrix is introduced<br />

in the third chapter. It is shown that it is biased under spatio-temporal dependence. This bias is studied<br />

under two different asymptotic models, namely increasing the number of observations in the domain <strong>and</strong><br />

increasirig the domain by increasirig the number of locations. Using the first asymptotic mode1 we derive<br />

a fast <strong>and</strong> accurate bias correction, whereas the second asymptotic model serves to quantify the speed<br />

of convergence of the bias <strong>and</strong> the <strong>covariance</strong> of the components of the estimated <strong>covariance</strong> matrix. As<br />

shown, under mild hypotheses the asymptotic normality of the estimated <strong>covariance</strong> matrix holds <strong>and</strong> can<br />

be used .tc) test whether the eigenvectors of the estimated <strong>and</strong> the true <strong>covariance</strong> matrices are significantly<br />

different. This is revealed by examples, emphasizing the need for a bias correction. Furthermore, the<br />

theoretica.1 results are illustrated with Monte Carlo simulation studies <strong>and</strong> again with an application to<br />

real data.<br />

The niost commonly used decomposition to extract stationary parts of a process is based on the<br />

separatiori into different scales: (deterministic) large-scale variation, smooth small-scale variation, micro-<br />

scale variation <strong>and</strong> a measurement error. Although such additive partitioning is of considerable utility it<br />

also has several drawbacks, so an alternative analysis based on <strong>state</strong>-<strong>space</strong> decompositions is presented<br />

in the fclurth chapter. The <strong>space</strong> equation is a process governed by the <strong>state</strong> equation <strong>and</strong> an additional<br />

observational error, where the <strong>state</strong> at the point is a weighted mean of its neighborhood <strong>state</strong>s described<br />

by a kernel function plus a spatial process. The new model takes account of diverse shapes of trends <strong>and</strong><br />

one doer; not have to decide whether the process is stationary or not. As other existing decompositions<br />

can be reconstructed by the new representation, it can be seen as a generalization of existing ones. The<br />

decomposition results in a Fredholm integral equation of the second kind. By imposing separable kernels<br />

this integral equation has an explicit solution, <strong>and</strong> the model is defined by the parametrized covariogram of<br />

the spatial process <strong>and</strong> the parameters defining the kernel. In Our distribution-free model we will explore<br />

different rnethods based on minimal distances <strong>and</strong> moment equations for the parameter <strong>estimation</strong>, <strong>and</strong>, by<br />

generalking the concept of M-estimators to the dependent setting consistency for these new estimators is<br />

proven. The efficiency of the proposed method is discussed <strong>and</strong> the results are compared to other commonly<br />

used mcldels by means of extensive Monte Carlo simulations <strong>and</strong> applications to real datasets. Despite<br />

its complexity the new model furnishes an efficient <strong>and</strong> competitive approach throughout the simulations,<br />

which show that for most parameters this new estimator is more precise than the ordinary least squares<br />

estimator.


Version abrégée<br />

Les données géostatistiques sont constituées de mesures recueillies à des endroits déterminés dans<br />

le domaine spatial. Généralement elles sont continues spatialement ; des exemples typiques comprennent<br />

l'ingénierie minière, la géologie, la pédologie et l'hydrologie. Les modèles géostatistiques se basent sur le<br />

concept de processus spatial ou spatio-temporel et ont pour but de décrire la structure de dépendance sous-<br />

jacente. La variabilité spatiale est modélisée comme une fonction de la distance entre les sites échantillonnés.<br />

Cette fonction appelée 'variogramme' ou 'covariogramme' est utilisée afin d'appliquer des méthodes sta-<br />

tistiques comme l'<strong>estimation</strong> et/ou la prédiction, dénommée 'krigeage' dans le contexte géostatistique.<br />

Pour quantifier les dépendances spatio-temporelles, des techniques d'<strong>estimation</strong> se basant sur certaines<br />

hypothèse de stationnarité (rarement vérifiées dans la réalité) sont appliquées.<br />

La non-stationnarité et l'<strong>estimation</strong> de la <strong>covariance</strong> sont les thèmes sous-jacents de cette thèse qui est<br />

constituée de quatre chapitres.<br />

Le premier chapitre présente un survol court et concis des définitions et notations géostatistiques<br />

utilisées dans cette thèse. Préalables à la généralisation des concepts aux processus multivariés et spatio-<br />

temporels, elles sont établies relativement aux processus spatiaux univariés.<br />

Il existe beaucoup de différentes sortes de non-stationnarité, deux d'entre elles sont discutées dans<br />

le deuxième chapitre. Dans un premier temps le cas où la moyenne du processus dépend du site est<br />

étudiée. L'identification d'une tendance n'est pas un problème simple et nous soulignons qu'il n'existe pas<br />

de procédure d'<strong>estimation</strong> de la tendance pour les processus ponctuels dont la structure de dépendance<br />

est inconnue. Des outils exploratoires pour le variogramme empirique ou pour le processus observé, tout<br />

comme les méthodes paramétriques et non-paramétriques communément utilisées pour l'<strong>estimation</strong> de la<br />

tendance sont illustrées. Une méthode simple déduite de l'analyse visuelle des données est développée, à<br />

savoir l'<strong>estimation</strong> du variogramme basée sur 'l'<strong>estimation</strong> locale de la tendance'. Cette dernière sépare<br />

le domaine en plusieurs sous-doniaines ou morceaux, sur lesquels une tendance propre est estimée; les<br />

résidus sont combinés sur le domaine entier pour permettre une <strong>estimation</strong> et une inférence globales. Des<br />

simulations montrent qu'une subdivision simple et presque arbitraire suffit déjà à améliorer les résultats de<br />

l'<strong>estimation</strong> du variogramme. De plus la méthode fonctionne même lorsque la décomposition (heuristique)<br />

ne coïncide pas avec la (vraie) séparation des populations. Même dans le cas où la tendance n'est pas<br />

linéaire, la méthode donne de meilleurs résultats que les méthodes connues d'<strong>estimation</strong> paramétriques et<br />

non-paramétriques de la tendance. Pour souligner ces affirmations la méthode est appliquée à des données<br />

réelles. Une seconde forme de non-stationnarité est constituée par la dépendance de la structure de cova-<br />

riance par rapport au site. Dans ces circonstances les techniques d'<strong>estimation</strong> classiques ne peuvent pas<br />

s'appliquer. Par exemple, dans les sciences de l'atmosphère, il est facilement imaginable de rencontrer des<br />

situations où la dépendance spatiale change au cours du temps ou encore où la magnitude de variabilité<br />

maximale se modifie dans le temps. Pour de tels phénomènes le développement de nouveaux modèles est<br />

nécessaire. Par conséquent la partie restante du premier chapitre présente une nouvelle méthode valable


X<br />

-- Version abrégée<br />

pour la construction du covariogramme pour des processus spatio-temporels non-stationnaires. Ces nou-<br />

veaux modèles de covariogramme sont illustrés à l'aide de simulations et d'une application à un jeu de<br />

données.<br />

Plusieurs outils statistiques utilisent la matrice de <strong>covariance</strong> du processus sous-jacent. Un exemple<br />

d'une telle méthode est l'analyse en composantes principales (fonctionnelle) servant à représenter un en-<br />

semble de variables potentiellement corrélées par le biais de composantes orthogonales non corrélées. Ces<br />

composantes non corrélées peuvent être construites successivement, chacune extrayant une quantité maxi-<br />

male de la variance restante. Cela conduit souvent à une réduction appréciable de la dimension en rem-<br />

plaçant les variables par un nombre restreint de composantes. Pour calculer les composantes orthogonales<br />

la matrice de <strong>covariance</strong> d'un processus multivarié ou spatio-temporel est nécessaire. Cette dernière est<br />

rarement, connue et par conséquent doit être estimée. Comme précisé précédemment, une importante ca-<br />

ractéristique des données géostatistiques est leur dépendance à la fois spatiale et temporelle. Par conséquent<br />

cette caractéristique doit être prise en compte en estimant la matrice de <strong>covariance</strong>; un estimateur naturel<br />

de la <strong>covariance</strong> est présenté dans le troisième chapitre. Nous montrons qu'il est biaisé dans le cas d'une<br />

dépendance spatio-temporelle. Ce biais est étudié à l'aide de deux méthodes asymptotiques, à savoir en<br />

augmentant le nombre d'observations dans le domaine et en augmentant le domaine par le biais d'un ac-<br />

croissement du nombre de sites. En utilisant le premier modèle asymptotique nous obtenons une rapide et<br />

précise correction du biais, t<strong>and</strong>is que le second modèle asymptotique sert à quantifier la vitesse de conver-<br />

gence du biais et de la <strong>covariance</strong> des éléments de la matrice de <strong>covariance</strong> estimée. Nous démontrons<br />

que, sou:$ de légères hypothèses, la matrice de <strong>covariance</strong> estimée suit asymptotiquement une distribution<br />

normale. Cette propriété peut être utilisée pour tester si les vecteurs propres de la matrice de <strong>covariance</strong><br />

estimée et ceux de la vraie matrice de <strong>covariance</strong> sont significativement différents. Ce résultat est montré à<br />

l'aide d'exemples soulignant la nécessité de corriger le biais. De plus les propriétés théoriques sont illustrées<br />

à l'aide de simulations Monte-Carlo et à nouveau avec une application à des données réelles.<br />

La décomposition la plus fréquente pour extraire les parties stationnaires d'un processus utilise la<br />

séparation selon différentes échelles : une variation (déterministe) à longue échelle, une variation lissée à<br />

petite échelle, une variation à micro-échelle et une erreur de mesure. Bien qu'une telle partition additive<br />

soit d'une utilité considérable, elle comporte également plusieurs inconvénients. C'est pourquoi une ana-<br />

lyse alternative utilisant une décomposition en e<strong>space</strong> d'états est présentée dans le quatrième chapitre.<br />

L'équation d'e<strong>space</strong> est un processus régit par une équation d'état et une erreur d'observation addition-<br />

nelle, ou l'état en un point est une moyenne pondérée de ces états voisins décrite par une fonction de<br />

noyau plus un processus spatial. Le nouveau modèle prend en compte diverses formes de tendance et il<br />

n'est paf3 nécessaire de décider si le processus est stationnaire ou non. Comme d'autres décompositions<br />

existantes peuvent être reconstruites par la nouvelle représentation, elle peut être considérée comme une<br />

généralisation des méthodes existantes. La décomposition aboutit à une équation intégrale de Fredholm du<br />

second type. En imposant la séparabilité des noyaux cette équation intégrale possède une solution explicite<br />

et le modèle est défini par le covariogramme paramétrisé du processus spatial et les para.mètres définissant<br />

le noyau. Dans notre modèle libre de distribution nous explorons diverses méthodes basés sur les distances<br />

minimales et les équations des moments pour l'<strong>estimation</strong> des paramètres, et en généralisant le concept des<br />

M-estimateurs au concept de dépendance, la consistance de ces nouveaux estimateurs est prouvée. L'effi-<br />

cacité de la méthode proposée est discutée et les résultats sont comparés à d'autres modèles fréquemment<br />

utilisés pa.r le biais de simulations Monte Car10 étendues et d'applications à des jeux de données réelles.<br />

Malgré sa complexité le nouveau modèle fournit une approche efficace et compétitive dans toutes les si-<br />

mulations. Ce dernier montre également que pour la plupart des paramètres ce nouvel estimateur est plus<br />

précis que les estimateurs basés sur les moindres carrés ordinaires.


Kurzfassung<br />

Als geostatistische Daten bezeichnet man alle Arten von Messungen, die an einem bestimmten Orten<br />

in einem festgelegten raumlichen Gebiet vorgenommen wurden. Diese Gebiete sind gewohnlich stetig,<br />

wie zum Beispiel in der Geologie, der Hydrologie, den Erdwisssenschaften und im Bergwesen. Model-<br />

le für geostatistische Daten basieren auf raumlichen oder hum-Zeitprozessen, welche die innewohnende<br />

Abhanigkeitsstruktur zu beschreiben versuchen, zum Beispiel wird die raumliche Variabilitat (Kovarianz)<br />

durch eine Funktion der Stichprobenorte beschrieben. Diese Funktion wird üblicherweise Variogramm oder<br />

Kovariogramm genannt, ihre Verwendung zur Schatzung undIoder Vorhersage ist ein grundlegendes Ele-<br />

ment der Geostatistik. Die meisten Techniken zur Schatzung der Raum-Zeitabhanigkeitsstruktur basieren<br />

auf der Annahme, dass der zugrundeliegende Prozess stationar ist, diese Annahme entspricht jedoch nur<br />

selten der Realitat. Nichtstationaritat und Kovarianzschatzung bilden den roten Faden dieser Dissertation,<br />

die in die im Folgenden kurz zusammengefassten vier Kapitel aufgeteilt ist.<br />

Das erste Kapitel gibt einen kurzen Überblick über geostatistische Definitionen und Schreibweisen,<br />

welche spater gebraucht werden. Es wird mit raumlichen Prozessen begonnen und sukzessive zu mehrdi-<br />

mensionalen und Raum-Zeitprozessen verallgemeinert.<br />

Es existieren viele verschiedene Formen von Nichtstationaritat, von denen zwei im zweiten Kapitel<br />

genauer betrachtet werden. Im ersten Fall, Trend gennant, hiingt der Mittelwert des Prozesses vom Ort<br />

im Raum ab. Die Identifizierung eines Trends ist ein nichttriviales Problem und es wird versucht auf-<br />

zuzeigen, dass es keine optimale Trendschatzung gibt, wenn die zugrundeliegende Abhangigkeitsstruktur<br />

nicht bekannt ist. Wir zeigen einige explorative Datenanalysemethoden für empirische Variogramme und<br />

beobachtete Prozesse. Im Weiteren werden st<strong>and</strong>ardmassige parametrische und nichtparametrische Trend-<br />

anpassungsmethoden erlautert. Von diesen Methoden ausgehend wird eine neue, einfache Denkweise zur<br />

Variogrammschatzung beschrieben, 'Lokale Trendschatzung' genannt. Diese teilt das Gebiet in mehrere<br />

Untergebiete ein, auf welchen der Trend geschatzt wird. Die Residuen werden zusammengefasst und er-<br />

lauben eine globale Schatzung undIoder statistische Schlussfolgerungen. Simulationen zeigen, dass eine<br />

einfache und heuristische Aufteilung zu Verbesserung der Variogrammschatzung führt. Wenn der wahre<br />

(unbekannte) Trend nicht linear ist oder wenn die heuristische Aufteilung nicht der wahren (unbekannten)<br />

Aufteilung entspricht, ist die Methode besser als parametrische und nichtparametrische Trendschatzung,<br />

wie in Simulationen und in einer Anwendung gezeigt wird. Eine zweite Art der Nichtstationaritat ist die<br />

Abhangigkeit der Form der Kovarianzstruktur vom Messort oder von der Messzeit, unter diesen Umst<strong>and</strong>en<br />

ist die klassische Variogrammschatzung nicht moglich. Im Zusammenhang mit Untersuchungen der At-<br />

mosphare kann zum Beispiel die Grosse der Variabilitat der Daten von der Zeit abhangen, für solche<br />

Phanomene werden neue Modelle gebraucht. Im letzten Teil des zweiten Kapitels wird eine neue Methode<br />

zur Konstruktion von gültigen, nichtseparierbaren Kovariogrammen für nichtstationare Raum-Zeitprozesse<br />

hergeleitet. Diese neuen Kovariogramme werden mit Simulationen und einer Anwendung illustriert.<br />

Viele statistische Anwendungen basieren auf der Kovarianzmatrix des modellierten Prozesses. Ein<br />

klassisches Beispiel einer solchen Methode ist (funktionale) Hauptkomponentenanalyse, welche eine Menge


xii Kurzfassunn<br />

von korrelierten Variablen in unkorrelierte, orthogonale Komponenten transformiert. Diese unkorrelierten<br />

Komponenten konnen sukzessive konstruiert werden, jede extrahiert den maximalen Anteil der Restva-<br />

riabilitat. Dieser Ansatz dient haufig zur Dimensionsreduzion, indem die ursprünglichen Variablen durch<br />

einige wenige orthogonale Komponenten ersetzt werden. Um diese Kompenenten zu berechnen wird die<br />

Kovariaiizmatrix des Raum-Zeitprozesses gebraucht, von welcher oft nur eine Schatzung vorh<strong>and</strong>en ist.<br />

Da geostatistische Daten eine innewohnende Abhanigkeitsstruktur über Raum und Zeit besitzen, muss<br />

diese in der Schatzung der Kovarianzmatrix berücksichtigt werden. Im dritten Kapitel wird der natürliche<br />

Schatzer unter Raum-Zeitkorrelation untersucht und gezeigt, dass dieser Schatzer einem systematischen<br />

Fehler unterliegt. Die Verzerrung wird unter zwei verschiedenen asymptotischen Modellen betrachtet: Die<br />

Anzahl Beobachtungen nimmt entweder in einem festgelegten Gebiet oder in einem entsprechend sich ver-<br />

grossernden Gebiet zu. Unter dem ersten Blickwinkel wird eine schnelle und prazise Verzerrungskorrektur<br />

hergeleitet, in der zweiten Situation wird die Konvergenzrate der Terme der geschatzten Matrix bestimmt.<br />

Unter schwachen Voraussetzungeri wird asymptotische Normalitat des Schatzers gezeigt. Dieses Resul-<br />

tat ist riotwendig für Tests von Eigenvektoren der wahren und geschatzten Eigenwerte. Hierzu werden<br />

Beispiele beh<strong>and</strong>elt, die signifikante Unterschiede zwischen diesen Eigenvektoren aufweisen und somit die<br />

Notwendigkeit der Verzerrungskorrektur bestatigen. Die theoretischen Resultate werden mit Simulationen<br />

und Anwendungen auf realen Daten illustriert.<br />

Die am haufigsten genutzte Zerlegung zur Extraktion von stationaren Teilen eines Prozesses basiert auf<br />

einer additiven Trennung der Streuung: (deterministische) Variation in grossem Ausmass, glatte Variation<br />

in kleinem Ausmass, Variation im Mikroausmass und schliesslich ein Messfehler. Obwohl diese Zerlegung<br />

von grosser praktischer Bedeutung ist, hat sie mehrere Schwachpunkte. Eine neue und alternative Darstel-<br />

lung basierend auf einer Zerlegung des Zust<strong>and</strong>sraumes ist im vierten Kapitel beschrieben. Hierzu wird der<br />

Prozess beschrieben durch zwei Gleichungen, der Raumgleichung und der Zust<strong>and</strong>sgleichung. Die Raum-<br />

gleichung zerlegt den Gesamtprozess in einen von der Zust<strong>and</strong>sgleichung beschriebenen Teil und einen<br />

Messfehler, wahrend die Zust<strong>and</strong>sgleichun ein durch einen Kern gewichtetes Mittel und einen stationaren<br />

raumlichen Prozess enthalt. Diescs neue Modell kann verschiedene Formen von Trends beschreiben, des-<br />

halb wird eine subjektive Entscheidung bezüglich des Trends überflüssig. Zusatzlich konnen mit dem neuen<br />

Modell existierende Zerlegungen beschrieben werden, so dass die Zust<strong>and</strong>sraumzerlegung als eine Verallge-<br />

meinerung betrachtet werden kanu. Die Zust<strong>and</strong>sgleichung ist eine Fredholmsche Integralgleichung zweiter<br />

Art, wird ein separierbarer Kern vorausgesetzt, hat diese Gleichung eine explizite Losung und das Modell<br />

ist durc:h das parametrisierte Kovariogramm des stationaren raumlichen Prozesses und die Parameter des<br />

Kerns vollst<strong>and</strong>ig beschrieben. Trotz seiner Komplexitat ist dieser neue Ansatz effizient und kompetitiv,<br />

da die Sc'hatzung der meisten Parameter praziser ist als die Methode der kleinsten Quadrate.


Riassunto<br />

1 dati geostatistici sono costituiti da misure eseguite in punti definiti ne1 dominio spaziale. Solitamente<br />

sono continui spazialmente. L'ingegneria mineraria, la geologia, la geotecnica e l'idrologia sono degli<br />

esempi tipici. 1 modelli geostatistici si basano su1 concetto di processo spaziale O spazio-temporale e<br />

servono a descriverne la struttura di dipendenze. La variabilità spaziale è rappresentata da una funzione<br />

della distanza tra i luoghi di misura. Questa funzione è chiamata 'variogramma' O 'covariogramma' ed è<br />

utilizzata per applicare metodi statistici come la stima e/o la previsione, chiamati 'kriging' ne1 contesto<br />

geostatistico. Per quantificare le dipendenze spazio-temporali, si applicano delle tecniche di stima che si<br />

basano su ipotesi stazionarie che in pratica si verificano solo raramente.<br />

La non stazionarietà e la stima della cowrianza sono i temi di fondo di questa tesi che è costituita da<br />

quattro capitoli.<br />

Il primo capitolo presenta una panoramica breve e coincisa delle definizioni geostatistiche usate in questa<br />

tesi. E una premessa necessaria alla generalizzazione dei concetti ai processi multivariati e spazio-temporali;<br />

è stabilita in base ai processi spaziali univariati.<br />

Esistono molti tipi differenti di non stazionarietà, due dei quali sono trattati ne1 secondo capitolo. In un<br />

primo tempo ci si occupa del caso in cui la media del processo dipende da1 luogo. L'identificazione di una<br />

tendenza non è un problema semplice e si sottolinea che non esistono procedure di stima della tendenza<br />

per processi puntiformi la cui struttura di dipendenza non è nota. Si illustrano inoltre degli strumenti d'e-<br />

splorazione del variogramma empirico O del processo in esame, e dei metodi parametrici e non parametrici<br />

usati correntemente per la stima della tendenza. Si sviluppa un metodo semplice che deriva dall'analisi<br />

visuale dei dati, ossia la stima del variogramma basata sulla 'stima locale della tendenza'. Quest'ultima<br />

separa il dominio in diversi sottodominii O parti, nei quali si stima una tendenza propria; i residui vengono<br />

in seguito combinati sull'intero dominio per permettere una stima globale. Delle simulazioni mostrano<br />

che una suddivisione semplice e quasi arbitraria è già sufficiente per migliorare i risultati della stima del<br />

variogramma. In più, il metodo funziona anche quarido la scomposizione (euristica) non coincide con la<br />

(vera) separazione delle popolazioni. Anche ne1 caso in cui la tendenza non è lineare questo metodo for-<br />

nisce risultati migliori dei metodi già noti di stima parametrica e non parametrica della tendenza. Per<br />

verificare queste affermazioni il metodo viene applicato a dei dati reali. Una seconda forma di non stazio-<br />

narietà è costituita dalla dipendenza dalla struttura di covarianza rispetto al luogo. In queste circostanze<br />

le tecniche classiche di stima non si possono applicare. Per esempio, nelle scenze dell'atmosfera, si possono<br />

trovare facilmente situazioni nelle quali la dipendenza spaziale varia ne1 tempo O dove la magnitudine della<br />

massima variabilità si modifica ne1 tempo. Per tali fenomeni è necessario sviluppare nuovi modelli. Con-<br />

seguentemente la parte restante del primo capitolo presenta un nuovo metodo, valido per la creazione del<br />

covariogramma per dei processi spazio-temporali non stazionari. Questi nuovi niodelli vengono illustrati<br />

tramite simulazioni e un'applicazione ad un insieme di dati.


xiv Riassunto<br />

Diversi strumenti statistici usano la matrice di covarianza del processo di fondo. Un esempio di un<br />

tale metodo è l'analisi delle componenti principali (funzionali) che servono a rappresentare un insieme di<br />

variabili potenzialmente correlate tramite delle componenti ortogonali non correlate. Queste componenti<br />

non correlate possono venir costituite successivamente, in modo che ogniuna estragga la massima quantità<br />

di variariza rimanente. Questo porta spesso ad una riduzione notevole della dimensione sostituendo le<br />

variabili con un numero ristretto di componenti. Per calcolare le componenti ortogonali è necessaria<br />

la matrice di covarianza di un processo multivariato O spazio-temporale, ma quest'ultima è raramente<br />

conosciuta e bisogna quindi stimarla. Come precedentemente precisato, una caratteristica importante<br />

dei dati geostatistici è la loro dipendenza spaziale e temporale. Bisonga quindi tener conto di questa<br />

caratteristica per stimare la matrice di covarianza; uno stimatore naturale della covarianza viene presentato<br />

ne1 terzcl capitolo. Mostriamo che non è affidabile ne1 cas0 di una dipendenza spazio-temporale. Questo<br />

grazie a dei metodi asintotici, ossia aument<strong>and</strong>o il numero di osservazioni ne1 dominio O ingr<strong>and</strong>endo il<br />

dominio aument<strong>and</strong>o il numero di luoghi. Us<strong>and</strong>o il primo metodo asintotico otteniamo una correzione<br />

rapida e precisa dell'errore, mentre il secondo serve a quantificare la velocità di convergenza degli elementi<br />

della matrice di covarianza stimata. Dimostriamo inoltre, con delle ipotesi leggere, che la matrice di<br />

covarianza stimata segue asintoticamente una distribuzione normale. Questa proprietà pub essere usata<br />

per controllare se i vettori propri della matrice di cowrianza stimata e quelli della vera matrice di covarianza<br />

si differenziano in maniera significativa. Questo risultato è illustrato tramite degli esempi, e le proprietà<br />

teoriche sono illustrate con delle simulazioni di Monte-Carlo e con un'applicazione a dei dati reali.<br />

La scomposizione più frequente per estrarre le parti stazionarie di un processo usa la separazione a<br />

scale difl-èrenti: una variazione (determinista) a larga scala, una variazione lisciata a scla più piccola, una<br />

variaziorie a micro-scala e un errore di misura. Anche se una tale ripartizione è di notevole aiuto, comporta<br />

anche diversi inconvenienti. Per questa ragione si presenta ne1 quarto capitolo un'analisi alternativa che<br />

usa una scomposizione ne110 spazio degli stati. L7equazione di spazio è un processo retto da un'equazione<br />

di stato e da un errore d'osservazione addizionale, dove 10 stato in un punto è una media ponderata<br />

degli stati vicini che è descritta da una funzione 'kernel' e da un processo spaziale. Il nuovo modello<br />

tiene conto di diverse forme di tendenza e non è necessario decidere se il processo è stazionario O no.<br />

Siccome altre scomposizioni esistenti possono essere ricostruite con la nuova rappresentazione, si pub<br />

considerarla una generalizzazione dei metodi esistenti. La scomposizione porta a un'equazione integrale<br />

di Fredholm di secondo tipo. Imponendo la separazione dei 'kernel' questa equazione integrale possiede<br />

una soluzione esplicita e il modello è definito da1 covariogramma parametrico del processo spaziale e i<br />

parametri definiscono il 'kernel'. Ne1 nostro modello esploriamo diversi metodi basati sulle distanze minime<br />

e le equitzioni dei momenti per la stima dei parametri e, generalizz<strong>and</strong>o il concetto degli M-stimatori al<br />

concetto di dipendenza, si prova la consistenza di questi nuovi stimatori. Si discute l'efficacia del metodo<br />

proposto e si confrontano i risultati con quelli di altri modelli usati correntemente tramite simulazioni<br />

estese di Monte Carlo e applicazioni con dati concreti. Malgrado la sua comlessità il nuovo modello risulta<br />

efficace t: competitivo in tutte le simulazioni. Si rivela inoltre più preciso degli stimatori basati sui minimi<br />

quadrati ordinari per la maggior parte dei parametri.


Contents<br />

Acknowledgernents<br />

Abstract<br />

Version abrégée<br />

Kurzfassung<br />

Riassunto<br />

Contents<br />

List of Figures<br />

List of Tables<br />

Prologue<br />

Overview of Geostatistical Data Analysis <strong>and</strong> Modeling 1<br />

.........................................<br />

1.1 Historical Overview 1<br />

............................................<br />

1.1.1 Genesis 1<br />

..........................................<br />

1.1.2 Quo Vadis 2<br />

.....................................<br />

1.2 Univariate Spatial Processes 3<br />

.................................<br />

1.2.1 Stationarity <strong>and</strong> Ergodicity 4<br />

1.2.2 Anisotropy .......................................... 5<br />

..................................<br />

1.2.3 Additive Decompositions 5<br />

.............................<br />

1.2.4 Characterization Using Variograms 6<br />

............................<br />

1.2.5 Characterization Using Covariograms 8<br />

1.3 Estimation of the Second Moment Structure ............................ 9<br />

..................................<br />

1.3.1 Estimation of Variograms 9<br />

..................................<br />

1.3.2 Variogram Model Fitting 11<br />

..........................................<br />

1.4 Spatial Prediction 12<br />

............................................<br />

1.4.1 Kriging 12<br />

vii<br />

ix<br />

xi<br />

...<br />

Xlll<br />

xv<br />

xix<br />

xxi<br />

xxiii


xvi Contents<br />

1.4.2 Other Interpolation Approaches . .............................. 13<br />

1.4.3 Stability of Kriging ..................................... 14<br />

1.5 h9ultivariate Spatial Processes ................................... 15<br />

1.6 Spatio-Temporal Processes ..................................... 16<br />

2 Nonstationarity Issues in Geostatistical Modeling 19<br />

2.1 T'rend Detection <strong>and</strong> Global Fitting . ................................ 19<br />

2.1.1 Exploratory Examination of the Process .......................... 20<br />

2.1.2 Fitting Parametric Models ................................. 24<br />

2.1.3 Fitting Nonparametric Models ............................... 26<br />

2.2 Local Trend Estimation ....................................... 27<br />

2.2.1 Simulations ......................................... 29<br />

2.2.2 Application ......................................... 29<br />

2.2.3 Local Variogram <strong>estimation</strong> . ................................ 34<br />

2.3 Covariograms of Nonstationary Spatio-Temporal Processes .................... 35<br />

2.3.1 Spectral Representation ................................... 35<br />

2.3.2 Simulations ......................................... 38<br />

2.3.3 Application ......................................... 40<br />

3 Covariance Estimation of Geostatistical Data 45<br />

3.1 Motivation .............................................. 45<br />

3.2 The Estimator Û .......................................... 46<br />

3.3 Asymptotic Considerations ..................................... 49<br />

3.3.1 Limiting Bias ........................................ 50<br />

3.3.2 Asymptotic Bias ....................................... 53<br />

3.3.3 R<strong>and</strong>om <strong>and</strong> lrregular Locations .............................. 57<br />

3.4 Eigenvalues <strong>and</strong> Eigenvectors of U ................................. 59<br />

3.4.1 AsymptoticDistribution ................................... 59<br />

3.4.2 Confidence Cones ...................................... 63<br />

3.5 Simulations ............................................. 66<br />

3.6 Application . ............................................. 71<br />

4 State-Space Decomposition of Geostatistical Processes<br />

4.1 Motivation . .............................................<br />

4.2 State-Space Decompositions ....................................<br />

4.2.1 State Equation with a Degenerate Kernel .........................<br />

4.2.2 Other Types of State Equations ..............................<br />

4.3 Parameter Estimation ........................................<br />

4.3.1 Moment Equations .....................................<br />

4.3.2 Consistency .........................................<br />

4.3.3 lnference ...........................................<br />

4.3.4 OLS, WLS, GLS <strong>and</strong> Robust Estimation ..........................<br />

.........................................<br />

4.4 lllustrative Examples<br />

4.4.1 Three Parameter Model . ..................................<br />

4.4.2 Gaussian Process with N = 1 . ...............................


Contents xvii<br />

4.5 Simulations ............................................. 91<br />

4.5.1 Numerical lntegration .................................... 91<br />

4.5.2 Estimation of Cij ...................................... 92<br />

4.5.3 Studies on the lmplementation of SSD ........................... 93<br />

4.5.4 Trend Contamination <strong>and</strong> True /3 # O ........................... 96<br />

4.6 Application . ............................................. 97<br />

4.6.1 Prediction .......................................... 97<br />

4.6.2 SIC97 Data ......................................... 98<br />

4.6.3 Lake Geneva Data . ..................................... 99<br />

4.7 Summary <strong>and</strong> Outlook ....................................... 101<br />

Epilogue<br />

Appendix 105<br />

A Datasets 105<br />

A.l SIC97 Data ............................................. 105<br />

A.2 Lake Geneva Data .......................................... 106<br />

A.3 Ozone Data ............................................. 108<br />

B Supplementary Simulation Results 111<br />

B.l Nonstationary Issues . ........................................ 112<br />

B.l.l Trend Detection ....................................... 112<br />

B.1.2 Local Trend Estimation ................................... 113<br />

B.2 Functional Principal Components Analysis ............................. 114<br />

B.3 State-Space Representation ..................................... 116<br />

Glossary<br />

References<br />

Author lndex<br />

Subject lndex<br />

Curriculum Vitae

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!