05.02.2014 Views

Inversio-ongelmien peruskurssi - Oulu

Inversio-ongelmien peruskurssi - Oulu

Inversio-ongelmien peruskurssi - Oulu

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Inversio</strong>-<strong>ongelmien</strong> <strong>peruskurssi</strong><br />

Sari Lasanen<br />

19. lokakuuta 2010


<strong>Inversio</strong>-<strong>ongelmien</strong> <strong>peruskurssi</strong> (4 op)<br />

Osaamistavoitteet: Kurssin onnistuneen suorittamisen jälkeen opiskelija<br />

• tunnistaa useat inversio-ongelmat<br />

• tietää inversio-<strong>ongelmien</strong> tyypilliset ominaisuudet<br />

• osaa ratkaista yksinkertaisia inversio-ongelmia eksakteilla ja epätarkoilla<br />

arvoilla.<br />

Kirjallisuus:<br />

1. Jari Kaipio, Erkki Somersalo: ”Statistical and computational inverse problems”.<br />

Springer-Verlag (Applied Mathematical Sciences, Vol. 160).<br />

2. Daniela Calvetti, Erkki Somersalo: ”Introduction to Bayesian scientific<br />

computing. Ten lectures on subjective computing”Springer (Surveys and<br />

Tutorials in the Applied Mathematical Sciences, Vol. 2)<br />

i


Sisältö<br />

1 Suorat ongelmat ja inversio-ongelmat 1<br />

1.1 Mitä inversio-ongelmat ovat? . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Esimerkkejä inversio-ongelmista ja niiden tyypillisistä ominaisuuksista<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />

1.3 <strong>Inversio</strong>-<strong>ongelmien</strong> luokittelua . . . . . . . . . . . . . . . . . . . . 14<br />

1.4 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2 Hyvin ja huonosti asetetut inversio-ongelmat 17<br />

2.1 Hyvin asetetut inversio-ongelmat . . . . . . . . . . . . . . . . . . 17<br />

2.2 Abstrakti kuvailu . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.3 Huonosti asetetut inversio-ongelmat . . . . . . . . . . . . . . . . 19<br />

2.4 Ratkaisun häiriöalttius . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.5 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.6 Liite: Käänteismatriisin singulaariarvot . . . . . . . . . . . . . . . 29<br />

3 Likimääräisratkaisut ja regularisaatio 31<br />

3.1 Pienimmän neliösumman menetelmä . . . . . . . . . . . . . . . . 31<br />

3.2 Tikhonovin regularisaatio . . . . . . . . . . . . . . . . . . . . . . 35<br />

3.3 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

4 Tilastolliset inversio-ongelmat 43<br />

4.1 Lyhyesti todennäköisyyslaskennasta . . . . . . . . . . . . . . . . 43<br />

4.1.1 Todennäköisyyslaskennan mittateoreettinen pohja . . . . 44<br />

4.1.2 Satunnaismuuttujista . . . . . . . . . . . . . . . . . . . . 44<br />

4.1.3 Todennäköisyyslaskennan tulkinnat . . . . . . . . . . . . 45<br />

4.1.4 Tiheysfunktiot . . . . . . . . . . . . . . . . . . . . . . . . 45<br />

4.1.5 Ehdolliset jakaumat . . . . . . . . . . . . . . . . . . . . . 47<br />

4.1.6 Satunnaisvektorien muunnokset . . . . . . . . . . . . . . . 50<br />

4.1.7 Gaussiset jakaumat . . . . . . . . . . . . . . . . . . . . . . 51<br />

4.2 Moniulotteinen Riemann-integraali . . . . . . . . . . . . . . . . . 53<br />

4.3 Tilastollinen inversio-ongelma . . . . . . . . . . . . . . . . . . . . 54<br />

4.3.1 Bayesian kaava. Priori- ja posteriorijakaumat . . . . . . . 55<br />

4.3.2 Uskottavuusfunktio f Y (y|X = x) . . . . . . . . . . . . . . 57<br />

4.3.3 Priori f pr (x) . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

4.4 Erilaisia priorijakaumia . . . . . . . . . . . . . . . . . . . . . . . 61<br />

4.5 Posteriorijakauman tutkiminen . . . . . . . . . . . . . . . . . . . 71<br />

4.5.1 Päätösteoriaa . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

4.5.2 Huonosti asetetut ja häiriöherkät lineaariset ongelmat . . 74<br />

iii


4.6 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />

iv


Luku 1<br />

Suorat ongelmat ja<br />

inversio-ongelmat<br />

<strong>Inversio</strong>-ongelmat ovat osa sovellettua matematiikkaa, mutta matka puhtaaseen<br />

matematiikkaan on lyhyt sillä matemaattiset inversio-ongelmat ovat sangen<br />

abstrakteja. Jopa matematiikan alan arvostetuimmassa lehdessä ”Annals<br />

of Mathematics”on inversio-ongelmia koskevia julkaisuja. Erityisesti inversioongelmiin<br />

erikoistuneita tieteellisiä lehtiä ovat: Inverse Problems (IP), Inverse<br />

Problems and Imaging (IPI), Journal of Inverse and Ill-posed Problems ja Inverse<br />

Problems in Science and Engineering. Näitä lehtiä voi lukea <strong>Oulu</strong>n yliopiston<br />

kirjaston Nelli-portaalin kautta (myös etäkäytöllä).<br />

1.1 Mitä inversio-ongelmat ovat?<br />

<strong>Inversio</strong>-ongelmissa pyritään saamaan tietoa tuntemattomista kohteista epäsuorien<br />

ja usein epätarkkojen havaintojen avulla. Esimerkkejä tutuista inversioongelmista<br />

ovat lääketietelliset kuvantamismenetelmät (ultraäänikuvaus, tietokonekerroskuvaus),<br />

kuvan terävöittäminen kuvankäsittelyssä ja sateen havainnointi<br />

säätutkalla. Tällä kurssilla tutustutaan matemaattisiin inversio-ongelmiin<br />

sekä yksinkertaisten inversio-<strong>ongelmien</strong> käytännön ratkaisumenetelmiin.<br />

<strong>Inversio</strong>-ongelman eli käänteisongelman nimitys tulee siitä että ensin on tunnettava<br />

suora ongelma, joka kertoo kuinka data y riippuu kiinnostuksen kohteena<br />

olevasta suureesta x. Usein data saadaan hyödyntämällä jotakin fysikaalista<br />

ilmiötä ja suora ongelma on kyseistä ilmiötä selittävä fysikaalinen teoria: sanotaan<br />

vaikka kuvaus x ↦→ F(x) = y. <strong>Inversio</strong>-ongelmassa kysytään, mikä suure x<br />

on tuottanut datan y. Maallikkotermein asian voi selittää seuraavasti:<br />

• Suora ongelma: Syistä seurauksiin.<br />

• <strong>Inversio</strong>-ongelma: Seurauksista syihin.<br />

Yksinkertaistettuna kysymys on käänteiskuvauksen F −1 määräämisestä, mutta<br />

tulemme näkemään että ratkaisu ei ole aivan niin mutkatonta.<br />

1


1.2 Esimerkkejä inversio-ongelmista ja niiden tyypillisistä<br />

ominaisuuksista<br />

Esimerkki 1<br />

Suora ongelma: Laske samalla rivillä, samalla sarakkeella ja samaa väriä olevien<br />

lukujen summat.<br />

? ? ? ? ?<br />

? 1 5 7 ?<br />

? 4 3 8 ?<br />

? 6 2 9 ?<br />

<strong>Inversio</strong>-ongelma: Määrää luvut, joiden rivi-, sarake- ja värisummat on annettut.<br />

3 11 10 24 10<br />

13 ? ? ? 13<br />

15 ? ? ? 9<br />

17 ? ? ? 10<br />

<strong>Inversio</strong>-ongelmat ovat usein vaikeanpia kuin suorat ongelmat.<br />

Esimerkki 2<br />

Suora ongelma: Määrää funktio f ∈ C 1 (0, 1), kun sen derivaatta f ′ (t) = 3t 2 ja<br />

alkuarvo f(0) = 0 on annettu.<br />

<strong>Inversio</strong>-ongelma: Määrää funktion f ∈ C 1 (0, 1) derivaatta f ′ kun<br />

f(t) =<br />

∫ t<br />

0<br />

f ′ (s)ds = t 3<br />

on annettu.<br />

Tämä on helppoa, mutta vaikeuksia syntyy jos annettu integraalifunktio<br />

tunnetaan epätarkasti. Esim. jos annettu data ei ole t 3 vaan<br />

niin sen derivaatta onkin<br />

g(t) =<br />

∫ t<br />

0<br />

f ′ (s)ds + 1<br />

100 sin(100t),<br />

g ′ (t) = 3t 2 − cos(100t).<br />

<strong>Inversio</strong>-<strong>ongelmien</strong> ratkaisut ovat usein herkkiä datassa esiintyville<br />

pienille häiriöille.<br />

2


1.2<br />

1<br />

tarkka data<br />

epätarkka data<br />

4<br />

3.5<br />

3<br />

tarkka ratkaisu<br />

epätarkka ratkaisu<br />

0.8<br />

2.5<br />

0.6<br />

2<br />

1.5<br />

0.4<br />

1<br />

0.2<br />

0.5<br />

0<br />

0<br />

−0.5<br />

−0.2<br />

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />

−1<br />

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />

Kuva 1.1: Häiriöinen data g ei paljon eroa tarkasta datasta f.... mutta vastaavat<br />

ratkaisut eroavat!<br />

Esimerkki 3<br />

Kuvan terävöittämisessä pyritään muodostamaan sumeasta valokuvasta yksityiskohtaisempi<br />

valokuva.<br />

Suora ongelma: Tee terävästä valokuvasta sumeampi valokuva.<br />

<strong>Inversio</strong>-ongelma: Tee sumeasta valokuvasta terävämpi valokuva<br />

Suora ongelma<br />

<strong>Inversio</strong>-ongelma<br />

Mustavalkoinen digitaalinen valokuva voidaan esittää matriisina<br />

M ∈ R n×m ,<br />

jonka elementit M ij kuvaavat pikseleiden väriä: mitä suurempi luku on sitä<br />

vaaleampi pikselin väri on (katso kuvat 1.3 ja 1.3).<br />

3


Kuva 1.2: Mustavalkoinen valokuva koostuu pikseleistä: suorakaiteen muotoisista<br />

yksivärisistä kuvaelementeistä.<br />

10<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

Kuva 1.3: Esimerkki 9×9-matriisin kuvapikseleistä ja harmaasävyjä vastaavista<br />

lukuarvoista.<br />

Kuvan sumentamista voidaan mallintaa normitetulla Gaussisella konvoluutiolla<br />

(valitaan n = m yksinkertaisuuden vuoksi)<br />

˜M kl = C kl<br />

n ∑<br />

i,j=1<br />

e −(|k−i|2 /n 2 +|l−j| 2 /n 2 )/2σ 2 M ij ,<br />

missä k, l = 1, ..., n ja normitusvakio<br />

⎛<br />

⎞<br />

n∑<br />

C kl = ⎝ e −(|k−i|2 /n 2 +|l−j| 2 /n 2 )/2σ 2 ⎠<br />

i,j=1<br />

Jokaisen pikselin arvo M kl kuvautuu pikselien painotetuksi keskiarvoksi ˜M kl .<br />

Eniten painoa on kyseisen pikselin ja sen viereisten pikselien arvoilla.<br />

Suora ongelma: Määrää ˜M kun M tunnetaan.<br />

4<br />

−1<br />

.


<strong>Inversio</strong>-ongelma: Määrää M kun ˜M tunnetaan.<br />

Pienessä kuvassa n, m = 256, mutta korkealaatuisissa kuvissa n ja m ovat<br />

useita tuhansia, jolloin matriisissa on miljoonia elementtejä. <strong>Inversio</strong>-ongelmissa<br />

tuntemattomat ovat usein korkeaulotteisten avaruuksien vektoreita.<br />

Esimerkki 4<br />

Säätutka lähettää sähkömagneettisia pulsseja mikroaaltotaajudella (5600-5650<br />

Mhz, aallonpituus n. 5.3 cm). Pulssit heijastuvat takaisin esteistä, esimerkiksi<br />

sadepisaroista ja lumihiutaleista. Säätutka vastaanottaa heijastuneet pulssit,<br />

joiden matka-ajoissta saadaan selville sadepisaroiden etäisyys. Heijastuneen<br />

pulssin voimakkuudesta (tehosta) saadaan selville sateen voimakkuus. Dopplertutka<br />

kertoo myös sadepisaroiden nopeuden taajuudessa tapahtuvan Dopplersiirtymän<br />

avulla. Sadepisaroista saadaan kaikuja aina 250 km päästä. Mittauksia<br />

tehdään eri suuuntiin antennia liikuttamalla.<br />

Suora ongelma: Määrää heijastunut kaiku kun sadepisaroiden paikka ja nopeus<br />

tunnetaan.<br />

<strong>Inversio</strong>-ongelma: Määrää sadepisaroiden jakauma ja nopeus kun niistä heijastunut<br />

kaiku tunnetaan.<br />

Lähetetty signaali on funktio<br />

φ(t) = Pe(t)sin(ω 0 t),<br />

5


missä ω 0 on kantotaajuus, P on lähetetyn pulssin teho ja e(t) kuvaa pulssin<br />

muotoa. Kappaleen liikettä kuvaa yhtälö<br />

r(t) = x 2 + x 3 t + 1 2 x 4t 2 ,<br />

missä x 2 on kappaleen etäisyys tutkasta, x 3 on kappaleen nopeus ja x 4 on kappaleen<br />

kiihtyvyys. Vastaanotettua signaalia kuvaa yhtälö<br />

(<br />

z(t) = x 1 φ t − 2 ) (<br />

c x 2 exp −i2 ω 0<br />

c (x 3t + 1 )<br />

2 x 4t 2 ) + ǫ(t),<br />

missä x 1 on heijastuneen pulssin teho, c on valonnopeus ja ǫ(t) on mittauskohinaa.<br />

Heijastuneen aallon teho toteuttaa tutka-yhtälön (eng. radar equation)<br />

x 1 = CPσ<br />

(4π) 2 x 4 ,<br />

2<br />

missä C on tutkasta riippuva vakio ja takaisinsirontapinta-ala (eng. radar cross<br />

section) σ riippuu kappaleen koosta ja heijastavuudesta.<br />

Kuva 1.4: Ilmatieteen laitoksen kuva säätutkahavainnoista.<br />

<strong>Inversio</strong>-ongelmissa käytetään usein epäsuoraa tietoa tuntemattomista<br />

kohteista.<br />

Muita tutkasovelluksia:<br />

• Avaruusromun kartoitus (maanpinnalta lähetetty sähkömagneettinen pulssi<br />

heijastuu hukatuista työkaluista, pirstoutuneista satelliiteista ja rakettiromusta,<br />

joka putoaa hitaaaasti kohti maata). Esimerkiksi kansainvälinen<br />

avaruusasema ISS joutuu väistämään putoavaa romua pari kertaa vuodessa.<br />

• Kuun kaukokartoitus (maanpinnalta lähetetty sähkömagneettinen pulssi<br />

heijastuu kuusta).<br />

6


• Ionosfäärin tutkimus (revontulet, aurinkomyrskyn vaikutukset). Hyödynnetään<br />

epäkoherenttia sirontaa: tutkasignaali saa ionosfäärin plasman värähtelemään,<br />

jolloin syntyy heikko sähkömagneettinen signaali, joka voidaan<br />

vastaanotttaa maanpinnalla. Taajuus satoja megahertsejä.<br />

• Maaperätutka. Toimii mikroaaltotaajuuksilla.<br />

Esimerkki 5<br />

Lääketieteellisessä tietokonetomografiakuvauksessa(tietokonekerroskuvaus) muodostetaan<br />

röntgenkuvien avulla kuva, rekonstruktio, potilaan sisäosista. Eri kudokset<br />

vaimentavat röntgensäteilyä eri voimakkuudella. Kun vaimenemisen suuruus<br />

mitataan useasta eri suunnasta, saadaan muodostettua poikkieikkauskuva<br />

kehon sisärakenteesta – tarkemmin sanottuna massa-absorptiokertoimien vaihtaluista.<br />

Kuva 1.5: Tietokonekerroskuvauslaite (kuva: Siemens Press Picture).<br />

Olkoon f = f(x, y) ≥ 0 paloittain jatkuva funktio, joka esittää massaabsorptiokerrointa<br />

pisteessä (x, y) ∈ R 2 . Oletetaan, että f(x, y) = 0 kun (x, y) /∈<br />

D ja D sisältyy tason r−säteiseen origokeskiseen palloon B(0, r). Suoraa x = y<br />

pitkin kulkevan röntgensäteen absorptiota vastaa funktion f integraali pitkin<br />

suoraa y = x eli tarkemmin<br />

( ) ∫ r I0<br />

ln = − f(x, x)dx,<br />

I 1 −r<br />

missä I 0 on lähetetyn röntgensäteilyn intensiteetti ja I 1 on vastaanotettu intensiteetti<br />

(Beerin ja Lambertin laki).<br />

Suora ongelma: Kun funktio f tunnetaan, laske integraalit<br />

pitkin eri suoria.<br />

∫ r<br />

−r<br />

f(x, ax + b)dx.<br />

7


<strong>Inversio</strong>-ongelma: Määrää funktio f kun sen integraalit<br />

pitkin eri suoria tunnetaan.<br />

∫ r<br />

−r<br />

f(x, ax + b)dx<br />

y<br />

r<br />

Suora y = x<br />

-r r<br />

x<br />

D<br />

-r<br />

Kuva 1.6: Tomografiakuvaus: funktion f integraalit lasketaan pitkin eri suoria.<br />

Käytännössä mittauksia ei voi tehdä jokaista suoraa pitkin, vaan mittaussuuntia<br />

on rajallinen määrä. Mitä vähemmän mittaussuuntia on käytössä, sitä<br />

vähemmän tietoa on saatavilla tuntemattomasta funktiosta. Ongelmana on, että<br />

useilla eri funktioilla voi olla samat integraalit. Esim. jos f(x, y) = x 2 + y 2<br />

kun (x, y) ∈ B(0, 1) jaf(x, y) = 0 muulloin, niin sen integraali pitkin suoraa<br />

y = 0 ( tai pitkin mitä tahansa origon kautta kulkevaa suoraa y = ax), on<br />

∫ 1<br />

−1<br />

x 2 dx = 2 3<br />

joka on sama kuin funktion f(x, y) = 1 3<br />

integraali pitkin samaa suoraa.<br />

Tomografiakuvauksessa datan rajallisuutta kompensoidaan rajoittamalla ratkaisun<br />

muotoa: Oletetaan esimerkiksi, että<br />

n∑<br />

f(x, y) = a i φ i (x, y),<br />

i=1<br />

missä n on kiinnitetty luku, funktiot φ i ovat tunnettuja ja kertoimet a i ∈ R<br />

ovat tuntemattomia. Funktiot φ i (x, y), i = 1, .., n voivat olla esimerkiksi pistevieraiden<br />

neliöiden karakteristisia funktioita (kuvan pikseleitä)<br />

{<br />

1 kun (x, y) ∈ I i<br />

φ i (x, y) =<br />

0 muulloin.<br />

Luku a i voidaan esittää siilloin esim. harmaasävyskaalan värinä.<br />

Käytännön inversio-ongelmissa rekonstruktio (eli kuvan muodostaminen<br />

tuntemattomasta kohteesta) on tehtävä jollakin tapaa rajallisesta<br />

määrästä dataa. Käytännön inversio-ongelmissa approksimoidaan<br />

tuntemattomia usein äärellisulotteisten vektoreiden avulla.<br />

8


Kuva 1.7: Neliö I i .<br />

10<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

Kuva 1.8: Esimerkki harmaasävykuvasta ja värillisestä kuvasta.<br />

Kuva 1.9: Tietokonekerroskuva: eri harmaasävyt vastaavat funktion f eri arvoja.<br />

(kuva: Siemens Press Picture).<br />

Esimerkki 6<br />

Impedanssitomografiassa (eng. electrical impedance tomography, EIT) sähköiset<br />

mittaukset kappaleen pinnalla antavat tietoa kappaleen sisärakenteesta (mate-<br />

9


ian sähkönjohtavuudesta). Kappaleeseen voidaan syöttää jännite ja mitata virtaa<br />

tai syöttää virtaa ja mitata jännitettä.<br />

Virta<br />

Jännite<br />

D<br />

Kuva 1.10: Jännite-virta mittaukset kappaleesta D.<br />

Olkoon u jännite kappaleessa D ja oletetaan, että pinnalle on asetettu jännite<br />

f. Olkoon kappaleen D sähkönjohtavuus σ ∈ C ∞ ( ¯D). Silloin funktio u ∈<br />

C 2 (D) ∩ C 1 ( ¯D) toteuttaa yhtälöt<br />

∇ · (σ∇u)(x) = 0, x ∈ D<br />

u(x) = f(x), x ∈ ∂D<br />

Pinnalla mitattava virta g(x) saadaan jännitteestä u kaavalla<br />

g(x) = σ(x)n(x) · ∇u(x), x ∈ ∂D,<br />

missä n(x) on kappaleen D pinnan (ulospäin suunnattu) normaalivektori.<br />

Suora ongelma: Määrää g kun σ ja f on annettu.<br />

<strong>Inversio</strong>-ongelma: Määrää σ kun g tunnetaan jokaisella f ∈ C 1 (∂D).<br />

Mihin soveltuu:<br />

• Lääketieteellinen kuvantaminen (sydämen ja keuhkojen toiminta).<br />

• Ainetta rikkomaton testaus (esim. vauvanruokapurkkien eheyden tarkistus,<br />

lentokoneen siipien korroosiovaurioiden tarkistus, siltojen betoniraudoitusten<br />

tutkiminen).<br />

• Teollisuuden prosessien valvonta (esim. säiliön sisällä olevan seoksen tasaisuuden<br />

tarkkailu).<br />

10


Tällä ongelmalla on olemassa myös karkea versio jota hyödynnetään kaupallisesti<br />

– sähköinen kehonkoostumusmittaus (eng. bioelectrical impedance analysis).<br />

Siinä mittausperiaate on sama: kehoon johdetaan vähäistä virtaa ja mitataan<br />

sen aikaansaama jännite. Erona EIT:hen on, että tarkan suoran teorian<br />

sijaan käytetään tiettyjen parametrien sovituksia karkeisiin yhtälöihin. Tärkein<br />

näistä parametreistä on kehossa olevan veden määrä. Esitietona tarvitaan henkilön<br />

pituus (henkilöä approksimoidaan sen jälkeen samanpituisena sylinterinä,<br />

jonka tilavuus kertoo kehossa olevan veden määrän...). Mitatusta jännitteestä<br />

lasketaan sylinterin sisältämä veden määrä. Käytettyjä yhtälöitä on pyritty<br />

tarkentamaan ottamalla lisää parametreja huomioon, kuten henkilön iän, sukupuolen<br />

ja painon sekä käyttämällä eritaajuisia sähkövirtoja.<br />

<strong>Inversio</strong>-<strong>ongelmien</strong> avulla on mahdollista saada tietoa sellaisistakin<br />

kohteista jotka eivät muutoin ole näkyvissä tai tavoitettavissa.<br />

Esimerkki 7<br />

Lääketieteellisessä ultraäänikuvauksessa muodostetaan kuva potilaan sisäosista<br />

ääniaaltojen avulla. Periaate on seuraava: potilaan sisälle lähetetään kapea<br />

äänipulssi (taajuus 2-15 MHz), joka heijastuu osittain takaisinpäin kehon eri<br />

kudosten rajapinnoista. Takaisinsironnut pulssi vastaanotetaan ja muunnetaan<br />

kirkkausarvoiksi. Tämä toistetaan eri mittaussuoria pitkin. Eräs ultraääniku-<br />

Kuva 1.11: Ultraäänikuvauksen periaate 1. Pulssi heijastuu rajapinnoista. Tässä<br />

samanväriset alueet ovat täysin homogeenisia.<br />

vauksen yksinkertaistuksista on olettaa, että ääni kulkee vakionopeudella kehossa,<br />

vaikka eri kudoksilla on erilaiset äänennopeudet. Tästä johtuen ultraäänikuvissa<br />

olevien kohteiden koko on vääristynyt. Lisäksi malli ei ota huomioon<br />

monitie-etenemistä eikä aaltojen taittumista, jolloin kuvassa oleva kohde ei välttämättä<br />

ole todellisella paikallaan. Hyvin epätasaiset rajapinnat tekevät kuvasta<br />

lisäksi täplikkään.<br />

11


1.5<br />

1<br />

0.5<br />

0<br />

−0.5<br />

−1<br />

−1.5<br />

0 0.2 0.4 0.6 0.8 1<br />

Kuva 1.12: Ultraäänikuvauksen periaate 2. Taaksepäin sironnut pulssi (kuvassa<br />

sininen käyrä) vastaanotetaan ja muunnetaan alla oleviksi kirkkausarvoiksi<br />

verhokäyrän (eng. envelope, kuvassa punainen käyrä) avulla.<br />

Ultraäänikuvauksen tarkempi matemaattinen malli on ääniaaltojen eli akustisten<br />

aaltojen etenemistä väliaineessa kuvaava malli. Aika-harmonista akustista<br />

aaltoa kappaleessa D ⊂ R n voidaan kuvata yhtälöllä<br />

∆u(x) + ω2<br />

c 2 u(x) = 0, x ∈ D,<br />

(x)<br />

missä ω on taajuus ja c(x) on äänen nopeus väliaineessa. Lähetettävää ääntä<br />

kuvataan yhtälöllä<br />

n · ∇u(x) = f(x), x ∈ ∂D,<br />

missä n on pinnan D normaalivektori. Pinnalla vastaanotettua ääntä kuvataan<br />

yhtälöllä<br />

g(x) = u(x), x ∈ ∂D.<br />

Funktion u(x) yhteys ajasta riippuvaan fysikaaliseen äänen paineeseen p(x, t)<br />

saadaan kaavasta p(x, t) = Re u(x)e −iωt .<br />

Suora ongelma: Määrää u kun funktiot c ja f on annettu.<br />

<strong>Inversio</strong>-ongelma: Määrää c kun g tunnetaan eri funktioilla f.<br />

<strong>Inversio</strong>-ongelmissa käytetään matematiikkaa myös erilaisten kuvantamismenetelmien<br />

parantamiseksi.<br />

Samaa akustista yhtälöä voidaan käyttää seismisten eli maan tärinää kuvaavien<br />

aaltojen etenemisen kuvaamiseen. Maankuoren rakennetta voidaan kartoittaa<br />

täristämällä maanpintaa koneellisesti (tai räjäytyksien avulla) ja mittaamalla<br />

maankuoren epähomogeenisuuksista sironnutta aaltoa maan pinnalla.<br />

Ääniaallot kulkevat hyvin myös vedessä, jolloin puhutaan kaikuluotaimista<br />

eli sonareista.<br />

12


Esimerkki 8<br />

Käänteisessä sirontaongelmassa (eng. inverse scattering problem) lähetetetään<br />

sähkömagneettinen tai akustinen aalto joka edetessään kohtaa tuntemattoman<br />

kappaleen tai väliaineen. Tuntematon poikkeama muuttaa lähetettyä aaltoa, jolloin<br />

syntyy sironnut aalto. Sironnutta aaltoa havainnoidaan etäällä tuntemattomasta<br />

poikkeamasta.<br />

Matemaattisesti väliaineesta tapahtuvaa sähkömagneettista sirontaa<br />

voidaan kuvata seuraavasti. Olkoon E = E(x, t) ∈ C 2 (R 2 × R + ;R 3 ) ja H =<br />

H(x, t) ∈ C 2 (R 2 × R + ;R 3 ) sähkömagneettisen aallon sähkökenttä ja magneettikenttä.<br />

Isotrooppisessa väliaineessa nämä kentät toteuttavat Maxwellin yhtälöt<br />

Aikaharmonisessa tapauksessa<br />

∂H<br />

∇ × E(x, t) + µ 0 (x, t) = 0<br />

∂t<br />

∇ × H(x, t) − ǫ(x) ∂E (x, t) = σ(x)E (x, t).<br />

∂t<br />

E(x, t) = ǫ − 1 2<br />

0 E(x)e −iωt , H(x, t) = µ − 1 2<br />

0 H(x)e −iωt ,<br />

missä ω on aallon taajuus ja ǫ 0 ja µ 0 tyhjiön permittiivisyys ja permeabiliteetti.<br />

Aikaharmoniset Maxwellin yhtälöt ovat<br />

missä heijastuskerroin<br />

∇ × E(x) − ikH(x) = 0 (1.1)<br />

∇ × H(x) + ikn(x)E(x) = 0 (1.2)<br />

n(x) = 1 (<br />

ǫ(x) + i σ(x) )<br />

ǫ 0 ω<br />

riippuu väliaineesta ja k = ω √ ǫ 0 µ 0 .<br />

Olkoon E i ja H i aikaharmonsen Maxwellin yhtälöiden ratkaisu tyhjiössä<br />

(jolloin ǫ ≡ ǫ 0 ja σ ≡ 0) – tätä kutsutaan lähetetuksi aalloksi. Kun lähetetty<br />

aalto kohtaa epähomogeenisen väliaineen, se siroaa. Lähetetyn aallon ja sironneen<br />

aallon summa E = E i + E s , H = H i + H s toteuttaa epähomogeenisen<br />

aineen Maxwellin yhtälöt (1.1) ja (1.2). Lisäksi vaaditaan säteilyehto:<br />

tasaisesti joka suuntaan x<br />

|x| .<br />

lim<br />

|x|→∞ (Hs × x − |x|E s ) = 0<br />

Suora ongelma: Määrää E s ja H s kun E i ja H i sekä n(x) on annettu.<br />

<strong>Inversio</strong>-ongelma: Määrää n(x) kun H s ja E s tunnetaan kaukana sirottavasta<br />

väliaineesta annetuilla E i ja H i .<br />

Akustista sirontaongelmaa kuvaavat yhtälöt<br />

u(x) = u i (x) + u s (x)<br />

∆u(x) + ω2<br />

c 2 (x) u(x) = 0, x ∈ Rn ,<br />

13


ja potentiaalisirontaa (eli kvanttimekaanista sirontaa) kuvaavat yhtälöt<br />

u(x) = u i (x) + u s (x)<br />

∆u(x) + V (x)u(x) + k 2 u(x) = 0, x ∈ R n ,<br />

( )<br />

n−1 x<br />

lim |x| 2<br />

|x|→∞ |x| · ∇us (x) − iku s (x) = 0 tasaisesti joka suuntaan x<br />

|x|<br />

missä k on nk. aaltoluku. Käänteisissä sirontaongelmissa pyritään määräämään<br />

funktiot c(x) ja V (x) kun u s tunnetaan kaukana tuntemattomasta sirottajasta.<br />

Kuva 1.13: Sironnan periaate. Tuleva kenttä u i saa aikaan sironneen kentän u s .<br />

Koko kenttä u = u i + u s .<br />

Kappalesironnassa lähetetty aalto ei pääse tuntemattoman kappaleen läpi<br />

vaan sironta määräytyy kappaleen reunan muodon ja materiaalin mukaan. Sitä<br />

kuvaavat esimerkiksi yhtälöt<br />

u(x) = u i (x) + u s (x)<br />

∆u(x) + k 2 u(x) = 0, x ∈ R 3 \D,<br />

u(x) = 0, x ∈ ∂D,<br />

( )<br />

x<br />

lim |x|<br />

|x|→∞ |x| · ∇us (x) − iku s (x)<br />

= 0 tasaisesti joka suuntaan x<br />

|x|<br />

Käänteisessä kappalesironnassa pyritään määräämään kappaleen sijainti.<br />

Käänteiset sironta-ongelmat (eng. inverse scattering problem) ovat<br />

matematiikaltaan haastavia.<br />

1.3 <strong>Inversio</strong>-<strong>ongelmien</strong> luokittelua<br />

(A) Matemaattiset inversio-ongelmat. Esimerkiksi.<br />

– Sirontaongelmat (kappalesironta, sironta väliaineesta, potentiaalisironta,<br />

data yhdellä tai usealla taajuudella)<br />

14


– Käänteiset reuna-arvo-ongelmat<br />

– Matemaattinen tomografia (myös matka-aikatomografia)<br />

– Alkuarvojen määrääminen<br />

– Käänteiset ominaisarvo-ongelmat.<br />

(B) Käytännönläheiset ja laskennalliset inversio-ongelmat. Esimerkiksi<br />

– Kuvankäsittely<br />

– Kaukokartoitus (=etäällä olevien kohteiden kuvantaminen epäsuorien<br />

menetelmien avulla)<br />

– Lääketieteellinen kuvantaminen<br />

– Ainetta rikkomaton testaus<br />

– Retrospektiiviset eli menneisyyteen liittyvät ongelmat (esim. mistä<br />

saastehiukkaset ovat kulkeutuneet)<br />

– Biologiset inversio-onglmat (esim. Fylogeneettinen ongelma: Määrää<br />

DNA-erojen perusteella missä järjestyksessä nykyiset lajit ovat eriytyneet<br />

toisistaan eli piirrä lajien evoluutiopuu.)<br />

<strong>Inversio</strong>-ongelmian sovellusalueita ovat mm.<br />

• Geologinen tutkimus (malmi- ja öljyvarojen kartoitus, maankuoren tutkimus,<br />

maanjäristysten analysointi)<br />

• Lääketiede (kuvantaminen, metabolisten prosessien parametrien kääntäminen<br />

verinäytteistä, etc.)<br />

• Maapallon tilan seuraaminen (otsonimittaus, epäsuorat lämpötilamittaukset,<br />

etc..)<br />

• Tähtitiede ja astronomia (epäsuorat havainnot planeetoista, asterodeista,<br />

auringosta, galakseista etc.).<br />

• Taloustiede (mallien parametrien määrääminen).<br />

• Teollisuuden laadunvalvonta.<br />

1.4 Yhteenveto<br />

<strong>Inversio</strong>-ongelmissa pyritään saamaan tietoa tuntemattomista kohteista epäsuorien<br />

havaintojen avulla. <strong>Inversio</strong>-ongelmat voidaan jakaa matemaattisiin ja käytännönläheisiin<br />

ongelmiin ja niitä tavataan useilla eri aloilla. Tyypilliset ominaisuudet:<br />

• vaikeampia kuin suorat ongelmat.<br />

• herkkiä datan häiriöille<br />

• käytännön inversio-ongelmissa datan määrä on rajallinen<br />

• usein epälineaarisia<br />

15


Luku 2<br />

Hyvin ja huonosti asetetut<br />

inversio-ongelmat<br />

2.1 Hyvin asetetut inversio-ongelmat<br />

Ryhdytään tarkastelemaan inversio-ongelmia vektoriavaruuksissa R n . Vektoriavaruus<br />

soveltuu hyvin tuntemattomien kuvailuun käytännön inversio-ongelmissa,<br />

sillä usein tavoitteena on muodostaa kuva tuntemattomasta kohteesta. Jos kuvassa<br />

on m × m pikseliä, niin tuntematon voidaan kuvata vektorina, jonka dimensio<br />

on n = m 2 .<br />

Lineaarinen vektoriavaruus R n , n ≥ 1 varustetaan tavanomaisella topologialla,<br />

jossa a-keskinen r-säteinen avoin pallo, missä a = (a 1 , ..., a n ) ∈ R n ja<br />

r > 0, on muotoa<br />

B(a, r) = {x ∈ R n : |x − a| < r}.<br />

Vektorin x = (x 1 , .., x n ) ∈ R n pituus |x| on<br />

∑<br />

|x| = √ n |x i | 2 .<br />

i=1<br />

Olkoon D ⊂ R n . Palautetaan mieleen, että funktio F : D ⊂ R n → R m on<br />

jatkuva pisteessä x 1 ∈ D jos jokaisella ǫ > 0 on olemassa sellainen δ > 0 että<br />

ehdoista x 2 ∈ D ja |x 1 − x 2 | < δ seuraa |F(x 1 ) − F(x 2 )| < ǫ.<br />

Seuraava määritelmä on inversio-<strong>ongelmien</strong> kannalta tärkeä.<br />

Määritelmä 1 (Jacques Hadamard, 1865-1963). Ongelma on hyvin asetettu<br />

(eng. well-posed), jos<br />

1. Ongelmalla on ratkaisu.<br />

2. Ratkaisu on yksikäsitteinen.<br />

3. Ratkaisu riippuu annetusta datasta jatkuvasti.<br />

Määritellään joukko<br />

V = {x ∈ R n : x on mahdollinen tuntematon }<br />

17


Jos suora ongelma ”määrää (vapaasti valittua) vektoria x ∈ V vastaava data<br />

y ∈ R m ”on hyvin asetettu, niin jokaista mahdollista tuntematonta x ∈ V vastaa<br />

yksi datavektori y ∈ R m . Voimme silloin määritellä funktion<br />

F : V → R m ,<br />

joka kuvaa tuntemattoman x ∈ V sitä vastaavaksi dataksi y ∈ R m . Funktiota<br />

F kutsutaan suoraksi teoriaksi (eng. direct theory, forward mapping). Kohdan<br />

3. mukaan F : V → R m on jatkuva.<br />

Oletetaan, että tunnetaan suora teoria F : V → R m . Olkoon lisäksi W ⊂<br />

R m annettu. Ryhdytään tarkastelemaan suoraa ongelmaa vastaavaa inversioongelmaa:<br />

Määrää x ∈ V kun (vapaasti valittu) y = F(x) ∈ W ⊂ R m on annettu.<br />

Milloin tämä inversio-ongelma on hyvin asetettu? Kohdat 1. ja 2. edellyttävät<br />

inversio-ongelman yksikäsitteistä ratkeavuutta; kuvauksen F : V → W on<br />

oltava sekä surjektio että injektio. Tällöin käänteiskuvaus F −1 on olemassa ja<br />

sen määrittelyjoukko on koko W.<br />

Kolmas vaatimus – käänteiskuvauksen jatkuvuus– tähtää stabiilisuuteen: jos<br />

ongelma on hyvin asetettu, niin riittävän pieni häiriö datassa ei aiheuta suuria<br />

muutoksia ratkaisuun. Ehdon 3 nojalla F −1 on jatkuva pisteessä y 1 ∈ W jolloin<br />

annetulla ǫ > 0 löytyy sellainen δ > 0, että |F −1 (y 1 ) − F −1 (y 2 )| < ǫ aina kun<br />

y 2 ∈ W ja |y 1 − y 2 | < δ. Erityisesti jos näissä epäyhtälöissä y 1 = F(x 1 ) jollakin<br />

x 1 ∈ V ja y 2 ∈ W on muotoa<br />

y 2 = F(x 1 ) + e,<br />

missä |e| < δ, niin vastaaville ratkaisuille pätee<br />

|F −1 (y 1 ) − F −1 (y 2 )| = |x 1 − F −1 (F(x 1 ) + e)| < ǫ.<br />

<strong>Inversio</strong>-ongelma on hyvin asetettu, jos sillä on olemassa yksikäsitteinen stabiili<br />

ratkaisu.<br />

2.2 Abstrakti kuvailu<br />

Palataan hetkeksi hiukan yleisempien inversio-<strong>ongelmien</strong> pariin, joissa tuntematon<br />

f ja data g voivat olla myös funktioita. Olkoot V 1 ja V 2 kaksi vektoriavaruutta,<br />

jotka on varustettu normeilla ‖·‖ 1 ja ‖·‖ 2 . Olkoon kuvaus R : V 1 → V 2<br />

suora teoria, joka vie tuntemattoman vektorin f ∈ V 1 sitä vastaavaksi dataksi<br />

R(f) = g ∈ V 2 . Suora ongelma on määrätä g = R(f). Vastaavan inversioongelman<br />

ratkaisu voidaan jakaa seuraaviin osaongelmiin.<br />

1. Identifioitavuus.<br />

Ratkaisun yksikäsitteisyyden näyttäminen eli kuvauksen R injektiivisyys.<br />

Vastaa kysymykseen: Onko data periaatteessa riittävä ratkaisun määräämiseksi?<br />

Yleensä ensimmäinen askel matemaattisessa inversio-ongelmassa.<br />

2. Karakterisointi.<br />

Mikä on kuvauksenăR kuvajoukko? Millaiset datavektorit g vastaavat tuntemattomia<br />

f?<br />

18


3. Stabiilisuus. Miten pienet häiriöt datassa vaikuttavat ratkaisuun? Onko<br />

R −1 jatkuva (jollakin joukolla U ⊂ V 2 )?<br />

4. Rekonstruktio.<br />

Kuinka f saadaan annetusta g ∈ Im(R) matemaattisesti selville? Tämä<br />

on toinen tärkeä askel matemaattisen inversio-ongelman ratkaisemisessa.<br />

5. Numeerinen rekonstruktio.<br />

Tarkka tai approksimatiivinen menetelmä ratkaisun numeeriseen määräämiseen<br />

saatavilla olevasta datasta.<br />

Kohdat 1.-3. ovat ekvivalentteja sille että matemaattinen inversio-ongelma<br />

on hyvin asetettu. Kohta 4. antaa matemaattisen konstruktion tuntemattoman<br />

selvittämiseksi datasta.<br />

Jo kohdat 1. ja 4. osoittavat, että ongelma on matemaattisesti ratkaistavissa<br />

jolloin on mahdollista edetä suoraan kohtaan 5.<br />

Kohta 5 on usein lähes uusi ongelma. Vaikka matemaattisen inversio-ongelman<br />

ratkaisu osoittaa, että ongelma on järkevästi asetettu ja ratkaisuperiaate tunnetaan,<br />

niiin käytännössä datan rajallisuus ja epätarkkuus voivat tehdä matemaattisen<br />

ratkaisuperiaatteen suoraviivaisen soveltamisen mahdottomaksi. Erityisesti<br />

tämä pätee kun ratkaisu ei ole stabiili. Tällöin käytetään approksimatiivisia<br />

ratkaisumenetelmiä, joihin tutustutaan myöhemmin tällä kurssilla.<br />

Kun haetaan numeerista ratkaisua, tuntematonta funktiota f(t), t ∈ R m<br />

joudutaan usein approksimoimaan joillakin yksinkertaisemmilla funktioilla<br />

f n (t) =<br />

n∑<br />

a n φ n (t),<br />

i=1<br />

missä funktiot φ n ovat tunnettuja, mutta kertoimet a n ∈ R ovat tuntemattomia.<br />

Tuntemattoman approksimaatio saadaan selville, mikäli onnistutaan määräämään<br />

vektori x = (a 1 , ..., a n ) ∈ R n . Approksimaatioissa päädytään yleensä<br />

vektoriarvoisten tuntemattomien inversio-ongelmaan.<br />

2.3 Huonosti asetetut inversio-ongelmat<br />

Määritelmä 2. Jos ongelma ei ole hyvin asetettu, se on huonosti asetettu (eng.<br />

ill-posed).<br />

Tarkastellaan eri vaihtoehtoja:<br />

1. Ratkaisu on olemassa, mutta on epäyksikäsitteinen.<br />

Useampi kuin yksi tuntematon tuottaa saman datan eli y = F(x 1 ) =<br />

F(x 2 ) joillakin tuntemattomilla x 1 ≠ x 2 . Tällöin on järkevää kysyä minkälaisesta<br />

epäyksikäsitteisyydestä on kysyä sekä mahdollisuutta rajoittaa<br />

tai priorisoida mahdollisten tuntemattomien joukkoa jollakin tapaa.<br />

Epäyksikäsitteisyys on varsinkin käytännön inversio-<strong>ongelmien</strong> rasite saatavilla<br />

olevan datan rajallisuuden vuoksi. Tyypillisesti matemaattisen inversioongelman<br />

ratkaisu edellyttää jonkin funktion tuntemista, mutta käytännössä<br />

funktion (approksimatiivisia) arvoja kyetään rekisteröimään vain<br />

19


joissakin pisteissä. Tarkastellaan esimerkiksi yksinkertaista ongelmaa, jossa<br />

pyydetään määräämään funktion f ∈ C 1 (0, 1) derivaatta f ′ = g. Jos<br />

f tunnetaan, niin ratkaisu on yksikäsitteinen. Jos f tunnetaan vain pisteissä<br />

f(t i ), t 1 , ..., t n ∈ [0, 1], niin f voi olla mikä tahansa pisteiden f(t i ),<br />

i = 1, ..., n kautta kulkeva C 1 -funktio. Jokaista dataan sopivaa eri funktiota<br />

f vastaa eri derivaatta g.<br />

Käytännön inversio-ongelmissa tuntematon on usein korkeaulotteisempi<br />

vektori kuin annettu datavektori. Yksinkertainen esimerkki epäyksikäsitteisyydestä<br />

on matriisiyhtälö<br />

y j =<br />

n∑<br />

M ij x j ,<br />

j=1<br />

missä j = 1, ..., m ja n > m. Tällöin tuntemattiomia on n kappaleita ja<br />

niitä sitovia yhtälöitä vain m kappaletta.<br />

2. Ratkaisua ei ole olemassa.<br />

Tähän tilanteeseen voidaan päätyä, jos annettu data sisältää häiriöitä. Ts.<br />

jos esimerkiksi on annettu y = F(x)+e, missä e on tuntematon pieni häiriö<br />

ja y /∈ Im(F). Siitä huolimatta haluttaisiin saada tietoa tuntemattomasta<br />

x.<br />

3. Ratkaisu ei riipu jatkuvasti datasta.<br />

Pienimmätkin häiriöt datassa voivat saada aikaan suuria muutoksia ratkaisuun.<br />

Voi tapahtua erityisesti epälineaarisissa äärellisulotteisissa ongelmissa<br />

ja eräissä funktioita käsittelevissä lineaarisissa inversio-ongelmissa.<br />

Esimerkki 1. Tarkastellaan Fredholmin 1. kertaluvun integraaliyhtälöä<br />

g(x) =<br />

∫ 1<br />

0<br />

K(x, y)f(y)dy, y ∈ [0.1].<br />

siinä tapauksessa, että K : [0, 1] × [0, 1] → R on C 1 -funktio. <strong>Inversio</strong>-ongelma:<br />

Määrää jatkuva funktio f : [0, 1] → R kun jatkuva funktio g : [0, 1] → R on<br />

annettu.<br />

Jos g on jatkuva funktio, joka ei ole derivoituva, niin ratkaisua ei ole olemassa.<br />

Yhtälön oikea puoli on aina derivoituva, sillä<br />

0<br />

d<br />

dx<br />

∫ 1<br />

0<br />

K(x, y)f(y)dy =<br />

∫ 1<br />

0<br />

∂<br />

K(x, y)f(y)dy<br />

∂x<br />

koska erotusosamäärälle pätee<br />

∫ 1<br />

∫<br />

K(x + h, y) − K(x, y)<br />

1<br />

∫ x+h<br />

∂<br />

x 1 K(x ′ , y)dx ′<br />

f(y)dy =<br />

f(y)dy,<br />

h<br />

0 h<br />

missä integrointijärjestystä voidaan vaihtaa.<br />

Esimerkki 2. Olkoon M n×n ∈ R n×n . Milloin ongelma ”määrää sellainen x ∈<br />

R n , että Mx = y, missä y ∈ R n on annettu”on huonosti asetettu?<br />

Ongelma on huonosti asetettu vain jos det(M) = 0, sillä muussa tapauksessa<br />

neliömatriisilla M on olemassa käänteismatriisi M −1 joka on jatkuva kuvaus.<br />

20


Esimerkki 3. Jos M ∈ R m×n ja m < n, niin ongelma ”määrää x ∈ R n kun<br />

y = Mx ∈ R m on annettu”on huonosti asetettu, sillä ongelmalla on useita<br />

ratkaisuja. Esimerkiksi, jos<br />

( ) 1 1 0<br />

M = ,<br />

0 0 1<br />

niin Mx = 0 jos ja vain jos x 1 + x 2 = 0 ja x 3 = 0. Toisin sanoen<br />

Ker(M) = {(x 1 , −x 1 , 0) : x 1 ∈ R} ≠ {0}.<br />

Esimerkki 4. Olkoon M m×n ∈ R m×n . Olkoon V ⊂ R n ja W ⊂ R m lineaarisia<br />

aliavaruuksia. Milloin ongelma ”määrää sellainen x ∈ V , että Mx = y, missä<br />

y ∈ W on annettu”on huonosti asetettu?<br />

Tämä ongelma on huonosti asetettu, jos edes toinen seuraavista väitteistä<br />

on totta.<br />

1. W ∩ M(V ) ≠ W (jolloin ei löydy ratkaisua)<br />

2. V ∩ Ker(M) ≠ {0} (jolloin ratkaisu ei ole yksikäsitteinen)<br />

Lineaarisen aliavaruuden V kuva on aliavaruus<br />

n∑<br />

M(V ) = {y ∈ R m : y = x i M i , x ∈ V },<br />

missä vektori M i on matriisin M i:s pystyvektori (eli sarake). Jos V = R n , niin<br />

M(V ) on matriisin M pystyvektorien virittämä aliavaruus.<br />

Huomaa, että jos lineaarinen kuvaus M : V → W on bijektio, niin sillä on<br />

jatkuva lineaarinen käänteiskuvaus. Tämän voi nähdä toteamalla, että kuvaavaruuden<br />

W = M(V ) dimensio on silloin sama kuin aliavaruuden V dimensio<br />

jolloin lineaarinen kuvaus M voidaan esittää neliömatriisina, jolla injektiivisyyden<br />

perusteella on käänteismatriisi. Matriisikuvaus on jatkuva.<br />

i=1<br />

2.4 Ratkaisun häiriöalttius<br />

Huonosti asetetun ongelman ratkaisu voi olla altis häiriöille, mutta myös hyvin<br />

asetetuilla ongelmilla voi olla erilainen häiriöalttius. Löysästi puhuen voidaan<br />

sanoa että ongelma A on huonommin asetettu tai häiriöalttiimpi (more<br />

ill-posed/ill-conditioned) kuin ongelma B, jos samansuuruinen häiriö datassa<br />

muuttaa ongelman A ratkaisua voimakkaammin kuin ongelman B ratkaisua.<br />

Esimerkki 5. Olkoot y, ỹ ∈ R 8 muotoa y = Mx + ε ja ỹ = ˜Mx + ε, missä<br />

x = (1, 1, 1, 1, 1, 1, 1, 1), ε = (0, 0, 0, 0, 0, 0, 0, 0.02) ja M, ˜M ovat reaalisia 8 × 8-<br />

matriiseja, joiden elementit ovat M ij = 1 i δ ij ja ˜M ij = 2 −i δ ij . Tässä δ ij on<br />

Kroneckerin delta: δ ij = 0 jos i ≠ j ja δ ij = 1 jos i = j. Matriisit M ja ˜M ovat<br />

säännöllisiä, mutta<br />

M −1 y = x + M −1 ε = (1, 1, 1, 1, 1, 1, 1, 1, 1.16) ja<br />

˜M −1 ỹ = x + ˜M −1 ε = (1, 1, 1, 1, 1, 1, 1, 1 + 2 8 · 0.01)<br />

Viimeiseen elementtiin summautuu 2 8 · 0.02 = 5.12. Vaikka ongelma on Hadamardin<br />

mielessä hyvin asetettu, ei häiriöisellä datalla saatua ratkaisua voi pitää<br />

hyvänä.<br />

21


Hyvin asetettu ongelma, jolla on hyvin suuri häiriöalttius, on ominaisuuksiltaan<br />

samankaltainen kuin huonosti asetettu ongelma, jonka ratkaisu ei riipu<br />

jatkuvasti datasta.<br />

Häiriöalttius on vakava asia, sillä suurimmassa osaa käytännön inversioongelmista<br />

pätee seuraava nyrkkisääntö: data ei ole koskaan täsmälleen sellaista<br />

kuin suorassa teoriassa on esitetty.<br />

• Mittalaitteilla on rajallinen tarkkuus.<br />

• Elektronisissa mittalaitteissa esiintyy lämpökohinaa.<br />

• Suora teoria ei välttämättä ole täysin tarkka, vaan voi sisältää approksimaatioita.<br />

• Mittauksessa voi esiintyä ulkoisia häiriöitä.<br />

Lisäksi numeerisessa laskennasssa tapahtuu pyöristysvirheitä, jotka johtuvat tietokoneen<br />

rajallisesta laskentatarkkuudesta (reaaliluvut on korvattu liukuluvuilla).<br />

Matriisien kvantitaviivisessa vertailussa käytetään ehtolukuja (eng. condition<br />

numbers). Palautetaan mieleen, että matriisin M = M m×n ∈ C m×n Hermiten<br />

liittomatriisi on M ∗ = M T .<br />

Määritelmä 3. Matriisin M m×n ∈ C m×n singulaariarvot σ i (M) ovat matriisin<br />

M ∗ M ominaisarvojen λ i nelijöjuuria eli σ i (M) = √ λ i i = 1, ..., n.<br />

Määritelmä 4. Säännöllisen matriisin M = M n×n ∈ C n×n ehtoluku κ(M) on<br />

luku<br />

κ(M) = ‖M‖‖M −1 ‖,<br />

missä matriisinormi ‖M‖ = σ max (M) on matriisin M suurin singulaariarvo.<br />

Huomaa, että normin ja sisätulon välisen yhteyden nojalla<br />

‖Mx‖ = √ n∑<br />

(Mx, Mx) = √ M ij x i M ik x k = √ (M ∗ Mx, x) (2.1)<br />

j,i,k=1<br />

jokaisella x ∈ C n . Koska M ∗ M on Hermiten matriisi, niin neliömuoto (2.1)<br />

voidaan kirjoittaa muodossa<br />

(M ∗ Mx, x) = (Λx ′ , x ′ ) =<br />

n∑<br />

λ i |x ′ i |2 ,<br />

missä Λ on diagonaalimatriisi, joka sisältää matriisin M ∗ M ominaisarvot λ i ja<br />

x ′ on vektorin x esitys matriisin M ∗ M ominaiskannassa. Arvioimalla ominaisarvoja<br />

ylöspäin suurimmalla ominaisarvolla saadaan epäyhtälö<br />

√<br />

‖Mx‖ ≤ max λi ‖x‖. (2.2)<br />

1≤i≤n<br />

i=1<br />

Sama pätee myös käänteismatriisille M −1 muodossa<br />

‖M −1 y‖ ≤<br />

1<br />

min 1≤i≤n<br />

√<br />

λi<br />

‖y‖. (2.3)<br />

22


Jos y = y + δy, missä δy ∈ R n edustaa datan häiriötä, niin häiritystä yhtälöstä<br />

y + δy = M(x + δx),<br />

saadaan häiriölle yhtälö δy = M(δx). Epäyhtälön (2.2) nojalla<br />

‖x‖ ≥ ( √ λ max ) −1 ‖y‖. Toisaalta δx = M −1 δy. Epäyhtälön (2.3) nojalla ‖δx‖ ≤<br />

1<br />

‖δy‖. Tarkan ratkaisun suhteellinen virheelle pätee<br />

√<br />

λmin(M)<br />

‖δx‖<br />

‖x‖ = ‖M √ −1 δy‖ λmax ‖δy‖<br />

≤<br />

‖x‖ λ min ‖y‖ = κ(M)‖δy‖ ‖y‖ .<br />

Ehtoluku antaa suhteelliselle virheelle ylärajan. Kun ehtoluku on hyvin suuri<br />

(luokkaa > 10 5 ), niin pelkät pyöristysvirheet alkavat haitata yhtälön numeerista<br />

ratkaisua.<br />

Esimerkki 6. Identtisen matriisin ehtoluku on 1. Esimerkissä 5 matriisien ehtoluvut<br />

ovat<br />

κ(M) = 8<br />

ja<br />

κ(˜M) = 1 2 · 28 = 128.<br />

Esimerkki 7. Lasketaan matriisin<br />

⎛ ⎞<br />

11 10 14<br />

M = ⎝12 11 −13⎠<br />

14 13 −66<br />

ehtoluku. Lasketaan ensin<br />

⎛ ⎞<br />

11 10 14<br />

M T M = ⎝12 11 −13⎠<br />

14 13 −66<br />

⎞ ⎛<br />

⎞<br />

11 10 14 461 424 −926<br />

⎝12 11 −13⎠ = ⎝ 424 390 −861⎠ .<br />

14 13 −66 −926 −861 4721<br />

T ⎛<br />

Tämän matriisin ominaisarvot löytyvät karakteristisen polynomin<br />

⎛<br />

⎞<br />

461 − λ 424 −926<br />

p(λ) = det⎝ 424 390 − λ −861 ⎠<br />

−926 −861 4721 − λ<br />

nollakohdista eli<br />

p(λ) = (461 − λ) · ((390<br />

− λ) · (4721 − λ) − 861 2) − 424 · (424 · (4721 − λ) − 861 · 926)<br />

= 0<br />

−926 (424 · (−861) − (390 − λ) · (−926))<br />

Nollakohtia on kolme: λ 1 , λ 2 ja λ 3 . Nollakohtien neliöjuuret ovat<br />

( √ λ 1 , √ λ 2 , √ λ 3 ) ≈ (0.0006, 21.8, 71.4).<br />

Tällöin ehtoluku on<br />

κ(M) ≈ 71.4<br />

0.0006 ≈ 105 .<br />

23


Olkoon y = Mx + ε annettu. Jos ‖ε‖ ≤ 1/5, niin mitä saadaan selville<br />

vektorista x? Tarkastellaan tilannetta, jossa tuntematon x = (0, 0, 1) ja ǫ =<br />

(0.1, −0.1, 0.1). Silloin<br />

Mx = ( 14 −13 −66 ) T<br />

ja<br />

Koska matriisin M determinantti<br />

y = Mx + ε = ( 14.1 −13.1 −65.9 ) T<br />

.<br />

det(M) = 11·(11·(−66)−(−13)·13)−10·(12·(−66)−(−13)·14)+14·(12·13−11·14) = 1,<br />

niin sen käänteismatriisi on<br />

M −1 =<br />

=<br />

⎛<br />

⎞<br />

11 · (−66) − (−13) · 13) −(12 · (−66) − (−13) · 14)) 12 · 13 − 11 · 14<br />

⎝ −(10 · (−66) − 14 · 13) 11 · (−66) − 14 · 14 −(11 · 13 − 10 · 14) ⎠<br />

10 · (−13) − 14 · 11 −(11 · (−13) − 14 · 12) 11 · 11 − 10 · 12<br />

⎛<br />

⎞<br />

−557 842 −284<br />

⎝ 610 −922 311 ⎠<br />

2 −3 1<br />

Käyttämällä matriisin M käänteismatriisia saadaan<br />

T<br />

M −1 (Mx + ǫ) = x + ( −168 3<br />

10<br />

184 3 10<br />

6<br />

10) T<br />

,<br />

mikä on sangen kaukana vektorista x.<br />

Esimerkki 8. Työstetään vielä inversio-<strong>ongelmien</strong> kannalta hiukan patologisempi<br />

esimerkki dekonvoluutiosta. Lähdetään tarkastelemaan konvoluutiota<br />

g(˜θ) =<br />

∫ π<br />

−π<br />

R(˜θ − θ)f(θ)dθ,<br />

missä ˜θ ∈ [−π, π] ja funktiot R ja f ovat kahdesti jatkuvasti derivoituvia 2πperiodisia<br />

funktioita eli R(θ + n2π) = R(θ) ja f(θ + n2π) = f(θ) jokaisella<br />

n ∈ Z. Oletetaan lisäksi, että R on symmetrinen ja ei-negatiivinen funktio eli<br />

R(θ) = R(−θ) ja R(θ) ≥ 0, t ∈ [0, π].<br />

Oletetaan, että meille on annettu data<br />

g(θ 1 ), ..., g(θ n ),<br />

missä θ j = hj − π, j = 1, .., n ja h = 2π n , n = 2m jollakin m > 3 ja funktio<br />

Rătunnetaan. Mitä silloin tiedetään funktiosta f? Tiedämme, että Riemannin<br />

24


integraali g(˜θ) saadaan raja-arvona Riemannin summista<br />

n∑<br />

S n (˜θ) = R(˜θ − θ (n)<br />

j )f(θ (n)<br />

j )h n ,<br />

j=1<br />

kun välin jakoa tihennetään (erityisesti kun n = 2 m ja m → ∞). Kirjoitetaan<br />

nyt annetut arvot muodossa<br />

(∫ π<br />

)<br />

g(θ k ) = R(θ k − θ)f(θ)dθ − S n (θ k ) + S n (θ k )<br />

−π<br />

n∑<br />

= R(θ k − θ j )f(θ j )h + e k ,<br />

missä<br />

Merkitään<br />

sekä<br />

j=1<br />

e k =<br />

∫ π<br />

−π<br />

R(θ k − θ)f(θ)dθ − S n (θ k ).<br />

M kj = R(θ k − θ j )h<br />

x k = f(θ k ) ja y k = g(θ k )<br />

kun k, j = 1, ..., n. Voimme korvata alkuperäisen ongelman matriisiyhtälöllä,<br />

y = Mx + e.<br />

jossa annettu data y on epätarkka.<br />

Ryhdytään arvioimaan matriisin M ehtolukua. Matriisi M on<br />

⎛<br />

⎞<br />

R(0) R(−h) R(−2h) · · · R(−(n − 2)h R(−(n − 1)h)<br />

R(h) R(0) R(−h) · · · R(−(n − 3)h) R(−(n − 2)h)<br />

M = h<br />

R(2h) R(h) R(0) · · · R(−(n − 4)h) R(−(n − 2)h)<br />

⎜<br />

⎟<br />

⎝ . . . · · · .<br />

. ⎠<br />

R((n − 1)h) R((n − 2)h) R((n − 3)h) · · · R(h) R(0)<br />

Funktion R jaksollisuuden ansiosta matriisi M on ns. sirkulantti matriisi.<br />

Yleisesti matriisia M ∈ R n×n kutsutaan sirkulantiksi (eng. circulant matrix),<br />

jos se on muotoa<br />

⎛<br />

⎞<br />

m 1 m n m n−1 · · · m 3 m 2<br />

m 2 m 1 m n · · · m 4 m 3<br />

M =<br />

m 3 m 2 m 1 · · · m 5 m 4<br />

⎜<br />

⎝<br />

.<br />

.<br />

. · · ·<br />

.<br />

⎟<br />

. ⎠<br />

m n m n−1 m n−2 · · · m 2 m 1<br />

jollakin vektorilla (m 1 , ..., m n ) ∈ R n .<br />

Lemma 1. Sirkulantin matriisin M ∈ R n×n ominaisarvot ovat<br />

n∑<br />

λ k = m j exp(−2πi(j − 1)(k − 1)/n), k = 1, .., n.<br />

j=1<br />

ja sirkulantti matriisi M on unitaarisesti similaarinen diagonaalimatriisin kanssa<br />

(eli on olemassa unitaarinen matriisi U, jolle U ∗ MU on diagonaalimatriisi).<br />

25


Todistus. Näytetään ensin, että on olemassa ei-triviaali vektori F (k) ∈ R n , jolle<br />

MF (k) = λ k F (k) jokaisella k = 1, ...., n. Valitaan<br />

Lasketaan mitä on<br />

(MF (k) ) j =<br />

=<br />

F (k)<br />

j = exp(2πi(j − 1)(k − 1)/n), k, j = 1, ..., n.<br />

n∑<br />

l=1<br />

M jl F (k)<br />

l<br />

=<br />

n∑<br />

m (j−l+1)mod n exp(2πi(l − 1)(k − 1)/n)<br />

l=1<br />

n∑<br />

m L exp(2πi(j − L)(k − 1)/n) = λ k exp(2π(j − 1)(k − 1))<br />

L=1<br />

= λ k F (k)<br />

j .<br />

Selvästi F (k) ≠ 0, joten λ k on ominaisarvo.<br />

Osoitetaan seuraavaksi, että ominaisvektorit ovat ortogonaalisia. Jos k ≠ l,<br />

niin ominaisvektoreiden F (k) ja F (l) sisätulo<br />

(F (k) , F (l) ) =<br />

=<br />

=<br />

n∑<br />

exp(2πi(j − 1)(k − 1)/n)exp(−2πi(j − 1)(l − 1)/n)<br />

j=1<br />

n∑<br />

exp(2πi(j − 1)(k − l)/n)<br />

j=1<br />

n∑<br />

z j−1 =<br />

j=1<br />

n−1<br />

∑<br />

j ′ =0<br />

z j′<br />

1 − exp(2πi(k − l))<br />

=<br />

1 − exp(2πi(k − l)/n)<br />

= 0,<br />

= 1 − zn<br />

1 − z<br />

missä käytimme geometrisen sarjan osasummaa luvulle z = exp(2πi(k −l)/n) ≠<br />

1. Lisäksi jos k = l, niin sisätulo<br />

(F (k) , F (k) ) =<br />

n∑<br />

exp(2πi(j − 1)(k − 1)/n)exp(−2πi(j − 1)(k − 1)/n) = n.<br />

j=1<br />

Asetetaan U = 1 √ n<br />

(F (1) , ..., F (n) ). Tällöin<br />

⎛ ⎞<br />

U ∗ U = 1 F (1)T<br />

⎜ ⎟<br />

n ⎝ . ⎠ (F (1) , ..., F (n) ) = I n×n .<br />

F (n)T<br />

Siis U on unitaarinen. Lisäksi MU = Udiag(λ 1 , ..., λ n ), josta similaarisuus seuraa.<br />

Sirkulantin matriisin M ominaisarvojen modulit ovat sen singulaariarvoja,<br />

sillä matriisi<br />

M ∗ M = Udiag(¯λ 1 , ..., ¯λ n )U ∗ Udiag(λ 1 , ..., λ n )U ∗ = Udiag(|λ 1 | 2 , ..., |λ n | 2 )U ∗<br />

26


on similaarinen matriisin diag(|λ 1 | 2 , ..., |λ n | 2 ) kanssa ja similaarisilla matriiseilla<br />

on samat ominaisarvot.<br />

Olkoon nyt m j = R(h(j − 1))h, j = 1, ..., n. Vastaavan sirkulantin matriisin<br />

M ominaisarvot ovat<br />

n∑<br />

λ k = hR(h(j − 1))exp(−2πi(j − 1)(k − 1)/n).<br />

j=1<br />

Oletetaan, että matriisi M on säännöllinen. Jos k = 1, niin<br />

λ 1 =<br />

n∑<br />

hR(h(j − 1))<br />

j=1<br />

Jos k = n/2 + 1 (n on parillinen), niin<br />

n∑<br />

|λ n/2+1 | =<br />

(−1) j−1 hR(h(j − 1))<br />

∣<br />

∣ .<br />

j=1<br />

Matriisin ehtoluvulle saadaan arvio<br />

κ(M) ≥ |λ 1|<br />

|λ n/2+1 | .<br />

Sievennetään summalauseketta käyttäen hyväksi funktion R jaksollisuutta<br />

ja symmetriaa. Kirjoitetaan aluksi<br />

n∑<br />

|λ n/2+1 | =<br />

(−1) j−1 hR(h(j − 1))<br />

∣j=1<br />

∣<br />

n/2−1<br />

=<br />

∣ h ∑<br />

−R(h(2J + 1)) + R(h(2J))<br />

J=0<br />

∣<br />

∣ n/2−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h ∣∣∣∣∣<br />

dR<br />

−<br />

(2J)h dθ (θ)dθ .<br />

J=0<br />

Jaetaan summalauseke kahteen osaa: integraaleihin välin [0, π] osavälien yli ja<br />

integraaleihin välin [π, 2π] osavälien yli :<br />

∣ n/4−1<br />

|λ n/2+1 | =<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/2−1<br />

dR<br />

−<br />

J=0<br />

(2J)h dθ (θ)dθ + h ∑<br />

∫ (2J+1)h ∣∣∣∣∣<br />

dR<br />

−<br />

J=n/4<br />

(2J)h dθ (θ)dθ ∣ n/4−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/4−1<br />

dR<br />

−<br />

J=0 (2J)h dθ (θ)dθ − h ∑<br />

∫ (2(J+n/4)+1)h ∣∣∣∣∣<br />

dR<br />

J=0 (2(J+n/4))h dθ (θ)dθ ∣ n/4−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/4−1<br />

dR<br />

−<br />

J=0 (2J)h dθ (θ)dθ − h ∑<br />

∫ (2J+1)h+π ∣∣∣∣∣<br />

dR<br />

J=0 (2J)h+π dθ (θ)dθ ∣ n/4−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/4−1<br />

dR<br />

−<br />

(2J)h dθ (θ)dθ − h ∑<br />

∫ (2J+1)h−π ∣∣∣∣∣<br />

dR<br />

(2J)h−π dθ (θ)dθ .<br />

J=0<br />

27<br />

J=0


Tehdään muuttujan vaihto −θ ′ = θ<br />

n/4−1<br />

|λ n/2+1 | =<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/4−1<br />

dR<br />

−<br />

J=0 (2J)h dθ (θ)dθ − h ∑<br />

J=0<br />

n/4−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/4−1<br />

dR<br />

−<br />

(2J)h dθ (θ)dθ + h ∑<br />

J=0<br />

J=0<br />

∫ π−(2J)h<br />

Vaihdetaan vielä summausindeksiksi J ′ = n/4 − J<br />

n/4−1<br />

|λ n/2+1 | =<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/4<br />

dR<br />

−<br />

J=0 (2J)h dθ (θ)dθ + h ∑<br />

J ′ =1<br />

n/4−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h<br />

n/4−1<br />

dR<br />

−<br />

J=0 (2J)h dθ (θ)dθ + h ∑<br />

J ′ =0<br />

∣ n/4−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h<br />

∣∣∣∣∣<br />

− dR dR<br />

(θ) +<br />

(2J)h dθ dθ (θ + h)dθ .<br />

J=0<br />

π−(2J+1)h<br />

∫ 2(n/4−J)h<br />

(2(n/4−J)−1)h<br />

∫ (2J ′ )h<br />

(2J ′ −1)h<br />

∫ (2J ′ )h<br />

(2J ′ −1)h<br />

∣ ∣∣∣∣∣<br />

dR<br />

dθ (−θ′ )dθ ′<br />

∣ ∣∣∣∣∣<br />

dR<br />

dθ (θ)dθ<br />

Käytetään analyysin peruslausetta vielä uudestaan<br />

∣ n/4−1<br />

|λ n/2+1 | =<br />

∣ h ∑<br />

∫ (2J+1)h<br />

∣∣∣∣∣<br />

− dR dR<br />

(θ) +<br />

J=0 (2J)h dθ dθ (θ + h)dθ n/4−1<br />

=<br />

∣ h ∑<br />

∫ (2J+1)h ∫ θ+h<br />

d 2 R<br />

(2J)h θ dθ 2 (θ′ )dθ ′ dθ<br />

∣ .<br />

J=0<br />

Viemällä itseisarvomerkit integraalien sisälle saamme arvion<br />

jolloin<br />

|λ n/2+1 | ≤ h<br />

κ(M n×n ) ≥<br />

≤<br />

∫ π ∫ θ+h<br />

0<br />

θ<br />

h 2 π sup<br />

θ ′<br />

∣ ∣∣∣ d 2 R<br />

sup<br />

θ ′ dθ 2 (θ′ )<br />

∣ dθ′ dθ<br />

∣ ∣∣∣ d 2 R<br />

dθ 2 (θ′ )<br />

∣ ,<br />

hR(0)<br />

h 2 π sup θ |R ′′ (θ)| = R(0)<br />

2π 2 sup θ |R ′′ (θ)| O(n).<br />

∣ ∣∣∣∣∣<br />

dR<br />

dθ (θ)dθ<br />

∣ ∣∣∣∣∣<br />

dR<br />

dθ (θ + 2h)dθ<br />

Mitä suurempi n on sitä epästabiilimpaa on matriisin M n×n kääntäminen. Tämä<br />

on tyypillistä käytöstä silottavien konvoluutioiden äärellisulotteisille approksimaatioille.<br />

2.5 Yhteenveto<br />

• Hyvin asetetulla ongelmalla on yksikäsitteinen ratkaisu, joka riippuu jatkuvasti<br />

annetusta datasta.<br />

28


• Huonosti asetetulla ongelmalla ei ole ratkaisua lainkaan ja/tai ratkaisuja<br />

on monta ja/tai ratkaisu ei riipu jatkuvasti annetusta datasta.<br />

• Jos datassa on liikaa häiriöitä, voi hyvin asetetun ongelman ratkaisu olla<br />

huonosti asetetetun ongelman ratkaisun kaltainen.<br />

• Käytännön inversio-ongelmatovat usein huonosti asetettuja/häiriöherkkiä.<br />

Osattava;<br />

• määritellä hyvin asetettu ongelma ja huonosti asetettu ongelma.<br />

• tunnistaa ja antaa esimerkkejä äärellisulotteisista lineaarisista huonosti<br />

asetetuista ongelmista.<br />

• määritellä matriisin ehtoluku<br />

• laskea annetun matriisin ehtoluku<br />

Ymmärrettävä:<br />

• miten ehtoluku liittyy yhtälöryhmien ratkaisemiseen.<br />

• mitä matriisiyhtälölle Mx = y tapahtuu, jos annetut arvot y tunnetaan<br />

epätarkasti.<br />

• mitä eroa on häiriöherkällä ja huonosti asetetulla ongelmalla<br />

Tiedettävä:<br />

• että funktioita approksimoidaan numeerisessa laskennassa äärellisulotteisilla<br />

vektoreilla.<br />

• että huonosti asetettua inversio-ongelmaa approksimoivan hyvin asetetun<br />

inversio-ongelman häiriöherkkyys voi kasvaa kun approksimaatiota pyritään<br />

tarkentamaan.<br />

2.6 Liite: Käänteismatriisin singulaariarvot<br />

Lause 1. Olkoon M ∈ C n×n säännöllinen matriisi. Matriisin M −1 suurin<br />

singulaariarvo<br />

σ max (M −1 1<br />

) =<br />

σ min (M) ,<br />

missä σ min (M) on matriisin M pienin singulaariarvo.<br />

Todistuksessa käytämme seuraavaa lemmaa<br />

Lemma 2. Olkoon A, B ∈ C n×n säännöllisiä matriiseja. Silloin matriiseilla<br />

AB ja BA on samat ominaisarvot.<br />

Todistus. Matriisin ominaisarvot löytyvät karakteristisen polynomin<br />

nollakohdista. Mutta<br />

p(λ) = det(AB − λI)<br />

det(AB − λI) = det(A(B − λA −1 )) = det(A)det(B − λA −1 )<br />

= det(B − λA −1 )det(A) = det((B − λA −1 )A) = det(BA − λI),<br />

jolloin matriiseilla AB ja BA on samat ominaisarvot.<br />

29


Lemma 3. Olkoon A ∈ C n×n säännöllinen matriisi. Matriisin A −1 ominaisarvot<br />

ovat matriisin A ominaisarvojen käänteislukuja.<br />

Todistus. Ominaisarvot löytyvät karakteristisen polynomin<br />

nollakohdista. Nyt<br />

p(λ) = det(A − λI)<br />

det(A − λI) = det(A(λ −1 − A −1 )λ) = λ n det(A)det(λ −1 − A −1 ).<br />

Koska A on säänöllinen, niin nolla ei ole sen ominaisarvo. Luku λ −1 on matriisin<br />

A −1 ominaisarvo silloin ja vain silloin kun λ on matriisin A ominaisarvo.<br />

Todistus: Lause 1. Määrätään matriisin M −1 suurin singulaariarvo. Nyt<br />

(M −1 ) ∗ M −1 = (M ∗ ) −1 M −1 = (MM ∗ ) −1 .<br />

Matriisin (M −1 ) ∗ M −1 ominaisarvot ovat matriisin MM ∗ ominaisarvojen käänteislukuja<br />

lemman 3 nojalla. Matriisilla MM ∗ on samat ominaisarvot kuin matriisilla<br />

M ∗ M lemman 2 nojalla. Matriisin M −1 singulaariarvot ovat<br />

1<br />

√<br />

λi (M ∗ M) ,<br />

i = 1, .., n missä λ i (M ∗ M) on matriisin M ∗ M ominaisarvo. Siis<br />

σ max (M −1 ) =<br />

1<br />

σ min (M) .<br />

Korollaari 1. Olkoon M ∈ C n×n säännöllinen matriisi. Silloin matriisin M<br />

ehtoluku<br />

κ(M) = σ max(M)<br />

σ min (M) .<br />

30


Luku 3<br />

Likimääräisratkaisut ja<br />

regularisaatio<br />

Ryhdytään tarkastelemaan klassista approksimatiivista ratkaisumenetelmää huonosti<br />

asetetuille lineaarisille ongelmille.<br />

3.1 Pienimmän neliösumman menetelmä<br />

Olkoon x ∈ R n tuntematon vektori, A ∈ R m×n tunnettu matriisi ja<br />

y = Ax + ε ∈ R m (3.1)<br />

annettu data.<br />

Pienimmän neliösumman menetelmässä (eng. least squares method) valitaan<br />

yhtälön (3.3) likimääräisratkaisuksi sellainen ˆx, jolla<br />

eli<br />

‖Aˆx − y‖ 2 = min<br />

x∈R n ‖Ax − y‖2 .<br />

ˆx = argmin<br />

x∈R n ‖Ax − y‖ 2 .<br />

Merkintä argmin tarkoittaa funktionaalin x ↦→ ‖Ax −y‖ 2 sitä argumenttia jolla<br />

minimi saavutetaan.<br />

Huomautus 1. Termi likimääräisratkaisu tarkoittaa, että ˆx ei välttämättä toteuta<br />

yhtälöä y = Aˆx.<br />

( )<br />

1 0<br />

Esimerkki 9. Olkoon tuntematon x 0 = (1 0) T , A = ja y = Ax<br />

0 0<br />

0 +<br />

(0 0.1) T = (1 0.1) T . Kun x = (x 1 , x 2 ) ∈ R 2 , niin<br />

( ) ( ‖Ax − y‖ 2 =<br />

1 0 x1<br />

∥ 0 0<br />

x 2<br />

)<br />

−<br />

( )∥<br />

1 ∥∥∥<br />

2<br />

= (x<br />

0.1 1 − 1) 2 + 0.1 2 ≥ 0.01.<br />

Näytetään, että pienimmän neliösumman ratkaisu on olemassa. Osoitetaan<br />

ensin seuraava aputulos.<br />

31


Lemma 4. Matriisille M ∈ R m×n pätee R(M T ) ⊥ = Ker(M) eli<br />

R n = R(M T ) ⊕ Ker(M).<br />

Todistus. Olkoon x ∈ R(M T ) ⊥ Jokaisella z ∈ R m pätee<br />

0 = (M T z, x) = (z, Mx)<br />

vain jos Mx = 0 eli x ∈ Ker(M). Siis R(M T ) ⊥ ⊂ Ker(M). Toisaalta, jos<br />

x ∈ Ker(M), niin<br />

(M T z, x) = (z, Mx) = 0<br />

jokaisella z ∈ R m , joten x ∈ R(M T ) ⊥ . Siis Ker(M) ⊂ R(M T ) ⊥ .<br />

Lause 2. Olkoon A ∈ R m×n ja y ∈ R m . Minimointiongelmalla<br />

on samat ratkaisut kuin yhtälöllä<br />

Todistus. Lasketaan ensin sisätulo<br />

ˆx = argmin<br />

x∈R n ‖Ax − y‖ 2<br />

A T Aˆx = A T y.<br />

f(x) = ‖Ax − y‖ 2 = (Ax − y, Ax − y)<br />

= (Ax, Ax) − (y, Ax) − (Ax, y) + (y, y)<br />

= (A T Ax, x) − 2(A T y, x) + (y, y).<br />

Funktionaalin f minimi, jos sellainen on , löytyy kriittisestä pisteestä. Lasketaan<br />

gradientin nollakohdat<br />

∇f(x) = ∇‖Ax − y‖ 2 = 2A T Ax − 2A T y = 0. (3.2)<br />

Olkoon ˆx gradientin nollakohta eli A T Aˆx = A T y. Tämä on minimikohta, sillä<br />

f(x) = ‖A(x − ˆx) + Aˆx − y‖ 2 = ‖A(x − ˆx)‖ 2 + 2(A(x − ˆx), Aˆx − y) + ‖Aˆx − y‖ 2<br />

= ‖A(x − ˆx)‖ 2 + 2(x − ˆx, A T Aˆx − A T y) + ‖Aˆx − y‖ 2<br />

= ‖A(x − ˆx)‖ 2 + ‖Aˆx − y‖ 2 .<br />

Korollaari 2. Olkoon A ∈ R m×n ja y ∈ R m . Minimointiongelmalla<br />

ˆx = argmin<br />

x∈R n ‖Ax − y‖ 2<br />

on olemassa ratkaisu ˆx. Ratkaisu on yksikäsitteinen vain jos Ker(A) = {0}.<br />

Todistus. Lauseen 2 nojalla minimointiongelma on ekivalentti yhtälön A T Aˆx =<br />

A T y kanssa. Tutkitaan yhtälön A T Ax = A T y yksikäsitteistä ratkeavuutta. Injektiivisyys:<br />

Selvästi KerA ⊂ Ker(A T A). Lisäksi x ∈ Ker(A T A) eli A T Ax = 0<br />

jos ja vain jos<br />

0 = (A T Ax, z) = (Ax, Az)<br />

32


jokaisella z ∈ R n . Erityisesti kun z = x, saadaan ‖Ax‖ = 0 eli x ∈ KerA. Toisin<br />

sanoen Ker(A T A) ⊂ Ker(A). Siis Ker(A T A) = Ker(A), jolloin A T A on injektio<br />

jos ja vain jos A on injektio. Näytetään, että A T y ∈ R(A T A) Valitsemalla<br />

M = A sekä M = A T A lemmassa 4, saamme<br />

R(A T ) = Ker(A) ⊥ = Ker(A T A) ⊥ = R(A T A).<br />

Täten yhtälöllä A T Ax = A T y on vähintään yksi ratkaisu ja ratkaisu on yksikäsitteinen<br />

vain jos Ker(A) = {0}.<br />

Huomautus 2. Olkoon P : R m → R m ortogonaaliprojektio kuva-avaruudelle<br />

R(A) (jolloin P 2 = P, P T = P ja erityisesti PAx = Ax jokaisella x ∈ R n ).<br />

Yhtälön y = Ax + ε pienimmän neliösumman ratkaisu ˆx = ˆx(y) on itseasiassa<br />

yhtälön<br />

Py = Ax<br />

ratkaisu, sillä ortogonaaliprojektion P symmetrisyyden nojalla<br />

(Aˆx − Py, z) = (PAˆx − Py, z) = (Aˆx − y, Pz) = (Aˆx − y, Az ′ )<br />

= (A T Aˆx − A T y, z ′ ) = (A T y − A T y, z ′ ) = 0<br />

jokaisella z ∈ R m (huomaa, että koska Pz ∈ R(A), niin löytyy z ′ ∈ R n , jolle<br />

Az ′ = Pz).<br />

Yhtälöillä y = Ax+ε ja Py = PAx+Pε on samat pienimmän neliösumman<br />

ratkaisut. Tämä seuraa siitä, että A = PA, jolloin A T = A T P T ja<br />

A T y = A T Aˆx = A T P T PAx = A T P T y.<br />

Esimerkki 10. Tuntemattomasta x = (x 1 , x 2 ) ∈ R 2 on saatu seuraavat häiriöiset<br />

mittaukset:<br />

1 = x 1 + e 1<br />

3 = x 1 + x 2 + e 2<br />

4 = x 1 + x 2 + e 3<br />

2 = x 2 + e 4 .<br />

Etsi likimääräisratkaisu käyttämällä pienimmän neliösumman menetelmää. Merkitään<br />

⎛ ⎞<br />

1 0<br />

A = ⎜1 1<br />

⎟<br />

⎝1 1⎠<br />

0 1<br />

ja y = (1, 3, 4, 2). Määrätään pienimmän neliösumman ratkaisu yhtälölle y =<br />

Ax + e. Lasketaan<br />

⎛ ⎞<br />

( ) 1 0 ( )<br />

A T 1 1 1 0<br />

A =<br />

⎜1 1<br />

⎟ 3 2<br />

0 1 1 1 ⎝1 1⎠ = 2 3<br />

0 1<br />

33


ja<br />

A T y =<br />

⎛ ⎞<br />

( ) 1 ( )<br />

1 1 1 0<br />

⎜3<br />

⎟ 8<br />

0 1 1 1 ⎝4⎠ = .<br />

9<br />

2<br />

Saamme yhtälön ( ) ) (<br />

3 2<br />

(ˆx1 8<br />

= ,<br />

2 3 ˆx 2 9)<br />

jonka ratkaisu on (ˆx 1 , ˆx 2 ) = ( 6 5 , 11 5 ).<br />

Korollaari 3. Olkoon A ∈ R m×n . Olkoot λ i ja v i , missä i = 1, .., n, matriisin<br />

A T A ominaisarvot ja niitä vastaavat ortonormeeratut ominaisvektorit. Yhtälön<br />

y = Ax + ε pienimmän neliösumman ratkaisut ˆx = (ˆx 1 , ..., ˆx n ) ovat muotoa<br />

ˆx k =<br />

n∑<br />

i,j=1<br />

λ i ≠0<br />

V ki<br />

1<br />

λ i<br />

V ji (A T y) j + ˜x k , k = 1, ..., n<br />

missä V = (v 1 , ..., v n ) ja ˜x = (˜x 1 , ..., ˜x n ) ∈ Ker(A).<br />

Todistus. Olkoon ˆx annettua muotoa. Nyt A T A = V diag(λ 1 , ..., λ n )V T , jolloin<br />

A T Aˆx = ( V diag(λ 1 , ..., λ n )V T)( V diag(min(0, 1 )<br />

1<br />

), ..., min(0, ))V T A T y.<br />

λ 1 λ n<br />

Olkoon ˜D sellainen diagonaalimatriisi, jolla<br />

{<br />

0 jos λ i = 0<br />

˜D ii =<br />

1 muulloin.<br />

Koska R(A T ) = R(A T A), niin on olemassa sellainen x 0 ∈ R n jolle A T y =<br />

A T Ax 0 . Erityisesti<br />

A T Aˆx = V ˜DV T V diag(λ 1 , ..., λ n )P T x 0<br />

= V ˜D diag(λ 1 , .., λ n )V T x 0 = A T y.<br />

Täten x = ˆx on yhtälön A T Ax = A T y eräs ratkaisu. Muut ratkaisut saadaan<br />

lisäämällä tähän ratkaisuun jokin vektori aliavaruudesta Ker(A T A) = Ker(A)<br />

Määritelmä 5. Matriisin A ∈ C m×n singulaariarvohajotelma (eng. singular<br />

value decomposition) on matriisin A esitys<br />

A = UDV ∗ ,<br />

missä U ∈ C m×m ja V ∈ C n×n ovat unitaarisia matriiseja sekä D ∈ R m×n on<br />

muotoa<br />

{√<br />

λi (A<br />

D ij =<br />

∗ A), i = j<br />

0, i ≠ j.<br />

ja D 11 ≥ D 22 ≥ · · · ≥ D nn ≥ 0.<br />

34


Esimerkki 11. Oletetaan, että matriisilla A ∈ R m×n on singulaariarvohajotelma<br />

A = UDV T , missä D ii = 0 kun i > r ja D ii > 0 kun i < r. Silloin<br />

A T A = (UDV T ) T (UDV T ) = V D T DV T<br />

ja diagonaalimatriisin D T D diagonaalielementit Dii 2 , i = 1, .., n ovat matriisin<br />

A T A ominaisarvot.<br />

Tällöin yhtälön y = Ax+ε pienimmän neliösumman ratkaisut ˆx = (ˆx 1 , ..., ˆx n )<br />

ovat muotoa<br />

ˆx k =<br />

=<br />

=<br />

r∑<br />

n∑<br />

i=1 j=1<br />

r∑<br />

n∑<br />

i=1 j=1<br />

r∑<br />

i=1<br />

1<br />

V ki<br />

Dii<br />

2 V ji (A T y) i + ˜x k<br />

1<br />

V ki<br />

Dii<br />

2 V ji (V D T U T y) j + ˜x k<br />

V ki<br />

1<br />

D ii<br />

(U T y) i + ˜x k ,<br />

missä ˜x = (˜x 1 , .., ˜x n ) ∈ Ker(A).<br />

Sijoitetaan tähän lausekkeeseen y = Ax + ε. Saamme<br />

ˆx k =<br />

r∑<br />

i=1<br />

= (Qx) k +<br />

V ki<br />

1<br />

D ii<br />

(U T UDV T x + U T ε) i + ˜x k<br />

r∑<br />

i=1<br />

V ki<br />

1<br />

D ii<br />

(U T ε) i + ˜x k<br />

Mikäli matriisilla A T A on hyvin pieniä nollasta eroavia ominaisarvoja, niin häiriötermillä<br />

ε on voimakas vaikutus ratkaisuun.<br />

Yllä<br />

r∑<br />

(Qz) k = V ik (V i , z), z ∈ R n<br />

i=1<br />

määrittelee ortogonaalisen projektion aliavaruudelle Ker(A) ⊥ = R(A T ), sillä<br />

vektorit V r+1 , ..., V n virittävät aliavaruuden Ker(A). (Todellakin, jos z ∈<br />

Ker(A), niin<br />

0 = Az = UDV T z.<br />

Mikä tahansa avaruuden R n vektori voidaan esittää matriisin V pystyvektoreiden<br />

muodostamassa kannassa. Erityisesti z = ∑ n<br />

i=1 V i(V i , z). Koska U on<br />

ortogonaalinen, on 0 = U T UDV T z = DV T z eli<br />

r∑<br />

0 = (DV T z, DV T z) ≥ min Dii<br />

2 (V i , z) 2 .<br />

i<br />

Toisin sanoen elementit (V i , z) = 0 kun i = 1, .., r.)<br />

3.2 Tikhonovin regularisaatio<br />

Olkoon x ∈ R n tuntematon, A ∈ R m×n tunnettu matriisi ja<br />

i=1<br />

y = Ax + ε ∈ R m (3.3)<br />

35


annettu data.<br />

Tikhonovin regularisaatiossa (eng. Tikhonov’s regularization) yhtälön y =<br />

Ax + ε likimääräisratkaisuksi ˆx otetaan Tikhonovin funktionaalin<br />

missä α > 0, minimoija eli<br />

L α (x) := ‖Ax − y‖ 2 + α‖x‖ 2 ,<br />

ˆx α = argmin<br />

x∈R n ‖Ax − y‖ 2 + α‖x‖ 2 .<br />

Lause 3. Olkoon α > 0. Minimointiongelmalla<br />

‖Aˆx − y‖ 2 + α‖x‖ 2 = min<br />

x∈R n ‖Ax − y‖2 + α‖x‖ 2<br />

on yksikäsitteinen ratkaisu ˆx α . Ratkaisu ˆx α on myös yhtälön<br />

yksikäsitteinen ratkaisu.<br />

(A T A + αI)ˆx α = A T y<br />

Todistus. Kirjoitetaan Tikhonovin funktionaali muodossa<br />

( ) ( ‖Ax − y‖ 2 + α‖x‖ 2 =<br />

A<br />

∥ √αI y ∥∥∥<br />

2<br />

x − ,<br />

0)∥<br />

joka johtaa pienimmän neliösumman minimointiin. Voimme käyttää Lausetta<br />

2, jonka nojalla Tikhonovin funktionaalin minimoija on olemassa ja toteuttaa<br />

yhtälön<br />

( ) T ( ) ( ) T ( )<br />

√αI<br />

A<br />

√αI<br />

A A<br />

ˆx = √αI y<br />

0<br />

eli<br />

(A T A + αI)ˆx α = A T y.<br />

Tämän yhtälön ratkaisu on yksikäsitteinen Korollaarin 2 nojalla, sillä matriisin<br />

(<br />

A<br />

√αI<br />

)<br />

ydin sisältää vain nollavektorin, sillä jos<br />

niin x = 0.<br />

0 =<br />

( ) ( )<br />

√αI<br />

A Ax<br />

x = √ , αx<br />

Esimerkki 12. Tarkastellaan edellisen luvun Esimerkin 7 matriisia<br />

⎛ ⎞<br />

11 10 14<br />

A = ⎝12 11 −13⎠,<br />

14 13 −66<br />

jonka ehtoluku on luokka 10 5 .<br />

Olkoon y = Ax+ε ∈ R 3 annettu. Tarkastellaan tilannetta, jossa tuntematon<br />

x = (0, 0, 1) ja ǫ = (0.1, −0.1, 0.1). Silloin<br />

Ax = ( 14 −13 −66 ) T<br />

36


ja<br />

Totesimme Esimerkissä 7, että<br />

y = Ax + ε = ( 14.1 −13.1 −65.9 ) T<br />

.<br />

A −1 (Ax + ǫ) = x + ( −168 3<br />

10<br />

184 3<br />

10<br />

6<br />

10) T<br />

.<br />

Ratkaistaan ongelma y = Ax + ε Tikhonovin regularisaatiolla. Lasketaan ensin<br />

⎛ ⎞<br />

11 10 14<br />

A T A = ⎝12 11 −13⎠<br />

14 13 −66<br />

Valitaan α = 0.01 ja lasketaan<br />

(A T A + αI) −1 A T y =<br />

≈<br />

⎞ ⎛<br />

⎞<br />

11 10 14 461 424 −926<br />

⎝12 11 −13⎠ = ⎝ 424 390 −861⎠<br />

14 13 −66 −926 −861 4721<br />

T ⎛<br />

⎛<br />

⎞<br />

461.01 424 −926<br />

⎝ 424 390.01 −861 ⎠<br />

−926 −861 4721.01<br />

⎛<br />

⎝ −0.003 ⎞<br />

0.006 ⎠ .<br />

1.001<br />

⎞ ⎛<br />

11 12 14<br />

⎝10 14 13 ⎠ ⎝ 14.1 ⎞<br />

−13.1⎠<br />

14 −13 −66 −65.9<br />

−1 ⎛<br />

Lähdetään selvittelemään kuinka parametri α vaikuttaa ratkaisuun. Voimme<br />

aluksi kysyä mitä ratkaisulle ˆx α tapahtuu, jos α → 0 tai α → ∞. Tällöin meidän<br />

tulee laskea raja-arvot<br />

lim<br />

α→0+ (AT A + αI) −1 A T y ja lim<br />

α→0+ (AT A + αI) −1 A T y,<br />

jos ne ovat olemassa.<br />

Oletetaan yksinkertaisuuden vuoksi, että nolla ei ole matriisin A T A ominaisarvo.<br />

Silloin käänteismatriisi (A T A) −1 on olemassa ja voimme ryhtyä tutkimaan<br />

erotusta<br />

‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖.<br />

Kahden käänteismatriisin erotus voidaan kirjoittaa muodossa<br />

Erityisesti<br />

Silloin<br />

B −1 − C −1 = B −1 (I − BC −1 ) = B −1 (C − B)C −1 .<br />

(A T A + αI) −1 − (A T A) −1 = (A T A + αI) −1 (αI)(A T A) −1 .<br />

‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖ ≤ ‖(A T A + αI) −1 ‖α‖(A T A) −1 A T y‖.<br />

Muistetaan, että ‖(A T A+αI) −1 ‖ on matriisin (A T A+αI) pienimmän ominaisarvon<br />

λ min käänteisluku. Olkoon u min pienintä ominaisarvoa vastaava ominaisvektori,<br />

jolle ‖u min ‖ = 1. Voimme arvioida pienintä ominaisarvoa seuraavasti:<br />

λ min = ((A T A + αI)u min , u min ) = ((A T A + αI)u min , u min ) ≥ (A T Au min , u min )<br />

≥<br />

λ min (A T A).<br />

37


Tällöin saadaan arvio<br />

‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖ ≤ λ min (A T A) −1 α‖(A T A) −1 A T y‖,<br />

mistä voimme päätellä, että<br />

Samalla tekniikalla nähdään, että<br />

mistä seuraa, että<br />

lim<br />

α→0+ (AT A + αI) −1 A T y = (A T A) −1 A T y.<br />

‖(A T A + αI) −1 A T y‖ = α −1 ‖(1/αA T A + I) −1 A T y‖<br />

≤<br />

α −1 λ min (I) −1 ‖A T y‖<br />

lim<br />

α→∞ (AT A + αI) −1 A T y = 0.<br />

Suurilla regularisaatioparametrin α arvoilla approksimatiivinen ratkaisu lähestyy<br />

nollavektoria. Pienillä regularisaatioparametrin α arvoilla approksimatiivinen<br />

ratkaisu lähestyy pienimmän neliösumman menetelmän ratkaisua.<br />

Huomautus 3. Olkoon A ∈ R n×n säännöllinen. Tikhonovin regularisaatiolla<br />

saadun ratkaisun ˆx α tarkkuus<br />

‖x − ˆx α ‖ = ‖x − (A T A + α) −1 A T Ax − (A T A + α) −1 A T ε‖<br />

riippuu kahdesta eri tavoin α:n funktiona käyttäytyvästä vektorista<br />

z 1 (α) = (I − (A T A + α) −1 A T A)x ja z 2 (α) = (A T A + α) −1 A T ε.<br />

Kun α → 0, niin z 1 (α) → 0 ja z 2 (α) → (A T A) −1 A T ǫ.<br />

Kun α → ∞ niin z 1 (α) → x ja z 2 (α) → 0.<br />

Parametrin α valintaan voidaan käyttää ns. Morozovin diskrepanssiperiaatetta<br />

(eng. Morozov’s dicrepancy principle): Oletetaan, että ‖ǫ‖ ≤ e. Valitaan<br />

sellainen α jolla<br />

‖Aˆx α − y‖ = e,<br />

mikäli tämä valinta on mahdollinen. Morozovin diskrepanssiperiaatteen ideana<br />

on, että pyritään välttämään tilanne, jossa likimääräisratkaisu taipuu mukailemaan<br />

virhetermin ε käytöstä eikä todellista dataa Ax. Tavoitteenahan on, että<br />

ˆx α olisi hyvin lähellä tuntematonta vektoria x, jolloin<br />

‖Aˆx α − y‖ = ‖(Aˆx α − Ax) − ε‖ ≈ ‖ε‖.<br />

Esimerkki 13. Oletetaan, että matriisilla A ∈ R m×n on singulaariarvohajotelma<br />

A = UDV T , missä U ja V ovat ortogonaalisia matriiseja ja D ij = 0 jos<br />

i ≠ j . Määrätään yhtälön y = Ax + ε approksimatiivinen ratkaisu ˆx = ˆx α<br />

Tikhonovin regularisaatiolla kun α > 0. Likimääräisratkaisuksi saadaan<br />

missä matriisin<br />

ˆx α = (A T A + αI) −1 A T y.<br />

(A T A+αI) = V D T U T UDV T + αI = V D T DV T +αV V T = V (D T D + αI)V T<br />

38


ominaisarvot Dii 2 + α ovat suurempia tai yhtä suuria kuin α. Singulaariarvohajotelman<br />

avulla saamme<br />

ˆx α = (V (D T D + αI)V T ) −1 V D T U T y = V (D T D + αI) −1 D T U T y<br />

eli<br />

Tällöin<br />

n∑ m∑<br />

(ˆx α ) i =<br />

j=1 k=1<br />

V ij<br />

D jj<br />

D 2 jj + αU jky k .<br />

Aˆx α = UDV T V (D T D + αI) −1 D T U T y = UD(D T D + αI) −1 D T U T y<br />

saa muodon<br />

(Aˆx α ) i =<br />

Vektorin Aˆx α − y normin neliö on<br />

n∑<br />

m∑<br />

j=1 k=1<br />

f(α) := ‖Aˆx α − y‖ 2 =<br />

U ij<br />

D 2 jj<br />

D 2 jj + αU jky k .<br />

(<br />

) 2 n∑ α<br />

Djj 2 + y) j .<br />

α(UT<br />

j=1<br />

Tutkitaan funktion f arvojoukkoa. Voimme laskea funktion f derivaatan lausekkeesta<br />

(<br />

) 2<br />

f ′ (α) = d n∑ α<br />

dα D 2 j=1 jj + y) j α(UT<br />

(<br />

) (<br />

)<br />

n∑ α<br />

1<br />

= 2<br />

Djj 2 + y) j α(UT Djj 2 + α − α<br />

(Djj 2 + (U T y j )<br />

α)2<br />

=<br />

j=1<br />

n∑ αDjj<br />

2 2<br />

(Djj 2 + α)3 (UT y) 2 j ≥ 0.<br />

j=1<br />

Erityisesti jos y ≠ 0 on f ′ (α) > 0, jolloin f on aidosti kasvava. Lisäksi<br />

ja<br />

lim f(α) = lim<br />

α→∞ α→∞ ‖A(AT A + αI) −1 A T y − y‖ 2 = ‖y‖ 2 .<br />

lim f(α) = ‖Aˆx −<br />

α→0+ y‖2 ,<br />

missä ˆx on pienimmän neliösumman ratkaisu. Huomautuksen 2 mukaan Aˆx =<br />

Py, missä P on ortogonaaliprojektio aliavaruudelle R(A). Kun ‖ε‖ ≤ e, niin<br />

Morozovin diskrepanssiperiaatetta voidaan täten käyttää jos ‖(I − P)y‖ ≤ e ≤<br />

‖y‖.<br />

Yleisemmin Tikhonovin regularisaatiolla tarkoitetaan minimointiongelmaa<br />

ˆx = argmin<br />

x∈R n ‖Ax − y‖ 2 + ‖Bx‖ 2 .<br />

39


missä B = B n×n ′ on jokin sellainen matriisi, jolla matriisin B T B kaikki ominaisarvot<br />

ovat positiivisia. Vektori Bx vastaa jotakin tuntemattoman ei-toivottua<br />

ominaisuutta. Esim.<br />

⎛<br />

⎞<br />

1 0 0 0 · · · 0 0<br />

−1 1 0 0 · · · 0 0<br />

B = √ 0 −1 1 0 · · · 0 0<br />

α<br />

0 0 −1 1 0 · · · 0<br />

.<br />

⎜ . .. . .. . ⎟<br />

⎝ 0 0 · · · 0 −1 1 0⎠<br />

0 0 · · · 0 0 −1 1<br />

rankaisee vierekkäisten pisteiden erotuksia.<br />

3.3 Yhteenveto<br />

• Pienimmän neliösumman menetelmä:<br />

– antaa säännön approksimatiivisen ratkaisun etsimiseksi.<br />

– toimii erityisesti silloin kun häiriö ei kuulu operaattorin kuvajoukkoon.<br />

– pienimmän neliösumman ratkaisu on aina olemassa, mutta ei välttämättä<br />

yksikäsitteinen.<br />

– pienimmän neliösumman ratkaisu voi olla häiriöaltis.<br />

• Tkhonovin regularisaatio:<br />

Osattava:<br />

– huonosti asetettu/häiriöaltis ongelma korvataan hieman erilaisella<br />

hyvin asetetulla ongelmalla<br />

– antaa approksimatiivisen ratkaisun, joka sietää paremmin häiriöitä.<br />

– menetelmässä penalisoidaan jotakin tuntemattoman ei-toivottua ominaisuutta.<br />

– hyvin pieni residuaali ‖Aˆx α −y‖ 2 ei tarkoita häiriöisen datan tapauksessa<br />

että ratkaisu ˆx α olisi paras mahdollinen.<br />

• määritellä, mikä on pienimmän neliösumman ratkaisu<br />

• määritellä mikä on Tikhonovin regularisaatiolla saatu ratkaisu<br />

• laskea pienimmän neliösumman ratkaisu ja Tikhonovin regularisaatiolla<br />

saatu ratkaisu kun suoran teorian singulaariarvohajotelma on annettu<br />

• valita ongelmaan sopiva approksimatiivinen ratkaisumenetelmä yksinkertaisissa<br />

tapauksissa<br />

Ymmärrettävä:<br />

• miksi likimääräisratkaisuja käytetään<br />

40


• mitä eroa on likimääräisratkaisulla ja tavanomaisella ratkaisulla<br />

• mitä eroa on pienimmän neliösumman menetelmällä ja Tikhonovin regularisaatiolla<br />

• miten aliavaruus Ker(A) vaikuttaa pienimmän neliösumman ratkaisuihin<br />

ja Tikhonovin regularisaatiolla saatuihin ratkaisuihin.<br />

• miten regularisaatioparametrin α valinta vaikuttaa likimääräisratkaisuun<br />

Tiedettävä<br />

• millainen singulaariarvohajotelma on.<br />

• mikä on Morozovin diskrepanssiperiaate.<br />

41


Luku 4<br />

Tilastolliset<br />

inversio-ongelmat<br />

Maallikkotermejä käyttäen inversio-ongelmassa pyritään päättelemään seurauksista<br />

syihin Samaan tapaan ilmaistuna tilastollisessa inversio-ongelmassa pyritään<br />

arvioimaan syiden todennäköisyyksiä kun epätarkan seurauksen lisäksi<br />

tunnetaan epätarkkojen seurausten todennäköisyydet.<br />

Kertaamme todennäköisyyslaskennan perusteet ennen kuin ryhdymme käsittelemään<br />

tilastollisia inversio-ongelmia Tilastollisille inversio-ongelmille tärkeitä<br />

käsitteitä ovat<br />

• satunnaismuuttuja, satunnaisvektori,<br />

• satunnaisvektorien muunnokset<br />

• riippumattomat satunnaisvektorit<br />

• ehdolliset todennäköisyystiheysfunkiot ja<br />

• Bayesin kaava.<br />

4.1 Lyhyesti todennäköisyyslaskennasta<br />

1900-luvun alkaessa todennäköisyyslaskentaa ei pidetty matematiikan aitona<br />

osa-alueena, sillä todennäköisyyslaskennalla ei ollut aksiomaattista pohjaa. Hilbertin<br />

kuuluisista 23:sta ongelmasta kuudes vaati todennäköisyyslaskennan aksiomatisointia<br />

seuraavin sanoin:<br />

6. Mathematical Treatment of the Axioms of Physics. The investigations on<br />

the foundations of geometry suggest the problem: To treat in the same manner,<br />

by means of axioms, those physical sciences in which already today mathematics<br />

plays an important part; in the first rank are the theory of probabilities and<br />

mechanics.<br />

Todennäköisyyslaskennan aksiomatisointi onnistui vasta abstraktin mittateorian<br />

ja integraalilaskennan kehittämisen avulla 1920-luvun lopussa. Todennäköisyyslaskennan<br />

aksioomien isä on A. N. Kolmogorov (1903-1987).<br />

Kertaamme lyhyesti todennäköisyyslaskennan mittateoreettisen pohjan.<br />

43


4.1.1 Todennäköisyyslaskennan mittateoreettinen pohja<br />

Olkoon Ω perusjoukko, jonka alkiot ω ∈ Ω ovat alkeistapahtumia. Olkoon Σ<br />

kokoelma perusjoukon joukkoja joka muodostaa σ-algebran eli<br />

1. Ω ∈ Σ<br />

2. Jos A ∈ Σ, niin A C ∈ Σ.<br />

3. Jos A i ∈ Σ kun i ∈ N, niin ∪ ∞ i=1 A i ∈ Σ.<br />

Joukkoja A, B ∈ Σ nimitetään tapahtumiksi (eng. event).<br />

• Tapahtumien yhdiste A∪B tarkoittaa että joko tapahtuma A tai B sattuu<br />

(tai molemmat).<br />

• Joukkojen leikkaus A∩B tarkoittaa että molemmat tapahtumat sattuvat.<br />

• Joukon komplementti A C = Ω\A tarkoittaa, että tapahtuma A ei satu.<br />

Määritelmä 6. Kuvaus P : Σ → [0, 1] on todennäköisyysmitta (eng. probability<br />

measure), jos<br />

1. P(Ω) = 1<br />

2. Jos joukot A i ∈ Σ, i ∈ N, ovat sellaisia että A i ∩ A j = ∅ kaikiilla i ≠ j,<br />

niin P(∪ ∞ i=1 A i) = ∑ ∞<br />

i=1 P(A i) (täysadditiivisuus).<br />

Lukua P(A) kutsutaan tapahtuman A ∈ Σ todennäköisyydeksi.<br />

Kaksi tapahtumaa A ja B ∈ Σ ovat riippumattomia (eng. independent/statistically<br />

independent), jos P(A ∩ B) = P(A)P(B).<br />

4.1.2 Satunnaismuuttujista<br />

Tilastollista inversio-ongelmaa varten palautamme mieleen satunnaisvektorin<br />

määritelmän.<br />

Avaruuden R n Borel-joukkojen luokka on pienin sigma-algebra B(R n ) joka<br />

sisältää avoimet joukot.<br />

Määritelmä 7. Satunnaismuuttuja (eng. random variable) X on kuvaus X :<br />

Ω ↦→ R, jolle Borel-joukkojen alkukuvat ovat tapahtumia eli X −1 (B) ∈ Σ<br />

kun B ∈ B(R). Satunnaismuuttujan X jakauma (eng. distribution) on kuvaus<br />

B ↦→ P(X ∈ B) Borel-joukoilta välille [0, 1].<br />

Satunnaisvektori (eng. random vector) X = (X 1 , ..., X n ) on kuvaus X :<br />

Ω ↦→ R n , jolle avaruuden R n Borel-joukkojen B alkukuvat ovat tapahtumia<br />

eli X −1 (B) ∈ Σ kun B ∈ B(R n ). Satunnaisvektorin X jakauma on kuvaus<br />

B ↦→ P(X ∈ B) avaruuden R n Borel-joukoilta välille [0, 1].<br />

Sivuutamme seuraavan lauseen todistuksen, joka liittyy avaruuden R n Boreljoukkojen<br />

ominaisuuksiin.<br />

Lause 4. Kuvaus X : Ω → R n on satunnaisvektori jos ja vain jos kuvauksen<br />

X = (X 1 , ..., X n ) komponentit X i , i = 1, ..., n ovat satunnaismuuttujia.<br />

44


Matemaattisina objekteina satunnaismuuttujat ja satunnaisvektorit ovat funktioita;<br />

niissä itsessään ei ole mitään satunnaista, ei mitään satunnaisuutta aiheuttavaa<br />

mekanismia eikä keinoa generoida satunnaislukuja. Tämä voi vaikuttaa<br />

hieman oudolta... ....että satunnaisia ilmiöitä kuvaillaan ilman minkäänlaista<br />

satunnaisuutta...? Miten se voi toimia..?<br />

Avainsana on ”kuvailu”. Satunnaisilmiötä ei pyritä selittämään kokonaan,<br />

vaan ainoastaan kuvailemaan. Ajatellaan esimerkiksi, että satunnainen ilmiö<br />

tuottaa reaaliluvun (vaikka hissin saapumisaika napin painalluksen jälkeen), jota<br />

kuvaillaan satunnaismuuttujan X avulla. Satunnaismuuttujan mahdollisten<br />

arvojen tiedetään olevan reaalilukuja, mutta emme tiedä etukäteen tarkasti minkä<br />

arvon satunnaismuuttuja tulee saamaan. Tietomme satunnaismuuttujan toteutuvasta<br />

arvosta on epätäydellistä. Kun hissi saapuu hetkellä x 0 , on luku<br />

x 0 otos eli näyte satunnaismuuttujasta X. Tämä tarkoittaa, että x 0 = X(ω 0 )<br />

jollakin ω 0 ∈ Ω. Matematiikka ei kerra kuinka satunnaismuuttujasta on saatu<br />

näyte X(ω 0 ). Alkeistapahtuman ω 0 valintamekanismi on tuntematon. Vaikka<br />

funktio X ja joukko Ω on tiedossa, emme sen perusteella pysty etukäteen sanomaan<br />

satunnaismuuttujan toteutuvasta arvosta sen enempää kuin mitä jakauma<br />

P(X ∈ B), kun B ∈ B(R) paljastaa.<br />

4.1.3 Todennäköisyyslaskennan tulkinnat<br />

Matematiikassa esiintyy harvoin oppiriiitoja, mutta lukuarvon P(X ∈ B) tulkinta<br />

on sellainen. Kysymys on yksinkertainen; milloin on oikeutettua liittää<br />

tapahtumaan X ∈ B tietty todennäköisyys P(X ∈ B)?<br />

1. Frekventistinen tulkinta: tapahtuman todennäköisyys tarkoittaa sitä lukua,<br />

jota tapahtuman suhteellisten esiintymiskertojen lukumäärää lähestyisi<br />

jos koetta toistettaisiin äärettömän monta kertaa.<br />

2. Bayeslainen tulkinta: tapahtuman todennäköisyys on se varmuusaste, jolla<br />

uskomme tapahtuman toteutuvan.<br />

Subjektiivinen Bayeslainen tulkinta mahdollistaa todennäköisyyksien kiinnittämisen<br />

sellaisillekin tapahtumille, jotka eivät ole toistettavissa (esim. mikä<br />

Bayeslaisen tulkinnan mukaan on mahdollista puhua todennäköisyydestä sille,<br />

että muualla maailmankaikkeudessa on älyllistä elämää). Eri yksilöt saattavat<br />

myös kiinnittää eri todennäköisyyden samalle tapahtumalle. Frekventistisen tulkinnan<br />

mukaan tapahtumalle X ∈ B on mahdollista kiinnittää vain yksi ja aina<br />

sama todennäköisyys.<br />

Tässä kurssissa otamme todennäköisyydelle Bayeslaisen tulkinnan.<br />

4.1.4 Tiheysfunktiot<br />

Yksinkertaisuuden vuoksi tarkastelemme jatkossa vain tapahtumia X −1 (B),<br />

missä Borel-joukon B ⊂ R n indikaattorifunktio<br />

{<br />

1, x ∈ B<br />

1 B (x) =<br />

0, x /∈ B<br />

on Riemann-integroituva funktio. Esim. B voi olla suljettu kuutio.<br />

45


Määritelmä 8. Todennäköisyystiheysfunktio (lyh, tntf. eng. probability density<br />

function) f : R n → [0, ∞) on integroituva ei-negatiivinen funktio, jolle<br />

∫<br />

R n f(x)dx = 1.<br />

Reaaliarvoinen satunnaismuuttuja X, jolla on todennäköisyystiheysfunktio<br />

f X : R → R, on kuvaus X : Ω → R jolle<br />

P(a ≤ X ≤ b) =<br />

∫ b<br />

a<br />

f X (x)dx<br />

kaikilla a, b ∈ R, a ≤ b.<br />

Satunnaisvektori X = (X 1 , ..., X n ), jolla on todennäköisyystiheysfunktio f X ,<br />

on kuvaus X : Ω → R n , jolle<br />

P(a i ≤ X i ≤ b i , i = 1, ..n) =<br />

∫ b1<br />

a 1<br />

· · ·<br />

∫ bn<br />

a n<br />

f X (x 1 , ..., x n )dx 1 · · · dx n .<br />

kaikilla a i , b i ∈ R, a i ≤ b i , i = 1, ..n. Todennäköisyystiheysfunktiota f X kutsutaan<br />

satunnaismuuttujien X 1 , ..., X n yhteistodennäköisyystiheysfunktioksi.<br />

Funktiota<br />

∫ ∞ ∫ ∞ ∫ ∞ ∫ ∞<br />

f Xi (x) = · · ·<br />

· · · f X (x 1 , ..., x n )dx 1 · · · dx i−1 dx i+1 · · · dx n<br />

x 1=−∞ x i−1=−∞ x i+1=−∞ x n=−∞<br />

kutsutaan satunnaismuuttujan X i reunatodennäköisyystiheysfunktioksi (tai marginaalitntf).<br />

Kaksi satunnaismuuttujaa X ja Y , joiden yhteistodennäköisyystiheysfunktio<br />

on f (X,Y ) (x, y), ovat riippumattomia, jos<br />

f (X,Y ) (x, y) = f X (x)f Y (y).<br />

Yleisemmin, satunnaisvektorit X ja Y ovat riiippumattomia jos<br />

P((X, Y ) ∈ B 1 × B 2 ) = P(X ∈ B 1 )P(Y ∈ B 2 ).<br />

Määritelmä 9. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio<br />

on f X : R n → R. Satunnaisvektorin X odotusarvo (eng. expectation) on vektori<br />

m = (m 1 , ..., m n ) ∈ R n , jonka komponentit ovat<br />

∫<br />

m i = x i f X (x)dx<br />

R n<br />

mikäli x i f X (x) on integroituva kaikilla i = 1, ..., n. Odotusarvolle käytetään<br />

merkintää E[X] := m.<br />

Huomautus 4. Satunnaisvektorilla ei aina ole odotusarvoa.<br />

Määritelmä 10. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio<br />

on f X : R n → R ja odotusarvo E[X] = (m 1 , ..., m n ). Satunnaisvektorin<br />

X kovarianssimatriisi (eng. covariance matrix) on matriisi C X ∈ R n×n , jonka<br />

elementit ovat<br />

∫<br />

(C X ) ij = (x i − m i )(x j − m j )f X (x)dx,<br />

R n<br />

mikäli nämä integraalit ovat olemassa.<br />

46


Huomautus 5. Kovarianssimatriisi C X on aina symmetrinen ja sen ominaisarvot<br />

ovat ei-negatiivisia. Todellakin,<br />

(C X ) ij =<br />

∫<br />

(x i −m i )(x j −m j )f X (x)dx =<br />

R n ∫<br />

(x j −m j )(x i −m i )f X (x)dx = (C X ) ji<br />

R n<br />

ja jos u on ominaisvektori jolle C X u = λu ja ‖u‖ = 1, niin<br />

⎛ ⎞<br />

n∑ n∑<br />

λ = (C X u, u) = ⎝ (C X ) ij u j<br />

⎠u i<br />

=<br />

=<br />

=<br />

n∑<br />

∫<br />

i,j=1<br />

i=1<br />

missä g(x) = ∑ n<br />

i=1 (x i − m i )u i .<br />

j=1<br />

R n (x i − m i )u i (x j − m j )u j f X (x)dx<br />

∫ ( n<br />

) ⎛ ⎞<br />

∑<br />

n∑<br />

(x i − m i )u i<br />

⎝ (x j − m j )u j<br />

⎠f X (x)dx<br />

R n i=1<br />

j=1<br />

∫<br />

g(x) 2 f X (x)dx ≥ 0,<br />

R n<br />

Määritelmä 11. Olkoot X : Ω → R n ja Y : Ω → R m satunnaisvektoreita,<br />

joiden yhteistodennäköisyystiheysfunktio on f (X,Y ) : R n+m → R ja odotusarvot<br />

E[X] = m X ja E[Y ] = m Y . Satunnaisvektorien X ja Y ristikovarianssimatriisi<br />

(eng. cross-covariance matrix) on matriisi C XY ∈ R n×m , jonka elementit ovat<br />

(∫<br />

)<br />

(C XY ) ij = (x i − (m X ) i )(y j − (m Y ) j )f (X,Y (x, y)dx dy, i = 1, .., n j = 1, .., m<br />

∫R m R n<br />

mikäli nämä integraalit ovat olemassa.<br />

Huomautus 6. Ristikovarianssimatriisille pätee C T XY = C Y X.<br />

4.1.5 Ehdolliset jakaumat<br />

Määritelmä 12. Olkoot X : Ω → R n ja Y : Ω → R m satunnaisvektoreita,<br />

joiden yhteistntf. on f (X,Y ) : R n × R m → R ja reunatntf. f Y (y 0 ) > 0 pisteessä<br />

y 0 ∈ R m . Satunnaismuuttujan X ehdollinen todennäköisyystiheysfunktio<br />

ehdolla Y = y 0 (eng. conditional probability density function) on kuvaus<br />

R n ∋ x ↦→ f X (x|Y = y 0 ) = f (X,Y )(x, y 0 )<br />

. (4.1)<br />

f Y (y 0 )<br />

Määritelmä 13. Olkoot X : Ω → R n ja Y : Ω → R m satunnaisvektoreita,<br />

joiden yhteistntf. on f (X,Y ) : R n × R m → R ja reunatntf. f Y (y 0 ) > 0 pisteessä<br />

y 0 ∈ R m . Satunnaismuuttujan X ehdollinen odotusarvo ehdolla Y = y 0 (eng.<br />

conditional expectation) on vektori<br />

∫<br />

E[X|Y = y 0 ] = xf X (x|Y = y 0 )dx,<br />

R n<br />

mikäli integraali on olemassa.<br />

47


Lemma 5. Olkoon satunnaisvektorien X : Ω → R n ja Y : Ω → R m yhteistntf.<br />

(x, y) ↦→ f (X,Y ) (x, y) sellainen että kuvaus R n ∋ x ↦→ f (X,Y ) (x, y) on jatkuva<br />

jokaisella y ∈ R m .<br />

Silloin f (X,Y ) (x, y) = 0 aina kun f Y (y) = 0.<br />

Todistus. Reunatntf. määritelmän nojalla<br />

∫<br />

f Y (y) = f (X,Y ) (x, y)dx,<br />

missä x ↦→ f (X,Y ) (x, y) on ei-negatiivinen funktio, joka on oletuksen nojalla<br />

jatkuva. Olkoon f Y (y 0 ) = 0. Merkitään g(x) = f (X,Y ) (x, y 0 ), jolloin ∫ g(x)dx =<br />

0. Tehdään vastaoletus: g(x 0 ) > δ, jollakin x 0 ∈ R n ja δ > 0. Jatkuvuuden<br />

nojalla löytyy sellainen r > 0 jolla<br />

|g(x 0 ) − g(x)| < δ/2<br />

aina kun x ∈ B(x 0 , r). Silloin kolmioepäyhtälön ||a| − |b|| ≤ |a − b| nojalla<br />

g(x) = g(x) − g(x 0 ) + g(x 0 ) ≥ g(x 0 ) − |g(x 0 ) − g(x)| ≥ δ − δ/2 = δ/2<br />

jokaisella x ∈ B(x 0 , r). Tällöin<br />

∫ ∫<br />

g(x)dx ≥<br />

R n<br />

B(x 0,r)<br />

∫<br />

g(x)dx ≥<br />

B(x 0,r)<br />

δ<br />

2 dx ≥ δC 2 > 0,<br />

missä C on pallon B(x 0 , r) tilavuus. Koska oletimme, että ∫ g(x)dx = 0, niin<br />

vastaoletus on väärä, jolloin g ≡ 0.<br />

Lause 5. Olkoon satunnaisvektorien X : Ω → R n ja Y : Ω → R m yhteistnf.<br />

f (X,Y ) : R n × R m → R erikseen jatkuva molempien argumenttiensa suhteen<br />

eli kuvaus R n ∋ x ↦→ f (X,Y ) (x, y) on jatkuva jokaisella y ∈ R m ja kuvaus<br />

R m ∋ y ↦→ f (X,Y ) (x, y) on jatkuva jokaisella x ∈ R n Silloin<br />

f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x)<br />

jokaisella x ∈ R n ja y ∈ R m .<br />

Todistus. Jos f Y (y) ≠ 0 ja f X (x) ≠ 0, niin ehdollisen tntf:n määritelmän nojalla<br />

f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x). (4.2)<br />

Jos f Y (y) = 0 tai f X (x) = 0, niin Lemman 5 nojalla f (X,Y ) (x, y) = 0, jolloin<br />

yhtälö (4.2) on triviaalisti totta.<br />

Huomautus 7. Jos f Y (y) = 0 tai f X (x) = 0, niin tulos<br />

f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x)<br />

täytyy tarkistaa vain niillä arvoilla, joilla f (X,Y ) ≠ 0. Tällöin riittää olettaa että<br />

x ↦→ f (X,Y ) (x, y) on jatkuva vain niissä pisteissä x joissa f (X,Y ) (x, y) ≠ 0.<br />

48


Olkoon f X (x|Y = y) satunnaisvektorin X ehdollinen tntf ehdolla Y = y.<br />

Satunnaisvektorin X ehdollinen jakauma ehdolla Y = y on<br />

∫<br />

P(X ∈ B 1 |Y = y) = f X (x|Y = y)dx<br />

B 1<br />

Yllä olevan perusteella ehdolinen jakauma toteuttaa kokonaistodennäköisyyden<br />

kaavan<br />

∫<br />

P((X, Y ) ∈ B 1 × B 2 ) = P(X ∈ B 1 |Y = y)f Y (y)dy<br />

B 2<br />

riittävän säännöllisillä todennäköisyystiheysfunktioilla ja riittävän säännöllisillä<br />

joukoilla B 1 ⊂ R n ja B 2 ⊂ R m (esim. suljetut kuutiot). Kokonaistodennäköisyyden<br />

kaava on totta niukemmillakin säännöllisyysoletuksilla, mutta tämän<br />

havaitseminen vaatii mittateoreettisen lähestymistavan ehdollisiin todennäköisyyksiin.<br />

Huomautus 8. Jos satunnaismuuttujalla X ja satunnaismuutujalla Y on todennäköisyystiheysfunktio,<br />

niin satunnaisvektorilla (X, Y ) ei välttämättä ole<br />

todennäköisyystiheysfunktiota. Esimerkiksi, jos X on satunnaismuuttuja jolla<br />

on tn. tiheysfunktio f X : R → [0, ∞), niin satunnaisvektorilla (X, X) ei ole todennäköisyystiheysfunktiota.<br />

Osoitamme tämän tekemällä vastaoletuksen: oletetaan<br />

että satunnaisvektorilla (X, X) on tiheysfunktio f (X,X) (x, y). Merkitään<br />

B = {(x, y) ∈ R n × R n : x ≠ y} (on Borel-joukko). Silloin P((X, X) ∈ B) = 0<br />

koska (X, X) /∈ B. Tästä seuraisi että<br />

∫<br />

0 = P((X, X) ∈ B) = f (X,X) (x, y)dxdy<br />

=<br />

∫ ∞<br />

x=−∞<br />

mikä on mahdotonta.<br />

B<br />

(∫ x<br />

f (X,X) (x, y)dy +<br />

y=−∞<br />

∫ ∞<br />

y=x<br />

)<br />

f (X,X) (x, y)dy dx = 1,<br />

Huomautus 9. Emme voi laskea satunnaismuuttujan X ehdollista jakaumaa<br />

ehdolla X = x 0 käyttäen kaavaa (4.1), sillä satunnaisvektorilla (X, X) ei ole todennäköisyystiheysfunktiota<br />

yllä olevan huomautuksen nojalla. Vektorin (X, X)<br />

jakauma kuitenkin voidaan määrätä satunnaismuutujan X tn. tiheysfunktion<br />

avulla, sillä<br />

∫<br />

P((X, X) ∈ B 1 × B 2 ) = P(X ∈ B 1 ∩ B 2 ) = f X (x)dx.<br />

B 1∩B 2<br />

Jos haluamme, että kokonaistodennäköisyyden kaava pätee, niin tulisi olla<br />

∫<br />

∫<br />

f X (x)dx = P((X, X) ∈ B 1 × B 2 ) = P(X ∈ B 1 |X = x)f X (x)dx,<br />

B 1∩B 2 B 2<br />

mikä on mahdollista kun P(X ∈ B 1 |X = x 0 ) = 1 B1 (x 0 ). Erityisesti P(X ∈<br />

{x 0 }|X = x 0 ) = 1 eli X ehdolla X = x 0 on x 0 kuten voisi kuvitellakin. Tämän<br />

tuloksen vahvistaa ehdollisten todennäköisyyksien mittateoreettinen käsittely,<br />

mutta tarkempi todistus sivuutetaan tällä kurssilla.<br />

Sivuutamme myös seuraavan tuloksen todistuksen.<br />

Lause 6. Olkoon X R n -arvoinen satunnaisvektori, joka on riippumaton R n -<br />

arvoisesta satunnaisvektorista Y , jolla on todennäköisyystiheysfunktio.<br />

Satunnaisvektorin X + Y ehdollinen tntf ehdolla X = x 0 on sama kuin<br />

satunnaisvektorin x 0 + Y tntf.<br />

49


4.1.6 Satunnaisvektorien muunnokset<br />

Lause 7. Olkoon G : R n → R m on jatkuva funktio ja X : Ω → R n satunnaisvektori.<br />

Silloin G(X) on myös satunnaisvektori.<br />

Todistus. Meidän tarvitsee näyttää vain, että avoimen joukon B ∈ R m alkukuva<br />

G −1 (B) on avoin. Muille Borel-joukoille tulos seuraa sigma-algebran ominaisuuksien<br />

perusteella<br />

Okoon x ∈ G −1 (B), jolloin G(x) ∈ B. Joukon B avoimuuden nojalla löytyy<br />

ǫ > 0, jolla B(G(x), ǫ) ⊂ B. Koska F on jatkuva, niin on olemassa δ > 0, jolla<br />

|G(x) − G(y)| < ǫ kun |x − y| < δ. Siis G(B(x, δ)) ⊂ B(G(x), ǫ) ⊂ B, jolloin<br />

B(x, δ) ⊂ G −1 (B). Tämä todistaa, että joukko G −1 (B) on avoin.<br />

Esimerkki 14. Olkoon X : Ω → R n ja ε : Ω → R m satunnaisvektoreita.<br />

Seuraavat ovat myös satunnaisvektoreita<br />

1. aX, a ∈ R<br />

2. X + a , a ∈ R n<br />

3. ‖X‖ (=satunnaismuuttuja)<br />

4. Y = F(X) + ε, kun F : R n → R m jatkuva.<br />

Muistetaan, että muuttujanvaihto moniulotteisessa integraalissa voidaan tehdä<br />

Jakobin determinantin avulla. Jos f : R n → R on jatkuva funktio, U ⊂ R n<br />

avoin kuutio ja H : U → R n injektiivinen C 1 -funktio, jonka Jakobin matriisin<br />

determinantti ei häviä, niin<br />

∫ ∫<br />

f(x)dx =<br />

H(B)<br />

(JH(y)) ij = ∂H i<br />

∂y j<br />

(y), i, j = 1, ..., n.<br />

B<br />

f(H(y))| det(JH(y))|dy,<br />

kaikilla avoimilla tai suljetuilla kuutioilla B ⊂ U.<br />

Jos satunnaisvektorilla X on jatkuva todennäköisyystiheysfunktio f X , niin<br />

satunnaisvektorin aX, a > 0, tntf on x ↦→ 1<br />

a<br />

f n X (x/a), sillä muuttujanvaihdolla<br />

x = H(y) := y/a nähdään että<br />

P(aX ∈ B) = P(X ∈ 1 a B) = ∫<br />

H(B)<br />

∫<br />

f X (x)dx =<br />

B<br />

f X (y/a) 1<br />

a n dy<br />

Samoin satunnaisvektorin X + a, missä a ∈ R n tntf on f X (x − a), sillä muuttujanvaihdolla<br />

x = y − a =: H(y) nähdään. että<br />

∫<br />

∫<br />

P(X + a ∈ B) = P(X ∈ B − a) = f X (x)dx = f X (y − a)dy.<br />

H(B)<br />

Korollaari 4. Olkoon X ja Y kaksi riippumatonta satunnaisvektoria, joilla on<br />

tn. tiheysfunktiot f X ja f Y . Satunnaisvektorin Z = X + Y todennäköisyystiheysfunktio<br />

on<br />

f Z (z) =<br />

∫<br />

f X (z − y)f Y (y)dy =<br />

R n ∫<br />

f Y (z − x)f X (x)dx.<br />

R n<br />

50<br />

B


Todistus. Funktio f Z on tntf, sillä f Z ≥ 0 ja<br />

∫<br />

(∫<br />

)<br />

f Z (z)dz = f X (z − y)f Y (y)dy dz<br />

R<br />

∫R n n R<br />

(∫<br />

n )<br />

= f X (z − y)f Y (y)dz dy<br />

∫R n R n ∫<br />

= f X (z<br />

∫R ′ )dz ′ f Y (y)dy,<br />

n R n<br />

missä tehtiin muuttujanvaihto y ′ = z − y.<br />

Summan X +Y ehdollinen jakauma ehdolla X = x on sama kuin satunnaisvektorin<br />

x + Y jakauma, joka on<br />

∫<br />

∫<br />

P(x + Y ∈ B) = P(Y ∈ B − x) = f Y (z)dz = f Y (z − x)dz.<br />

Kokonaistodennäköisyyden kaavan ja Lauseen 6 nojalla<br />

∫<br />

P(X + Y ∈ B) = P((X + Y, X) ∈ B × R n ) = P(X + Y ∈ B|X = x)f X (x)dx<br />

(∫<br />

)<br />

= f Y (z − x)f X (x)dz dx<br />

∫R n B<br />

∫ (∫<br />

)<br />

= f Y (z − x)f X (x)dx dz<br />

B R n<br />

B−x<br />

Sisemmässä integraalissa voidaan tehdä muuttujan vaihto y = z − x.<br />

4.1.7 Gaussiset jakaumat<br />

Satunnaisvektorilla Z : Ω → R n on Gaussinen jakauma eli multinormaalijakauma,<br />

jos sen tntf on muotoa<br />

f Z (x) =<br />

1<br />

√<br />

(2π)n det(C) e−1 2 (x−m)T C −1 (x−m) ,<br />

B<br />

missä m ∈ R n ja C ∈ R n×n on symmetrinen matriisi, jonka ominaisarvot ovat<br />

positiivisia. Silloin merkitään Z ∼ N(m, C), mikä tarkoittaa että satunnaisvektorilla<br />

Z on multinormaalijakauma ja sen odotusarvo on m sekä kovarianssimatriisi<br />

on C.<br />

Lemma 6. Funktio<br />

f Z (x) =<br />

1<br />

√<br />

(2π)n det(C) e−1 2 (x−m)T C −1 (x−m) ,<br />

on tntf. Jos Z : Ω → R n sellainen satunnaisvektori, että Z ∼ N(m, C), niin<br />

satunnaisvektorin Z odotusarvo on<br />

E[Z] = m<br />

ja kovarianssimatriisi<br />

C Z = C.<br />

51


Todistus. Selvästi f Z ≥ 0. Tarkistetaan, mitä on<br />

∫<br />

1<br />

I = √ e −1 2 (x−m)T C −1 (x−m) dx.<br />

(2π)n det(C) R n<br />

Tehdään ensin muuttujanvaihto x ′ = x − m<br />

∫<br />

1<br />

I = √ e −1 2 (x)T C −1 x ′ dx ′ .<br />

(2π)n det(C) R n<br />

Tehdäään sitten muuttujanvaihto x ′′ = C − 1 2x ′ . Muistetaan, että C − 1 2 voidaan<br />

määrätä matriisin C ominaisarvohajotelman C = Udiag(λ 1 , ..., λ n )U T avulla<br />

muodossa C − 1 2 = Udiag( √ 1 1<br />

λ1<br />

, ..., √ λn<br />

)U T . Muuttujanvaihdon jälkeen saamme<br />

I =<br />

∫<br />

1<br />

√ e − 1 2 |x′′ | 2 | det(C 1/2 )|dx ′′ .<br />

(2π)n det(C) R n<br />

Viimeiseksi meidän tulee laskea integraalit<br />

∫<br />

1<br />

I = √ e −1 2 (x2 1 +x2 2 +....+x2 n ) dx 1 · · · dx n<br />

(2π)<br />

n<br />

R<br />

(∫<br />

n n<br />

1<br />

= √ e − 1 2 dx) x2 .<br />

(2π)<br />

n<br />

R<br />

Kätevimmin tämä käy kun lasketaan<br />

(∫<br />

2<br />

e − 1 2 dx) x2 =<br />

R<br />

∫<br />

R 2 e − 1 2 (x2 +y 2) dxdy<br />

napakoordinaateissa x = r cos(θ) ja y = r sin(θ). Saamme<br />

jolloin<br />

ja<br />

(∫ 2<br />

e − 1 2 dx) x2 =<br />

R<br />

∫<br />

R<br />

∫ ∞ ∫ 2π<br />

0<br />

0<br />

e −1 2 x2 dx = √ 2π.<br />

I = 1.<br />

e − 1 2 r2 rdrdθ = 2π<br />

Samaan tapaan nähdään, että satunnaisvektorin Z odotusarvo<br />

∫<br />

1<br />

E[Z] = √ xe − 1 2 (x−m)T C −1 (x−m) dx = m<br />

(2π)n det(C) R n<br />

ja kovarianssi on<br />

(C Z ) ij =<br />

1<br />

√<br />

(2π)n det(C)<br />

∫<br />

R n (x i − m i )(x j − m j )e −1 2 (x−m)T C −1 (x−m) dx = C ij .<br />

52


4.2 Moniulotteinen Riemann-integraali<br />

Olkoon B ⊂ R n n-ulotteinen suorakulmainen särmiö<br />

B = {x = (x 1 , ..., x n ) ∈ R n : a i ≤ x i ≤ b i , i = 1, ..., n}<br />

missä a i , b i ∈ R ja a i < b i . Merkitään särmiö B sisäpisteiden joukkoa Int(B).<br />

Määritelmä 14. Funktiota f : B → R kutsutaan porrasfunktioksi, jos särmiö<br />

B voidaan jakaa suorakulmaisiin särmiöihin B i , i = 1, ..m siten että löytyy luvut<br />

c i ∈ R joilla<br />

f(x) = c i ,<br />

kun x ∈ Int(B i ), i = 1, ..., m.<br />

Määritelmä 15. Määritelmän 14 porrasfunktion f : B → R integraali yli<br />

joukon B on<br />

∫<br />

m∑<br />

f(x)dx := c i Vol(B i )<br />

missä Vol(B i ) on särmiön<br />

B<br />

i=1<br />

B i = {x = (x 1 , ..., x n ) ∈ R n : a (i)<br />

j<br />

≤ x j ≤ b (i)<br />

j , j = 1, .., n}<br />

tilavuus<br />

.<br />

Vol(B i ) =<br />

n∏<br />

(b (i)<br />

j<br />

j=1<br />

− a (i)<br />

j ).<br />

Määritelmä 16. Olkoon f : B → R rajoitettu funktio. Jos on olemassa vain<br />

yksi luku I ∈ R, jolle<br />

∫<br />

∫<br />

s(x)dx ≤ I ≤ S(x)dx<br />

B<br />

jokaisella porrasfunktiolla s : B → R, jolla s ≤ f, ja jokaisella porrasfunktiolla<br />

S : B → R, jolla f ≤ S, niin sanotaan, että f on Riemann-integroituva (yli<br />

joukon B) ja merkitään ∫<br />

f(x)dx = I.<br />

B<br />

Olkoon K(B) kaikkien porrasfunktioiden f : B → R joukko.<br />

Lause 8. Rajoitettu funktio f : B → R on Riemann-integroituva jos ja vain<br />

jos<br />

∫<br />

∫<br />

sup<br />

s∈K(B)<br />

s≤f<br />

s(x)dx = I = inf<br />

S∈K(B)<br />

f≤S<br />

S(x)dx<br />

jolloin<br />

Todistus. Sivuutetaan.<br />

∫<br />

B<br />

B<br />

f(x)dx = I.<br />

53


Lause 9 (Fubinin lause Riemann-integroituville funktioille). Olkoon B ⊂ R n<br />

ja C ⊂ R m kompakteja suorakulmaisia särmiöitä. Olkoon f : B × C → R<br />

integroituva funktio, jolla ∫<br />

f(x, y)dy<br />

C<br />

on olemassa jokaisella x ∈ B. Silloin funktio B ∋ x ↦→ ∫ C<br />

f(x, y)dy on integroituva<br />

ja ∫ (∫ ) ∫<br />

f(x, y)dy dx = f(z)dz.<br />

B×C<br />

Todistus. Sivuutetaan.<br />

B<br />

C<br />

Fubinin lauseen nojalla moniulotteinen integraali voidaan laskea yksiulotteisten<br />

integraalien iteraationa eli esim kun n = 3, niin<br />

∫ ∫ (<br />

b<br />

3 ∫ (<br />

b2<br />

∫ )<br />

b1<br />

f(x)dx =<br />

f(x 1 , x 2 , x 3 )dx 1 dx 2<br />

)dx 3 ,<br />

B<br />

x 3=a 3 x 2=a 2 x 1=a 1<br />

kunhan kaikki integraalit ovat määriteltyjä. Lisäksi integroimisjärjestystä voi<br />

vaihtaa.<br />

• Integraali yli koko avaruuden R n määritellään epäoleellisena integraalina<br />

(eli raja-arvona integraaleista yli kasvavien osajoukkojen).<br />

• Jos f on ei-negatiivinen, Fubinin lause on edelleen totta kun B = R n ja<br />

C = R m sillä ei-vähenevien lukujen raja on joko rajoitettu tai +∞.<br />

• Jos f saa myös negatiivisia arvoja, ilmaistaan f muodossa f = f + − f − ,<br />

missä f + , f − ≥ 0, ja pyritään laskemaan integraali epäoleellisten integraalien<br />

erotuksena<br />

∫ ∫ ∫<br />

f(x)dx = f + (x)dx − f − (x)dx,<br />

mikäli mahdollista.<br />

Kirjallisuutta: Apostol: Calculus (vol II), Lang: Analysis I, Apostol: Mathematical<br />

Analysis<br />

4.3 Tilastollinen inversio-ongelma<br />

Olkoon F : R n → R m jatkuva funktio joka kuvaa suoraa teoriaa. Tarkastellaan<br />

inversio-ongelmaa, jossa tuntemattomasta vektorista x 0 ∈ R n on annettu<br />

häiriöinen data<br />

y 0 = F(x 0 ) + ε ∈ R m .<br />

Datassa esiintyvästä häiriöstä ε saatavilla oleva tieto on usein luonteeltaan<br />

tilastollista. Eräissä tilanteissa häiriötä mallinnetaan esimerkiksi satunnaisvektorina<br />

ε = (ε 1 , ..., ε m ), jonka komponentit ovat riippumattomia ja niiden todennäköisyydet<br />

ovat<br />

P(a ≤ ε i ≤ b) = √ 1 ∫ b<br />

(<br />

exp − 1 )<br />

2πσ 2σ x2 dx,<br />

54<br />

a


missä i = 1, ..., m, a < b ∈ R ja σ > 0.<br />

Kun F on lineaarinen kuvaus, niin edellisessä luvussa esitelty Morozovin diskrepanssiperiaate<br />

soveltuu huonosti tällaisen tapauksen käsittelyyn, sillä häiriön<br />

normi ei ole rajoitettu koska<br />

P(‖ε‖ > e) ≥ P(|ε i | > e) > 0<br />

millä tahansa e ≥ 0. Eräs vaihtoehto on siirtyä tilastollisiin ratkaisumenetelmiin.<br />

Tilastollisen inversio-ongelman periaatteeet ovat seuraavat:<br />

1. Tuntematonta ja dataa mallinnetaan satunnaisvektoreilla X ja Y .<br />

2. Datan ja tuntemattoman jakaumat edustavat niistä saatavilla olevaa kvantitatiivista<br />

ja kvalitatiivista tietoa sekä tälllaisen tiedon puutetta.<br />

3. Annettu data y 0 on näyte satunnaisvektorista Y eli y 0 = Y (ω 0 ) jollakin<br />

alkeistapahtumalla ω 0 ∈ Ω.<br />

4. Tilastollisen inversio-ongelman ratkaisu on satunnaisvektorin X ehdollinen<br />

todennäköisyysjakauma kun Y = y 0 on annettu.<br />

Tilastollisen inversio-ongelman ratkaisu ei niinkään vastaa kysymykseen ”mikä<br />

tuntematon vektori x 0 on”vaan pikemminkin kysymykseen ”mitä tiedämme<br />

tuntemattomasta vektorista x 0 ”.<br />

4.3.1 Bayesian kaava. Priori- ja posteriorijakaumat<br />

Tarkastellaan tilastollista inversio-ongelmaa missä tuntematonta mallinnetaaan<br />

satunnaisvektorilla<br />

X : Ω → R n ,<br />

suoraa teoriaa edustaa jatkuva kuvaus<br />

F : R n → R m<br />

ja häiriötä mallinnetaan satunnaisvektorilla<br />

Annettu dataa<br />

pidetään näytteenä satunnaisvektorista<br />

ε : Ω → R m .<br />

y 0 = F(x 0 ) + ε 0<br />

Y = F(X) + ε.<br />

Oletetaan, että satunnaisvektoreilla X ja Y on yhteistntf, jolla on marginaalitntf:t.<br />

Määritelmä 17. Tuntematonta mallintavan satunnaisvektorin X : Ω → R n todennäköisyystiheusfunktiota<br />

sanotaan proritodennäköisyystiheysfunktioksi (eng.<br />

prior probability density function) ja merkitään f pr (x). Satunnaisvektorin X jakaumaa<br />

sanotaan priorijakaumaksi (eng. prior distribution).<br />

55


Merkitään satunnaismuuttujien X ja Y yhteistodennäköisyystiheysfunktiota<br />

f = f(x, y), f : R n × R m → [0, ∞) ja satunnaismuuttujan Y todennäköisyystiheysfunktiota<br />

f Y (y).<br />

Oletetaan, että yhteistnft f on erikseen jatkuva kummankin argumenttinsa<br />

suhteen pisteissä f(x, y) ≠ 0. Bayesin kaavasta<br />

seuraa erityisesti, että<br />

jos f Y (y 0 ) ≠ 0.<br />

f(x, y) = f Y (y|X = x)f pr (x) = f X (x|Y = y)f Y (y)<br />

f X (x|Y = y 0 ) = f Y (y 0 |X = x)f pr (x)<br />

f Y (y 0 )<br />

Määritelmä 18. Tuntemattomatonta mallintavan satunnaisvektorin X : Ω →<br />

R n posterioritodennäköisyystiheysfunktio, kun Y = y 0 on annettu, on<br />

siinä tapauksessa, että f Y (y 0 ) ≠ 0.<br />

f post (x) := f Y (y 0 |X = x)f pr (x)<br />

,<br />

f Y (y 0 )<br />

Esimerkki 15. Oletetaan, että häiriö ε ∼ N(0, C ε ), tuntematon X ∼ N(0, C X ),<br />

tuntematon ja häiriö ovat riippumattomia, F : R n → R m on lineaarinen ja<br />

y 0 = Fx 0 + ǫ 0 on näyte satunnaismuuttujasta Y = FX + ε. Silloin<br />

1<br />

f Y (y|X = x) = √<br />

(2π)m det(C ε ) e− 1 2 (y−Fx)T C −1<br />

ε<br />

(y−Fx)<br />

ja posterioritntf on<br />

f post (x) = C y0 e −1 2 (y0−Fx)T Cε<br />

−1 (y0−Fx) e −1 2 xT C −1<br />

X x ,<br />

missä C y on normitusvakio. Tarkastellaan eksponenttia:<br />

− 1 2 (y 0 − Fx) T Cε<br />

−1 (y 0 − Fx) − 1 2 xT C −1<br />

X x<br />

= −1 2 yT 0 Cε<br />

−1 y 0 + 1 2 xT F T Cε −1 y 0<br />

Merkitään<br />

C post = ( F T C −1<br />

ε<br />

ja täydennetään eksponentti neliöksi<br />

+ 1 2 yT 0 C −1<br />

ε<br />

F + C −1 ) −1<br />

X<br />

Fx − 1 2 xT ( F T C −1<br />

ε<br />

F + C −1 )<br />

X x.<br />

− 1 2 (y 0 − Fx) T Cε<br />

−1 (y 0 − Fx) − 1 2 xT C −1<br />

X x<br />

= −1 2 (yT 0 C−1 ε y 0 ) + 1 2 xT Cpost −1 C postF T Cε −1 y 0<br />

+ 1 2 yT 0 C−1 ε FC post Cpost −1 x − 1 2 xT Cpost −1 x<br />

= − 1 2 (yT 0 C−1 ε y 0 ) − 1 2 (x − m post) T Cpost(x −1 − m post )<br />

+ 1 2 mT postC −1<br />

postm post<br />

56


missä<br />

m post = C post F T C −1<br />

ε<br />

y 0 = ( F T Cε<br />

−1 F + C −1 ) −1<br />

F T Cε −1 y 0 .<br />

Voimme määrätä nyt normitustekijän C y0 , ja saamme<br />

f post (x) =<br />

1<br />

√<br />

(2π)n det(C post ) e−1 2 (x−mpost)T C −1<br />

post (x−mpost) .<br />

X<br />

Posteriorijakauma on multinormaalijakauma ja sen odotusarvo<br />

ja kovarianssimatriisi on<br />

m post = ( F T C −1<br />

ε<br />

C post = ( F T C −1<br />

ε<br />

Erityisesti, jos C ε = δI ja C X = cI, niin<br />

m post =<br />

F + C −1 ) −1<br />

F T C −1<br />

X<br />

F + C −1 ) −1<br />

X .<br />

(<br />

F T F + δ c I ) −1<br />

F T y 0 ,<br />

ε y 0<br />

eli<br />

m post = argmin<br />

x∈R n ‖Fx − y 0 ‖ 2 + δ c ‖x‖2 .<br />

Tikhonovin regularisaatio, kun regularisaatioparametri α = δ/c, vastaa sitä,<br />

että häiriön jakauma on N(0, δI) ja priorijakauma on N(0, cI).<br />

Priorijakaumaa voi tulkita niin, että<br />

X i ∼ N(0, c)<br />

edustaa etukäteistietoa, jonka mukaan emme tiedä tarkalleen minkä arvo tuntemattoman<br />

komponentti saa, mutta mielestämme komponentin negatiiviset ja<br />

positiiviset arvot ovat yhtä mahdollisia (mistä odotusarvo nolla) ja suuret arvot<br />

ovat epätodennäköisiä. Riippumattomuus komponenttien välillä tarkoittaa,<br />

että haluasimme sallia suurehkoja vaihteluja komponenttien välillä.<br />

4.3.2 Uskottavuusfunktio f Y (y|X = x)<br />

Funktiota x ↦→ f Y (y|X = x) nimitetään uskottavuusfunktioksi (eng. likelihood<br />

function).<br />

Uskottavuusfunktio sisältää:<br />

• approksimatiivisen tai tarkan suoran teorian<br />

• häiriöstä johtuvat epätarkkuudet<br />

• suoran teorian mallinnusvirheistä johtuvat epätarkkuudet<br />

Tarkastellaan ensin yksinkertainen tapaus, jossa ei ole mallinnusvirhettä.<br />

57


Riippumattomat X ja ε<br />

Oletetaan, että X ja ε ovat riippumattomia satunnaisvektoreita ja Y = F(X)+<br />

ε, missä F : R n → R m on jatkuva suora teoria. Myös satunnaisvektorit F(X)<br />

ja ε ovat silloin riippumattomia. Jos satunnaisvektorilla ε on todennäköisyystiheysfunktio,<br />

niin satunnaisvektorin Y = F(X)+ ε ehdollinen todennäköisyystiheysfunktio<br />

kun X = x, on Lauseen 6 nojalla muotoa<br />

kun f X (x) ≠ 0.<br />

f Y (y|X = x) = f ε+F(x) (y) = f ε (y − F(x)),<br />

Esimerkki 16. Usein esiintyvä häiriömalli on Gaussinen jakauma eli multinormaalijakauma.<br />

Jos häiriötermillä ε on multinormaalijakauma N(0, C ε ), tuntematon<br />

X on riippumaton häiriötermistä ja Y = F(X) + ε, niin uskottavuusfunktio<br />

on<br />

f Y (y|X = x) =<br />

1<br />

√<br />

(2π)n det(C ε ) e−1 2 (y−F(x))T C −1<br />

ε (y−F(x)) .<br />

Esimerkiksi, jos tarkastellaan tietokonetomografiakuvausta, missä tuntematonta<br />

massa-absorptiokerrointavälillä [0, 1]×[0, 1] approksimoidaan funktiona f(s, t) =<br />

∑ n<br />

j=1 x jφ j (s, t), (s, t) ∈ [−1, 1] × [−1, 1] missä φ j on j:nen pikselin karakteristinen<br />

funktio ja x = (x 1 , ..., x n ) on tuntematon vektori, niin<br />

f Y (y|X = x) =<br />

1<br />

√<br />

(2π)n det(C ε ) e−1 2 (y−Fx)T C −1<br />

ε (y−Fx) ,<br />

missä F : R n → R m on kuvaus, jolle<br />

(Fx) i =<br />

∫ 1<br />

−1 j=1<br />

n∑<br />

x j φ j (t, a i t + b i )dt =<br />

n∑<br />

∫ 1<br />

x j φ j (t, a i t + b i )dt<br />

on funktion f integraali pitkin annettua suoraa t ↦→ a i t + b i eli<br />

F ij =<br />

Toisistaan riiippuvat X ja ε<br />

∫ 1<br />

−1<br />

j=1<br />

φ j (t, a i t + b i )dt.<br />

Lause 10. Olkoon satunnaisvektorilla (X, Y, ε) jatkuva todennäköisyystiheysfunktio<br />

ja myös sen reunajakaumat ovat jatkuvia todennäköisyystiheysfunktioita.<br />

Olkoon lisäksi f (X,ε) (x, z) > 0 kaikilla (x, z) ∈ R n × R m . Olkoon ehdollinen<br />

tnft f ε (z|X = x) annettu. Silloin<br />

∫<br />

f Y (y|X = x) = f ε (z|X = x)f Y (y|(X, ε) = (x, z))dz.<br />

R m<br />

kun f X (x) ≠ 0.<br />

Todistus. Meidän tulee määrätä<br />

f Y (y|X = x) = f (X,Y )(x, y)<br />

.<br />

f X (x)<br />

58<br />

−1


Nyt<br />

∫<br />

f (X,Y ) (x, y) = f (X,Y,ε) (x, y, z)dz.<br />

R m<br />

Lisäksi Bayesin kaavan nojalla<br />

f (X,ε) (x, z) = f ε (z|X = x)f X (x).<br />

Silloin<br />

∫<br />

f Y (y|X = x) =<br />

f (X,Y,ε) (x, y)<br />

R f m (X,ε) (x, z)<br />

f (X,ε) (x, z)<br />

dz.<br />

f X (x)<br />

Häiriö ja tuntematon voivat riippua toisistaan esim. mallinnusvirheiden kautta.<br />

Laskennallisista syistä korkeaulotteista tuntematonta halutaan usein approksimoida<br />

tuntemattomalla, jonka dimensio on pienempi. Merkitään tuntematonta<br />

satunnaisvektoria X : Ω → R N ja sen ortogonaalista projektiota n-ulotteiseen<br />

aliavaruuteen X n = P n X, n < N.<br />

Silloin<br />

F(X) = F(X n ) + (F(X) − F(X n )) =: F(X n ) + ˜ε<br />

ja datavektori toteuttaa yhtälön<br />

Y = F(X) + ε = F(X n ) + ˜ε + ε<br />

josta voimme Lauseen 10 oletuksilla yhteisjakaumalle kirjoittaa uskottavuusfunktion<br />

∫<br />

f Y (y|X n = x) = f eε (z|X n = x)f Y (y|(X n , ˜ε) = (x, z))dz.<br />

R m<br />

missä<br />

f Y (y|(X n , ˜ε) = (x, z)) = f ε (y − F(x) − z).<br />

Tilastollinen suoran teorian mallinnusvirhe<br />

Oletetaan yksinkertaisuuden vuoksi, että suora teoria F σ : R n → R m on<br />

lineaarinen kuvaus, joka riippuu jatkuvasti parametrista σ ∈ R, jota ei tunneta<br />

tarkasti.Tällöin on oikeutettua mallintaa epätarkkaa tietoa tilastollisesti parametrille<br />

σ asetetun todennäköisyysjakauman avulla, jolloin myös lineaarisen<br />

kuvauksen matriisista F σ tulee satunnainen. Erityisesti<br />

⎛<br />

⎞<br />

n∑<br />

Y i (ω) = ⎝<br />

j=1<br />

F σ(ω)<br />

ij<br />

X j (ω) ⎠ + ε i (ω).<br />

jokaisella alkeistapahtumalla ω ∈ Ω.<br />

Jos satunnaismuuttujat σ, X ja ε ovat riippumattomia, niin Lauseen 10 oletuksilla<br />

yhteisjakaumalle<br />

∫<br />

f Y (y|X = x) = f eε (y − F s x)f σ (s)ds<br />

R m<br />

kun f X (x) > 0.<br />

59


4.3.3 Priori f pr (x)<br />

Prioritntf edustaa tuntemattomasta saatavilla olevaa etukäteistietoa ja kuvailee<br />

myös käsityksemme tiedon puutteesta. Voimme kysyä, kuinka prioritntf muodostetaan<br />

etukäteistiedon perusteella?<br />

Oletetaan, että tuntematon vektori x ∈ R n kuvaa funktion g arvoja esimerkiksi<br />

joissakin neliön [0, 1] × [0, 1] pisteissä eli<br />

missä t i ∈ [0, 1] × [0, 1] kun i = 1, ..., n.<br />

x i = g(t i ),<br />

Mahdollista prioritietoa:<br />

Funktio g<br />

Vektori x<br />

Funktion g jotkin arvot.<br />

Vektorin x jotkin komponentit<br />

Esim. reuna-arvot tunnetaan tarkasti x i tunnetaan tarkasti tai<br />

tai epätarkasti.<br />

epätarkasti.<br />

Funktion g sileys.<br />

Vektorin x naapurikomponenttien käytös.<br />

Funktion g arvojoukko.<br />

Vektorin x komponenttien x i arvojoukko.<br />

Esim g ≥ 0, monotonisuus Esim. x i ≥ 0, x i ≥ x i+1<br />

Funktion g symmetriaominaisuudet. Vektorin x symmetriaominaisuudet.<br />

Esim. jaksollisuus, rotaatiosymmetria. Esim. x = Mx + b joillakin M ∈ R n×n ja b ∈ R n .<br />

Muut funktiota g sitovat yhtälöt. Vektorin komponentteja sitovat muut<br />

Esim. jos g : R 3 → R 3 on yhtälöt.<br />

magneettikenttä, niin ∇ · g ≡ 0.<br />

Funktion g lineaarinen riippuvuus<br />

tunnetuista funktioista.<br />

Esim. g = ∑ ∞<br />

i=1 a iφ i , a i ∈ R.<br />

Vektorin x virittäjävektorit tunnetaan<br />

Esim. x = ∑ n ′<br />

i=1 a ie i , n ′ ≤ n.<br />

Mahdollisia tilastollisia malleja:<br />

Tuntematon vektori x ∈ R n<br />

Vektorin x jotkin komponentit<br />

x i tunnetaan tarkastii<br />

tai epätarkasti.<br />

Vektorin x naapurikomponenttien käytös.<br />

Vektorin x komponenttien x i arvojoukko. Esim. |X i | = X i .<br />

Esim. x i ≥ 0<br />

Vektorin x symmetriaominaisuudet.<br />

Esim. X = MX + b<br />

Esim. x = Mx + b joillakin M ∈ R n×n ja b ∈ R n .<br />

Vektorin x virittäjävektorit tunnetaan. X = ∑ n ′<br />

Tuntemattoman tilastollinen malli X : Ω → R n<br />

X i = m i + Z i , missä sv. Z i jakauma kuvaa<br />

arvon m i epätarkkuutta<br />

Satunnaisvektorin X naapurikomponenttien<br />

riiippuvuus. Satunnaisvektorin X<br />

naapurikomponenttien yhteisjakaumat<br />

i=1 Z ie i<br />

Esim. x = ∑ n ′<br />

i=1 a ie i , n ′ ≤ n. missä sm:n Z i jakauma edustaa<br />

kertoimiin liittyvää epävarmuutta.<br />

Esim. f Zi = f Zj kun i ̸ j.<br />

60


4.4 Erilaisia priorijakaumia<br />

Okoon X : Ω → R n satunnaisvektori, joka mallintaa inversio-ongelman tuntematonta<br />

vektoria. Olkoon f pr : R n → [0, ∞) satunnaisvektorinX tntf.Tarkastellaan<br />

muutamia vaihtoehtoja.<br />

Tasainen jakauma<br />

Olkoon B ⊂ R n suljettu ja rajoitettu suorakulmainen särmiö<br />

B = {x ∈ R n : a i ≤ x i ≤ b i , i = 1, .., n},<br />

missä a i < b i kun i = 1, .., n.<br />

Satunnaisvektorilla X on tasainen jakauma joukossa B jos<br />

f pr (x) = 1<br />

|B| 1 B(x),<br />

missä |C| := ∫ C dx on integraali yli suorakulmaisen särmiön C ⊂ Rn .<br />

• P(X ∈ B) = 1 ja sen komponenteille P(X i ∈ [a i , b i ]) = 1. Tiedetään<br />

varmasti, että tuntematon kuuluu joukkoon B ja tuntemattoman i:s komponentti<br />

kuuluu välille [a i , b i ].<br />

• Jos ˜B ⊂ B ja myös sen translaatio ˜B − x ⊂ B jollakin suorakulmaisella<br />

särmiöllä ˜B ja vektorilla x ∈ R n , niin mielestämme tapahtumien X ∈ ˜B<br />

ja X ∈ ˜B −x toteutuminen on täsmälleen yhtä epävarmaa. Tasainen priorijakauma<br />

ilmaisee lähes täydellistä epävarmuutta tuntemattoman vektorin<br />

arvoista komponenttien arvoista: tiedämme että tuntematon kuuluu<br />

joukkoon B. Piste.<br />

• Joukon B on oltava rajoitettu, jotta f pr olisi tntf.<br />

• Posteriorijakauman tntf<br />

l 1 -priori<br />

f post (x) = f Y (y|X = x)1 B (x)<br />

f Y (y)|B|<br />

on joukkoon B rajoitettu ja uudelleen normitettu uskottavuusfunktio.<br />

Määritellään avaruuteen R n uusi normi, ns. l 1 -normi<br />

‖x‖ 1 =<br />

n∑<br />

|x i |<br />

i=1<br />

kun x ∈ R n .<br />

Satunnaisvektorilla X on l 1 -priori, jos<br />

( α<br />

) n<br />

f pr (x) = e<br />

−α‖x‖ 1<br />

2<br />

• Komponentit X i ovat toisistaan riippumattomia.<br />

61


1<br />

0.9<br />

0.8<br />

alpha=0.5<br />

alpha=1<br />

alpha=2<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−10 −8 −6 −4 −2 0 2 4 6 8 10<br />

Kuva 4.1: 1-ulotteisen l 1 -jakauman tntf.<br />

• Tntf f Xi on symmetrinen origon suhteen (jolloin prioriodotusarvo on nollavektori).<br />

• Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman<br />

komponenttien saavan suurehkoja arvoja.<br />

Cauchy-jakauma<br />

Satunnaisvektorilla X on Cauchy-jakauma, jos<br />

kun x ∈ R n .<br />

( α<br />

) n ∏<br />

n 1<br />

f pr (x) =<br />

π 1 + α 2 x 2 i<br />

i=1<br />

• Komponentit X i ovat riippumattomia.<br />

• Tntf f Xi on symmetrinen origon suhteen (jolloin prioriodotusarvo on nollavektori.<br />

• Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman<br />

komponenttien saavan suurehkoja arvoja.<br />

• Kuvaa parhaiten tilannetta, jossa suurin osa komponenttien arvoista on<br />

lähellä nollaa, mutta joukossa on muutamia poikkeavia arvoja.<br />

62


0.7<br />

0.6<br />

alpha=0.5<br />

alpha=1<br />

alpha=2<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−10 −8 −6 −4 −2 0 2 4 6 8 10<br />

Kuva 4.2: Cauchy-jakauman tntf.<br />

Diskreetit Markovin kentät<br />

Oletetaan, että tuntematon vektori kuvaa jonkin n ′ -muuttujan funktion f :<br />

R n′ → R arvoja pisteissä t i , i = 1, ..., n.<br />

Indeksien i naapurustot N i ⊂ {1, ..., n} ovat jokin joukkoperhe jolle pätee<br />

1. i /∈ N i<br />

2. i ∈ N j jos ja vain jos j ∈ N i .<br />

Määritelmä 19. Satunnaisvektori X on diskreetti Markovin kenttä naapurustojen<br />

N i , i = 1, .., n suhteen jos<br />

f Xi (x|(X 1 , X 2 , .., X i−1 , X i+1 , X i+2 , ..., X n ) = (x 1 , x 2 , .., x i−1 , x i+1 , x i+2 , ..., x n ))<br />

= f Xi (x|X k = x k ∀k ∈ N i )<br />

Diskreetin Markovin kentän komponentti X i riippuu ainoastaan naapurikomponenteista<br />

X k , k ∈ N i .<br />

Lause 11 (Hammersley-Clifford). Olkoon satunnaisvektori X : Ω → R n diskreetti<br />

Markovin kenttä naapurustojen N i , i = 1, .., n suhteen, jolla on tntf.<br />

f X > 0. Silloin<br />

f X (x) = ce − P n<br />

i=1 Vi(x)<br />

missä funktio V i : R n → R riippuu vain komponentista x i ja sen naapurikomponenteistä<br />

x k , k ∈ N i .<br />

Esimerkki 17. Oletetaan, että satunnaisvektori X mallintaa N × N-pikselin<br />

kuvaa siten, että kuvaa vastaava matriisi on järjestetty n = N 2 -ulotteiseksi<br />

63


vektoriksi riveittäin. Satunnaisvektorilla X : Ω → R 2 on totaalivariaatiopriorijakauma<br />

, jos<br />

f pr (x) = ce − P n<br />

j=1 Vj(x)<br />

missä<br />

V j (x) = α ∑<br />

l ij |x i − x j |<br />

2<br />

i∈N j<br />

ja indeksin j naapurusto N j sisältää ne indeksit, joita vastaavilla pikseleillä on<br />

yhteinen sivu pikselin j kanssa. Luku l ij on yhteisen sivun pituus.<br />

• Totaalivariaatio ∑ n<br />

j=1 1 ∑<br />

2 i∈N j<br />

l ij |x i −x j | on pieni, jos pikselin i väriarvo<br />

x i ja sen naapuripikselien väriarvot x j , j ∈ N i eivät eroa paljon toisistaan<br />

tai eroavat paljon vain sellaisten pikselijoukkojen välillä, joiden reunan<br />

pituus on lyhyt. Vastaavasti tntf antaa suuren painon tällaisille vektoreille.<br />

• Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman<br />

totaalivariaation saavan suurehkoja arvoja.<br />

Esimerkki 18. Diskreetit Markovin kentät soveltuvat hyvin rakenteesta olevan<br />

prioritiedon esittämiseen. Esim. lääketieteellisessä kuvantamisessa on joskus<br />

mahdollsita tietää etukäteen missä eri elinten rajapinta sijaitsee esim. anatomian<br />

tai röntgenkuvien perusteella. Silloin voimme valita naapurustot siten,<br />

että j /∈ N i jos pikseli j kuuluu eri elimeen kuin pikseli i. Tällöin satunnaisvektorin<br />

X eri elimiä edustavat komponentit ovat toisistaan riippumattomia, mikä<br />

mahdollistaa komponenttien arvojen suurehkot hypyt kudosten rajapinnan yli.<br />

Gaussinen jakauma<br />

Olkoon X ∼ N(m, C) eli satunnaisvektori X on multinormaalijakautunut, sen<br />

odotusarvovektori on m ja kovarianssimatriisi on C. Gaussista priorijakaumaa<br />

suositaan kahdesta syystä: 1) posteriorijakauman yksinkertaisuus kun häiriö on<br />

myös Gaussinen ja 2) keskeinen raja-arvolause.<br />

Keskeinen raja-arvolause: Jos satunnaismuuttujat {Z i : i ∈ N} ovat<br />

pareittain riippumattomia, samoin jakautuneita ja m = E[Z i ] sekä C = E[(Z i −<br />

m) 2 ] ovat äärellisiä, niin satunnaismuutjien<br />

X n =<br />

n∑<br />

i=1<br />

(Z i − m)<br />

√<br />

nC<br />

jakauma, kun n kasvaa rajatta, lähestyy normaalijakaumaa N(0, 1) siinä mielessä<br />

että<br />

lim P(X n ≤ a) = 1 ∫ a<br />

√ e −1 2 x2 dx<br />

n→∞ 2π −∞<br />

jokaisella a ∈ R.<br />

Keskeinen raja-arvolause takaa myös sen, että eräät häiriötermit ovat lähes<br />

multinormaalijakautuneita. Esimerkiksi kaikissa elektronisissa mittalaitteissa<br />

esiintyy lämpökohinaa, joka johtuu elektronien satunnaisesta lämpöliikkeestä:<br />

sähkövirta hetkellä t ei ole täsmälleen jännite-erojen aikaansaama virta, vaan siihen<br />

on summautunut jokaisen elektronin pieni satunnainen lämpöliike. Kunkin<br />

64


elektronin lämpöliike noudattaa mittalaitteen lämpötilasta riippuvaa jakaumaa<br />

ja eri elektronien lämpöliikkeitä voidaan pitää riippumattomina. Sähkövirtaan<br />

summautuu kaikkien elektronien lämpöliike, joka on keskeisen raja-arvolauseen<br />

nojalla hyvin lähellä normaalijakaumaa. Lämpökohinaa approksimoidaan normaalijakaumalla.<br />

Esimerkki 19. Revontulet ja Gaussinen priori. Epäkoherentissa sironnassa ionosfäärin<br />

plasman yksittäiset elektronit lähettävät kukin oman heikon signaalinsa.<br />

Epäkoherentisti sironnut signaali on summa yksittäisten elektronien signaaleista.<br />

Keskeisen raja-arvolauseen nojalla voidaan olettaa, että myös sironnut<br />

signaali noudattaa Gaussista jakaumaa.<br />

0.8<br />

0.7<br />

alpha=2<br />

alpha=1<br />

alpha=0.5<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−10 −8 −6 −4 −2 0 2 4 6 8 10<br />

Kuva 4.3: Normaalijakauman N(0, α) tntf.<br />

Oletetaan, että m = 0 ja tarkastellaan kovarianssimatriisin sisältyvää prioritietoa<br />

kahdessa eri tapauksessa.<br />

Sileyspriorit reuna-ehdolla:<br />

1D-tapaus: Oletetaan, että X kuvaa funktion f arvoja pisteissä t i ∈ [0, 1],<br />

i = 1, .., n, 0 = t 0 < t 1 < · · · < t n < 1 ovat tasavälisiä pisteitä ja f(t) = 0 kun<br />

t ≤ 0. Olkoon matriisi L ∈ R n×n sellainen, että<br />

⎧<br />

⎪⎨ 1, i = j,<br />

L ij = −1, j = i − 1, 2 ≤ i ≤ n<br />

⎪⎩<br />

0, muulloin.<br />

Määritellään satunnaisvektori X yhtälöllä<br />

1<br />

a LX = W ⇔ X = aL−1 W<br />

65


missä W ∼ N(0, I n ). Tällöin satunnaismuuttujat<br />

X i − X i−1 ∼ N(0, a 2 ), i = 1, .., n<br />

ovat toisistaan riippumattomia. Tässä X 0 ≡ 0. Satunnaisvektori X = (X 1 , ..., X n ) ∼<br />

N(0, a 2 (LL T ) −1 ) ja<br />

f pr (x) = ce − 1<br />

2a 2 (x 2 1 +P n<br />

i=2 (xi−xi−1)2 ) .<br />

• Jakauma sisältää priorioletuksen: reunaa vastaava komponentti X 0 ≡ 0.<br />

• Jos parametri a on suuri, niin vierekkäisten komponenttien erotukset voivat<br />

olla suurehkoja. Jos parametri a on pieni, on todennäköisempää että<br />

vierekkäisten pisteiden erotus on pienehkö.<br />

• Parametrin a valinta perustuu siihen, kuinka varmasti uskomme tuntematoman<br />

vierekkäisten komponenttien erotukset saavan suurehkoja arvoja.<br />

Tämä liittyy käsitykseemme tuntemattoman funktion derivaatan käytöksestä.<br />

Vastaavasti, voimme tarkastella toisia differenssejä ja asettaa<br />

Tällöin<br />

1<br />

a 2 L2 X = W.<br />

f pr (x) = ce − 1<br />

2a 4 (x 2 1 +(−2x2−x1)2 + P n<br />

i=3 (xi−2xi−1+xi−2)2 ) .<br />

joilla<br />

• Jakauma sisältää priorioletukset: reunaa vastaava komponentti X 0 ≡ 0<br />

samoin kuin X −1 ≡ 0 joka mallintaa funktion arvoa pisteessä f(t −1 ),<br />

t −1 < 0.<br />

• Jos parametri a on suuri, niin vierekkäisten komponenttien toiset differenssit<br />

voivat olla suurehkoja. Jos parametri a on pieni, on todennäköisempää<br />

että vierekkäisten pisteiden toiset differenssit ovat pienehkö.<br />

• Parametrin a valinta perustuu siihen, kuinka varmasti uskomme tuntematoman<br />

vierekkäisten komponenttien toiset differenssit saavan suurehkoja<br />

arvoja. Tämä liittyy käsitykseemme tuntemattoman funktion toisen derivaatan<br />

käytöksestä.<br />

Vastaavasti voidaan määritellä korkeammilla differensseillä<br />

k=0<br />

1<br />

a m Lm X = W,<br />

m∑ ( (−1) k m<br />

)<br />

X i−k ∼ N(0, a 2m )<br />

k<br />

ovat riiippumattomia satunnaismuuttujia.<br />

2D-tapaus: Oletetaan, että X kuvaa funktion f arvoja pisteissä t i ∈ [0, 1] ×<br />

[0, 1], i = 1, .., n 2 , ja f(t) = 0 kun t /∈ [0, 1] × [0, 1]. Oletetaan, että {t i ∈ [0, 1] ×<br />

66


[0, 1] : i = 1, .., n 2 } = {( k n , j n ) : k, j = 1, ..., n}. Olkoon matriisi L ∈ ×n 2<br />

Rn2<br />

sellainen, että<br />

⎧<br />

⎪⎨ 4, i = j,<br />

L ij = −1, kunj ∈ N i<br />

⎪⎩<br />

0, muulloin.<br />

missä pisteen i ympäristö N i sisältää indeksit k, jotka ovat pisteen t i vasemman-,<br />

oikean-, ylä- ja alapuolisen pisteen t k indeksit (mikäli nämä pisteet ovat olemassa).<br />

Määritellään satunnaisvektori X yhtälöllä<br />

missä W ∼ N(0, I n 2).<br />

1<br />

a 2 LX = W ⇔ X = a2 L −1 W<br />

• Priorijakauma sisältää oletuksen, että indeksialueen ulkopuolella tuntematon<br />

häviää.<br />

• Matriisi-indekseillä riippumattomat normaalijakautuneet satunnaismuuttujat<br />

−X i(k+1) −X i(k−1) +4X ik −X (i+1)k −X (i−1)k = −X i(k+1) +2X ik −X i(k−1) −X (i+1)k +2X ik −X (i−1)k<br />

ovat eri akselien suuntaan laskettujen 2. differenssien summa.<br />

• Parametrin a valinta perustuu siihen, kuinka varmasti uskomme tuntematoman<br />

vierekkäisten komponenttien toisten differenssien summan saavan<br />

suurehkoja arvoja. Tämä liittyy käsitykseemme tuntemattomasta funktiosta<br />

f otetun Laplacen operaattorin ∆f käytöksestä.<br />

Korrelaatiopriorit:<br />

Jos satunnaisvektori X ∼ N(0, C) mallintaa tuntemattoman 2π-periodisen<br />

funktion f arvoja pisteissä t i = 2π(i − 1)/n, i = 1, ..., n, niin myös sen kovarianssimatriisin<br />

tulisi kuvata periodisuutta. Tämä voidaan toteuttaa valitsemalla<br />

sopiva vektori<br />

c = (c 1 , ..., c n )<br />

ja ottamalla C sirkulantiksi matriisiksi, jonka c määrää.<br />

Esimerkiksi<br />

c i = e −α|i−n/2| (4.3)<br />

kun i = 1, ..., n.<br />

• Prioritieto periodisuudesta on sisällytetty kovarianssimatriisin rakenteeseen.<br />

• Yhtälölle (4.3) määritelty c riippuu parametrista α > 0. Parametri α kuvaa<br />

käsitystämme tuntemattoman vektorin komponenttien välillä vallitsevasta<br />

riippuvuudesta.<br />

67


Positiivisuusrajoitus<br />

Jos tiedetään, että tuntemattoman komponentit ovat ei-negatiisia, niin käytetään<br />

rajoitettua ja uudelleen normitettua tntf:ta<br />

f pr (x) = cf + (x)f X (x)<br />

missä<br />

f + (x) =<br />

{<br />

1, x i ≥ 0 ∀i = 1, .., n<br />

0 muulloin.<br />

0.4<br />

0.35<br />

Gauss<br />

l1<br />

Cauchy<br />

0.3<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

−10 −8 −6 −4 −2 0 2 4 6 8 10<br />

Kuva 4.4: Normaalijakauman N(0, 1) tnft, Cauchy-jakauman tntf kun α = π √<br />

2π<br />

ja l 1 -priorin tntf kun α = 2<br />

2π .<br />

Hierarkinen priori<br />

Jos tuntemattomanta mallintavan satunnaisvektorin todennäköisyystiheysfunktion<br />

arvot riippuvat jatkuvasti parametreista σ ∈ R n′ joita ei tunneta tarkasti,<br />

niin parametreihin liittyvää epävarmuutta on mahdollista kuvailla todennäköisyysjakauman<br />

avulla.<br />

Olkoon X : Ω → R n tuntematonta mallintava satunnaisvektori, jolla on<br />

tntf f X . Olkoon σ : Ω → R n′ parametria mallintava satunnaisvektori, jolla on<br />

tntf f σ . Oletetaan, että tiedetään lauseke satunnaisvektorin X jakaumalle, kun<br />

parametrin σ arvo on tunnettu eli funktio<br />

x ↦→ f X (x|σ = s) = f s X (x)<br />

tunnetaan kaikilla s ∈ R n′ . Oletetaan että tulo f s X (x)f σ(s) on Riemann-integroituva<br />

ja<br />

f (X,σ) (x) = f s X (x)f σ(s).<br />

68


Vaihto-ehto 1) Tuntematonta mallinnetaan satunnaisvektorina X, jolla on<br />

todennäköisyystiheysfunktio<br />

∫<br />

f pr (x) = fX(x)f s σ (s)ds 1 · · · ds n ′<br />

(mikäli tämä marginaalitntf on olemassa). Vastaava posteriorijakauma on<br />

f post (x) = cf Y (y|X = x)f pr (x)<br />

kun f Y (y) > 0.<br />

Vaihtoehto 2) Myös hyperparametria σ pidetään osana tuntemattonta ja<br />

prioriksi otetaan yhteisjakauma<br />

jolloin<br />

f pr (x, s) = f s X(x)f σ (s).<br />

f post (x, s) = cf Y (y|(X, σ) = (x, s))f pr (x, s) = cf Y (y|X = x, s)f pr (x, s)<br />

kun f Y (y) > 0, sillä uskottavuusfunktio ei riipu parametrin σ arvosta.<br />

Vastaavaa prioritodennäköisyystiheysjakaumaanimitetään hierarkiseksi prioriksi<br />

(eng. hierarchical prior). Parametreja σ : Ω → R n′ nimitetään hyperparametreiksi<br />

(eng. hyperparameter) ja sen jakaumaa hyperprioriksi (eng. hyper<br />

prior).<br />

Esimerkki 20. Olkoon X : Ω → R 3 tuntematonta mallintava satunnaisvektori<br />

ja σ : Ω → R satunnaismuuttuja. Olkoon<br />

⎛<br />

D s = ⎝ 1 0 0 ⎞<br />

0 s 0⎠.<br />

0 0 1<br />

ja<br />

⎛<br />

L = ⎝ 1 0 0<br />

⎞<br />

−1 1 0⎠.<br />

0 −1 1<br />

Oletetaan , että<br />

f X (x|σ = s) = c s e − 1 2 xT L T D sLx = 2√ s<br />

√<br />

2π<br />

3 exp (<br />

− 1 2 x2 1 − s 2 (x 2 − x 1 ) 2 − 1 2 (x 3 − x 2 ) 2 )<br />

ja<br />

f σ (s) = λf + (s)e −λs<br />

missä λ > 0 ja f + (s) = 1 kun s > 0 ja 0 muulloin. Silloin<br />

f (X,σ) (x, s) =<br />

√ sλ<br />

( √ 2π) f +(s)exp<br />

(− 1 3 2 x2 1 − s 2 (x 2 − x 1 ) 2 − 1 )<br />

2 (x 3 − x 2 ) 2 e −λs<br />

69


ja<br />

f X (x) =<br />

=<br />

=<br />

=<br />

=<br />

(<br />

λ<br />

( √ 2π) exp 3 (<br />

λ<br />

( √ 2π) exp 3 (<br />

λ<br />

( √ 2π) exp − 1 3 2 x2 1 − 1 )<br />

2 (x 3 − x 2 ) 2<br />

− 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2 ) ∫ ∞<br />

− 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2 ) ∫ ∞<br />

( 1 2 (x 2 − x 1 ) 2 + λ) 3 2<br />

λ<br />

( √ exp ( − 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2) ( 3<br />

2π) 3 ( 1 2 (x Γ<br />

2 − x 1 ) 2 + λ) 3 2 2)<br />

λ exp ( − 1 2<br />

√ x2 1 − 1 2 (x 3 − x 2 ) 2)<br />

4π<br />

2 ((x 2 − x 1 ) 2 + 2λ) 3 2<br />

0<br />

0<br />

√ (<br />

s exp − s )<br />

2 (x 2 − x 1 ) 2 − λs ds<br />

( )<br />

s 1 1<br />

2 exp(−s<br />

2 (x 2 − x 1 ) 2 + λ )ds<br />

1<br />

∫ ∞<br />

0<br />

s 1 2 exp(−s)ds<br />

Gamma-funktion arvo Γ(3/2) = √ π/4.<br />

0.7<br />

0.6<br />

lambda=0.3<br />

lambda=1<br />

lambda=2<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−20 −15 −10 −5 0 5 10 15 20<br />

Kuva 4.5: Todennäköisyystiheysfunktio f(x) =<br />

λ<br />

(x 2 +2λ) 3 2<br />

.<br />

• Satunnaisvektorin X jakauma ei ole Gaussinen.<br />

• Satunnaisvektorin X 1. differenssit ovat riippumattomia.<br />

• Komponenttien odotusarvot E[X i ] = 0, i = 1, 2, 3.<br />

• Differenssillä X 2 − X 1 on Cauchy-tyyppinen jakauma (muunnettu Betajakauma,<br />

Transformed Beta distribution), mutta suurten lukujen esiintymisen<br />

todennäköisyys on pienempi kuin Cauchy-jakaumalla.<br />

70


0.25<br />

Cauchy<br />

Transformed Beta<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

−20 −15 −10 −5 0 5 10 15 20<br />

Kuva 4.6: Cauchy-jakauman tntf. ja f(x) =<br />

λ<br />

(x 2 +2λ) 3 2<br />

.<br />

• Epävarmuus differenssin X 2 − X 1 varianssissa tuotti jakauman, joka sallii<br />

myös suurempia arvoje. Olisi ollut mahdollista myös suoraan antaa tämä<br />

tntf. satunnaisvektorin X todennäköisyystiheysfunktiona, mutta tuntemattomasta<br />

ollut prioritieto soveltui paremmin parametrin hyperpriorin<br />

valintaan.<br />

4.5 Posteriorijakauman tutkiminen<br />

4.5.1 Päätösteoriaa<br />

Oletetaan, että tntf:t f (X,Y ) , f X > 0 ja f Y > 0 ovat olemassa ja jatkuvia.<br />

Merkitään<br />

f post (x; y) = f X (x|Y = y)<br />

kun y ∈ R m .<br />

Moniulotteista posteriorijakaumaa f post (x; y) voi olla hankala tulkita tai visulialisoida.<br />

Miten posteriorijakaumasta saadaan helposti tulkittavaa tietoa tuntemattomasta?<br />

Otetaan käyttöön tilastotieteen osa-alue, jota kutsutaan päätösteoriaksi.<br />

Päätösteoria (eng. decision theory) vastaa esimerkiksi kysymykseen: mikä<br />

datan y = F(x) + ε funktio h : R m → R n on sellainen, että vektori h(y) muistuttaa<br />

(tietyssä mielessä) parhaiten tuntematonta x joka on tuottanut datan<br />

y = F(x) + ε? Tilastotietessä funktiota h kutsutaan tuntemattoman estimaattoriksi<br />

ja arvoa h(y) estimaatiksi.<br />

Määritellään missä mielessä parasta funktiota etsitään. Valitaan ensin ns.<br />

tappiofunktio (eng. loss function)<br />

L : R n × R n → [0, ∞)<br />

71


jonka arvo L(x, h(y)) mittaa estimaatin h(y) tarkkuutta kun tuntematon on<br />

x. Esim. L(x, h(y)) = ‖x − h(y)‖ 2 . Oletetaan, että L on valittu siten, että<br />

x ↦→ L(x, z)f post (x) on integroituva jokaisella z ∈ R n .<br />

Jos y ∈ R m , niin estimaattorin h arvo h(y) ∈ R n valitaan siten, että se<br />

minimoi tappiofunktion posterioriodotusarvon<br />

∫<br />

R n L(x, h(y))f post (x; y)dx<br />

eli<br />

h(y) = argmin<br />

z∈R n<br />

∫<br />

R n L(x, z)f post (x; y)dx.<br />

Datan ollessa y etsimme arvon h(y), jolla odotettu virhe posteriorijakauman<br />

suhteen on pienin mahdollinen. Arvoille h(y) pätee, että<br />

mikäli integraali<br />

h(y) = argmin<br />

z∈R n<br />

r(h) =<br />

∫ (∫<br />

)<br />

L(x, z)f post (x; y)dx f Y (y)dy,<br />

R m R n<br />

∫R m (∫<br />

)<br />

L(x, h(y))f post (x; y)dx f Y (y)<br />

R n<br />

on olemassa. Lukua r(h) kutsutaan Bayes-riskiksi. Kun Fubinin kaava pätee,<br />

niin<br />

(∫<br />

)<br />

r(h) = L(x, h(y))f Y (y|X = x)dy f pr (x)dx.<br />

∫R n R m<br />

Riskin tulkinta: kun todellinen tuntematon on x ja sitä vastaava häiriöinen data<br />

y, niin estimaattoriin h liittyvä odotettu tappio (jakaumien f Y (y|X=x) ja f pr (x)<br />

suhteen) on Bayes-riski r(h).<br />

Esimerkki 21. Valitaan L(x, z) = ‖x − h(y)‖ 2 . Olkoon m post (y) posterioriodotusarvo<br />

∫<br />

m post (y) = xf post (x)dx<br />

R n<br />

ja C post (y) posteriorikovarianssimatriisi<br />

∫<br />

(C post (y)) ij = (x i − (m post (y)) i )(x j − (m post (y)) j )f post (x)dx.<br />

R n 72


Silloin<br />

∫<br />

R n L(x, h(y))f post (x; y)dx =<br />

=<br />

=<br />

=<br />

=<br />

∫<br />

‖x − h(y)‖ 2 f post (x; y)dx<br />

R<br />

∫<br />

n<br />

‖x − m post (y) + m post (y) − h(y)‖ 2 f post (x; y)dx<br />

R<br />

∫<br />

n n∑<br />

(‖x − m post (y)‖ 2 + 2 (x − m post (y)) i (m post (y) − h(y)) i<br />

R n<br />

i=1<br />

+‖m post (y) − h(y)‖ 2 )f post (x; y)dx<br />

∫<br />

‖x − m post (y)‖ 2 f post (x; y)dx<br />

R n n∑<br />

+2 (m post (y) − h(y)) i (x − m post (y)) i f post (x; y)dx<br />

∫R n<br />

i=1<br />

+‖m post − h(y)‖<br />

∫R 2 f post (x; y)dx<br />

∫<br />

n ‖x − m post (y)‖ 2 f post (x; y)dx + ‖m post − h(y)‖ 2<br />

R n<br />

Minimi saavutetaan, kun ‖m post (y) − h(y))‖ 2 = 0 eli kun h(y) = m post (y),<br />

jolloin lisäksi<br />

∫<br />

R n L(x, h(y))f post (x; y)dx =<br />

n∑<br />

(C post (y)) ii .<br />

Toisin sanoen tappiofunktion posterioriodotusarvo on posteriorikovarianssimatriisin<br />

diagonaalielementtien summa ( = posteriorikovarianssimatriisin ns. jälki,<br />

eng. trace).<br />

Posterioriodotusarvoa merkitään usein ˆx CM (CM=central mean)<br />

Esimerkki 22. MAP-estimaatti<br />

Sanomme, että todennäköisyystiheysfunktiota yksihuippuiseksi (eng. unimodal),<br />

jos sen globaali maksimiarvo saavutetaan vain yhdessä pisteessä. (Huom!<br />

kirjallisuudessa termillä ”unimodal”esiintyy useampia määritelmiä, jotka eivät<br />

ole keskenään ekvivalentteja.).<br />

Olkoon δ > 0 ja tappiofunktio L δ (x, z) = 1 ¯B(z,δ) C(x) kun x, z ∈ R n . Olkoon<br />

jatkuva posterioritntf x ↦→ f post (x; y) yksihuippuinen annetulla datalla y ∈ R n .<br />

Estimaattien<br />

∫<br />

h δ (y) = argmin 1 ¯B(z,δ) C(x)f post (x; y)dx<br />

z∈R n R n<br />

i=1<br />

= argmin f post (x; y)dx<br />

z∈R<br />

∫R n n \ ¯B(z,δ)<br />

raja-arvo<br />

missä<br />

lim h δ(y) = ˆx MAP (y)<br />

δ→0+<br />

ˆx MAP (y) = argmaxf post (x; y).<br />

x∈R n<br />

73


Maksimi a posteriori-estimaatti ˆx MAP (y) (eng. maximum a posteriori estimate)<br />

voi olla hyödyllinen tilanteissa, joissa posterioriodotusarvojen laskeminen on<br />

raskasta. Se saadaan myös kaavalla<br />

ˆx MAP (y) = argmaxf Y (y|X = x)f pr (x)<br />

x∈R n<br />

MAP-estimaattia käytetään usein myös silloin, kun posteriorijakauma ei ole<br />

yksihuippuinen, jolloin estimaatti voi saada useampia arvoja. MAP-estimaattia<br />

käytetään myös tasaisten priorijakaumien yhteydessä.<br />

Estimaattien ˆx lisäksi voimme määrätä niiden komponenteille ˆx i Bayesluottamusvälin<br />

valitsemalla luvun a yhtälöstä<br />

missä esim. α = 0.05.<br />

P post (|X i − ˆx i | ≤ a) = 1 − α<br />

4.5.2 Huonosti asetetut ja häiriöherkät lineaariset ongelmat<br />

Olkoon<br />

y 0 = F(x 0 ) + ε 0<br />

annettu data, joka on näyte satunnaisvektorista<br />

Y = F(X) + ε,<br />

missä X : Ω → R n ja ε : Ω → R m ovat tilastollisesti riippumattomia satunnaisvektoreita<br />

ja F : R n → R m on jatkuva lineaarinen huonosti asetettu kuvaus<br />

jolla on pieniä nollasta eroavia singulaariarvoja tai häiriöherkkä hyvin asetettu<br />

kuvaus.<br />

Olkoon satunnaisvektorin (X, Y ) yhteistntf f (X,Y ) erikseen jatkuva pisteissä<br />

x, y ∈ R n×m joissa f (X,Y ) (x, y) > 0. Tarkastellaan yksinkertaisuuden vuoksi<br />

Gaussista häiriömallia ε ∼ N(0, δI), δ > 0. Olkoon f pr sellainen, että jollakin<br />

c > 0 pätee f pr (x) ≤ c −1 kaikilla x ∈ R n . Tällöin cf pr (x) ≤ 1.<br />

Tuntemattoman maksimi a posteriori-estimaatti on<br />

ˆx MAP (y 0 )<br />

= argmaxf Y (y 0 |X = x)f pr (x)<br />

x∈R n<br />

= argmaxf ε (y 0 − F(x))f pr (x)<br />

x∈R n<br />

= argmax<br />

x∈R n e − 1 2δ ‖y0−F(x)‖2 +ln cf pr(x) .<br />

Funktio [0, ∞) ∋ t ↦→ exp(−t) on vähenevä, joten<br />

kun g : R n → [0, ∞). Erityisesti<br />

sup exp(−g(x)) = exp(− inf g(x))<br />

x∈R n x∈R n<br />

ˆx MAP (y 0 ) = argmaxe − 1 2δ ‖y0−Fx‖2 +ln cf 1<br />

pr(x). = argmin<br />

x∈R n<br />

x∈R n 2δ ‖y 0 − Fx‖ 2 − lncf pr (x).<br />

74


Kun häiriön jakauma on N(0, δI), niin MAP-estimointi on ekvivalentti sakotetun<br />

pienimmän neliösumman menetelmän (eng. penalized least squares method)<br />

kanssa; minimoitava funktionaali ei ole ‖y 0 − Fx‖ 2 , vaan siihen on summattu<br />

termi − lncf pr (x), joka on suuri silloin kun vektorilla x on ei-toivottuja ominaisuuksia.<br />

• Funktio x ↦→ ‖y 0 − Fx‖ 2 saa pienimmän arvonsa pisteissä<br />

ˆx = Qx 0 + ˜x + ˜ε 0 ,<br />

missä Q : R n → R n on ortogonaalinen projektio kuva-avaruudelle R(F T ),<br />

˜x ∈ Ker(F) ja ˜ε 0 on häiriötermin ε 0 vaikutus likimääräisratkaisuun.<br />

• Jos − lncf pr (x) on suuri vektoreille x, jotka ovat tyyppiä x 0 + ˜ε 0 , niin sakkotermi<br />

− lncf pr (x) pienentää häiriön vaikutusta estimaatissa. Toisaalta<br />

funktion − lncf pr (x) minimikohta (eli funktion f pr (x) maksimikohta) ei<br />

yleensä ole x 0 tällaisille prioritntf:lle. Estimaatti ˆx MAP on tällöin ”kompromissi”häiriöiseen<br />

dataan sopivan häiriöisen estimaatin ˆx ja prioritntf:n<br />

suosiman vektorin välillä.<br />

Sama ilmiö näkyy myös CM-estimaatissa<br />

∫<br />

ˆx CM (y 0 ) = xf post (x; y 0 )dx.<br />

R n ∫<br />

= c y0 e − 1<br />

2δ ‖y0−F(x)‖2 f pr (x)dx<br />

R n<br />

= c y0<br />

∫R n xe − 1 2δ ‖y0−F(x)‖2 +ln cf pr(x) dx<br />

jossa lasketaan posterioriodotusarvo yli kaikkien mahdollisten tuntemattomien.<br />

• Niillä vektoreilla x, joilla<br />

1<br />

2δ ‖y 0 − F(x)‖ 2 − lncf pr (x)<br />

on pieni, on suurehko paino odotusarvossa. Niillä vektoreilla x, joilla<br />

1<br />

2δ ‖y 0 − F(x)‖ 2 − lncf pr (x)<br />

on suuri, on pienehkö paino odotusarvossa.<br />

• Jos − lncf pr (x) on suuri vektoreille x, jotka ovat tyyppiä x 0 + ˜ε 0 , niin<br />

prioritntf. f pr (x) pienentää häiriön ǫ 0 kontribuutiota odotuskeskiarvoon.<br />

Esimerkki 23 (Tasainen priorijakauma). Oletetaan, että F on injektio. Olkoon<br />

f pr (x) = 1<br />

|Q 1 r| Q r<br />

(x), missä Q r ⊂ R n on suljettu origokeskinen kuutio, jonka<br />

sivun pituus on r.<br />

Silloin<br />

f post (x) = c y0 e − 1 2δ ‖y0−F(x)‖2 1 Qr (x)<br />

ja<br />

ja<br />

ˆx MAP (y 0 ; r) = argmin<br />

x∈Q r<br />

‖y 0 − F(x)‖ 2<br />

lim x MAP(y 0 ; r) = argmin ‖y 0 − F(x)‖ 2 ,<br />

r→∞ x∈R n<br />

75


missä posterioritntf on yksihuippuinen, koska F on injektio. MAP-estimaatti,<br />

kun priorina on tasainen jakauma origokeskisessä kuutiossa Q r , lähestyy pienimmän<br />

neliösumman likimääräisratkaisua, kun kuution sivun pituus kasvaa rajatta.<br />

Tasainen jakauma ei yleensä poista häiriöherkkyyttä.<br />

Esimerkki 24. Olkoon F : R n → R m . Olkoon f pr (x) = ce − 1 2 xT C −1x . Silloin<br />

ˆx CM (y 0 ) = (FF T + δC −1 ) −1 F T (y 0 ),<br />

joka on olemassa vaikka F ei olisi kääntyvä. Lisäksi estimaatti ˆx CM ei ole niin<br />

häiriöherkkä kuin pienimmän neliösumman likimääräisratkaisu.<br />

Merkitään posteriorikovarianssimatriisia<br />

C post = (FF T + δC −1 ) −1 .<br />

Voimme määrätä komponenteille (ˆx CM ) i Bayes-luottamusvälin<br />

√<br />

√<br />

[(ˆx CM ) i − 1.96 (C post ) ii , (ˆx CM ) i + 1.96 (C post ) ii ]<br />

jolle<br />

)<br />

P post<br />

(|X i − (ˆx CM ) i | ≤ 1.96<br />

√(C post ) ii ≈ 0.95<br />

Esimerkki 25. Häiriö ε 0 voi saada pienimmän neliösumman likimääräisratkaisun<br />

ˆx = ‖Fx − y 0 ‖ 2<br />

poikkeamaan voimakkaasti todellisesta tuntemattoman arvosta x 0 . Tällöin yksittäiset<br />

komponentit voivat saada suuria arvoja. Kun f pr on sellainen, että<br />

se antaa suuren todennäköisyyden vain vektoreille, joilla on ”sopivansuuruiset”komponentit,<br />

niin prioritntf antaa pienehkön painon vektoreille, jotka sopivat<br />

dataan hyvin eli ‖Fx − y 0 ‖ 2 on pieni, mutta joihin on summautunut voimakas<br />

häiriötermi. Tällaisia jakaumia ovat esim. l 1 -priori ja Cauchy-jakauma.<br />

Esimerkki 26. Kun häiriö ε on Gaussinen, niin sen tyypillinen näyte ε 0 saa<br />

pienimmän neliösumman likimääräisratkaisun<br />

ˆx = ‖Fx − y 0 ‖ 2<br />

vaihtelemaan voimakkaasti komponentista toiseen. Jos prioritntf. f pr on sellainen,<br />

että se antaa pienehkön painon vektoreille joiden vierekkäisten pisteiden<br />

erotukset ovat suuret, niin prioritntf. pienentää tyypillisen häiriön kontribuutiota<br />

estimaatteihin. Totaalivariaatiopriori ja Gaussiset sileyspriorit ovat tällaisia<br />

prioreja.<br />

4.6 Yhteenveto<br />

• Todennäköisyyslaskenta<br />

– Todennäköisyyslaskennalla on mittateoreettinen pohja, joka näkyy<br />

satunnaisvektorien määritelmässä.<br />

76


– Tässä kurssissa moniulotteiset integraalit ovat moniulotteisia Riemannintegraaleja<br />

(kirjallisuudessa yleisemmin Lebesgue-integraaleja, jotka<br />

määritellään vasta syventävillä kursseilla).<br />

– Tässä kurssissa satunnaisvektorin X : Ω → R n todennäköisyystiheysfunktio<br />

on sellainen Riemann-integroituva funktio f : R n →<br />

[0, ∞), jolle ∫ f(x)dx = 1 ja P(X ∈ Q) = ∫ f(x)dx suljetuilla ja<br />

Q<br />

rajoitetuilla suorakulmaisilla särmiöillä Q. Rajoittamattomille kuutioille<br />

integraali määritellään epäoleellisena integraalina.<br />

– Tässä kurssissa satunnasivektorin X ehdollinen tntf ehdolla Y = y<br />

(jolla f Y (y) > 0) määritellään yhtälöllä<br />

jolloin Bayesin kaava<br />

f X (x|Y = y) = f (X,Y )(x, y)<br />

,<br />

f Y (y)<br />

f (X,Y ) (x, y) = f X (x|Y = y)f Y (Y ) = f Y (y|X = x)f X (y)<br />

pätee kaikilla x, y kun yhteisjakauma on erikseen jatkuva molempien argumenttiensa<br />

suhteen pisteissä (x, y), joissa f (X,Y ) (x, y) > 0 ja f Y (y) =<br />

∫<br />

f(X,Y ) (x, y)dx sekä f X (y) = ∫ f (X,Y ) (x, y)dy.<br />

• Tilastollinen inversio-ongelma<br />

– Tuntematonta ja dataa mallinnetaan satunnaisvektoreilla X ja Y .<br />

– Datan ja tuntemattoman jakaumat edustavat niistä saatavilla olevaa<br />

kvantitatiivista ja kvalitatiivista tietoa sekä tälllaisen tiedon puutetta.<br />

– Annettu data y 0 on näyte satunnaisvektorista Y eli y 0 = Y (ω 0 ) jollakin<br />

alkeistapahtumalla ω 0 ∈ Ω.<br />

– Tilastollisen inversio-ongelman ratkaisu on satunnaisvektorin X ehdollinen<br />

todennäköisyysjakauma kun Y = y 0 , jolle f Y (y 0 ) > 0, on<br />

annettu<br />

• Posterioritntf<br />

– Posterioritntf:n määrämiseksi tarvitaan uskottavuusfunktio x ↦→ f Y (y 0 |X =<br />

x) ja prioritntf x ↦→ f p r(x).<br />

– Posteriorijakaumasta voidaan määrätä tuntematton estimaatteja ja<br />

niiden Bayes-luottamusvälejä.<br />

• Tyypillisiä priorijakaumia ovat Gaussiset sileyspriorit, l 1 -priori, Cauchypriori<br />

ja totaalivariaatiopriori (2D-kuville).<br />

Osattava<br />

• Määrätä posterioritntf (normitustekijää vaille) kun häiriötä mallintava satunnaisvektori<br />

ja tuntematonta mallintava satunnaisvektori ovat riippumattomia<br />

ja tarvittavat tntf:t ovat jatkuvia.<br />

• Johtaa Gaussisessa tapauksessa posterioriodotusarvon ja posteriorikovarianssimatriisin<br />

lausekkeet.<br />

77


• Selostaa Tikhonovin regularisaation ja Gaussisen priorin yhteys.<br />

• Muodostaa hierarkinen prioritntf kun ehdollinen prioritntf ja hyperjakaman<br />

tntf on annettu<br />

Ymmärrettävä:<br />

• että tapahtuman todennäköisyydestä käytetään subjektiivista Bayeslaista<br />

tulkintaa: tapahtuman todennäköisyys on se varmuusaste, jolla uskomme<br />

tapahtuman toteutuvan.<br />

• että epävarmuutta tuntemattoman tai parameterien arvoista voidaan kuvailla<br />

todennäköisyystiheysfunktioiden avulla<br />

• että prioritntf voi kompensoida ongelman häiriöherkkyyttä.<br />

• että posterioritntf tuottaa enemmän tietoa kuin pelkän estimaatin (kuten<br />

Bayes-luottamusvälit).<br />

Tiedettävä<br />

• että häiriötä mallintava satunnaisvektori ja tuntematontta mallintava satunnaisvektori<br />

voivat joskus olla toisistaan riippuvia.<br />

• että malleihin voidaan sisällyttää epävarmuustekijöitä satunnaismuuttujien<br />

avulla<br />

• CM-estimaatin määritelmä posterioriodotusarvona<br />

• MAP-estimaatin määritelmä posterioritntf:n maksimikohtana<br />

• mitä positiivisuusrajoite tarkoittaa<br />

• Priorijakaumia: Gaussiset sileyspriorit, Cauchy-priori, l 1 -priori, totaalivariaatiopriori.<br />

78

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!