Inversio-ongelmien peruskurssi - Oulu
Inversio-ongelmien peruskurssi - Oulu
Inversio-ongelmien peruskurssi - Oulu
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Inversio</strong>-<strong>ongelmien</strong> <strong>peruskurssi</strong><br />
Sari Lasanen<br />
19. lokakuuta 2010
<strong>Inversio</strong>-<strong>ongelmien</strong> <strong>peruskurssi</strong> (4 op)<br />
Osaamistavoitteet: Kurssin onnistuneen suorittamisen jälkeen opiskelija<br />
• tunnistaa useat inversio-ongelmat<br />
• tietää inversio-<strong>ongelmien</strong> tyypilliset ominaisuudet<br />
• osaa ratkaista yksinkertaisia inversio-ongelmia eksakteilla ja epätarkoilla<br />
arvoilla.<br />
Kirjallisuus:<br />
1. Jari Kaipio, Erkki Somersalo: ”Statistical and computational inverse problems”.<br />
Springer-Verlag (Applied Mathematical Sciences, Vol. 160).<br />
2. Daniela Calvetti, Erkki Somersalo: ”Introduction to Bayesian scientific<br />
computing. Ten lectures on subjective computing”Springer (Surveys and<br />
Tutorials in the Applied Mathematical Sciences, Vol. 2)<br />
i
Sisältö<br />
1 Suorat ongelmat ja inversio-ongelmat 1<br />
1.1 Mitä inversio-ongelmat ovat? . . . . . . . . . . . . . . . . . . . . 1<br />
1.2 Esimerkkejä inversio-ongelmista ja niiden tyypillisistä ominaisuuksista<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />
1.3 <strong>Inversio</strong>-<strong>ongelmien</strong> luokittelua . . . . . . . . . . . . . . . . . . . . 14<br />
1.4 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
2 Hyvin ja huonosti asetetut inversio-ongelmat 17<br />
2.1 Hyvin asetetut inversio-ongelmat . . . . . . . . . . . . . . . . . . 17<br />
2.2 Abstrakti kuvailu . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2.3 Huonosti asetetut inversio-ongelmat . . . . . . . . . . . . . . . . 19<br />
2.4 Ratkaisun häiriöalttius . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
2.5 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2.6 Liite: Käänteismatriisin singulaariarvot . . . . . . . . . . . . . . . 29<br />
3 Likimääräisratkaisut ja regularisaatio 31<br />
3.1 Pienimmän neliösumman menetelmä . . . . . . . . . . . . . . . . 31<br />
3.2 Tikhonovin regularisaatio . . . . . . . . . . . . . . . . . . . . . . 35<br />
3.3 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
4 Tilastolliset inversio-ongelmat 43<br />
4.1 Lyhyesti todennäköisyyslaskennasta . . . . . . . . . . . . . . . . 43<br />
4.1.1 Todennäköisyyslaskennan mittateoreettinen pohja . . . . 44<br />
4.1.2 Satunnaismuuttujista . . . . . . . . . . . . . . . . . . . . 44<br />
4.1.3 Todennäköisyyslaskennan tulkinnat . . . . . . . . . . . . 45<br />
4.1.4 Tiheysfunktiot . . . . . . . . . . . . . . . . . . . . . . . . 45<br />
4.1.5 Ehdolliset jakaumat . . . . . . . . . . . . . . . . . . . . . 47<br />
4.1.6 Satunnaisvektorien muunnokset . . . . . . . . . . . . . . . 50<br />
4.1.7 Gaussiset jakaumat . . . . . . . . . . . . . . . . . . . . . . 51<br />
4.2 Moniulotteinen Riemann-integraali . . . . . . . . . . . . . . . . . 53<br />
4.3 Tilastollinen inversio-ongelma . . . . . . . . . . . . . . . . . . . . 54<br />
4.3.1 Bayesian kaava. Priori- ja posteriorijakaumat . . . . . . . 55<br />
4.3.2 Uskottavuusfunktio f Y (y|X = x) . . . . . . . . . . . . . . 57<br />
4.3.3 Priori f pr (x) . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
4.4 Erilaisia priorijakaumia . . . . . . . . . . . . . . . . . . . . . . . 61<br />
4.5 Posteriorijakauman tutkiminen . . . . . . . . . . . . . . . . . . . 71<br />
4.5.1 Päätösteoriaa . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />
4.5.2 Huonosti asetetut ja häiriöherkät lineaariset ongelmat . . 74<br />
iii
4.6 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />
iv
Luku 1<br />
Suorat ongelmat ja<br />
inversio-ongelmat<br />
<strong>Inversio</strong>-ongelmat ovat osa sovellettua matematiikkaa, mutta matka puhtaaseen<br />
matematiikkaan on lyhyt sillä matemaattiset inversio-ongelmat ovat sangen<br />
abstrakteja. Jopa matematiikan alan arvostetuimmassa lehdessä ”Annals<br />
of Mathematics”on inversio-ongelmia koskevia julkaisuja. Erityisesti inversioongelmiin<br />
erikoistuneita tieteellisiä lehtiä ovat: Inverse Problems (IP), Inverse<br />
Problems and Imaging (IPI), Journal of Inverse and Ill-posed Problems ja Inverse<br />
Problems in Science and Engineering. Näitä lehtiä voi lukea <strong>Oulu</strong>n yliopiston<br />
kirjaston Nelli-portaalin kautta (myös etäkäytöllä).<br />
1.1 Mitä inversio-ongelmat ovat?<br />
<strong>Inversio</strong>-ongelmissa pyritään saamaan tietoa tuntemattomista kohteista epäsuorien<br />
ja usein epätarkkojen havaintojen avulla. Esimerkkejä tutuista inversioongelmista<br />
ovat lääketietelliset kuvantamismenetelmät (ultraäänikuvaus, tietokonekerroskuvaus),<br />
kuvan terävöittäminen kuvankäsittelyssä ja sateen havainnointi<br />
säätutkalla. Tällä kurssilla tutustutaan matemaattisiin inversio-ongelmiin<br />
sekä yksinkertaisten inversio-<strong>ongelmien</strong> käytännön ratkaisumenetelmiin.<br />
<strong>Inversio</strong>-ongelman eli käänteisongelman nimitys tulee siitä että ensin on tunnettava<br />
suora ongelma, joka kertoo kuinka data y riippuu kiinnostuksen kohteena<br />
olevasta suureesta x. Usein data saadaan hyödyntämällä jotakin fysikaalista<br />
ilmiötä ja suora ongelma on kyseistä ilmiötä selittävä fysikaalinen teoria: sanotaan<br />
vaikka kuvaus x ↦→ F(x) = y. <strong>Inversio</strong>-ongelmassa kysytään, mikä suure x<br />
on tuottanut datan y. Maallikkotermein asian voi selittää seuraavasti:<br />
• Suora ongelma: Syistä seurauksiin.<br />
• <strong>Inversio</strong>-ongelma: Seurauksista syihin.<br />
Yksinkertaistettuna kysymys on käänteiskuvauksen F −1 määräämisestä, mutta<br />
tulemme näkemään että ratkaisu ei ole aivan niin mutkatonta.<br />
1
1.2 Esimerkkejä inversio-ongelmista ja niiden tyypillisistä<br />
ominaisuuksista<br />
Esimerkki 1<br />
Suora ongelma: Laske samalla rivillä, samalla sarakkeella ja samaa väriä olevien<br />
lukujen summat.<br />
? ? ? ? ?<br />
? 1 5 7 ?<br />
? 4 3 8 ?<br />
? 6 2 9 ?<br />
<strong>Inversio</strong>-ongelma: Määrää luvut, joiden rivi-, sarake- ja värisummat on annettut.<br />
3 11 10 24 10<br />
13 ? ? ? 13<br />
15 ? ? ? 9<br />
17 ? ? ? 10<br />
<strong>Inversio</strong>-ongelmat ovat usein vaikeanpia kuin suorat ongelmat.<br />
Esimerkki 2<br />
Suora ongelma: Määrää funktio f ∈ C 1 (0, 1), kun sen derivaatta f ′ (t) = 3t 2 ja<br />
alkuarvo f(0) = 0 on annettu.<br />
<strong>Inversio</strong>-ongelma: Määrää funktion f ∈ C 1 (0, 1) derivaatta f ′ kun<br />
f(t) =<br />
∫ t<br />
0<br />
f ′ (s)ds = t 3<br />
on annettu.<br />
Tämä on helppoa, mutta vaikeuksia syntyy jos annettu integraalifunktio<br />
tunnetaan epätarkasti. Esim. jos annettu data ei ole t 3 vaan<br />
niin sen derivaatta onkin<br />
g(t) =<br />
∫ t<br />
0<br />
f ′ (s)ds + 1<br />
100 sin(100t),<br />
g ′ (t) = 3t 2 − cos(100t).<br />
<strong>Inversio</strong>-<strong>ongelmien</strong> ratkaisut ovat usein herkkiä datassa esiintyville<br />
pienille häiriöille.<br />
2
1.2<br />
1<br />
tarkka data<br />
epätarkka data<br />
4<br />
3.5<br />
3<br />
tarkka ratkaisu<br />
epätarkka ratkaisu<br />
0.8<br />
2.5<br />
0.6<br />
2<br />
1.5<br />
0.4<br />
1<br />
0.2<br />
0.5<br />
0<br />
0<br />
−0.5<br />
−0.2<br />
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />
−1<br />
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />
Kuva 1.1: Häiriöinen data g ei paljon eroa tarkasta datasta f.... mutta vastaavat<br />
ratkaisut eroavat!<br />
Esimerkki 3<br />
Kuvan terävöittämisessä pyritään muodostamaan sumeasta valokuvasta yksityiskohtaisempi<br />
valokuva.<br />
Suora ongelma: Tee terävästä valokuvasta sumeampi valokuva.<br />
<strong>Inversio</strong>-ongelma: Tee sumeasta valokuvasta terävämpi valokuva<br />
Suora ongelma<br />
<strong>Inversio</strong>-ongelma<br />
Mustavalkoinen digitaalinen valokuva voidaan esittää matriisina<br />
M ∈ R n×m ,<br />
jonka elementit M ij kuvaavat pikseleiden väriä: mitä suurempi luku on sitä<br />
vaaleampi pikselin väri on (katso kuvat 1.3 ja 1.3).<br />
3
Kuva 1.2: Mustavalkoinen valokuva koostuu pikseleistä: suorakaiteen muotoisista<br />
yksivärisistä kuvaelementeistä.<br />
10<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
Kuva 1.3: Esimerkki 9×9-matriisin kuvapikseleistä ja harmaasävyjä vastaavista<br />
lukuarvoista.<br />
Kuvan sumentamista voidaan mallintaa normitetulla Gaussisella konvoluutiolla<br />
(valitaan n = m yksinkertaisuuden vuoksi)<br />
˜M kl = C kl<br />
n ∑<br />
i,j=1<br />
e −(|k−i|2 /n 2 +|l−j| 2 /n 2 )/2σ 2 M ij ,<br />
missä k, l = 1, ..., n ja normitusvakio<br />
⎛<br />
⎞<br />
n∑<br />
C kl = ⎝ e −(|k−i|2 /n 2 +|l−j| 2 /n 2 )/2σ 2 ⎠<br />
i,j=1<br />
Jokaisen pikselin arvo M kl kuvautuu pikselien painotetuksi keskiarvoksi ˜M kl .<br />
Eniten painoa on kyseisen pikselin ja sen viereisten pikselien arvoilla.<br />
Suora ongelma: Määrää ˜M kun M tunnetaan.<br />
4<br />
−1<br />
.
<strong>Inversio</strong>-ongelma: Määrää M kun ˜M tunnetaan.<br />
Pienessä kuvassa n, m = 256, mutta korkealaatuisissa kuvissa n ja m ovat<br />
useita tuhansia, jolloin matriisissa on miljoonia elementtejä. <strong>Inversio</strong>-ongelmissa<br />
tuntemattomat ovat usein korkeaulotteisten avaruuksien vektoreita.<br />
Esimerkki 4<br />
Säätutka lähettää sähkömagneettisia pulsseja mikroaaltotaajudella (5600-5650<br />
Mhz, aallonpituus n. 5.3 cm). Pulssit heijastuvat takaisin esteistä, esimerkiksi<br />
sadepisaroista ja lumihiutaleista. Säätutka vastaanottaa heijastuneet pulssit,<br />
joiden matka-ajoissta saadaan selville sadepisaroiden etäisyys. Heijastuneen<br />
pulssin voimakkuudesta (tehosta) saadaan selville sateen voimakkuus. Dopplertutka<br />
kertoo myös sadepisaroiden nopeuden taajuudessa tapahtuvan Dopplersiirtymän<br />
avulla. Sadepisaroista saadaan kaikuja aina 250 km päästä. Mittauksia<br />
tehdään eri suuuntiin antennia liikuttamalla.<br />
Suora ongelma: Määrää heijastunut kaiku kun sadepisaroiden paikka ja nopeus<br />
tunnetaan.<br />
<strong>Inversio</strong>-ongelma: Määrää sadepisaroiden jakauma ja nopeus kun niistä heijastunut<br />
kaiku tunnetaan.<br />
Lähetetty signaali on funktio<br />
φ(t) = Pe(t)sin(ω 0 t),<br />
5
missä ω 0 on kantotaajuus, P on lähetetyn pulssin teho ja e(t) kuvaa pulssin<br />
muotoa. Kappaleen liikettä kuvaa yhtälö<br />
r(t) = x 2 + x 3 t + 1 2 x 4t 2 ,<br />
missä x 2 on kappaleen etäisyys tutkasta, x 3 on kappaleen nopeus ja x 4 on kappaleen<br />
kiihtyvyys. Vastaanotettua signaalia kuvaa yhtälö<br />
(<br />
z(t) = x 1 φ t − 2 ) (<br />
c x 2 exp −i2 ω 0<br />
c (x 3t + 1 )<br />
2 x 4t 2 ) + ǫ(t),<br />
missä x 1 on heijastuneen pulssin teho, c on valonnopeus ja ǫ(t) on mittauskohinaa.<br />
Heijastuneen aallon teho toteuttaa tutka-yhtälön (eng. radar equation)<br />
x 1 = CPσ<br />
(4π) 2 x 4 ,<br />
2<br />
missä C on tutkasta riippuva vakio ja takaisinsirontapinta-ala (eng. radar cross<br />
section) σ riippuu kappaleen koosta ja heijastavuudesta.<br />
Kuva 1.4: Ilmatieteen laitoksen kuva säätutkahavainnoista.<br />
<strong>Inversio</strong>-ongelmissa käytetään usein epäsuoraa tietoa tuntemattomista<br />
kohteista.<br />
Muita tutkasovelluksia:<br />
• Avaruusromun kartoitus (maanpinnalta lähetetty sähkömagneettinen pulssi<br />
heijastuu hukatuista työkaluista, pirstoutuneista satelliiteista ja rakettiromusta,<br />
joka putoaa hitaaaasti kohti maata). Esimerkiksi kansainvälinen<br />
avaruusasema ISS joutuu väistämään putoavaa romua pari kertaa vuodessa.<br />
• Kuun kaukokartoitus (maanpinnalta lähetetty sähkömagneettinen pulssi<br />
heijastuu kuusta).<br />
6
• Ionosfäärin tutkimus (revontulet, aurinkomyrskyn vaikutukset). Hyödynnetään<br />
epäkoherenttia sirontaa: tutkasignaali saa ionosfäärin plasman värähtelemään,<br />
jolloin syntyy heikko sähkömagneettinen signaali, joka voidaan<br />
vastaanotttaa maanpinnalla. Taajuus satoja megahertsejä.<br />
• Maaperätutka. Toimii mikroaaltotaajuuksilla.<br />
Esimerkki 5<br />
Lääketieteellisessä tietokonetomografiakuvauksessa(tietokonekerroskuvaus) muodostetaan<br />
röntgenkuvien avulla kuva, rekonstruktio, potilaan sisäosista. Eri kudokset<br />
vaimentavat röntgensäteilyä eri voimakkuudella. Kun vaimenemisen suuruus<br />
mitataan useasta eri suunnasta, saadaan muodostettua poikkieikkauskuva<br />
kehon sisärakenteesta – tarkemmin sanottuna massa-absorptiokertoimien vaihtaluista.<br />
Kuva 1.5: Tietokonekerroskuvauslaite (kuva: Siemens Press Picture).<br />
Olkoon f = f(x, y) ≥ 0 paloittain jatkuva funktio, joka esittää massaabsorptiokerrointa<br />
pisteessä (x, y) ∈ R 2 . Oletetaan, että f(x, y) = 0 kun (x, y) /∈<br />
D ja D sisältyy tason r−säteiseen origokeskiseen palloon B(0, r). Suoraa x = y<br />
pitkin kulkevan röntgensäteen absorptiota vastaa funktion f integraali pitkin<br />
suoraa y = x eli tarkemmin<br />
( ) ∫ r I0<br />
ln = − f(x, x)dx,<br />
I 1 −r<br />
missä I 0 on lähetetyn röntgensäteilyn intensiteetti ja I 1 on vastaanotettu intensiteetti<br />
(Beerin ja Lambertin laki).<br />
Suora ongelma: Kun funktio f tunnetaan, laske integraalit<br />
pitkin eri suoria.<br />
∫ r<br />
−r<br />
f(x, ax + b)dx.<br />
7
<strong>Inversio</strong>-ongelma: Määrää funktio f kun sen integraalit<br />
pitkin eri suoria tunnetaan.<br />
∫ r<br />
−r<br />
f(x, ax + b)dx<br />
y<br />
r<br />
Suora y = x<br />
-r r<br />
x<br />
D<br />
-r<br />
Kuva 1.6: Tomografiakuvaus: funktion f integraalit lasketaan pitkin eri suoria.<br />
Käytännössä mittauksia ei voi tehdä jokaista suoraa pitkin, vaan mittaussuuntia<br />
on rajallinen määrä. Mitä vähemmän mittaussuuntia on käytössä, sitä<br />
vähemmän tietoa on saatavilla tuntemattomasta funktiosta. Ongelmana on, että<br />
useilla eri funktioilla voi olla samat integraalit. Esim. jos f(x, y) = x 2 + y 2<br />
kun (x, y) ∈ B(0, 1) jaf(x, y) = 0 muulloin, niin sen integraali pitkin suoraa<br />
y = 0 ( tai pitkin mitä tahansa origon kautta kulkevaa suoraa y = ax), on<br />
∫ 1<br />
−1<br />
x 2 dx = 2 3<br />
joka on sama kuin funktion f(x, y) = 1 3<br />
integraali pitkin samaa suoraa.<br />
Tomografiakuvauksessa datan rajallisuutta kompensoidaan rajoittamalla ratkaisun<br />
muotoa: Oletetaan esimerkiksi, että<br />
n∑<br />
f(x, y) = a i φ i (x, y),<br />
i=1<br />
missä n on kiinnitetty luku, funktiot φ i ovat tunnettuja ja kertoimet a i ∈ R<br />
ovat tuntemattomia. Funktiot φ i (x, y), i = 1, .., n voivat olla esimerkiksi pistevieraiden<br />
neliöiden karakteristisia funktioita (kuvan pikseleitä)<br />
{<br />
1 kun (x, y) ∈ I i<br />
φ i (x, y) =<br />
0 muulloin.<br />
Luku a i voidaan esittää siilloin esim. harmaasävyskaalan värinä.<br />
Käytännön inversio-ongelmissa rekonstruktio (eli kuvan muodostaminen<br />
tuntemattomasta kohteesta) on tehtävä jollakin tapaa rajallisesta<br />
määrästä dataa. Käytännön inversio-ongelmissa approksimoidaan<br />
tuntemattomia usein äärellisulotteisten vektoreiden avulla.<br />
8
Kuva 1.7: Neliö I i .<br />
10<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
Kuva 1.8: Esimerkki harmaasävykuvasta ja värillisestä kuvasta.<br />
Kuva 1.9: Tietokonekerroskuva: eri harmaasävyt vastaavat funktion f eri arvoja.<br />
(kuva: Siemens Press Picture).<br />
Esimerkki 6<br />
Impedanssitomografiassa (eng. electrical impedance tomography, EIT) sähköiset<br />
mittaukset kappaleen pinnalla antavat tietoa kappaleen sisärakenteesta (mate-<br />
9
ian sähkönjohtavuudesta). Kappaleeseen voidaan syöttää jännite ja mitata virtaa<br />
tai syöttää virtaa ja mitata jännitettä.<br />
Virta<br />
Jännite<br />
D<br />
Kuva 1.10: Jännite-virta mittaukset kappaleesta D.<br />
Olkoon u jännite kappaleessa D ja oletetaan, että pinnalle on asetettu jännite<br />
f. Olkoon kappaleen D sähkönjohtavuus σ ∈ C ∞ ( ¯D). Silloin funktio u ∈<br />
C 2 (D) ∩ C 1 ( ¯D) toteuttaa yhtälöt<br />
∇ · (σ∇u)(x) = 0, x ∈ D<br />
u(x) = f(x), x ∈ ∂D<br />
Pinnalla mitattava virta g(x) saadaan jännitteestä u kaavalla<br />
g(x) = σ(x)n(x) · ∇u(x), x ∈ ∂D,<br />
missä n(x) on kappaleen D pinnan (ulospäin suunnattu) normaalivektori.<br />
Suora ongelma: Määrää g kun σ ja f on annettu.<br />
<strong>Inversio</strong>-ongelma: Määrää σ kun g tunnetaan jokaisella f ∈ C 1 (∂D).<br />
Mihin soveltuu:<br />
• Lääketieteellinen kuvantaminen (sydämen ja keuhkojen toiminta).<br />
• Ainetta rikkomaton testaus (esim. vauvanruokapurkkien eheyden tarkistus,<br />
lentokoneen siipien korroosiovaurioiden tarkistus, siltojen betoniraudoitusten<br />
tutkiminen).<br />
• Teollisuuden prosessien valvonta (esim. säiliön sisällä olevan seoksen tasaisuuden<br />
tarkkailu).<br />
10
Tällä ongelmalla on olemassa myös karkea versio jota hyödynnetään kaupallisesti<br />
– sähköinen kehonkoostumusmittaus (eng. bioelectrical impedance analysis).<br />
Siinä mittausperiaate on sama: kehoon johdetaan vähäistä virtaa ja mitataan<br />
sen aikaansaama jännite. Erona EIT:hen on, että tarkan suoran teorian<br />
sijaan käytetään tiettyjen parametrien sovituksia karkeisiin yhtälöihin. Tärkein<br />
näistä parametreistä on kehossa olevan veden määrä. Esitietona tarvitaan henkilön<br />
pituus (henkilöä approksimoidaan sen jälkeen samanpituisena sylinterinä,<br />
jonka tilavuus kertoo kehossa olevan veden määrän...). Mitatusta jännitteestä<br />
lasketaan sylinterin sisältämä veden määrä. Käytettyjä yhtälöitä on pyritty<br />
tarkentamaan ottamalla lisää parametreja huomioon, kuten henkilön iän, sukupuolen<br />
ja painon sekä käyttämällä eritaajuisia sähkövirtoja.<br />
<strong>Inversio</strong>-<strong>ongelmien</strong> avulla on mahdollista saada tietoa sellaisistakin<br />
kohteista jotka eivät muutoin ole näkyvissä tai tavoitettavissa.<br />
Esimerkki 7<br />
Lääketieteellisessä ultraäänikuvauksessa muodostetaan kuva potilaan sisäosista<br />
ääniaaltojen avulla. Periaate on seuraava: potilaan sisälle lähetetään kapea<br />
äänipulssi (taajuus 2-15 MHz), joka heijastuu osittain takaisinpäin kehon eri<br />
kudosten rajapinnoista. Takaisinsironnut pulssi vastaanotetaan ja muunnetaan<br />
kirkkausarvoiksi. Tämä toistetaan eri mittaussuoria pitkin. Eräs ultraääniku-<br />
Kuva 1.11: Ultraäänikuvauksen periaate 1. Pulssi heijastuu rajapinnoista. Tässä<br />
samanväriset alueet ovat täysin homogeenisia.<br />
vauksen yksinkertaistuksista on olettaa, että ääni kulkee vakionopeudella kehossa,<br />
vaikka eri kudoksilla on erilaiset äänennopeudet. Tästä johtuen ultraäänikuvissa<br />
olevien kohteiden koko on vääristynyt. Lisäksi malli ei ota huomioon<br />
monitie-etenemistä eikä aaltojen taittumista, jolloin kuvassa oleva kohde ei välttämättä<br />
ole todellisella paikallaan. Hyvin epätasaiset rajapinnat tekevät kuvasta<br />
lisäksi täplikkään.<br />
11
1.5<br />
1<br />
0.5<br />
0<br />
−0.5<br />
−1<br />
−1.5<br />
0 0.2 0.4 0.6 0.8 1<br />
Kuva 1.12: Ultraäänikuvauksen periaate 2. Taaksepäin sironnut pulssi (kuvassa<br />
sininen käyrä) vastaanotetaan ja muunnetaan alla oleviksi kirkkausarvoiksi<br />
verhokäyrän (eng. envelope, kuvassa punainen käyrä) avulla.<br />
Ultraäänikuvauksen tarkempi matemaattinen malli on ääniaaltojen eli akustisten<br />
aaltojen etenemistä väliaineessa kuvaava malli. Aika-harmonista akustista<br />
aaltoa kappaleessa D ⊂ R n voidaan kuvata yhtälöllä<br />
∆u(x) + ω2<br />
c 2 u(x) = 0, x ∈ D,<br />
(x)<br />
missä ω on taajuus ja c(x) on äänen nopeus väliaineessa. Lähetettävää ääntä<br />
kuvataan yhtälöllä<br />
n · ∇u(x) = f(x), x ∈ ∂D,<br />
missä n on pinnan D normaalivektori. Pinnalla vastaanotettua ääntä kuvataan<br />
yhtälöllä<br />
g(x) = u(x), x ∈ ∂D.<br />
Funktion u(x) yhteys ajasta riippuvaan fysikaaliseen äänen paineeseen p(x, t)<br />
saadaan kaavasta p(x, t) = Re u(x)e −iωt .<br />
Suora ongelma: Määrää u kun funktiot c ja f on annettu.<br />
<strong>Inversio</strong>-ongelma: Määrää c kun g tunnetaan eri funktioilla f.<br />
<strong>Inversio</strong>-ongelmissa käytetään matematiikkaa myös erilaisten kuvantamismenetelmien<br />
parantamiseksi.<br />
Samaa akustista yhtälöä voidaan käyttää seismisten eli maan tärinää kuvaavien<br />
aaltojen etenemisen kuvaamiseen. Maankuoren rakennetta voidaan kartoittaa<br />
täristämällä maanpintaa koneellisesti (tai räjäytyksien avulla) ja mittaamalla<br />
maankuoren epähomogeenisuuksista sironnutta aaltoa maan pinnalla.<br />
Ääniaallot kulkevat hyvin myös vedessä, jolloin puhutaan kaikuluotaimista<br />
eli sonareista.<br />
12
Esimerkki 8<br />
Käänteisessä sirontaongelmassa (eng. inverse scattering problem) lähetetetään<br />
sähkömagneettinen tai akustinen aalto joka edetessään kohtaa tuntemattoman<br />
kappaleen tai väliaineen. Tuntematon poikkeama muuttaa lähetettyä aaltoa, jolloin<br />
syntyy sironnut aalto. Sironnutta aaltoa havainnoidaan etäällä tuntemattomasta<br />
poikkeamasta.<br />
Matemaattisesti väliaineesta tapahtuvaa sähkömagneettista sirontaa<br />
voidaan kuvata seuraavasti. Olkoon E = E(x, t) ∈ C 2 (R 2 × R + ;R 3 ) ja H =<br />
H(x, t) ∈ C 2 (R 2 × R + ;R 3 ) sähkömagneettisen aallon sähkökenttä ja magneettikenttä.<br />
Isotrooppisessa väliaineessa nämä kentät toteuttavat Maxwellin yhtälöt<br />
Aikaharmonisessa tapauksessa<br />
∂H<br />
∇ × E(x, t) + µ 0 (x, t) = 0<br />
∂t<br />
∇ × H(x, t) − ǫ(x) ∂E (x, t) = σ(x)E (x, t).<br />
∂t<br />
E(x, t) = ǫ − 1 2<br />
0 E(x)e −iωt , H(x, t) = µ − 1 2<br />
0 H(x)e −iωt ,<br />
missä ω on aallon taajuus ja ǫ 0 ja µ 0 tyhjiön permittiivisyys ja permeabiliteetti.<br />
Aikaharmoniset Maxwellin yhtälöt ovat<br />
missä heijastuskerroin<br />
∇ × E(x) − ikH(x) = 0 (1.1)<br />
∇ × H(x) + ikn(x)E(x) = 0 (1.2)<br />
n(x) = 1 (<br />
ǫ(x) + i σ(x) )<br />
ǫ 0 ω<br />
riippuu väliaineesta ja k = ω √ ǫ 0 µ 0 .<br />
Olkoon E i ja H i aikaharmonsen Maxwellin yhtälöiden ratkaisu tyhjiössä<br />
(jolloin ǫ ≡ ǫ 0 ja σ ≡ 0) – tätä kutsutaan lähetetuksi aalloksi. Kun lähetetty<br />
aalto kohtaa epähomogeenisen väliaineen, se siroaa. Lähetetyn aallon ja sironneen<br />
aallon summa E = E i + E s , H = H i + H s toteuttaa epähomogeenisen<br />
aineen Maxwellin yhtälöt (1.1) ja (1.2). Lisäksi vaaditaan säteilyehto:<br />
tasaisesti joka suuntaan x<br />
|x| .<br />
lim<br />
|x|→∞ (Hs × x − |x|E s ) = 0<br />
Suora ongelma: Määrää E s ja H s kun E i ja H i sekä n(x) on annettu.<br />
<strong>Inversio</strong>-ongelma: Määrää n(x) kun H s ja E s tunnetaan kaukana sirottavasta<br />
väliaineesta annetuilla E i ja H i .<br />
Akustista sirontaongelmaa kuvaavat yhtälöt<br />
u(x) = u i (x) + u s (x)<br />
∆u(x) + ω2<br />
c 2 (x) u(x) = 0, x ∈ Rn ,<br />
13
ja potentiaalisirontaa (eli kvanttimekaanista sirontaa) kuvaavat yhtälöt<br />
u(x) = u i (x) + u s (x)<br />
∆u(x) + V (x)u(x) + k 2 u(x) = 0, x ∈ R n ,<br />
( )<br />
n−1 x<br />
lim |x| 2<br />
|x|→∞ |x| · ∇us (x) − iku s (x) = 0 tasaisesti joka suuntaan x<br />
|x|<br />
missä k on nk. aaltoluku. Käänteisissä sirontaongelmissa pyritään määräämään<br />
funktiot c(x) ja V (x) kun u s tunnetaan kaukana tuntemattomasta sirottajasta.<br />
Kuva 1.13: Sironnan periaate. Tuleva kenttä u i saa aikaan sironneen kentän u s .<br />
Koko kenttä u = u i + u s .<br />
Kappalesironnassa lähetetty aalto ei pääse tuntemattoman kappaleen läpi<br />
vaan sironta määräytyy kappaleen reunan muodon ja materiaalin mukaan. Sitä<br />
kuvaavat esimerkiksi yhtälöt<br />
u(x) = u i (x) + u s (x)<br />
∆u(x) + k 2 u(x) = 0, x ∈ R 3 \D,<br />
u(x) = 0, x ∈ ∂D,<br />
( )<br />
x<br />
lim |x|<br />
|x|→∞ |x| · ∇us (x) − iku s (x)<br />
= 0 tasaisesti joka suuntaan x<br />
|x|<br />
Käänteisessä kappalesironnassa pyritään määräämään kappaleen sijainti.<br />
Käänteiset sironta-ongelmat (eng. inverse scattering problem) ovat<br />
matematiikaltaan haastavia.<br />
1.3 <strong>Inversio</strong>-<strong>ongelmien</strong> luokittelua<br />
(A) Matemaattiset inversio-ongelmat. Esimerkiksi.<br />
– Sirontaongelmat (kappalesironta, sironta väliaineesta, potentiaalisironta,<br />
data yhdellä tai usealla taajuudella)<br />
14
– Käänteiset reuna-arvo-ongelmat<br />
– Matemaattinen tomografia (myös matka-aikatomografia)<br />
– Alkuarvojen määrääminen<br />
– Käänteiset ominaisarvo-ongelmat.<br />
(B) Käytännönläheiset ja laskennalliset inversio-ongelmat. Esimerkiksi<br />
– Kuvankäsittely<br />
– Kaukokartoitus (=etäällä olevien kohteiden kuvantaminen epäsuorien<br />
menetelmien avulla)<br />
– Lääketieteellinen kuvantaminen<br />
– Ainetta rikkomaton testaus<br />
– Retrospektiiviset eli menneisyyteen liittyvät ongelmat (esim. mistä<br />
saastehiukkaset ovat kulkeutuneet)<br />
– Biologiset inversio-onglmat (esim. Fylogeneettinen ongelma: Määrää<br />
DNA-erojen perusteella missä järjestyksessä nykyiset lajit ovat eriytyneet<br />
toisistaan eli piirrä lajien evoluutiopuu.)<br />
<strong>Inversio</strong>-ongelmian sovellusalueita ovat mm.<br />
• Geologinen tutkimus (malmi- ja öljyvarojen kartoitus, maankuoren tutkimus,<br />
maanjäristysten analysointi)<br />
• Lääketiede (kuvantaminen, metabolisten prosessien parametrien kääntäminen<br />
verinäytteistä, etc.)<br />
• Maapallon tilan seuraaminen (otsonimittaus, epäsuorat lämpötilamittaukset,<br />
etc..)<br />
• Tähtitiede ja astronomia (epäsuorat havainnot planeetoista, asterodeista,<br />
auringosta, galakseista etc.).<br />
• Taloustiede (mallien parametrien määrääminen).<br />
• Teollisuuden laadunvalvonta.<br />
1.4 Yhteenveto<br />
<strong>Inversio</strong>-ongelmissa pyritään saamaan tietoa tuntemattomista kohteista epäsuorien<br />
havaintojen avulla. <strong>Inversio</strong>-ongelmat voidaan jakaa matemaattisiin ja käytännönläheisiin<br />
ongelmiin ja niitä tavataan useilla eri aloilla. Tyypilliset ominaisuudet:<br />
• vaikeampia kuin suorat ongelmat.<br />
• herkkiä datan häiriöille<br />
• käytännön inversio-ongelmissa datan määrä on rajallinen<br />
• usein epälineaarisia<br />
15
Luku 2<br />
Hyvin ja huonosti asetetut<br />
inversio-ongelmat<br />
2.1 Hyvin asetetut inversio-ongelmat<br />
Ryhdytään tarkastelemaan inversio-ongelmia vektoriavaruuksissa R n . Vektoriavaruus<br />
soveltuu hyvin tuntemattomien kuvailuun käytännön inversio-ongelmissa,<br />
sillä usein tavoitteena on muodostaa kuva tuntemattomasta kohteesta. Jos kuvassa<br />
on m × m pikseliä, niin tuntematon voidaan kuvata vektorina, jonka dimensio<br />
on n = m 2 .<br />
Lineaarinen vektoriavaruus R n , n ≥ 1 varustetaan tavanomaisella topologialla,<br />
jossa a-keskinen r-säteinen avoin pallo, missä a = (a 1 , ..., a n ) ∈ R n ja<br />
r > 0, on muotoa<br />
B(a, r) = {x ∈ R n : |x − a| < r}.<br />
Vektorin x = (x 1 , .., x n ) ∈ R n pituus |x| on<br />
∑<br />
|x| = √ n |x i | 2 .<br />
i=1<br />
Olkoon D ⊂ R n . Palautetaan mieleen, että funktio F : D ⊂ R n → R m on<br />
jatkuva pisteessä x 1 ∈ D jos jokaisella ǫ > 0 on olemassa sellainen δ > 0 että<br />
ehdoista x 2 ∈ D ja |x 1 − x 2 | < δ seuraa |F(x 1 ) − F(x 2 )| < ǫ.<br />
Seuraava määritelmä on inversio-<strong>ongelmien</strong> kannalta tärkeä.<br />
Määritelmä 1 (Jacques Hadamard, 1865-1963). Ongelma on hyvin asetettu<br />
(eng. well-posed), jos<br />
1. Ongelmalla on ratkaisu.<br />
2. Ratkaisu on yksikäsitteinen.<br />
3. Ratkaisu riippuu annetusta datasta jatkuvasti.<br />
Määritellään joukko<br />
V = {x ∈ R n : x on mahdollinen tuntematon }<br />
17
Jos suora ongelma ”määrää (vapaasti valittua) vektoria x ∈ V vastaava data<br />
y ∈ R m ”on hyvin asetettu, niin jokaista mahdollista tuntematonta x ∈ V vastaa<br />
yksi datavektori y ∈ R m . Voimme silloin määritellä funktion<br />
F : V → R m ,<br />
joka kuvaa tuntemattoman x ∈ V sitä vastaavaksi dataksi y ∈ R m . Funktiota<br />
F kutsutaan suoraksi teoriaksi (eng. direct theory, forward mapping). Kohdan<br />
3. mukaan F : V → R m on jatkuva.<br />
Oletetaan, että tunnetaan suora teoria F : V → R m . Olkoon lisäksi W ⊂<br />
R m annettu. Ryhdytään tarkastelemaan suoraa ongelmaa vastaavaa inversioongelmaa:<br />
Määrää x ∈ V kun (vapaasti valittu) y = F(x) ∈ W ⊂ R m on annettu.<br />
Milloin tämä inversio-ongelma on hyvin asetettu? Kohdat 1. ja 2. edellyttävät<br />
inversio-ongelman yksikäsitteistä ratkeavuutta; kuvauksen F : V → W on<br />
oltava sekä surjektio että injektio. Tällöin käänteiskuvaus F −1 on olemassa ja<br />
sen määrittelyjoukko on koko W.<br />
Kolmas vaatimus – käänteiskuvauksen jatkuvuus– tähtää stabiilisuuteen: jos<br />
ongelma on hyvin asetettu, niin riittävän pieni häiriö datassa ei aiheuta suuria<br />
muutoksia ratkaisuun. Ehdon 3 nojalla F −1 on jatkuva pisteessä y 1 ∈ W jolloin<br />
annetulla ǫ > 0 löytyy sellainen δ > 0, että |F −1 (y 1 ) − F −1 (y 2 )| < ǫ aina kun<br />
y 2 ∈ W ja |y 1 − y 2 | < δ. Erityisesti jos näissä epäyhtälöissä y 1 = F(x 1 ) jollakin<br />
x 1 ∈ V ja y 2 ∈ W on muotoa<br />
y 2 = F(x 1 ) + e,<br />
missä |e| < δ, niin vastaaville ratkaisuille pätee<br />
|F −1 (y 1 ) − F −1 (y 2 )| = |x 1 − F −1 (F(x 1 ) + e)| < ǫ.<br />
<strong>Inversio</strong>-ongelma on hyvin asetettu, jos sillä on olemassa yksikäsitteinen stabiili<br />
ratkaisu.<br />
2.2 Abstrakti kuvailu<br />
Palataan hetkeksi hiukan yleisempien inversio-<strong>ongelmien</strong> pariin, joissa tuntematon<br />
f ja data g voivat olla myös funktioita. Olkoot V 1 ja V 2 kaksi vektoriavaruutta,<br />
jotka on varustettu normeilla ‖·‖ 1 ja ‖·‖ 2 . Olkoon kuvaus R : V 1 → V 2<br />
suora teoria, joka vie tuntemattoman vektorin f ∈ V 1 sitä vastaavaksi dataksi<br />
R(f) = g ∈ V 2 . Suora ongelma on määrätä g = R(f). Vastaavan inversioongelman<br />
ratkaisu voidaan jakaa seuraaviin osaongelmiin.<br />
1. Identifioitavuus.<br />
Ratkaisun yksikäsitteisyyden näyttäminen eli kuvauksen R injektiivisyys.<br />
Vastaa kysymykseen: Onko data periaatteessa riittävä ratkaisun määräämiseksi?<br />
Yleensä ensimmäinen askel matemaattisessa inversio-ongelmassa.<br />
2. Karakterisointi.<br />
Mikä on kuvauksenăR kuvajoukko? Millaiset datavektorit g vastaavat tuntemattomia<br />
f?<br />
18
3. Stabiilisuus. Miten pienet häiriöt datassa vaikuttavat ratkaisuun? Onko<br />
R −1 jatkuva (jollakin joukolla U ⊂ V 2 )?<br />
4. Rekonstruktio.<br />
Kuinka f saadaan annetusta g ∈ Im(R) matemaattisesti selville? Tämä<br />
on toinen tärkeä askel matemaattisen inversio-ongelman ratkaisemisessa.<br />
5. Numeerinen rekonstruktio.<br />
Tarkka tai approksimatiivinen menetelmä ratkaisun numeeriseen määräämiseen<br />
saatavilla olevasta datasta.<br />
Kohdat 1.-3. ovat ekvivalentteja sille että matemaattinen inversio-ongelma<br />
on hyvin asetettu. Kohta 4. antaa matemaattisen konstruktion tuntemattoman<br />
selvittämiseksi datasta.<br />
Jo kohdat 1. ja 4. osoittavat, että ongelma on matemaattisesti ratkaistavissa<br />
jolloin on mahdollista edetä suoraan kohtaan 5.<br />
Kohta 5 on usein lähes uusi ongelma. Vaikka matemaattisen inversio-ongelman<br />
ratkaisu osoittaa, että ongelma on järkevästi asetettu ja ratkaisuperiaate tunnetaan,<br />
niiin käytännössä datan rajallisuus ja epätarkkuus voivat tehdä matemaattisen<br />
ratkaisuperiaatteen suoraviivaisen soveltamisen mahdottomaksi. Erityisesti<br />
tämä pätee kun ratkaisu ei ole stabiili. Tällöin käytetään approksimatiivisia<br />
ratkaisumenetelmiä, joihin tutustutaan myöhemmin tällä kurssilla.<br />
Kun haetaan numeerista ratkaisua, tuntematonta funktiota f(t), t ∈ R m<br />
joudutaan usein approksimoimaan joillakin yksinkertaisemmilla funktioilla<br />
f n (t) =<br />
n∑<br />
a n φ n (t),<br />
i=1<br />
missä funktiot φ n ovat tunnettuja, mutta kertoimet a n ∈ R ovat tuntemattomia.<br />
Tuntemattoman approksimaatio saadaan selville, mikäli onnistutaan määräämään<br />
vektori x = (a 1 , ..., a n ) ∈ R n . Approksimaatioissa päädytään yleensä<br />
vektoriarvoisten tuntemattomien inversio-ongelmaan.<br />
2.3 Huonosti asetetut inversio-ongelmat<br />
Määritelmä 2. Jos ongelma ei ole hyvin asetettu, se on huonosti asetettu (eng.<br />
ill-posed).<br />
Tarkastellaan eri vaihtoehtoja:<br />
1. Ratkaisu on olemassa, mutta on epäyksikäsitteinen.<br />
Useampi kuin yksi tuntematon tuottaa saman datan eli y = F(x 1 ) =<br />
F(x 2 ) joillakin tuntemattomilla x 1 ≠ x 2 . Tällöin on järkevää kysyä minkälaisesta<br />
epäyksikäsitteisyydestä on kysyä sekä mahdollisuutta rajoittaa<br />
tai priorisoida mahdollisten tuntemattomien joukkoa jollakin tapaa.<br />
Epäyksikäsitteisyys on varsinkin käytännön inversio-<strong>ongelmien</strong> rasite saatavilla<br />
olevan datan rajallisuuden vuoksi. Tyypillisesti matemaattisen inversioongelman<br />
ratkaisu edellyttää jonkin funktion tuntemista, mutta käytännössä<br />
funktion (approksimatiivisia) arvoja kyetään rekisteröimään vain<br />
19
joissakin pisteissä. Tarkastellaan esimerkiksi yksinkertaista ongelmaa, jossa<br />
pyydetään määräämään funktion f ∈ C 1 (0, 1) derivaatta f ′ = g. Jos<br />
f tunnetaan, niin ratkaisu on yksikäsitteinen. Jos f tunnetaan vain pisteissä<br />
f(t i ), t 1 , ..., t n ∈ [0, 1], niin f voi olla mikä tahansa pisteiden f(t i ),<br />
i = 1, ..., n kautta kulkeva C 1 -funktio. Jokaista dataan sopivaa eri funktiota<br />
f vastaa eri derivaatta g.<br />
Käytännön inversio-ongelmissa tuntematon on usein korkeaulotteisempi<br />
vektori kuin annettu datavektori. Yksinkertainen esimerkki epäyksikäsitteisyydestä<br />
on matriisiyhtälö<br />
y j =<br />
n∑<br />
M ij x j ,<br />
j=1<br />
missä j = 1, ..., m ja n > m. Tällöin tuntemattiomia on n kappaleita ja<br />
niitä sitovia yhtälöitä vain m kappaletta.<br />
2. Ratkaisua ei ole olemassa.<br />
Tähän tilanteeseen voidaan päätyä, jos annettu data sisältää häiriöitä. Ts.<br />
jos esimerkiksi on annettu y = F(x)+e, missä e on tuntematon pieni häiriö<br />
ja y /∈ Im(F). Siitä huolimatta haluttaisiin saada tietoa tuntemattomasta<br />
x.<br />
3. Ratkaisu ei riipu jatkuvasti datasta.<br />
Pienimmätkin häiriöt datassa voivat saada aikaan suuria muutoksia ratkaisuun.<br />
Voi tapahtua erityisesti epälineaarisissa äärellisulotteisissa ongelmissa<br />
ja eräissä funktioita käsittelevissä lineaarisissa inversio-ongelmissa.<br />
Esimerkki 1. Tarkastellaan Fredholmin 1. kertaluvun integraaliyhtälöä<br />
g(x) =<br />
∫ 1<br />
0<br />
K(x, y)f(y)dy, y ∈ [0.1].<br />
siinä tapauksessa, että K : [0, 1] × [0, 1] → R on C 1 -funktio. <strong>Inversio</strong>-ongelma:<br />
Määrää jatkuva funktio f : [0, 1] → R kun jatkuva funktio g : [0, 1] → R on<br />
annettu.<br />
Jos g on jatkuva funktio, joka ei ole derivoituva, niin ratkaisua ei ole olemassa.<br />
Yhtälön oikea puoli on aina derivoituva, sillä<br />
0<br />
d<br />
dx<br />
∫ 1<br />
0<br />
K(x, y)f(y)dy =<br />
∫ 1<br />
0<br />
∂<br />
K(x, y)f(y)dy<br />
∂x<br />
koska erotusosamäärälle pätee<br />
∫ 1<br />
∫<br />
K(x + h, y) − K(x, y)<br />
1<br />
∫ x+h<br />
∂<br />
x 1 K(x ′ , y)dx ′<br />
f(y)dy =<br />
f(y)dy,<br />
h<br />
0 h<br />
missä integrointijärjestystä voidaan vaihtaa.<br />
Esimerkki 2. Olkoon M n×n ∈ R n×n . Milloin ongelma ”määrää sellainen x ∈<br />
R n , että Mx = y, missä y ∈ R n on annettu”on huonosti asetettu?<br />
Ongelma on huonosti asetettu vain jos det(M) = 0, sillä muussa tapauksessa<br />
neliömatriisilla M on olemassa käänteismatriisi M −1 joka on jatkuva kuvaus.<br />
20
Esimerkki 3. Jos M ∈ R m×n ja m < n, niin ongelma ”määrää x ∈ R n kun<br />
y = Mx ∈ R m on annettu”on huonosti asetettu, sillä ongelmalla on useita<br />
ratkaisuja. Esimerkiksi, jos<br />
( ) 1 1 0<br />
M = ,<br />
0 0 1<br />
niin Mx = 0 jos ja vain jos x 1 + x 2 = 0 ja x 3 = 0. Toisin sanoen<br />
Ker(M) = {(x 1 , −x 1 , 0) : x 1 ∈ R} ≠ {0}.<br />
Esimerkki 4. Olkoon M m×n ∈ R m×n . Olkoon V ⊂ R n ja W ⊂ R m lineaarisia<br />
aliavaruuksia. Milloin ongelma ”määrää sellainen x ∈ V , että Mx = y, missä<br />
y ∈ W on annettu”on huonosti asetettu?<br />
Tämä ongelma on huonosti asetettu, jos edes toinen seuraavista väitteistä<br />
on totta.<br />
1. W ∩ M(V ) ≠ W (jolloin ei löydy ratkaisua)<br />
2. V ∩ Ker(M) ≠ {0} (jolloin ratkaisu ei ole yksikäsitteinen)<br />
Lineaarisen aliavaruuden V kuva on aliavaruus<br />
n∑<br />
M(V ) = {y ∈ R m : y = x i M i , x ∈ V },<br />
missä vektori M i on matriisin M i:s pystyvektori (eli sarake). Jos V = R n , niin<br />
M(V ) on matriisin M pystyvektorien virittämä aliavaruus.<br />
Huomaa, että jos lineaarinen kuvaus M : V → W on bijektio, niin sillä on<br />
jatkuva lineaarinen käänteiskuvaus. Tämän voi nähdä toteamalla, että kuvaavaruuden<br />
W = M(V ) dimensio on silloin sama kuin aliavaruuden V dimensio<br />
jolloin lineaarinen kuvaus M voidaan esittää neliömatriisina, jolla injektiivisyyden<br />
perusteella on käänteismatriisi. Matriisikuvaus on jatkuva.<br />
i=1<br />
2.4 Ratkaisun häiriöalttius<br />
Huonosti asetetun ongelman ratkaisu voi olla altis häiriöille, mutta myös hyvin<br />
asetetuilla ongelmilla voi olla erilainen häiriöalttius. Löysästi puhuen voidaan<br />
sanoa että ongelma A on huonommin asetettu tai häiriöalttiimpi (more<br />
ill-posed/ill-conditioned) kuin ongelma B, jos samansuuruinen häiriö datassa<br />
muuttaa ongelman A ratkaisua voimakkaammin kuin ongelman B ratkaisua.<br />
Esimerkki 5. Olkoot y, ỹ ∈ R 8 muotoa y = Mx + ε ja ỹ = ˜Mx + ε, missä<br />
x = (1, 1, 1, 1, 1, 1, 1, 1), ε = (0, 0, 0, 0, 0, 0, 0, 0.02) ja M, ˜M ovat reaalisia 8 × 8-<br />
matriiseja, joiden elementit ovat M ij = 1 i δ ij ja ˜M ij = 2 −i δ ij . Tässä δ ij on<br />
Kroneckerin delta: δ ij = 0 jos i ≠ j ja δ ij = 1 jos i = j. Matriisit M ja ˜M ovat<br />
säännöllisiä, mutta<br />
M −1 y = x + M −1 ε = (1, 1, 1, 1, 1, 1, 1, 1, 1.16) ja<br />
˜M −1 ỹ = x + ˜M −1 ε = (1, 1, 1, 1, 1, 1, 1, 1 + 2 8 · 0.01)<br />
Viimeiseen elementtiin summautuu 2 8 · 0.02 = 5.12. Vaikka ongelma on Hadamardin<br />
mielessä hyvin asetettu, ei häiriöisellä datalla saatua ratkaisua voi pitää<br />
hyvänä.<br />
21
Hyvin asetettu ongelma, jolla on hyvin suuri häiriöalttius, on ominaisuuksiltaan<br />
samankaltainen kuin huonosti asetettu ongelma, jonka ratkaisu ei riipu<br />
jatkuvasti datasta.<br />
Häiriöalttius on vakava asia, sillä suurimmassa osaa käytännön inversioongelmista<br />
pätee seuraava nyrkkisääntö: data ei ole koskaan täsmälleen sellaista<br />
kuin suorassa teoriassa on esitetty.<br />
• Mittalaitteilla on rajallinen tarkkuus.<br />
• Elektronisissa mittalaitteissa esiintyy lämpökohinaa.<br />
• Suora teoria ei välttämättä ole täysin tarkka, vaan voi sisältää approksimaatioita.<br />
• Mittauksessa voi esiintyä ulkoisia häiriöitä.<br />
Lisäksi numeerisessa laskennasssa tapahtuu pyöristysvirheitä, jotka johtuvat tietokoneen<br />
rajallisesta laskentatarkkuudesta (reaaliluvut on korvattu liukuluvuilla).<br />
Matriisien kvantitaviivisessa vertailussa käytetään ehtolukuja (eng. condition<br />
numbers). Palautetaan mieleen, että matriisin M = M m×n ∈ C m×n Hermiten<br />
liittomatriisi on M ∗ = M T .<br />
Määritelmä 3. Matriisin M m×n ∈ C m×n singulaariarvot σ i (M) ovat matriisin<br />
M ∗ M ominaisarvojen λ i nelijöjuuria eli σ i (M) = √ λ i i = 1, ..., n.<br />
Määritelmä 4. Säännöllisen matriisin M = M n×n ∈ C n×n ehtoluku κ(M) on<br />
luku<br />
κ(M) = ‖M‖‖M −1 ‖,<br />
missä matriisinormi ‖M‖ = σ max (M) on matriisin M suurin singulaariarvo.<br />
Huomaa, että normin ja sisätulon välisen yhteyden nojalla<br />
‖Mx‖ = √ n∑<br />
(Mx, Mx) = √ M ij x i M ik x k = √ (M ∗ Mx, x) (2.1)<br />
j,i,k=1<br />
jokaisella x ∈ C n . Koska M ∗ M on Hermiten matriisi, niin neliömuoto (2.1)<br />
voidaan kirjoittaa muodossa<br />
(M ∗ Mx, x) = (Λx ′ , x ′ ) =<br />
n∑<br />
λ i |x ′ i |2 ,<br />
missä Λ on diagonaalimatriisi, joka sisältää matriisin M ∗ M ominaisarvot λ i ja<br />
x ′ on vektorin x esitys matriisin M ∗ M ominaiskannassa. Arvioimalla ominaisarvoja<br />
ylöspäin suurimmalla ominaisarvolla saadaan epäyhtälö<br />
√<br />
‖Mx‖ ≤ max λi ‖x‖. (2.2)<br />
1≤i≤n<br />
i=1<br />
Sama pätee myös käänteismatriisille M −1 muodossa<br />
‖M −1 y‖ ≤<br />
1<br />
min 1≤i≤n<br />
√<br />
λi<br />
‖y‖. (2.3)<br />
22
Jos y = y + δy, missä δy ∈ R n edustaa datan häiriötä, niin häiritystä yhtälöstä<br />
y + δy = M(x + δx),<br />
saadaan häiriölle yhtälö δy = M(δx). Epäyhtälön (2.2) nojalla<br />
‖x‖ ≥ ( √ λ max ) −1 ‖y‖. Toisaalta δx = M −1 δy. Epäyhtälön (2.3) nojalla ‖δx‖ ≤<br />
1<br />
‖δy‖. Tarkan ratkaisun suhteellinen virheelle pätee<br />
√<br />
λmin(M)<br />
‖δx‖<br />
‖x‖ = ‖M √ −1 δy‖ λmax ‖δy‖<br />
≤<br />
‖x‖ λ min ‖y‖ = κ(M)‖δy‖ ‖y‖ .<br />
Ehtoluku antaa suhteelliselle virheelle ylärajan. Kun ehtoluku on hyvin suuri<br />
(luokkaa > 10 5 ), niin pelkät pyöristysvirheet alkavat haitata yhtälön numeerista<br />
ratkaisua.<br />
Esimerkki 6. Identtisen matriisin ehtoluku on 1. Esimerkissä 5 matriisien ehtoluvut<br />
ovat<br />
κ(M) = 8<br />
ja<br />
κ(˜M) = 1 2 · 28 = 128.<br />
Esimerkki 7. Lasketaan matriisin<br />
⎛ ⎞<br />
11 10 14<br />
M = ⎝12 11 −13⎠<br />
14 13 −66<br />
ehtoluku. Lasketaan ensin<br />
⎛ ⎞<br />
11 10 14<br />
M T M = ⎝12 11 −13⎠<br />
14 13 −66<br />
⎞ ⎛<br />
⎞<br />
11 10 14 461 424 −926<br />
⎝12 11 −13⎠ = ⎝ 424 390 −861⎠ .<br />
14 13 −66 −926 −861 4721<br />
T ⎛<br />
Tämän matriisin ominaisarvot löytyvät karakteristisen polynomin<br />
⎛<br />
⎞<br />
461 − λ 424 −926<br />
p(λ) = det⎝ 424 390 − λ −861 ⎠<br />
−926 −861 4721 − λ<br />
nollakohdista eli<br />
p(λ) = (461 − λ) · ((390<br />
− λ) · (4721 − λ) − 861 2) − 424 · (424 · (4721 − λ) − 861 · 926)<br />
= 0<br />
−926 (424 · (−861) − (390 − λ) · (−926))<br />
Nollakohtia on kolme: λ 1 , λ 2 ja λ 3 . Nollakohtien neliöjuuret ovat<br />
( √ λ 1 , √ λ 2 , √ λ 3 ) ≈ (0.0006, 21.8, 71.4).<br />
Tällöin ehtoluku on<br />
κ(M) ≈ 71.4<br />
0.0006 ≈ 105 .<br />
23
Olkoon y = Mx + ε annettu. Jos ‖ε‖ ≤ 1/5, niin mitä saadaan selville<br />
vektorista x? Tarkastellaan tilannetta, jossa tuntematon x = (0, 0, 1) ja ǫ =<br />
(0.1, −0.1, 0.1). Silloin<br />
Mx = ( 14 −13 −66 ) T<br />
ja<br />
Koska matriisin M determinantti<br />
y = Mx + ε = ( 14.1 −13.1 −65.9 ) T<br />
.<br />
det(M) = 11·(11·(−66)−(−13)·13)−10·(12·(−66)−(−13)·14)+14·(12·13−11·14) = 1,<br />
niin sen käänteismatriisi on<br />
M −1 =<br />
=<br />
⎛<br />
⎞<br />
11 · (−66) − (−13) · 13) −(12 · (−66) − (−13) · 14)) 12 · 13 − 11 · 14<br />
⎝ −(10 · (−66) − 14 · 13) 11 · (−66) − 14 · 14 −(11 · 13 − 10 · 14) ⎠<br />
10 · (−13) − 14 · 11 −(11 · (−13) − 14 · 12) 11 · 11 − 10 · 12<br />
⎛<br />
⎞<br />
−557 842 −284<br />
⎝ 610 −922 311 ⎠<br />
2 −3 1<br />
Käyttämällä matriisin M käänteismatriisia saadaan<br />
T<br />
M −1 (Mx + ǫ) = x + ( −168 3<br />
10<br />
184 3 10<br />
6<br />
10) T<br />
,<br />
mikä on sangen kaukana vektorista x.<br />
Esimerkki 8. Työstetään vielä inversio-<strong>ongelmien</strong> kannalta hiukan patologisempi<br />
esimerkki dekonvoluutiosta. Lähdetään tarkastelemaan konvoluutiota<br />
g(˜θ) =<br />
∫ π<br />
−π<br />
R(˜θ − θ)f(θ)dθ,<br />
missä ˜θ ∈ [−π, π] ja funktiot R ja f ovat kahdesti jatkuvasti derivoituvia 2πperiodisia<br />
funktioita eli R(θ + n2π) = R(θ) ja f(θ + n2π) = f(θ) jokaisella<br />
n ∈ Z. Oletetaan lisäksi, että R on symmetrinen ja ei-negatiivinen funktio eli<br />
R(θ) = R(−θ) ja R(θ) ≥ 0, t ∈ [0, π].<br />
Oletetaan, että meille on annettu data<br />
g(θ 1 ), ..., g(θ n ),<br />
missä θ j = hj − π, j = 1, .., n ja h = 2π n , n = 2m jollakin m > 3 ja funktio<br />
Rătunnetaan. Mitä silloin tiedetään funktiosta f? Tiedämme, että Riemannin<br />
24
integraali g(˜θ) saadaan raja-arvona Riemannin summista<br />
n∑<br />
S n (˜θ) = R(˜θ − θ (n)<br />
j )f(θ (n)<br />
j )h n ,<br />
j=1<br />
kun välin jakoa tihennetään (erityisesti kun n = 2 m ja m → ∞). Kirjoitetaan<br />
nyt annetut arvot muodossa<br />
(∫ π<br />
)<br />
g(θ k ) = R(θ k − θ)f(θ)dθ − S n (θ k ) + S n (θ k )<br />
−π<br />
n∑<br />
= R(θ k − θ j )f(θ j )h + e k ,<br />
missä<br />
Merkitään<br />
sekä<br />
j=1<br />
e k =<br />
∫ π<br />
−π<br />
R(θ k − θ)f(θ)dθ − S n (θ k ).<br />
M kj = R(θ k − θ j )h<br />
x k = f(θ k ) ja y k = g(θ k )<br />
kun k, j = 1, ..., n. Voimme korvata alkuperäisen ongelman matriisiyhtälöllä,<br />
y = Mx + e.<br />
jossa annettu data y on epätarkka.<br />
Ryhdytään arvioimaan matriisin M ehtolukua. Matriisi M on<br />
⎛<br />
⎞<br />
R(0) R(−h) R(−2h) · · · R(−(n − 2)h R(−(n − 1)h)<br />
R(h) R(0) R(−h) · · · R(−(n − 3)h) R(−(n − 2)h)<br />
M = h<br />
R(2h) R(h) R(0) · · · R(−(n − 4)h) R(−(n − 2)h)<br />
⎜<br />
⎟<br />
⎝ . . . · · · .<br />
. ⎠<br />
R((n − 1)h) R((n − 2)h) R((n − 3)h) · · · R(h) R(0)<br />
Funktion R jaksollisuuden ansiosta matriisi M on ns. sirkulantti matriisi.<br />
Yleisesti matriisia M ∈ R n×n kutsutaan sirkulantiksi (eng. circulant matrix),<br />
jos se on muotoa<br />
⎛<br />
⎞<br />
m 1 m n m n−1 · · · m 3 m 2<br />
m 2 m 1 m n · · · m 4 m 3<br />
M =<br />
m 3 m 2 m 1 · · · m 5 m 4<br />
⎜<br />
⎝<br />
.<br />
.<br />
. · · ·<br />
.<br />
⎟<br />
. ⎠<br />
m n m n−1 m n−2 · · · m 2 m 1<br />
jollakin vektorilla (m 1 , ..., m n ) ∈ R n .<br />
Lemma 1. Sirkulantin matriisin M ∈ R n×n ominaisarvot ovat<br />
n∑<br />
λ k = m j exp(−2πi(j − 1)(k − 1)/n), k = 1, .., n.<br />
j=1<br />
ja sirkulantti matriisi M on unitaarisesti similaarinen diagonaalimatriisin kanssa<br />
(eli on olemassa unitaarinen matriisi U, jolle U ∗ MU on diagonaalimatriisi).<br />
25
Todistus. Näytetään ensin, että on olemassa ei-triviaali vektori F (k) ∈ R n , jolle<br />
MF (k) = λ k F (k) jokaisella k = 1, ...., n. Valitaan<br />
Lasketaan mitä on<br />
(MF (k) ) j =<br />
=<br />
F (k)<br />
j = exp(2πi(j − 1)(k − 1)/n), k, j = 1, ..., n.<br />
n∑<br />
l=1<br />
M jl F (k)<br />
l<br />
=<br />
n∑<br />
m (j−l+1)mod n exp(2πi(l − 1)(k − 1)/n)<br />
l=1<br />
n∑<br />
m L exp(2πi(j − L)(k − 1)/n) = λ k exp(2π(j − 1)(k − 1))<br />
L=1<br />
= λ k F (k)<br />
j .<br />
Selvästi F (k) ≠ 0, joten λ k on ominaisarvo.<br />
Osoitetaan seuraavaksi, että ominaisvektorit ovat ortogonaalisia. Jos k ≠ l,<br />
niin ominaisvektoreiden F (k) ja F (l) sisätulo<br />
(F (k) , F (l) ) =<br />
=<br />
=<br />
n∑<br />
exp(2πi(j − 1)(k − 1)/n)exp(−2πi(j − 1)(l − 1)/n)<br />
j=1<br />
n∑<br />
exp(2πi(j − 1)(k − l)/n)<br />
j=1<br />
n∑<br />
z j−1 =<br />
j=1<br />
n−1<br />
∑<br />
j ′ =0<br />
z j′<br />
1 − exp(2πi(k − l))<br />
=<br />
1 − exp(2πi(k − l)/n)<br />
= 0,<br />
= 1 − zn<br />
1 − z<br />
missä käytimme geometrisen sarjan osasummaa luvulle z = exp(2πi(k −l)/n) ≠<br />
1. Lisäksi jos k = l, niin sisätulo<br />
(F (k) , F (k) ) =<br />
n∑<br />
exp(2πi(j − 1)(k − 1)/n)exp(−2πi(j − 1)(k − 1)/n) = n.<br />
j=1<br />
Asetetaan U = 1 √ n<br />
(F (1) , ..., F (n) ). Tällöin<br />
⎛ ⎞<br />
U ∗ U = 1 F (1)T<br />
⎜ ⎟<br />
n ⎝ . ⎠ (F (1) , ..., F (n) ) = I n×n .<br />
F (n)T<br />
Siis U on unitaarinen. Lisäksi MU = Udiag(λ 1 , ..., λ n ), josta similaarisuus seuraa.<br />
Sirkulantin matriisin M ominaisarvojen modulit ovat sen singulaariarvoja,<br />
sillä matriisi<br />
M ∗ M = Udiag(¯λ 1 , ..., ¯λ n )U ∗ Udiag(λ 1 , ..., λ n )U ∗ = Udiag(|λ 1 | 2 , ..., |λ n | 2 )U ∗<br />
26
on similaarinen matriisin diag(|λ 1 | 2 , ..., |λ n | 2 ) kanssa ja similaarisilla matriiseilla<br />
on samat ominaisarvot.<br />
Olkoon nyt m j = R(h(j − 1))h, j = 1, ..., n. Vastaavan sirkulantin matriisin<br />
M ominaisarvot ovat<br />
n∑<br />
λ k = hR(h(j − 1))exp(−2πi(j − 1)(k − 1)/n).<br />
j=1<br />
Oletetaan, että matriisi M on säännöllinen. Jos k = 1, niin<br />
λ 1 =<br />
n∑<br />
hR(h(j − 1))<br />
j=1<br />
Jos k = n/2 + 1 (n on parillinen), niin<br />
n∑<br />
|λ n/2+1 | =<br />
(−1) j−1 hR(h(j − 1))<br />
∣<br />
∣ .<br />
j=1<br />
Matriisin ehtoluvulle saadaan arvio<br />
κ(M) ≥ |λ 1|<br />
|λ n/2+1 | .<br />
Sievennetään summalauseketta käyttäen hyväksi funktion R jaksollisuutta<br />
ja symmetriaa. Kirjoitetaan aluksi<br />
n∑<br />
|λ n/2+1 | =<br />
(−1) j−1 hR(h(j − 1))<br />
∣j=1<br />
∣<br />
n/2−1<br />
=<br />
∣ h ∑<br />
−R(h(2J + 1)) + R(h(2J))<br />
J=0<br />
∣<br />
∣ n/2−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h ∣∣∣∣∣<br />
dR<br />
−<br />
(2J)h dθ (θ)dθ .<br />
J=0<br />
Jaetaan summalauseke kahteen osaa: integraaleihin välin [0, π] osavälien yli ja<br />
integraaleihin välin [π, 2π] osavälien yli :<br />
∣ n/4−1<br />
|λ n/2+1 | =<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/2−1<br />
dR<br />
−<br />
J=0<br />
(2J)h dθ (θ)dθ + h ∑<br />
∫ (2J+1)h ∣∣∣∣∣<br />
dR<br />
−<br />
J=n/4<br />
(2J)h dθ (θ)dθ ∣ n/4−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/4−1<br />
dR<br />
−<br />
J=0 (2J)h dθ (θ)dθ − h ∑<br />
∫ (2(J+n/4)+1)h ∣∣∣∣∣<br />
dR<br />
J=0 (2(J+n/4))h dθ (θ)dθ ∣ n/4−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/4−1<br />
dR<br />
−<br />
J=0 (2J)h dθ (θ)dθ − h ∑<br />
∫ (2J+1)h+π ∣∣∣∣∣<br />
dR<br />
J=0 (2J)h+π dθ (θ)dθ ∣ n/4−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/4−1<br />
dR<br />
−<br />
(2J)h dθ (θ)dθ − h ∑<br />
∫ (2J+1)h−π ∣∣∣∣∣<br />
dR<br />
(2J)h−π dθ (θ)dθ .<br />
J=0<br />
27<br />
J=0
Tehdään muuttujan vaihto −θ ′ = θ<br />
n/4−1<br />
|λ n/2+1 | =<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/4−1<br />
dR<br />
−<br />
J=0 (2J)h dθ (θ)dθ − h ∑<br />
J=0<br />
n/4−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/4−1<br />
dR<br />
−<br />
(2J)h dθ (θ)dθ + h ∑<br />
J=0<br />
J=0<br />
∫ π−(2J)h<br />
Vaihdetaan vielä summausindeksiksi J ′ = n/4 − J<br />
n/4−1<br />
|λ n/2+1 | =<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/4<br />
dR<br />
−<br />
J=0 (2J)h dθ (θ)dθ + h ∑<br />
J ′ =1<br />
n/4−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h<br />
n/4−1<br />
dR<br />
−<br />
J=0 (2J)h dθ (θ)dθ + h ∑<br />
J ′ =0<br />
∣ n/4−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h<br />
∣∣∣∣∣<br />
− dR dR<br />
(θ) +<br />
(2J)h dθ dθ (θ + h)dθ .<br />
J=0<br />
π−(2J+1)h<br />
∫ 2(n/4−J)h<br />
(2(n/4−J)−1)h<br />
∫ (2J ′ )h<br />
(2J ′ −1)h<br />
∫ (2J ′ )h<br />
(2J ′ −1)h<br />
∣ ∣∣∣∣∣<br />
dR<br />
dθ (−θ′ )dθ ′<br />
∣ ∣∣∣∣∣<br />
dR<br />
dθ (θ)dθ<br />
Käytetään analyysin peruslausetta vielä uudestaan<br />
∣ n/4−1<br />
|λ n/2+1 | =<br />
∣ h ∑<br />
∫ (2J+1)h<br />
∣∣∣∣∣<br />
− dR dR<br />
(θ) +<br />
J=0 (2J)h dθ dθ (θ + h)dθ n/4−1<br />
=<br />
∣ h ∑<br />
∫ (2J+1)h ∫ θ+h<br />
d 2 R<br />
(2J)h θ dθ 2 (θ′ )dθ ′ dθ<br />
∣ .<br />
J=0<br />
Viemällä itseisarvomerkit integraalien sisälle saamme arvion<br />
jolloin<br />
|λ n/2+1 | ≤ h<br />
κ(M n×n ) ≥<br />
≤<br />
∫ π ∫ θ+h<br />
0<br />
θ<br />
h 2 π sup<br />
θ ′<br />
∣ ∣∣∣ d 2 R<br />
sup<br />
θ ′ dθ 2 (θ′ )<br />
∣ dθ′ dθ<br />
∣ ∣∣∣ d 2 R<br />
dθ 2 (θ′ )<br />
∣ ,<br />
hR(0)<br />
h 2 π sup θ |R ′′ (θ)| = R(0)<br />
2π 2 sup θ |R ′′ (θ)| O(n).<br />
∣ ∣∣∣∣∣<br />
dR<br />
dθ (θ)dθ<br />
∣ ∣∣∣∣∣<br />
dR<br />
dθ (θ + 2h)dθ<br />
Mitä suurempi n on sitä epästabiilimpaa on matriisin M n×n kääntäminen. Tämä<br />
on tyypillistä käytöstä silottavien konvoluutioiden äärellisulotteisille approksimaatioille.<br />
2.5 Yhteenveto<br />
• Hyvin asetetulla ongelmalla on yksikäsitteinen ratkaisu, joka riippuu jatkuvasti<br />
annetusta datasta.<br />
28
• Huonosti asetetulla ongelmalla ei ole ratkaisua lainkaan ja/tai ratkaisuja<br />
on monta ja/tai ratkaisu ei riipu jatkuvasti annetusta datasta.<br />
• Jos datassa on liikaa häiriöitä, voi hyvin asetetun ongelman ratkaisu olla<br />
huonosti asetetetun ongelman ratkaisun kaltainen.<br />
• Käytännön inversio-ongelmatovat usein huonosti asetettuja/häiriöherkkiä.<br />
Osattava;<br />
• määritellä hyvin asetettu ongelma ja huonosti asetettu ongelma.<br />
• tunnistaa ja antaa esimerkkejä äärellisulotteisista lineaarisista huonosti<br />
asetetuista ongelmista.<br />
• määritellä matriisin ehtoluku<br />
• laskea annetun matriisin ehtoluku<br />
Ymmärrettävä:<br />
• miten ehtoluku liittyy yhtälöryhmien ratkaisemiseen.<br />
• mitä matriisiyhtälölle Mx = y tapahtuu, jos annetut arvot y tunnetaan<br />
epätarkasti.<br />
• mitä eroa on häiriöherkällä ja huonosti asetetulla ongelmalla<br />
Tiedettävä:<br />
• että funktioita approksimoidaan numeerisessa laskennassa äärellisulotteisilla<br />
vektoreilla.<br />
• että huonosti asetettua inversio-ongelmaa approksimoivan hyvin asetetun<br />
inversio-ongelman häiriöherkkyys voi kasvaa kun approksimaatiota pyritään<br />
tarkentamaan.<br />
2.6 Liite: Käänteismatriisin singulaariarvot<br />
Lause 1. Olkoon M ∈ C n×n säännöllinen matriisi. Matriisin M −1 suurin<br />
singulaariarvo<br />
σ max (M −1 1<br />
) =<br />
σ min (M) ,<br />
missä σ min (M) on matriisin M pienin singulaariarvo.<br />
Todistuksessa käytämme seuraavaa lemmaa<br />
Lemma 2. Olkoon A, B ∈ C n×n säännöllisiä matriiseja. Silloin matriiseilla<br />
AB ja BA on samat ominaisarvot.<br />
Todistus. Matriisin ominaisarvot löytyvät karakteristisen polynomin<br />
nollakohdista. Mutta<br />
p(λ) = det(AB − λI)<br />
det(AB − λI) = det(A(B − λA −1 )) = det(A)det(B − λA −1 )<br />
= det(B − λA −1 )det(A) = det((B − λA −1 )A) = det(BA − λI),<br />
jolloin matriiseilla AB ja BA on samat ominaisarvot.<br />
29
Lemma 3. Olkoon A ∈ C n×n säännöllinen matriisi. Matriisin A −1 ominaisarvot<br />
ovat matriisin A ominaisarvojen käänteislukuja.<br />
Todistus. Ominaisarvot löytyvät karakteristisen polynomin<br />
nollakohdista. Nyt<br />
p(λ) = det(A − λI)<br />
det(A − λI) = det(A(λ −1 − A −1 )λ) = λ n det(A)det(λ −1 − A −1 ).<br />
Koska A on säänöllinen, niin nolla ei ole sen ominaisarvo. Luku λ −1 on matriisin<br />
A −1 ominaisarvo silloin ja vain silloin kun λ on matriisin A ominaisarvo.<br />
Todistus: Lause 1. Määrätään matriisin M −1 suurin singulaariarvo. Nyt<br />
(M −1 ) ∗ M −1 = (M ∗ ) −1 M −1 = (MM ∗ ) −1 .<br />
Matriisin (M −1 ) ∗ M −1 ominaisarvot ovat matriisin MM ∗ ominaisarvojen käänteislukuja<br />
lemman 3 nojalla. Matriisilla MM ∗ on samat ominaisarvot kuin matriisilla<br />
M ∗ M lemman 2 nojalla. Matriisin M −1 singulaariarvot ovat<br />
1<br />
√<br />
λi (M ∗ M) ,<br />
i = 1, .., n missä λ i (M ∗ M) on matriisin M ∗ M ominaisarvo. Siis<br />
σ max (M −1 ) =<br />
1<br />
σ min (M) .<br />
Korollaari 1. Olkoon M ∈ C n×n säännöllinen matriisi. Silloin matriisin M<br />
ehtoluku<br />
κ(M) = σ max(M)<br />
σ min (M) .<br />
30
Luku 3<br />
Likimääräisratkaisut ja<br />
regularisaatio<br />
Ryhdytään tarkastelemaan klassista approksimatiivista ratkaisumenetelmää huonosti<br />
asetetuille lineaarisille ongelmille.<br />
3.1 Pienimmän neliösumman menetelmä<br />
Olkoon x ∈ R n tuntematon vektori, A ∈ R m×n tunnettu matriisi ja<br />
y = Ax + ε ∈ R m (3.1)<br />
annettu data.<br />
Pienimmän neliösumman menetelmässä (eng. least squares method) valitaan<br />
yhtälön (3.3) likimääräisratkaisuksi sellainen ˆx, jolla<br />
eli<br />
‖Aˆx − y‖ 2 = min<br />
x∈R n ‖Ax − y‖2 .<br />
ˆx = argmin<br />
x∈R n ‖Ax − y‖ 2 .<br />
Merkintä argmin tarkoittaa funktionaalin x ↦→ ‖Ax −y‖ 2 sitä argumenttia jolla<br />
minimi saavutetaan.<br />
Huomautus 1. Termi likimääräisratkaisu tarkoittaa, että ˆx ei välttämättä toteuta<br />
yhtälöä y = Aˆx.<br />
( )<br />
1 0<br />
Esimerkki 9. Olkoon tuntematon x 0 = (1 0) T , A = ja y = Ax<br />
0 0<br />
0 +<br />
(0 0.1) T = (1 0.1) T . Kun x = (x 1 , x 2 ) ∈ R 2 , niin<br />
( ) ( ‖Ax − y‖ 2 =<br />
1 0 x1<br />
∥ 0 0<br />
x 2<br />
)<br />
−<br />
( )∥<br />
1 ∥∥∥<br />
2<br />
= (x<br />
0.1 1 − 1) 2 + 0.1 2 ≥ 0.01.<br />
Näytetään, että pienimmän neliösumman ratkaisu on olemassa. Osoitetaan<br />
ensin seuraava aputulos.<br />
31
Lemma 4. Matriisille M ∈ R m×n pätee R(M T ) ⊥ = Ker(M) eli<br />
R n = R(M T ) ⊕ Ker(M).<br />
Todistus. Olkoon x ∈ R(M T ) ⊥ Jokaisella z ∈ R m pätee<br />
0 = (M T z, x) = (z, Mx)<br />
vain jos Mx = 0 eli x ∈ Ker(M). Siis R(M T ) ⊥ ⊂ Ker(M). Toisaalta, jos<br />
x ∈ Ker(M), niin<br />
(M T z, x) = (z, Mx) = 0<br />
jokaisella z ∈ R m , joten x ∈ R(M T ) ⊥ . Siis Ker(M) ⊂ R(M T ) ⊥ .<br />
Lause 2. Olkoon A ∈ R m×n ja y ∈ R m . Minimointiongelmalla<br />
on samat ratkaisut kuin yhtälöllä<br />
Todistus. Lasketaan ensin sisätulo<br />
ˆx = argmin<br />
x∈R n ‖Ax − y‖ 2<br />
A T Aˆx = A T y.<br />
f(x) = ‖Ax − y‖ 2 = (Ax − y, Ax − y)<br />
= (Ax, Ax) − (y, Ax) − (Ax, y) + (y, y)<br />
= (A T Ax, x) − 2(A T y, x) + (y, y).<br />
Funktionaalin f minimi, jos sellainen on , löytyy kriittisestä pisteestä. Lasketaan<br />
gradientin nollakohdat<br />
∇f(x) = ∇‖Ax − y‖ 2 = 2A T Ax − 2A T y = 0. (3.2)<br />
Olkoon ˆx gradientin nollakohta eli A T Aˆx = A T y. Tämä on minimikohta, sillä<br />
f(x) = ‖A(x − ˆx) + Aˆx − y‖ 2 = ‖A(x − ˆx)‖ 2 + 2(A(x − ˆx), Aˆx − y) + ‖Aˆx − y‖ 2<br />
= ‖A(x − ˆx)‖ 2 + 2(x − ˆx, A T Aˆx − A T y) + ‖Aˆx − y‖ 2<br />
= ‖A(x − ˆx)‖ 2 + ‖Aˆx − y‖ 2 .<br />
Korollaari 2. Olkoon A ∈ R m×n ja y ∈ R m . Minimointiongelmalla<br />
ˆx = argmin<br />
x∈R n ‖Ax − y‖ 2<br />
on olemassa ratkaisu ˆx. Ratkaisu on yksikäsitteinen vain jos Ker(A) = {0}.<br />
Todistus. Lauseen 2 nojalla minimointiongelma on ekivalentti yhtälön A T Aˆx =<br />
A T y kanssa. Tutkitaan yhtälön A T Ax = A T y yksikäsitteistä ratkeavuutta. Injektiivisyys:<br />
Selvästi KerA ⊂ Ker(A T A). Lisäksi x ∈ Ker(A T A) eli A T Ax = 0<br />
jos ja vain jos<br />
0 = (A T Ax, z) = (Ax, Az)<br />
32
jokaisella z ∈ R n . Erityisesti kun z = x, saadaan ‖Ax‖ = 0 eli x ∈ KerA. Toisin<br />
sanoen Ker(A T A) ⊂ Ker(A). Siis Ker(A T A) = Ker(A), jolloin A T A on injektio<br />
jos ja vain jos A on injektio. Näytetään, että A T y ∈ R(A T A) Valitsemalla<br />
M = A sekä M = A T A lemmassa 4, saamme<br />
R(A T ) = Ker(A) ⊥ = Ker(A T A) ⊥ = R(A T A).<br />
Täten yhtälöllä A T Ax = A T y on vähintään yksi ratkaisu ja ratkaisu on yksikäsitteinen<br />
vain jos Ker(A) = {0}.<br />
Huomautus 2. Olkoon P : R m → R m ortogonaaliprojektio kuva-avaruudelle<br />
R(A) (jolloin P 2 = P, P T = P ja erityisesti PAx = Ax jokaisella x ∈ R n ).<br />
Yhtälön y = Ax + ε pienimmän neliösumman ratkaisu ˆx = ˆx(y) on itseasiassa<br />
yhtälön<br />
Py = Ax<br />
ratkaisu, sillä ortogonaaliprojektion P symmetrisyyden nojalla<br />
(Aˆx − Py, z) = (PAˆx − Py, z) = (Aˆx − y, Pz) = (Aˆx − y, Az ′ )<br />
= (A T Aˆx − A T y, z ′ ) = (A T y − A T y, z ′ ) = 0<br />
jokaisella z ∈ R m (huomaa, että koska Pz ∈ R(A), niin löytyy z ′ ∈ R n , jolle<br />
Az ′ = Pz).<br />
Yhtälöillä y = Ax+ε ja Py = PAx+Pε on samat pienimmän neliösumman<br />
ratkaisut. Tämä seuraa siitä, että A = PA, jolloin A T = A T P T ja<br />
A T y = A T Aˆx = A T P T PAx = A T P T y.<br />
Esimerkki 10. Tuntemattomasta x = (x 1 , x 2 ) ∈ R 2 on saatu seuraavat häiriöiset<br />
mittaukset:<br />
1 = x 1 + e 1<br />
3 = x 1 + x 2 + e 2<br />
4 = x 1 + x 2 + e 3<br />
2 = x 2 + e 4 .<br />
Etsi likimääräisratkaisu käyttämällä pienimmän neliösumman menetelmää. Merkitään<br />
⎛ ⎞<br />
1 0<br />
A = ⎜1 1<br />
⎟<br />
⎝1 1⎠<br />
0 1<br />
ja y = (1, 3, 4, 2). Määrätään pienimmän neliösumman ratkaisu yhtälölle y =<br />
Ax + e. Lasketaan<br />
⎛ ⎞<br />
( ) 1 0 ( )<br />
A T 1 1 1 0<br />
A =<br />
⎜1 1<br />
⎟ 3 2<br />
0 1 1 1 ⎝1 1⎠ = 2 3<br />
0 1<br />
33
ja<br />
A T y =<br />
⎛ ⎞<br />
( ) 1 ( )<br />
1 1 1 0<br />
⎜3<br />
⎟ 8<br />
0 1 1 1 ⎝4⎠ = .<br />
9<br />
2<br />
Saamme yhtälön ( ) ) (<br />
3 2<br />
(ˆx1 8<br />
= ,<br />
2 3 ˆx 2 9)<br />
jonka ratkaisu on (ˆx 1 , ˆx 2 ) = ( 6 5 , 11 5 ).<br />
Korollaari 3. Olkoon A ∈ R m×n . Olkoot λ i ja v i , missä i = 1, .., n, matriisin<br />
A T A ominaisarvot ja niitä vastaavat ortonormeeratut ominaisvektorit. Yhtälön<br />
y = Ax + ε pienimmän neliösumman ratkaisut ˆx = (ˆx 1 , ..., ˆx n ) ovat muotoa<br />
ˆx k =<br />
n∑<br />
i,j=1<br />
λ i ≠0<br />
V ki<br />
1<br />
λ i<br />
V ji (A T y) j + ˜x k , k = 1, ..., n<br />
missä V = (v 1 , ..., v n ) ja ˜x = (˜x 1 , ..., ˜x n ) ∈ Ker(A).<br />
Todistus. Olkoon ˆx annettua muotoa. Nyt A T A = V diag(λ 1 , ..., λ n )V T , jolloin<br />
A T Aˆx = ( V diag(λ 1 , ..., λ n )V T)( V diag(min(0, 1 )<br />
1<br />
), ..., min(0, ))V T A T y.<br />
λ 1 λ n<br />
Olkoon ˜D sellainen diagonaalimatriisi, jolla<br />
{<br />
0 jos λ i = 0<br />
˜D ii =<br />
1 muulloin.<br />
Koska R(A T ) = R(A T A), niin on olemassa sellainen x 0 ∈ R n jolle A T y =<br />
A T Ax 0 . Erityisesti<br />
A T Aˆx = V ˜DV T V diag(λ 1 , ..., λ n )P T x 0<br />
= V ˜D diag(λ 1 , .., λ n )V T x 0 = A T y.<br />
Täten x = ˆx on yhtälön A T Ax = A T y eräs ratkaisu. Muut ratkaisut saadaan<br />
lisäämällä tähän ratkaisuun jokin vektori aliavaruudesta Ker(A T A) = Ker(A)<br />
Määritelmä 5. Matriisin A ∈ C m×n singulaariarvohajotelma (eng. singular<br />
value decomposition) on matriisin A esitys<br />
A = UDV ∗ ,<br />
missä U ∈ C m×m ja V ∈ C n×n ovat unitaarisia matriiseja sekä D ∈ R m×n on<br />
muotoa<br />
{√<br />
λi (A<br />
D ij =<br />
∗ A), i = j<br />
0, i ≠ j.<br />
ja D 11 ≥ D 22 ≥ · · · ≥ D nn ≥ 0.<br />
34
Esimerkki 11. Oletetaan, että matriisilla A ∈ R m×n on singulaariarvohajotelma<br />
A = UDV T , missä D ii = 0 kun i > r ja D ii > 0 kun i < r. Silloin<br />
A T A = (UDV T ) T (UDV T ) = V D T DV T<br />
ja diagonaalimatriisin D T D diagonaalielementit Dii 2 , i = 1, .., n ovat matriisin<br />
A T A ominaisarvot.<br />
Tällöin yhtälön y = Ax+ε pienimmän neliösumman ratkaisut ˆx = (ˆx 1 , ..., ˆx n )<br />
ovat muotoa<br />
ˆx k =<br />
=<br />
=<br />
r∑<br />
n∑<br />
i=1 j=1<br />
r∑<br />
n∑<br />
i=1 j=1<br />
r∑<br />
i=1<br />
1<br />
V ki<br />
Dii<br />
2 V ji (A T y) i + ˜x k<br />
1<br />
V ki<br />
Dii<br />
2 V ji (V D T U T y) j + ˜x k<br />
V ki<br />
1<br />
D ii<br />
(U T y) i + ˜x k ,<br />
missä ˜x = (˜x 1 , .., ˜x n ) ∈ Ker(A).<br />
Sijoitetaan tähän lausekkeeseen y = Ax + ε. Saamme<br />
ˆx k =<br />
r∑<br />
i=1<br />
= (Qx) k +<br />
V ki<br />
1<br />
D ii<br />
(U T UDV T x + U T ε) i + ˜x k<br />
r∑<br />
i=1<br />
V ki<br />
1<br />
D ii<br />
(U T ε) i + ˜x k<br />
Mikäli matriisilla A T A on hyvin pieniä nollasta eroavia ominaisarvoja, niin häiriötermillä<br />
ε on voimakas vaikutus ratkaisuun.<br />
Yllä<br />
r∑<br />
(Qz) k = V ik (V i , z), z ∈ R n<br />
i=1<br />
määrittelee ortogonaalisen projektion aliavaruudelle Ker(A) ⊥ = R(A T ), sillä<br />
vektorit V r+1 , ..., V n virittävät aliavaruuden Ker(A). (Todellakin, jos z ∈<br />
Ker(A), niin<br />
0 = Az = UDV T z.<br />
Mikä tahansa avaruuden R n vektori voidaan esittää matriisin V pystyvektoreiden<br />
muodostamassa kannassa. Erityisesti z = ∑ n<br />
i=1 V i(V i , z). Koska U on<br />
ortogonaalinen, on 0 = U T UDV T z = DV T z eli<br />
r∑<br />
0 = (DV T z, DV T z) ≥ min Dii<br />
2 (V i , z) 2 .<br />
i<br />
Toisin sanoen elementit (V i , z) = 0 kun i = 1, .., r.)<br />
3.2 Tikhonovin regularisaatio<br />
Olkoon x ∈ R n tuntematon, A ∈ R m×n tunnettu matriisi ja<br />
i=1<br />
y = Ax + ε ∈ R m (3.3)<br />
35
annettu data.<br />
Tikhonovin regularisaatiossa (eng. Tikhonov’s regularization) yhtälön y =<br />
Ax + ε likimääräisratkaisuksi ˆx otetaan Tikhonovin funktionaalin<br />
missä α > 0, minimoija eli<br />
L α (x) := ‖Ax − y‖ 2 + α‖x‖ 2 ,<br />
ˆx α = argmin<br />
x∈R n ‖Ax − y‖ 2 + α‖x‖ 2 .<br />
Lause 3. Olkoon α > 0. Minimointiongelmalla<br />
‖Aˆx − y‖ 2 + α‖x‖ 2 = min<br />
x∈R n ‖Ax − y‖2 + α‖x‖ 2<br />
on yksikäsitteinen ratkaisu ˆx α . Ratkaisu ˆx α on myös yhtälön<br />
yksikäsitteinen ratkaisu.<br />
(A T A + αI)ˆx α = A T y<br />
Todistus. Kirjoitetaan Tikhonovin funktionaali muodossa<br />
( ) ( ‖Ax − y‖ 2 + α‖x‖ 2 =<br />
A<br />
∥ √αI y ∥∥∥<br />
2<br />
x − ,<br />
0)∥<br />
joka johtaa pienimmän neliösumman minimointiin. Voimme käyttää Lausetta<br />
2, jonka nojalla Tikhonovin funktionaalin minimoija on olemassa ja toteuttaa<br />
yhtälön<br />
( ) T ( ) ( ) T ( )<br />
√αI<br />
A<br />
√αI<br />
A A<br />
ˆx = √αI y<br />
0<br />
eli<br />
(A T A + αI)ˆx α = A T y.<br />
Tämän yhtälön ratkaisu on yksikäsitteinen Korollaarin 2 nojalla, sillä matriisin<br />
(<br />
A<br />
√αI<br />
)<br />
ydin sisältää vain nollavektorin, sillä jos<br />
niin x = 0.<br />
0 =<br />
( ) ( )<br />
√αI<br />
A Ax<br />
x = √ , αx<br />
Esimerkki 12. Tarkastellaan edellisen luvun Esimerkin 7 matriisia<br />
⎛ ⎞<br />
11 10 14<br />
A = ⎝12 11 −13⎠,<br />
14 13 −66<br />
jonka ehtoluku on luokka 10 5 .<br />
Olkoon y = Ax+ε ∈ R 3 annettu. Tarkastellaan tilannetta, jossa tuntematon<br />
x = (0, 0, 1) ja ǫ = (0.1, −0.1, 0.1). Silloin<br />
Ax = ( 14 −13 −66 ) T<br />
36
ja<br />
Totesimme Esimerkissä 7, että<br />
y = Ax + ε = ( 14.1 −13.1 −65.9 ) T<br />
.<br />
A −1 (Ax + ǫ) = x + ( −168 3<br />
10<br />
184 3<br />
10<br />
6<br />
10) T<br />
.<br />
Ratkaistaan ongelma y = Ax + ε Tikhonovin regularisaatiolla. Lasketaan ensin<br />
⎛ ⎞<br />
11 10 14<br />
A T A = ⎝12 11 −13⎠<br />
14 13 −66<br />
Valitaan α = 0.01 ja lasketaan<br />
(A T A + αI) −1 A T y =<br />
≈<br />
⎞ ⎛<br />
⎞<br />
11 10 14 461 424 −926<br />
⎝12 11 −13⎠ = ⎝ 424 390 −861⎠<br />
14 13 −66 −926 −861 4721<br />
T ⎛<br />
⎛<br />
⎞<br />
461.01 424 −926<br />
⎝ 424 390.01 −861 ⎠<br />
−926 −861 4721.01<br />
⎛<br />
⎝ −0.003 ⎞<br />
0.006 ⎠ .<br />
1.001<br />
⎞ ⎛<br />
11 12 14<br />
⎝10 14 13 ⎠ ⎝ 14.1 ⎞<br />
−13.1⎠<br />
14 −13 −66 −65.9<br />
−1 ⎛<br />
Lähdetään selvittelemään kuinka parametri α vaikuttaa ratkaisuun. Voimme<br />
aluksi kysyä mitä ratkaisulle ˆx α tapahtuu, jos α → 0 tai α → ∞. Tällöin meidän<br />
tulee laskea raja-arvot<br />
lim<br />
α→0+ (AT A + αI) −1 A T y ja lim<br />
α→0+ (AT A + αI) −1 A T y,<br />
jos ne ovat olemassa.<br />
Oletetaan yksinkertaisuuden vuoksi, että nolla ei ole matriisin A T A ominaisarvo.<br />
Silloin käänteismatriisi (A T A) −1 on olemassa ja voimme ryhtyä tutkimaan<br />
erotusta<br />
‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖.<br />
Kahden käänteismatriisin erotus voidaan kirjoittaa muodossa<br />
Erityisesti<br />
Silloin<br />
B −1 − C −1 = B −1 (I − BC −1 ) = B −1 (C − B)C −1 .<br />
(A T A + αI) −1 − (A T A) −1 = (A T A + αI) −1 (αI)(A T A) −1 .<br />
‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖ ≤ ‖(A T A + αI) −1 ‖α‖(A T A) −1 A T y‖.<br />
Muistetaan, että ‖(A T A+αI) −1 ‖ on matriisin (A T A+αI) pienimmän ominaisarvon<br />
λ min käänteisluku. Olkoon u min pienintä ominaisarvoa vastaava ominaisvektori,<br />
jolle ‖u min ‖ = 1. Voimme arvioida pienintä ominaisarvoa seuraavasti:<br />
λ min = ((A T A + αI)u min , u min ) = ((A T A + αI)u min , u min ) ≥ (A T Au min , u min )<br />
≥<br />
λ min (A T A).<br />
37
Tällöin saadaan arvio<br />
‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖ ≤ λ min (A T A) −1 α‖(A T A) −1 A T y‖,<br />
mistä voimme päätellä, että<br />
Samalla tekniikalla nähdään, että<br />
mistä seuraa, että<br />
lim<br />
α→0+ (AT A + αI) −1 A T y = (A T A) −1 A T y.<br />
‖(A T A + αI) −1 A T y‖ = α −1 ‖(1/αA T A + I) −1 A T y‖<br />
≤<br />
α −1 λ min (I) −1 ‖A T y‖<br />
lim<br />
α→∞ (AT A + αI) −1 A T y = 0.<br />
Suurilla regularisaatioparametrin α arvoilla approksimatiivinen ratkaisu lähestyy<br />
nollavektoria. Pienillä regularisaatioparametrin α arvoilla approksimatiivinen<br />
ratkaisu lähestyy pienimmän neliösumman menetelmän ratkaisua.<br />
Huomautus 3. Olkoon A ∈ R n×n säännöllinen. Tikhonovin regularisaatiolla<br />
saadun ratkaisun ˆx α tarkkuus<br />
‖x − ˆx α ‖ = ‖x − (A T A + α) −1 A T Ax − (A T A + α) −1 A T ε‖<br />
riippuu kahdesta eri tavoin α:n funktiona käyttäytyvästä vektorista<br />
z 1 (α) = (I − (A T A + α) −1 A T A)x ja z 2 (α) = (A T A + α) −1 A T ε.<br />
Kun α → 0, niin z 1 (α) → 0 ja z 2 (α) → (A T A) −1 A T ǫ.<br />
Kun α → ∞ niin z 1 (α) → x ja z 2 (α) → 0.<br />
Parametrin α valintaan voidaan käyttää ns. Morozovin diskrepanssiperiaatetta<br />
(eng. Morozov’s dicrepancy principle): Oletetaan, että ‖ǫ‖ ≤ e. Valitaan<br />
sellainen α jolla<br />
‖Aˆx α − y‖ = e,<br />
mikäli tämä valinta on mahdollinen. Morozovin diskrepanssiperiaatteen ideana<br />
on, että pyritään välttämään tilanne, jossa likimääräisratkaisu taipuu mukailemaan<br />
virhetermin ε käytöstä eikä todellista dataa Ax. Tavoitteenahan on, että<br />
ˆx α olisi hyvin lähellä tuntematonta vektoria x, jolloin<br />
‖Aˆx α − y‖ = ‖(Aˆx α − Ax) − ε‖ ≈ ‖ε‖.<br />
Esimerkki 13. Oletetaan, että matriisilla A ∈ R m×n on singulaariarvohajotelma<br />
A = UDV T , missä U ja V ovat ortogonaalisia matriiseja ja D ij = 0 jos<br />
i ≠ j . Määrätään yhtälön y = Ax + ε approksimatiivinen ratkaisu ˆx = ˆx α<br />
Tikhonovin regularisaatiolla kun α > 0. Likimääräisratkaisuksi saadaan<br />
missä matriisin<br />
ˆx α = (A T A + αI) −1 A T y.<br />
(A T A+αI) = V D T U T UDV T + αI = V D T DV T +αV V T = V (D T D + αI)V T<br />
38
ominaisarvot Dii 2 + α ovat suurempia tai yhtä suuria kuin α. Singulaariarvohajotelman<br />
avulla saamme<br />
ˆx α = (V (D T D + αI)V T ) −1 V D T U T y = V (D T D + αI) −1 D T U T y<br />
eli<br />
Tällöin<br />
n∑ m∑<br />
(ˆx α ) i =<br />
j=1 k=1<br />
V ij<br />
D jj<br />
D 2 jj + αU jky k .<br />
Aˆx α = UDV T V (D T D + αI) −1 D T U T y = UD(D T D + αI) −1 D T U T y<br />
saa muodon<br />
(Aˆx α ) i =<br />
Vektorin Aˆx α − y normin neliö on<br />
n∑<br />
m∑<br />
j=1 k=1<br />
f(α) := ‖Aˆx α − y‖ 2 =<br />
U ij<br />
D 2 jj<br />
D 2 jj + αU jky k .<br />
(<br />
) 2 n∑ α<br />
Djj 2 + y) j .<br />
α(UT<br />
j=1<br />
Tutkitaan funktion f arvojoukkoa. Voimme laskea funktion f derivaatan lausekkeesta<br />
(<br />
) 2<br />
f ′ (α) = d n∑ α<br />
dα D 2 j=1 jj + y) j α(UT<br />
(<br />
) (<br />
)<br />
n∑ α<br />
1<br />
= 2<br />
Djj 2 + y) j α(UT Djj 2 + α − α<br />
(Djj 2 + (U T y j )<br />
α)2<br />
=<br />
j=1<br />
n∑ αDjj<br />
2 2<br />
(Djj 2 + α)3 (UT y) 2 j ≥ 0.<br />
j=1<br />
Erityisesti jos y ≠ 0 on f ′ (α) > 0, jolloin f on aidosti kasvava. Lisäksi<br />
ja<br />
lim f(α) = lim<br />
α→∞ α→∞ ‖A(AT A + αI) −1 A T y − y‖ 2 = ‖y‖ 2 .<br />
lim f(α) = ‖Aˆx −<br />
α→0+ y‖2 ,<br />
missä ˆx on pienimmän neliösumman ratkaisu. Huomautuksen 2 mukaan Aˆx =<br />
Py, missä P on ortogonaaliprojektio aliavaruudelle R(A). Kun ‖ε‖ ≤ e, niin<br />
Morozovin diskrepanssiperiaatetta voidaan täten käyttää jos ‖(I − P)y‖ ≤ e ≤<br />
‖y‖.<br />
Yleisemmin Tikhonovin regularisaatiolla tarkoitetaan minimointiongelmaa<br />
ˆx = argmin<br />
x∈R n ‖Ax − y‖ 2 + ‖Bx‖ 2 .<br />
39
missä B = B n×n ′ on jokin sellainen matriisi, jolla matriisin B T B kaikki ominaisarvot<br />
ovat positiivisia. Vektori Bx vastaa jotakin tuntemattoman ei-toivottua<br />
ominaisuutta. Esim.<br />
⎛<br />
⎞<br />
1 0 0 0 · · · 0 0<br />
−1 1 0 0 · · · 0 0<br />
B = √ 0 −1 1 0 · · · 0 0<br />
α<br />
0 0 −1 1 0 · · · 0<br />
.<br />
⎜ . .. . .. . ⎟<br />
⎝ 0 0 · · · 0 −1 1 0⎠<br />
0 0 · · · 0 0 −1 1<br />
rankaisee vierekkäisten pisteiden erotuksia.<br />
3.3 Yhteenveto<br />
• Pienimmän neliösumman menetelmä:<br />
– antaa säännön approksimatiivisen ratkaisun etsimiseksi.<br />
– toimii erityisesti silloin kun häiriö ei kuulu operaattorin kuvajoukkoon.<br />
– pienimmän neliösumman ratkaisu on aina olemassa, mutta ei välttämättä<br />
yksikäsitteinen.<br />
– pienimmän neliösumman ratkaisu voi olla häiriöaltis.<br />
• Tkhonovin regularisaatio:<br />
Osattava:<br />
– huonosti asetettu/häiriöaltis ongelma korvataan hieman erilaisella<br />
hyvin asetetulla ongelmalla<br />
– antaa approksimatiivisen ratkaisun, joka sietää paremmin häiriöitä.<br />
– menetelmässä penalisoidaan jotakin tuntemattoman ei-toivottua ominaisuutta.<br />
– hyvin pieni residuaali ‖Aˆx α −y‖ 2 ei tarkoita häiriöisen datan tapauksessa<br />
että ratkaisu ˆx α olisi paras mahdollinen.<br />
• määritellä, mikä on pienimmän neliösumman ratkaisu<br />
• määritellä mikä on Tikhonovin regularisaatiolla saatu ratkaisu<br />
• laskea pienimmän neliösumman ratkaisu ja Tikhonovin regularisaatiolla<br />
saatu ratkaisu kun suoran teorian singulaariarvohajotelma on annettu<br />
• valita ongelmaan sopiva approksimatiivinen ratkaisumenetelmä yksinkertaisissa<br />
tapauksissa<br />
Ymmärrettävä:<br />
• miksi likimääräisratkaisuja käytetään<br />
40
• mitä eroa on likimääräisratkaisulla ja tavanomaisella ratkaisulla<br />
• mitä eroa on pienimmän neliösumman menetelmällä ja Tikhonovin regularisaatiolla<br />
• miten aliavaruus Ker(A) vaikuttaa pienimmän neliösumman ratkaisuihin<br />
ja Tikhonovin regularisaatiolla saatuihin ratkaisuihin.<br />
• miten regularisaatioparametrin α valinta vaikuttaa likimääräisratkaisuun<br />
Tiedettävä<br />
• millainen singulaariarvohajotelma on.<br />
• mikä on Morozovin diskrepanssiperiaate.<br />
41
Luku 4<br />
Tilastolliset<br />
inversio-ongelmat<br />
Maallikkotermejä käyttäen inversio-ongelmassa pyritään päättelemään seurauksista<br />
syihin Samaan tapaan ilmaistuna tilastollisessa inversio-ongelmassa pyritään<br />
arvioimaan syiden todennäköisyyksiä kun epätarkan seurauksen lisäksi<br />
tunnetaan epätarkkojen seurausten todennäköisyydet.<br />
Kertaamme todennäköisyyslaskennan perusteet ennen kuin ryhdymme käsittelemään<br />
tilastollisia inversio-ongelmia Tilastollisille inversio-ongelmille tärkeitä<br />
käsitteitä ovat<br />
• satunnaismuuttuja, satunnaisvektori,<br />
• satunnaisvektorien muunnokset<br />
• riippumattomat satunnaisvektorit<br />
• ehdolliset todennäköisyystiheysfunkiot ja<br />
• Bayesin kaava.<br />
4.1 Lyhyesti todennäköisyyslaskennasta<br />
1900-luvun alkaessa todennäköisyyslaskentaa ei pidetty matematiikan aitona<br />
osa-alueena, sillä todennäköisyyslaskennalla ei ollut aksiomaattista pohjaa. Hilbertin<br />
kuuluisista 23:sta ongelmasta kuudes vaati todennäköisyyslaskennan aksiomatisointia<br />
seuraavin sanoin:<br />
6. Mathematical Treatment of the Axioms of Physics. The investigations on<br />
the foundations of geometry suggest the problem: To treat in the same manner,<br />
by means of axioms, those physical sciences in which already today mathematics<br />
plays an important part; in the first rank are the theory of probabilities and<br />
mechanics.<br />
Todennäköisyyslaskennan aksiomatisointi onnistui vasta abstraktin mittateorian<br />
ja integraalilaskennan kehittämisen avulla 1920-luvun lopussa. Todennäköisyyslaskennan<br />
aksioomien isä on A. N. Kolmogorov (1903-1987).<br />
Kertaamme lyhyesti todennäköisyyslaskennan mittateoreettisen pohjan.<br />
43
4.1.1 Todennäköisyyslaskennan mittateoreettinen pohja<br />
Olkoon Ω perusjoukko, jonka alkiot ω ∈ Ω ovat alkeistapahtumia. Olkoon Σ<br />
kokoelma perusjoukon joukkoja joka muodostaa σ-algebran eli<br />
1. Ω ∈ Σ<br />
2. Jos A ∈ Σ, niin A C ∈ Σ.<br />
3. Jos A i ∈ Σ kun i ∈ N, niin ∪ ∞ i=1 A i ∈ Σ.<br />
Joukkoja A, B ∈ Σ nimitetään tapahtumiksi (eng. event).<br />
• Tapahtumien yhdiste A∪B tarkoittaa että joko tapahtuma A tai B sattuu<br />
(tai molemmat).<br />
• Joukkojen leikkaus A∩B tarkoittaa että molemmat tapahtumat sattuvat.<br />
• Joukon komplementti A C = Ω\A tarkoittaa, että tapahtuma A ei satu.<br />
Määritelmä 6. Kuvaus P : Σ → [0, 1] on todennäköisyysmitta (eng. probability<br />
measure), jos<br />
1. P(Ω) = 1<br />
2. Jos joukot A i ∈ Σ, i ∈ N, ovat sellaisia että A i ∩ A j = ∅ kaikiilla i ≠ j,<br />
niin P(∪ ∞ i=1 A i) = ∑ ∞<br />
i=1 P(A i) (täysadditiivisuus).<br />
Lukua P(A) kutsutaan tapahtuman A ∈ Σ todennäköisyydeksi.<br />
Kaksi tapahtumaa A ja B ∈ Σ ovat riippumattomia (eng. independent/statistically<br />
independent), jos P(A ∩ B) = P(A)P(B).<br />
4.1.2 Satunnaismuuttujista<br />
Tilastollista inversio-ongelmaa varten palautamme mieleen satunnaisvektorin<br />
määritelmän.<br />
Avaruuden R n Borel-joukkojen luokka on pienin sigma-algebra B(R n ) joka<br />
sisältää avoimet joukot.<br />
Määritelmä 7. Satunnaismuuttuja (eng. random variable) X on kuvaus X :<br />
Ω ↦→ R, jolle Borel-joukkojen alkukuvat ovat tapahtumia eli X −1 (B) ∈ Σ<br />
kun B ∈ B(R). Satunnaismuuttujan X jakauma (eng. distribution) on kuvaus<br />
B ↦→ P(X ∈ B) Borel-joukoilta välille [0, 1].<br />
Satunnaisvektori (eng. random vector) X = (X 1 , ..., X n ) on kuvaus X :<br />
Ω ↦→ R n , jolle avaruuden R n Borel-joukkojen B alkukuvat ovat tapahtumia<br />
eli X −1 (B) ∈ Σ kun B ∈ B(R n ). Satunnaisvektorin X jakauma on kuvaus<br />
B ↦→ P(X ∈ B) avaruuden R n Borel-joukoilta välille [0, 1].<br />
Sivuutamme seuraavan lauseen todistuksen, joka liittyy avaruuden R n Boreljoukkojen<br />
ominaisuuksiin.<br />
Lause 4. Kuvaus X : Ω → R n on satunnaisvektori jos ja vain jos kuvauksen<br />
X = (X 1 , ..., X n ) komponentit X i , i = 1, ..., n ovat satunnaismuuttujia.<br />
44
Matemaattisina objekteina satunnaismuuttujat ja satunnaisvektorit ovat funktioita;<br />
niissä itsessään ei ole mitään satunnaista, ei mitään satunnaisuutta aiheuttavaa<br />
mekanismia eikä keinoa generoida satunnaislukuja. Tämä voi vaikuttaa<br />
hieman oudolta... ....että satunnaisia ilmiöitä kuvaillaan ilman minkäänlaista<br />
satunnaisuutta...? Miten se voi toimia..?<br />
Avainsana on ”kuvailu”. Satunnaisilmiötä ei pyritä selittämään kokonaan,<br />
vaan ainoastaan kuvailemaan. Ajatellaan esimerkiksi, että satunnainen ilmiö<br />
tuottaa reaaliluvun (vaikka hissin saapumisaika napin painalluksen jälkeen), jota<br />
kuvaillaan satunnaismuuttujan X avulla. Satunnaismuuttujan mahdollisten<br />
arvojen tiedetään olevan reaalilukuja, mutta emme tiedä etukäteen tarkasti minkä<br />
arvon satunnaismuuttuja tulee saamaan. Tietomme satunnaismuuttujan toteutuvasta<br />
arvosta on epätäydellistä. Kun hissi saapuu hetkellä x 0 , on luku<br />
x 0 otos eli näyte satunnaismuuttujasta X. Tämä tarkoittaa, että x 0 = X(ω 0 )<br />
jollakin ω 0 ∈ Ω. Matematiikka ei kerra kuinka satunnaismuuttujasta on saatu<br />
näyte X(ω 0 ). Alkeistapahtuman ω 0 valintamekanismi on tuntematon. Vaikka<br />
funktio X ja joukko Ω on tiedossa, emme sen perusteella pysty etukäteen sanomaan<br />
satunnaismuuttujan toteutuvasta arvosta sen enempää kuin mitä jakauma<br />
P(X ∈ B), kun B ∈ B(R) paljastaa.<br />
4.1.3 Todennäköisyyslaskennan tulkinnat<br />
Matematiikassa esiintyy harvoin oppiriiitoja, mutta lukuarvon P(X ∈ B) tulkinta<br />
on sellainen. Kysymys on yksinkertainen; milloin on oikeutettua liittää<br />
tapahtumaan X ∈ B tietty todennäköisyys P(X ∈ B)?<br />
1. Frekventistinen tulkinta: tapahtuman todennäköisyys tarkoittaa sitä lukua,<br />
jota tapahtuman suhteellisten esiintymiskertojen lukumäärää lähestyisi<br />
jos koetta toistettaisiin äärettömän monta kertaa.<br />
2. Bayeslainen tulkinta: tapahtuman todennäköisyys on se varmuusaste, jolla<br />
uskomme tapahtuman toteutuvan.<br />
Subjektiivinen Bayeslainen tulkinta mahdollistaa todennäköisyyksien kiinnittämisen<br />
sellaisillekin tapahtumille, jotka eivät ole toistettavissa (esim. mikä<br />
Bayeslaisen tulkinnan mukaan on mahdollista puhua todennäköisyydestä sille,<br />
että muualla maailmankaikkeudessa on älyllistä elämää). Eri yksilöt saattavat<br />
myös kiinnittää eri todennäköisyyden samalle tapahtumalle. Frekventistisen tulkinnan<br />
mukaan tapahtumalle X ∈ B on mahdollista kiinnittää vain yksi ja aina<br />
sama todennäköisyys.<br />
Tässä kurssissa otamme todennäköisyydelle Bayeslaisen tulkinnan.<br />
4.1.4 Tiheysfunktiot<br />
Yksinkertaisuuden vuoksi tarkastelemme jatkossa vain tapahtumia X −1 (B),<br />
missä Borel-joukon B ⊂ R n indikaattorifunktio<br />
{<br />
1, x ∈ B<br />
1 B (x) =<br />
0, x /∈ B<br />
on Riemann-integroituva funktio. Esim. B voi olla suljettu kuutio.<br />
45
Määritelmä 8. Todennäköisyystiheysfunktio (lyh, tntf. eng. probability density<br />
function) f : R n → [0, ∞) on integroituva ei-negatiivinen funktio, jolle<br />
∫<br />
R n f(x)dx = 1.<br />
Reaaliarvoinen satunnaismuuttuja X, jolla on todennäköisyystiheysfunktio<br />
f X : R → R, on kuvaus X : Ω → R jolle<br />
P(a ≤ X ≤ b) =<br />
∫ b<br />
a<br />
f X (x)dx<br />
kaikilla a, b ∈ R, a ≤ b.<br />
Satunnaisvektori X = (X 1 , ..., X n ), jolla on todennäköisyystiheysfunktio f X ,<br />
on kuvaus X : Ω → R n , jolle<br />
P(a i ≤ X i ≤ b i , i = 1, ..n) =<br />
∫ b1<br />
a 1<br />
· · ·<br />
∫ bn<br />
a n<br />
f X (x 1 , ..., x n )dx 1 · · · dx n .<br />
kaikilla a i , b i ∈ R, a i ≤ b i , i = 1, ..n. Todennäköisyystiheysfunktiota f X kutsutaan<br />
satunnaismuuttujien X 1 , ..., X n yhteistodennäköisyystiheysfunktioksi.<br />
Funktiota<br />
∫ ∞ ∫ ∞ ∫ ∞ ∫ ∞<br />
f Xi (x) = · · ·<br />
· · · f X (x 1 , ..., x n )dx 1 · · · dx i−1 dx i+1 · · · dx n<br />
x 1=−∞ x i−1=−∞ x i+1=−∞ x n=−∞<br />
kutsutaan satunnaismuuttujan X i reunatodennäköisyystiheysfunktioksi (tai marginaalitntf).<br />
Kaksi satunnaismuuttujaa X ja Y , joiden yhteistodennäköisyystiheysfunktio<br />
on f (X,Y ) (x, y), ovat riippumattomia, jos<br />
f (X,Y ) (x, y) = f X (x)f Y (y).<br />
Yleisemmin, satunnaisvektorit X ja Y ovat riiippumattomia jos<br />
P((X, Y ) ∈ B 1 × B 2 ) = P(X ∈ B 1 )P(Y ∈ B 2 ).<br />
Määritelmä 9. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio<br />
on f X : R n → R. Satunnaisvektorin X odotusarvo (eng. expectation) on vektori<br />
m = (m 1 , ..., m n ) ∈ R n , jonka komponentit ovat<br />
∫<br />
m i = x i f X (x)dx<br />
R n<br />
mikäli x i f X (x) on integroituva kaikilla i = 1, ..., n. Odotusarvolle käytetään<br />
merkintää E[X] := m.<br />
Huomautus 4. Satunnaisvektorilla ei aina ole odotusarvoa.<br />
Määritelmä 10. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio<br />
on f X : R n → R ja odotusarvo E[X] = (m 1 , ..., m n ). Satunnaisvektorin<br />
X kovarianssimatriisi (eng. covariance matrix) on matriisi C X ∈ R n×n , jonka<br />
elementit ovat<br />
∫<br />
(C X ) ij = (x i − m i )(x j − m j )f X (x)dx,<br />
R n<br />
mikäli nämä integraalit ovat olemassa.<br />
46
Huomautus 5. Kovarianssimatriisi C X on aina symmetrinen ja sen ominaisarvot<br />
ovat ei-negatiivisia. Todellakin,<br />
(C X ) ij =<br />
∫<br />
(x i −m i )(x j −m j )f X (x)dx =<br />
R n ∫<br />
(x j −m j )(x i −m i )f X (x)dx = (C X ) ji<br />
R n<br />
ja jos u on ominaisvektori jolle C X u = λu ja ‖u‖ = 1, niin<br />
⎛ ⎞<br />
n∑ n∑<br />
λ = (C X u, u) = ⎝ (C X ) ij u j<br />
⎠u i<br />
=<br />
=<br />
=<br />
n∑<br />
∫<br />
i,j=1<br />
i=1<br />
missä g(x) = ∑ n<br />
i=1 (x i − m i )u i .<br />
j=1<br />
R n (x i − m i )u i (x j − m j )u j f X (x)dx<br />
∫ ( n<br />
) ⎛ ⎞<br />
∑<br />
n∑<br />
(x i − m i )u i<br />
⎝ (x j − m j )u j<br />
⎠f X (x)dx<br />
R n i=1<br />
j=1<br />
∫<br />
g(x) 2 f X (x)dx ≥ 0,<br />
R n<br />
Määritelmä 11. Olkoot X : Ω → R n ja Y : Ω → R m satunnaisvektoreita,<br />
joiden yhteistodennäköisyystiheysfunktio on f (X,Y ) : R n+m → R ja odotusarvot<br />
E[X] = m X ja E[Y ] = m Y . Satunnaisvektorien X ja Y ristikovarianssimatriisi<br />
(eng. cross-covariance matrix) on matriisi C XY ∈ R n×m , jonka elementit ovat<br />
(∫<br />
)<br />
(C XY ) ij = (x i − (m X ) i )(y j − (m Y ) j )f (X,Y (x, y)dx dy, i = 1, .., n j = 1, .., m<br />
∫R m R n<br />
mikäli nämä integraalit ovat olemassa.<br />
Huomautus 6. Ristikovarianssimatriisille pätee C T XY = C Y X.<br />
4.1.5 Ehdolliset jakaumat<br />
Määritelmä 12. Olkoot X : Ω → R n ja Y : Ω → R m satunnaisvektoreita,<br />
joiden yhteistntf. on f (X,Y ) : R n × R m → R ja reunatntf. f Y (y 0 ) > 0 pisteessä<br />
y 0 ∈ R m . Satunnaismuuttujan X ehdollinen todennäköisyystiheysfunktio<br />
ehdolla Y = y 0 (eng. conditional probability density function) on kuvaus<br />
R n ∋ x ↦→ f X (x|Y = y 0 ) = f (X,Y )(x, y 0 )<br />
. (4.1)<br />
f Y (y 0 )<br />
Määritelmä 13. Olkoot X : Ω → R n ja Y : Ω → R m satunnaisvektoreita,<br />
joiden yhteistntf. on f (X,Y ) : R n × R m → R ja reunatntf. f Y (y 0 ) > 0 pisteessä<br />
y 0 ∈ R m . Satunnaismuuttujan X ehdollinen odotusarvo ehdolla Y = y 0 (eng.<br />
conditional expectation) on vektori<br />
∫<br />
E[X|Y = y 0 ] = xf X (x|Y = y 0 )dx,<br />
R n<br />
mikäli integraali on olemassa.<br />
47
Lemma 5. Olkoon satunnaisvektorien X : Ω → R n ja Y : Ω → R m yhteistntf.<br />
(x, y) ↦→ f (X,Y ) (x, y) sellainen että kuvaus R n ∋ x ↦→ f (X,Y ) (x, y) on jatkuva<br />
jokaisella y ∈ R m .<br />
Silloin f (X,Y ) (x, y) = 0 aina kun f Y (y) = 0.<br />
Todistus. Reunatntf. määritelmän nojalla<br />
∫<br />
f Y (y) = f (X,Y ) (x, y)dx,<br />
missä x ↦→ f (X,Y ) (x, y) on ei-negatiivinen funktio, joka on oletuksen nojalla<br />
jatkuva. Olkoon f Y (y 0 ) = 0. Merkitään g(x) = f (X,Y ) (x, y 0 ), jolloin ∫ g(x)dx =<br />
0. Tehdään vastaoletus: g(x 0 ) > δ, jollakin x 0 ∈ R n ja δ > 0. Jatkuvuuden<br />
nojalla löytyy sellainen r > 0 jolla<br />
|g(x 0 ) − g(x)| < δ/2<br />
aina kun x ∈ B(x 0 , r). Silloin kolmioepäyhtälön ||a| − |b|| ≤ |a − b| nojalla<br />
g(x) = g(x) − g(x 0 ) + g(x 0 ) ≥ g(x 0 ) − |g(x 0 ) − g(x)| ≥ δ − δ/2 = δ/2<br />
jokaisella x ∈ B(x 0 , r). Tällöin<br />
∫ ∫<br />
g(x)dx ≥<br />
R n<br />
B(x 0,r)<br />
∫<br />
g(x)dx ≥<br />
B(x 0,r)<br />
δ<br />
2 dx ≥ δC 2 > 0,<br />
missä C on pallon B(x 0 , r) tilavuus. Koska oletimme, että ∫ g(x)dx = 0, niin<br />
vastaoletus on väärä, jolloin g ≡ 0.<br />
Lause 5. Olkoon satunnaisvektorien X : Ω → R n ja Y : Ω → R m yhteistnf.<br />
f (X,Y ) : R n × R m → R erikseen jatkuva molempien argumenttiensa suhteen<br />
eli kuvaus R n ∋ x ↦→ f (X,Y ) (x, y) on jatkuva jokaisella y ∈ R m ja kuvaus<br />
R m ∋ y ↦→ f (X,Y ) (x, y) on jatkuva jokaisella x ∈ R n Silloin<br />
f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x)<br />
jokaisella x ∈ R n ja y ∈ R m .<br />
Todistus. Jos f Y (y) ≠ 0 ja f X (x) ≠ 0, niin ehdollisen tntf:n määritelmän nojalla<br />
f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x). (4.2)<br />
Jos f Y (y) = 0 tai f X (x) = 0, niin Lemman 5 nojalla f (X,Y ) (x, y) = 0, jolloin<br />
yhtälö (4.2) on triviaalisti totta.<br />
Huomautus 7. Jos f Y (y) = 0 tai f X (x) = 0, niin tulos<br />
f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x)<br />
täytyy tarkistaa vain niillä arvoilla, joilla f (X,Y ) ≠ 0. Tällöin riittää olettaa että<br />
x ↦→ f (X,Y ) (x, y) on jatkuva vain niissä pisteissä x joissa f (X,Y ) (x, y) ≠ 0.<br />
48
Olkoon f X (x|Y = y) satunnaisvektorin X ehdollinen tntf ehdolla Y = y.<br />
Satunnaisvektorin X ehdollinen jakauma ehdolla Y = y on<br />
∫<br />
P(X ∈ B 1 |Y = y) = f X (x|Y = y)dx<br />
B 1<br />
Yllä olevan perusteella ehdolinen jakauma toteuttaa kokonaistodennäköisyyden<br />
kaavan<br />
∫<br />
P((X, Y ) ∈ B 1 × B 2 ) = P(X ∈ B 1 |Y = y)f Y (y)dy<br />
B 2<br />
riittävän säännöllisillä todennäköisyystiheysfunktioilla ja riittävän säännöllisillä<br />
joukoilla B 1 ⊂ R n ja B 2 ⊂ R m (esim. suljetut kuutiot). Kokonaistodennäköisyyden<br />
kaava on totta niukemmillakin säännöllisyysoletuksilla, mutta tämän<br />
havaitseminen vaatii mittateoreettisen lähestymistavan ehdollisiin todennäköisyyksiin.<br />
Huomautus 8. Jos satunnaismuuttujalla X ja satunnaismuutujalla Y on todennäköisyystiheysfunktio,<br />
niin satunnaisvektorilla (X, Y ) ei välttämättä ole<br />
todennäköisyystiheysfunktiota. Esimerkiksi, jos X on satunnaismuuttuja jolla<br />
on tn. tiheysfunktio f X : R → [0, ∞), niin satunnaisvektorilla (X, X) ei ole todennäköisyystiheysfunktiota.<br />
Osoitamme tämän tekemällä vastaoletuksen: oletetaan<br />
että satunnaisvektorilla (X, X) on tiheysfunktio f (X,X) (x, y). Merkitään<br />
B = {(x, y) ∈ R n × R n : x ≠ y} (on Borel-joukko). Silloin P((X, X) ∈ B) = 0<br />
koska (X, X) /∈ B. Tästä seuraisi että<br />
∫<br />
0 = P((X, X) ∈ B) = f (X,X) (x, y)dxdy<br />
=<br />
∫ ∞<br />
x=−∞<br />
mikä on mahdotonta.<br />
B<br />
(∫ x<br />
f (X,X) (x, y)dy +<br />
y=−∞<br />
∫ ∞<br />
y=x<br />
)<br />
f (X,X) (x, y)dy dx = 1,<br />
Huomautus 9. Emme voi laskea satunnaismuuttujan X ehdollista jakaumaa<br />
ehdolla X = x 0 käyttäen kaavaa (4.1), sillä satunnaisvektorilla (X, X) ei ole todennäköisyystiheysfunktiota<br />
yllä olevan huomautuksen nojalla. Vektorin (X, X)<br />
jakauma kuitenkin voidaan määrätä satunnaismuutujan X tn. tiheysfunktion<br />
avulla, sillä<br />
∫<br />
P((X, X) ∈ B 1 × B 2 ) = P(X ∈ B 1 ∩ B 2 ) = f X (x)dx.<br />
B 1∩B 2<br />
Jos haluamme, että kokonaistodennäköisyyden kaava pätee, niin tulisi olla<br />
∫<br />
∫<br />
f X (x)dx = P((X, X) ∈ B 1 × B 2 ) = P(X ∈ B 1 |X = x)f X (x)dx,<br />
B 1∩B 2 B 2<br />
mikä on mahdollista kun P(X ∈ B 1 |X = x 0 ) = 1 B1 (x 0 ). Erityisesti P(X ∈<br />
{x 0 }|X = x 0 ) = 1 eli X ehdolla X = x 0 on x 0 kuten voisi kuvitellakin. Tämän<br />
tuloksen vahvistaa ehdollisten todennäköisyyksien mittateoreettinen käsittely,<br />
mutta tarkempi todistus sivuutetaan tällä kurssilla.<br />
Sivuutamme myös seuraavan tuloksen todistuksen.<br />
Lause 6. Olkoon X R n -arvoinen satunnaisvektori, joka on riippumaton R n -<br />
arvoisesta satunnaisvektorista Y , jolla on todennäköisyystiheysfunktio.<br />
Satunnaisvektorin X + Y ehdollinen tntf ehdolla X = x 0 on sama kuin<br />
satunnaisvektorin x 0 + Y tntf.<br />
49
4.1.6 Satunnaisvektorien muunnokset<br />
Lause 7. Olkoon G : R n → R m on jatkuva funktio ja X : Ω → R n satunnaisvektori.<br />
Silloin G(X) on myös satunnaisvektori.<br />
Todistus. Meidän tarvitsee näyttää vain, että avoimen joukon B ∈ R m alkukuva<br />
G −1 (B) on avoin. Muille Borel-joukoille tulos seuraa sigma-algebran ominaisuuksien<br />
perusteella<br />
Okoon x ∈ G −1 (B), jolloin G(x) ∈ B. Joukon B avoimuuden nojalla löytyy<br />
ǫ > 0, jolla B(G(x), ǫ) ⊂ B. Koska F on jatkuva, niin on olemassa δ > 0, jolla<br />
|G(x) − G(y)| < ǫ kun |x − y| < δ. Siis G(B(x, δ)) ⊂ B(G(x), ǫ) ⊂ B, jolloin<br />
B(x, δ) ⊂ G −1 (B). Tämä todistaa, että joukko G −1 (B) on avoin.<br />
Esimerkki 14. Olkoon X : Ω → R n ja ε : Ω → R m satunnaisvektoreita.<br />
Seuraavat ovat myös satunnaisvektoreita<br />
1. aX, a ∈ R<br />
2. X + a , a ∈ R n<br />
3. ‖X‖ (=satunnaismuuttuja)<br />
4. Y = F(X) + ε, kun F : R n → R m jatkuva.<br />
Muistetaan, että muuttujanvaihto moniulotteisessa integraalissa voidaan tehdä<br />
Jakobin determinantin avulla. Jos f : R n → R on jatkuva funktio, U ⊂ R n<br />
avoin kuutio ja H : U → R n injektiivinen C 1 -funktio, jonka Jakobin matriisin<br />
determinantti ei häviä, niin<br />
∫ ∫<br />
f(x)dx =<br />
H(B)<br />
(JH(y)) ij = ∂H i<br />
∂y j<br />
(y), i, j = 1, ..., n.<br />
B<br />
f(H(y))| det(JH(y))|dy,<br />
kaikilla avoimilla tai suljetuilla kuutioilla B ⊂ U.<br />
Jos satunnaisvektorilla X on jatkuva todennäköisyystiheysfunktio f X , niin<br />
satunnaisvektorin aX, a > 0, tntf on x ↦→ 1<br />
a<br />
f n X (x/a), sillä muuttujanvaihdolla<br />
x = H(y) := y/a nähdään että<br />
P(aX ∈ B) = P(X ∈ 1 a B) = ∫<br />
H(B)<br />
∫<br />
f X (x)dx =<br />
B<br />
f X (y/a) 1<br />
a n dy<br />
Samoin satunnaisvektorin X + a, missä a ∈ R n tntf on f X (x − a), sillä muuttujanvaihdolla<br />
x = y − a =: H(y) nähdään. että<br />
∫<br />
∫<br />
P(X + a ∈ B) = P(X ∈ B − a) = f X (x)dx = f X (y − a)dy.<br />
H(B)<br />
Korollaari 4. Olkoon X ja Y kaksi riippumatonta satunnaisvektoria, joilla on<br />
tn. tiheysfunktiot f X ja f Y . Satunnaisvektorin Z = X + Y todennäköisyystiheysfunktio<br />
on<br />
f Z (z) =<br />
∫<br />
f X (z − y)f Y (y)dy =<br />
R n ∫<br />
f Y (z − x)f X (x)dx.<br />
R n<br />
50<br />
B
Todistus. Funktio f Z on tntf, sillä f Z ≥ 0 ja<br />
∫<br />
(∫<br />
)<br />
f Z (z)dz = f X (z − y)f Y (y)dy dz<br />
R<br />
∫R n n R<br />
(∫<br />
n )<br />
= f X (z − y)f Y (y)dz dy<br />
∫R n R n ∫<br />
= f X (z<br />
∫R ′ )dz ′ f Y (y)dy,<br />
n R n<br />
missä tehtiin muuttujanvaihto y ′ = z − y.<br />
Summan X +Y ehdollinen jakauma ehdolla X = x on sama kuin satunnaisvektorin<br />
x + Y jakauma, joka on<br />
∫<br />
∫<br />
P(x + Y ∈ B) = P(Y ∈ B − x) = f Y (z)dz = f Y (z − x)dz.<br />
Kokonaistodennäköisyyden kaavan ja Lauseen 6 nojalla<br />
∫<br />
P(X + Y ∈ B) = P((X + Y, X) ∈ B × R n ) = P(X + Y ∈ B|X = x)f X (x)dx<br />
(∫<br />
)<br />
= f Y (z − x)f X (x)dz dx<br />
∫R n B<br />
∫ (∫<br />
)<br />
= f Y (z − x)f X (x)dx dz<br />
B R n<br />
B−x<br />
Sisemmässä integraalissa voidaan tehdä muuttujan vaihto y = z − x.<br />
4.1.7 Gaussiset jakaumat<br />
Satunnaisvektorilla Z : Ω → R n on Gaussinen jakauma eli multinormaalijakauma,<br />
jos sen tntf on muotoa<br />
f Z (x) =<br />
1<br />
√<br />
(2π)n det(C) e−1 2 (x−m)T C −1 (x−m) ,<br />
B<br />
missä m ∈ R n ja C ∈ R n×n on symmetrinen matriisi, jonka ominaisarvot ovat<br />
positiivisia. Silloin merkitään Z ∼ N(m, C), mikä tarkoittaa että satunnaisvektorilla<br />
Z on multinormaalijakauma ja sen odotusarvo on m sekä kovarianssimatriisi<br />
on C.<br />
Lemma 6. Funktio<br />
f Z (x) =<br />
1<br />
√<br />
(2π)n det(C) e−1 2 (x−m)T C −1 (x−m) ,<br />
on tntf. Jos Z : Ω → R n sellainen satunnaisvektori, että Z ∼ N(m, C), niin<br />
satunnaisvektorin Z odotusarvo on<br />
E[Z] = m<br />
ja kovarianssimatriisi<br />
C Z = C.<br />
51
Todistus. Selvästi f Z ≥ 0. Tarkistetaan, mitä on<br />
∫<br />
1<br />
I = √ e −1 2 (x−m)T C −1 (x−m) dx.<br />
(2π)n det(C) R n<br />
Tehdään ensin muuttujanvaihto x ′ = x − m<br />
∫<br />
1<br />
I = √ e −1 2 (x)T C −1 x ′ dx ′ .<br />
(2π)n det(C) R n<br />
Tehdäään sitten muuttujanvaihto x ′′ = C − 1 2x ′ . Muistetaan, että C − 1 2 voidaan<br />
määrätä matriisin C ominaisarvohajotelman C = Udiag(λ 1 , ..., λ n )U T avulla<br />
muodossa C − 1 2 = Udiag( √ 1 1<br />
λ1<br />
, ..., √ λn<br />
)U T . Muuttujanvaihdon jälkeen saamme<br />
I =<br />
∫<br />
1<br />
√ e − 1 2 |x′′ | 2 | det(C 1/2 )|dx ′′ .<br />
(2π)n det(C) R n<br />
Viimeiseksi meidän tulee laskea integraalit<br />
∫<br />
1<br />
I = √ e −1 2 (x2 1 +x2 2 +....+x2 n ) dx 1 · · · dx n<br />
(2π)<br />
n<br />
R<br />
(∫<br />
n n<br />
1<br />
= √ e − 1 2 dx) x2 .<br />
(2π)<br />
n<br />
R<br />
Kätevimmin tämä käy kun lasketaan<br />
(∫<br />
2<br />
e − 1 2 dx) x2 =<br />
R<br />
∫<br />
R 2 e − 1 2 (x2 +y 2) dxdy<br />
napakoordinaateissa x = r cos(θ) ja y = r sin(θ). Saamme<br />
jolloin<br />
ja<br />
(∫ 2<br />
e − 1 2 dx) x2 =<br />
R<br />
∫<br />
R<br />
∫ ∞ ∫ 2π<br />
0<br />
0<br />
e −1 2 x2 dx = √ 2π.<br />
I = 1.<br />
e − 1 2 r2 rdrdθ = 2π<br />
Samaan tapaan nähdään, että satunnaisvektorin Z odotusarvo<br />
∫<br />
1<br />
E[Z] = √ xe − 1 2 (x−m)T C −1 (x−m) dx = m<br />
(2π)n det(C) R n<br />
ja kovarianssi on<br />
(C Z ) ij =<br />
1<br />
√<br />
(2π)n det(C)<br />
∫<br />
R n (x i − m i )(x j − m j )e −1 2 (x−m)T C −1 (x−m) dx = C ij .<br />
52
4.2 Moniulotteinen Riemann-integraali<br />
Olkoon B ⊂ R n n-ulotteinen suorakulmainen särmiö<br />
B = {x = (x 1 , ..., x n ) ∈ R n : a i ≤ x i ≤ b i , i = 1, ..., n}<br />
missä a i , b i ∈ R ja a i < b i . Merkitään särmiö B sisäpisteiden joukkoa Int(B).<br />
Määritelmä 14. Funktiota f : B → R kutsutaan porrasfunktioksi, jos särmiö<br />
B voidaan jakaa suorakulmaisiin särmiöihin B i , i = 1, ..m siten että löytyy luvut<br />
c i ∈ R joilla<br />
f(x) = c i ,<br />
kun x ∈ Int(B i ), i = 1, ..., m.<br />
Määritelmä 15. Määritelmän 14 porrasfunktion f : B → R integraali yli<br />
joukon B on<br />
∫<br />
m∑<br />
f(x)dx := c i Vol(B i )<br />
missä Vol(B i ) on särmiön<br />
B<br />
i=1<br />
B i = {x = (x 1 , ..., x n ) ∈ R n : a (i)<br />
j<br />
≤ x j ≤ b (i)<br />
j , j = 1, .., n}<br />
tilavuus<br />
.<br />
Vol(B i ) =<br />
n∏<br />
(b (i)<br />
j<br />
j=1<br />
− a (i)<br />
j ).<br />
Määritelmä 16. Olkoon f : B → R rajoitettu funktio. Jos on olemassa vain<br />
yksi luku I ∈ R, jolle<br />
∫<br />
∫<br />
s(x)dx ≤ I ≤ S(x)dx<br />
B<br />
jokaisella porrasfunktiolla s : B → R, jolla s ≤ f, ja jokaisella porrasfunktiolla<br />
S : B → R, jolla f ≤ S, niin sanotaan, että f on Riemann-integroituva (yli<br />
joukon B) ja merkitään ∫<br />
f(x)dx = I.<br />
B<br />
Olkoon K(B) kaikkien porrasfunktioiden f : B → R joukko.<br />
Lause 8. Rajoitettu funktio f : B → R on Riemann-integroituva jos ja vain<br />
jos<br />
∫<br />
∫<br />
sup<br />
s∈K(B)<br />
s≤f<br />
s(x)dx = I = inf<br />
S∈K(B)<br />
f≤S<br />
S(x)dx<br />
jolloin<br />
Todistus. Sivuutetaan.<br />
∫<br />
B<br />
B<br />
f(x)dx = I.<br />
53
Lause 9 (Fubinin lause Riemann-integroituville funktioille). Olkoon B ⊂ R n<br />
ja C ⊂ R m kompakteja suorakulmaisia särmiöitä. Olkoon f : B × C → R<br />
integroituva funktio, jolla ∫<br />
f(x, y)dy<br />
C<br />
on olemassa jokaisella x ∈ B. Silloin funktio B ∋ x ↦→ ∫ C<br />
f(x, y)dy on integroituva<br />
ja ∫ (∫ ) ∫<br />
f(x, y)dy dx = f(z)dz.<br />
B×C<br />
Todistus. Sivuutetaan.<br />
B<br />
C<br />
Fubinin lauseen nojalla moniulotteinen integraali voidaan laskea yksiulotteisten<br />
integraalien iteraationa eli esim kun n = 3, niin<br />
∫ ∫ (<br />
b<br />
3 ∫ (<br />
b2<br />
∫ )<br />
b1<br />
f(x)dx =<br />
f(x 1 , x 2 , x 3 )dx 1 dx 2<br />
)dx 3 ,<br />
B<br />
x 3=a 3 x 2=a 2 x 1=a 1<br />
kunhan kaikki integraalit ovat määriteltyjä. Lisäksi integroimisjärjestystä voi<br />
vaihtaa.<br />
• Integraali yli koko avaruuden R n määritellään epäoleellisena integraalina<br />
(eli raja-arvona integraaleista yli kasvavien osajoukkojen).<br />
• Jos f on ei-negatiivinen, Fubinin lause on edelleen totta kun B = R n ja<br />
C = R m sillä ei-vähenevien lukujen raja on joko rajoitettu tai +∞.<br />
• Jos f saa myös negatiivisia arvoja, ilmaistaan f muodossa f = f + − f − ,<br />
missä f + , f − ≥ 0, ja pyritään laskemaan integraali epäoleellisten integraalien<br />
erotuksena<br />
∫ ∫ ∫<br />
f(x)dx = f + (x)dx − f − (x)dx,<br />
mikäli mahdollista.<br />
Kirjallisuutta: Apostol: Calculus (vol II), Lang: Analysis I, Apostol: Mathematical<br />
Analysis<br />
4.3 Tilastollinen inversio-ongelma<br />
Olkoon F : R n → R m jatkuva funktio joka kuvaa suoraa teoriaa. Tarkastellaan<br />
inversio-ongelmaa, jossa tuntemattomasta vektorista x 0 ∈ R n on annettu<br />
häiriöinen data<br />
y 0 = F(x 0 ) + ε ∈ R m .<br />
Datassa esiintyvästä häiriöstä ε saatavilla oleva tieto on usein luonteeltaan<br />
tilastollista. Eräissä tilanteissa häiriötä mallinnetaan esimerkiksi satunnaisvektorina<br />
ε = (ε 1 , ..., ε m ), jonka komponentit ovat riippumattomia ja niiden todennäköisyydet<br />
ovat<br />
P(a ≤ ε i ≤ b) = √ 1 ∫ b<br />
(<br />
exp − 1 )<br />
2πσ 2σ x2 dx,<br />
54<br />
a
missä i = 1, ..., m, a < b ∈ R ja σ > 0.<br />
Kun F on lineaarinen kuvaus, niin edellisessä luvussa esitelty Morozovin diskrepanssiperiaate<br />
soveltuu huonosti tällaisen tapauksen käsittelyyn, sillä häiriön<br />
normi ei ole rajoitettu koska<br />
P(‖ε‖ > e) ≥ P(|ε i | > e) > 0<br />
millä tahansa e ≥ 0. Eräs vaihtoehto on siirtyä tilastollisiin ratkaisumenetelmiin.<br />
Tilastollisen inversio-ongelman periaatteeet ovat seuraavat:<br />
1. Tuntematonta ja dataa mallinnetaan satunnaisvektoreilla X ja Y .<br />
2. Datan ja tuntemattoman jakaumat edustavat niistä saatavilla olevaa kvantitatiivista<br />
ja kvalitatiivista tietoa sekä tälllaisen tiedon puutetta.<br />
3. Annettu data y 0 on näyte satunnaisvektorista Y eli y 0 = Y (ω 0 ) jollakin<br />
alkeistapahtumalla ω 0 ∈ Ω.<br />
4. Tilastollisen inversio-ongelman ratkaisu on satunnaisvektorin X ehdollinen<br />
todennäköisyysjakauma kun Y = y 0 on annettu.<br />
Tilastollisen inversio-ongelman ratkaisu ei niinkään vastaa kysymykseen ”mikä<br />
tuntematon vektori x 0 on”vaan pikemminkin kysymykseen ”mitä tiedämme<br />
tuntemattomasta vektorista x 0 ”.<br />
4.3.1 Bayesian kaava. Priori- ja posteriorijakaumat<br />
Tarkastellaan tilastollista inversio-ongelmaa missä tuntematonta mallinnetaaan<br />
satunnaisvektorilla<br />
X : Ω → R n ,<br />
suoraa teoriaa edustaa jatkuva kuvaus<br />
F : R n → R m<br />
ja häiriötä mallinnetaan satunnaisvektorilla<br />
Annettu dataa<br />
pidetään näytteenä satunnaisvektorista<br />
ε : Ω → R m .<br />
y 0 = F(x 0 ) + ε 0<br />
Y = F(X) + ε.<br />
Oletetaan, että satunnaisvektoreilla X ja Y on yhteistntf, jolla on marginaalitntf:t.<br />
Määritelmä 17. Tuntematonta mallintavan satunnaisvektorin X : Ω → R n todennäköisyystiheusfunktiota<br />
sanotaan proritodennäköisyystiheysfunktioksi (eng.<br />
prior probability density function) ja merkitään f pr (x). Satunnaisvektorin X jakaumaa<br />
sanotaan priorijakaumaksi (eng. prior distribution).<br />
55
Merkitään satunnaismuuttujien X ja Y yhteistodennäköisyystiheysfunktiota<br />
f = f(x, y), f : R n × R m → [0, ∞) ja satunnaismuuttujan Y todennäköisyystiheysfunktiota<br />
f Y (y).<br />
Oletetaan, että yhteistnft f on erikseen jatkuva kummankin argumenttinsa<br />
suhteen pisteissä f(x, y) ≠ 0. Bayesin kaavasta<br />
seuraa erityisesti, että<br />
jos f Y (y 0 ) ≠ 0.<br />
f(x, y) = f Y (y|X = x)f pr (x) = f X (x|Y = y)f Y (y)<br />
f X (x|Y = y 0 ) = f Y (y 0 |X = x)f pr (x)<br />
f Y (y 0 )<br />
Määritelmä 18. Tuntemattomatonta mallintavan satunnaisvektorin X : Ω →<br />
R n posterioritodennäköisyystiheysfunktio, kun Y = y 0 on annettu, on<br />
siinä tapauksessa, että f Y (y 0 ) ≠ 0.<br />
f post (x) := f Y (y 0 |X = x)f pr (x)<br />
,<br />
f Y (y 0 )<br />
Esimerkki 15. Oletetaan, että häiriö ε ∼ N(0, C ε ), tuntematon X ∼ N(0, C X ),<br />
tuntematon ja häiriö ovat riippumattomia, F : R n → R m on lineaarinen ja<br />
y 0 = Fx 0 + ǫ 0 on näyte satunnaismuuttujasta Y = FX + ε. Silloin<br />
1<br />
f Y (y|X = x) = √<br />
(2π)m det(C ε ) e− 1 2 (y−Fx)T C −1<br />
ε<br />
(y−Fx)<br />
ja posterioritntf on<br />
f post (x) = C y0 e −1 2 (y0−Fx)T Cε<br />
−1 (y0−Fx) e −1 2 xT C −1<br />
X x ,<br />
missä C y on normitusvakio. Tarkastellaan eksponenttia:<br />
− 1 2 (y 0 − Fx) T Cε<br />
−1 (y 0 − Fx) − 1 2 xT C −1<br />
X x<br />
= −1 2 yT 0 Cε<br />
−1 y 0 + 1 2 xT F T Cε −1 y 0<br />
Merkitään<br />
C post = ( F T C −1<br />
ε<br />
ja täydennetään eksponentti neliöksi<br />
+ 1 2 yT 0 C −1<br />
ε<br />
F + C −1 ) −1<br />
X<br />
Fx − 1 2 xT ( F T C −1<br />
ε<br />
F + C −1 )<br />
X x.<br />
− 1 2 (y 0 − Fx) T Cε<br />
−1 (y 0 − Fx) − 1 2 xT C −1<br />
X x<br />
= −1 2 (yT 0 C−1 ε y 0 ) + 1 2 xT Cpost −1 C postF T Cε −1 y 0<br />
+ 1 2 yT 0 C−1 ε FC post Cpost −1 x − 1 2 xT Cpost −1 x<br />
= − 1 2 (yT 0 C−1 ε y 0 ) − 1 2 (x − m post) T Cpost(x −1 − m post )<br />
+ 1 2 mT postC −1<br />
postm post<br />
56
missä<br />
m post = C post F T C −1<br />
ε<br />
y 0 = ( F T Cε<br />
−1 F + C −1 ) −1<br />
F T Cε −1 y 0 .<br />
Voimme määrätä nyt normitustekijän C y0 , ja saamme<br />
f post (x) =<br />
1<br />
√<br />
(2π)n det(C post ) e−1 2 (x−mpost)T C −1<br />
post (x−mpost) .<br />
X<br />
Posteriorijakauma on multinormaalijakauma ja sen odotusarvo<br />
ja kovarianssimatriisi on<br />
m post = ( F T C −1<br />
ε<br />
C post = ( F T C −1<br />
ε<br />
Erityisesti, jos C ε = δI ja C X = cI, niin<br />
m post =<br />
F + C −1 ) −1<br />
F T C −1<br />
X<br />
F + C −1 ) −1<br />
X .<br />
(<br />
F T F + δ c I ) −1<br />
F T y 0 ,<br />
ε y 0<br />
eli<br />
m post = argmin<br />
x∈R n ‖Fx − y 0 ‖ 2 + δ c ‖x‖2 .<br />
Tikhonovin regularisaatio, kun regularisaatioparametri α = δ/c, vastaa sitä,<br />
että häiriön jakauma on N(0, δI) ja priorijakauma on N(0, cI).<br />
Priorijakaumaa voi tulkita niin, että<br />
X i ∼ N(0, c)<br />
edustaa etukäteistietoa, jonka mukaan emme tiedä tarkalleen minkä arvo tuntemattoman<br />
komponentti saa, mutta mielestämme komponentin negatiiviset ja<br />
positiiviset arvot ovat yhtä mahdollisia (mistä odotusarvo nolla) ja suuret arvot<br />
ovat epätodennäköisiä. Riippumattomuus komponenttien välillä tarkoittaa,<br />
että haluasimme sallia suurehkoja vaihteluja komponenttien välillä.<br />
4.3.2 Uskottavuusfunktio f Y (y|X = x)<br />
Funktiota x ↦→ f Y (y|X = x) nimitetään uskottavuusfunktioksi (eng. likelihood<br />
function).<br />
Uskottavuusfunktio sisältää:<br />
• approksimatiivisen tai tarkan suoran teorian<br />
• häiriöstä johtuvat epätarkkuudet<br />
• suoran teorian mallinnusvirheistä johtuvat epätarkkuudet<br />
Tarkastellaan ensin yksinkertainen tapaus, jossa ei ole mallinnusvirhettä.<br />
57
Riippumattomat X ja ε<br />
Oletetaan, että X ja ε ovat riippumattomia satunnaisvektoreita ja Y = F(X)+<br />
ε, missä F : R n → R m on jatkuva suora teoria. Myös satunnaisvektorit F(X)<br />
ja ε ovat silloin riippumattomia. Jos satunnaisvektorilla ε on todennäköisyystiheysfunktio,<br />
niin satunnaisvektorin Y = F(X)+ ε ehdollinen todennäköisyystiheysfunktio<br />
kun X = x, on Lauseen 6 nojalla muotoa<br />
kun f X (x) ≠ 0.<br />
f Y (y|X = x) = f ε+F(x) (y) = f ε (y − F(x)),<br />
Esimerkki 16. Usein esiintyvä häiriömalli on Gaussinen jakauma eli multinormaalijakauma.<br />
Jos häiriötermillä ε on multinormaalijakauma N(0, C ε ), tuntematon<br />
X on riippumaton häiriötermistä ja Y = F(X) + ε, niin uskottavuusfunktio<br />
on<br />
f Y (y|X = x) =<br />
1<br />
√<br />
(2π)n det(C ε ) e−1 2 (y−F(x))T C −1<br />
ε (y−F(x)) .<br />
Esimerkiksi, jos tarkastellaan tietokonetomografiakuvausta, missä tuntematonta<br />
massa-absorptiokerrointavälillä [0, 1]×[0, 1] approksimoidaan funktiona f(s, t) =<br />
∑ n<br />
j=1 x jφ j (s, t), (s, t) ∈ [−1, 1] × [−1, 1] missä φ j on j:nen pikselin karakteristinen<br />
funktio ja x = (x 1 , ..., x n ) on tuntematon vektori, niin<br />
f Y (y|X = x) =<br />
1<br />
√<br />
(2π)n det(C ε ) e−1 2 (y−Fx)T C −1<br />
ε (y−Fx) ,<br />
missä F : R n → R m on kuvaus, jolle<br />
(Fx) i =<br />
∫ 1<br />
−1 j=1<br />
n∑<br />
x j φ j (t, a i t + b i )dt =<br />
n∑<br />
∫ 1<br />
x j φ j (t, a i t + b i )dt<br />
on funktion f integraali pitkin annettua suoraa t ↦→ a i t + b i eli<br />
F ij =<br />
Toisistaan riiippuvat X ja ε<br />
∫ 1<br />
−1<br />
j=1<br />
φ j (t, a i t + b i )dt.<br />
Lause 10. Olkoon satunnaisvektorilla (X, Y, ε) jatkuva todennäköisyystiheysfunktio<br />
ja myös sen reunajakaumat ovat jatkuvia todennäköisyystiheysfunktioita.<br />
Olkoon lisäksi f (X,ε) (x, z) > 0 kaikilla (x, z) ∈ R n × R m . Olkoon ehdollinen<br />
tnft f ε (z|X = x) annettu. Silloin<br />
∫<br />
f Y (y|X = x) = f ε (z|X = x)f Y (y|(X, ε) = (x, z))dz.<br />
R m<br />
kun f X (x) ≠ 0.<br />
Todistus. Meidän tulee määrätä<br />
f Y (y|X = x) = f (X,Y )(x, y)<br />
.<br />
f X (x)<br />
58<br />
−1
Nyt<br />
∫<br />
f (X,Y ) (x, y) = f (X,Y,ε) (x, y, z)dz.<br />
R m<br />
Lisäksi Bayesin kaavan nojalla<br />
f (X,ε) (x, z) = f ε (z|X = x)f X (x).<br />
Silloin<br />
∫<br />
f Y (y|X = x) =<br />
f (X,Y,ε) (x, y)<br />
R f m (X,ε) (x, z)<br />
f (X,ε) (x, z)<br />
dz.<br />
f X (x)<br />
Häiriö ja tuntematon voivat riippua toisistaan esim. mallinnusvirheiden kautta.<br />
Laskennallisista syistä korkeaulotteista tuntematonta halutaan usein approksimoida<br />
tuntemattomalla, jonka dimensio on pienempi. Merkitään tuntematonta<br />
satunnaisvektoria X : Ω → R N ja sen ortogonaalista projektiota n-ulotteiseen<br />
aliavaruuteen X n = P n X, n < N.<br />
Silloin<br />
F(X) = F(X n ) + (F(X) − F(X n )) =: F(X n ) + ˜ε<br />
ja datavektori toteuttaa yhtälön<br />
Y = F(X) + ε = F(X n ) + ˜ε + ε<br />
josta voimme Lauseen 10 oletuksilla yhteisjakaumalle kirjoittaa uskottavuusfunktion<br />
∫<br />
f Y (y|X n = x) = f eε (z|X n = x)f Y (y|(X n , ˜ε) = (x, z))dz.<br />
R m<br />
missä<br />
f Y (y|(X n , ˜ε) = (x, z)) = f ε (y − F(x) − z).<br />
Tilastollinen suoran teorian mallinnusvirhe<br />
Oletetaan yksinkertaisuuden vuoksi, että suora teoria F σ : R n → R m on<br />
lineaarinen kuvaus, joka riippuu jatkuvasti parametrista σ ∈ R, jota ei tunneta<br />
tarkasti.Tällöin on oikeutettua mallintaa epätarkkaa tietoa tilastollisesti parametrille<br />
σ asetetun todennäköisyysjakauman avulla, jolloin myös lineaarisen<br />
kuvauksen matriisista F σ tulee satunnainen. Erityisesti<br />
⎛<br />
⎞<br />
n∑<br />
Y i (ω) = ⎝<br />
j=1<br />
F σ(ω)<br />
ij<br />
X j (ω) ⎠ + ε i (ω).<br />
jokaisella alkeistapahtumalla ω ∈ Ω.<br />
Jos satunnaismuuttujat σ, X ja ε ovat riippumattomia, niin Lauseen 10 oletuksilla<br />
yhteisjakaumalle<br />
∫<br />
f Y (y|X = x) = f eε (y − F s x)f σ (s)ds<br />
R m<br />
kun f X (x) > 0.<br />
59
4.3.3 Priori f pr (x)<br />
Prioritntf edustaa tuntemattomasta saatavilla olevaa etukäteistietoa ja kuvailee<br />
myös käsityksemme tiedon puutteesta. Voimme kysyä, kuinka prioritntf muodostetaan<br />
etukäteistiedon perusteella?<br />
Oletetaan, että tuntematon vektori x ∈ R n kuvaa funktion g arvoja esimerkiksi<br />
joissakin neliön [0, 1] × [0, 1] pisteissä eli<br />
missä t i ∈ [0, 1] × [0, 1] kun i = 1, ..., n.<br />
x i = g(t i ),<br />
Mahdollista prioritietoa:<br />
Funktio g<br />
Vektori x<br />
Funktion g jotkin arvot.<br />
Vektorin x jotkin komponentit<br />
Esim. reuna-arvot tunnetaan tarkasti x i tunnetaan tarkasti tai<br />
tai epätarkasti.<br />
epätarkasti.<br />
Funktion g sileys.<br />
Vektorin x naapurikomponenttien käytös.<br />
Funktion g arvojoukko.<br />
Vektorin x komponenttien x i arvojoukko.<br />
Esim g ≥ 0, monotonisuus Esim. x i ≥ 0, x i ≥ x i+1<br />
Funktion g symmetriaominaisuudet. Vektorin x symmetriaominaisuudet.<br />
Esim. jaksollisuus, rotaatiosymmetria. Esim. x = Mx + b joillakin M ∈ R n×n ja b ∈ R n .<br />
Muut funktiota g sitovat yhtälöt. Vektorin komponentteja sitovat muut<br />
Esim. jos g : R 3 → R 3 on yhtälöt.<br />
magneettikenttä, niin ∇ · g ≡ 0.<br />
Funktion g lineaarinen riippuvuus<br />
tunnetuista funktioista.<br />
Esim. g = ∑ ∞<br />
i=1 a iφ i , a i ∈ R.<br />
Vektorin x virittäjävektorit tunnetaan<br />
Esim. x = ∑ n ′<br />
i=1 a ie i , n ′ ≤ n.<br />
Mahdollisia tilastollisia malleja:<br />
Tuntematon vektori x ∈ R n<br />
Vektorin x jotkin komponentit<br />
x i tunnetaan tarkastii<br />
tai epätarkasti.<br />
Vektorin x naapurikomponenttien käytös.<br />
Vektorin x komponenttien x i arvojoukko. Esim. |X i | = X i .<br />
Esim. x i ≥ 0<br />
Vektorin x symmetriaominaisuudet.<br />
Esim. X = MX + b<br />
Esim. x = Mx + b joillakin M ∈ R n×n ja b ∈ R n .<br />
Vektorin x virittäjävektorit tunnetaan. X = ∑ n ′<br />
Tuntemattoman tilastollinen malli X : Ω → R n<br />
X i = m i + Z i , missä sv. Z i jakauma kuvaa<br />
arvon m i epätarkkuutta<br />
Satunnaisvektorin X naapurikomponenttien<br />
riiippuvuus. Satunnaisvektorin X<br />
naapurikomponenttien yhteisjakaumat<br />
i=1 Z ie i<br />
Esim. x = ∑ n ′<br />
i=1 a ie i , n ′ ≤ n. missä sm:n Z i jakauma edustaa<br />
kertoimiin liittyvää epävarmuutta.<br />
Esim. f Zi = f Zj kun i ̸ j.<br />
60
4.4 Erilaisia priorijakaumia<br />
Okoon X : Ω → R n satunnaisvektori, joka mallintaa inversio-ongelman tuntematonta<br />
vektoria. Olkoon f pr : R n → [0, ∞) satunnaisvektorinX tntf.Tarkastellaan<br />
muutamia vaihtoehtoja.<br />
Tasainen jakauma<br />
Olkoon B ⊂ R n suljettu ja rajoitettu suorakulmainen särmiö<br />
B = {x ∈ R n : a i ≤ x i ≤ b i , i = 1, .., n},<br />
missä a i < b i kun i = 1, .., n.<br />
Satunnaisvektorilla X on tasainen jakauma joukossa B jos<br />
f pr (x) = 1<br />
|B| 1 B(x),<br />
missä |C| := ∫ C dx on integraali yli suorakulmaisen särmiön C ⊂ Rn .<br />
• P(X ∈ B) = 1 ja sen komponenteille P(X i ∈ [a i , b i ]) = 1. Tiedetään<br />
varmasti, että tuntematon kuuluu joukkoon B ja tuntemattoman i:s komponentti<br />
kuuluu välille [a i , b i ].<br />
• Jos ˜B ⊂ B ja myös sen translaatio ˜B − x ⊂ B jollakin suorakulmaisella<br />
särmiöllä ˜B ja vektorilla x ∈ R n , niin mielestämme tapahtumien X ∈ ˜B<br />
ja X ∈ ˜B −x toteutuminen on täsmälleen yhtä epävarmaa. Tasainen priorijakauma<br />
ilmaisee lähes täydellistä epävarmuutta tuntemattoman vektorin<br />
arvoista komponenttien arvoista: tiedämme että tuntematon kuuluu<br />
joukkoon B. Piste.<br />
• Joukon B on oltava rajoitettu, jotta f pr olisi tntf.<br />
• Posteriorijakauman tntf<br />
l 1 -priori<br />
f post (x) = f Y (y|X = x)1 B (x)<br />
f Y (y)|B|<br />
on joukkoon B rajoitettu ja uudelleen normitettu uskottavuusfunktio.<br />
Määritellään avaruuteen R n uusi normi, ns. l 1 -normi<br />
‖x‖ 1 =<br />
n∑<br />
|x i |<br />
i=1<br />
kun x ∈ R n .<br />
Satunnaisvektorilla X on l 1 -priori, jos<br />
( α<br />
) n<br />
f pr (x) = e<br />
−α‖x‖ 1<br />
2<br />
• Komponentit X i ovat toisistaan riippumattomia.<br />
61
1<br />
0.9<br />
0.8<br />
alpha=0.5<br />
alpha=1<br />
alpha=2<br />
0.7<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
−10 −8 −6 −4 −2 0 2 4 6 8 10<br />
Kuva 4.1: 1-ulotteisen l 1 -jakauman tntf.<br />
• Tntf f Xi on symmetrinen origon suhteen (jolloin prioriodotusarvo on nollavektori).<br />
• Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman<br />
komponenttien saavan suurehkoja arvoja.<br />
Cauchy-jakauma<br />
Satunnaisvektorilla X on Cauchy-jakauma, jos<br />
kun x ∈ R n .<br />
( α<br />
) n ∏<br />
n 1<br />
f pr (x) =<br />
π 1 + α 2 x 2 i<br />
i=1<br />
• Komponentit X i ovat riippumattomia.<br />
• Tntf f Xi on symmetrinen origon suhteen (jolloin prioriodotusarvo on nollavektori.<br />
• Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman<br />
komponenttien saavan suurehkoja arvoja.<br />
• Kuvaa parhaiten tilannetta, jossa suurin osa komponenttien arvoista on<br />
lähellä nollaa, mutta joukossa on muutamia poikkeavia arvoja.<br />
62
0.7<br />
0.6<br />
alpha=0.5<br />
alpha=1<br />
alpha=2<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
−10 −8 −6 −4 −2 0 2 4 6 8 10<br />
Kuva 4.2: Cauchy-jakauman tntf.<br />
Diskreetit Markovin kentät<br />
Oletetaan, että tuntematon vektori kuvaa jonkin n ′ -muuttujan funktion f :<br />
R n′ → R arvoja pisteissä t i , i = 1, ..., n.<br />
Indeksien i naapurustot N i ⊂ {1, ..., n} ovat jokin joukkoperhe jolle pätee<br />
1. i /∈ N i<br />
2. i ∈ N j jos ja vain jos j ∈ N i .<br />
Määritelmä 19. Satunnaisvektori X on diskreetti Markovin kenttä naapurustojen<br />
N i , i = 1, .., n suhteen jos<br />
f Xi (x|(X 1 , X 2 , .., X i−1 , X i+1 , X i+2 , ..., X n ) = (x 1 , x 2 , .., x i−1 , x i+1 , x i+2 , ..., x n ))<br />
= f Xi (x|X k = x k ∀k ∈ N i )<br />
Diskreetin Markovin kentän komponentti X i riippuu ainoastaan naapurikomponenteista<br />
X k , k ∈ N i .<br />
Lause 11 (Hammersley-Clifford). Olkoon satunnaisvektori X : Ω → R n diskreetti<br />
Markovin kenttä naapurustojen N i , i = 1, .., n suhteen, jolla on tntf.<br />
f X > 0. Silloin<br />
f X (x) = ce − P n<br />
i=1 Vi(x)<br />
missä funktio V i : R n → R riippuu vain komponentista x i ja sen naapurikomponenteistä<br />
x k , k ∈ N i .<br />
Esimerkki 17. Oletetaan, että satunnaisvektori X mallintaa N × N-pikselin<br />
kuvaa siten, että kuvaa vastaava matriisi on järjestetty n = N 2 -ulotteiseksi<br />
63
vektoriksi riveittäin. Satunnaisvektorilla X : Ω → R 2 on totaalivariaatiopriorijakauma<br />
, jos<br />
f pr (x) = ce − P n<br />
j=1 Vj(x)<br />
missä<br />
V j (x) = α ∑<br />
l ij |x i − x j |<br />
2<br />
i∈N j<br />
ja indeksin j naapurusto N j sisältää ne indeksit, joita vastaavilla pikseleillä on<br />
yhteinen sivu pikselin j kanssa. Luku l ij on yhteisen sivun pituus.<br />
• Totaalivariaatio ∑ n<br />
j=1 1 ∑<br />
2 i∈N j<br />
l ij |x i −x j | on pieni, jos pikselin i väriarvo<br />
x i ja sen naapuripikselien väriarvot x j , j ∈ N i eivät eroa paljon toisistaan<br />
tai eroavat paljon vain sellaisten pikselijoukkojen välillä, joiden reunan<br />
pituus on lyhyt. Vastaavasti tntf antaa suuren painon tällaisille vektoreille.<br />
• Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman<br />
totaalivariaation saavan suurehkoja arvoja.<br />
Esimerkki 18. Diskreetit Markovin kentät soveltuvat hyvin rakenteesta olevan<br />
prioritiedon esittämiseen. Esim. lääketieteellisessä kuvantamisessa on joskus<br />
mahdollsita tietää etukäteen missä eri elinten rajapinta sijaitsee esim. anatomian<br />
tai röntgenkuvien perusteella. Silloin voimme valita naapurustot siten,<br />
että j /∈ N i jos pikseli j kuuluu eri elimeen kuin pikseli i. Tällöin satunnaisvektorin<br />
X eri elimiä edustavat komponentit ovat toisistaan riippumattomia, mikä<br />
mahdollistaa komponenttien arvojen suurehkot hypyt kudosten rajapinnan yli.<br />
Gaussinen jakauma<br />
Olkoon X ∼ N(m, C) eli satunnaisvektori X on multinormaalijakautunut, sen<br />
odotusarvovektori on m ja kovarianssimatriisi on C. Gaussista priorijakaumaa<br />
suositaan kahdesta syystä: 1) posteriorijakauman yksinkertaisuus kun häiriö on<br />
myös Gaussinen ja 2) keskeinen raja-arvolause.<br />
Keskeinen raja-arvolause: Jos satunnaismuuttujat {Z i : i ∈ N} ovat<br />
pareittain riippumattomia, samoin jakautuneita ja m = E[Z i ] sekä C = E[(Z i −<br />
m) 2 ] ovat äärellisiä, niin satunnaismuutjien<br />
X n =<br />
n∑<br />
i=1<br />
(Z i − m)<br />
√<br />
nC<br />
jakauma, kun n kasvaa rajatta, lähestyy normaalijakaumaa N(0, 1) siinä mielessä<br />
että<br />
lim P(X n ≤ a) = 1 ∫ a<br />
√ e −1 2 x2 dx<br />
n→∞ 2π −∞<br />
jokaisella a ∈ R.<br />
Keskeinen raja-arvolause takaa myös sen, että eräät häiriötermit ovat lähes<br />
multinormaalijakautuneita. Esimerkiksi kaikissa elektronisissa mittalaitteissa<br />
esiintyy lämpökohinaa, joka johtuu elektronien satunnaisesta lämpöliikkeestä:<br />
sähkövirta hetkellä t ei ole täsmälleen jännite-erojen aikaansaama virta, vaan siihen<br />
on summautunut jokaisen elektronin pieni satunnainen lämpöliike. Kunkin<br />
64
elektronin lämpöliike noudattaa mittalaitteen lämpötilasta riippuvaa jakaumaa<br />
ja eri elektronien lämpöliikkeitä voidaan pitää riippumattomina. Sähkövirtaan<br />
summautuu kaikkien elektronien lämpöliike, joka on keskeisen raja-arvolauseen<br />
nojalla hyvin lähellä normaalijakaumaa. Lämpökohinaa approksimoidaan normaalijakaumalla.<br />
Esimerkki 19. Revontulet ja Gaussinen priori. Epäkoherentissa sironnassa ionosfäärin<br />
plasman yksittäiset elektronit lähettävät kukin oman heikon signaalinsa.<br />
Epäkoherentisti sironnut signaali on summa yksittäisten elektronien signaaleista.<br />
Keskeisen raja-arvolauseen nojalla voidaan olettaa, että myös sironnut<br />
signaali noudattaa Gaussista jakaumaa.<br />
0.8<br />
0.7<br />
alpha=2<br />
alpha=1<br />
alpha=0.5<br />
0.6<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
−10 −8 −6 −4 −2 0 2 4 6 8 10<br />
Kuva 4.3: Normaalijakauman N(0, α) tntf.<br />
Oletetaan, että m = 0 ja tarkastellaan kovarianssimatriisin sisältyvää prioritietoa<br />
kahdessa eri tapauksessa.<br />
Sileyspriorit reuna-ehdolla:<br />
1D-tapaus: Oletetaan, että X kuvaa funktion f arvoja pisteissä t i ∈ [0, 1],<br />
i = 1, .., n, 0 = t 0 < t 1 < · · · < t n < 1 ovat tasavälisiä pisteitä ja f(t) = 0 kun<br />
t ≤ 0. Olkoon matriisi L ∈ R n×n sellainen, että<br />
⎧<br />
⎪⎨ 1, i = j,<br />
L ij = −1, j = i − 1, 2 ≤ i ≤ n<br />
⎪⎩<br />
0, muulloin.<br />
Määritellään satunnaisvektori X yhtälöllä<br />
1<br />
a LX = W ⇔ X = aL−1 W<br />
65
missä W ∼ N(0, I n ). Tällöin satunnaismuuttujat<br />
X i − X i−1 ∼ N(0, a 2 ), i = 1, .., n<br />
ovat toisistaan riippumattomia. Tässä X 0 ≡ 0. Satunnaisvektori X = (X 1 , ..., X n ) ∼<br />
N(0, a 2 (LL T ) −1 ) ja<br />
f pr (x) = ce − 1<br />
2a 2 (x 2 1 +P n<br />
i=2 (xi−xi−1)2 ) .<br />
• Jakauma sisältää priorioletuksen: reunaa vastaava komponentti X 0 ≡ 0.<br />
• Jos parametri a on suuri, niin vierekkäisten komponenttien erotukset voivat<br />
olla suurehkoja. Jos parametri a on pieni, on todennäköisempää että<br />
vierekkäisten pisteiden erotus on pienehkö.<br />
• Parametrin a valinta perustuu siihen, kuinka varmasti uskomme tuntematoman<br />
vierekkäisten komponenttien erotukset saavan suurehkoja arvoja.<br />
Tämä liittyy käsitykseemme tuntemattoman funktion derivaatan käytöksestä.<br />
Vastaavasti, voimme tarkastella toisia differenssejä ja asettaa<br />
Tällöin<br />
1<br />
a 2 L2 X = W.<br />
f pr (x) = ce − 1<br />
2a 4 (x 2 1 +(−2x2−x1)2 + P n<br />
i=3 (xi−2xi−1+xi−2)2 ) .<br />
joilla<br />
• Jakauma sisältää priorioletukset: reunaa vastaava komponentti X 0 ≡ 0<br />
samoin kuin X −1 ≡ 0 joka mallintaa funktion arvoa pisteessä f(t −1 ),<br />
t −1 < 0.<br />
• Jos parametri a on suuri, niin vierekkäisten komponenttien toiset differenssit<br />
voivat olla suurehkoja. Jos parametri a on pieni, on todennäköisempää<br />
että vierekkäisten pisteiden toiset differenssit ovat pienehkö.<br />
• Parametrin a valinta perustuu siihen, kuinka varmasti uskomme tuntematoman<br />
vierekkäisten komponenttien toiset differenssit saavan suurehkoja<br />
arvoja. Tämä liittyy käsitykseemme tuntemattoman funktion toisen derivaatan<br />
käytöksestä.<br />
Vastaavasti voidaan määritellä korkeammilla differensseillä<br />
k=0<br />
1<br />
a m Lm X = W,<br />
m∑ ( (−1) k m<br />
)<br />
X i−k ∼ N(0, a 2m )<br />
k<br />
ovat riiippumattomia satunnaismuuttujia.<br />
2D-tapaus: Oletetaan, että X kuvaa funktion f arvoja pisteissä t i ∈ [0, 1] ×<br />
[0, 1], i = 1, .., n 2 , ja f(t) = 0 kun t /∈ [0, 1] × [0, 1]. Oletetaan, että {t i ∈ [0, 1] ×<br />
66
[0, 1] : i = 1, .., n 2 } = {( k n , j n ) : k, j = 1, ..., n}. Olkoon matriisi L ∈ ×n 2<br />
Rn2<br />
sellainen, että<br />
⎧<br />
⎪⎨ 4, i = j,<br />
L ij = −1, kunj ∈ N i<br />
⎪⎩<br />
0, muulloin.<br />
missä pisteen i ympäristö N i sisältää indeksit k, jotka ovat pisteen t i vasemman-,<br />
oikean-, ylä- ja alapuolisen pisteen t k indeksit (mikäli nämä pisteet ovat olemassa).<br />
Määritellään satunnaisvektori X yhtälöllä<br />
missä W ∼ N(0, I n 2).<br />
1<br />
a 2 LX = W ⇔ X = a2 L −1 W<br />
• Priorijakauma sisältää oletuksen, että indeksialueen ulkopuolella tuntematon<br />
häviää.<br />
• Matriisi-indekseillä riippumattomat normaalijakautuneet satunnaismuuttujat<br />
−X i(k+1) −X i(k−1) +4X ik −X (i+1)k −X (i−1)k = −X i(k+1) +2X ik −X i(k−1) −X (i+1)k +2X ik −X (i−1)k<br />
ovat eri akselien suuntaan laskettujen 2. differenssien summa.<br />
• Parametrin a valinta perustuu siihen, kuinka varmasti uskomme tuntematoman<br />
vierekkäisten komponenttien toisten differenssien summan saavan<br />
suurehkoja arvoja. Tämä liittyy käsitykseemme tuntemattomasta funktiosta<br />
f otetun Laplacen operaattorin ∆f käytöksestä.<br />
Korrelaatiopriorit:<br />
Jos satunnaisvektori X ∼ N(0, C) mallintaa tuntemattoman 2π-periodisen<br />
funktion f arvoja pisteissä t i = 2π(i − 1)/n, i = 1, ..., n, niin myös sen kovarianssimatriisin<br />
tulisi kuvata periodisuutta. Tämä voidaan toteuttaa valitsemalla<br />
sopiva vektori<br />
c = (c 1 , ..., c n )<br />
ja ottamalla C sirkulantiksi matriisiksi, jonka c määrää.<br />
Esimerkiksi<br />
c i = e −α|i−n/2| (4.3)<br />
kun i = 1, ..., n.<br />
• Prioritieto periodisuudesta on sisällytetty kovarianssimatriisin rakenteeseen.<br />
• Yhtälölle (4.3) määritelty c riippuu parametrista α > 0. Parametri α kuvaa<br />
käsitystämme tuntemattoman vektorin komponenttien välillä vallitsevasta<br />
riippuvuudesta.<br />
67
Positiivisuusrajoitus<br />
Jos tiedetään, että tuntemattoman komponentit ovat ei-negatiisia, niin käytetään<br />
rajoitettua ja uudelleen normitettua tntf:ta<br />
f pr (x) = cf + (x)f X (x)<br />
missä<br />
f + (x) =<br />
{<br />
1, x i ≥ 0 ∀i = 1, .., n<br />
0 muulloin.<br />
0.4<br />
0.35<br />
Gauss<br />
l1<br />
Cauchy<br />
0.3<br />
0.25<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
−10 −8 −6 −4 −2 0 2 4 6 8 10<br />
Kuva 4.4: Normaalijakauman N(0, 1) tnft, Cauchy-jakauman tntf kun α = π √<br />
2π<br />
ja l 1 -priorin tntf kun α = 2<br />
2π .<br />
Hierarkinen priori<br />
Jos tuntemattomanta mallintavan satunnaisvektorin todennäköisyystiheysfunktion<br />
arvot riippuvat jatkuvasti parametreista σ ∈ R n′ joita ei tunneta tarkasti,<br />
niin parametreihin liittyvää epävarmuutta on mahdollista kuvailla todennäköisyysjakauman<br />
avulla.<br />
Olkoon X : Ω → R n tuntematonta mallintava satunnaisvektori, jolla on<br />
tntf f X . Olkoon σ : Ω → R n′ parametria mallintava satunnaisvektori, jolla on<br />
tntf f σ . Oletetaan, että tiedetään lauseke satunnaisvektorin X jakaumalle, kun<br />
parametrin σ arvo on tunnettu eli funktio<br />
x ↦→ f X (x|σ = s) = f s X (x)<br />
tunnetaan kaikilla s ∈ R n′ . Oletetaan että tulo f s X (x)f σ(s) on Riemann-integroituva<br />
ja<br />
f (X,σ) (x) = f s X (x)f σ(s).<br />
68
Vaihto-ehto 1) Tuntematonta mallinnetaan satunnaisvektorina X, jolla on<br />
todennäköisyystiheysfunktio<br />
∫<br />
f pr (x) = fX(x)f s σ (s)ds 1 · · · ds n ′<br />
(mikäli tämä marginaalitntf on olemassa). Vastaava posteriorijakauma on<br />
f post (x) = cf Y (y|X = x)f pr (x)<br />
kun f Y (y) > 0.<br />
Vaihtoehto 2) Myös hyperparametria σ pidetään osana tuntemattonta ja<br />
prioriksi otetaan yhteisjakauma<br />
jolloin<br />
f pr (x, s) = f s X(x)f σ (s).<br />
f post (x, s) = cf Y (y|(X, σ) = (x, s))f pr (x, s) = cf Y (y|X = x, s)f pr (x, s)<br />
kun f Y (y) > 0, sillä uskottavuusfunktio ei riipu parametrin σ arvosta.<br />
Vastaavaa prioritodennäköisyystiheysjakaumaanimitetään hierarkiseksi prioriksi<br />
(eng. hierarchical prior). Parametreja σ : Ω → R n′ nimitetään hyperparametreiksi<br />
(eng. hyperparameter) ja sen jakaumaa hyperprioriksi (eng. hyper<br />
prior).<br />
Esimerkki 20. Olkoon X : Ω → R 3 tuntematonta mallintava satunnaisvektori<br />
ja σ : Ω → R satunnaismuuttuja. Olkoon<br />
⎛<br />
D s = ⎝ 1 0 0 ⎞<br />
0 s 0⎠.<br />
0 0 1<br />
ja<br />
⎛<br />
L = ⎝ 1 0 0<br />
⎞<br />
−1 1 0⎠.<br />
0 −1 1<br />
Oletetaan , että<br />
f X (x|σ = s) = c s e − 1 2 xT L T D sLx = 2√ s<br />
√<br />
2π<br />
3 exp (<br />
− 1 2 x2 1 − s 2 (x 2 − x 1 ) 2 − 1 2 (x 3 − x 2 ) 2 )<br />
ja<br />
f σ (s) = λf + (s)e −λs<br />
missä λ > 0 ja f + (s) = 1 kun s > 0 ja 0 muulloin. Silloin<br />
f (X,σ) (x, s) =<br />
√ sλ<br />
( √ 2π) f +(s)exp<br />
(− 1 3 2 x2 1 − s 2 (x 2 − x 1 ) 2 − 1 )<br />
2 (x 3 − x 2 ) 2 e −λs<br />
69
ja<br />
f X (x) =<br />
=<br />
=<br />
=<br />
=<br />
(<br />
λ<br />
( √ 2π) exp 3 (<br />
λ<br />
( √ 2π) exp 3 (<br />
λ<br />
( √ 2π) exp − 1 3 2 x2 1 − 1 )<br />
2 (x 3 − x 2 ) 2<br />
− 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2 ) ∫ ∞<br />
− 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2 ) ∫ ∞<br />
( 1 2 (x 2 − x 1 ) 2 + λ) 3 2<br />
λ<br />
( √ exp ( − 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2) ( 3<br />
2π) 3 ( 1 2 (x Γ<br />
2 − x 1 ) 2 + λ) 3 2 2)<br />
λ exp ( − 1 2<br />
√ x2 1 − 1 2 (x 3 − x 2 ) 2)<br />
4π<br />
2 ((x 2 − x 1 ) 2 + 2λ) 3 2<br />
0<br />
0<br />
√ (<br />
s exp − s )<br />
2 (x 2 − x 1 ) 2 − λs ds<br />
( )<br />
s 1 1<br />
2 exp(−s<br />
2 (x 2 − x 1 ) 2 + λ )ds<br />
1<br />
∫ ∞<br />
0<br />
s 1 2 exp(−s)ds<br />
Gamma-funktion arvo Γ(3/2) = √ π/4.<br />
0.7<br />
0.6<br />
lambda=0.3<br />
lambda=1<br />
lambda=2<br />
0.5<br />
0.4<br />
0.3<br />
0.2<br />
0.1<br />
0<br />
−20 −15 −10 −5 0 5 10 15 20<br />
Kuva 4.5: Todennäköisyystiheysfunktio f(x) =<br />
λ<br />
(x 2 +2λ) 3 2<br />
.<br />
• Satunnaisvektorin X jakauma ei ole Gaussinen.<br />
• Satunnaisvektorin X 1. differenssit ovat riippumattomia.<br />
• Komponenttien odotusarvot E[X i ] = 0, i = 1, 2, 3.<br />
• Differenssillä X 2 − X 1 on Cauchy-tyyppinen jakauma (muunnettu Betajakauma,<br />
Transformed Beta distribution), mutta suurten lukujen esiintymisen<br />
todennäköisyys on pienempi kuin Cauchy-jakaumalla.<br />
70
0.25<br />
Cauchy<br />
Transformed Beta<br />
0.2<br />
0.15<br />
0.1<br />
0.05<br />
0<br />
−20 −15 −10 −5 0 5 10 15 20<br />
Kuva 4.6: Cauchy-jakauman tntf. ja f(x) =<br />
λ<br />
(x 2 +2λ) 3 2<br />
.<br />
• Epävarmuus differenssin X 2 − X 1 varianssissa tuotti jakauman, joka sallii<br />
myös suurempia arvoje. Olisi ollut mahdollista myös suoraan antaa tämä<br />
tntf. satunnaisvektorin X todennäköisyystiheysfunktiona, mutta tuntemattomasta<br />
ollut prioritieto soveltui paremmin parametrin hyperpriorin<br />
valintaan.<br />
4.5 Posteriorijakauman tutkiminen<br />
4.5.1 Päätösteoriaa<br />
Oletetaan, että tntf:t f (X,Y ) , f X > 0 ja f Y > 0 ovat olemassa ja jatkuvia.<br />
Merkitään<br />
f post (x; y) = f X (x|Y = y)<br />
kun y ∈ R m .<br />
Moniulotteista posteriorijakaumaa f post (x; y) voi olla hankala tulkita tai visulialisoida.<br />
Miten posteriorijakaumasta saadaan helposti tulkittavaa tietoa tuntemattomasta?<br />
Otetaan käyttöön tilastotieteen osa-alue, jota kutsutaan päätösteoriaksi.<br />
Päätösteoria (eng. decision theory) vastaa esimerkiksi kysymykseen: mikä<br />
datan y = F(x) + ε funktio h : R m → R n on sellainen, että vektori h(y) muistuttaa<br />
(tietyssä mielessä) parhaiten tuntematonta x joka on tuottanut datan<br />
y = F(x) + ε? Tilastotietessä funktiota h kutsutaan tuntemattoman estimaattoriksi<br />
ja arvoa h(y) estimaatiksi.<br />
Määritellään missä mielessä parasta funktiota etsitään. Valitaan ensin ns.<br />
tappiofunktio (eng. loss function)<br />
L : R n × R n → [0, ∞)<br />
71
jonka arvo L(x, h(y)) mittaa estimaatin h(y) tarkkuutta kun tuntematon on<br />
x. Esim. L(x, h(y)) = ‖x − h(y)‖ 2 . Oletetaan, että L on valittu siten, että<br />
x ↦→ L(x, z)f post (x) on integroituva jokaisella z ∈ R n .<br />
Jos y ∈ R m , niin estimaattorin h arvo h(y) ∈ R n valitaan siten, että se<br />
minimoi tappiofunktion posterioriodotusarvon<br />
∫<br />
R n L(x, h(y))f post (x; y)dx<br />
eli<br />
h(y) = argmin<br />
z∈R n<br />
∫<br />
R n L(x, z)f post (x; y)dx.<br />
Datan ollessa y etsimme arvon h(y), jolla odotettu virhe posteriorijakauman<br />
suhteen on pienin mahdollinen. Arvoille h(y) pätee, että<br />
mikäli integraali<br />
h(y) = argmin<br />
z∈R n<br />
r(h) =<br />
∫ (∫<br />
)<br />
L(x, z)f post (x; y)dx f Y (y)dy,<br />
R m R n<br />
∫R m (∫<br />
)<br />
L(x, h(y))f post (x; y)dx f Y (y)<br />
R n<br />
on olemassa. Lukua r(h) kutsutaan Bayes-riskiksi. Kun Fubinin kaava pätee,<br />
niin<br />
(∫<br />
)<br />
r(h) = L(x, h(y))f Y (y|X = x)dy f pr (x)dx.<br />
∫R n R m<br />
Riskin tulkinta: kun todellinen tuntematon on x ja sitä vastaava häiriöinen data<br />
y, niin estimaattoriin h liittyvä odotettu tappio (jakaumien f Y (y|X=x) ja f pr (x)<br />
suhteen) on Bayes-riski r(h).<br />
Esimerkki 21. Valitaan L(x, z) = ‖x − h(y)‖ 2 . Olkoon m post (y) posterioriodotusarvo<br />
∫<br />
m post (y) = xf post (x)dx<br />
R n<br />
ja C post (y) posteriorikovarianssimatriisi<br />
∫<br />
(C post (y)) ij = (x i − (m post (y)) i )(x j − (m post (y)) j )f post (x)dx.<br />
R n 72
Silloin<br />
∫<br />
R n L(x, h(y))f post (x; y)dx =<br />
=<br />
=<br />
=<br />
=<br />
∫<br />
‖x − h(y)‖ 2 f post (x; y)dx<br />
R<br />
∫<br />
n<br />
‖x − m post (y) + m post (y) − h(y)‖ 2 f post (x; y)dx<br />
R<br />
∫<br />
n n∑<br />
(‖x − m post (y)‖ 2 + 2 (x − m post (y)) i (m post (y) − h(y)) i<br />
R n<br />
i=1<br />
+‖m post (y) − h(y)‖ 2 )f post (x; y)dx<br />
∫<br />
‖x − m post (y)‖ 2 f post (x; y)dx<br />
R n n∑<br />
+2 (m post (y) − h(y)) i (x − m post (y)) i f post (x; y)dx<br />
∫R n<br />
i=1<br />
+‖m post − h(y)‖<br />
∫R 2 f post (x; y)dx<br />
∫<br />
n ‖x − m post (y)‖ 2 f post (x; y)dx + ‖m post − h(y)‖ 2<br />
R n<br />
Minimi saavutetaan, kun ‖m post (y) − h(y))‖ 2 = 0 eli kun h(y) = m post (y),<br />
jolloin lisäksi<br />
∫<br />
R n L(x, h(y))f post (x; y)dx =<br />
n∑<br />
(C post (y)) ii .<br />
Toisin sanoen tappiofunktion posterioriodotusarvo on posteriorikovarianssimatriisin<br />
diagonaalielementtien summa ( = posteriorikovarianssimatriisin ns. jälki,<br />
eng. trace).<br />
Posterioriodotusarvoa merkitään usein ˆx CM (CM=central mean)<br />
Esimerkki 22. MAP-estimaatti<br />
Sanomme, että todennäköisyystiheysfunktiota yksihuippuiseksi (eng. unimodal),<br />
jos sen globaali maksimiarvo saavutetaan vain yhdessä pisteessä. (Huom!<br />
kirjallisuudessa termillä ”unimodal”esiintyy useampia määritelmiä, jotka eivät<br />
ole keskenään ekvivalentteja.).<br />
Olkoon δ > 0 ja tappiofunktio L δ (x, z) = 1 ¯B(z,δ) C(x) kun x, z ∈ R n . Olkoon<br />
jatkuva posterioritntf x ↦→ f post (x; y) yksihuippuinen annetulla datalla y ∈ R n .<br />
Estimaattien<br />
∫<br />
h δ (y) = argmin 1 ¯B(z,δ) C(x)f post (x; y)dx<br />
z∈R n R n<br />
i=1<br />
= argmin f post (x; y)dx<br />
z∈R<br />
∫R n n \ ¯B(z,δ)<br />
raja-arvo<br />
missä<br />
lim h δ(y) = ˆx MAP (y)<br />
δ→0+<br />
ˆx MAP (y) = argmaxf post (x; y).<br />
x∈R n<br />
73
Maksimi a posteriori-estimaatti ˆx MAP (y) (eng. maximum a posteriori estimate)<br />
voi olla hyödyllinen tilanteissa, joissa posterioriodotusarvojen laskeminen on<br />
raskasta. Se saadaan myös kaavalla<br />
ˆx MAP (y) = argmaxf Y (y|X = x)f pr (x)<br />
x∈R n<br />
MAP-estimaattia käytetään usein myös silloin, kun posteriorijakauma ei ole<br />
yksihuippuinen, jolloin estimaatti voi saada useampia arvoja. MAP-estimaattia<br />
käytetään myös tasaisten priorijakaumien yhteydessä.<br />
Estimaattien ˆx lisäksi voimme määrätä niiden komponenteille ˆx i Bayesluottamusvälin<br />
valitsemalla luvun a yhtälöstä<br />
missä esim. α = 0.05.<br />
P post (|X i − ˆx i | ≤ a) = 1 − α<br />
4.5.2 Huonosti asetetut ja häiriöherkät lineaariset ongelmat<br />
Olkoon<br />
y 0 = F(x 0 ) + ε 0<br />
annettu data, joka on näyte satunnaisvektorista<br />
Y = F(X) + ε,<br />
missä X : Ω → R n ja ε : Ω → R m ovat tilastollisesti riippumattomia satunnaisvektoreita<br />
ja F : R n → R m on jatkuva lineaarinen huonosti asetettu kuvaus<br />
jolla on pieniä nollasta eroavia singulaariarvoja tai häiriöherkkä hyvin asetettu<br />
kuvaus.<br />
Olkoon satunnaisvektorin (X, Y ) yhteistntf f (X,Y ) erikseen jatkuva pisteissä<br />
x, y ∈ R n×m joissa f (X,Y ) (x, y) > 0. Tarkastellaan yksinkertaisuuden vuoksi<br />
Gaussista häiriömallia ε ∼ N(0, δI), δ > 0. Olkoon f pr sellainen, että jollakin<br />
c > 0 pätee f pr (x) ≤ c −1 kaikilla x ∈ R n . Tällöin cf pr (x) ≤ 1.<br />
Tuntemattoman maksimi a posteriori-estimaatti on<br />
ˆx MAP (y 0 )<br />
= argmaxf Y (y 0 |X = x)f pr (x)<br />
x∈R n<br />
= argmaxf ε (y 0 − F(x))f pr (x)<br />
x∈R n<br />
= argmax<br />
x∈R n e − 1 2δ ‖y0−F(x)‖2 +ln cf pr(x) .<br />
Funktio [0, ∞) ∋ t ↦→ exp(−t) on vähenevä, joten<br />
kun g : R n → [0, ∞). Erityisesti<br />
sup exp(−g(x)) = exp(− inf g(x))<br />
x∈R n x∈R n<br />
ˆx MAP (y 0 ) = argmaxe − 1 2δ ‖y0−Fx‖2 +ln cf 1<br />
pr(x). = argmin<br />
x∈R n<br />
x∈R n 2δ ‖y 0 − Fx‖ 2 − lncf pr (x).<br />
74
Kun häiriön jakauma on N(0, δI), niin MAP-estimointi on ekvivalentti sakotetun<br />
pienimmän neliösumman menetelmän (eng. penalized least squares method)<br />
kanssa; minimoitava funktionaali ei ole ‖y 0 − Fx‖ 2 , vaan siihen on summattu<br />
termi − lncf pr (x), joka on suuri silloin kun vektorilla x on ei-toivottuja ominaisuuksia.<br />
• Funktio x ↦→ ‖y 0 − Fx‖ 2 saa pienimmän arvonsa pisteissä<br />
ˆx = Qx 0 + ˜x + ˜ε 0 ,<br />
missä Q : R n → R n on ortogonaalinen projektio kuva-avaruudelle R(F T ),<br />
˜x ∈ Ker(F) ja ˜ε 0 on häiriötermin ε 0 vaikutus likimääräisratkaisuun.<br />
• Jos − lncf pr (x) on suuri vektoreille x, jotka ovat tyyppiä x 0 + ˜ε 0 , niin sakkotermi<br />
− lncf pr (x) pienentää häiriön vaikutusta estimaatissa. Toisaalta<br />
funktion − lncf pr (x) minimikohta (eli funktion f pr (x) maksimikohta) ei<br />
yleensä ole x 0 tällaisille prioritntf:lle. Estimaatti ˆx MAP on tällöin ”kompromissi”häiriöiseen<br />
dataan sopivan häiriöisen estimaatin ˆx ja prioritntf:n<br />
suosiman vektorin välillä.<br />
Sama ilmiö näkyy myös CM-estimaatissa<br />
∫<br />
ˆx CM (y 0 ) = xf post (x; y 0 )dx.<br />
R n ∫<br />
= c y0 e − 1<br />
2δ ‖y0−F(x)‖2 f pr (x)dx<br />
R n<br />
= c y0<br />
∫R n xe − 1 2δ ‖y0−F(x)‖2 +ln cf pr(x) dx<br />
jossa lasketaan posterioriodotusarvo yli kaikkien mahdollisten tuntemattomien.<br />
• Niillä vektoreilla x, joilla<br />
1<br />
2δ ‖y 0 − F(x)‖ 2 − lncf pr (x)<br />
on pieni, on suurehko paino odotusarvossa. Niillä vektoreilla x, joilla<br />
1<br />
2δ ‖y 0 − F(x)‖ 2 − lncf pr (x)<br />
on suuri, on pienehkö paino odotusarvossa.<br />
• Jos − lncf pr (x) on suuri vektoreille x, jotka ovat tyyppiä x 0 + ˜ε 0 , niin<br />
prioritntf. f pr (x) pienentää häiriön ǫ 0 kontribuutiota odotuskeskiarvoon.<br />
Esimerkki 23 (Tasainen priorijakauma). Oletetaan, että F on injektio. Olkoon<br />
f pr (x) = 1<br />
|Q 1 r| Q r<br />
(x), missä Q r ⊂ R n on suljettu origokeskinen kuutio, jonka<br />
sivun pituus on r.<br />
Silloin<br />
f post (x) = c y0 e − 1 2δ ‖y0−F(x)‖2 1 Qr (x)<br />
ja<br />
ja<br />
ˆx MAP (y 0 ; r) = argmin<br />
x∈Q r<br />
‖y 0 − F(x)‖ 2<br />
lim x MAP(y 0 ; r) = argmin ‖y 0 − F(x)‖ 2 ,<br />
r→∞ x∈R n<br />
75
missä posterioritntf on yksihuippuinen, koska F on injektio. MAP-estimaatti,<br />
kun priorina on tasainen jakauma origokeskisessä kuutiossa Q r , lähestyy pienimmän<br />
neliösumman likimääräisratkaisua, kun kuution sivun pituus kasvaa rajatta.<br />
Tasainen jakauma ei yleensä poista häiriöherkkyyttä.<br />
Esimerkki 24. Olkoon F : R n → R m . Olkoon f pr (x) = ce − 1 2 xT C −1x . Silloin<br />
ˆx CM (y 0 ) = (FF T + δC −1 ) −1 F T (y 0 ),<br />
joka on olemassa vaikka F ei olisi kääntyvä. Lisäksi estimaatti ˆx CM ei ole niin<br />
häiriöherkkä kuin pienimmän neliösumman likimääräisratkaisu.<br />
Merkitään posteriorikovarianssimatriisia<br />
C post = (FF T + δC −1 ) −1 .<br />
Voimme määrätä komponenteille (ˆx CM ) i Bayes-luottamusvälin<br />
√<br />
√<br />
[(ˆx CM ) i − 1.96 (C post ) ii , (ˆx CM ) i + 1.96 (C post ) ii ]<br />
jolle<br />
)<br />
P post<br />
(|X i − (ˆx CM ) i | ≤ 1.96<br />
√(C post ) ii ≈ 0.95<br />
Esimerkki 25. Häiriö ε 0 voi saada pienimmän neliösumman likimääräisratkaisun<br />
ˆx = ‖Fx − y 0 ‖ 2<br />
poikkeamaan voimakkaasti todellisesta tuntemattoman arvosta x 0 . Tällöin yksittäiset<br />
komponentit voivat saada suuria arvoja. Kun f pr on sellainen, että<br />
se antaa suuren todennäköisyyden vain vektoreille, joilla on ”sopivansuuruiset”komponentit,<br />
niin prioritntf antaa pienehkön painon vektoreille, jotka sopivat<br />
dataan hyvin eli ‖Fx − y 0 ‖ 2 on pieni, mutta joihin on summautunut voimakas<br />
häiriötermi. Tällaisia jakaumia ovat esim. l 1 -priori ja Cauchy-jakauma.<br />
Esimerkki 26. Kun häiriö ε on Gaussinen, niin sen tyypillinen näyte ε 0 saa<br />
pienimmän neliösumman likimääräisratkaisun<br />
ˆx = ‖Fx − y 0 ‖ 2<br />
vaihtelemaan voimakkaasti komponentista toiseen. Jos prioritntf. f pr on sellainen,<br />
että se antaa pienehkön painon vektoreille joiden vierekkäisten pisteiden<br />
erotukset ovat suuret, niin prioritntf. pienentää tyypillisen häiriön kontribuutiota<br />
estimaatteihin. Totaalivariaatiopriori ja Gaussiset sileyspriorit ovat tällaisia<br />
prioreja.<br />
4.6 Yhteenveto<br />
• Todennäköisyyslaskenta<br />
– Todennäköisyyslaskennalla on mittateoreettinen pohja, joka näkyy<br />
satunnaisvektorien määritelmässä.<br />
76
– Tässä kurssissa moniulotteiset integraalit ovat moniulotteisia Riemannintegraaleja<br />
(kirjallisuudessa yleisemmin Lebesgue-integraaleja, jotka<br />
määritellään vasta syventävillä kursseilla).<br />
– Tässä kurssissa satunnaisvektorin X : Ω → R n todennäköisyystiheysfunktio<br />
on sellainen Riemann-integroituva funktio f : R n →<br />
[0, ∞), jolle ∫ f(x)dx = 1 ja P(X ∈ Q) = ∫ f(x)dx suljetuilla ja<br />
Q<br />
rajoitetuilla suorakulmaisilla särmiöillä Q. Rajoittamattomille kuutioille<br />
integraali määritellään epäoleellisena integraalina.<br />
– Tässä kurssissa satunnasivektorin X ehdollinen tntf ehdolla Y = y<br />
(jolla f Y (y) > 0) määritellään yhtälöllä<br />
jolloin Bayesin kaava<br />
f X (x|Y = y) = f (X,Y )(x, y)<br />
,<br />
f Y (y)<br />
f (X,Y ) (x, y) = f X (x|Y = y)f Y (Y ) = f Y (y|X = x)f X (y)<br />
pätee kaikilla x, y kun yhteisjakauma on erikseen jatkuva molempien argumenttiensa<br />
suhteen pisteissä (x, y), joissa f (X,Y ) (x, y) > 0 ja f Y (y) =<br />
∫<br />
f(X,Y ) (x, y)dx sekä f X (y) = ∫ f (X,Y ) (x, y)dy.<br />
• Tilastollinen inversio-ongelma<br />
– Tuntematonta ja dataa mallinnetaan satunnaisvektoreilla X ja Y .<br />
– Datan ja tuntemattoman jakaumat edustavat niistä saatavilla olevaa<br />
kvantitatiivista ja kvalitatiivista tietoa sekä tälllaisen tiedon puutetta.<br />
– Annettu data y 0 on näyte satunnaisvektorista Y eli y 0 = Y (ω 0 ) jollakin<br />
alkeistapahtumalla ω 0 ∈ Ω.<br />
– Tilastollisen inversio-ongelman ratkaisu on satunnaisvektorin X ehdollinen<br />
todennäköisyysjakauma kun Y = y 0 , jolle f Y (y 0 ) > 0, on<br />
annettu<br />
• Posterioritntf<br />
– Posterioritntf:n määrämiseksi tarvitaan uskottavuusfunktio x ↦→ f Y (y 0 |X =<br />
x) ja prioritntf x ↦→ f p r(x).<br />
– Posteriorijakaumasta voidaan määrätä tuntematton estimaatteja ja<br />
niiden Bayes-luottamusvälejä.<br />
• Tyypillisiä priorijakaumia ovat Gaussiset sileyspriorit, l 1 -priori, Cauchypriori<br />
ja totaalivariaatiopriori (2D-kuville).<br />
Osattava<br />
• Määrätä posterioritntf (normitustekijää vaille) kun häiriötä mallintava satunnaisvektori<br />
ja tuntematonta mallintava satunnaisvektori ovat riippumattomia<br />
ja tarvittavat tntf:t ovat jatkuvia.<br />
• Johtaa Gaussisessa tapauksessa posterioriodotusarvon ja posteriorikovarianssimatriisin<br />
lausekkeet.<br />
77
• Selostaa Tikhonovin regularisaation ja Gaussisen priorin yhteys.<br />
• Muodostaa hierarkinen prioritntf kun ehdollinen prioritntf ja hyperjakaman<br />
tntf on annettu<br />
Ymmärrettävä:<br />
• että tapahtuman todennäköisyydestä käytetään subjektiivista Bayeslaista<br />
tulkintaa: tapahtuman todennäköisyys on se varmuusaste, jolla uskomme<br />
tapahtuman toteutuvan.<br />
• että epävarmuutta tuntemattoman tai parameterien arvoista voidaan kuvailla<br />
todennäköisyystiheysfunktioiden avulla<br />
• että prioritntf voi kompensoida ongelman häiriöherkkyyttä.<br />
• että posterioritntf tuottaa enemmän tietoa kuin pelkän estimaatin (kuten<br />
Bayes-luottamusvälit).<br />
Tiedettävä<br />
• että häiriötä mallintava satunnaisvektori ja tuntematontta mallintava satunnaisvektori<br />
voivat joskus olla toisistaan riippuvia.<br />
• että malleihin voidaan sisällyttää epävarmuustekijöitä satunnaismuuttujien<br />
avulla<br />
• CM-estimaatin määritelmä posterioriodotusarvona<br />
• MAP-estimaatin määritelmä posterioritntf:n maksimikohtana<br />
• mitä positiivisuusrajoite tarkoittaa<br />
• Priorijakaumia: Gaussiset sileyspriorit, Cauchy-priori, l 1 -priori, totaalivariaatiopriori.<br />
78