Inversio-ongelmien peruskurssi - Oulu

Inversio-ongelmien peruskurssi 

Sari Lasanen 

19. lokakuuta 2010

Inversio-ongelmien peruskurssi (4 op) 

Osaamistavoitteet: Kurssin onnistuneen suorittamisen jälkeen opiskelija 

• tunnistaa useat inversio-ongelmat 

• tietää inversio-ongelmien tyypilliset ominaisuudet 

• osaa ratkaista yksinkertaisia inversio-ongelmia eksakteilla ja epätarkoilla 

arvoilla. 

Kirjallisuus: 

1. Jari Kaipio, Erkki Somersalo: ”Statistical and computational inverse problems”. 

Springer-Verlag (Applied Mathematical Sciences, Vol. 160). 

2. Daniela Calvetti, Erkki Somersalo: ”Introduction to Bayesian scientific 

computing. Ten lectures on subjective computing”Springer (Surveys and 

Tutorials in the Applied Mathematical Sciences, Vol. 2) 

i

Sisältö 

1 Suorat ongelmat ja inversio-ongelmat 1 

1.1 Mitä inversio-ongelmat ovat? . . . . . . . . . . . . . . . . . . . . 1 

1.2 Esimerkkejä inversio-ongelmista ja niiden tyypillisistä ominaisuuksista 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

1.3 Inversio-ongelmien luokittelua . . . . . . . . . . . . . . . . . . . . 14 

1.4 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2 Hyvin ja huonosti asetetut inversio-ongelmat 17 

2.1 Hyvin asetetut inversio-ongelmat . . . . . . . . . . . . . . . . . . 17 

2.2 Abstrakti kuvailu . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.3 Huonosti asetetut inversio-ongelmat . . . . . . . . . . . . . . . . 19 

2.4 Ratkaisun häiriöalttius . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.5 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.6 Liite: Käänteismatriisin singulaariarvot . . . . . . . . . . . . . . . 29 

3 Likimääräisratkaisut ja regularisaatio 31 

3.1 Pienimmän neliösumman menetelmä . . . . . . . . . . . . . . . . 31 

3.2 Tikhonovin regularisaatio . . . . . . . . . . . . . . . . . . . . . . 35 

3.3 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

4 Tilastolliset inversio-ongelmat 43 

4.1 Lyhyesti todennäköisyyslaskennasta . . . . . . . . . . . . . . . . 43 

4.1.1 Todennäköisyyslaskennan mittateoreettinen pohja . . . . 44 

4.1.2 Satunnaismuuttujista . . . . . . . . . . . . . . . . . . . . 44 

4.1.3 Todennäköisyyslaskennan tulkinnat . . . . . . . . . . . . 45 

4.1.4 Tiheysfunktiot . . . . . . . . . . . . . . . . . . . . . . . . 45 

4.1.5 Ehdolliset jakaumat . . . . . . . . . . . . . . . . . . . . . 47 

4.1.6 Satunnaisvektorien muunnokset . . . . . . . . . . . . . . . 50 

4.1.7 Gaussiset jakaumat . . . . . . . . . . . . . . . . . . . . . . 51 

4.2 Moniulotteinen Riemann-integraali . . . . . . . . . . . . . . . . . 53 

4.3 Tilastollinen inversio-ongelma . . . . . . . . . . . . . . . . . . . . 54 

4.3.1 Bayesian kaava. Priori- ja posteriorijakaumat . . . . . . . 55 

4.3.2 Uskottavuusfunktio f Y (y|X = x) . . . . . . . . . . . . . . 57 

4.3.3 Priori f pr (x) . . . . . . . . . . . . . . . . . . . . . . . . . 60 

4.4 Erilaisia priorijakaumia . . . . . . . . . . . . . . . . . . . . . . . 61 

4.5 Posteriorijakauman tutkiminen . . . . . . . . . . . . . . . . . . . 71 

4.5.1 Päätösteoriaa . . . . . . . . . . . . . . . . . . . . . . . . . 71 

4.5.2 Huonosti asetetut ja häiriöherkät lineaariset ongelmat . . 74 

iii

4.6 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

iv

Luku 1 

Suorat ongelmat ja 

inversio-ongelmat 

Inversio-ongelmat ovat osa sovellettua matematiikkaa, mutta matka puhtaaseen 

matematiikkaan on lyhyt sillä matemaattiset inversio-ongelmat ovat sangen 

abstrakteja. Jopa matematiikan alan arvostetuimmassa lehdessä ”Annals 

of Mathematics”on inversio-ongelmia koskevia julkaisuja. Erityisesti inversioongelmiin 

erikoistuneita tieteellisiä lehtiä ovat: Inverse Problems (IP), Inverse 

Problems and Imaging (IPI), Journal of Inverse and Ill-posed Problems ja Inverse 

Problems in Science and Engineering. Näitä lehtiä voi lukea Oulun yliopiston 

kirjaston Nelli-portaalin kautta (myös etäkäytöllä). 

1.1 Mitä inversio-ongelmat ovat? 

Inversio-ongelmissa pyritään saamaan tietoa tuntemattomista kohteista epäsuorien 

ja usein epätarkkojen havaintojen avulla. Esimerkkejä tutuista inversioongelmista 

ovat lääketietelliset kuvantamismenetelmät (ultraäänikuvaus, tietokonekerroskuvaus), 

kuvan terävöittäminen kuvankäsittelyssä ja sateen havainnointi 

säätutkalla. Tällä kurssilla tutustutaan matemaattisiin inversio-ongelmiin 

sekä yksinkertaisten inversio-ongelmien käytännön ratkaisumenetelmiin. 

Inversio-ongelman eli käänteisongelman nimitys tulee siitä että ensin on tunnettava 

suora ongelma, joka kertoo kuinka data y riippuu kiinnostuksen kohteena 

olevasta suureesta x. Usein data saadaan hyödyntämällä jotakin fysikaalista 

ilmiötä ja suora ongelma on kyseistä ilmiötä selittävä fysikaalinen teoria: sanotaan 

vaikka kuvaus x ↦→ F(x) = y. Inversio-ongelmassa kysytään, mikä suure x 

on tuottanut datan y. Maallikkotermein asian voi selittää seuraavasti: 

• Suora ongelma: Syistä seurauksiin. 

• Inversio-ongelma: Seurauksista syihin. 

Yksinkertaistettuna kysymys on käänteiskuvauksen F −1 määräämisestä, mutta 

tulemme näkemään että ratkaisu ei ole aivan niin mutkatonta. 

1

1.2 Esimerkkejä inversio-ongelmista ja niiden tyypillisistä 

ominaisuuksista 

Esimerkki 1 

Suora ongelma: Laske samalla rivillä, samalla sarakkeella ja samaa väriä olevien 

lukujen summat. 

? ? ? ? ? 

? 1 5 7 ? 

? 4 3 8 ? 

? 6 2 9 ? 

Inversio-ongelma: Määrää luvut, joiden rivi-, sarake- ja värisummat on annettut. 

3 11 10 24 10 

13 ? ? ? 13 

15 ? ? ? 9 

17 ? ? ? 10 

Inversio-ongelmat ovat usein vaikeanpia kuin suorat ongelmat. 

Esimerkki 2 

Suora ongelma: Määrää funktio f ∈ C 1 (0, 1), kun sen derivaatta f ′ (t) = 3t 2 ja 

alkuarvo f(0) = 0 on annettu. 

Inversio-ongelma: Määrää funktion f ∈ C 1 (0, 1) derivaatta f ′ kun 

f(t) = 

∫ t 

0 

f ′ (s)ds = t 3 

on annettu. 

Tämä on helppoa, mutta vaikeuksia syntyy jos annettu integraalifunktio 

tunnetaan epätarkasti. Esim. jos annettu data ei ole t 3 vaan 

niin sen derivaatta onkin 

g(t) = 

∫ t 

0 

f ′ (s)ds + 1 

100 sin(100t), 

g ′ (t) = 3t 2 − cos(100t). 

Inversio-ongelmien ratkaisut ovat usein herkkiä datassa esiintyville 

pienille häiriöille. 

2

1.2 

1 

tarkka data 

epätarkka data 

4 

3.5 

3 

tarkka ratkaisu 

epätarkka ratkaisu 

0.8 

2.5 

0.6 

2 

1.5 

0.4 

1 

0.2 

0.5 

0 

0 

−0.5 

−0.2 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

−1 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

Kuva 1.1: Häiriöinen data g ei paljon eroa tarkasta datasta f.... mutta vastaavat 

ratkaisut eroavat! 

Esimerkki 3 

Kuvan terävöittämisessä pyritään muodostamaan sumeasta valokuvasta yksityiskohtaisempi 

valokuva. 

Suora ongelma: Tee terävästä valokuvasta sumeampi valokuva. 

Inversio-ongelma: Tee sumeasta valokuvasta terävämpi valokuva 

Suora ongelma 

Inversio-ongelma 

Mustavalkoinen digitaalinen valokuva voidaan esittää matriisina 

M ∈ R n×m , 

jonka elementit M ij kuvaavat pikseleiden väriä: mitä suurempi luku on sitä 

vaaleampi pikselin väri on (katso kuvat 1.3 ja 1.3). 

3

Kuva 1.2: Mustavalkoinen valokuva koostuu pikseleistä: suorakaiteen muotoisista 

yksivärisistä kuvaelementeistä. 

10 

9 

8 

7 

6 

5 

4 

3 

2 

1 

0 

Kuva 1.3: Esimerkki 9×9-matriisin kuvapikseleistä ja harmaasävyjä vastaavista 

lukuarvoista. 

Kuvan sumentamista voidaan mallintaa normitetulla Gaussisella konvoluutiolla 

(valitaan n = m yksinkertaisuuden vuoksi) 

˜M kl = C kl 

n ∑ 

i,j=1 

e −(|k−i|2 /n 2 +|l−j| 2 /n 2 )/2σ 2 M ij , 

missä k, l = 1, ..., n ja normitusvakio 

⎛ 

⎞ 

n∑ 

C kl = ⎝ e −(|k−i|2 /n 2 +|l−j| 2 /n 2 )/2σ 2 ⎠ 

i,j=1 

Jokaisen pikselin arvo M kl kuvautuu pikselien painotetuksi keskiarvoksi ˜M kl . 

Eniten painoa on kyseisen pikselin ja sen viereisten pikselien arvoilla. 

Suora ongelma: Määrää ˜M kun M tunnetaan. 

4 

−1 

.

Inversio-ongelma: Määrää M kun ˜M tunnetaan. 

Pienessä kuvassa n, m = 256, mutta korkealaatuisissa kuvissa n ja m ovat 

useita tuhansia, jolloin matriisissa on miljoonia elementtejä. Inversio-ongelmissa 

tuntemattomat ovat usein korkeaulotteisten avaruuksien vektoreita. 

Esimerkki 4 

Säätutka lähettää sähkömagneettisia pulsseja mikroaaltotaajudella (5600-5650 

Mhz, aallonpituus n. 5.3 cm). Pulssit heijastuvat takaisin esteistä, esimerkiksi 

sadepisaroista ja lumihiutaleista. Säätutka vastaanottaa heijastuneet pulssit, 

joiden matka-ajoissta saadaan selville sadepisaroiden etäisyys. Heijastuneen 

pulssin voimakkuudesta (tehosta) saadaan selville sateen voimakkuus. Dopplertutka 

kertoo myös sadepisaroiden nopeuden taajuudessa tapahtuvan Dopplersiirtymän 

avulla. Sadepisaroista saadaan kaikuja aina 250 km päästä. Mittauksia 

tehdään eri suuuntiin antennia liikuttamalla. 

Suora ongelma: Määrää heijastunut kaiku kun sadepisaroiden paikka ja nopeus 

tunnetaan. 

Inversio-ongelma: Määrää sadepisaroiden jakauma ja nopeus kun niistä heijastunut 

kaiku tunnetaan. 

Lähetetty signaali on funktio 

φ(t) = Pe(t)sin(ω 0 t), 

5

missä ω 0 on kantotaajuus, P on lähetetyn pulssin teho ja e(t) kuvaa pulssin 

muotoa. Kappaleen liikettä kuvaa yhtälö 

r(t) = x 2 + x 3 t + 1 2 x 4t 2 , 

missä x 2 on kappaleen etäisyys tutkasta, x 3 on kappaleen nopeus ja x 4 on kappaleen 

kiihtyvyys. Vastaanotettua signaalia kuvaa yhtälö 

( 

z(t) = x 1 φ t − 2 ) ( 

c x 2 exp −i2 ω 0 

c (x 3t + 1 ) 

2 x 4t 2 ) + ǫ(t), 

missä x 1 on heijastuneen pulssin teho, c on valonnopeus ja ǫ(t) on mittauskohinaa. 

Heijastuneen aallon teho toteuttaa tutka-yhtälön (eng. radar equation) 

x 1 = CPσ 

(4π) 2 x 4 , 

2 

missä C on tutkasta riippuva vakio ja takaisinsirontapinta-ala (eng. radar cross 

section) σ riippuu kappaleen koosta ja heijastavuudesta. 

Kuva 1.4: Ilmatieteen laitoksen kuva säätutkahavainnoista. 

Inversio-ongelmissa käytetään usein epäsuoraa tietoa tuntemattomista 

kohteista. 

Muita tutkasovelluksia: 

• Avaruusromun kartoitus (maanpinnalta lähetetty sähkömagneettinen pulssi 

heijastuu hukatuista työkaluista, pirstoutuneista satelliiteista ja rakettiromusta, 

joka putoaa hitaaaasti kohti maata). Esimerkiksi kansainvälinen 

avaruusasema ISS joutuu väistämään putoavaa romua pari kertaa vuodessa. 

• Kuun kaukokartoitus (maanpinnalta lähetetty sähkömagneettinen pulssi 

heijastuu kuusta). 

6

• Ionosfäärin tutkimus (revontulet, aurinkomyrskyn vaikutukset). Hyödynnetään 

epäkoherenttia sirontaa: tutkasignaali saa ionosfäärin plasman värähtelemään, 

jolloin syntyy heikko sähkömagneettinen signaali, joka voidaan 

vastaanotttaa maanpinnalla. Taajuus satoja megahertsejä. 

• Maaperätutka. Toimii mikroaaltotaajuuksilla. 

Esimerkki 5 

Lääketieteellisessä tietokonetomografiakuvauksessa(tietokonekerroskuvaus) muodostetaan 

röntgenkuvien avulla kuva, rekonstruktio, potilaan sisäosista. Eri kudokset 

vaimentavat röntgensäteilyä eri voimakkuudella. Kun vaimenemisen suuruus 

mitataan useasta eri suunnasta, saadaan muodostettua poikkieikkauskuva 

kehon sisärakenteesta – tarkemmin sanottuna massa-absorptiokertoimien vaihtaluista. 

Kuva 1.5: Tietokonekerroskuvauslaite (kuva: Siemens Press Picture). 

Olkoon f = f(x, y) ≥ 0 paloittain jatkuva funktio, joka esittää massaabsorptiokerrointa 

pisteessä (x, y) ∈ R 2 . Oletetaan, että f(x, y) = 0 kun (x, y) /∈ 

D ja D sisältyy tason r−säteiseen origokeskiseen palloon B(0, r). Suoraa x = y 

pitkin kulkevan röntgensäteen absorptiota vastaa funktion f integraali pitkin 

suoraa y = x eli tarkemmin 

( ) ∫ r I0 

ln = − f(x, x)dx, 

I 1 −r 

missä I 0 on lähetetyn röntgensäteilyn intensiteetti ja I 1 on vastaanotettu intensiteetti 

(Beerin ja Lambertin laki). 

Suora ongelma: Kun funktio f tunnetaan, laske integraalit 

pitkin eri suoria. 

∫ r 

−r 

f(x, ax + b)dx. 

7

Inversio-ongelma: Määrää funktio f kun sen integraalit 

pitkin eri suoria tunnetaan. 

∫ r 

−r 

f(x, ax + b)dx 

y 

r 

Suora y = x 

-r r 

x 

D 

-r 

Kuva 1.6: Tomografiakuvaus: funktion f integraalit lasketaan pitkin eri suoria. 

Käytännössä mittauksia ei voi tehdä jokaista suoraa pitkin, vaan mittaussuuntia 

on rajallinen määrä. Mitä vähemmän mittaussuuntia on käytössä, sitä 

vähemmän tietoa on saatavilla tuntemattomasta funktiosta. Ongelmana on, että 

useilla eri funktioilla voi olla samat integraalit. Esim. jos f(x, y) = x 2 + y 2 

kun (x, y) ∈ B(0, 1) jaf(x, y) = 0 muulloin, niin sen integraali pitkin suoraa 

y = 0 ( tai pitkin mitä tahansa origon kautta kulkevaa suoraa y = ax), on 

∫ 1 

−1 

x 2 dx = 2 3 

joka on sama kuin funktion f(x, y) = 1 3 

integraali pitkin samaa suoraa. 

Tomografiakuvauksessa datan rajallisuutta kompensoidaan rajoittamalla ratkaisun 

muotoa: Oletetaan esimerkiksi, että 

n∑ 

f(x, y) = a i φ i (x, y), 

i=1 

missä n on kiinnitetty luku, funktiot φ i ovat tunnettuja ja kertoimet a i ∈ R 

ovat tuntemattomia. Funktiot φ i (x, y), i = 1, .., n voivat olla esimerkiksi pistevieraiden 

neliöiden karakteristisia funktioita (kuvan pikseleitä) 

{ 

1 kun (x, y) ∈ I i 

φ i (x, y) = 

0 muulloin. 

Luku a i voidaan esittää siilloin esim. harmaasävyskaalan värinä. 

Käytännön inversio-ongelmissa rekonstruktio (eli kuvan muodostaminen 

tuntemattomasta kohteesta) on tehtävä jollakin tapaa rajallisesta 

määrästä dataa. Käytännön inversio-ongelmissa approksimoidaan 

tuntemattomia usein äärellisulotteisten vektoreiden avulla. 

8

Kuva 1.7: Neliö I i . 

10 

9 

8 

7 

6 

5 

4 

3 

2 

1 

0 

Kuva 1.8: Esimerkki harmaasävykuvasta ja värillisestä kuvasta. 

Kuva 1.9: Tietokonekerroskuva: eri harmaasävyt vastaavat funktion f eri arvoja. 

(kuva: Siemens Press Picture). 

Esimerkki 6 

Impedanssitomografiassa (eng. electrical impedance tomography, EIT) sähköiset 

mittaukset kappaleen pinnalla antavat tietoa kappaleen sisärakenteesta (mate- 

9

ian sähkönjohtavuudesta). Kappaleeseen voidaan syöttää jännite ja mitata virtaa 

tai syöttää virtaa ja mitata jännitettä. 

Virta 

Jännite 

D 

Kuva 1.10: Jännite-virta mittaukset kappaleesta D. 

Olkoon u jännite kappaleessa D ja oletetaan, että pinnalle on asetettu jännite 

f. Olkoon kappaleen D sähkönjohtavuus σ ∈ C ∞ ( ¯D). Silloin funktio u ∈ 

C 2 (D) ∩ C 1 ( ¯D) toteuttaa yhtälöt 

∇ · (σ∇u)(x) = 0, x ∈ D 

u(x) = f(x), x ∈ ∂D 

Pinnalla mitattava virta g(x) saadaan jännitteestä u kaavalla 

g(x) = σ(x)n(x) · ∇u(x), x ∈ ∂D, 

missä n(x) on kappaleen D pinnan (ulospäin suunnattu) normaalivektori. 

Suora ongelma: Määrää g kun σ ja f on annettu. 

Inversio-ongelma: Määrää σ kun g tunnetaan jokaisella f ∈ C 1 (∂D). 

Mihin soveltuu: 

• Lääketieteellinen kuvantaminen (sydämen ja keuhkojen toiminta). 

• Ainetta rikkomaton testaus (esim. vauvanruokapurkkien eheyden tarkistus, 

lentokoneen siipien korroosiovaurioiden tarkistus, siltojen betoniraudoitusten 

tutkiminen). 

• Teollisuuden prosessien valvonta (esim. säiliön sisällä olevan seoksen tasaisuuden 

tarkkailu). 

10

Tällä ongelmalla on olemassa myös karkea versio jota hyödynnetään kaupallisesti 

– sähköinen kehonkoostumusmittaus (eng. bioelectrical impedance analysis). 

Siinä mittausperiaate on sama: kehoon johdetaan vähäistä virtaa ja mitataan 

sen aikaansaama jännite. Erona EIT:hen on, että tarkan suoran teorian 

sijaan käytetään tiettyjen parametrien sovituksia karkeisiin yhtälöihin. Tärkein 

näistä parametreistä on kehossa olevan veden määrä. Esitietona tarvitaan henkilön 

pituus (henkilöä approksimoidaan sen jälkeen samanpituisena sylinterinä, 

jonka tilavuus kertoo kehossa olevan veden määrän...). Mitatusta jännitteestä 

lasketaan sylinterin sisältämä veden määrä. Käytettyjä yhtälöitä on pyritty 

tarkentamaan ottamalla lisää parametreja huomioon, kuten henkilön iän, sukupuolen 

ja painon sekä käyttämällä eritaajuisia sähkövirtoja. 

Inversio-ongelmien avulla on mahdollista saada tietoa sellaisistakin 

kohteista jotka eivät muutoin ole näkyvissä tai tavoitettavissa. 

Esimerkki 7 

Lääketieteellisessä ultraäänikuvauksessa muodostetaan kuva potilaan sisäosista 

ääniaaltojen avulla. Periaate on seuraava: potilaan sisälle lähetetään kapea 

äänipulssi (taajuus 2-15 MHz), joka heijastuu osittain takaisinpäin kehon eri 

kudosten rajapinnoista. Takaisinsironnut pulssi vastaanotetaan ja muunnetaan 

kirkkausarvoiksi. Tämä toistetaan eri mittaussuoria pitkin. Eräs ultraääniku- 

Kuva 1.11: Ultraäänikuvauksen periaate 1. Pulssi heijastuu rajapinnoista. Tässä 

samanväriset alueet ovat täysin homogeenisia. 

vauksen yksinkertaistuksista on olettaa, että ääni kulkee vakionopeudella kehossa, 

vaikka eri kudoksilla on erilaiset äänennopeudet. Tästä johtuen ultraäänikuvissa 

olevien kohteiden koko on vääristynyt. Lisäksi malli ei ota huomioon 

monitie-etenemistä eikä aaltojen taittumista, jolloin kuvassa oleva kohde ei välttämättä 

ole todellisella paikallaan. Hyvin epätasaiset rajapinnat tekevät kuvasta 

lisäksi täplikkään. 

11

1.5 

1 

0.5 

0 

−0.5 

−1 

−1.5 

0 0.2 0.4 0.6 0.8 1 

Kuva 1.12: Ultraäänikuvauksen periaate 2. Taaksepäin sironnut pulssi (kuvassa 

sininen käyrä) vastaanotetaan ja muunnetaan alla oleviksi kirkkausarvoiksi 

verhokäyrän (eng. envelope, kuvassa punainen käyrä) avulla. 

Ultraäänikuvauksen tarkempi matemaattinen malli on ääniaaltojen eli akustisten 

aaltojen etenemistä väliaineessa kuvaava malli. Aika-harmonista akustista 

aaltoa kappaleessa D ⊂ R n voidaan kuvata yhtälöllä 

∆u(x) + ω2 

c 2 u(x) = 0, x ∈ D, 

(x) 

missä ω on taajuus ja c(x) on äänen nopeus väliaineessa. Lähetettävää ääntä 

kuvataan yhtälöllä 

n · ∇u(x) = f(x), x ∈ ∂D, 

missä n on pinnan D normaalivektori. Pinnalla vastaanotettua ääntä kuvataan 

yhtälöllä 

g(x) = u(x), x ∈ ∂D. 

Funktion u(x) yhteys ajasta riippuvaan fysikaaliseen äänen paineeseen p(x, t) 

saadaan kaavasta p(x, t) = Re u(x)e −iωt . 

Suora ongelma: Määrää u kun funktiot c ja f on annettu. 

Inversio-ongelma: Määrää c kun g tunnetaan eri funktioilla f. 

Inversio-ongelmissa käytetään matematiikkaa myös erilaisten kuvantamismenetelmien 

parantamiseksi. 

Samaa akustista yhtälöä voidaan käyttää seismisten eli maan tärinää kuvaavien 

aaltojen etenemisen kuvaamiseen. Maankuoren rakennetta voidaan kartoittaa 

täristämällä maanpintaa koneellisesti (tai räjäytyksien avulla) ja mittaamalla 

maankuoren epähomogeenisuuksista sironnutta aaltoa maan pinnalla. 

Ääniaallot kulkevat hyvin myös vedessä, jolloin puhutaan kaikuluotaimista 

eli sonareista. 

12

Esimerkki 8 

Käänteisessä sirontaongelmassa (eng. inverse scattering problem) lähetetetään 

sähkömagneettinen tai akustinen aalto joka edetessään kohtaa tuntemattoman 

kappaleen tai väliaineen. Tuntematon poikkeama muuttaa lähetettyä aaltoa, jolloin 

syntyy sironnut aalto. Sironnutta aaltoa havainnoidaan etäällä tuntemattomasta 

poikkeamasta. 

Matemaattisesti väliaineesta tapahtuvaa sähkömagneettista sirontaa 

voidaan kuvata seuraavasti. Olkoon E = E(x, t) ∈ C 2 (R 2 × R + ;R 3 ) ja H = 

H(x, t) ∈ C 2 (R 2 × R + ;R 3 ) sähkömagneettisen aallon sähkökenttä ja magneettikenttä. 

Isotrooppisessa väliaineessa nämä kentät toteuttavat Maxwellin yhtälöt 

Aikaharmonisessa tapauksessa 

∂H 

∇ × E(x, t) + µ 0 (x, t) = 0 

∂t 

∇ × H(x, t) − ǫ(x) ∂E (x, t) = σ(x)E (x, t). 

∂t 

E(x, t) = ǫ − 1 2 

0 E(x)e −iωt , H(x, t) = µ − 1 2 

0 H(x)e −iωt , 

missä ω on aallon taajuus ja ǫ 0 ja µ 0 tyhjiön permittiivisyys ja permeabiliteetti. 

Aikaharmoniset Maxwellin yhtälöt ovat 

missä heijastuskerroin 

∇ × E(x) − ikH(x) = 0 (1.1) 

∇ × H(x) + ikn(x)E(x) = 0 (1.2) 

n(x) = 1 ( 

ǫ(x) + i σ(x) ) 

ǫ 0 ω 

riippuu väliaineesta ja k = ω √ ǫ 0 µ 0 . 

Olkoon E i ja H i aikaharmonsen Maxwellin yhtälöiden ratkaisu tyhjiössä 

(jolloin ǫ ≡ ǫ 0 ja σ ≡ 0) – tätä kutsutaan lähetetuksi aalloksi. Kun lähetetty 

aalto kohtaa epähomogeenisen väliaineen, se siroaa. Lähetetyn aallon ja sironneen 

aallon summa E = E i + E s , H = H i + H s toteuttaa epähomogeenisen 

aineen Maxwellin yhtälöt (1.1) ja (1.2). Lisäksi vaaditaan säteilyehto: 

tasaisesti joka suuntaan x 

|x| . 

lim 

|x|→∞ (Hs × x − |x|E s ) = 0 

Suora ongelma: Määrää E s ja H s kun E i ja H i sekä n(x) on annettu. 

Inversio-ongelma: Määrää n(x) kun H s ja E s tunnetaan kaukana sirottavasta 

väliaineesta annetuilla E i ja H i . 

Akustista sirontaongelmaa kuvaavat yhtälöt 

u(x) = u i (x) + u s (x) 

∆u(x) + ω2 

c 2 (x) u(x) = 0, x ∈ Rn , 

13

ja potentiaalisirontaa (eli kvanttimekaanista sirontaa) kuvaavat yhtälöt 

u(x) = u i (x) + u s (x) 

∆u(x) + V (x)u(x) + k 2 u(x) = 0, x ∈ R n , 

( ) 

n−1 x 

lim |x| 2 

|x|→∞ |x| · ∇us (x) − iku s (x) = 0 tasaisesti joka suuntaan x 

|x| 

missä k on nk. aaltoluku. Käänteisissä sirontaongelmissa pyritään määräämään 

funktiot c(x) ja V (x) kun u s tunnetaan kaukana tuntemattomasta sirottajasta. 

Kuva 1.13: Sironnan periaate. Tuleva kenttä u i saa aikaan sironneen kentän u s . 

Koko kenttä u = u i + u s . 

Kappalesironnassa lähetetty aalto ei pääse tuntemattoman kappaleen läpi 

vaan sironta määräytyy kappaleen reunan muodon ja materiaalin mukaan. Sitä 

kuvaavat esimerkiksi yhtälöt 

u(x) = u i (x) + u s (x) 

∆u(x) + k 2 u(x) = 0, x ∈ R 3 \D, 

u(x) = 0, x ∈ ∂D, 

( ) 

x 

lim |x| 

|x|→∞ |x| · ∇us (x) − iku s (x) 

= 0 tasaisesti joka suuntaan x 

|x| 

Käänteisessä kappalesironnassa pyritään määräämään kappaleen sijainti. 

Käänteiset sironta-ongelmat (eng. inverse scattering problem) ovat 

matematiikaltaan haastavia. 

1.3 Inversio-ongelmien luokittelua 

(A) Matemaattiset inversio-ongelmat. Esimerkiksi. 

– Sirontaongelmat (kappalesironta, sironta väliaineesta, potentiaalisironta, 

data yhdellä tai usealla taajuudella) 

14

– Käänteiset reuna-arvo-ongelmat 

– Matemaattinen tomografia (myös matka-aikatomografia) 

– Alkuarvojen määrääminen 

– Käänteiset ominaisarvo-ongelmat. 

(B) Käytännönläheiset ja laskennalliset inversio-ongelmat. Esimerkiksi 

– Kuvankäsittely 

– Kaukokartoitus (=etäällä olevien kohteiden kuvantaminen epäsuorien 

menetelmien avulla) 

– Lääketieteellinen kuvantaminen 

– Ainetta rikkomaton testaus 

– Retrospektiiviset eli menneisyyteen liittyvät ongelmat (esim. mistä 

saastehiukkaset ovat kulkeutuneet) 

– Biologiset inversio-onglmat (esim. Fylogeneettinen ongelma: Määrää 

DNA-erojen perusteella missä järjestyksessä nykyiset lajit ovat eriytyneet 

toisistaan eli piirrä lajien evoluutiopuu.) 

Inversio-ongelmian sovellusalueita ovat mm. 

• Geologinen tutkimus (malmi- ja öljyvarojen kartoitus, maankuoren tutkimus, 

maanjäristysten analysointi) 

• Lääketiede (kuvantaminen, metabolisten prosessien parametrien kääntäminen 

verinäytteistä, etc.) 

• Maapallon tilan seuraaminen (otsonimittaus, epäsuorat lämpötilamittaukset, 

etc..) 

• Tähtitiede ja astronomia (epäsuorat havainnot planeetoista, asterodeista, 

auringosta, galakseista etc.). 

• Taloustiede (mallien parametrien määrääminen). 

• Teollisuuden laadunvalvonta. 

1.4 Yhteenveto 

Inversio-ongelmissa pyritään saamaan tietoa tuntemattomista kohteista epäsuorien 

havaintojen avulla. Inversio-ongelmat voidaan jakaa matemaattisiin ja käytännönläheisiin 

ongelmiin ja niitä tavataan useilla eri aloilla. Tyypilliset ominaisuudet: 

• vaikeampia kuin suorat ongelmat. 

• herkkiä datan häiriöille 

• käytännön inversio-ongelmissa datan määrä on rajallinen 

• usein epälineaarisia 

15

Luku 2 

Hyvin ja huonosti asetetut 


2.1 Hyvin asetetut inversio-ongelmat 

Ryhdytään tarkastelemaan inversio-ongelmia vektoriavaruuksissa R n . Vektoriavaruus 

soveltuu hyvin tuntemattomien kuvailuun käytännön inversio-ongelmissa, 

sillä usein tavoitteena on muodostaa kuva tuntemattomasta kohteesta. Jos kuvassa 

on m × m pikseliä, niin tuntematon voidaan kuvata vektorina, jonka dimensio 

on n = m 2 . 

Lineaarinen vektoriavaruus R n , n ≥ 1 varustetaan tavanomaisella topologialla, 

jossa a-keskinen r-säteinen avoin pallo, missä a = (a 1 , ..., a n ) ∈ R n ja 

r > 0, on muotoa 

B(a, r) = {x ∈ R n : |x − a| < r}. 

Vektorin x = (x 1 , .., x n ) ∈ R n pituus |x| on 

∑ 

|x| = √ n |x i | 2 . 

i=1 

Olkoon D ⊂ R n . Palautetaan mieleen, että funktio F : D ⊂ R n → R m on 

jatkuva pisteessä x 1 ∈ D jos jokaisella ǫ > 0 on olemassa sellainen δ > 0 että 

ehdoista x 2 ∈ D ja |x 1 − x 2 | < δ seuraa |F(x 1 ) − F(x 2 )| < ǫ. 

Seuraava määritelmä on inversio-ongelmien kannalta tärkeä. 

Määritelmä 1 (Jacques Hadamard, 1865-1963). Ongelma on hyvin asetettu 

(eng. well-posed), jos 

1. Ongelmalla on ratkaisu. 

2. Ratkaisu on yksikäsitteinen. 

3. Ratkaisu riippuu annetusta datasta jatkuvasti. 

Määritellään joukko 

V = {x ∈ R n : x on mahdollinen tuntematon } 

17

Jos suora ongelma ”määrää (vapaasti valittua) vektoria x ∈ V vastaava data 

y ∈ R m ”on hyvin asetettu, niin jokaista mahdollista tuntematonta x ∈ V vastaa 

yksi datavektori y ∈ R m . Voimme silloin määritellä funktion 

F : V → R m , 

joka kuvaa tuntemattoman x ∈ V sitä vastaavaksi dataksi y ∈ R m . Funktiota 

F kutsutaan suoraksi teoriaksi (eng. direct theory, forward mapping). Kohdan 

3. mukaan F : V → R m on jatkuva. 

Oletetaan, että tunnetaan suora teoria F : V → R m . Olkoon lisäksi W ⊂ 

R m annettu. Ryhdytään tarkastelemaan suoraa ongelmaa vastaavaa inversioongelmaa: 

Määrää x ∈ V kun (vapaasti valittu) y = F(x) ∈ W ⊂ R m on annettu. 

Milloin tämä inversio-ongelma on hyvin asetettu? Kohdat 1. ja 2. edellyttävät 

inversio-ongelman yksikäsitteistä ratkeavuutta; kuvauksen F : V → W on 

oltava sekä surjektio että injektio. Tällöin käänteiskuvaus F −1 on olemassa ja 

sen määrittelyjoukko on koko W. 

Kolmas vaatimus – käänteiskuvauksen jatkuvuus– tähtää stabiilisuuteen: jos 

ongelma on hyvin asetettu, niin riittävän pieni häiriö datassa ei aiheuta suuria 

muutoksia ratkaisuun. Ehdon 3 nojalla F −1 on jatkuva pisteessä y 1 ∈ W jolloin 

annetulla ǫ > 0 löytyy sellainen δ > 0, että |F −1 (y 1 ) − F −1 (y 2 )| < ǫ aina kun 

y 2 ∈ W ja |y 1 − y 2 | < δ. Erityisesti jos näissä epäyhtälöissä y 1 = F(x 1 ) jollakin 

x 1 ∈ V ja y 2 ∈ W on muotoa 

y 2 = F(x 1 ) + e, 

missä |e| < δ, niin vastaaville ratkaisuille pätee 

|F −1 (y 1 ) − F −1 (y 2 )| = |x 1 − F −1 (F(x 1 ) + e)| < ǫ. 

Inversio-ongelma on hyvin asetettu, jos sillä on olemassa yksikäsitteinen stabiili 

ratkaisu. 

2.2 Abstrakti kuvailu 

Palataan hetkeksi hiukan yleisempien inversio-ongelmien pariin, joissa tuntematon 

f ja data g voivat olla myös funktioita. Olkoot V 1 ja V 2 kaksi vektoriavaruutta, 

jotka on varustettu normeilla ‖·‖ 1 ja ‖·‖ 2 . Olkoon kuvaus R : V 1 → V 2 

suora teoria, joka vie tuntemattoman vektorin f ∈ V 1 sitä vastaavaksi dataksi 

R(f) = g ∈ V 2 . Suora ongelma on määrätä g = R(f). Vastaavan inversioongelman 

ratkaisu voidaan jakaa seuraaviin osaongelmiin. 

1. Identifioitavuus. 

Ratkaisun yksikäsitteisyyden näyttäminen eli kuvauksen R injektiivisyys. 

Vastaa kysymykseen: Onko data periaatteessa riittävä ratkaisun määräämiseksi? 

Yleensä ensimmäinen askel matemaattisessa inversio-ongelmassa. 

2. Karakterisointi. 

Mikä on kuvauksenăR kuvajoukko? Millaiset datavektorit g vastaavat tuntemattomia 

f? 

18

3. Stabiilisuus. Miten pienet häiriöt datassa vaikuttavat ratkaisuun? Onko 

R −1 jatkuva (jollakin joukolla U ⊂ V 2 )? 

4. Rekonstruktio. 

Kuinka f saadaan annetusta g ∈ Im(R) matemaattisesti selville? Tämä 

on toinen tärkeä askel matemaattisen inversio-ongelman ratkaisemisessa. 

5. Numeerinen rekonstruktio. 

Tarkka tai approksimatiivinen menetelmä ratkaisun numeeriseen määräämiseen 

saatavilla olevasta datasta. 

Kohdat 1.-3. ovat ekvivalentteja sille että matemaattinen inversio-ongelma 

on hyvin asetettu. Kohta 4. antaa matemaattisen konstruktion tuntemattoman 

selvittämiseksi datasta. 

Jo kohdat 1. ja 4. osoittavat, että ongelma on matemaattisesti ratkaistavissa 

jolloin on mahdollista edetä suoraan kohtaan 5. 

Kohta 5 on usein lähes uusi ongelma. Vaikka matemaattisen inversio-ongelman 

ratkaisu osoittaa, että ongelma on järkevästi asetettu ja ratkaisuperiaate tunnetaan, 

niiin käytännössä datan rajallisuus ja epätarkkuus voivat tehdä matemaattisen 

ratkaisuperiaatteen suoraviivaisen soveltamisen mahdottomaksi. Erityisesti 

tämä pätee kun ratkaisu ei ole stabiili. Tällöin käytetään approksimatiivisia 

ratkaisumenetelmiä, joihin tutustutaan myöhemmin tällä kurssilla. 

Kun haetaan numeerista ratkaisua, tuntematonta funktiota f(t), t ∈ R m 

joudutaan usein approksimoimaan joillakin yksinkertaisemmilla funktioilla 

f n (t) = 

n∑ 

a n φ n (t), 

i=1 

missä funktiot φ n ovat tunnettuja, mutta kertoimet a n ∈ R ovat tuntemattomia. 

Tuntemattoman approksimaatio saadaan selville, mikäli onnistutaan määräämään 

vektori x = (a 1 , ..., a n ) ∈ R n . Approksimaatioissa päädytään yleensä 

vektoriarvoisten tuntemattomien inversio-ongelmaan. 

2.3 Huonosti asetetut inversio-ongelmat 

Määritelmä 2. Jos ongelma ei ole hyvin asetettu, se on huonosti asetettu (eng. 

ill-posed). 

Tarkastellaan eri vaihtoehtoja: 

1. Ratkaisu on olemassa, mutta on epäyksikäsitteinen. 

Useampi kuin yksi tuntematon tuottaa saman datan eli y = F(x 1 ) = 

F(x 2 ) joillakin tuntemattomilla x 1 ≠ x 2 . Tällöin on järkevää kysyä minkälaisesta 

epäyksikäsitteisyydestä on kysyä sekä mahdollisuutta rajoittaa 

tai priorisoida mahdollisten tuntemattomien joukkoa jollakin tapaa. 

Epäyksikäsitteisyys on varsinkin käytännön inversio-ongelmien rasite saatavilla 

olevan datan rajallisuuden vuoksi. Tyypillisesti matemaattisen inversioongelman 

ratkaisu edellyttää jonkin funktion tuntemista, mutta käytännössä 

funktion (approksimatiivisia) arvoja kyetään rekisteröimään vain 

19

joissakin pisteissä. Tarkastellaan esimerkiksi yksinkertaista ongelmaa, jossa 

pyydetään määräämään funktion f ∈ C 1 (0, 1) derivaatta f ′ = g. Jos 

f tunnetaan, niin ratkaisu on yksikäsitteinen. Jos f tunnetaan vain pisteissä 

f(t i ), t 1 , ..., t n ∈ [0, 1], niin f voi olla mikä tahansa pisteiden f(t i ), 

i = 1, ..., n kautta kulkeva C 1 -funktio. Jokaista dataan sopivaa eri funktiota 

f vastaa eri derivaatta g. 

Käytännön inversio-ongelmissa tuntematon on usein korkeaulotteisempi 

vektori kuin annettu datavektori. Yksinkertainen esimerkki epäyksikäsitteisyydestä 

on matriisiyhtälö 

y j = 

n∑ 

M ij x j , 

j=1 

missä j = 1, ..., m ja n > m. Tällöin tuntemattiomia on n kappaleita ja 

niitä sitovia yhtälöitä vain m kappaletta. 

2. Ratkaisua ei ole olemassa. 

Tähän tilanteeseen voidaan päätyä, jos annettu data sisältää häiriöitä. Ts. 

jos esimerkiksi on annettu y = F(x)+e, missä e on tuntematon pieni häiriö 

ja y /∈ Im(F). Siitä huolimatta haluttaisiin saada tietoa tuntemattomasta 

x. 

3. Ratkaisu ei riipu jatkuvasti datasta. 

Pienimmätkin häiriöt datassa voivat saada aikaan suuria muutoksia ratkaisuun. 

Voi tapahtua erityisesti epälineaarisissa äärellisulotteisissa ongelmissa 

ja eräissä funktioita käsittelevissä lineaarisissa inversio-ongelmissa. 

Esimerkki 1. Tarkastellaan Fredholmin 1. kertaluvun integraaliyhtälöä 

g(x) = 

∫ 1 

0 

K(x, y)f(y)dy, y ∈ [0.1]. 

siinä tapauksessa, että K : [0, 1] × [0, 1] → R on C 1 -funktio. Inversio-ongelma: 

Määrää jatkuva funktio f : [0, 1] → R kun jatkuva funktio g : [0, 1] → R on 

annettu. 

Jos g on jatkuva funktio, joka ei ole derivoituva, niin ratkaisua ei ole olemassa. 

Yhtälön oikea puoli on aina derivoituva, sillä 

0 

d 

dx 

∫ 1 

0 

K(x, y)f(y)dy = 

∫ 1 

0 

∂ 

K(x, y)f(y)dy 

∂x 

koska erotusosamäärälle pätee 

∫ 1 

∫ 

K(x + h, y) − K(x, y) 

1 

∫ x+h 

∂ 

x 1 K(x ′ , y)dx ′ 

f(y)dy = 

f(y)dy, 

h 

0 h 

missä integrointijärjestystä voidaan vaihtaa. 

Esimerkki 2. Olkoon M n×n ∈ R n×n . Milloin ongelma ”määrää sellainen x ∈ 

R n , että Mx = y, missä y ∈ R n on annettu”on huonosti asetettu? 

Ongelma on huonosti asetettu vain jos det(M) = 0, sillä muussa tapauksessa 

neliömatriisilla M on olemassa käänteismatriisi M −1 joka on jatkuva kuvaus. 

20

Esimerkki 3. Jos M ∈ R m×n ja m < n, niin ongelma ”määrää x ∈ R n kun 

y = Mx ∈ R m on annettu”on huonosti asetettu, sillä ongelmalla on useita 

ratkaisuja. Esimerkiksi, jos 

( ) 1 1 0 

M = , 

0 0 1 

niin Mx = 0 jos ja vain jos x 1 + x 2 = 0 ja x 3 = 0. Toisin sanoen 

Ker(M) = {(x 1 , −x 1 , 0) : x 1 ∈ R} ≠ {0}. 

Esimerkki 4. Olkoon M m×n ∈ R m×n . Olkoon V ⊂ R n ja W ⊂ R m lineaarisia 

aliavaruuksia. Milloin ongelma ”määrää sellainen x ∈ V , että Mx = y, missä 

y ∈ W on annettu”on huonosti asetettu? 

Tämä ongelma on huonosti asetettu, jos edes toinen seuraavista väitteistä 

on totta. 

1. W ∩ M(V ) ≠ W (jolloin ei löydy ratkaisua) 

2. V ∩ Ker(M) ≠ {0} (jolloin ratkaisu ei ole yksikäsitteinen) 

Lineaarisen aliavaruuden V kuva on aliavaruus 

n∑ 

M(V ) = {y ∈ R m : y = x i M i , x ∈ V }, 

missä vektori M i on matriisin M i:s pystyvektori (eli sarake). Jos V = R n , niin 

M(V ) on matriisin M pystyvektorien virittämä aliavaruus. 

Huomaa, että jos lineaarinen kuvaus M : V → W on bijektio, niin sillä on 

jatkuva lineaarinen käänteiskuvaus. Tämän voi nähdä toteamalla, että kuvaavaruuden 

W = M(V ) dimensio on silloin sama kuin aliavaruuden V dimensio 

jolloin lineaarinen kuvaus M voidaan esittää neliömatriisina, jolla injektiivisyyden 

perusteella on käänteismatriisi. Matriisikuvaus on jatkuva. 

i=1 

2.4 Ratkaisun häiriöalttius 

Huonosti asetetun ongelman ratkaisu voi olla altis häiriöille, mutta myös hyvin 

asetetuilla ongelmilla voi olla erilainen häiriöalttius. Löysästi puhuen voidaan 

sanoa että ongelma A on huonommin asetettu tai häiriöalttiimpi (more 

ill-posed/ill-conditioned) kuin ongelma B, jos samansuuruinen häiriö datassa 

muuttaa ongelman A ratkaisua voimakkaammin kuin ongelman B ratkaisua. 

Esimerkki 5. Olkoot y, ỹ ∈ R 8 muotoa y = Mx + ε ja ỹ = ˜Mx + ε, missä 

x = (1, 1, 1, 1, 1, 1, 1, 1), ε = (0, 0, 0, 0, 0, 0, 0, 0.02) ja M, ˜M ovat reaalisia 8 × 8- 

matriiseja, joiden elementit ovat M ij = 1 i δ ij ja ˜M ij = 2 −i δ ij . Tässä δ ij on 

Kroneckerin delta: δ ij = 0 jos i ≠ j ja δ ij = 1 jos i = j. Matriisit M ja ˜M ovat 

säännöllisiä, mutta 

M −1 y = x + M −1 ε = (1, 1, 1, 1, 1, 1, 1, 1, 1.16) ja 

˜M −1 ỹ = x + ˜M −1 ε = (1, 1, 1, 1, 1, 1, 1, 1 + 2 8 · 0.01) 

Viimeiseen elementtiin summautuu 2 8 · 0.02 = 5.12. Vaikka ongelma on Hadamardin 

mielessä hyvin asetettu, ei häiriöisellä datalla saatua ratkaisua voi pitää 

hyvänä. 

21

Hyvin asetettu ongelma, jolla on hyvin suuri häiriöalttius, on ominaisuuksiltaan 

samankaltainen kuin huonosti asetettu ongelma, jonka ratkaisu ei riipu 

jatkuvasti datasta. 

Häiriöalttius on vakava asia, sillä suurimmassa osaa käytännön inversioongelmista 

pätee seuraava nyrkkisääntö: data ei ole koskaan täsmälleen sellaista 

kuin suorassa teoriassa on esitetty. 

• Mittalaitteilla on rajallinen tarkkuus. 

• Elektronisissa mittalaitteissa esiintyy lämpökohinaa. 

• Suora teoria ei välttämättä ole täysin tarkka, vaan voi sisältää approksimaatioita. 

• Mittauksessa voi esiintyä ulkoisia häiriöitä. 

Lisäksi numeerisessa laskennasssa tapahtuu pyöristysvirheitä, jotka johtuvat tietokoneen 

rajallisesta laskentatarkkuudesta (reaaliluvut on korvattu liukuluvuilla). 

Matriisien kvantitaviivisessa vertailussa käytetään ehtolukuja (eng. condition 

numbers). Palautetaan mieleen, että matriisin M = M m×n ∈ C m×n Hermiten 

liittomatriisi on M ∗ = M T . 

Määritelmä 3. Matriisin M m×n ∈ C m×n singulaariarvot σ i (M) ovat matriisin 

M ∗ M ominaisarvojen λ i nelijöjuuria eli σ i (M) = √ λ i i = 1, ..., n. 

Määritelmä 4. Säännöllisen matriisin M = M n×n ∈ C n×n ehtoluku κ(M) on 

luku 

κ(M) = ‖M‖‖M −1 ‖, 

missä matriisinormi ‖M‖ = σ max (M) on matriisin M suurin singulaariarvo. 

Huomaa, että normin ja sisätulon välisen yhteyden nojalla 

‖Mx‖ = √ n∑ 

(Mx, Mx) = √ M ij x i M ik x k = √ (M ∗ Mx, x) (2.1) 

j,i,k=1 

jokaisella x ∈ C n . Koska M ∗ M on Hermiten matriisi, niin neliömuoto (2.1) 

voidaan kirjoittaa muodossa 

(M ∗ Mx, x) = (Λx ′ , x ′ ) = 

n∑ 

λ i |x ′ i |2 , 

missä Λ on diagonaalimatriisi, joka sisältää matriisin M ∗ M ominaisarvot λ i ja 

x ′ on vektorin x esitys matriisin M ∗ M ominaiskannassa. Arvioimalla ominaisarvoja 

ylöspäin suurimmalla ominaisarvolla saadaan epäyhtälö 

√ 

‖Mx‖ ≤ max λi ‖x‖. (2.2) 

1≤i≤n 

i=1 

Sama pätee myös käänteismatriisille M −1 muodossa 

‖M −1 y‖ ≤ 

1 

min 1≤i≤n 

√ 

λi 

‖y‖. (2.3) 

22

Jos y = y + δy, missä δy ∈ R n edustaa datan häiriötä, niin häiritystä yhtälöstä 

y + δy = M(x + δx), 

saadaan häiriölle yhtälö δy = M(δx). Epäyhtälön (2.2) nojalla 

‖x‖ ≥ ( √ λ max ) −1 ‖y‖. Toisaalta δx = M −1 δy. Epäyhtälön (2.3) nojalla ‖δx‖ ≤ 

1 

‖δy‖. Tarkan ratkaisun suhteellinen virheelle pätee 

√ 

λmin(M) 

‖δx‖ 

‖x‖ = ‖M √ −1 δy‖ λmax ‖δy‖ 

≤ 

‖x‖ λ min ‖y‖ = κ(M)‖δy‖ ‖y‖ . 

Ehtoluku antaa suhteelliselle virheelle ylärajan. Kun ehtoluku on hyvin suuri 

(luokkaa > 10 5 ), niin pelkät pyöristysvirheet alkavat haitata yhtälön numeerista 

ratkaisua. 

Esimerkki 6. Identtisen matriisin ehtoluku on 1. Esimerkissä 5 matriisien ehtoluvut 

ovat 

κ(M) = 8 

ja 

κ(˜M) = 1 2 · 28 = 128. 

Esimerkki 7. Lasketaan matriisin 

⎛ ⎞ 

11 10 14 

M = ⎝12 11 −13⎠ 

14 13 −66 

ehtoluku. Lasketaan ensin 

⎛ ⎞ 

11 10 14 

M T M = ⎝12 11 −13⎠ 

14 13 −66 

⎞ ⎛ 

⎞ 

11 10 14 461 424 −926 

⎝12 11 −13⎠ = ⎝ 424 390 −861⎠ . 

14 13 −66 −926 −861 4721 

T ⎛ 

Tämän matriisin ominaisarvot löytyvät karakteristisen polynomin 

⎛ 

⎞ 

461 − λ 424 −926 

p(λ) = det⎝ 424 390 − λ −861 ⎠ 

−926 −861 4721 − λ 

nollakohdista eli 

p(λ) = (461 − λ) · ((390 

− λ) · (4721 − λ) − 861 2) − 424 · (424 · (4721 − λ) − 861 · 926) 

= 0 

−926 (424 · (−861) − (390 − λ) · (−926)) 

Nollakohtia on kolme: λ 1 , λ 2 ja λ 3 . Nollakohtien neliöjuuret ovat 

( √ λ 1 , √ λ 2 , √ λ 3 ) ≈ (0.0006, 21.8, 71.4). 

Tällöin ehtoluku on 

κ(M) ≈ 71.4 

0.0006 ≈ 105 . 

23

Olkoon y = Mx + ε annettu. Jos ‖ε‖ ≤ 1/5, niin mitä saadaan selville 

vektorista x? Tarkastellaan tilannetta, jossa tuntematon x = (0, 0, 1) ja ǫ = 

(0.1, −0.1, 0.1). Silloin 

Mx = ( 14 −13 −66 ) T 

ja 

Koska matriisin M determinantti 

y = Mx + ε = ( 14.1 −13.1 −65.9 ) T 

. 

det(M) = 11·(11·(−66)−(−13)·13)−10·(12·(−66)−(−13)·14)+14·(12·13−11·14) = 1, 

niin sen käänteismatriisi on 

M −1 = 

= 

⎛ 

⎞ 

11 · (−66) − (−13) · 13) −(12 · (−66) − (−13) · 14)) 12 · 13 − 11 · 14 

⎝ −(10 · (−66) − 14 · 13) 11 · (−66) − 14 · 14 −(11 · 13 − 10 · 14) ⎠ 

10 · (−13) − 14 · 11 −(11 · (−13) − 14 · 12) 11 · 11 − 10 · 12 

⎛ 

⎞ 

−557 842 −284 

⎝ 610 −922 311 ⎠ 

2 −3 1 

Käyttämällä matriisin M käänteismatriisia saadaan 

T 

M −1 (Mx + ǫ) = x + ( −168 3 

10 

184 3 10 

6 

10) T 

, 

mikä on sangen kaukana vektorista x. 

Esimerkki 8. Työstetään vielä inversio-ongelmien kannalta hiukan patologisempi 

esimerkki dekonvoluutiosta. Lähdetään tarkastelemaan konvoluutiota 

g(˜θ) = 

∫ π 

−π 

R(˜θ − θ)f(θ)dθ, 

missä ˜θ ∈ [−π, π] ja funktiot R ja f ovat kahdesti jatkuvasti derivoituvia 2πperiodisia 

funktioita eli R(θ + n2π) = R(θ) ja f(θ + n2π) = f(θ) jokaisella 

n ∈ Z. Oletetaan lisäksi, että R on symmetrinen ja ei-negatiivinen funktio eli 

R(θ) = R(−θ) ja R(θ) ≥ 0, t ∈ [0, π]. 

Oletetaan, että meille on annettu data 

g(θ 1 ), ..., g(θ n ), 

missä θ j = hj − π, j = 1, .., n ja h = 2π n , n = 2m jollakin m > 3 ja funktio 

Rătunnetaan. Mitä silloin tiedetään funktiosta f? Tiedämme, että Riemannin 

24

integraali g(˜θ) saadaan raja-arvona Riemannin summista 

n∑ 

S n (˜θ) = R(˜θ − θ (n) 

j )f(θ (n) 

j )h n , 

j=1 

kun välin jakoa tihennetään (erityisesti kun n = 2 m ja m → ∞). Kirjoitetaan 

nyt annetut arvot muodossa 

(∫ π 

) 

g(θ k ) = R(θ k − θ)f(θ)dθ − S n (θ k ) + S n (θ k ) 

−π 

n∑ 

= R(θ k − θ j )f(θ j )h + e k , 

missä 

Merkitään 

sekä 

j=1 

e k = 

∫ π 

−π 

R(θ k − θ)f(θ)dθ − S n (θ k ). 

M kj = R(θ k − θ j )h 

x k = f(θ k ) ja y k = g(θ k ) 

kun k, j = 1, ..., n. Voimme korvata alkuperäisen ongelman matriisiyhtälöllä, 

y = Mx + e. 

jossa annettu data y on epätarkka. 

Ryhdytään arvioimaan matriisin M ehtolukua. Matriisi M on 

⎛ 

⎞ 

R(0) R(−h) R(−2h) · · · R(−(n − 2)h R(−(n − 1)h) 

R(h) R(0) R(−h) · · · R(−(n − 3)h) R(−(n − 2)h) 

M = h 

R(2h) R(h) R(0) · · · R(−(n − 4)h) R(−(n − 2)h) 

⎜ 

⎟ 

⎝ . . . · · · . 

. ⎠ 

R((n − 1)h) R((n − 2)h) R((n − 3)h) · · · R(h) R(0) 

Funktion R jaksollisuuden ansiosta matriisi M on ns. sirkulantti matriisi. 

Yleisesti matriisia M ∈ R n×n kutsutaan sirkulantiksi (eng. circulant matrix), 

jos se on muotoa 

⎛ 

⎞ 

m 1 m n m n−1 · · · m 3 m 2 

m 2 m 1 m n · · · m 4 m 3 

M = 

m 3 m 2 m 1 · · · m 5 m 4 

⎜ 

⎝ 

. 

. 

. · · · 

. 

⎟ 

. ⎠ 

m n m n−1 m n−2 · · · m 2 m 1 

jollakin vektorilla (m 1 , ..., m n ) ∈ R n . 

Lemma 1. Sirkulantin matriisin M ∈ R n×n ominaisarvot ovat 

n∑ 

λ k = m j exp(−2πi(j − 1)(k − 1)/n), k = 1, .., n. 

j=1 

ja sirkulantti matriisi M on unitaarisesti similaarinen diagonaalimatriisin kanssa 

(eli on olemassa unitaarinen matriisi U, jolle U ∗ MU on diagonaalimatriisi). 

25

Todistus. Näytetään ensin, että on olemassa ei-triviaali vektori F (k) ∈ R n , jolle 

MF (k) = λ k F (k) jokaisella k = 1, ...., n. Valitaan 

Lasketaan mitä on 

(MF (k) ) j = 

= 

F (k) 

j = exp(2πi(j − 1)(k − 1)/n), k, j = 1, ..., n. 

n∑ 

l=1 

M jl F (k) 

l 

= 

n∑ 

m (j−l+1)mod n exp(2πi(l − 1)(k − 1)/n) 

l=1 

n∑ 

m L exp(2πi(j − L)(k − 1)/n) = λ k exp(2π(j − 1)(k − 1)) 

L=1 

= λ k F (k) 

j . 

Selvästi F (k) ≠ 0, joten λ k on ominaisarvo. 

Osoitetaan seuraavaksi, että ominaisvektorit ovat ortogonaalisia. Jos k ≠ l, 

niin ominaisvektoreiden F (k) ja F (l) sisätulo 

(F (k) , F (l) ) = 

= 

= 

n∑ 

exp(2πi(j − 1)(k − 1)/n)exp(−2πi(j − 1)(l − 1)/n) 

j=1 

n∑ 

exp(2πi(j − 1)(k − l)/n) 

j=1 

n∑ 

z j−1 = 

j=1 

n−1 

∑ 

j ′ =0 

z j′ 

1 − exp(2πi(k − l)) 

= 

1 − exp(2πi(k − l)/n) 

= 0, 

= 1 − zn 

1 − z 

missä käytimme geometrisen sarjan osasummaa luvulle z = exp(2πi(k −l)/n) ≠ 

1. Lisäksi jos k = l, niin sisätulo 

(F (k) , F (k) ) = 

n∑ 

exp(2πi(j − 1)(k − 1)/n)exp(−2πi(j − 1)(k − 1)/n) = n. 

j=1 

Asetetaan U = 1 √ n 

(F (1) , ..., F (n) ). Tällöin 

⎛ ⎞ 

U ∗ U = 1 F (1)T 

⎜ ⎟ 

n ⎝ . ⎠ (F (1) , ..., F (n) ) = I n×n . 

F (n)T 

Siis U on unitaarinen. Lisäksi MU = Udiag(λ 1 , ..., λ n ), josta similaarisuus seuraa. 

Sirkulantin matriisin M ominaisarvojen modulit ovat sen singulaariarvoja, 

sillä matriisi 

M ∗ M = Udiag(¯λ 1 , ..., ¯λ n )U ∗ Udiag(λ 1 , ..., λ n )U ∗ = Udiag(|λ 1 | 2 , ..., |λ n | 2 )U ∗ 

26

on similaarinen matriisin diag(|λ 1 | 2 , ..., |λ n | 2 ) kanssa ja similaarisilla matriiseilla 

on samat ominaisarvot. 

Olkoon nyt m j = R(h(j − 1))h, j = 1, ..., n. Vastaavan sirkulantin matriisin 

M ominaisarvot ovat 

n∑ 

λ k = hR(h(j − 1))exp(−2πi(j − 1)(k − 1)/n). 

j=1 

Oletetaan, että matriisi M on säännöllinen. Jos k = 1, niin 

λ 1 = 

n∑ 

hR(h(j − 1)) 

j=1 

Jos k = n/2 + 1 (n on parillinen), niin 

n∑ 

|λ n/2+1 | = 

(−1) j−1 hR(h(j − 1)) 

∣ 

∣ . 

j=1 

Matriisin ehtoluvulle saadaan arvio 

κ(M) ≥ |λ 1| 

|λ n/2+1 | . 

Sievennetään summalauseketta käyttäen hyväksi funktion R jaksollisuutta 

ja symmetriaa. Kirjoitetaan aluksi 

n∑ 

|λ n/2+1 | = 

(−1) j−1 hR(h(j − 1)) 

∣j=1 

∣ 

n/2−1 

= 

∣ h ∑ 

−R(h(2J + 1)) + R(h(2J)) 

J=0 

∣ 

∣ n/2−1 

= 

∣ h ∑ 

∫ (2J+1)h ∣∣∣∣∣ 

dR 

− 

(2J)h dθ (θ)dθ . 

J=0 

Jaetaan summalauseke kahteen osaa: integraaleihin välin [0, π] osavälien yli ja 

integraaleihin välin [π, 2π] osavälien yli : 

∣ n/4−1 

|λ n/2+1 | = 

∣ h ∑ 

∫ (2J+1)h 

n/2−1 

dR 

− 

J=0 

(2J)h dθ (θ)dθ + h ∑ 

∫ (2J+1)h ∣∣∣∣∣ 

dR 

− 

J=n/4 

(2J)h dθ (θ)dθ ∣ n/4−1 

= 

∣ h ∑ 

∫ (2J+1)h 

n/4−1 

dR 

− 

J=0 (2J)h dθ (θ)dθ − h ∑ 

∫ (2(J+n/4)+1)h ∣∣∣∣∣ 

dR 

J=0 (2(J+n/4))h dθ (θ)dθ ∣ n/4−1 

= 

∣ h ∑ 

∫ (2J+1)h 

n/4−1 

dR 

− 

J=0 (2J)h dθ (θ)dθ − h ∑ 

∫ (2J+1)h+π ∣∣∣∣∣ 

dR 

J=0 (2J)h+π dθ (θ)dθ ∣ n/4−1 

= 

∣ h ∑ 

∫ (2J+1)h 

n/4−1 

dR 

− 

(2J)h dθ (θ)dθ − h ∑ 

∫ (2J+1)h−π ∣∣∣∣∣ 

dR 

(2J)h−π dθ (θ)dθ . 

J=0 

27 

J=0

Tehdään muuttujan vaihto −θ ′ = θ 

n/4−1 

|λ n/2+1 | = 

∣ h ∑ 

∫ (2J+1)h 

n/4−1 

dR 

− 

J=0 (2J)h dθ (θ)dθ − h ∑ 

J=0 

n/4−1 

= 

∣ h ∑ 

∫ (2J+1)h 

n/4−1 

dR 

− 

(2J)h dθ (θ)dθ + h ∑ 

J=0 

J=0 

∫ π−(2J)h 

Vaihdetaan vielä summausindeksiksi J ′ = n/4 − J 

n/4−1 

|λ n/2+1 | = 

∣ h ∑ 

∫ (2J+1)h 

n/4 

dR 

− 

J=0 (2J)h dθ (θ)dθ + h ∑ 

J ′ =1 

n/4−1 

= 

∣ h ∑ 

∫ (2J+1)h 

n/4−1 

dR 

− 

J=0 (2J)h dθ (θ)dθ + h ∑ 

J ′ =0 

∣ n/4−1 

= 

∣ h ∑ 

∫ (2J+1)h 

∣∣∣∣∣ 

− dR dR 

(θ) + 

(2J)h dθ dθ (θ + h)dθ . 

J=0 

π−(2J+1)h 

∫ 2(n/4−J)h 

(2(n/4−J)−1)h 

∫ (2J ′ )h 

(2J ′ −1)h 

∫ (2J ′ )h 

(2J ′ −1)h 

∣ ∣∣∣∣∣ 

dR 

dθ (−θ′ )dθ ′ 

∣ ∣∣∣∣∣ 

dR 

dθ (θ)dθ 

Käytetään analyysin peruslausetta vielä uudestaan 

∣ n/4−1 

|λ n/2+1 | = 

∣ h ∑ 

∫ (2J+1)h 

∣∣∣∣∣ 

− dR dR 

(θ) + 

J=0 (2J)h dθ dθ (θ + h)dθ n/4−1 

= 

∣ h ∑ 

∫ (2J+1)h ∫ θ+h 

d 2 R 

(2J)h θ dθ 2 (θ′ )dθ ′ dθ 

∣ . 

J=0 

Viemällä itseisarvomerkit integraalien sisälle saamme arvion 

jolloin 

|λ n/2+1 | ≤ h 

κ(M n×n ) ≥ 

≤ 

∫ π ∫ θ+h 

0 

θ 

h 2 π sup 

θ ′ 

∣ ∣∣∣ d 2 R 

sup 

θ ′ dθ 2 (θ′ ) 

∣ dθ′ dθ 

∣ ∣∣∣ d 2 R 

dθ 2 (θ′ ) 

∣ , 

hR(0) 

h 2 π sup θ |R ′′ (θ)| = R(0) 

2π 2 sup θ |R ′′ (θ)| O(n). 

∣ ∣∣∣∣∣ 

dR 

dθ (θ)dθ 

∣ ∣∣∣∣∣ 

dR 

dθ (θ + 2h)dθ 

Mitä suurempi n on sitä epästabiilimpaa on matriisin M n×n kääntäminen. Tämä 

on tyypillistä käytöstä silottavien konvoluutioiden äärellisulotteisille approksimaatioille. 


• Hyvin asetetulla ongelmalla on yksikäsitteinen ratkaisu, joka riippuu jatkuvasti 

annetusta datasta. 

28

• Huonosti asetetulla ongelmalla ei ole ratkaisua lainkaan ja/tai ratkaisuja 

on monta ja/tai ratkaisu ei riipu jatkuvasti annetusta datasta. 

• Jos datassa on liikaa häiriöitä, voi hyvin asetetun ongelman ratkaisu olla 

huonosti asetetetun ongelman ratkaisun kaltainen. 

• Käytännön inversio-ongelmatovat usein huonosti asetettuja/häiriöherkkiä. 

Osattava; 

• määritellä hyvin asetettu ongelma ja huonosti asetettu ongelma. 

• tunnistaa ja antaa esimerkkejä äärellisulotteisista lineaarisista huonosti 

asetetuista ongelmista. 

• määritellä matriisin ehtoluku 

• laskea annetun matriisin ehtoluku 

Ymmärrettävä: 

• miten ehtoluku liittyy yhtälöryhmien ratkaisemiseen. 

• mitä matriisiyhtälölle Mx = y tapahtuu, jos annetut arvot y tunnetaan 

epätarkasti. 

• mitä eroa on häiriöherkällä ja huonosti asetetulla ongelmalla 

Tiedettävä: 

• että funktioita approksimoidaan numeerisessa laskennassa äärellisulotteisilla 

vektoreilla. 

• että huonosti asetettua inversio-ongelmaa approksimoivan hyvin asetetun 

inversio-ongelman häiriöherkkyys voi kasvaa kun approksimaatiota pyritään 

tarkentamaan. 

2.6 Liite: Käänteismatriisin singulaariarvot 

Lause 1. Olkoon M ∈ C n×n säännöllinen matriisi. Matriisin M −1 suurin 

singulaariarvo 

σ max (M −1 1 

) = 

σ min (M) , 

missä σ min (M) on matriisin M pienin singulaariarvo. 

Todistuksessa käytämme seuraavaa lemmaa 

Lemma 2. Olkoon A, B ∈ C n×n säännöllisiä matriiseja. Silloin matriiseilla 

AB ja BA on samat ominaisarvot. 

Todistus. Matriisin ominaisarvot löytyvät karakteristisen polynomin 

nollakohdista. Mutta 

p(λ) = det(AB − λI) 

det(AB − λI) = det(A(B − λA −1 )) = det(A)det(B − λA −1 ) 

= det(B − λA −1 )det(A) = det((B − λA −1 )A) = det(BA − λI), 

jolloin matriiseilla AB ja BA on samat ominaisarvot. 

29

Lemma 3. Olkoon A ∈ C n×n säännöllinen matriisi. Matriisin A −1 ominaisarvot 

ovat matriisin A ominaisarvojen käänteislukuja. 

Todistus. Ominaisarvot löytyvät karakteristisen polynomin 

nollakohdista. Nyt 

p(λ) = det(A − λI) 

det(A − λI) = det(A(λ −1 − A −1 )λ) = λ n det(A)det(λ −1 − A −1 ). 

Koska A on säänöllinen, niin nolla ei ole sen ominaisarvo. Luku λ −1 on matriisin 

A −1 ominaisarvo silloin ja vain silloin kun λ on matriisin A ominaisarvo. 

Todistus: Lause 1. Määrätään matriisin M −1 suurin singulaariarvo. Nyt 

(M −1 ) ∗ M −1 = (M ∗ ) −1 M −1 = (MM ∗ ) −1 . 

Matriisin (M −1 ) ∗ M −1 ominaisarvot ovat matriisin MM ∗ ominaisarvojen käänteislukuja 

lemman 3 nojalla. Matriisilla MM ∗ on samat ominaisarvot kuin matriisilla 

M ∗ M lemman 2 nojalla. Matriisin M −1 singulaariarvot ovat 

1 

√ 

λi (M ∗ M) , 

i = 1, .., n missä λ i (M ∗ M) on matriisin M ∗ M ominaisarvo. Siis 

σ max (M −1 ) = 

1 

σ min (M) . 

Korollaari 1. Olkoon M ∈ C n×n säännöllinen matriisi. Silloin matriisin M 

ehtoluku 

κ(M) = σ max(M) 

σ min (M) . 

30

Luku 3 

Likimääräisratkaisut ja 

regularisaatio 

Ryhdytään tarkastelemaan klassista approksimatiivista ratkaisumenetelmää huonosti 

asetetuille lineaarisille ongelmille. 

3.1 Pienimmän neliösumman menetelmä 

Olkoon x ∈ R n tuntematon vektori, A ∈ R m×n tunnettu matriisi ja 

y = Ax + ε ∈ R m (3.1) 

annettu data. 

Pienimmän neliösumman menetelmässä (eng. least squares method) valitaan 

yhtälön (3.3) likimääräisratkaisuksi sellainen ˆx, jolla 

eli 

‖Aˆx − y‖ 2 = min 

x∈R n ‖Ax − y‖2 . 

ˆx = argmin 

x∈R n ‖Ax − y‖ 2 . 

Merkintä argmin tarkoittaa funktionaalin x ↦→ ‖Ax −y‖ 2 sitä argumenttia jolla 

minimi saavutetaan. 

Huomautus 1. Termi likimääräisratkaisu tarkoittaa, että ˆx ei välttämättä toteuta 

yhtälöä y = Aˆx. 

( ) 

1 0 

Esimerkki 9. Olkoon tuntematon x 0 = (1 0) T , A = ja y = Ax 

0 0 

0 + 

(0 0.1) T = (1 0.1) T . Kun x = (x 1 , x 2 ) ∈ R 2 , niin 

( ) ( ‖Ax − y‖ 2 = 

1 0 x1 

∥ 0 0 

x 2 

) 

− 

( )∥ 

1 ∥∥∥ 

2 

= (x 

0.1 1 − 1) 2 + 0.1 2 ≥ 0.01. 

Näytetään, että pienimmän neliösumman ratkaisu on olemassa. Osoitetaan 

ensin seuraava aputulos. 

31

Lemma 4. Matriisille M ∈ R m×n pätee R(M T ) ⊥ = Ker(M) eli 

R n = R(M T ) ⊕ Ker(M). 

Todistus. Olkoon x ∈ R(M T ) ⊥ Jokaisella z ∈ R m pätee 

0 = (M T z, x) = (z, Mx) 

vain jos Mx = 0 eli x ∈ Ker(M). Siis R(M T ) ⊥ ⊂ Ker(M). Toisaalta, jos 

x ∈ Ker(M), niin 

(M T z, x) = (z, Mx) = 0 

jokaisella z ∈ R m , joten x ∈ R(M T ) ⊥ . Siis Ker(M) ⊂ R(M T ) ⊥ . 

Lause 2. Olkoon A ∈ R m×n ja y ∈ R m . Minimointiongelmalla 

on samat ratkaisut kuin yhtälöllä 

Todistus. Lasketaan ensin sisätulo 

ˆx = argmin 

x∈R n ‖Ax − y‖ 2 

A T Aˆx = A T y. 

f(x) = ‖Ax − y‖ 2 = (Ax − y, Ax − y) 

= (Ax, Ax) − (y, Ax) − (Ax, y) + (y, y) 

= (A T Ax, x) − 2(A T y, x) + (y, y). 

Funktionaalin f minimi, jos sellainen on , löytyy kriittisestä pisteestä. Lasketaan 

gradientin nollakohdat 

∇f(x) = ∇‖Ax − y‖ 2 = 2A T Ax − 2A T y = 0. (3.2) 

Olkoon ˆx gradientin nollakohta eli A T Aˆx = A T y. Tämä on minimikohta, sillä 

f(x) = ‖A(x − ˆx) + Aˆx − y‖ 2 = ‖A(x − ˆx)‖ 2 + 2(A(x − ˆx), Aˆx − y) + ‖Aˆx − y‖ 2 

= ‖A(x − ˆx)‖ 2 + 2(x − ˆx, A T Aˆx − A T y) + ‖Aˆx − y‖ 2 

= ‖A(x − ˆx)‖ 2 + ‖Aˆx − y‖ 2 . 

Korollaari 2. Olkoon A ∈ R m×n ja y ∈ R m . Minimointiongelmalla 

ˆx = argmin 

x∈R n ‖Ax − y‖ 2 

on olemassa ratkaisu ˆx. Ratkaisu on yksikäsitteinen vain jos Ker(A) = {0}. 

Todistus. Lauseen 2 nojalla minimointiongelma on ekivalentti yhtälön A T Aˆx = 

A T y kanssa. Tutkitaan yhtälön A T Ax = A T y yksikäsitteistä ratkeavuutta. Injektiivisyys: 

Selvästi KerA ⊂ Ker(A T A). Lisäksi x ∈ Ker(A T A) eli A T Ax = 0 

jos ja vain jos 

0 = (A T Ax, z) = (Ax, Az) 

32

jokaisella z ∈ R n . Erityisesti kun z = x, saadaan ‖Ax‖ = 0 eli x ∈ KerA. Toisin 

sanoen Ker(A T A) ⊂ Ker(A). Siis Ker(A T A) = Ker(A), jolloin A T A on injektio 

jos ja vain jos A on injektio. Näytetään, että A T y ∈ R(A T A) Valitsemalla 

M = A sekä M = A T A lemmassa 4, saamme 

R(A T ) = Ker(A) ⊥ = Ker(A T A) ⊥ = R(A T A). 

Täten yhtälöllä A T Ax = A T y on vähintään yksi ratkaisu ja ratkaisu on yksikäsitteinen 

vain jos Ker(A) = {0}. 

Huomautus 2. Olkoon P : R m → R m ortogonaaliprojektio kuva-avaruudelle 

R(A) (jolloin P 2 = P, P T = P ja erityisesti PAx = Ax jokaisella x ∈ R n ). 

Yhtälön y = Ax + ε pienimmän neliösumman ratkaisu ˆx = ˆx(y) on itseasiassa 

yhtälön 

Py = Ax 

ratkaisu, sillä ortogonaaliprojektion P symmetrisyyden nojalla 

(Aˆx − Py, z) = (PAˆx − Py, z) = (Aˆx − y, Pz) = (Aˆx − y, Az ′ ) 

= (A T Aˆx − A T y, z ′ ) = (A T y − A T y, z ′ ) = 0 

jokaisella z ∈ R m (huomaa, että koska Pz ∈ R(A), niin löytyy z ′ ∈ R n , jolle 

Az ′ = Pz). 

Yhtälöillä y = Ax+ε ja Py = PAx+Pε on samat pienimmän neliösumman 

ratkaisut. Tämä seuraa siitä, että A = PA, jolloin A T = A T P T ja 

A T y = A T Aˆx = A T P T PAx = A T P T y. 

Esimerkki 10. Tuntemattomasta x = (x 1 , x 2 ) ∈ R 2 on saatu seuraavat häiriöiset 

mittaukset: 

1 = x 1 + e 1 

3 = x 1 + x 2 + e 2 

4 = x 1 + x 2 + e 3 

2 = x 2 + e 4 . 

Etsi likimääräisratkaisu käyttämällä pienimmän neliösumman menetelmää. Merkitään 

⎛ ⎞ 

1 0 

A = ⎜1 1 

⎟ 

⎝1 1⎠ 

0 1 

ja y = (1, 3, 4, 2). Määrätään pienimmän neliösumman ratkaisu yhtälölle y = 

Ax + e. Lasketaan 

⎛ ⎞ 

( ) 1 0 ( ) 

A T 1 1 1 0 

A = 

⎜1 1 

⎟ 3 2 

0 1 1 1 ⎝1 1⎠ = 2 3 

0 1 

33

ja 

A T y = 

⎛ ⎞ 

( ) 1 ( ) 

1 1 1 0 

⎜3 

⎟ 8 

0 1 1 1 ⎝4⎠ = . 

9 

2 

Saamme yhtälön ( ) ) ( 

3 2 

(ˆx1 8 

= , 

2 3 ˆx 2 9) 

jonka ratkaisu on (ˆx 1 , ˆx 2 ) = ( 6 5 , 11 5 ). 

Korollaari 3. Olkoon A ∈ R m×n . Olkoot λ i ja v i , missä i = 1, .., n, matriisin 

A T A ominaisarvot ja niitä vastaavat ortonormeeratut ominaisvektorit. Yhtälön 

y = Ax + ε pienimmän neliösumman ratkaisut ˆx = (ˆx 1 , ..., ˆx n ) ovat muotoa 

ˆx k = 

n∑ 

i,j=1 

λ i ≠0 

V ki 

1 

λ i 

V ji (A T y) j + ˜x k , k = 1, ..., n 

missä V = (v 1 , ..., v n ) ja ˜x = (˜x 1 , ..., ˜x n ) ∈ Ker(A). 

Todistus. Olkoon ˆx annettua muotoa. Nyt A T A = V diag(λ 1 , ..., λ n )V T , jolloin 

A T Aˆx = ( V diag(λ 1 , ..., λ n )V T)( V diag(min(0, 1 ) 

1 

), ..., min(0, ))V T A T y. 

λ 1 λ n 

Olkoon ˜D sellainen diagonaalimatriisi, jolla 

{ 

0 jos λ i = 0 

˜D ii = 

1 muulloin. 

Koska R(A T ) = R(A T A), niin on olemassa sellainen x 0 ∈ R n jolle A T y = 

A T Ax 0 . Erityisesti 

A T Aˆx = V ˜DV T V diag(λ 1 , ..., λ n )P T x 0 

= V ˜D diag(λ 1 , .., λ n )V T x 0 = A T y. 

Täten x = ˆx on yhtälön A T Ax = A T y eräs ratkaisu. Muut ratkaisut saadaan 

lisäämällä tähän ratkaisuun jokin vektori aliavaruudesta Ker(A T A) = Ker(A) 

Määritelmä 5. Matriisin A ∈ C m×n singulaariarvohajotelma (eng. singular 

value decomposition) on matriisin A esitys 

A = UDV ∗ , 

missä U ∈ C m×m ja V ∈ C n×n ovat unitaarisia matriiseja sekä D ∈ R m×n on 

muotoa 

{√ 

λi (A 

D ij = 

∗ A), i = j 

0, i ≠ j. 

ja D 11 ≥ D 22 ≥ · · · ≥ D nn ≥ 0. 

34

Esimerkki 11. Oletetaan, että matriisilla A ∈ R m×n on singulaariarvohajotelma 

A = UDV T , missä D ii = 0 kun i > r ja D ii > 0 kun i < r. Silloin 

A T A = (UDV T ) T (UDV T ) = V D T DV T 

ja diagonaalimatriisin D T D diagonaalielementit Dii 2 , i = 1, .., n ovat matriisin 

A T A ominaisarvot. 

Tällöin yhtälön y = Ax+ε pienimmän neliösumman ratkaisut ˆx = (ˆx 1 , ..., ˆx n ) 

ovat muotoa 

ˆx k = 

= 

= 

r∑ 

n∑ 

i=1 j=1 

r∑ 

n∑ 

i=1 j=1 

r∑ 

i=1 

1 

V ki 

Dii 

2 V ji (A T y) i + ˜x k 

1 

V ki 

Dii 

2 V ji (V D T U T y) j + ˜x k 

V ki 

1 

D ii 

(U T y) i + ˜x k , 

missä ˜x = (˜x 1 , .., ˜x n ) ∈ Ker(A). 

Sijoitetaan tähän lausekkeeseen y = Ax + ε. Saamme 

ˆx k = 

r∑ 

i=1 

= (Qx) k + 

V ki 

1 

D ii 

(U T UDV T x + U T ε) i + ˜x k 

r∑ 

i=1 

V ki 

1 

D ii 

(U T ε) i + ˜x k 

Mikäli matriisilla A T A on hyvin pieniä nollasta eroavia ominaisarvoja, niin häiriötermillä 

ε on voimakas vaikutus ratkaisuun. 

Yllä 

r∑ 

(Qz) k = V ik (V i , z), z ∈ R n 

i=1 

määrittelee ortogonaalisen projektion aliavaruudelle Ker(A) ⊥ = R(A T ), sillä 

vektorit V r+1 , ..., V n virittävät aliavaruuden Ker(A). (Todellakin, jos z ∈ 

Ker(A), niin 

0 = Az = UDV T z. 

Mikä tahansa avaruuden R n vektori voidaan esittää matriisin V pystyvektoreiden 

muodostamassa kannassa. Erityisesti z = ∑ n 

i=1 V i(V i , z). Koska U on 

ortogonaalinen, on 0 = U T UDV T z = DV T z eli 

r∑ 

0 = (DV T z, DV T z) ≥ min Dii 

2 (V i , z) 2 . 

i 

Toisin sanoen elementit (V i , z) = 0 kun i = 1, .., r.) 

3.2 Tikhonovin regularisaatio 

Olkoon x ∈ R n tuntematon, A ∈ R m×n tunnettu matriisi ja 

i=1 

y = Ax + ε ∈ R m (3.3) 

35

annettu data. 

Tikhonovin regularisaatiossa (eng. Tikhonov’s regularization) yhtälön y = 

Ax + ε likimääräisratkaisuksi ˆx otetaan Tikhonovin funktionaalin 

missä α > 0, minimoija eli 

L α (x) := ‖Ax − y‖ 2 + α‖x‖ 2 , 

ˆx α = argmin 

x∈R n ‖Ax − y‖ 2 + α‖x‖ 2 . 

Lause 3. Olkoon α > 0. Minimointiongelmalla 

‖Aˆx − y‖ 2 + α‖x‖ 2 = min 

x∈R n ‖Ax − y‖2 + α‖x‖ 2 

on yksikäsitteinen ratkaisu ˆx α . Ratkaisu ˆx α on myös yhtälön 

yksikäsitteinen ratkaisu. 

(A T A + αI)ˆx α = A T y 

Todistus. Kirjoitetaan Tikhonovin funktionaali muodossa 

( ) ( ‖Ax − y‖ 2 + α‖x‖ 2 = 

A 

∥ √αI y ∥∥∥ 

2 

x − , 

0)∥ 

joka johtaa pienimmän neliösumman minimointiin. Voimme käyttää Lausetta 

2, jonka nojalla Tikhonovin funktionaalin minimoija on olemassa ja toteuttaa 

yhtälön 

( ) T ( ) ( ) T ( ) 

√αI 

A 

√αI 

A A 

ˆx = √αI y 

0 

eli 

(A T A + αI)ˆx α = A T y. 

Tämän yhtälön ratkaisu on yksikäsitteinen Korollaarin 2 nojalla, sillä matriisin 

( 

A 

√αI 

) 

ydin sisältää vain nollavektorin, sillä jos 

niin x = 0. 

0 = 

( ) ( ) 

√αI 

A Ax 

x = √ , αx 

Esimerkki 12. Tarkastellaan edellisen luvun Esimerkin 7 matriisia 

⎛ ⎞ 

11 10 14 

A = ⎝12 11 −13⎠, 

14 13 −66 

jonka ehtoluku on luokka 10 5 . 

Olkoon y = Ax+ε ∈ R 3 annettu. Tarkastellaan tilannetta, jossa tuntematon 

x = (0, 0, 1) ja ǫ = (0.1, −0.1, 0.1). Silloin 

Ax = ( 14 −13 −66 ) T 

36

ja 

Totesimme Esimerkissä 7, että 

y = Ax + ε = ( 14.1 −13.1 −65.9 ) T 

. 

A −1 (Ax + ǫ) = x + ( −168 3 

10 

184 3 

10 

6 

10) T 

. 

Ratkaistaan ongelma y = Ax + ε Tikhonovin regularisaatiolla. Lasketaan ensin 

⎛ ⎞ 

11 10 14 

A T A = ⎝12 11 −13⎠ 

14 13 −66 

Valitaan α = 0.01 ja lasketaan 

(A T A + αI) −1 A T y = 

≈ 

⎞ ⎛ 

⎞ 

11 10 14 461 424 −926 

⎝12 11 −13⎠ = ⎝ 424 390 −861⎠ 

14 13 −66 −926 −861 4721 

T ⎛ 

⎛ 

⎞ 

461.01 424 −926 

⎝ 424 390.01 −861 ⎠ 

−926 −861 4721.01 

⎛ 

⎝ −0.003 ⎞ 

0.006 ⎠ . 

1.001 

⎞ ⎛ 

11 12 14 

⎝10 14 13 ⎠ ⎝ 14.1 ⎞ 

−13.1⎠ 

14 −13 −66 −65.9 

−1 ⎛ 

Lähdetään selvittelemään kuinka parametri α vaikuttaa ratkaisuun. Voimme 

aluksi kysyä mitä ratkaisulle ˆx α tapahtuu, jos α → 0 tai α → ∞. Tällöin meidän 

tulee laskea raja-arvot 

lim 

α→0+ (AT A + αI) −1 A T y ja lim 

α→0+ (AT A + αI) −1 A T y, 

jos ne ovat olemassa. 

Oletetaan yksinkertaisuuden vuoksi, että nolla ei ole matriisin A T A ominaisarvo. 

Silloin käänteismatriisi (A T A) −1 on olemassa ja voimme ryhtyä tutkimaan 

erotusta 

‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖. 

Kahden käänteismatriisin erotus voidaan kirjoittaa muodossa 

Erityisesti 

Silloin 

B −1 − C −1 = B −1 (I − BC −1 ) = B −1 (C − B)C −1 . 

(A T A + αI) −1 − (A T A) −1 = (A T A + αI) −1 (αI)(A T A) −1 . 

‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖ ≤ ‖(A T A + αI) −1 ‖α‖(A T A) −1 A T y‖. 

Muistetaan, että ‖(A T A+αI) −1 ‖ on matriisin (A T A+αI) pienimmän ominaisarvon 

λ min käänteisluku. Olkoon u min pienintä ominaisarvoa vastaava ominaisvektori, 

jolle ‖u min ‖ = 1. Voimme arvioida pienintä ominaisarvoa seuraavasti: 

λ min = ((A T A + αI)u min , u min ) = ((A T A + αI)u min , u min ) ≥ (A T Au min , u min ) 

≥ 

λ min (A T A). 

37

Tällöin saadaan arvio 

‖(A T A + αI) −1 A T y − (A T A) −1 A T y‖ ≤ λ min (A T A) −1 α‖(A T A) −1 A T y‖, 

mistä voimme päätellä, että 

Samalla tekniikalla nähdään, että 

mistä seuraa, että 

lim 

α→0+ (AT A + αI) −1 A T y = (A T A) −1 A T y. 

‖(A T A + αI) −1 A T y‖ = α −1 ‖(1/αA T A + I) −1 A T y‖ 

≤ 

α −1 λ min (I) −1 ‖A T y‖ 

lim 

α→∞ (AT A + αI) −1 A T y = 0. 

Suurilla regularisaatioparametrin α arvoilla approksimatiivinen ratkaisu lähestyy 

nollavektoria. Pienillä regularisaatioparametrin α arvoilla approksimatiivinen 

ratkaisu lähestyy pienimmän neliösumman menetelmän ratkaisua. 

Huomautus 3. Olkoon A ∈ R n×n säännöllinen. Tikhonovin regularisaatiolla 

saadun ratkaisun ˆx α tarkkuus 

‖x − ˆx α ‖ = ‖x − (A T A + α) −1 A T Ax − (A T A + α) −1 A T ε‖ 

riippuu kahdesta eri tavoin α:n funktiona käyttäytyvästä vektorista 

z 1 (α) = (I − (A T A + α) −1 A T A)x ja z 2 (α) = (A T A + α) −1 A T ε. 

Kun α → 0, niin z 1 (α) → 0 ja z 2 (α) → (A T A) −1 A T ǫ. 

Kun α → ∞ niin z 1 (α) → x ja z 2 (α) → 0. 

Parametrin α valintaan voidaan käyttää ns. Morozovin diskrepanssiperiaatetta 

(eng. Morozov’s dicrepancy principle): Oletetaan, että ‖ǫ‖ ≤ e. Valitaan 

sellainen α jolla 

‖Aˆx α − y‖ = e, 

mikäli tämä valinta on mahdollinen. Morozovin diskrepanssiperiaatteen ideana 

on, että pyritään välttämään tilanne, jossa likimääräisratkaisu taipuu mukailemaan 

virhetermin ε käytöstä eikä todellista dataa Ax. Tavoitteenahan on, että 

ˆx α olisi hyvin lähellä tuntematonta vektoria x, jolloin 

‖Aˆx α − y‖ = ‖(Aˆx α − Ax) − ε‖ ≈ ‖ε‖. 

Esimerkki 13. Oletetaan, että matriisilla A ∈ R m×n on singulaariarvohajotelma 

A = UDV T , missä U ja V ovat ortogonaalisia matriiseja ja D ij = 0 jos 

i ≠ j . Määrätään yhtälön y = Ax + ε approksimatiivinen ratkaisu ˆx = ˆx α 

Tikhonovin regularisaatiolla kun α > 0. Likimääräisratkaisuksi saadaan 

missä matriisin 

ˆx α = (A T A + αI) −1 A T y. 

(A T A+αI) = V D T U T UDV T + αI = V D T DV T +αV V T = V (D T D + αI)V T 

38

ominaisarvot Dii 2 + α ovat suurempia tai yhtä suuria kuin α. Singulaariarvohajotelman 

avulla saamme 

ˆx α = (V (D T D + αI)V T ) −1 V D T U T y = V (D T D + αI) −1 D T U T y 

eli 

Tällöin 

n∑ m∑ 

(ˆx α ) i = 

j=1 k=1 

V ij 

D jj 

D 2 jj + αU jky k . 

Aˆx α = UDV T V (D T D + αI) −1 D T U T y = UD(D T D + αI) −1 D T U T y 

saa muodon 

(Aˆx α ) i = 

Vektorin Aˆx α − y normin neliö on 

n∑ 

m∑ 

j=1 k=1 

f(α) := ‖Aˆx α − y‖ 2 = 

U ij 

D 2 jj 

D 2 jj + αU jky k . 

( 

) 2 n∑ α 

Djj 2 + y) j . 

α(UT 

j=1 

Tutkitaan funktion f arvojoukkoa. Voimme laskea funktion f derivaatan lausekkeesta 

( 

) 2 

f ′ (α) = d n∑ α 

dα D 2 j=1 jj + y) j α(UT 

( 

) ( 

) 

n∑ α 

1 

= 2 

Djj 2 + y) j α(UT Djj 2 + α − α 

(Djj 2 + (U T y j ) 

α)2 

= 

j=1 

n∑ αDjj 

2 2 

(Djj 2 + α)3 (UT y) 2 j ≥ 0. 

j=1 

Erityisesti jos y ≠ 0 on f ′ (α) > 0, jolloin f on aidosti kasvava. Lisäksi 

ja 

lim f(α) = lim 

α→∞ α→∞ ‖A(AT A + αI) −1 A T y − y‖ 2 = ‖y‖ 2 . 

lim f(α) = ‖Aˆx − 

α→0+ y‖2 , 

missä ˆx on pienimmän neliösumman ratkaisu. Huomautuksen 2 mukaan Aˆx = 

Py, missä P on ortogonaaliprojektio aliavaruudelle R(A). Kun ‖ε‖ ≤ e, niin 

Morozovin diskrepanssiperiaatetta voidaan täten käyttää jos ‖(I − P)y‖ ≤ e ≤ 

‖y‖. 

Yleisemmin Tikhonovin regularisaatiolla tarkoitetaan minimointiongelmaa 

ˆx = argmin 

x∈R n ‖Ax − y‖ 2 + ‖Bx‖ 2 . 

39

missä B = B n×n ′ on jokin sellainen matriisi, jolla matriisin B T B kaikki ominaisarvot 

ovat positiivisia. Vektori Bx vastaa jotakin tuntemattoman ei-toivottua 

ominaisuutta. Esim. 

⎛ 

⎞ 

1 0 0 0 · · · 0 0 

−1 1 0 0 · · · 0 0 

B = √ 0 −1 1 0 · · · 0 0 

α 

0 0 −1 1 0 · · · 0 

. 

⎜ . .. . .. . ⎟ 

⎝ 0 0 · · · 0 −1 1 0⎠ 

0 0 · · · 0 0 −1 1 

rankaisee vierekkäisten pisteiden erotuksia. 


• Pienimmän neliösumman menetelmä: 

– antaa säännön approksimatiivisen ratkaisun etsimiseksi. 

– toimii erityisesti silloin kun häiriö ei kuulu operaattorin kuvajoukkoon. 

– pienimmän neliösumman ratkaisu on aina olemassa, mutta ei välttämättä 

yksikäsitteinen. 

– pienimmän neliösumman ratkaisu voi olla häiriöaltis. 

• Tkhonovin regularisaatio: 

Osattava: 

– huonosti asetettu/häiriöaltis ongelma korvataan hieman erilaisella 

hyvin asetetulla ongelmalla 

– antaa approksimatiivisen ratkaisun, joka sietää paremmin häiriöitä. 

– menetelmässä penalisoidaan jotakin tuntemattoman ei-toivottua ominaisuutta. 

– hyvin pieni residuaali ‖Aˆx α −y‖ 2 ei tarkoita häiriöisen datan tapauksessa 

että ratkaisu ˆx α olisi paras mahdollinen. 

• määritellä, mikä on pienimmän neliösumman ratkaisu 

• määritellä mikä on Tikhonovin regularisaatiolla saatu ratkaisu 

• laskea pienimmän neliösumman ratkaisu ja Tikhonovin regularisaatiolla 

saatu ratkaisu kun suoran teorian singulaariarvohajotelma on annettu 

• valita ongelmaan sopiva approksimatiivinen ratkaisumenetelmä yksinkertaisissa 

tapauksissa 


• miksi likimääräisratkaisuja käytetään 

40

• mitä eroa on likimääräisratkaisulla ja tavanomaisella ratkaisulla 

• mitä eroa on pienimmän neliösumman menetelmällä ja Tikhonovin regularisaatiolla 

• miten aliavaruus Ker(A) vaikuttaa pienimmän neliösumman ratkaisuihin 

ja Tikhonovin regularisaatiolla saatuihin ratkaisuihin. 

• miten regularisaatioparametrin α valinta vaikuttaa likimääräisratkaisuun 

Tiedettävä 

• millainen singulaariarvohajotelma on. 

• mikä on Morozovin diskrepanssiperiaate. 

41

Luku 4 

Tilastolliset 


Maallikkotermejä käyttäen inversio-ongelmassa pyritään päättelemään seurauksista 

syihin Samaan tapaan ilmaistuna tilastollisessa inversio-ongelmassa pyritään 

arvioimaan syiden todennäköisyyksiä kun epätarkan seurauksen lisäksi 

tunnetaan epätarkkojen seurausten todennäköisyydet. 

Kertaamme todennäköisyyslaskennan perusteet ennen kuin ryhdymme käsittelemään 

tilastollisia inversio-ongelmia Tilastollisille inversio-ongelmille tärkeitä 

käsitteitä ovat 

• satunnaismuuttuja, satunnaisvektori, 

• satunnaisvektorien muunnokset 

• riippumattomat satunnaisvektorit 

• ehdolliset todennäköisyystiheysfunkiot ja 

• Bayesin kaava. 

4.1 Lyhyesti todennäköisyyslaskennasta 

1900-luvun alkaessa todennäköisyyslaskentaa ei pidetty matematiikan aitona 

osa-alueena, sillä todennäköisyyslaskennalla ei ollut aksiomaattista pohjaa. Hilbertin 

kuuluisista 23:sta ongelmasta kuudes vaati todennäköisyyslaskennan aksiomatisointia 

seuraavin sanoin: 

6. Mathematical Treatment of the Axioms of Physics. The investigations on 

the foundations of geometry suggest the problem: To treat in the same manner, 

by means of axioms, those physical sciences in which already today mathematics 

plays an important part; in the first rank are the theory of probabilities and 

mechanics. 

Todennäköisyyslaskennan aksiomatisointi onnistui vasta abstraktin mittateorian 

ja integraalilaskennan kehittämisen avulla 1920-luvun lopussa. Todennäköisyyslaskennan 

aksioomien isä on A. N. Kolmogorov (1903-1987). 

Kertaamme lyhyesti todennäköisyyslaskennan mittateoreettisen pohjan. 

43

4.1.1 Todennäköisyyslaskennan mittateoreettinen pohja 

Olkoon Ω perusjoukko, jonka alkiot ω ∈ Ω ovat alkeistapahtumia. Olkoon Σ 

kokoelma perusjoukon joukkoja joka muodostaa σ-algebran eli 

1. Ω ∈ Σ 

2. Jos A ∈ Σ, niin A C ∈ Σ. 

3. Jos A i ∈ Σ kun i ∈ N, niin ∪ ∞ i=1 A i ∈ Σ. 

Joukkoja A, B ∈ Σ nimitetään tapahtumiksi (eng. event). 

• Tapahtumien yhdiste A∪B tarkoittaa että joko tapahtuma A tai B sattuu 

(tai molemmat). 

• Joukkojen leikkaus A∩B tarkoittaa että molemmat tapahtumat sattuvat. 

• Joukon komplementti A C = Ω\A tarkoittaa, että tapahtuma A ei satu. 

Määritelmä 6. Kuvaus P : Σ → [0, 1] on todennäköisyysmitta (eng. probability 

measure), jos 

1. P(Ω) = 1 

2. Jos joukot A i ∈ Σ, i ∈ N, ovat sellaisia että A i ∩ A j = ∅ kaikiilla i ≠ j, 

niin P(∪ ∞ i=1 A i) = ∑ ∞ 

i=1 P(A i) (täysadditiivisuus). 

Lukua P(A) kutsutaan tapahtuman A ∈ Σ todennäköisyydeksi. 

Kaksi tapahtumaa A ja B ∈ Σ ovat riippumattomia (eng. independent/statistically 

independent), jos P(A ∩ B) = P(A)P(B). 

4.1.2 Satunnaismuuttujista 

Tilastollista inversio-ongelmaa varten palautamme mieleen satunnaisvektorin 

määritelmän. 

Avaruuden R n Borel-joukkojen luokka on pienin sigma-algebra B(R n ) joka 

sisältää avoimet joukot. 

Määritelmä 7. Satunnaismuuttuja (eng. random variable) X on kuvaus X : 

Ω ↦→ R, jolle Borel-joukkojen alkukuvat ovat tapahtumia eli X −1 (B) ∈ Σ 

kun B ∈ B(R). Satunnaismuuttujan X jakauma (eng. distribution) on kuvaus 

B ↦→ P(X ∈ B) Borel-joukoilta välille [0, 1]. 

Satunnaisvektori (eng. random vector) X = (X 1 , ..., X n ) on kuvaus X : 

Ω ↦→ R n , jolle avaruuden R n Borel-joukkojen B alkukuvat ovat tapahtumia 

eli X −1 (B) ∈ Σ kun B ∈ B(R n ). Satunnaisvektorin X jakauma on kuvaus 

B ↦→ P(X ∈ B) avaruuden R n Borel-joukoilta välille [0, 1]. 

Sivuutamme seuraavan lauseen todistuksen, joka liittyy avaruuden R n Boreljoukkojen 

ominaisuuksiin. 

Lause 4. Kuvaus X : Ω → R n on satunnaisvektori jos ja vain jos kuvauksen 

X = (X 1 , ..., X n ) komponentit X i , i = 1, ..., n ovat satunnaismuuttujia. 

44

Matemaattisina objekteina satunnaismuuttujat ja satunnaisvektorit ovat funktioita; 

niissä itsessään ei ole mitään satunnaista, ei mitään satunnaisuutta aiheuttavaa 

mekanismia eikä keinoa generoida satunnaislukuja. Tämä voi vaikuttaa 

hieman oudolta... ....että satunnaisia ilmiöitä kuvaillaan ilman minkäänlaista 

satunnaisuutta...? Miten se voi toimia..? 

Avainsana on ”kuvailu”. Satunnaisilmiötä ei pyritä selittämään kokonaan, 

vaan ainoastaan kuvailemaan. Ajatellaan esimerkiksi, että satunnainen ilmiö 

tuottaa reaaliluvun (vaikka hissin saapumisaika napin painalluksen jälkeen), jota 

kuvaillaan satunnaismuuttujan X avulla. Satunnaismuuttujan mahdollisten 

arvojen tiedetään olevan reaalilukuja, mutta emme tiedä etukäteen tarkasti minkä 

arvon satunnaismuuttuja tulee saamaan. Tietomme satunnaismuuttujan toteutuvasta 

arvosta on epätäydellistä. Kun hissi saapuu hetkellä x 0 , on luku 

x 0 otos eli näyte satunnaismuuttujasta X. Tämä tarkoittaa, että x 0 = X(ω 0 ) 

jollakin ω 0 ∈ Ω. Matematiikka ei kerra kuinka satunnaismuuttujasta on saatu 

näyte X(ω 0 ). Alkeistapahtuman ω 0 valintamekanismi on tuntematon. Vaikka 

funktio X ja joukko Ω on tiedossa, emme sen perusteella pysty etukäteen sanomaan 

satunnaismuuttujan toteutuvasta arvosta sen enempää kuin mitä jakauma 

P(X ∈ B), kun B ∈ B(R) paljastaa. 

4.1.3 Todennäköisyyslaskennan tulkinnat 

Matematiikassa esiintyy harvoin oppiriiitoja, mutta lukuarvon P(X ∈ B) tulkinta 

on sellainen. Kysymys on yksinkertainen; milloin on oikeutettua liittää 

tapahtumaan X ∈ B tietty todennäköisyys P(X ∈ B)? 

1. Frekventistinen tulkinta: tapahtuman todennäköisyys tarkoittaa sitä lukua, 

jota tapahtuman suhteellisten esiintymiskertojen lukumäärää lähestyisi 

jos koetta toistettaisiin äärettömän monta kertaa. 

2. Bayeslainen tulkinta: tapahtuman todennäköisyys on se varmuusaste, jolla 

uskomme tapahtuman toteutuvan. 

Subjektiivinen Bayeslainen tulkinta mahdollistaa todennäköisyyksien kiinnittämisen 

sellaisillekin tapahtumille, jotka eivät ole toistettavissa (esim. mikä 

Bayeslaisen tulkinnan mukaan on mahdollista puhua todennäköisyydestä sille, 

että muualla maailmankaikkeudessa on älyllistä elämää). Eri yksilöt saattavat 

myös kiinnittää eri todennäköisyyden samalle tapahtumalle. Frekventistisen tulkinnan 

mukaan tapahtumalle X ∈ B on mahdollista kiinnittää vain yksi ja aina 

sama todennäköisyys. 

Tässä kurssissa otamme todennäköisyydelle Bayeslaisen tulkinnan. 

4.1.4 Tiheysfunktiot 

Yksinkertaisuuden vuoksi tarkastelemme jatkossa vain tapahtumia X −1 (B), 

missä Borel-joukon B ⊂ R n indikaattorifunktio 

{ 

1, x ∈ B 

1 B (x) = 

0, x /∈ B 

on Riemann-integroituva funktio. Esim. B voi olla suljettu kuutio. 

45

Määritelmä 8. Todennäköisyystiheysfunktio (lyh, tntf. eng. probability density 

function) f : R n → [0, ∞) on integroituva ei-negatiivinen funktio, jolle 

∫ 

R n f(x)dx = 1. 

Reaaliarvoinen satunnaismuuttuja X, jolla on todennäköisyystiheysfunktio 

f X : R → R, on kuvaus X : Ω → R jolle 

P(a ≤ X ≤ b) = 

∫ b 

a 

f X (x)dx 

kaikilla a, b ∈ R, a ≤ b. 

Satunnaisvektori X = (X 1 , ..., X n ), jolla on todennäköisyystiheysfunktio f X , 

on kuvaus X : Ω → R n , jolle 

P(a i ≤ X i ≤ b i , i = 1, ..n) = 

∫ b1 

a 1 

· · · 

∫ bn 

a n 

f X (x 1 , ..., x n )dx 1 · · · dx n . 

kaikilla a i , b i ∈ R, a i ≤ b i , i = 1, ..n. Todennäköisyystiheysfunktiota f X kutsutaan 

satunnaismuuttujien X 1 , ..., X n yhteistodennäköisyystiheysfunktioksi. 

Funktiota 

∫ ∞ ∫ ∞ ∫ ∞ ∫ ∞ 

f Xi (x) = · · · 

· · · f X (x 1 , ..., x n )dx 1 · · · dx i−1 dx i+1 · · · dx n 

x 1=−∞ x i−1=−∞ x i+1=−∞ x n=−∞ 

kutsutaan satunnaismuuttujan X i reunatodennäköisyystiheysfunktioksi (tai marginaalitntf). 

Kaksi satunnaismuuttujaa X ja Y , joiden yhteistodennäköisyystiheysfunktio 

on f (X,Y ) (x, y), ovat riippumattomia, jos 

f (X,Y ) (x, y) = f X (x)f Y (y). 

Yleisemmin, satunnaisvektorit X ja Y ovat riiippumattomia jos 

P((X, Y ) ∈ B 1 × B 2 ) = P(X ∈ B 1 )P(Y ∈ B 2 ). 

Määritelmä 9. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio 

on f X : R n → R. Satunnaisvektorin X odotusarvo (eng. expectation) on vektori 

m = (m 1 , ..., m n ) ∈ R n , jonka komponentit ovat 

∫ 

m i = x i f X (x)dx 

R n 

mikäli x i f X (x) on integroituva kaikilla i = 1, ..., n. Odotusarvolle käytetään 

merkintää E[X] := m. 

Huomautus 4. Satunnaisvektorilla ei aina ole odotusarvoa. 

Määritelmä 10. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio 

on f X : R n → R ja odotusarvo E[X] = (m 1 , ..., m n ). Satunnaisvektorin 

X kovarianssimatriisi (eng. covariance matrix) on matriisi C X ∈ R n×n , jonka 

elementit ovat 

∫ 

(C X ) ij = (x i − m i )(x j − m j )f X (x)dx, 

R n 

mikäli nämä integraalit ovat olemassa. 

46

Huomautus 5. Kovarianssimatriisi C X on aina symmetrinen ja sen ominaisarvot 

ovat ei-negatiivisia. Todellakin, 

(C X ) ij = 

∫ 

(x i −m i )(x j −m j )f X (x)dx = 

R n ∫ 

(x j −m j )(x i −m i )f X (x)dx = (C X ) ji 

R n 

ja jos u on ominaisvektori jolle C X u = λu ja ‖u‖ = 1, niin 

⎛ ⎞ 

n∑ n∑ 

λ = (C X u, u) = ⎝ (C X ) ij u j 

⎠u i 

= 

= 

= 

n∑ 

∫ 

i,j=1 

i=1 

missä g(x) = ∑ n 

i=1 (x i − m i )u i . 

j=1 

R n (x i − m i )u i (x j − m j )u j f X (x)dx 

∫ ( n 

) ⎛ ⎞ 

∑ 

n∑ 

(x i − m i )u i 

⎝ (x j − m j )u j 

⎠f X (x)dx 

R n i=1 

j=1 

∫ 

g(x) 2 f X (x)dx ≥ 0, 

R n 

Määritelmä 11. Olkoot X : Ω → R n ja Y : Ω → R m satunnaisvektoreita, 

joiden yhteistodennäköisyystiheysfunktio on f (X,Y ) : R n+m → R ja odotusarvot 

E[X] = m X ja E[Y ] = m Y . Satunnaisvektorien X ja Y ristikovarianssimatriisi 

(eng. cross-covariance matrix) on matriisi C XY ∈ R n×m , jonka elementit ovat 

(∫ 

) 

(C XY ) ij = (x i − (m X ) i )(y j − (m Y ) j )f (X,Y (x, y)dx dy, i = 1, .., n j = 1, .., m 

∫R m R n 

mikäli nämä integraalit ovat olemassa. 

Huomautus 6. Ristikovarianssimatriisille pätee C T XY = C Y X. 

4.1.5 Ehdolliset jakaumat 


joiden yhteistntf. on f (X,Y ) : R n × R m → R ja reunatntf. f Y (y 0 ) > 0 pisteessä 

y 0 ∈ R m . Satunnaismuuttujan X ehdollinen todennäköisyystiheysfunktio 

ehdolla Y = y 0 (eng. conditional probability density function) on kuvaus 

R n ∋ x ↦→ f X (x|Y = y 0 ) = f (X,Y )(x, y 0 ) 

. (4.1) 

f Y (y 0 ) 


joiden yhteistntf. on f (X,Y ) : R n × R m → R ja reunatntf. f Y (y 0 ) > 0 pisteessä 

y 0 ∈ R m . Satunnaismuuttujan X ehdollinen odotusarvo ehdolla Y = y 0 (eng. 

conditional expectation) on vektori 

∫ 

E[X|Y = y 0 ] = xf X (x|Y = y 0 )dx, 

R n 

mikäli integraali on olemassa. 

47

Lemma 5. Olkoon satunnaisvektorien X : Ω → R n ja Y : Ω → R m yhteistntf. 

(x, y) ↦→ f (X,Y ) (x, y) sellainen että kuvaus R n ∋ x ↦→ f (X,Y ) (x, y) on jatkuva 

jokaisella y ∈ R m . 

Silloin f (X,Y ) (x, y) = 0 aina kun f Y (y) = 0. 

Todistus. Reunatntf. määritelmän nojalla 

∫ 

f Y (y) = f (X,Y ) (x, y)dx, 

missä x ↦→ f (X,Y ) (x, y) on ei-negatiivinen funktio, joka on oletuksen nojalla 

jatkuva. Olkoon f Y (y 0 ) = 0. Merkitään g(x) = f (X,Y ) (x, y 0 ), jolloin ∫ g(x)dx = 

0. Tehdään vastaoletus: g(x 0 ) > δ, jollakin x 0 ∈ R n ja δ > 0. Jatkuvuuden 

nojalla löytyy sellainen r > 0 jolla 

|g(x 0 ) − g(x)| < δ/2 

aina kun x ∈ B(x 0 , r). Silloin kolmioepäyhtälön ||a| − |b|| ≤ |a − b| nojalla 

g(x) = g(x) − g(x 0 ) + g(x 0 ) ≥ g(x 0 ) − |g(x 0 ) − g(x)| ≥ δ − δ/2 = δ/2 

jokaisella x ∈ B(x 0 , r). Tällöin 

∫ ∫ 

g(x)dx ≥ 

R n 

B(x 0,r) 

∫ 

g(x)dx ≥ 

B(x 0,r) 

δ 

2 dx ≥ δC 2 > 0, 

missä C on pallon B(x 0 , r) tilavuus. Koska oletimme, että ∫ g(x)dx = 0, niin 

vastaoletus on väärä, jolloin g ≡ 0. 

Lause 5. Olkoon satunnaisvektorien X : Ω → R n ja Y : Ω → R m yhteistnf. 

f (X,Y ) : R n × R m → R erikseen jatkuva molempien argumenttiensa suhteen 

eli kuvaus R n ∋ x ↦→ f (X,Y ) (x, y) on jatkuva jokaisella y ∈ R m ja kuvaus 

R m ∋ y ↦→ f (X,Y ) (x, y) on jatkuva jokaisella x ∈ R n Silloin 

f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x) 

jokaisella x ∈ R n ja y ∈ R m . 

Todistus. Jos f Y (y) ≠ 0 ja f X (x) ≠ 0, niin ehdollisen tntf:n määritelmän nojalla 

f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x). (4.2) 

Jos f Y (y) = 0 tai f X (x) = 0, niin Lemman 5 nojalla f (X,Y ) (x, y) = 0, jolloin 

yhtälö (4.2) on triviaalisti totta. 

Huomautus 7. Jos f Y (y) = 0 tai f X (x) = 0, niin tulos 

f X (x|Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y|X = x)f X (x) 

täytyy tarkistaa vain niillä arvoilla, joilla f (X,Y ) ≠ 0. Tällöin riittää olettaa että 

x ↦→ f (X,Y ) (x, y) on jatkuva vain niissä pisteissä x joissa f (X,Y ) (x, y) ≠ 0. 

48

Olkoon f X (x|Y = y) satunnaisvektorin X ehdollinen tntf ehdolla Y = y. 

Satunnaisvektorin X ehdollinen jakauma ehdolla Y = y on 

∫ 

P(X ∈ B 1 |Y = y) = f X (x|Y = y)dx 

B 1 

Yllä olevan perusteella ehdolinen jakauma toteuttaa kokonaistodennäköisyyden 

kaavan 

∫ 

P((X, Y ) ∈ B 1 × B 2 ) = P(X ∈ B 1 |Y = y)f Y (y)dy 

B 2 

riittävän säännöllisillä todennäköisyystiheysfunktioilla ja riittävän säännöllisillä 

joukoilla B 1 ⊂ R n ja B 2 ⊂ R m (esim. suljetut kuutiot). Kokonaistodennäköisyyden 

kaava on totta niukemmillakin säännöllisyysoletuksilla, mutta tämän 

havaitseminen vaatii mittateoreettisen lähestymistavan ehdollisiin todennäköisyyksiin. 

Huomautus 8. Jos satunnaismuuttujalla X ja satunnaismuutujalla Y on todennäköisyystiheysfunktio, 

niin satunnaisvektorilla (X, Y ) ei välttämättä ole 

todennäköisyystiheysfunktiota. Esimerkiksi, jos X on satunnaismuuttuja jolla 

on tn. tiheysfunktio f X : R → [0, ∞), niin satunnaisvektorilla (X, X) ei ole todennäköisyystiheysfunktiota. 

Osoitamme tämän tekemällä vastaoletuksen: oletetaan 

että satunnaisvektorilla (X, X) on tiheysfunktio f (X,X) (x, y). Merkitään 

B = {(x, y) ∈ R n × R n : x ≠ y} (on Borel-joukko). Silloin P((X, X) ∈ B) = 0 

koska (X, X) /∈ B. Tästä seuraisi että 

∫ 

0 = P((X, X) ∈ B) = f (X,X) (x, y)dxdy 

= 

∫ ∞ 

x=−∞ 

mikä on mahdotonta. 

B 

(∫ x 

f (X,X) (x, y)dy + 

y=−∞ 

∫ ∞ 

y=x 

) 

f (X,X) (x, y)dy dx = 1, 

Huomautus 9. Emme voi laskea satunnaismuuttujan X ehdollista jakaumaa 

ehdolla X = x 0 käyttäen kaavaa (4.1), sillä satunnaisvektorilla (X, X) ei ole todennäköisyystiheysfunktiota 

yllä olevan huomautuksen nojalla. Vektorin (X, X) 

jakauma kuitenkin voidaan määrätä satunnaismuutujan X tn. tiheysfunktion 

avulla, sillä 

∫ 

P((X, X) ∈ B 1 × B 2 ) = P(X ∈ B 1 ∩ B 2 ) = f X (x)dx. 

B 1∩B 2 

Jos haluamme, että kokonaistodennäköisyyden kaava pätee, niin tulisi olla 

∫ 

∫ 

f X (x)dx = P((X, X) ∈ B 1 × B 2 ) = P(X ∈ B 1 |X = x)f X (x)dx, 

B 1∩B 2 B 2 

mikä on mahdollista kun P(X ∈ B 1 |X = x 0 ) = 1 B1 (x 0 ). Erityisesti P(X ∈ 

{x 0 }|X = x 0 ) = 1 eli X ehdolla X = x 0 on x 0 kuten voisi kuvitellakin. Tämän 

tuloksen vahvistaa ehdollisten todennäköisyyksien mittateoreettinen käsittely, 

mutta tarkempi todistus sivuutetaan tällä kurssilla. 

Sivuutamme myös seuraavan tuloksen todistuksen. 

Lause 6. Olkoon X R n -arvoinen satunnaisvektori, joka on riippumaton R n - 

arvoisesta satunnaisvektorista Y , jolla on todennäköisyystiheysfunktio. 

Satunnaisvektorin X + Y ehdollinen tntf ehdolla X = x 0 on sama kuin 

satunnaisvektorin x 0 + Y tntf. 

49

4.1.6 Satunnaisvektorien muunnokset 

Lause 7. Olkoon G : R n → R m on jatkuva funktio ja X : Ω → R n satunnaisvektori. 

Silloin G(X) on myös satunnaisvektori. 

Todistus. Meidän tarvitsee näyttää vain, että avoimen joukon B ∈ R m alkukuva 

G −1 (B) on avoin. Muille Borel-joukoille tulos seuraa sigma-algebran ominaisuuksien 

perusteella 

Okoon x ∈ G −1 (B), jolloin G(x) ∈ B. Joukon B avoimuuden nojalla löytyy 

ǫ > 0, jolla B(G(x), ǫ) ⊂ B. Koska F on jatkuva, niin on olemassa δ > 0, jolla 

|G(x) − G(y)| < ǫ kun |x − y| < δ. Siis G(B(x, δ)) ⊂ B(G(x), ǫ) ⊂ B, jolloin 

B(x, δ) ⊂ G −1 (B). Tämä todistaa, että joukko G −1 (B) on avoin. 

Esimerkki 14. Olkoon X : Ω → R n ja ε : Ω → R m satunnaisvektoreita. 

Seuraavat ovat myös satunnaisvektoreita 

1. aX, a ∈ R 

2. X + a , a ∈ R n 

3. ‖X‖ (=satunnaismuuttuja) 

4. Y = F(X) + ε, kun F : R n → R m jatkuva. 

Muistetaan, että muuttujanvaihto moniulotteisessa integraalissa voidaan tehdä 

Jakobin determinantin avulla. Jos f : R n → R on jatkuva funktio, U ⊂ R n 

avoin kuutio ja H : U → R n injektiivinen C 1 -funktio, jonka Jakobin matriisin 

determinantti ei häviä, niin 

∫ ∫ 

f(x)dx = 

H(B) 

(JH(y)) ij = ∂H i 

∂y j 

(y), i, j = 1, ..., n. 

B 

f(H(y))| det(JH(y))|dy, 

kaikilla avoimilla tai suljetuilla kuutioilla B ⊂ U. 

Jos satunnaisvektorilla X on jatkuva todennäköisyystiheysfunktio f X , niin 

satunnaisvektorin aX, a > 0, tntf on x ↦→ 1 

a 

f n X (x/a), sillä muuttujanvaihdolla 

x = H(y) := y/a nähdään että 

P(aX ∈ B) = P(X ∈ 1 a B) = ∫ 

H(B) 

∫ 

f X (x)dx = 

B 

f X (y/a) 1 

a n dy 

Samoin satunnaisvektorin X + a, missä a ∈ R n tntf on f X (x − a), sillä muuttujanvaihdolla 

x = y − a =: H(y) nähdään. että 

∫ 

∫ 

P(X + a ∈ B) = P(X ∈ B − a) = f X (x)dx = f X (y − a)dy. 

H(B) 

Korollaari 4. Olkoon X ja Y kaksi riippumatonta satunnaisvektoria, joilla on 

tn. tiheysfunktiot f X ja f Y . Satunnaisvektorin Z = X + Y todennäköisyystiheysfunktio 

on 

f Z (z) = 

∫ 

f X (z − y)f Y (y)dy = 

R n ∫ 

f Y (z − x)f X (x)dx. 

R n 

50 

B

Todistus. Funktio f Z on tntf, sillä f Z ≥ 0 ja 

∫ 

(∫ 

) 

f Z (z)dz = f X (z − y)f Y (y)dy dz 

R 

∫R n n R 

(∫ 

n ) 

= f X (z − y)f Y (y)dz dy 

∫R n R n ∫ 

= f X (z 

∫R ′ )dz ′ f Y (y)dy, 

n R n 

missä tehtiin muuttujanvaihto y ′ = z − y. 

Summan X +Y ehdollinen jakauma ehdolla X = x on sama kuin satunnaisvektorin 

x + Y jakauma, joka on 

∫ 

∫ 

P(x + Y ∈ B) = P(Y ∈ B − x) = f Y (z)dz = f Y (z − x)dz. 

Kokonaistodennäköisyyden kaavan ja Lauseen 6 nojalla 

∫ 

P(X + Y ∈ B) = P((X + Y, X) ∈ B × R n ) = P(X + Y ∈ B|X = x)f X (x)dx 

(∫ 

) 

= f Y (z − x)f X (x)dz dx 

∫R n B 

∫ (∫ 

) 

= f Y (z − x)f X (x)dx dz 

B R n 

B−x 

Sisemmässä integraalissa voidaan tehdä muuttujan vaihto y = z − x. 

4.1.7 Gaussiset jakaumat 

Satunnaisvektorilla Z : Ω → R n on Gaussinen jakauma eli multinormaalijakauma, 

jos sen tntf on muotoa 

f Z (x) = 

1 

√ 

(2π)n det(C) e−1 2 (x−m)T C −1 (x−m) , 

B 

missä m ∈ R n ja C ∈ R n×n on symmetrinen matriisi, jonka ominaisarvot ovat 

positiivisia. Silloin merkitään Z ∼ N(m, C), mikä tarkoittaa että satunnaisvektorilla 

Z on multinormaalijakauma ja sen odotusarvo on m sekä kovarianssimatriisi 

on C. 

Lemma 6. Funktio 

f Z (x) = 

1 

√ 

(2π)n det(C) e−1 2 (x−m)T C −1 (x−m) , 

on tntf. Jos Z : Ω → R n sellainen satunnaisvektori, että Z ∼ N(m, C), niin 

satunnaisvektorin Z odotusarvo on 

E[Z] = m 

ja kovarianssimatriisi 

C Z = C. 

51

Todistus. Selvästi f Z ≥ 0. Tarkistetaan, mitä on 

∫ 

1 

I = √ e −1 2 (x−m)T C −1 (x−m) dx. 

(2π)n det(C) R n 

Tehdään ensin muuttujanvaihto x ′ = x − m 

∫ 

1 

I = √ e −1 2 (x)T C −1 x ′ dx ′ . 


Tehdäään sitten muuttujanvaihto x ′′ = C − 1 2x ′ . Muistetaan, että C − 1 2 voidaan 

määrätä matriisin C ominaisarvohajotelman C = Udiag(λ 1 , ..., λ n )U T avulla 

muodossa C − 1 2 = Udiag( √ 1 1 

λ1 

, ..., √ λn 

)U T . Muuttujanvaihdon jälkeen saamme 

I = 

∫ 

1 

√ e − 1 2 |x′′ | 2 | det(C 1/2 )|dx ′′ . 


Viimeiseksi meidän tulee laskea integraalit 

∫ 

1 

I = √ e −1 2 (x2 1 +x2 2 +....+x2 n ) dx 1 · · · dx n 

(2π) 

n 

R 

(∫ 

n n 

1 

= √ e − 1 2 dx) x2 . 

(2π) 

n 

R 

Kätevimmin tämä käy kun lasketaan 

(∫ 

2 

e − 1 2 dx) x2 = 

R 

∫ 

R 2 e − 1 2 (x2 +y 2) dxdy 

napakoordinaateissa x = r cos(θ) ja y = r sin(θ). Saamme 

jolloin 

ja 

(∫ 2 

e − 1 2 dx) x2 = 

R 

∫ 

R 

∫ ∞ ∫ 2π 

0 

0 

e −1 2 x2 dx = √ 2π. 

I = 1. 

e − 1 2 r2 rdrdθ = 2π 

Samaan tapaan nähdään, että satunnaisvektorin Z odotusarvo 

∫ 

1 

E[Z] = √ xe − 1 2 (x−m)T C −1 (x−m) dx = m 


ja kovarianssi on 

(C Z ) ij = 

1 

√ 

(2π)n det(C) 

∫ 

R n (x i − m i )(x j − m j )e −1 2 (x−m)T C −1 (x−m) dx = C ij . 

52

4.2 Moniulotteinen Riemann-integraali 

Olkoon B ⊂ R n n-ulotteinen suorakulmainen särmiö 

B = {x = (x 1 , ..., x n ) ∈ R n : a i ≤ x i ≤ b i , i = 1, ..., n} 

missä a i , b i ∈ R ja a i 

Määritelmä 14. Funktiota f : B → R kutsutaan porrasfunktioksi, jos särmiö 

B voidaan jakaa suorakulmaisiin särmiöihin B i , i = 1, ..m siten että löytyy luvut 

c i ∈ R joilla 

f(x) = c i , 

kun x ∈ Int(B i ), i = 1, ..., m. 

Määritelmä 15. Määritelmän 14 porrasfunktion f : B → R integraali yli 

joukon B on 

∫ 

m∑ 

f(x)dx := c i Vol(B i ) 

missä Vol(B i ) on särmiön 

B 

i=1 

B i = {x = (x 1 , ..., x n ) ∈ R n : a (i) 

j 

≤ x j ≤ b (i) 

j , j = 1, .., n} 

tilavuus 

. 

Vol(B i ) = 

n∏ 

(b (i) 

j 

j=1 

− a (i) 

j ). 

Määritelmä 16. Olkoon f : B → R rajoitettu funktio. Jos on olemassa vain 

yksi luku I ∈ R, jolle 

∫ 

∫ 

s(x)dx ≤ I ≤ S(x)dx 

B 

jokaisella porrasfunktiolla s : B → R, jolla s ≤ f, ja jokaisella porrasfunktiolla 

S : B → R, jolla f ≤ S, niin sanotaan, että f on Riemann-integroituva (yli 

joukon B) ja merkitään ∫ 

f(x)dx = I. 

B 

Olkoon K(B) kaikkien porrasfunktioiden f : B → R joukko. 

Lause 8. Rajoitettu funktio f : B → R on Riemann-integroituva jos ja vain 

jos 

∫ 

∫ 

sup 

s∈K(B) 

s≤f 

s(x)dx = I = inf 

S∈K(B) 

f≤S 

S(x)dx 

jolloin 

Todistus. Sivuutetaan. 

∫ 

B 

B 

f(x)dx = I. 

53

Lause 9 (Fubinin lause Riemann-integroituville funktioille). Olkoon B ⊂ R n 

ja C ⊂ R m kompakteja suorakulmaisia särmiöitä. Olkoon f : B × C → R 

integroituva funktio, jolla ∫ 

f(x, y)dy 

C 

on olemassa jokaisella x ∈ B. Silloin funktio B ∋ x ↦→ ∫ C 

f(x, y)dy on integroituva 

ja ∫ (∫ ) ∫ 

f(x, y)dy dx = f(z)dz. 

B×C 

Todistus. Sivuutetaan. 

B 

C 

Fubinin lauseen nojalla moniulotteinen integraali voidaan laskea yksiulotteisten 

integraalien iteraationa eli esim kun n = 3, niin 

∫ ∫ ( 

b 

3 ∫ ( 

b2 

∫ ) 

b1 

f(x)dx = 

f(x 1 , x 2 , x 3 )dx 1 dx 2 

)dx 3 , 

B 

x 3=a 3 x 2=a 2 x 1=a 1 

kunhan kaikki integraalit ovat määriteltyjä. Lisäksi integroimisjärjestystä voi 

vaihtaa. 

• Integraali yli koko avaruuden R n määritellään epäoleellisena integraalina 

(eli raja-arvona integraaleista yli kasvavien osajoukkojen). 

• Jos f on ei-negatiivinen, Fubinin lause on edelleen totta kun B = R n ja 

C = R m sillä ei-vähenevien lukujen raja on joko rajoitettu tai +∞. 

• Jos f saa myös negatiivisia arvoja, ilmaistaan f muodossa f = f + − f − , 

missä f + , f − ≥ 0, ja pyritään laskemaan integraali epäoleellisten integraalien 

erotuksena 

∫ ∫ ∫ 

f(x)dx = f + (x)dx − f − (x)dx, 

mikäli mahdollista. 

Kirjallisuutta: Apostol: Calculus (vol II), Lang: Analysis I, Apostol: Mathematical 

Analysis 

4.3 Tilastollinen inversio-ongelma 

Olkoon F : R n → R m jatkuva funktio joka kuvaa suoraa teoriaa. Tarkastellaan 

inversio-ongelmaa, jossa tuntemattomasta vektorista x 0 ∈ R n on annettu 

häiriöinen data 

y 0 = F(x 0 ) + ε ∈ R m . 

Datassa esiintyvästä häiriöstä ε saatavilla oleva tieto on usein luonteeltaan 

tilastollista. Eräissä tilanteissa häiriötä mallinnetaan esimerkiksi satunnaisvektorina 

ε = (ε 1 , ..., ε m ), jonka komponentit ovat riippumattomia ja niiden todennäköisyydet 

ovat 

P(a ≤ ε i ≤ b) = √ 1 ∫ b 

( 

exp − 1 ) 

2πσ 2σ x2 dx, 

54 

a

missä i = 1, ..., m, a 0. 

Kun F on lineaarinen kuvaus, niin edellisessä luvussa esitelty Morozovin diskrepanssiperiaate 

soveltuu huonosti tällaisen tapauksen käsittelyyn, sillä häiriön 

normi ei ole rajoitettu koska 

P(‖ε‖ > e) ≥ P(|ε i | > e) > 0 

millä tahansa e ≥ 0. Eräs vaihtoehto on siirtyä tilastollisiin ratkaisumenetelmiin. 

Tilastollisen inversio-ongelman periaatteeet ovat seuraavat: 

1. Tuntematonta ja dataa mallinnetaan satunnaisvektoreilla X ja Y . 

2. Datan ja tuntemattoman jakaumat edustavat niistä saatavilla olevaa kvantitatiivista 

ja kvalitatiivista tietoa sekä tälllaisen tiedon puutetta. 

3. Annettu data y 0 on näyte satunnaisvektorista Y eli y 0 = Y (ω 0 ) jollakin 

alkeistapahtumalla ω 0 ∈ Ω. 

4. Tilastollisen inversio-ongelman ratkaisu on satunnaisvektorin X ehdollinen 

todennäköisyysjakauma kun Y = y 0 on annettu. 

Tilastollisen inversio-ongelman ratkaisu ei niinkään vastaa kysymykseen ”mikä 

tuntematon vektori x 0 on”vaan pikemminkin kysymykseen ”mitä tiedämme 

tuntemattomasta vektorista x 0 ”. 

4.3.1 Bayesian kaava. Priori- ja posteriorijakaumat 

Tarkastellaan tilastollista inversio-ongelmaa missä tuntematonta mallinnetaaan 

satunnaisvektorilla 

X : Ω → R n , 

suoraa teoriaa edustaa jatkuva kuvaus 

F : R n → R m 

ja häiriötä mallinnetaan satunnaisvektorilla 

Annettu dataa 

pidetään näytteenä satunnaisvektorista 

ε : Ω → R m . 

y 0 = F(x 0 ) + ε 0 

Y = F(X) + ε. 

Oletetaan, että satunnaisvektoreilla X ja Y on yhteistntf, jolla on marginaalitntf:t. 

Määritelmä 17. Tuntematonta mallintavan satunnaisvektorin X : Ω → R n todennäköisyystiheusfunktiota 

sanotaan proritodennäköisyystiheysfunktioksi (eng. 

prior probability density function) ja merkitään f pr (x). Satunnaisvektorin X jakaumaa 

sanotaan priorijakaumaksi (eng. prior distribution). 

55

Merkitään satunnaismuuttujien X ja Y yhteistodennäköisyystiheysfunktiota 

f = f(x, y), f : R n × R m → [0, ∞) ja satunnaismuuttujan Y todennäköisyystiheysfunktiota 

f Y (y). 

Oletetaan, että yhteistnft f on erikseen jatkuva kummankin argumenttinsa 

suhteen pisteissä f(x, y) ≠ 0. Bayesin kaavasta 

seuraa erityisesti, että 

jos f Y (y 0 ) ≠ 0. 

f(x, y) = f Y (y|X = x)f pr (x) = f X (x|Y = y)f Y (y) 

f X (x|Y = y 0 ) = f Y (y 0 |X = x)f pr (x) 

f Y (y 0 ) 

Määritelmä 18. Tuntemattomatonta mallintavan satunnaisvektorin X : Ω → 

R n posterioritodennäköisyystiheysfunktio, kun Y = y 0 on annettu, on 

siinä tapauksessa, että f Y (y 0 ) ≠ 0. 

f post (x) := f Y (y 0 |X = x)f pr (x) 

, 

f Y (y 0 ) 

Esimerkki 15. Oletetaan, että häiriö ε ∼ N(0, C ε ), tuntematon X ∼ N(0, C X ), 

tuntematon ja häiriö ovat riippumattomia, F : R n → R m on lineaarinen ja 

y 0 = Fx 0 + ǫ 0 on näyte satunnaismuuttujasta Y = FX + ε. Silloin 

1 

f Y (y|X = x) = √ 

(2π)m det(C ε ) e− 1 2 (y−Fx)T C −1 

ε 

(y−Fx) 

ja posterioritntf on 

f post (x) = C y0 e −1 2 (y0−Fx)T Cε 

−1 (y0−Fx) e −1 2 xT C −1 

X x , 

missä C y on normitusvakio. Tarkastellaan eksponenttia: 

− 1 2 (y 0 − Fx) T Cε 

−1 (y 0 − Fx) − 1 2 xT C −1 

X x 

= −1 2 yT 0 Cε 

−1 y 0 + 1 2 xT F T Cε −1 y 0 

Merkitään 

C post = ( F T C −1 

ε 

ja täydennetään eksponentti neliöksi 

+ 1 2 yT 0 C −1 

ε 

F + C −1 ) −1 

X 

Fx − 1 2 xT ( F T C −1 

ε 

F + C −1 ) 

X x. 

− 1 2 (y 0 − Fx) T Cε 

−1 (y 0 − Fx) − 1 2 xT C −1 

X x 

= −1 2 (yT 0 C−1 ε y 0 ) + 1 2 xT Cpost −1 C postF T Cε −1 y 0 

+ 1 2 yT 0 C−1 ε FC post Cpost −1 x − 1 2 xT Cpost −1 x 

= − 1 2 (yT 0 C−1 ε y 0 ) − 1 2 (x − m post) T Cpost(x −1 − m post ) 

+ 1 2 mT postC −1 

postm post 

56

missä 

m post = C post F T C −1 

ε 

y 0 = ( F T Cε 

−1 F + C −1 ) −1 

F T Cε −1 y 0 . 

Voimme määrätä nyt normitustekijän C y0 , ja saamme 

f post (x) = 

1 

√ 

(2π)n det(C post ) e−1 2 (x−mpost)T C −1 

post (x−mpost) . 

X 

Posteriorijakauma on multinormaalijakauma ja sen odotusarvo 

ja kovarianssimatriisi on 

m post = ( F T C −1 

ε 

C post = ( F T C −1 

ε 

Erityisesti, jos C ε = δI ja C X = cI, niin 

m post = 

F + C −1 ) −1 

F T C −1 

X 

F + C −1 ) −1 

X . 

( 

F T F + δ c I ) −1 

F T y 0 , 

ε y 0 

eli 

m post = argmin 

x∈R n ‖Fx − y 0 ‖ 2 + δ c ‖x‖2 . 

Tikhonovin regularisaatio, kun regularisaatioparametri α = δ/c, vastaa sitä, 

että häiriön jakauma on N(0, δI) ja priorijakauma on N(0, cI). 

Priorijakaumaa voi tulkita niin, että 

X i ∼ N(0, c) 

edustaa etukäteistietoa, jonka mukaan emme tiedä tarkalleen minkä arvo tuntemattoman 

komponentti saa, mutta mielestämme komponentin negatiiviset ja 

positiiviset arvot ovat yhtä mahdollisia (mistä odotusarvo nolla) ja suuret arvot 

ovat epätodennäköisiä. Riippumattomuus komponenttien välillä tarkoittaa, 

että haluasimme sallia suurehkoja vaihteluja komponenttien välillä. 

4.3.2 Uskottavuusfunktio f Y (y|X = x) 

Funktiota x ↦→ f Y (y|X = x) nimitetään uskottavuusfunktioksi (eng. likelihood 

function). 

Uskottavuusfunktio sisältää: 

• approksimatiivisen tai tarkan suoran teorian 

• häiriöstä johtuvat epätarkkuudet 

• suoran teorian mallinnusvirheistä johtuvat epätarkkuudet 

Tarkastellaan ensin yksinkertainen tapaus, jossa ei ole mallinnusvirhettä. 

57

Riippumattomat X ja ε 

Oletetaan, että X ja ε ovat riippumattomia satunnaisvektoreita ja Y = F(X)+ 

ε, missä F : R n → R m on jatkuva suora teoria. Myös satunnaisvektorit F(X) 

ja ε ovat silloin riippumattomia. Jos satunnaisvektorilla ε on todennäköisyystiheysfunktio, 

niin satunnaisvektorin Y = F(X)+ ε ehdollinen todennäköisyystiheysfunktio 

kun X = x, on Lauseen 6 nojalla muotoa 

kun f X (x) ≠ 0. 

f Y (y|X = x) = f ε+F(x) (y) = f ε (y − F(x)), 

Esimerkki 16. Usein esiintyvä häiriömalli on Gaussinen jakauma eli multinormaalijakauma. 

Jos häiriötermillä ε on multinormaalijakauma N(0, C ε ), tuntematon 

X on riippumaton häiriötermistä ja Y = F(X) + ε, niin uskottavuusfunktio 

on 

f Y (y|X = x) = 

1 

√ 

(2π)n det(C ε ) e−1 2 (y−F(x))T C −1 

ε (y−F(x)) . 

Esimerkiksi, jos tarkastellaan tietokonetomografiakuvausta, missä tuntematonta 

massa-absorptiokerrointavälillä [0, 1]×[0, 1] approksimoidaan funktiona f(s, t) = 

∑ n 

j=1 x jφ j (s, t), (s, t) ∈ [−1, 1] × [−1, 1] missä φ j on j:nen pikselin karakteristinen 

funktio ja x = (x 1 , ..., x n ) on tuntematon vektori, niin 

f Y (y|X = x) = 

1 

√ 

(2π)n det(C ε ) e−1 2 (y−Fx)T C −1 

ε (y−Fx) , 

missä F : R n → R m on kuvaus, jolle 

(Fx) i = 

∫ 1 

−1 j=1 

n∑ 

x j φ j (t, a i t + b i )dt = 

n∑ 

∫ 1 

x j φ j (t, a i t + b i )dt 

on funktion f integraali pitkin annettua suoraa t ↦→ a i t + b i eli 

F ij = 

Toisistaan riiippuvat X ja ε 

∫ 1 

−1 

j=1 

φ j (t, a i t + b i )dt. 

Lause 10. Olkoon satunnaisvektorilla (X, Y, ε) jatkuva todennäköisyystiheysfunktio 

ja myös sen reunajakaumat ovat jatkuvia todennäköisyystiheysfunktioita. 

Olkoon lisäksi f (X,ε) (x, z) > 0 kaikilla (x, z) ∈ R n × R m . Olkoon ehdollinen 

tnft f ε (z|X = x) annettu. Silloin 

∫ 

f Y (y|X = x) = f ε (z|X = x)f Y (y|(X, ε) = (x, z))dz. 

R m 

kun f X (x) ≠ 0. 

Todistus. Meidän tulee määrätä 

f Y (y|X = x) = f (X,Y )(x, y) 

. 

f X (x) 

58 

−1

Nyt 

∫ 

f (X,Y ) (x, y) = f (X,Y,ε) (x, y, z)dz. 

R m 

Lisäksi Bayesin kaavan nojalla 

f (X,ε) (x, z) = f ε (z|X = x)f X (x). 

Silloin 

∫ 

f Y (y|X = x) = 

f (X,Y,ε) (x, y) 

R f m (X,ε) (x, z) 

f (X,ε) (x, z) 

dz. 

f X (x) 

Häiriö ja tuntematon voivat riippua toisistaan esim. mallinnusvirheiden kautta. 

Laskennallisista syistä korkeaulotteista tuntematonta halutaan usein approksimoida 

tuntemattomalla, jonka dimensio on pienempi. Merkitään tuntematonta 

satunnaisvektoria X : Ω → R N ja sen ortogonaalista projektiota n-ulotteiseen 

aliavaruuteen X n = P n X, n < N. 

Silloin 

F(X) = F(X n ) + (F(X) − F(X n )) =: F(X n ) + ˜ε 

ja datavektori toteuttaa yhtälön 

Y = F(X) + ε = F(X n ) + ˜ε + ε 

josta voimme Lauseen 10 oletuksilla yhteisjakaumalle kirjoittaa uskottavuusfunktion 

∫ 

f Y (y|X n = x) = f eε (z|X n = x)f Y (y|(X n , ˜ε) = (x, z))dz. 

R m 

missä 

f Y (y|(X n , ˜ε) = (x, z)) = f ε (y − F(x) − z). 

Tilastollinen suoran teorian mallinnusvirhe 

Oletetaan yksinkertaisuuden vuoksi, että suora teoria F σ : R n → R m on 

lineaarinen kuvaus, joka riippuu jatkuvasti parametrista σ ∈ R, jota ei tunneta 

tarkasti.Tällöin on oikeutettua mallintaa epätarkkaa tietoa tilastollisesti parametrille 

σ asetetun todennäköisyysjakauman avulla, jolloin myös lineaarisen 

kuvauksen matriisista F σ tulee satunnainen. Erityisesti 

⎛ 

⎞ 

n∑ 

Y i (ω) = ⎝ 

j=1 

F σ(ω) 

ij 

X j (ω) ⎠ + ε i (ω). 

jokaisella alkeistapahtumalla ω ∈ Ω. 

Jos satunnaismuuttujat σ, X ja ε ovat riippumattomia, niin Lauseen 10 oletuksilla 

yhteisjakaumalle 

∫ 

f Y (y|X = x) = f eε (y − F s x)f σ (s)ds 

R m 

kun f X (x) > 0. 

59

4.3.3 Priori f pr (x) 

Prioritntf edustaa tuntemattomasta saatavilla olevaa etukäteistietoa ja kuvailee 

myös käsityksemme tiedon puutteesta. Voimme kysyä, kuinka prioritntf muodostetaan 

etukäteistiedon perusteella? 

Oletetaan, että tuntematon vektori x ∈ R n kuvaa funktion g arvoja esimerkiksi 

joissakin neliön [0, 1] × [0, 1] pisteissä eli 

missä t i ∈ [0, 1] × [0, 1] kun i = 1, ..., n. 

x i = g(t i ), 

Mahdollista prioritietoa: 

Funktio g 

Vektori x 

Funktion g jotkin arvot. 

Vektorin x jotkin komponentit 

Esim. reuna-arvot tunnetaan tarkasti x i tunnetaan tarkasti tai 

tai epätarkasti. 

epätarkasti. 

Funktion g sileys. 

Vektorin x naapurikomponenttien käytös. 

Funktion g arvojoukko. 

Vektorin x komponenttien x i arvojoukko. 

Esim g ≥ 0, monotonisuus Esim. x i ≥ 0, x i ≥ x i+1 

Funktion g symmetriaominaisuudet. Vektorin x symmetriaominaisuudet. 

Esim. jaksollisuus, rotaatiosymmetria. Esim. x = Mx + b joillakin M ∈ R n×n ja b ∈ R n . 

Muut funktiota g sitovat yhtälöt. Vektorin komponentteja sitovat muut 

Esim. jos g : R 3 → R 3 on yhtälöt. 

magneettikenttä, niin ∇ · g ≡ 0. 

Funktion g lineaarinen riippuvuus 

tunnetuista funktioista. 

Esim. g = ∑ ∞ 

i=1 a iφ i , a i ∈ R. 

Vektorin x virittäjävektorit tunnetaan 

Esim. x = ∑ n ′ 

i=1 a ie i , n ′ ≤ n. 

Mahdollisia tilastollisia malleja: 

Tuntematon vektori x ∈ R n 

Vektorin x jotkin komponentit 

x i tunnetaan tarkastii 

tai epätarkasti. 

Vektorin x naapurikomponenttien käytös. 

Vektorin x komponenttien x i arvojoukko. Esim. |X i | = X i . 

Esim. x i ≥ 0 

Vektorin x symmetriaominaisuudet. 

Esim. X = MX + b 

Esim. x = Mx + b joillakin M ∈ R n×n ja b ∈ R n . 

Vektorin x virittäjävektorit tunnetaan. X = ∑ n ′ 

Tuntemattoman tilastollinen malli X : Ω → R n 

X i = m i + Z i , missä sv. Z i jakauma kuvaa 

arvon m i epätarkkuutta 

Satunnaisvektorin X naapurikomponenttien 

riiippuvuus. Satunnaisvektorin X 

naapurikomponenttien yhteisjakaumat 

i=1 Z ie i 

Esim. x = ∑ n ′ 

i=1 a ie i , n ′ ≤ n. missä sm:n Z i jakauma edustaa 

kertoimiin liittyvää epävarmuutta. 

Esim. f Zi = f Zj kun i ̸ j. 

60

4.4 Erilaisia priorijakaumia 

Okoon X : Ω → R n satunnaisvektori, joka mallintaa inversio-ongelman tuntematonta 

vektoria. Olkoon f pr : R n → [0, ∞) satunnaisvektorinX tntf.Tarkastellaan 

muutamia vaihtoehtoja. 

Tasainen jakauma 

Olkoon B ⊂ R n suljettu ja rajoitettu suorakulmainen särmiö 

B = {x ∈ R n : a i ≤ x i ≤ b i , i = 1, .., n}, 

missä a i 

Satunnaisvektorilla X on tasainen jakauma joukossa B jos 

f pr (x) = 1 

|B| 1 B(x), 

missä |C| := ∫ C dx on integraali yli suorakulmaisen särmiön C ⊂ Rn . 

• P(X ∈ B) = 1 ja sen komponenteille P(X i ∈ [a i , b i ]) = 1. Tiedetään 

varmasti, että tuntematon kuuluu joukkoon B ja tuntemattoman i:s komponentti 

kuuluu välille [a i , b i ]. 

• Jos ˜B ⊂ B ja myös sen translaatio ˜B − x ⊂ B jollakin suorakulmaisella 

särmiöllä ˜B ja vektorilla x ∈ R n , niin mielestämme tapahtumien X ∈ ˜B 

ja X ∈ ˜B −x toteutuminen on täsmälleen yhtä epävarmaa. Tasainen priorijakauma 

ilmaisee lähes täydellistä epävarmuutta tuntemattoman vektorin 

arvoista komponenttien arvoista: tiedämme että tuntematon kuuluu 

joukkoon B. Piste. 

• Joukon B on oltava rajoitettu, jotta f pr olisi tntf. 

• Posteriorijakauman tntf 

l 1 -priori 

f post (x) = f Y (y|X = x)1 B (x) 

f Y (y)|B| 

on joukkoon B rajoitettu ja uudelleen normitettu uskottavuusfunktio. 

Määritellään avaruuteen R n uusi normi, ns. l 1 -normi 

‖x‖ 1 = 

n∑ 

|x i | 

i=1 

kun x ∈ R n . 

Satunnaisvektorilla X on l 1 -priori, jos 

( α 

) n 

f pr (x) = e 

−α‖x‖ 1 

2 

• Komponentit X i ovat toisistaan riippumattomia. 

61

1 

0.9 

0.8 

alpha=0.5 

alpha=1 

alpha=2 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−10 −8 −6 −4 −2 0 2 4 6 8 10 

Kuva 4.1: 1-ulotteisen l 1 -jakauman tntf. 

• Tntf f Xi on symmetrinen origon suhteen (jolloin prioriodotusarvo on nollavektori). 

• Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman 

komponenttien saavan suurehkoja arvoja. 

Cauchy-jakauma 

Satunnaisvektorilla X on Cauchy-jakauma, jos 

kun x ∈ R n . 

( α 

) n ∏ 

n 1 

f pr (x) = 

π 1 + α 2 x 2 i 

i=1 

• Komponentit X i ovat riippumattomia. 

• Tntf f Xi on symmetrinen origon suhteen (jolloin prioriodotusarvo on nollavektori. 


komponenttien saavan suurehkoja arvoja. 

• Kuvaa parhaiten tilannetta, jossa suurin osa komponenttien arvoista on 

lähellä nollaa, mutta joukossa on muutamia poikkeavia arvoja. 

62

0.7 

0.6 

alpha=0.5 

alpha=1 

alpha=2 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−10 −8 −6 −4 −2 0 2 4 6 8 10 

Kuva 4.2: Cauchy-jakauman tntf. 

Diskreetit Markovin kentät 

Oletetaan, että tuntematon vektori kuvaa jonkin n ′ -muuttujan funktion f : 

R n′ → R arvoja pisteissä t i , i = 1, ..., n. 

Indeksien i naapurustot N i ⊂ {1, ..., n} ovat jokin joukkoperhe jolle pätee 

1. i /∈ N i 

2. i ∈ N j jos ja vain jos j ∈ N i . 

Määritelmä 19. Satunnaisvektori X on diskreetti Markovin kenttä naapurustojen 

N i , i = 1, .., n suhteen jos 

f Xi (x|(X 1 , X 2 , .., X i−1 , X i+1 , X i+2 , ..., X n ) = (x 1 , x 2 , .., x i−1 , x i+1 , x i+2 , ..., x n )) 

= f Xi (x|X k = x k ∀k ∈ N i ) 

Diskreetin Markovin kentän komponentti X i riippuu ainoastaan naapurikomponenteista 

X k , k ∈ N i . 

Lause 11 (Hammersley-Clifford). Olkoon satunnaisvektori X : Ω → R n diskreetti 

Markovin kenttä naapurustojen N i , i = 1, .., n suhteen, jolla on tntf. 

f X > 0. Silloin 

f X (x) = ce − P n 

i=1 Vi(x) 

missä funktio V i : R n → R riippuu vain komponentista x i ja sen naapurikomponenteistä 

x k , k ∈ N i . 

Esimerkki 17. Oletetaan, että satunnaisvektori X mallintaa N × N-pikselin 

kuvaa siten, että kuvaa vastaava matriisi on järjestetty n = N 2 -ulotteiseksi 

63

vektoriksi riveittäin. Satunnaisvektorilla X : Ω → R 2 on totaalivariaatiopriorijakauma 

, jos 

f pr (x) = ce − P n 

j=1 Vj(x) 

missä 

V j (x) = α ∑ 

l ij |x i − x j | 

2 

i∈N j 

ja indeksin j naapurusto N j sisältää ne indeksit, joita vastaavilla pikseleillä on 

yhteinen sivu pikselin j kanssa. Luku l ij on yhteisen sivun pituus. 

• Totaalivariaatio ∑ n 

j=1 1 ∑ 

2 i∈N j 

l ij |x i −x j | on pieni, jos pikselin i väriarvo 

x i ja sen naapuripikselien väriarvot x j , j ∈ N i eivät eroa paljon toisistaan 

tai eroavat paljon vain sellaisten pikselijoukkojen välillä, joiden reunan 

pituus on lyhyt. Vastaavasti tntf antaa suuren painon tällaisille vektoreille. 


totaalivariaation saavan suurehkoja arvoja. 

Esimerkki 18. Diskreetit Markovin kentät soveltuvat hyvin rakenteesta olevan 

prioritiedon esittämiseen. Esim. lääketieteellisessä kuvantamisessa on joskus 

mahdollsita tietää etukäteen missä eri elinten rajapinta sijaitsee esim. anatomian 

tai röntgenkuvien perusteella. Silloin voimme valita naapurustot siten, 

että j /∈ N i jos pikseli j kuuluu eri elimeen kuin pikseli i. Tällöin satunnaisvektorin 

X eri elimiä edustavat komponentit ovat toisistaan riippumattomia, mikä 

mahdollistaa komponenttien arvojen suurehkot hypyt kudosten rajapinnan yli. 

Gaussinen jakauma 

Olkoon X ∼ N(m, C) eli satunnaisvektori X on multinormaalijakautunut, sen 

odotusarvovektori on m ja kovarianssimatriisi on C. Gaussista priorijakaumaa 

suositaan kahdesta syystä: 1) posteriorijakauman yksinkertaisuus kun häiriö on 

myös Gaussinen ja 2) keskeinen raja-arvolause. 

Keskeinen raja-arvolause: Jos satunnaismuuttujat {Z i : i ∈ N} ovat 

pareittain riippumattomia, samoin jakautuneita ja m = E[Z i ] sekä C = E[(Z i − 

m) 2 ] ovat äärellisiä, niin satunnaismuutjien 

X n = 

n∑ 

i=1 

(Z i − m) 

√ 

nC 

jakauma, kun n kasvaa rajatta, lähestyy normaalijakaumaa N(0, 1) siinä mielessä 

että 

lim P(X n ≤ a) = 1 ∫ a 

√ e −1 2 x2 dx 

n→∞ 2π −∞ 

jokaisella a ∈ R. 

Keskeinen raja-arvolause takaa myös sen, että eräät häiriötermit ovat lähes 

multinormaalijakautuneita. Esimerkiksi kaikissa elektronisissa mittalaitteissa 

esiintyy lämpökohinaa, joka johtuu elektronien satunnaisesta lämpöliikkeestä: 

sähkövirta hetkellä t ei ole täsmälleen jännite-erojen aikaansaama virta, vaan siihen 

on summautunut jokaisen elektronin pieni satunnainen lämpöliike. Kunkin 

64

elektronin lämpöliike noudattaa mittalaitteen lämpötilasta riippuvaa jakaumaa 

ja eri elektronien lämpöliikkeitä voidaan pitää riippumattomina. Sähkövirtaan 

summautuu kaikkien elektronien lämpöliike, joka on keskeisen raja-arvolauseen 

nojalla hyvin lähellä normaalijakaumaa. Lämpökohinaa approksimoidaan normaalijakaumalla. 

Esimerkki 19. Revontulet ja Gaussinen priori. Epäkoherentissa sironnassa ionosfäärin 

plasman yksittäiset elektronit lähettävät kukin oman heikon signaalinsa. 

Epäkoherentisti sironnut signaali on summa yksittäisten elektronien signaaleista. 

Keskeisen raja-arvolauseen nojalla voidaan olettaa, että myös sironnut 

signaali noudattaa Gaussista jakaumaa. 

0.8 

0.7 

alpha=2 

alpha=1 

alpha=0.5 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−10 −8 −6 −4 −2 0 2 4 6 8 10 

Kuva 4.3: Normaalijakauman N(0, α) tntf. 

Oletetaan, että m = 0 ja tarkastellaan kovarianssimatriisin sisältyvää prioritietoa 

kahdessa eri tapauksessa. 

Sileyspriorit reuna-ehdolla: 

1D-tapaus: Oletetaan, että X kuvaa funktion f arvoja pisteissä t i ∈ [0, 1], 

i = 1, .., n, 0 = t 0 < t 1 < · · · < t n < 1 ovat tasavälisiä pisteitä ja f(t) = 0 kun 

t ≤ 0. Olkoon matriisi L ∈ R n×n sellainen, että 

⎧ 

⎪⎨ 1, i = j, 

L ij = −1, j = i − 1, 2 ≤ i ≤ n 

⎪⎩ 

0, muulloin. 

Määritellään satunnaisvektori X yhtälöllä 

1 

a LX = W ⇔ X = aL−1 W 

65

missä W ∼ N(0, I n ). Tällöin satunnaismuuttujat 

X i − X i−1 ∼ N(0, a 2 ), i = 1, .., n 

ovat toisistaan riippumattomia. Tässä X 0 ≡ 0. Satunnaisvektori X = (X 1 , ..., X n ) ∼ 

N(0, a 2 (LL T ) −1 ) ja 

f pr (x) = ce − 1 

2a 2 (x 2 1 +P n 

i=2 (xi−xi−1)2 ) . 

• Jakauma sisältää priorioletuksen: reunaa vastaava komponentti X 0 ≡ 0. 

• Jos parametri a on suuri, niin vierekkäisten komponenttien erotukset voivat 

olla suurehkoja. Jos parametri a on pieni, on todennäköisempää että 

vierekkäisten pisteiden erotus on pienehkö. 

• Parametrin a valinta perustuu siihen, kuinka varmasti uskomme tuntematoman 

vierekkäisten komponenttien erotukset saavan suurehkoja arvoja. 

Tämä liittyy käsitykseemme tuntemattoman funktion derivaatan käytöksestä. 

Vastaavasti, voimme tarkastella toisia differenssejä ja asettaa 

Tällöin 

1 

a 2 L2 X = W. 

f pr (x) = ce − 1 

2a 4 (x 2 1 +(−2x2−x1)2 + P n 

i=3 (xi−2xi−1+xi−2)2 ) . 

joilla 

• Jakauma sisältää priorioletukset: reunaa vastaava komponentti X 0 ≡ 0 

samoin kuin X −1 ≡ 0 joka mallintaa funktion arvoa pisteessä f(t −1 ), 

t −1 < 0. 

• Jos parametri a on suuri, niin vierekkäisten komponenttien toiset differenssit 

voivat olla suurehkoja. Jos parametri a on pieni, on todennäköisempää 

että vierekkäisten pisteiden toiset differenssit ovat pienehkö. 


vierekkäisten komponenttien toiset differenssit saavan suurehkoja 

arvoja. Tämä liittyy käsitykseemme tuntemattoman funktion toisen derivaatan 

käytöksestä. 

Vastaavasti voidaan määritellä korkeammilla differensseillä 

k=0 

1 

a m Lm X = W, 

m∑ ( (−1) k m 

) 

X i−k ∼ N(0, a 2m ) 

k 

ovat riiippumattomia satunnaismuuttujia. 

2D-tapaus: Oletetaan, että X kuvaa funktion f arvoja pisteissä t i ∈ [0, 1] × 

[0, 1], i = 1, .., n 2 , ja f(t) = 0 kun t /∈ [0, 1] × [0, 1]. Oletetaan, että {t i ∈ [0, 1] × 

66

[0, 1] : i = 1, .., n 2 } = {( k n , j n ) : k, j = 1, ..., n}. Olkoon matriisi L ∈ ×n 2 

Rn2 

sellainen, että 

⎧ 

⎪⎨ 4, i = j, 

L ij = −1, kunj ∈ N i 

⎪⎩ 

0, muulloin. 

missä pisteen i ympäristö N i sisältää indeksit k, jotka ovat pisteen t i vasemman-, 

oikean-, ylä- ja alapuolisen pisteen t k indeksit (mikäli nämä pisteet ovat olemassa). 

Määritellään satunnaisvektori X yhtälöllä 

missä W ∼ N(0, I n 2). 

1 

a 2 LX = W ⇔ X = a2 L −1 W 

• Priorijakauma sisältää oletuksen, että indeksialueen ulkopuolella tuntematon 

häviää. 

• Matriisi-indekseillä riippumattomat normaalijakautuneet satunnaismuuttujat 

−X i(k+1) −X i(k−1) +4X ik −X (i+1)k −X (i−1)k = −X i(k+1) +2X ik −X i(k−1) −X (i+1)k +2X ik −X (i−1)k 

ovat eri akselien suuntaan laskettujen 2. differenssien summa. 


vierekkäisten komponenttien toisten differenssien summan saavan 

suurehkoja arvoja. Tämä liittyy käsitykseemme tuntemattomasta funktiosta 

f otetun Laplacen operaattorin ∆f käytöksestä. 

Korrelaatiopriorit: 

Jos satunnaisvektori X ∼ N(0, C) mallintaa tuntemattoman 2π-periodisen 

funktion f arvoja pisteissä t i = 2π(i − 1)/n, i = 1, ..., n, niin myös sen kovarianssimatriisin 

tulisi kuvata periodisuutta. Tämä voidaan toteuttaa valitsemalla 

sopiva vektori 

c = (c 1 , ..., c n ) 

ja ottamalla C sirkulantiksi matriisiksi, jonka c määrää. 

Esimerkiksi 

c i = e −α|i−n/2| (4.3) 

kun i = 1, ..., n. 

• Prioritieto periodisuudesta on sisällytetty kovarianssimatriisin rakenteeseen. 

• Yhtälölle (4.3) määritelty c riippuu parametrista α > 0. Parametri α kuvaa 

käsitystämme tuntemattoman vektorin komponenttien välillä vallitsevasta 

riippuvuudesta. 

67

Positiivisuusrajoitus 

Jos tiedetään, että tuntemattoman komponentit ovat ei-negatiisia, niin käytetään 

rajoitettua ja uudelleen normitettua tntf:ta 

f pr (x) = cf + (x)f X (x) 

missä 

f + (x) = 

{ 

1, x i ≥ 0 ∀i = 1, .., n 

0 muulloin. 

0.4 

0.35 

Gauss 

l1 

Cauchy 

0.3 

0.25 

0.2 

0.15 

0.1 

0.05 

0 

−10 −8 −6 −4 −2 0 2 4 6 8 10 

Kuva 4.4: Normaalijakauman N(0, 1) tnft, Cauchy-jakauman tntf kun α = π √ 

2π 

ja l 1 -priorin tntf kun α = 2 

2π . 

Hierarkinen priori 

Jos tuntemattomanta mallintavan satunnaisvektorin todennäköisyystiheysfunktion 

arvot riippuvat jatkuvasti parametreista σ ∈ R n′ joita ei tunneta tarkasti, 

niin parametreihin liittyvää epävarmuutta on mahdollista kuvailla todennäköisyysjakauman 

avulla. 

Olkoon X : Ω → R n tuntematonta mallintava satunnaisvektori, jolla on 

tntf f X . Olkoon σ : Ω → R n′ parametria mallintava satunnaisvektori, jolla on 

tntf f σ . Oletetaan, että tiedetään lauseke satunnaisvektorin X jakaumalle, kun 

parametrin σ arvo on tunnettu eli funktio 

x ↦→ f X (x|σ = s) = f s X (x) 

tunnetaan kaikilla s ∈ R n′ . Oletetaan että tulo f s X (x)f σ(s) on Riemann-integroituva 

ja 

f (X,σ) (x) = f s X (x)f σ(s). 

68

Vaihto-ehto 1) Tuntematonta mallinnetaan satunnaisvektorina X, jolla on 

todennäköisyystiheysfunktio 

∫ 

f pr (x) = fX(x)f s σ (s)ds 1 · · · ds n ′ 

(mikäli tämä marginaalitntf on olemassa). Vastaava posteriorijakauma on 

f post (x) = cf Y (y|X = x)f pr (x) 

kun f Y (y) > 0. 

Vaihtoehto 2) Myös hyperparametria σ pidetään osana tuntemattonta ja 

prioriksi otetaan yhteisjakauma 

jolloin 

f pr (x, s) = f s X(x)f σ (s). 

f post (x, s) = cf Y (y|(X, σ) = (x, s))f pr (x, s) = cf Y (y|X = x, s)f pr (x, s) 

kun f Y (y) > 0, sillä uskottavuusfunktio ei riipu parametrin σ arvosta. 

Vastaavaa prioritodennäköisyystiheysjakaumaanimitetään hierarkiseksi prioriksi 

(eng. hierarchical prior). Parametreja σ : Ω → R n′ nimitetään hyperparametreiksi 

(eng. hyperparameter) ja sen jakaumaa hyperprioriksi (eng. hyper 

prior). 

Esimerkki 20. Olkoon X : Ω → R 3 tuntematonta mallintava satunnaisvektori 

ja σ : Ω → R satunnaismuuttuja. Olkoon 

⎛ 

D s = ⎝ 1 0 0 ⎞ 

0 s 0⎠. 

0 0 1 

ja 

⎛ 

L = ⎝ 1 0 0 

⎞ 

−1 1 0⎠. 

0 −1 1 

Oletetaan , että 

f X (x|σ = s) = c s e − 1 2 xT L T D sLx = 2√ s 

√ 

2π 

3 exp ( 

− 1 2 x2 1 − s 2 (x 2 − x 1 ) 2 − 1 2 (x 3 − x 2 ) 2 ) 

ja 

f σ (s) = λf + (s)e −λs 

missä λ > 0 ja f + (s) = 1 kun s > 0 ja 0 muulloin. Silloin 

f (X,σ) (x, s) = 

√ sλ 

( √ 2π) f +(s)exp 

(− 1 3 2 x2 1 − s 2 (x 2 − x 1 ) 2 − 1 ) 

2 (x 3 − x 2 ) 2 e −λs 

69

ja 

f X (x) = 

= 

= 

= 

= 

( 

λ 

( √ 2π) exp 3 ( 

λ 

( √ 2π) exp 3 ( 

λ 

( √ 2π) exp − 1 3 2 x2 1 − 1 ) 

2 (x 3 − x 2 ) 2 

− 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2 ) ∫ ∞ 

− 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2 ) ∫ ∞ 

( 1 2 (x 2 − x 1 ) 2 + λ) 3 2 

λ 

( √ exp ( − 1 2 x2 1 − 1 2 (x 3 − x 2 ) 2) ( 3 

2π) 3 ( 1 2 (x Γ 

2 − x 1 ) 2 + λ) 3 2 2) 

λ exp ( − 1 2 

√ x2 1 − 1 2 (x 3 − x 2 ) 2) 

4π 

2 ((x 2 − x 1 ) 2 + 2λ) 3 2 

0 

0 

√ ( 

s exp − s ) 

2 (x 2 − x 1 ) 2 − λs ds 

( ) 

s 1 1 

2 exp(−s 

2 (x 2 − x 1 ) 2 + λ )ds 

1 

∫ ∞ 

0 

s 1 2 exp(−s)ds 

Gamma-funktion arvo Γ(3/2) = √ π/4. 

0.7 

0.6 

lambda=0.3 

lambda=1 

lambda=2 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−20 −15 −10 −5 0 5 10 15 20 

Kuva 4.5: Todennäköisyystiheysfunktio f(x) = 

λ 

(x 2 +2λ) 3 2 

. 

• Satunnaisvektorin X jakauma ei ole Gaussinen. 

• Satunnaisvektorin X 1. differenssit ovat riippumattomia. 

• Komponenttien odotusarvot E[X i ] = 0, i = 1, 2, 3. 

• Differenssillä X 2 − X 1 on Cauchy-tyyppinen jakauma (muunnettu Betajakauma, 

Transformed Beta distribution), mutta suurten lukujen esiintymisen 

todennäköisyys on pienempi kuin Cauchy-jakaumalla. 

70

0.25 

Cauchy 

Transformed Beta 

0.2 

0.15 

0.1 

0.05 

0 

−20 −15 −10 −5 0 5 10 15 20 

Kuva 4.6: Cauchy-jakauman tntf. ja f(x) = 

λ 

(x 2 +2λ) 3 2 

. 

• Epävarmuus differenssin X 2 − X 1 varianssissa tuotti jakauman, joka sallii 

myös suurempia arvoje. Olisi ollut mahdollista myös suoraan antaa tämä 

tntf. satunnaisvektorin X todennäköisyystiheysfunktiona, mutta tuntemattomasta 

ollut prioritieto soveltui paremmin parametrin hyperpriorin 

valintaan. 

4.5 Posteriorijakauman tutkiminen 

4.5.1 Päätösteoriaa 

Oletetaan, että tntf:t f (X,Y ) , f X > 0 ja f Y > 0 ovat olemassa ja jatkuvia. 

Merkitään 

f post (x; y) = f X (x|Y = y) 

kun y ∈ R m . 

Moniulotteista posteriorijakaumaa f post (x; y) voi olla hankala tulkita tai visulialisoida. 

Miten posteriorijakaumasta saadaan helposti tulkittavaa tietoa tuntemattomasta? 

Otetaan käyttöön tilastotieteen osa-alue, jota kutsutaan päätösteoriaksi. 

Päätösteoria (eng. decision theory) vastaa esimerkiksi kysymykseen: mikä 

datan y = F(x) + ε funktio h : R m → R n on sellainen, että vektori h(y) muistuttaa 

(tietyssä mielessä) parhaiten tuntematonta x joka on tuottanut datan 

y = F(x) + ε? Tilastotietessä funktiota h kutsutaan tuntemattoman estimaattoriksi 

ja arvoa h(y) estimaatiksi. 

Määritellään missä mielessä parasta funktiota etsitään. Valitaan ensin ns. 

tappiofunktio (eng. loss function) 

L : R n × R n → [0, ∞) 

71

jonka arvo L(x, h(y)) mittaa estimaatin h(y) tarkkuutta kun tuntematon on 

x. Esim. L(x, h(y)) = ‖x − h(y)‖ 2 . Oletetaan, että L on valittu siten, että 

x ↦→ L(x, z)f post (x) on integroituva jokaisella z ∈ R n . 

Jos y ∈ R m , niin estimaattorin h arvo h(y) ∈ R n valitaan siten, että se 

minimoi tappiofunktion posterioriodotusarvon 

∫ 

R n L(x, h(y))f post (x; y)dx 

eli 

h(y) = argmin 

z∈R n 

∫ 

R n L(x, z)f post (x; y)dx. 

Datan ollessa y etsimme arvon h(y), jolla odotettu virhe posteriorijakauman 

suhteen on pienin mahdollinen. Arvoille h(y) pätee, että 

mikäli integraali 

h(y) = argmin 

z∈R n 

r(h) = 

∫ (∫ 

) 

L(x, z)f post (x; y)dx f Y (y)dy, 

R m R n 

∫R m (∫ 

) 

L(x, h(y))f post (x; y)dx f Y (y) 

R n 

on olemassa. Lukua r(h) kutsutaan Bayes-riskiksi. Kun Fubinin kaava pätee, 

niin 

(∫ 

) 

r(h) = L(x, h(y))f Y (y|X = x)dy f pr (x)dx. 

∫R n R m 

Riskin tulkinta: kun todellinen tuntematon on x ja sitä vastaava häiriöinen data 

y, niin estimaattoriin h liittyvä odotettu tappio (jakaumien f Y (y|X=x) ja f pr (x) 

suhteen) on Bayes-riski r(h). 

Esimerkki 21. Valitaan L(x, z) = ‖x − h(y)‖ 2 . Olkoon m post (y) posterioriodotusarvo 

∫ 

m post (y) = xf post (x)dx 

R n 

ja C post (y) posteriorikovarianssimatriisi 

∫ 

(C post (y)) ij = (x i − (m post (y)) i )(x j − (m post (y)) j )f post (x)dx. 

R n 72

Silloin 

∫ 

R n L(x, h(y))f post (x; y)dx = 

= 

= 

= 

= 

∫ 

‖x − h(y)‖ 2 f post (x; y)dx 

R 

∫ 

n 

‖x − m post (y) + m post (y) − h(y)‖ 2 f post (x; y)dx 

R 

∫ 

n n∑ 

(‖x − m post (y)‖ 2 + 2 (x − m post (y)) i (m post (y) − h(y)) i 

R n 

i=1 

+‖m post (y) − h(y)‖ 2 )f post (x; y)dx 

∫ 

‖x − m post (y)‖ 2 f post (x; y)dx 

R n n∑ 

+2 (m post (y) − h(y)) i (x − m post (y)) i f post (x; y)dx 

∫R n 

i=1 

+‖m post − h(y)‖ 

∫R 2 f post (x; y)dx 

∫ 

n ‖x − m post (y)‖ 2 f post (x; y)dx + ‖m post − h(y)‖ 2 

R n 

Minimi saavutetaan, kun ‖m post (y) − h(y))‖ 2 = 0 eli kun h(y) = m post (y), 

jolloin lisäksi 

∫ 

R n L(x, h(y))f post (x; y)dx = 

n∑ 

(C post (y)) ii . 

Toisin sanoen tappiofunktion posterioriodotusarvo on posteriorikovarianssimatriisin 

diagonaalielementtien summa ( = posteriorikovarianssimatriisin ns. jälki, 

eng. trace). 

Posterioriodotusarvoa merkitään usein ˆx CM (CM=central mean) 

Esimerkki 22. MAP-estimaatti 

Sanomme, että todennäköisyystiheysfunktiota yksihuippuiseksi (eng. unimodal), 

jos sen globaali maksimiarvo saavutetaan vain yhdessä pisteessä. (Huom! 

kirjallisuudessa termillä ”unimodal”esiintyy useampia määritelmiä, jotka eivät 

ole keskenään ekvivalentteja.). 

Olkoon δ > 0 ja tappiofunktio L δ (x, z) = 1 ¯B(z,δ) C(x) kun x, z ∈ R n . Olkoon 

jatkuva posterioritntf x ↦→ f post (x; y) yksihuippuinen annetulla datalla y ∈ R n . 

Estimaattien 

∫ 

h δ (y) = argmin 1 ¯B(z,δ) C(x)f post (x; y)dx 

z∈R n R n 

i=1 

= argmin f post (x; y)dx 

z∈R 

∫R n n \ ¯B(z,δ) 

raja-arvo 

missä 

lim h δ(y) = ˆx MAP (y) 

δ→0+ 

ˆx MAP (y) = argmaxf post (x; y). 

x∈R n 

73

Maksimi a posteriori-estimaatti ˆx MAP (y) (eng. maximum a posteriori estimate) 

voi olla hyödyllinen tilanteissa, joissa posterioriodotusarvojen laskeminen on 

raskasta. Se saadaan myös kaavalla 

ˆx MAP (y) = argmaxf Y (y|X = x)f pr (x) 

x∈R n 

MAP-estimaattia käytetään usein myös silloin, kun posteriorijakauma ei ole 

yksihuippuinen, jolloin estimaatti voi saada useampia arvoja. MAP-estimaattia 

käytetään myös tasaisten priorijakaumien yhteydessä. 

Estimaattien ˆx lisäksi voimme määrätä niiden komponenteille ˆx i Bayesluottamusvälin 

valitsemalla luvun a yhtälöstä 

missä esim. α = 0.05. 

P post (|X i − ˆx i | ≤ a) = 1 − α 

4.5.2 Huonosti asetetut ja häiriöherkät lineaariset ongelmat 

Olkoon 

y 0 = F(x 0 ) + ε 0 

annettu data, joka on näyte satunnaisvektorista 

Y = F(X) + ε, 

missä X : Ω → R n ja ε : Ω → R m ovat tilastollisesti riippumattomia satunnaisvektoreita 

ja F : R n → R m on jatkuva lineaarinen huonosti asetettu kuvaus 

jolla on pieniä nollasta eroavia singulaariarvoja tai häiriöherkkä hyvin asetettu 

kuvaus. 

Olkoon satunnaisvektorin (X, Y ) yhteistntf f (X,Y ) erikseen jatkuva pisteissä 

x, y ∈ R n×m joissa f (X,Y ) (x, y) > 0. Tarkastellaan yksinkertaisuuden vuoksi 

Gaussista häiriömallia ε ∼ N(0, δI), δ > 0. Olkoon f pr sellainen, että jollakin 

c > 0 pätee f pr (x) ≤ c −1 kaikilla x ∈ R n . Tällöin cf pr (x) ≤ 1. 

Tuntemattoman maksimi a posteriori-estimaatti on 

ˆx MAP (y 0 ) 

= argmaxf Y (y 0 |X = x)f pr (x) 

x∈R n 

= argmaxf ε (y 0 − F(x))f pr (x) 

x∈R n 

= argmax 

x∈R n e − 1 2δ ‖y0−F(x)‖2 +ln cf pr(x) . 

Funktio [0, ∞) ∋ t ↦→ exp(−t) on vähenevä, joten 

kun g : R n → [0, ∞). Erityisesti 

sup exp(−g(x)) = exp(− inf g(x)) 

x∈R n x∈R n 

ˆx MAP (y 0 ) = argmaxe − 1 2δ ‖y0−Fx‖2 +ln cf 1 

pr(x). = argmin 

x∈R n 

x∈R n 2δ ‖y 0 − Fx‖ 2 − lncf pr (x). 

74

Kun häiriön jakauma on N(0, δI), niin MAP-estimointi on ekvivalentti sakotetun 

pienimmän neliösumman menetelmän (eng. penalized least squares method) 

kanssa; minimoitava funktionaali ei ole ‖y 0 − Fx‖ 2 , vaan siihen on summattu 

termi − lncf pr (x), joka on suuri silloin kun vektorilla x on ei-toivottuja ominaisuuksia. 

• Funktio x ↦→ ‖y 0 − Fx‖ 2 saa pienimmän arvonsa pisteissä 

ˆx = Qx 0 + ˜x + ˜ε 0 , 

missä Q : R n → R n on ortogonaalinen projektio kuva-avaruudelle R(F T ), 

˜x ∈ Ker(F) ja ˜ε 0 on häiriötermin ε 0 vaikutus likimääräisratkaisuun. 

• Jos − lncf pr (x) on suuri vektoreille x, jotka ovat tyyppiä x 0 + ˜ε 0 , niin sakkotermi 

− lncf pr (x) pienentää häiriön vaikutusta estimaatissa. Toisaalta 

funktion − lncf pr (x) minimikohta (eli funktion f pr (x) maksimikohta) ei 

yleensä ole x 0 tällaisille prioritntf:lle. Estimaatti ˆx MAP on tällöin ”kompromissi”häiriöiseen 

dataan sopivan häiriöisen estimaatin ˆx ja prioritntf:n 

suosiman vektorin välillä. 

Sama ilmiö näkyy myös CM-estimaatissa 

∫ 

ˆx CM (y 0 ) = xf post (x; y 0 )dx. 

R n ∫ 

= c y0 e − 1 

2δ ‖y0−F(x)‖2 f pr (x)dx 

R n 

= c y0 

∫R n xe − 1 2δ ‖y0−F(x)‖2 +ln cf pr(x) dx 

jossa lasketaan posterioriodotusarvo yli kaikkien mahdollisten tuntemattomien. 

• Niillä vektoreilla x, joilla 

1 

2δ ‖y 0 − F(x)‖ 2 − lncf pr (x) 

on pieni, on suurehko paino odotusarvossa. Niillä vektoreilla x, joilla 

1 

2δ ‖y 0 − F(x)‖ 2 − lncf pr (x) 

on suuri, on pienehkö paino odotusarvossa. 

• Jos − lncf pr (x) on suuri vektoreille x, jotka ovat tyyppiä x 0 + ˜ε 0 , niin 

prioritntf. f pr (x) pienentää häiriön ǫ 0 kontribuutiota odotuskeskiarvoon. 

Esimerkki 23 (Tasainen priorijakauma). Oletetaan, että F on injektio. Olkoon 

f pr (x) = 1 

|Q 1 r| Q r 

(x), missä Q r ⊂ R n on suljettu origokeskinen kuutio, jonka 

sivun pituus on r. 

Silloin 

f post (x) = c y0 e − 1 2δ ‖y0−F(x)‖2 1 Qr (x) 

ja 

ja 

ˆx MAP (y 0 ; r) = argmin 

x∈Q r 

‖y 0 − F(x)‖ 2 

lim x MAP(y 0 ; r) = argmin ‖y 0 − F(x)‖ 2 , 

r→∞ x∈R n 

75

missä posterioritntf on yksihuippuinen, koska F on injektio. MAP-estimaatti, 

kun priorina on tasainen jakauma origokeskisessä kuutiossa Q r , lähestyy pienimmän 

neliösumman likimääräisratkaisua, kun kuution sivun pituus kasvaa rajatta. 

Tasainen jakauma ei yleensä poista häiriöherkkyyttä. 

Esimerkki 24. Olkoon F : R n → R m . Olkoon f pr (x) = ce − 1 2 xT C −1x . Silloin 

ˆx CM (y 0 ) = (FF T + δC −1 ) −1 F T (y 0 ), 

joka on olemassa vaikka F ei olisi kääntyvä. Lisäksi estimaatti ˆx CM ei ole niin 

häiriöherkkä kuin pienimmän neliösumman likimääräisratkaisu. 

Merkitään posteriorikovarianssimatriisia 

C post = (FF T + δC −1 ) −1 . 

Voimme määrätä komponenteille (ˆx CM ) i Bayes-luottamusvälin 

√ 

√ 

[(ˆx CM ) i − 1.96 (C post ) ii , (ˆx CM ) i + 1.96 (C post ) ii ] 

jolle 

) 

P post 

(|X i − (ˆx CM ) i | ≤ 1.96 

√(C post ) ii ≈ 0.95 

Esimerkki 25. Häiriö ε 0 voi saada pienimmän neliösumman likimääräisratkaisun 

ˆx = ‖Fx − y 0 ‖ 2 

poikkeamaan voimakkaasti todellisesta tuntemattoman arvosta x 0 . Tällöin yksittäiset 

komponentit voivat saada suuria arvoja. Kun f pr on sellainen, että 

se antaa suuren todennäköisyyden vain vektoreille, joilla on ”sopivansuuruiset”komponentit, 

niin prioritntf antaa pienehkön painon vektoreille, jotka sopivat 

dataan hyvin eli ‖Fx − y 0 ‖ 2 on pieni, mutta joihin on summautunut voimakas 

häiriötermi. Tällaisia jakaumia ovat esim. l 1 -priori ja Cauchy-jakauma. 

Esimerkki 26. Kun häiriö ε on Gaussinen, niin sen tyypillinen näyte ε 0 saa 

pienimmän neliösumman likimääräisratkaisun 

ˆx = ‖Fx − y 0 ‖ 2 

vaihtelemaan voimakkaasti komponentista toiseen. Jos prioritntf. f pr on sellainen, 

että se antaa pienehkön painon vektoreille joiden vierekkäisten pisteiden 

erotukset ovat suuret, niin prioritntf. pienentää tyypillisen häiriön kontribuutiota 

estimaatteihin. Totaalivariaatiopriori ja Gaussiset sileyspriorit ovat tällaisia 

prioreja. 


• Todennäköisyyslaskenta 

– Todennäköisyyslaskennalla on mittateoreettinen pohja, joka näkyy 

satunnaisvektorien määritelmässä. 

76

– Tässä kurssissa moniulotteiset integraalit ovat moniulotteisia Riemannintegraaleja 

(kirjallisuudessa yleisemmin Lebesgue-integraaleja, jotka 

määritellään vasta syventävillä kursseilla). 

– Tässä kurssissa satunnaisvektorin X : Ω → R n todennäköisyystiheysfunktio 

on sellainen Riemann-integroituva funktio f : R n → 

[0, ∞), jolle ∫ f(x)dx = 1 ja P(X ∈ Q) = ∫ f(x)dx suljetuilla ja 

Q 

rajoitetuilla suorakulmaisilla särmiöillä Q. Rajoittamattomille kuutioille 

integraali määritellään epäoleellisena integraalina. 

– Tässä kurssissa satunnasivektorin X ehdollinen tntf ehdolla Y = y 

(jolla f Y (y) > 0) määritellään yhtälöllä 

jolloin Bayesin kaava 

f X (x|Y = y) = f (X,Y )(x, y) 

, 

f Y (y) 

f (X,Y ) (x, y) = f X (x|Y = y)f Y (Y ) = f Y (y|X = x)f X (y) 

pätee kaikilla x, y kun yhteisjakauma on erikseen jatkuva molempien argumenttiensa 

suhteen pisteissä (x, y), joissa f (X,Y ) (x, y) > 0 ja f Y (y) = 

∫ 

f(X,Y ) (x, y)dx sekä f X (y) = ∫ f (X,Y ) (x, y)dy. 

• Tilastollinen inversio-ongelma 

– Tuntematonta ja dataa mallinnetaan satunnaisvektoreilla X ja Y . 

– Datan ja tuntemattoman jakaumat edustavat niistä saatavilla olevaa 

kvantitatiivista ja kvalitatiivista tietoa sekä tälllaisen tiedon puutetta. 

– Annettu data y 0 on näyte satunnaisvektorista Y eli y 0 = Y (ω 0 ) jollakin 

alkeistapahtumalla ω 0 ∈ Ω. 

– Tilastollisen inversio-ongelman ratkaisu on satunnaisvektorin X ehdollinen 

todennäköisyysjakauma kun Y = y 0 , jolle f Y (y 0 ) > 0, on 

annettu 

• Posterioritntf 

– Posterioritntf:n määrämiseksi tarvitaan uskottavuusfunktio x ↦→ f Y (y 0 |X = 

x) ja prioritntf x ↦→ f p r(x). 

– Posteriorijakaumasta voidaan määrätä tuntematton estimaatteja ja 

niiden Bayes-luottamusvälejä. 

• Tyypillisiä priorijakaumia ovat Gaussiset sileyspriorit, l 1 -priori, Cauchypriori 

ja totaalivariaatiopriori (2D-kuville). 

Osattava 

• Määrätä posterioritntf (normitustekijää vaille) kun häiriötä mallintava satunnaisvektori 

ja tuntematonta mallintava satunnaisvektori ovat riippumattomia 

ja tarvittavat tntf:t ovat jatkuvia. 

• Johtaa Gaussisessa tapauksessa posterioriodotusarvon ja posteriorikovarianssimatriisin 

lausekkeet. 

77

• Selostaa Tikhonovin regularisaation ja Gaussisen priorin yhteys. 

• Muodostaa hierarkinen prioritntf kun ehdollinen prioritntf ja hyperjakaman 

tntf on annettu 


• että tapahtuman todennäköisyydestä käytetään subjektiivista Bayeslaista 

tulkintaa: tapahtuman todennäköisyys on se varmuusaste, jolla uskomme 

tapahtuman toteutuvan. 

• että epävarmuutta tuntemattoman tai parameterien arvoista voidaan kuvailla 

todennäköisyystiheysfunktioiden avulla 

• että prioritntf voi kompensoida ongelman häiriöherkkyyttä. 

• että posterioritntf tuottaa enemmän tietoa kuin pelkän estimaatin (kuten 

Bayes-luottamusvälit). 

Tiedettävä 

• että häiriötä mallintava satunnaisvektori ja tuntematontta mallintava satunnaisvektori 

voivat joskus olla toisistaan riippuvia. 

• että malleihin voidaan sisällyttää epävarmuustekijöitä satunnaismuuttujien 

avulla 

• CM-estimaatin määritelmä posterioriodotusarvona 

• MAP-estimaatin määritelmä posterioritntf:n maksimikohtana 

• mitä positiivisuusrajoite tarkoittaa 

• Priorijakaumia: Gaussiset sileyspriorit, Cauchy-priori, l 1 -priori, totaalivariaatiopriori. 

78

Inversio-ongelmien peruskurssi - Oulu

Create successful ePaper yourself

Delete template?

Save as template?