Pasi Karttunen - Joensuu

VÄRISPEKTRIEN RYHMITTELY 

HAHMONTUNNISTUKSEN MENETELMILLÄ 

Pasi Karttunen 

1.10.2002 

Joensuun yliopisto 

Tietojenkäsittelytiede 

Pro gradu -tutkielma

Tiivistelmä 

Väritutkimus on monia eri tieteenaloja kiinnostava ajankohtainen tutkimusala. 

Tässä tutkielmassa tarkastellaan teorian pohjalta kolmea hahmontunnistusmenetelmää, 

joilla värispektrejä voidaan ryhmitellä. Nämä menetelmät ovat: itseorganisoiva 

kartta (SOM), c-means ja parittainen lähin naapuri (PNN). Tutkielman kokeellisessa 

osassa näitä hahmontunnistusmenetelmiä sovelletaan käytännössä ja 

saavutetut tulokset esitellään. Tulokset on saatu aikaiseksi Matlab-ohjelmistolla 

kirjoitetuilla ohjelmilla. Ryhmittelymenetelmillä tuotettujen väriryhmien keskusvektoreita 

voidaan käyttää värisuotimina mm. optisen hahmontunnistuksen sovelluksissa. 

Tässä tutkielmassa tuotettuja värisuotimia verrataan laskennallisesti toisiinsa. 

Tutkielmassa käytetty aineisto on kerätty aihepiiriin liittyvistä kirjoista sekä ajankohtaisista 

tieteellisistä julkaisuista, joista pyritään käsittelemään mahdollisimman 

uutta tietoa. 

Avainsanat: pääkomponenttianalyysi, PCA, aliavaruusmenetelmä, itseorganisoiva 

kartta, SOM, c-means, parittainen lähin naapuri, PNN, värispektri, värisuotimet 

i

Sisältö 

1 Johdanto 1 

2 Värispektriesitys 4 

2.1 Kolmiulotteinen väriesitys . .................... 4 

2.2 Värispektrit ja niiden mittaaminen . . . . ............. 7 

2.3 Tutkielmassa käytetyt värispektritietokannat . . . . . . ...... 10 

3 Teoriaa värispektrien ryhmittelymenetelmistä 12 

3.1 Pääkomponenttianalyysi (PCA) . . . . . . ............. 12 

3.2 Itseorganisoiva kartta (SOM) .................... 15 

3.3 C-means ............................... 18 

3.4 Parittainen lähin naapuri (PNN) . . . . . ............. 20 

4 Värispektrien rekonstruointi ja virhemitat 24 

4.1 Spektrin rekonstruointi . . . .................... 24 

4.2 Wiener estimointi . . ........................ 25 

4.3 Virhemitat . . . . . . ........................ 27 

5 Kokeellinen osa 29 

5.1 Matlab . ............................... 29 

5.2 PCA................................. 30 

5.3 SOM................................. 35 

5.4 C-means ............................... 41 

5.5 PNN................................. 45 

5.6 Tulosten vertailua . . ........................ 49 

6 Menetelmien ja tulosten pohdinta 53 

Viitteet 56 

Liite 1: Esimerkki Munsell-värikirjan sivusta 61 

Liite 2: Macbeth-väritaulu 62 

ii

Liite 3: Munsell-tietokannan virheanalyysi 63 

Liite 4: Macbeth-tietokannan virheanalyysi 68 

Liite 5: Macbeth-tietokannan spektrit 73 

Liite 6: Ryhmien keskustat a b -koordinaatistossa 74 

Liite 7: Ryhmien keskustat xy -koordinaatistossa 76 

Liite 8: Spektrien sijoittuminen ryhmiin 78 

Liite 9: Ohjelmakoodi 80 

iii

1 Johdanto 

Väritutkimus on ajankohtainen ja monia eri tieteenaloja kiinnostava aihe. Väristä 

on tullut tärkeä tekijä mm. konenäkö-, hahmontunnistus- ja teollisen laaduntarkkailun 

sovelluksissa (Hauta-Kasari & al., 1998). Seuraavassa tarkastellaan lyhyesti 

mitä väri on ja mitä sisältyy hahmontunnistukseen. Lisäksi esitellään tarkemmin 

tutkielman sisältö. 

Valo on aaltomuotoista sähkömagneettista säteilyä, josta ihmisen silmä voi nähdä 

vain pienen osan. Sitä osaa valosta, jonka näemme, nimitämme väriksi. Valoa 

voidaan kuvailla aallonpituuksien mukaan käyttäen mittayksikkönä nanometriä 

(nm). Ihmisen havaitsemat aallonpituudet rajoittuvat välille 380nm – 780nm eli 

ns. näkyvän valon alueelle. Tämän alueen alapuolelle sijoittuu ultraviolettisäteily 

(UV) ja yläpuolelle infrapunasäteily (IR). Monet eläimet, kuten esimerkiksi mehiläiset, 

voivat nähdä UV -alueella. Jokaista väriä vastaa oma aallonpituutensa. 

Pisin aallonpituus on punaisella värillä ja lyhin violetilla värillä. 

Ihmisen värien havainnointi on hyvin subjektiivista eli näkijästä riippuvaa ja siksi 

värien havainnointi vaihtelee eri henkilöiden välillä suuresti. Ihminen aistii värin, 

kun valo heijastuu jostakin värillisestä kohteesta silmän verkkokalvolle. Aivot 

vastaanottavat verkkokalvolta lähteneen signaalin ja monimutkaisen käsittelyn jälkeen 

lopputuloksena on väriaistimus. Värin havaitseminen perustuu kolmeen tekijään: 

valoon, valoa heijastavaan värilliseen kohteeseen sekä silmään, joka vastaanottaa 

värin. 

Jokainen aine säteilee jatkuvan spektrin, jos sen lämpötila poikkeaa absoluuttisesta 

nollasta. Kappaleen tai pinnan väri määräytyy sen ominaisuudesta heijastaa tai 

lähettää tiettyjä aallonpituuksia. Esimerkiksi keltaiset pinnat näkyvät keltaisina, 

koska ne heijastavat suurimman osan niihin osuvista keltaisen valon aallonpituuksista 

(570nm – 580nm). Kappaletta, joka absorboi kaiken siihen tulevan säteilyn, 

kutsutaan mustaksi kappaleeksi. 

1

Hahmontunnistus tarkoittaa mittausten ja havaintojen tekemistä luonnollisista 

kohteista, tehtyjen mittausten automaattista analyysia sekä kohteiden tunnistusta 

analyysin perusteella (Hyvönen & al., 1993). Merkittävin ero hahmontunnistuksessa 

verrattuna muihin tekoälyyn liittyviin tekniikoihin on, että hahmontunnistusjärjestelmän 

on kyettävä analysoimaan ulkomaailmasta tulevia raakahavaintoja. 

Nämä havainnot eivät ole symbolisessa muodossa vaan ne ovat luonteeltaan 

vaihtelevia ja epämääräisiä kuten esimerkiksi kuvat ja äänet. 

Hahmontunnistusmenetelmät voidaan perinteisesti jakaa kahteen ryhmään (Hyvönen 

& al., 1993): tilastolliset menetelmät ja rakenteiset menetelmät. Mm. Schalkoff 

(1992) esittää näiden lisäksi neurolaskentaan perustuvan esitystavan. Tilastollinen 

hahmontunnistusmalli on yksinkertainen lähtökohta, johon muutkin hahmontunnistusmenetelmät 

perustuvat. Tilastollisessa hahmontunnistuksessa kohteesta 

on joukko mittauksia, jotka ajatellaan matemaattisesti moniulotteiseksi hahmovektoriksi. 

Tilastollista hahmontunnustusmallia sanotaan myös päätösteoreettiseksi. 

Rakenteisten hahmontunnistusmenetelmien tärkeä osaryhmä on syntaktiset 

menetelmät. Näissä hahmoa vastaava esitys ei ole hahmovektori kuten tilastollisessa 

hahmontunnistuksessa vaan esitysmuoto on esimerkiksi tietorakenne kuten 

merkkijono, puu tai graafi. 

Tässä tutkielmassa tarkastellaan värispektrien ryhmittelyä tilastollisilla hahmontunnistusmenetelmillä 

ja sovelletaan näitä menetelmiä käytännössä. Tarkoituksena 

on löytää menetelmä, joka ryhmittelee syötteenä annetun spektrijoukon tehokkaasti 

ja nopeasti haluttuun määrään ryhmiä, jonka jälkeen väriryhmien keskivektoreita 

voidaan käyttää värisuotimina optisissa sovelluksissa kuten värispektrikameroissa. 

Ryhmittelyn tuloksena käsiteltävä väritietokanta saadaan tiivistettyä 

muutamaan värisuotimeen, joiden yhdistämisellä alkuperäinen tietokanta voidaan 

esittää vain vähän tietoa hukaten. Tutkielma on jaettu kuuteen lukuun, joista tämä 

ensimmäinen luku on johdanto aiheeseen. 

Yleinen tapa värin esittämiseen on jokin kolmiulotteinen värikoordinaattimalli, 

joka perustuu ihmisen värinäköjärjestelmään. Tällaisia kolmiulotteisia värikoordinaattimalleja 

ovat mm. CIE xyY, CIELAB, CIELUV ja RGB mallit. CIE xyY- 

2

ja CIELAB -värikoordinaattimalleja tarkastellaan tarkemmin luvussa 2.1. Lisäksi 

luvussa 2.2 tarkastellaan kuinka spektreillä voidaan esittää värejä ja miten spektrejä 

mitataan. Värispektrien mittauksista saadaan tulokseksi värispektritietokantoja 

ja tässä tutkielmassa käytetyt värispektritietokannat esitellään luvussa 2.3. 

Luku 3 sisältää teoriaa pääkomponenttianalyysin lisäksi kolmesta käsiteltävästä 

hahmontunnistusmenetelmästä. Nämä menetelmät ovat: itseorganisoiva kartta, c- 

means sekä parittainen lähin naapuri. Luvussa 4 tarkastellaan teoriassa kolmea 

rekonstruointitapaa, joita on käytetty kokeellisessa osassa. Lisäksi tarkastellaan 

käsitteitä rekonstruointivirhe, keskimääräinen neliövirhe ja värivirhe (E L a b ). 

Luku 5 on tämän tutkielman kokeellinen osa. Luvussa 5.1 esitellään Matlabohjelmisto, 

jolla olen ohjelmoinut kokeellisessa osassa käytettävän Spektriohjelman. 

Spektri-ohjelman ohjelmakoodi löytyy liitteestä 9. Lisäksi luvussa 

5 tarkastellaan luvussa 3 esiteltyjen hahmontunnistusmenetelmien soveltamista 

käytäntöön ja esitellään tehdyistä kokeista saadut tulokset. Kokeellisen osan lopuksi 

luvussa 5.6 verrataan kokeellisessa osassa esiteltyjä tuloksia muihin vastaaviin 

tutkimuksiin. Lopuksi luvussa 6 on tämän tutkielman menetelmien ja tulosten 

pohdintaa. 

3

2 Värispektriesitys 

Ihmisen havaitsema väri on aivojen tuottama aistimus ja siksi väriä on vaikea määrittää 

(Kaiser & Boynton, 1996). Väri voidaan kuitenkin määritellä silmään tulevan 

valon ominaisuutena, eli fysikaalisesti mitattavana värispektrinä: 

s() =[s( 1 )s( 2 ):::s( n )] T (1) 

missä on aallonpituus ja T merkitsee transpoosia. Kaavassa 1 n on mitattujen 

aallonpituuksien lukumäärä. Jos värispektri on mitattu näkyvän valon alueella 

(400nm – 700nm) 10nm välein, niin silloin n = 31, eli spektrissä on 31 komponenttia. 

Värispektrejä ja niiden mittaamista käsitellään tarkemmin luvussa 2.2 

2.1 Kolmiulotteinen väriesitys 

Kolmiulotteiset värinäkömallit perustuvat ihmisen värinäköjärjestelmään, jossa 

on kolmentyyppisiä fotoreseptoreita (Kaiser & Boynton, 1996). Siksi kolmiulotteiset 

värinäkömallit ovat hallinneet väritutkimusta ja sovelluksia. Väri esitetään 

yleensä kolmella parametrilla ja useimmat julkaistut värikoordinaatistot ovat 

muunnelmia tunnetuista CIE:n (Commission Internationale de l’ Eclairage) XYZvärikoordinaateista 

(Wyszecki & Stiles, 1982): 

Z 

X = k 

s()x()E()d 

Z 

Y = k 

s()y()E()d (2) 

Z 

Z = k 

s()z()E()d 

4

missä s() on värispektri, x(), y() ja z() ovat ihmissilmän herkkyysfunktiot, 

E() on valaistusspektri ja k on normeeraustekijä. Normeeraustekijä k valitaan 

seuraavasti (Wyszecki & Stiles, 1982) 

k = 

100 

R E()y()d 

: (3) 

Seuraavaksi esitellään CIE 1931 xy ja CIELAB värikoordinaatistoesitykset. 

CIE 1931 (x, y, z): CIE 1931 (x, y, z) kromaattisuuskoordinaatit voidaan määrittää 

seuraavasti tristimulus arvojen (X, Y, Z) avulla (Wyszecki & Stiles, 1982) 

x = 

X 

X + Y + Z 

y = 

Y 

X + Y + Z 

(4) 

z = 

Z 

X + Y + Z : 

CIE 1931 xy -kromaattisuusdiagrammi esittää x- ja y-koordinaattien kaksiulotteisen 

väriavaruuden. Tässä mallissa on haittana se, että visuaaliset värierot eivät ole 

yhtenäisiä diagrammin joka osassa (Hauta-Kasari, 1999). 

CIELAB: CIELAB on värikoordinaatisto, jota kutsutaan myös nimellä CIE 

1976 L a b . CIE on määrittänyt CIELAB värikoordinaatiston CIE 1931 xy - 

koordinaatiston kaltaisten värierojen erilaisuuden välttämiseksi. CIE 1976 L a b 

värikoordinaatit määritellään seuraavasti (Wyszecki & Stiles, 1982) 

Kirkkausmuuttuja L : 

Kromaattisuuskoordinaatit a ja b : 

L =116( Y Y n 

) 1 3 ; 16 (5) 

a =500[( X X n 

) 1 3 ; ( 

Y 

Y n 

) 1 3 ] (6) 

5

= 200[( Y Y n 

) 1 3 ; ( 

Z 

Z n 

) 1 3 ] (7) 

missä X n , Y n , Z n ovat referenssivalkoisen X-, Y -jaZ -koordinaatit. Värikoordinaatit 

ovat kaavoissa 5, 6 ja 7 pätevät, jos suhteet X X n 

, Y Y n 

ja Z Z n 

ovat arvoa 0.008856 

suuremmat. Jos Y Y n 

on yhtäsuuri tai pienempi kuin 0.008856, silloin L määritellään 

seuraavasti (Wyszecki & Stiles, 1982) 

L =903:3( Y Y n 

) (8) 

jos mikään suhteista X Y 

X n 

, 

Y n 

tai Z Z n 

, on yhtäsuuri tai pienempi kuin 0.008856, silloin 

se korvataan a :ssä ja b :ssä seuraavasti 

missä F on X X n 

, Y Y n 

tai Z Z n 

. 

7:787F + 16 

116 (9) 

Kolmiulotteisiin värikoordinaatistoihin perustuva värianalyysi on laskennallisesti 

tehokas ja väriesityksen tarkkuus on riittävä monille sovelluksille (Hauta-Kasari, 

1999). Näissä kolmiulotteisissa värimalleissa on kuitenkin muutamia rajoituksia. 

Metamerismi on ongelma, joka voi vaivata kolmiulotteisia värikoordinaatistoja 

(Drew & Funt, 1992). Metamerismi tarkoittaa sitä, että kaksi kohdetta näyttävät 

samanvärisiltä yhdessä valaistuksessa, mutta eriväriseltä toisessa valaistuksessa. 

Värikoordinaatistot, joissa käytetään kolmea parametriä ovat herkkiä myös kohinalle 

(Parkkinen & Jaaskelainen, 1987). Spektriin perustuva väriesitys välttää 

metamerismin ja spektrit voidaan mitata myös näkyvän valon ulkopuolisella aallonpituusalueella 

eli ultravioletti- tai infrapuna-alueella. 

6

2.2 Värispektrit ja niiden mittaaminen 

Ihmisen näkemä objektin väri on aivojen tuottama aistimus, jota ei voida suoraan 

mitata. Väriaistimuksen aiheuttaja eli elektromagneettinen spektri on kuitenkin 

fysikaalisesti mitattavissa (Wyszecki & Stiles, 1982). Objektin väri on elektromagneettista 

säteilyä 380 – 780nm:n alueella eli ns. näkyvällä aallonpituudella. 

Usein kuitenkin käytetään 400 – 700nm:n aallonpituusaluetta edellä mainitun sijasta. 

Esimerkiksi spektri, josta on otettu näytteitä 2nm:n välein alueella 400nm – 

700nm, voidaan määrittää vektorina 151-ulotteisessa avaruudessa kaavan 1 mukaisesti 

(Hauta-Kasari, 1999). Kuvassa 1 esitellään spektrit neljälle värille: sininen, 

punainen, valkoinen ja musta. 

1 

Sinisen värin spektri 

1 

Punaisen värin spektri 

0.8 

0.8 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

0.2 

0.2 

0 

400 500 600 700 

Aallonpituus (nm) 

0 

400 500 600 700 


1 

Valkoisen värin spektri 

1 

Mustan värin spektri 

0.8 

0.8 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

0.2 

0.2 

0 

400 500 600 700 


0 

400 500 600 700 


Kuva 1: Sinisen, punaisen, valkoisen ja mustan värin spektrit. 

7

Värien mittauslaitteistot voidaan jakaa kolmeen perusryhmään: kolmisuotimiset 

värimittarit, monisuotimiset värimittarit ja spektrivärimittarit (Parkkinen & Jaaskelainen, 

1987). Kolmisuotimiset värimittarit eli kolorimetrit perustuvat värifunktioita 

vastaavien suotimien käyttöön. Tämän tyyppiset värimittarit ovat nopeita 

toiminnoiltaan ja helposti rakennettavia. Tyypillinen monisuotiminen värimittari 

sisältää joukon kapeakaistaisia suotimia, joiden avulla voidaan mitata koko 

spektri. Spektrivärimittarit perustuvat usein hilan tai prisman käyttöön. Skannaavia 

spektrivärimittareita ovat mm. monokromaattoria käyttävät mittarit. Spektrivärimittareita 

kutsutaan yleisesti nimillä spektrofotometri ja spektroradiometri. 

Täyden spektritiedon mittaavia kuvantamislaitteita on mm. CCD -kamera, johon 

on yhdistetty kapeakaistaisia interferenssisuotimia. Kapeakaistaiset interferenssisuotimet 

laitetaan yleensä CCD -kameran eteen olevaan pyörään. Käytettävien 

interferenssisuotimien lukumäärä on yleensä enemmän kuin 30 (Baronti & al., 

1999). Lisäksi täyden spektritiedon mittaavia kuvantamislaitteita ovat säädettävät 

nestekidesuotimet (LCTF) (Hauta-Kasari & al., 1999) ja prisma-hila-prisma 

komponenttiin perustuva viivakamera (Miyazawa & al., 2001). LCTF perustuu 

spektrin skannaukseen ja viivakamera spatiaalitason skannaukseen. 

Viime aikoina useiden tutkimusryhmien mielenkiinnon kohteena ovat olleet värispektrikamerat, 

jotka käyttävät useampaa kuin kolmea, mutta vähempää kuin 

kymmentä värisuodinta spektritiedon tallentamiseen. Näissä menetelmissä spektrikuva 

voidaan rekonstruoida laskennallisesti. Seuraavassa esitellään tähän liittyviä 

menetelmiä. 

Matalaulotteiset värisuotimet on aikaisemmin tuotettu valitsemalla optimaalinen 

joukko kaupallisista kapeakaistaisista suotimista (Vora & Trussell, 1997a). Kaupallisten 

värisuotimien käyttö on käytännöllistä ja järkevää, jos niiden käytöllä 

saavutetaan riittävän korkea tarkkuus spektrien estimoinnissa (Haneishi & al., 

2000). Haneishi & al. (2000) mukaan parempi estimointitarkkuus saavutetaan 

kaupallisiin värisuotimiin verrattuna, jos suotimet suunnitellaan joustavammin. 

Lisäksi optimaalisesti suunnitellut suotimet ovat sopivampia estimoinnissa käytettäväksi 

kuin kaupalliset suotimet. Kirjallisuudessa testatut kaupalliset suotimet 

8

olivat Fuji Photo filmin suotimia. Haneishi & al. (2000) vertailivat näiden suotimien 

paremmuutta värieron (E u v) avulla. Värieroa käsitellään tarkemmin luvussa 

4.3. Muita kaupallisia värisuotimia, joita on käytetty spektrikameroissa ovat 

mm. Kodak Wratten gelatiinisuotimet, joista on valittu optimaalinen joukko suotimia 

(Tominaga, 1996). 

Matemaattisesti kehitettyjä suotimen optimointeja ovat esittäneet mm. Vrhel & 

Trussell (1994 ja 1995), Vrhel & al. (1995), Vora & Trussell (1993, 1997a ja 

1997b), Sharma & al. (1998), Lenz & al. (1996) sekä Hauta-Kasari & al. (1998). 

Vrhel & Trussell (1995) ovat esittäneet menetelmän värisuotimien määrittämiseen 

käyttämällä värinäytteiden joukkoa ja useita valaistuksia. He ovat myös pohtineet 

niiden tarkkuutta kohinaolosuhteissa. Optimaalisten suotimien suunnitteluun käytettävien 

menetelmien haittana ovat usein niiden optisessa tuottamisessa syntyvät 

kustannukset ja vaikeudet (Hardeberg, 1999). 

Suurempi määrä suotimia ei aina välttämättä paranna estimoinnin tarkkuutta (Vrhel 

& Trussell, 1995). Sharma & al. (1998) modifioivat menetelmää, jonka olivat 

kehittäneet Vrhel & Trussell (1992). Kokeet osoittivat, että neljän suotimen käyttäminen 

kolmen suotimen sijasta tarjoaa huomattavimman parannuksen. Lisäksi 

Hauta-Kasari & al. (1999) ovat tutkineet kokeellisesti, että estimointivirhe saattoi 

nousta huomattavasti käytettäessä useampaa kuin neljää suodinta, jos laskennallinen 

rekonstruointimenetelmä on herkkä kohinalle. Spektritietokantoja varten 

suotimet on suunniteltu mm. optimointimenetelmillä (Lenz & al., 1996) ja ryhmittelymenetelmillä 

(Hauta-Kasari & al., 1998). Tässä tutkielmassa tarkastellaan 

ryhmittelyyn perustuvaa värisuotimien suunnittelua. Tutkielmassa saatuja tuloksia 

on myös julkaistu kansainvälisessä konferenssissa (Hauta-Kasari & Karttunen, 

2002). 

9

2.3 Tutkielmassa käytetyt värispektritietokannat 

Tämän tutkielman kokeellisessa osassa on käytetty kahta värispektritietokantaa, 

jotka esitellään tarkemmin tässä luvussa. Nämä tietokannat ovat nimeltään Munsell 

ja Macbeth. On olemassa monia muitakin värispektritietokantoja kuten esimerkiksi 

erilaista luonnollisista kohteista kootut värispektritietokannat, joita ovat 

käyttäneet mm. Jaaskelainen & al. (1990). Käytetty natural-värispektritietokanta 

koostui 218:sta luonnollisesta värinäytteestä. Värispektritietokantoja on saatavilla 

Joensuun yliopiston väritutkimusryhmän WWW -sivulla http://cs.joensuu.fi/ 

spectral/. 

Munsell: Munsell on järjestelmä, jossa on joukko standardinäytesarjoja, joita voidaan 

käyttää värien visuaaliseen vertailuun. Näytteitä tulisi tarkastella keskimääräisessä 

päivänvalossa ja valaisun tulokulman tulisi olla noin 45 astetta. Taustan 

tulisi olla neutraalin harmaa. Munsell järjestelmässä väri määritellään kolmella 

parametrilla: sävy (Hue), kylläisyys (Chroma) ja kirkkaus (Value). Kirkkausasteikolla 

musta on 0 ja valkoinen 10. Kylläisyysasteikko on määritelty välillä 0 – 

10, kahden välein (2, 4, 6, 8, 10). Värisävyt kiertävät vakiokirkkaustasolla täyden 

ympyrän. Värisävyasteikko on 100 portainen. Se koostuu kymmenestä segmentistä, 

joissa kussakin on kymmenen sävyä. Liitteessä 1 on Matlab-ohjelmistolla 

simuloitu esimerkki yhdestä Munsell-värikirjan (Munsell Book of Color) sivusta 

(Munsell, 1976). 

Kokeellisessa osassa käytetty Munsell-tietokanta koostuu 1269:stä värispektristä, 

jotka ovat mitattu spektrofotometrillä Munsell-värikirjasta. Spektrit on mitattu 

yhden nanometrin välein 380 – 800nm:n aallonpituusalueelta. Kokeellista osaa 

varten tietokantaa muutettiin Matlab-ohjelmalla siten, että tietokannan jokainen 

spektri koostuu 151:stä näytteestä 400 – 700nm:n aallonpituusalueella. Muuttaminen 

tapahtui siten, että tietokannasta valittiin arvoja kahden nanometrin välein 

400nm – 700nm välillä. 

Macbeth: Macbeth-tietokanta koostuu 24:stä värispektristä, jotka on mitattu 

Macbeth-väritaulusta, jossa on 24 väriä (McCamy, 1976). Monet näistä väreis- 

10

tä kuvaavat luonnollisia värejä kuten ihmisen ihoa ja sinistä taivasta. Lisäksi 

väritaulu sisältää värisävyt valkoisesta mustaan siten, että harmaan värisävyjä 

on valkoisen ja mustan välillä neljä kappaletta. Liitteessä 2 on värikuva 

Macbeth-väritaulusta. Kokeellista osaa varten Macbeth-tietokantaa muutettiin kuten 

em. Munsell-tietokannan kohdalla. Macbeth-tietokannan spektrit sisältävät 

myös 151 näytettä 400 – 700nm:n aallonpituusalueella. 

11

3 Teoriaa värispektrien ryhmittelymenetelmistä 

Tässä luvussa käsitellään värispektrien ryhmittelyyn käytettävien hahmontunnistusmenetelmien 

teoriaa ja luvussa 5 esitellään puolestaan näiden menetelmien soveltamisesta 

saadut kokeelliset tulokset. Ryhmittelyn tarkoitus on vähentää tiedon 

määrää, ryhmittelemällä tai luokittelemalla samanlainen tieto yhteen. Ryhmittelyn 

tuloksena käsiteltävä väritietokanta saadaan tiivistettyä muutamaan värisuotimeen. 

Näitä tuloksena saatuja värisuotimia yhdistelemällä saadaan alkuperäinen 

väritietokanta esitettyä menettämällä vain vähän alkuperäisestä informaatiosta. 

3.1 Pääkomponenttianalyysi (PCA) 

Pääkomponenttianalyysi (PCA) on yksi keskeisimmistä hahmontunnistuksen menetelmistä 

(Koikkalainen, 2002). Yksinkertainen tapa kantavektorijoukon määrittämiseksi 

värispektreille on PCA:n käyttäminen (Jaaskelainen & al., 1990). Pääkomponenttianalyysin 

tärkein tehtävä on selvittää se informaation osa tutkittavasta 

kohteesta, joka on olennaista ja tärkeää. 

Seuraavana kuvataan pääkomponenttianalyysin periaate Koikkalaisen (2002) mukaan. 

Tutkittavassa kohteessa olevien muuttujien x 1 x 2 :::x n sisältämä tieto on 

esitettävä pienemmällä määrällä (m < n) muuttujia y 1 y 2 :::y m . Tarkoituksena 

on löytää muuttujat y j , (j = 1 2:::m) siten, että muuttujat y j sisältävät 

mahdollisimman suuren määrään informaatiota siitä määrästä mitä alkuperäiset 

muuttujat x i , (i = 1 2:::n) sisältävät, vaikka (m < n). Tämän luvun lopussa 

käsitellään tarkemmin käsitettä informaatiosisältö, jolla määritetään kuinka paljon 

informaatiota muuttujajoukko y 1 y 2 :::y m sisältää joukosta x 1 x 2 :::x n . 

Perusidea pääkomponenttien määräämisessä on se, että mahdollisimman vähän 

informaatiota menetetään toimenpiteen aikana. 

Pääkomponentit järjestetään ominaisarvojen mukaan suurimmasta (merkitsevin) 

pienimpään (vähiten merkitsevä) siten, että j 1 j j 2 j ::: j n j. Suurinta 

12

komponenttia edustaa 1 ja pienintä n . Suurin komponentti sisältää muita enemmän 

tietoa ja pienin komponentti vähiten. Pääkomponenttianalyysissä valitaan m 

kappaletta (m

Aliavaruusmenetelmässä käytetään korrelaatiomatriisia R (Parkkinen & al., 1989) 

R = 

NX 

i=1 

s i ()s i () T (11) 

missä indeksi i viittaa spektriin i, mitattujen spektrien indeksijoukossa N. Korrelaatiomatriisin 

ensimmäiset m ominaisvektoria, joilla on suurimmat ominaisarvot, 

ovat pääkomponenttivektoreita ja muodostavat kannan aliavaruudelle. 

Aliavaruusmenetelmän muodostama kantavektorijoukko on ortogonaalinen ja värispektreille 

se sisältää yleensä myös negatiivisia arvoja (Hauta-Kasari & al., 

1998). Ominaisvektoreiden ortogonaalisuudesta johtuen aliavaruusmenetelmällä 

tuotettuja suotimia ei voida käyttää suoraan optisessa hahmontunnistuksessa. 

Ominaisvektoreiden negatiiviset komponentit eivät välttämättä ole ongelma, koska 

v:n ollessa R:n ominaisvektori myös ;v on ominaisvektori. On mahdollista jakaa 

nämä vektorit positiivisiin ja negatiivisiin osiin ja käsitellä näitä osia erikseen 

(Jaaskelainen & al., 1992). Tämä kuitenkin johtaa monimutkaisiin järjestelmiin 

suotimien optisessa toteutuksessa (Hauta-Kasari & al., 1998). 

Informaatiosisältö: Informaatiosisältö on aliavaruuden kannaksi valitun ominaisvektorijoukon 

(m kpl) ominaisarvojen summa suhteessa kaikkien näytteeseen 

kuuluvien ominaisvektoreiden ominaisarvojen (n kpl) summaan. Se kuinka monta 

ominaisvektoria valittu kanta sisältää riippuu halutusta informaatiosisältöarvosta. 

Informaatiosisältö k on siis (Hauta-Kasari & al., 1998) 

k = 

P m i=1 i 

P n (12) 

i=1 i 

missä k on suurimpien ominaisarvojen (m kpl) summan ja kaikkien ominaisarvojen 

(n kpl) summan välinen suhde. Parkkisen et. al (1989) mukaan4–8kantavektoria 

riittävät tarkkaan värispektrien rekonstruointiin. Rekonstruointia käsitellään 

tarkemmin luvussa 4. 

14

3.2 Itseorganisoiva kartta (SOM) 

Itseorganisoiva kartta (SOM) perustuu ohjaamattomaan oppimiseen (Kohonen, 

1997). Tässä tutkielmassa käsitellään yksiulotteista itseorganisoivaa karttaa, jota 

sovelletaan spektridatan ryhmittelyyn kokeellisen osan luvussa 5.3. Itseorganisoivassa 

prosessissa signaalit järjestäytyvät topologiseen järjestykseen (Kohonen, 

1982). 

SOM -menetelmän perusperiaate on seuraavanlainen. Ensiksi syötedata normeerataan 

ja kartta alustetaan (Kohonen, 1997). Alustuksen voi suorittaa satunnaisella 

alustuksella. Tämä ei kuitenkaan tarkoita, että satunnainen alustus olisi paras tai 

nopein tapa suorittaa alustus. Muita tapoja alustukseen ovat mm. näytteisiin perustuva 

alustus ja lineaarinen alustus. Alustukseen käytettävä tapa ei ole kuitenkaan 

tärkeä kartan järjestäytymisen kannalta (Fränti, 1999). 

Jokaisella kierroksella ohjaamattomassa oppimisessa valitaan voittajaneuroniksi 

painovektori m c , jolla on lyhin euklidinen etäisyys satunnaisesti valittuun syötevektoriin 

x (Kohonen, 1990) 

kx ; m c k = min i fkx ; m i kg (13) 

missä i on painovektoreiden indeksi. Voittajaa m c kutsutaan myös nimellä yhteensopivin 

vektori (BMU). 

Painovektorien päivitys, mukaan lukien voittajaneuroni m c ja sen topologinen 

naapurusto N c määritellään seuraavasti (Kohonen, 1990) 

( 

mi (t)+(t)[x(t) ; m i (t)] jos i 2 N c (t) 

m i (t +1)= 

m i (t) 

muutoin, 

(14) 

missä t on iteraatioparametri ja (t) on opetuskerroin. Opetusvaiheessa opetusvektorit 

ovat syötteenä verkolle, yksi kerrallaan satunnaisesti. Jokaiselle syötevektorille 

löydetään sille lähin painovektori, eli neuroni. 

15

Painokerrointen päivityksen vaikutus (Kaava 14) on sellainen, että lähin neuroni 

ja sen naapurineuronit muokataan siirtämällä niitä kohti syötevektoria. 

Opetuskerroin (t) riippuu ajasta eli kuluneista kierroksista t. Se pienenee suhteessa 

aikaan ja on välillä 0 (t) 1. Kaksi yleisesti käytettyä opetuskertoimen 

muotoa ovat lineaarinen funktio ja käänteisesti aikaan verrannollinen funktio. 

Jälkimmäinen esitetään kaavalla 

(t) = 

A 

t + B (15) 

missä A ja B ovat sopivasti valittuja vakioita. Tämän tutkielman kokeellisessa 

osassa käytetään SOM -menetelmässä ns. Power Series -opetuskerrointa. Power 

Series määritellään seuraavasti (Kohonen, 2002) 

a 0 = (a T ) t T 

a 0 

(16) 

missä a 0 on opetuskerroin, a T on lopullinen opetuskerroin, t on aika ja T on opetuksen 

kesto. Opetuskerroin laskee ja myös naapuruston N c koko laskee opetuksen 

aikana. Periaatteessa kaikki monotonisesti laskevat funktiot ovat käytännöllisiä 

(Kohonen, 1997). Naapuruston koko D määrittää kuinka monta naapuruston 

neuronia päivitetään. Viimeisellä kierroksella vain voittajaneuroni päivitetään 

(D = 0). Suurta naapuruston kokoa käytetään yleensä vain opetuksen alussa. 

Menetelmää, jossa päivitetään vain voittajaneuronia kutsutaan Winner Take All 

(WTA) -menetelmäksi (Kohonen, 1993a). 

Opetus toteutetaan yleensä kahdessa vaiheessa. Ensimmäisessä vaiheessa opetuskerroin 

ja naapuruston koko ovat suhteellisen suuria. Toisessa vaiheessa molemmat 

ovat pieniä alusta alkaen. Toisen vaiheen pituus on 4 kertaa ensimmäisen vaiheen 

pituus. Seuraava algoritmi esittää itseorganisoivan oppimisen askeleet (Kohonen, 

1997) 

16

Algoritmi 1: Itseorganisoiva kartta 

begin 

e = kierrosten lukumäärä 

l = neuronien lukumäärä 

normeerataan syötedata 

alustetaan itseorganisoivan kartan painovektorit m 1 :::m l 

for t=1toe do 

otetaan satunnaisesti vektori x syötedatasta 

etsitään BMU m c vektorille x (Kaava 13) 

päivitetään painot m c :lle ja sen naapurustolle N c (Kaava 14) 

lasketaan opetuskerrointa ja naapuruston N c kokoa 

endfor 

end 

Tuloksena itseorganisoivasta prosessista on kartta, jossa painovektorit m ovat järjestäytyneet 

kohti syötedatassa olevien ryhmien keskustoja. 

Parametrien asetus: SOM -algoritmi sisältää monia asetettavia parametrejä: kierrosten 

lukumäärä e, naapuruston koko D max sekä opetuskerroin . Ei ole helppoa 

löytää optimaalisia asetuksia, koska parametrit riippuvat toinen toisistaan ja syötedatasta. 

Kierrosten lukumäärä e on helpoin asettaa (Kohonen, 1997). Sen pitäisi olla niin 

korkea, kuin aikaa voidaan käyttää. Minimimääränä voidaan pitää 100 - 1000 kierrosta. 

On huomattava, että e:n valinta vaikuttaa muiden parametrien valintaan. 

Alustavan naapuruston koko D max , pitäisi olla välillä 1;M, missä M on ryhmien 

lukumäärä (Kohonen, 1997). Mieluummin koon pitäisi olla lähempänä arvoa 1 

kuin M:ää, koska hyvin suurella naapurustolla neuronien liikkumisvapaus alenee 

liikaa. Toisaalta, jos D = 0, hävittää se naapuruston vaikutuksen kokonaan ja 

algoritmi on tällöin yksinkertainen kilpaileva oppiminen. 

17

Opetuskertoimeksi voidaan asettaa aluksi =1, koska opetuskerroin voi vaihdella 

välillä (1.0 - 0.0). Opetuskerroin on opetuksen alussa suuri eli yleensä lähellä 

arvoa 1. Opetuskerroin laskee opetuksen aikana opetuskerroinfunktion mukaisesti 

kohti arvoa 0. Jos käytössä on esimerkiksi lineaarinen opetuskerroin, niin opetuskertoimen 

arvo laskee lineaarisesti suhteessa opetuksen kestoon eli kierrosten 

lukumäärään (Kohonen, 1997). 

Kuitenkin opetuskertoimen arvot lähellä arvoa 1 ovat lähinnä merkityksettömiä, 

koska tällöin opetuskertoimella on käytännössä satunnainen vaikutus ratkaisuun 

(Fränti, 1999). Lisäksi opetuskertoimen arvon tulisi olla lopuksi lähellä arvoa 0, 

jotta kartan lopullinen hienosäätö voisi tapahtua. 

SOM -algoritmista on olemassa muitakin versioita, kuin tässä luvussa esitelty. 

SOM -algoritmista tunnetaan myös versiot nimeltä eräajokartta-algoritmi (Kohonen, 

1993b ja 1998) ja puurakenteinen SOM, TS-SOM (Koikkalainen, 1994). 

3.3 C-means 

C-means -algoritmi on menetelmä, joka on keksitty useampaan otteeseen. Tästä 

johtuen c-means -algoritmi tunnetaan usealla eri nimellä, kuten esimerkiksi k- 

means (McQueen, 1967) ja ISODATA (Theodoridis & Koutroumbas, 1998). Informaatioteorian 

puolella k-means tunnetaan yleistettynä Lloyd -algoritmina (GLA) 

tai Linde-Buzo-Gray (LBG) -algoritmina (Linde & al., 1980). 

C-means -algoritmista tunnetaan myös versiot nimeltään kova c-means (HCM) 

sekä sumea c-means (FCM). Sumea c-means eroaa kovasta c-meansistä siinä, että 

kukin datapiste voi kuulua useampaan ryhmään tietyllä jäsenyysfunktiolla (Delport 

& Liesch, 1994). C-means -algoritmi on laajalti tunnettu menetelmä, joka 

kuuluu ohjaamattoman oppimisen algoritmeihin. 

C-means -algoritmin suoritus alkaa alustavalla ratkaisulla, jota parannetaan iteratiivisesti, 

kunnes paikallinen minimi on saavutettu (Schalkoff, 1992). Algoritmin 

18

alussa määritellään ne vektorit, jotka ovat ryhmien tunnuksia. Tunnukset määritellään 

siten, että haluttu ryhmien lukumäärä on sama kuin annettujen tunnuksien 

lukumäärä. 

Ensimmäisessä askeleessa käsiteltävät vektorit jaetaan haluttuun määrään ryhmiä. 

Jokainen piirrevektori sijoitetaan siihen ryhmään, johon sen etäisyys on pienin, 

sen perusteella minkä ryhmän keskuspiste on lähimpänä (Schalkoff, 1992). Etäisyyden 

laskemiseen käytetään yleensä Minkowskin etäisyyksiä (Jain & Dubes, 

1988): 

d(i k) =[ 

nX 

j=1 

(x ij ; x kj ) r ] 1 r 

(17) 

missä x i on tunnusvektori, x k on piirrevektori, r 1 ja n on vektorissa olevien 

komponenttien lukumäärä. Minskowskin etäisyyksien yleisimmät muodot 

ovat r:n arvoilla 1 2 ja 1. Kunr =2, saadaan Euklidinen etäisyys kaavasta 

d(i k) =[ 

nX 

j=1 

(x ij ; x kj ) 2 ] 1 2 : (18) 

C-means algoritmi on seuraava: 

Algoritmi 2: C-means 

begin 

l = ryhmien lukumäärä 

Aseta ryhmien C 1 :::C l tunnusvektorit satunnaisesti 

TOISTA KUNNES ryhmien tunnusvektorit eivät muutu 

end 

TOISTA jokaiselle piirrevektorille x k 

Laske etäisyydet d tunnusvektoreihin 

Siirrä piirrevektori x k siihen ryhmään C i , johon sen etäisyys d on pienin 

Aseta ryhmien C 1 :::C l vektorit ryhmien uusiksi tunnusvektoreiksi 

19

Ennen ensimmäistä kierrosta valitaan ryhmien lukumäärä ja ryhmien tunnusvektorit. 

Huomattavaa on, että nämä valittavat ryhmien tunnusvektorit ovat täysin satunnaisia 

arvauksia. Ensimmäisen kierroksen jälkeen jokainen piirrevektori kuuluu 

yhteen ryhmään. 

Tämän jälkeen kaikista yhteen ryhmään kuuluvista piirrevektoreista lasketaan keskiarvo 

ja tämä arvo asetetaan ryhmän uudeksi tunnusvektoriksi. Piirrevektoreiden 

etäisyydet uusiin tunnusvektoreihin lasketaan seuraavaksi, jonka jälkeen ne sijoitetaan 

etäisyyksien perusteella uudestaan ryhmiin. Tätä toistetaan, kunnes ryhmien 

keskiarvot eivät enää muutu. 

Uusi ratkaisu on aina parempi tai vähintään yhtähyvä kuin edellinen. Algoritmia 

käydään läpi niin pitkään kuin edistystä saavutetaan. Kierrosten lukumäärä 

riippuu datajoukosta ja alustavan ratkaisun laadusta. Yleensä tarvitaan 10 – 50 

kierrosta hyvään tulokseen pääsemiseksi, kun aloitetaan satunnaisesta alustuksesta 

(Fränti, 1999). 

Pienillä syötejoukoilla c-means -algoritmin suorituksen aikana voi syntyä tyhjiä 

ryhmiä. Tyhjien ryhmien syntyminen voidaan korjata siten, että syötedatasta 

valitaan satunnaisesti uusi tunnusvektori tyhjän ryhmän tilalle. Etuna c-means - 

algoritmilla on se, että se on laskennallisesti yksinkertainen (Theodoridis & Koutroumbas, 

1998). Lisäksi c-means -algoritmi on varsin nopea, isoillakin syötejoukoilla. 

3.4 Parittainen lähin naapuri (PNN) 

Parittainen lähin naapuri (PNN) -algoritmi on esitelty tieteellisissä julkaisuissa 

vaihtoehtona LBG -algoritmille (Equitz, 1989). PNN -algoritmia voidaan pitää 

myös alustuksena LBG -algoritmille, jolloin Equitzin (1989) mukaan saadaan parempi 

tehokkuus kuin kumpikaan algoritmi voisi erikseen saavuttaa. Kokeellisen 

osan luvussa 5.4 esitellään tulokset kokeesta, jossa PNN -algoritmilla tuotettuja 

suotimia käytettiin c-means -algoritmin alustuksena. 

20

Seuraavissa kappaleissa käsitellään ensiksi Equitzin (1989) esittelemän PNN - 

algoritmin täydellisen haun ja nopean haun ryhmittelyt. Lisäksi tämän luvun lopussa 

käsitellään Fräntin & Kaukorannan (1999) esittelemä täsmällisen PNN - 

algoritmin nopea toteutus. Tämä PNN -algoritmi esitellään, jotta huomattaisiin, 

että on kehitetty nopeampia PNN -algoritmeja kuin Equitzin vuonna 1989 esittelemä. 

Kokeellisessa osassa toteutettu PNN -algoritmi perustuu kuitenkin Equitzin 

esittelemään PNN -algoritmiin. 

Täydellinen haku: Täydellisen haun PNN -algoritmin periaate on seuraavanlainen 

(Equitz, 1989). Algoritmi alkaa alustamalla jokainen opetusvektori omaksi 

ryhmäkseen. Näin ollen ryhmiä on alussa sama määrä kuin opetusvektoreitakin. 

Algoritmi toimii ns. alhaalta-ylös (bottom-up) periaatteella. Jokaisella kierroksella 

etsitään kaksi lähintä ryhmää S a ja S b , ja ne korvataan yhdellä ryhmällä. Etäisyys 

d kahden ryhmän välillä määritellään lisäyksenä koodikirjan vääristymään, 

jos ryhmät yhdistetään. Etäisyys d lasketaan neliöllisenä euklidisena etäisyytenä 

ryhmien keskustoista, painotettuna yhdistettävien ryhmien vektoreiden lukumäärällä 

n a ja n b (Kaukoranta & al., 1998): 

d(S a S b )= 

n an b 

n a + n b 

kC a ; C b k 2 : (19) 

Etäisyyden laskemisen jälkeen ryhmät S a ja S b yhdistetään. Yhdistetyn ryhmän 

S a+b koko on n a + n b . Yhdistetyn ryhmän uusi keskusvektori voidaan laskea ryhmän 

S a keskusvektorin C a ja ryhmän S b keskusvektorin C b keskiarvona seuraavasti 

(Kaukoranta & al., 1998) 

C a+b = n aC a + n b C b 

n a + n b 

: (20) 

On riittävää ylläpitää algoritmin suorituksen aikana vain ryhmien keskustoja C i ja 

ryhmien kokoja n i . Seuraavana esitellään PNN -algoritmi (Equitz, 1989). 

21

Algoritmi 3: Parittainen lähin naapuri 

begin 

l = haluttujen ryhmien lukumäärä 

Aseta jokainen opetusvektori omaksi ryhmäksi 

Ryhmien lukumäärä m = opetusvektoreiden lukumäärä 

TOISTA 

Etsi kaksi lähintä ryhmää S a ja S b yhdistämistä varten 

Yhdistä valitut ryhmät 

Laske yhdistetylle ryhmälle uusi keskusvektori kaavalla 20 

m = m ; 1 

KUNNES m = l 

end 

PNN -algoritmille on olemassa kaksi lopetuskriteeriä. Ensimmäinen tapa, jolla 

PNN -algoritmin suoritus loppuu on kun joukosta on saavutettu haluttu määrä 

ryhmiä. Vaihtoehtoisesti ryhmien yhteenliittämistä voidaan jatkaa, kunhan ryhmien 

keskustojen ero pysyy määritellyn kynnysarvon yläpuolella. Täydellisen 

haun PNN -algoritmin aikakompleksisuus on luokkaa O(N 3 ). 

Nopea haku: Nopean haun PNN -algoritmin aikakompleksisuus on luokkaa 

O(NlogN). Tämä algoritmi käyttää K-d puuta paikallistaakseen koodivektoreiden 

etsinnän ja se liittää yhteen useita vektoripareja yhtäaikaa (Fränti & Kaukoranta, 

1999). Tämä algoritmi ei ole saavuttanut samanlaista suosiota kuin tarkka 

täydellisen haun PNN -algoritmi, koska se on monimutkaisempi toteuttaa ja tulos 

ei ole optimaalinen. 

Täsmällisen PNN -algoritmin nopea toteutus: Täsmällisen haun PNN -algoritmi 

käyttää paikallista optimointia löytääkseen yhdistettävät koodivektorit. Täsmällisen 

PNN -algoritmin nopean toteutuksen aikakompleksisuus on luokkaa O(N 2 ). 

Periaate tässä algoritmissa on ylläpitää lähimpien naapureiden taulua ja välttää 

tarpeetonta etäisyyksien uudelleen laskemista. Tarvittavien päivitysten () määrä 

riippuu datan luonteesta ja opetusvektoreiden suuruudesta. Käytännössä Fräntin 

22

ja Kaukorannan (1999) mukaan numero () oli huomattavasti pienempi kuin (N) 

kaikissa opetusjoukoissa. Tämä algoritmi saa aikaan samat tulokset kuin täsmällinen 

PNN -algoritmi, mutta tarvitsee vain murto-osan siitä ajasta mitä alkuperäinen 

algoritmi. 

23

4 Värispektrien rekonstruointi ja virhemitat 

Luvussa 3 esitetyillä ryhmittelymenetelmillä syötedata saadaan jaettua haluttuun 

määrään ryhmiä. Näiden ryhmien keskustoilla alkuperäinen syötedata voidaan 

esittää uudelleen tietoa hukkaavalla tavalla. Tässä tutkielmassa ryhmien keskusvektoreita 

käytetään värispektritietokannoille suunniteltuina suotimina, joilla alkuperäinen 

tietokanta voidaan rekonstruoida vain vähän tietoa hukaten. 

Tässä tutkielmassa käytettyjä spektritietokantoja ovat edellä luvussa 2.3 esitellyt 

Munsell- ja Macbeth-tietokannat. Rekonstruoinnin avulla voidaan eri menetelmillä 

tuotettujen värisuotimien tarkkuutta vertailla toisiinsa (Hauta-Kasari & al., 

1998). Tässä luvussa esitellään kolme tapaa, joilla spektrit rekonstruoidaan tämän 

tutkielman kokeellisessa osassa. Lisäksi määritellään käsitteet: rekonstruointivirhe, 

keskimääräinen neliövirhe ja värivirhe E L a b . 

4.1 Spektrin rekonstruointi 

Kantavektorijoukon ollessa ortogonaalinen voidaan rekonstruoitu spektri s 0 

laskea 

seuraavan kaavan mukaan (Hauta-Kasari & al., 1998) 

s 0 = BB T s (21) 

missä B on spektrien korrelaatiomatriisista (Kaava 11) laskettu kantavektorijoukko, 

B T on transponoitu kantavektorijoukko ja s on alkuperäinen spektri. Spektrien 

rekonstruointi tehdään kantavektorijoukon B lineaaristen kombinaatioiden avulla. 

Kantavektorijoukon ollessa ei ortogonaalinen, lasketaan rekonstruointi käänteismatriisin 

avulla värispektritietokannoille (Hauta-Kasari & al., 1998). Tällaisessa 

tapauksessa voidaan rekonstruoitu spektri laskea kaavan 22 mukaan 

24

s 0 = W (W T W ) ;1 W T s (22) 

missä W on kantavektori-, eli suodinjoukko. Optisessa toteutuksessa sisätulot 

W T s saadaan kokeellisesti ja W (W T W ) ;1 laskennallisesti. Kaavan 22 menetelmää 

kutsutaan myös pseudoinverssimenetelmäksi. 

4.2 Wiener estimointi 

Tsumura et. al (1999) ovat tutkineet Wiener estimoinnin (Haneishi & al., 1997) 

käyttämistä spektrin rekonstruoinnissa. Menetelmä käyttää apriori-tietoa ja siinä 

spektrit rekonstruoidaan niiden näytteisiin perustuvan, useakaistaisen kuvantamissysteemin 

vasteista. Seuraavassa tarkastellaan Wiener estimoinnin teoriaa Tsumura 

& al. (1999) mukaan. 

Digitaalikameran vaste v i kohdassa (x y), käytettäessä m kappaletta värisuotimia, 

ilmaistaan seuraavasti 

v i (x y) = 

Z 

700 

t i ()E()S()r(x y )d i =1:::m (23) 

400 

missä t i () on värisuotimen läpäisevyys, E() on valaistuksen spektri, S() on 

kameran herkkyys ja r(x y ) on heijastusspektri kuvapisteessä (x y). Käyttämällä 

vektorimatriisinotaatiota kaava 23 voidaan esittää seuraavasti 

v = Fr (24) 

missä v on kameran vasteita esittävä pylväsvektori, jossa on m elementtiä. Kaavassa 

r on heijastusspektri pylväsvektoreina, joissa on l elementtiä. Yksinkertaisuuden 

vuoksi kaavasta on jätetty pois v:n ja r:n (x y). Nämä kaksi vektoria ovat 

yhteydessä lineaariseen matriisin F , jolla on m x l komponenttia. Tsumura et. 

25

al (1999) otaksuvat, että kohina on mitätön käytettäessä laajakaistaisia suotimia. 

Matriisille F pätee 

F = TES (25) 

missä T on 

T =[t 1 t 2 :::t m ] T : (26) 

Vektori t i on pylväsvektori, joka esittää suotimen läpäisyä ja [ ] T esittää transponointia. 

Matriisit E ja S ovat l x l diagonaalista matriisia, joka vastaa valaistuksen 

spektriä ja kameran herkkyyttä. 

Kaavasta 24 ratkaistaan Wiener estimoinnin avulla estimoitu heijastusspektri r est 

seuraavasti 

r est = Gv (27) 

missä arviointimatriisi G on määritelty alkuperäisten r:n ja estimoidun spektrin 

heijastuksen r est :n keskimääräisen neliövirheen e minimoimiseksi. 

e =< kr ; r est k 2 >! min (28) 

Tässä on keskiarvo. Arviointimatriisi G ilmaistaan täsmällisesti kaavalla 29 

seuraavasti 

G = R rv R ;1 

vv (29) 

26

missä R rv ja R vv ovat korrelaatiomatriiseja, jotka määritellään seuraavasti: 

R rv = (30) 

R vv = (31) 

Mm. Vhrel & Trussell (1992) ovat osoittaneet, että arvioinnin tarkkuus riippuu 

valittujen apriori värinäytteiden valinnasta. 

4.3 Virhemitat 

Rekonstruointivirhe alkuperäisen spektrin s ja rekonstruoidun spektrin s 0 

lasketaan seuraavasti (Hauta-Kasari & al., 1998) 

välillä 

virhe = 100 k ; s k s0 

(%) (32) 

k s k 

Keskimääräinen neliövirhe (MSE) määritellään kaavan 33 mukaan 

MSE = 1 n ks0 ; sk (33) 

Kaikkien syötedatan spektrien lukumäärä on n. 

Väriero kahden värin välillä L a b -värikoordinaatistossa voidaan laskea kaavan 

34 mukaan (Wyszecki & Stiles, 1982) 

E L a b = p L 2 +a 2 +b 2 (34) 

missä L , a ja b ovat kohteen alkuperäisen värin ja rekonstruoidun värin 

erot L , a ja b arvoissa. Ihmissilmä ei pysty havaitsemaan värieroja (E L a b ), 

27

jotka ovat pienempiä kuin 0.5 (E L a b < 0.5). Värikuville on myös kehitetty 

spatiaalinen laajennus, jota kutsutaan nimellä S-CIELAB (Zhang & Wandell, 

 

1996). Tässä värikoordinaatistossa laskettaessa E L a b-virheessä otetaan paremmin 

huomioon ihmissilmän spatiaalista värinäkökykyä. 

28

5 Kokeellinen osa 

Luvussa 3 esiteltiin teoriaa PCA-, SOM-, c-means- ja PNN -menetelmistä. Ensimmäisenä 

tässä luvussa esitellään Matlab-ohjelmisto, jolla kirjoitetuilla ohjelmilla 

tuotetut värisuotimet esitellään luvuissa 5.2 – 5.5. Optiseen hahmontunnistukseen 

sopivien värisuotimien tulisi sisältää vain positiivisia kertoimia ja niiden tulisi virittää 

väriavaruus niin tarkasti kuin mahdollista (Hauta-Kasari & al., 1998). Lisäksi 

värisuotimien tulisi erottua toinen toisistaan ja niiden muotojen tulisi olla 

sileitä. 

Olen tutkinut kuinka hyvin em. neljä hahmojentunnistusmenetelmää pystyvät 

tuottamaan nämä ehdot täyttävän vektorijoukon. Tämä tuotettu vektorijoukko on 

sama kuin väriryhmien keskustat väriavaruudessa. Näitä tuotettuja vektoreita voidaan 

käyttää mm. suotimina optisessa hahmontunnistuksessa ja spektrikameroissa. 

Kokeissa saavutetut tulokset esitellään tässä kokeellisessa osassa. Apunani 

olen käyttänyt aihepiiristä julkaistuja tieteellisiä julkaisuja. 

5.1 Matlab 

Matlab on PC- ja Unix -ympäristöissä toimiva matemaattinen, tekniseen laskemiseen 

suunniteltu ohjelma. Se pitää sisällään laskennan, visualisoinnin sekä ohjelmoinnin. 

Matlab toimii ympäristössä, missä ongelmat ja ratkaisut esitetään tutuilla 

matemaattisilla merkinnöillä. 

Matlab systeemi koostuu Matlab-kielestä, työskentely-ympäristöstä, grafiikan käsittelystä, 

matemaattisten funktioiden kirjastoista sekä sovellusten ohjelmointikäyttöliittymästä 

(Application Program Interface). Matlab-kieli on korkean tason 

matriisi/taulukko kieli, jolla kontrolloidaan mm. funktioita ja tietorakenteita. Matlabin 

grafiikkasysteemi sisältää komentoja kaksi- ja kolmiulotteisen tiedon visualisointiin, 

animointiin ja grafiikan esitykseen. Matlabin funktiokirjastot ovat suuri 

kokoelma algoritmeja perusfunktioista aina monimutkaisimpiin funktioihin. API 

29

on kirjasto, jonka avulla voidaan kirjoittaa C- ja Fortran-ohjelmia, jotka toimivat 

Matlabissa. 

Matlabissa on erilaisia työkaluja (toolboxes), jotka ovat laajoja numeerisia rutiineja, 

joita voidaan käyttää omiin sovelluksiin. Näitä työkaluja voidaan käyttää 

ongelmanratkaisun apuna monella eri aihealueella, kuten esimerkiksi signaaliprosessoinnissa 

ja neuraaliverkoissa. 

Luvussa 5.3 käytetään Matlabin 5.3 version neuraaliverkoille suunniteltuja 

työkaluja. Liitteessä 9 oleva ohjelmakoodi on kirjoitettu Matlabohjelmointiympäristössä. 

Kirjoittamani ohjelma toimii Unix- ja PC - 

ympäristöissä Matlabin versioilla 5.3 ja 6.0. 

5.2 PCA 

Tilastollisiin hahmontunnistusmenetelmiin kuuluva aliavaruusmenetelmä on läheistä 

sukua pääkomponenttianalyysille (Parkkinen & Jaaskelainen, 1987). Aliavaruusmenetelmällä 

tuotettuja suotimia ei voida käyttää suoraan optisessa hahmontunnistuksessa, 

koska sillä tuotetut ominaisvektorit ovat ortogonaalisia ja ne 

sisältävät usein negatiivisia kertoimia (Hauta-Kasari & al., 1998). Aliavaruusmenetelmällä 

tuotettuja suotimia voidaan kuitenkin käyttää kannan määrittämiseen, 

jolla voidaan määrittää spektridata tarkasti ja tässä työssä muiden menetelmien 

tuloksia verrataan aliavaruusmenetelmän tuloksiin. 

Seuraavaksi esitellään aliavaruusmenetelmällä saavutetut tulokset, jotka perustuvat 

Hauta-Kasarin et. al (1998) tekemään tutkimukseen. Tulokset eroavat siten, 

että tämän tutkielman kokeellisessa osassa käytettiin Munsell- ja Macbethtietokantoja 

joiden aallonpituusalue oli sama 400nm – 700nm, mutta näytteitä 

tällä aallonpituusalueella otettiin 2nm:n välein eli yhteensä 151 kappaletta (61:n 

näytteen sijaan). 2nm:n valintaan vaikutti se, että Macbeth-tietokanta oli mitattu 

2nm:n välein. Lisäksi edellä mainitussa julkaisussa oli käytetty vain Munselltietokantaa. 

Munsell- ja Macbeth-tietokannat esiteltiin tarkemmin luvussa 2.3. 

30

Korrelaatiomatriisin R ominaisvektorit lasketaan luvussa 3.1 esitetyn kaavan 11 

mukaan. Munsell-tietokannasta tuotetut kahdeksan ominaisvektoria esitellään kuvassa 

2. Kuvassa 3 esitellään vastaavasti Macbeth-tietokannasta tuotetut kahdeksan 

ominaisvektoria. 

0.2 

PCA: nro.1/8 

0.2 

PCA: nro.2/8 

0.2 

PCA: nro.5/8 

0.2 

PCA: nro.6/8 

0.1 

0.1 

0.1 

0.1 

0 

0 

0 

0 

−0.1 

−0.1 

−0.1 

−0.1 

−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


0.2 

PCA: nro.3/8 

0.2 

PCA: nro.4/8 

0.2 

PCA: nro.7/8 

0.2 

PCA: nro.8/8 

0.1 

0.1 

0.1 

0.1 

0 

0 

0 

0 

−0.1 

−0.1 

−0.1 

−0.1 

−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


a) b) 

Kuva 2: Aliavaruusmenetelmällä tuotetut ominaisvektorit Munsell-tietokannalle: 

a) nro. 1 – 4, b) nro. 5 –8. Huomioi spektrien järjestys. 

0.2 

PCA: nro.1/8 

0.2 

PCA: nro.2/8 

0.2 

PCA: nro.5/8 

0.2 

PCA: nro.6/8 

0.1 

0.1 

0.1 

0.1 

0 

0 

0 

0 

−0.1 

−0.1 

−0.1 

−0.1 

−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


0.2 

PCA: nro.3/8 

0.2 

PCA: nro.4/8 

0.2 

PCA: nro.7/8 

0.2 

PCA: nro.8/8 

0.1 

0.1 

0.1 

0.1 

0 

0 

0 

0 

−0.1 

−0.1 

−0.1 

−0.1 

−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


−0.2 

400 500 600 700 


a) b) 

Kuva 3: Aliavaruusmenetelmällä tuotetut ominaisvektorit Macbeth-tietokannalle: 

a) nro. 1 – 4, b) nro. 5 –8. Huomioi spektrien järjestys. 

Taulukossa 1 kuvataan informaatiosisällöt Munsell- ja Macbeth-tietokannoille. Informaatiosisältö 

lasketaan luvussa 3.1 esitetyn kaavan 12 mukaan. Informaatiosisältö 

kuvaa sitä, kuinka monta prosenttia kantavektorijoukkoon kuuluvien omi- 

31

naisvektorien ominaisarvot sisältävät kaikkien ominaisvektoreiden ominaisarvoista. 

Mitä useampi ominaisvektori otetaan mukaan kantavektorijoukkoon, sitä suurempi 

on informaatiosisällön arvo. 

Taulukosta 1 käy selville, kuinka ominaisvektoreiden määrä vaikuttaa informaatiosisällön 

arvoon. Parkkisen & al. (1989) mukaan 4 – 8 kantavektoria riittävät 

kuvaamaan Munsell-tietokannan tarkasti. Informaatiosisältö Munsell-tietokannan 

kahdeksalle ominaisvektorille on 99.98% Vastaavasti informaatiosisältö Macbethtietokannan 

kahdeksalle ensimmäiselle ominaisvektorille on 99.97%. Taulukon 1 

perusteella Macbeth-tietokannalle tarvitaan sama määrä ominaisvektoreita kuin 

Munsell-tietokannalle. 

Taulukko 1: Informaatiosisältö suhteessa ominaisvektoreiden lukumäärään. 

Lukumäärä Munsell (%) Macbeth (%) 

1 92.15 86.38 

2 97.49 95.65 

3 99.52 99.24 

4 99.77 99.70 

5 99.90 99.87 

6 99.94 99.93 

7 99.96 99.96 

8 99.98 99.97 

9 99.99 99.99 

10 99.99 99.99 

Virheanalyysiä varten Munsell- ja Macbeth-tietokannat täytyy ensin rekonstruoida 

käyttäen kuvissa 2 – 3 esitettyjä aliavaruusmenetelmällä tuotettuja suotimia. 

Koska nämä suotimet ovat ortogonaalisia täytyy rekonstruointiin käyttää luvussa 

4 esitettyä kaavaa 21. Kuvassa 4 on esitetty Munsell- ja Macbeth-tietokantojen rekonstruointivirheet, 

jotka on laskettu kaavalla 32. Kuvasta 4 käy selville kaikkien 

yksittäisten Munsell- ja Macbeth-tietokantojen spektrien rekonstruointivirheet. 

32

Virheprosentti 

Munsell rekonstruointivirheet (PCA) 

20 

15 

10 

5 

Heijastus 

Keskimääräinen rekonstruointivirhe: 887 

1 

keskiarvo: 1.9505% 

0.8 

0.6 

0.4 

0.2 


Macbeth rekonstruointivirheet (PCA) 

8 

6 

4 

2 

Heijastus 


1 


0.8 

0.6 

0.4 

0.2 

0 

0 500 1000 

Näyteindeksi 

Suurin rekonstruointivirhe:853 

1 

maksimi: 19.2861% 

0.8 

0 

400 500 600 700 


Pienin rekonstruointivirhe:1068 

1 

minimi: 0.39747% 

0.8 

0 

0 5 10 15 20 

Näyteindeksi 


1 

maksimi: 7.2226% 

0.8 

0 

400 500 600 700 



1 

minimi: 0.54636% 

0.8 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

0.2 

0.2 

0.2 

0.2 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 4: Rekonstruointivirheet kahdeksalla suotimella käyttäen aliavaruusmenetelmää: 

a) Munsell-tietokanta, b) Macbeth-tietokanta. 

Taulukossa 2 esitellään vastaavuudet väriluokittain Munsell-tietokannan värispektreihin. 

Suurin rekonstruointivirhe on spektrillä 853, joka kuuluu väriluokkaan 

sininen (B, Blue). Spektri 853 on esimerkki huonosti rekonstruoidusta spektristä. 

Tämän spektrin laskettu rekonstruointivirhe 19.29% on esitetty kuvassa 4 yhdessä 

spektrin 1068 kanssa, jolla on pienin laskettu rekonstruointivirhe eli 0.40%. 

Spektri 1068 kuuluu Munsellin väriluokkaan purppura (Purple) ja se on esimerkki 

hyvin rekonstruoidusta spektristä. Liitteeseen 3 on koottu Munsell-tietokannan 

virheanalyysin tulokset kaikista käsiteltävistä menetelmistä vertailun helpottamiseksi 

eri menetelmien välillä. 

Munsell-tietokannan keskimääräinen rekonstruointivirhe kahdeksalla kantavektorilla 

on 1.95%, aliavaruusmenetelmää käytettäessä. Kuvan 4 a spektri 887 on lähimpänä 

keskimääräistä rekonstruointivirhettä ja se kuuluu Munsellin väriluokkaan 

purppura-sininen (PB, Purple-Blue). Keskimääräinen rekonstruointivirhe 

riippuu suoraan rekonstruointiin käytettävien ominaisvektoreiden määrästä. 

Liitteessä 3 olevasta taulukosta 16 käy ilmi kuinka keskimääräinen rekonstruointivirheprosentti 

alenee sitä mukaa mitä useampaa ominaisvektoria käytetään rekonstruointiin. 

Samasta taulukosta käy selville aliavaruusmenetelmällä saavutetut 

tulokset 1 – 10:lle suotimelle sekä muiden menetelmien vastaavat tulokset. Tau- 

33

Taulukko 2: Spektrien vastaavuudet Munsellin väriluokkiin. 

Spektri Munsellin väriluokka 

1 - 139 Red (R) 

140 - 261 Yellow-Red (YR) 

262 - 404 Yellow-Green (YG) 

405 - 531 Green-Yellow (GY) 

532 - 646 Green (G) 

647 - 752 Blue-Green (BG) 

753 - 864 Blue (B) 

865 - 1001 Purple-Blue (PB) 

1002 - 1132 Purple (P) 

1133 - 1269 Red-Purple (RP) 

lukossa 3 esitellään yhteenveto tuloksista kuudelle ja kahdeksalle suotimelle aliavaruusmenetelmää 

käyttäen. Rekonstruointivirheprosenteista esitellään minimija 

maksimirekonstruointivirheen lisäksi keskimääräinen rekonstruointivirhe. Rekonstruointivirheet 

on laskettu kaavalla 32. Lisäksi on esitellään keskimääräinen 

neliövirhe (MSE) sekä keskimääräinen värivirhe (E L a b). Kaikissa kokeellisen 

osan laskennoissa käytetty valonlähde oli D 65 . 

Taulukko 3: Aliavaruusmenetelmällä saavutetut kuuden ja kahdeksan suotimen 

rekonstruointivirheet Munsell-tietokannalle. 

Suotimien lkm Min. Keskim. Maks. MSE E L a b 

6 0.53 3.18 24.66 0.0113 0.77 

8 0.40 1.95 19.29 0.0042 0.14 

Macbeth-tietokannan suurin rekonstruointivirhe on spektrillä 10. Spektri 10 on 

esimerkki huonosti rekonstruoidusta spektristä. Tämän spektrin laskettu rekonstruointivirhe 

7.22% on esitetty kuvassa 4 yhdessä spektrin 12 kanssa, jolla on 

pienin rekonstruointivirhe eli 0.55%. Spektri 12 on esimerkki hyvin rekonstruoi- 

34

dusta spektristä. Liitteeseen 4 on koottu Macbeth-tietokannan virheanalyysin tulokset 

kaikista käsiteltävistä menetelmistä vertailun helpottamiseksi eri menetelmien 

välillä. Liitteestä 5 löytyy tulostettuna Macbeth-tietokannan spektrit, joita 

voidaan vertailla liitteessä 2 olevaan Macbeth-väritauluun. 

Keskimääräinen rekonstruointivirhe Macbeth-tietokannalle aliavaruusmenetelmällä 

käyttäen kahdeksaa kantavektoria on 2.32%. Kuvassa 4 on esitetty lähimpänä 

keskimääräistä rekonstruointivirhettä oleva spektri 2. Liitteessä 4 olevista taulukoista 

käy selville aliavaruusmenetelmällä saavutetut tulokset 1 – 10:lle suotimille. 

Taulukossa 4 esitellään yhteenveto tuloksista kuudelle ja kahdeksalle suotimelle 

aliavaruusmenetelmää käyttäen. Rekonstruointivirheprosenteista esitellään 

minimija maksimirekonstruointivirheen lisäksi keskimääräinen rekonstruointivirhe. 

Lisäksi esitellään keskimääräinen neliövirhe (MSE) sekä keskimääräinen 

värivirhe (E L a b ). 

Taulukko 4: Aliavaruusmenetelmällä saavutetut kuuden ja kahdeksan suotimen 

rekonstruointivirheet Macbeth-tietokannalle. 

Suotimien lkm Min. Keskim. Maks. MSE E L a b 

6 1.07 3.56 9.13 0.0131 0.33 

8 0.55 2.32 7.22 0.0053 0.26 

Olen ohjelmoinut Matlab-ohjelman, jonka avulla voidaan tulostaa tässä esitetyt 

aliavaruusmenetelmällä tuotetut suotimet sekä muut esitetyt tulokset. Ohjelmakoodi 

löytyy kokonaisuudessaan liitteestä 9. Ohjelmalla voidaan tulostaa lisäksi 

muidenkin kokeellisessa osassa esiteltävien menetelmien (SOM, c-means, PNN) 

tulokset. 

5.3 SOM 

Itseorganisoiva kartta on neuraaliverkkoihin perustuva menetelmä ja sitä voidaan 

käyttää sellaisten suotimien löytämiseen, joilla on positiiviset kertoimet. SOM on 

35

menetelmä, jolla voidaan etsiä väriryhmien keskustat väriavaruudesta. Opetuksen 

jälkeen neuraaliverkon painovektoreita voidaan käyttää suoraan värisuotimina optisen 

hahmontunnistuksen sovelluksissa. 

Tässä kokeessa on käytetty samoja Munsell- ja Macbeth-tietokantoja kuin edellä 

tarkastellussa aliavaruusmenetelmän kokeellisessa osassa. Näiden tietokantojen 

tarkemmat kuvaukset löytyvät luvusta 2.3. 

Syötedatana käytettiin Munsell- ja Macbeth-tietokantoja. Itseorganisoivalla kartalla 

saavutetut tulokset esitetään seuraavaksi. Neuronien lukumäärä Munselltietokannan 

kohdalla oli kahdeksan ja Macbeth-tietokannan kohdalla myös kahdeksan. 

Perustelut näiden lukumäärien käyttöön käytiin läpi luvussa 5.2 aliavaruusmenetelmän 

yhteydessä. 

Itseorganisoivan kartan suoritus alkaa normeeraamalla opetusjoukko siten, että jokaisen 

spektrin pituus on 1. Normeerauksen jälkeen painot alustetaan syötedatan 

minimija maksimi-arvoilla, jonka jälkeen tapahtuu itse oppiminen. Alustuksen 

laadulla ei Kohosen (2002) mukaan ole merkitystä. Oppiminen toteutetaan tässä 

tapauksessa Matlab-ohjelmasta valmiina löytyvällä yksiulotteisen itseorganisoivan 

kartan avulla. Voittajaneuronin valinta tapahtuu kaavan 13 mukaan ja painojen 

päivitys tapahtuu kaavan 14 mukaan. 

Opetuskerroin laskee opetuksen aikana arvosta 0.9 lähelle arvoa nolla, arvoon 

0.01. Arvo 0.9 on järjestelyvaiheen opetuskerroin ja arvo 0.01 on vastaavasti hienosäätövaiheen 

opetuskerroin. Opetusjaksojen kestoksi on valittu 20000 ja 80000 

kierrosta. Järjestelyvaihe kestää 20000 kierrosta, jonka aikana opetuskerroin laskee 

arvosta 0.9 arvoon 0.01. 

Järjestelyvaiheen opetuskerroin on toteutettu ns. Power Series -kaavalla, joka on 

esitetty tarkemmin luvun 3.2 kaavalla 16. Hienosäätövaihe kestää 80000 kierrosta, 

jonka aikana opetuskerroin laskee lineaarisesti arvosta 0.01 arvoon 0. Näiden 

kierrosten suhteiden valinta perustuu Kohosen (2002) julkaisuun, jossa kerrotaan, 

36

että hienosäätövaiheen tulisi olla neljä kertaa järjestelyvaiheen pituinen. Kierrosten 

yhteismääräksi tässä tapauksessa kertyy yhteensä 100000 kierrosta. 

Kuvassa 5 on tulostettuna Power Series opetuskerroin kierrosten 0 – 20000 välillä 

eli järjestelyvaiheen aikana. Hienosäätövaiheen (20000 – 100000) aikana opetuskerroin 

on lineaarinen. SOM -menetelmällä tuotetut tulokset on saatu aikaan 

käyttäen kuvassa 5 olevaa opetuskerrointa. 

1 

0.9 

0.8 

0.7 

Opetuskerroin 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

10 20 30 40 50 60 70 80 90 100 

Kierrosten lukumäärä (tuhansia) 

Kuva 5: Esimerkki opetuskertoimesta. 

Naapuruston koko pienenee tässä kokeessa lineaarisesti arvosta 1 kohti arvoa 0, 

opetuksen aikana. Suurta naapuruston kokoa käytetään vain opetuksen alussa, jolloin 

se pienenee sopivalle tasolle. Jos naapuruston koko olisi koko opetuksen ajan 

nolla, niin silloin SOM -algoritmi vastaisi c-means algoritmia (Kohonen, 2002). 

Tuotetut suotimet esitellään kuvissa 6 – 7. Kuvassa 6 esitellään Munselltietokannasta 

tuotetut suotimet ja kuvassa 7 on vastaavasti Macbeth-tietokannasta 

tuotetut suotimet. Aikaisemmat kokeet ovat osoittaneet, että nämä suotimet virittä- 

37

vät väriavaruuden hyvin samanlaisesti kuin aliavaruuden ominaisvektorit (Hauta- 

Kasari & al., 1998). Mm. Munsellin värispektrit voidaan esittää hyvin tarkasti 

saaduilla suotimilla. 

0.2 

SOM: nro.1/8 

0.2 

SOM: nro.2/8 

0.2 

SOM: nro.5/8 

0.2 

SOM: nro.6/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0.2 

SOM: nro.3/8 

0.2 

SOM: nro.4/8 

0.2 

SOM: nro.7/8 

0.2 

SOM: nro.8/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 6: SOM -menetelmällä tuotetut suotimet Munsell-tietokannalle: a) nro. 1 – 

4, b) nro. 5 –8. Huomioi spektrien järjestys. 

0.2 

SOM: nro.1/8 

0.2 

SOM: nro.2/8 

0.2 

SOM: nro.5/8 

0.2 

SOM: nro.6/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0.2 

SOM: nro.3/8 

0.2 

SOM: nro.4/8 

0.2 

SOM: nro.7/8 

0.2 

SOM: nro.8/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 7: SOM -menetelmällä tuotetut suotimet Macbeth-tietokannalle: a) nro. 1 – 


Testitapauksessa suotimien tuottamiseen Munsell-tietokannasta SOM - 

menetelmällä kului aikaa 800Mhz:n Duron prosessorilla ja 160Mb:n keskusmuistilla 

varustetulla PC -tietokoneella prosessoriajalla mitattuna 560.13 

sekuntia. Vastaavasti suotimien tuottamiseen Macbeth-tietokannasta kului aikaa 

38

525.14 sekuntia. Koska kuluva aika ei ole niinkään riippuvainen syötedatan 

koosta vaan oppimiseen käytettävästä ajasta eli kierroksista, ei Munsell- tai 

Macbeth-tietokannan käyttämisen välillä ole suuria eroja. Lisäksi alustuksen 

laatu vaikuttaa menetelmien ajoaikoihin. Huomattavaa on se, että oppimisen 

kesto oli molemmilla tietokannoilla 100 000 kierrosta. Luvun 5.6 taulukossa 12 

on kooste eri menetelmien ajoajoista. 

Virheanalyysiä varten tietokannat rekonstruoidaan kuvissa 6 – 7 olevien suotimien 

avulla. Rekonstruointiin käytettiin Munsell-tietokannan kohdalla luvussa 4 

esiteltyjä Wiener estimoinnin kaavoja 23 – 31. Macbeth-tietokannan kohdalla rekonstruointiin 

käytettiin luvun 4 pseudoinverssimenetelmän mukaista kaavaa 22. 

Kuvassa 8 esitellään Munsell- ja Macbeth-tietokantojen rekonstruointivirheet. Kuvasta 

8 käy selville kaikkien yksittäisten Munsell- ja Macbeth-tietokantojen spektrien 

rekonstruointivirheet. 


Munsell rekonstruointivirheet (SOM) 

WE:Munsell 

15 

10 

5 

Heijastus 


1 


0.8 

0.6 

0.4 

0.2 


Macbeth rekonstruointivirheet (SOM) 

7 

PI 

6 

5 

4 

3 

2 

1 

Heijastus 


1 


0.8 

0.6 

0.4 

0.2 

0 

0 500 1000 

Näyteindeksi 


1 

maksimi: 17.3807% 

0.8 

0 

400 500 600 700 



1 

minimi: 0.39881% 

0.8 

0 

0 5 10 15 20 

Näyteindeksi 


1 


0.8 

0 

400 500 600 700 



1 

minimi: 1.6033e−007% 

0.8 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

0.2 

0.2 

0.2 

0.2 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 8: Rekonstruointivirheet kahdeksalla suotimella käyttäen SOM - 

menetelmää: a) Munsell-tietokanta, b) Macbeth-tietokanta. 

SOM -menetelmällä saavutetut tulokset on kerätty vertailun helpottamiseksi 

yhteen taulukkoon muiden menetelmien tulosten kanssa. Munsell-tietokannan 

virheanalyysin tulokset SOM -menetelmälle löytyvät liitteestä 3. Macbethtietokannan 

vastaavat tulokset löytyvät liitteestä 4. Taulukossa 5 esitellään yhteenveto 

tuloksista kuudelle ja kahdeksalle suotimelle SOM -menetelmää käyttäen 

39

Munsell-tietokannalle. Kuvan 8 a tulokset on saavutettu käyttäen rekonstruointimenetelmänä 

Wiener estimointia. Apriori-datana käytettiin Munsell-tietokantaa. 

Taulukko 5: SOM -menetelmällä saavutetut kuuden ja kahdeksan suotimen tulokset Munselltietokannalle. 

LKM 1 Menetelmä Aprioridata Min. Keskim. Maks. MSE E L a b 

6 PI 2 - 0.55 3.83 22.18 0.0265 1.02 

6 WE 3 Munsell 0.56 3.49 32.80 0.0165 0.79 

6 WE Macbeth 1.14 4.91 42.50 0.0314 1.19 

8 PI - 0.43 2.28 15.65 0.0097 0.25 

8 WE Munsell 0.40 2.20 17.38 0.0054 0.24 

8 WE Macbeth 0.77 3.76 18.23 0.0186 0.53 

Taulukossa 6 esitellään vastaavasti yhteenveto tuloksista kuudella ja kahdeksalla 

suotimella Macbeth-tietokantaa käyttäen. Kuvassa 8 b Macbeth-tietokannan kohdalla 

on käytetty pseudoinverssimenetelmää, koska sillä saavutettu keskimääräinen 

rekonstruointivirhe on pienempi kuin Wiener estimoinnilla, kahdeksalle suotimelle. 

Taulukko 6: SOM -menetelmällä saavutetut kuuden ja kahdeksan suotimen tulokset 

Macbeth-tietokannalle. 


6 PI 2 - 1.15 4.95 15.30 0.0472 0.60 

6 WE 3 Munsell 1.22 4.51 12.81 0.0347 0.56 

6 WE Macbeth 1.14 3.84 10.38 0.0163 0.46 

8 PI - 0.00 2.65 6.63 0.0201 0.32 

8 WE Munsell 0.73 3.78 10.19 0.0283 0.47 

8 WE Macbeth 0.66 2.76 7.66 0.0091 0.33 

1 Suotimien lukumäärä 

2 Pseudoinverssi 

3 Wiener estimointi 

40

5.4 C-means 

Seuraavaksi sovelletaan luvussa 3.3 esiteltyä c-means -algoritmia käytäntöön. Tarkoitus 

on tuottaa nopeasti ja tehokkaasti värisuotimia, joita voidaan käyttää suoraan 

optisen hahmontunnistuksen sovelluksiin. Tässä kokeessa on käytetty samoja 

Munsell- ja Macbeth-tietokantoja kuin aiemmin luvuissa 5.2 ja 5.3. Näiden 

tietokantojen tarkemmat kuvaukset löytyvät luvusta 2.3. Seuraavaksi esitellään c- 

means -algoritmilla saavutetut tulokset. 

Aluksi käytettävä tietokanta normeerataan ja sen jälkeen c-means -algoritmi valitsee 

mielivaltaisesti halutun määrän spektrejä tietokannasta. Tämän jälkeen algoritmia 

käydään läpi, kunnes ryhmien keskusvektorit eivät enää muutu tai määrättyjen 

maksimikierrosten raja tulee vastaan. Tässä kokeessa maksimikierrosten 

lukumääräksi on asetettu 50 kierrosta. Tuloksena saadaan kuvissa 9 ja 10 esitetyt 

suotimet. 

0.2 

c−Means: nro.1/8 

0.2 


0.2 


0.2 


0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0.2 


0.2 


0.2 


0.2 


0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 9: C-means -menetelmällä tuotetut suotimet Munsell-tietokannalle: a) nro. 

1 – 4, b) nro. 5 –8. Huomioi spektrien järjestys. 

Testitapauksessa suotimet tuottava ohjelma saatiin suoritettua huomattavasti nopeammin 

kuin luvussa 5.3 kuvatulla SOM -menetelmällä. C-means -algoritmin 

suorittamiseen kuluva aikaa riippuu ryhmittelyn tarvitsemista kierrosten lukumäärästä 

sekä alustuksesta. Testitapauksessa suotimien tuottamiseen Munsell- 

41

0.2 


0.2 


0.2 


0.2 


0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0.2 


0.2 


0.2 


0.2 


0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 10: C-means -menetelmällä tuotetut suotimet Macbeth-tietokannalle: a) nro. 

1 – 4, b) nro. 5 –8. Huomioi spektrien järjestys. 

tietokannasta kului aikaa 800Mhz:n Duron prosessorilla ja 160Mb:n keskusmuistilla 

varustetulla PC -tietokoneella prosessoriajalla mitattuna 13.96 sekuntia ja 

kierroksia tarvittiin 34. Suotimien tuottamiseen Macbeth-tietokannasta kului aikaa 

0.22 sekuntia ja kierroksia tarvittiin 16. Luvun 5.6 taulukossa 12 on kooste eri 

menetelmien ajoajoista. 

Kuvassa 9 esitettyjen Munsell-tietokannasta tuotettujen suotimien tuottamiseen 

kului 29 kierrosta ja vastaavasti kuvassa 10 esitettyjen Macbeth-tietokannasta tuotettujen 

suotimien tuottamiseen kului 9 kierrosta. Keskimäärin suotimien tuottamiseen 

tarvittiin 3 – 50 kierrosta. 

Virheanalyysiä varten tietokannat rekonstruoidaan käyttäen kuvissa 9 – 10 esiteltyjä 

c-means -algoritmilla tuotettuja suotimia. Koska suotimet ovat SOM - 

menetelmällä tuotettujen suotimien tapaan ei ortogonaalisia, käytetään rekonstruointiin 

Munsell- ja Macbeth-tietokannan kohdalla luvussa 4 esiteltyjä Wiener 

estimoinnin kaavoja 23 – 31. 

Kuvassa 11 esitellään Munsell- ja Macbeth-tietokantojen rekonstruointivirheet. 

Kuvasta 11 käy selville kaikkien yksittäisten Munsell- ja Macbeth-tietokantojen 

spektrien rekonstruointivirheet. 

42


Munsell rekonstruointivirheet (c−Means) 

WE:Munsell 

15 

10 

5 

Heijastus 


1 


0.8 

0.6 

0.4 

0.2 

Macbeth rekonstruointivirheet (c−Means) 

7 

WE:Macbeth 

6 

5 

4 

3 

2 

1 


Heijastus 


1 


0.8 

0.6 

0.4 

0.2 

0 

0 500 1000 

Näyteindeksi 


1 

maksimi: 18.0898% 

0.8 

0 

400 500 600 700 



1 

minimi: 0.36453% 

0.8 

0 

0 5 10 15 20 

Näyteindeksi 


1 


0.8 

0 

400 500 600 700 



1 

minimi: 0.4336% 

0.8 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

0.2 

0.2 

0.2 

0.2 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 11: Rekonstruointivirheet kahdeksalla suotimella käyttäen c-means - 


C-means -algoritmilla saavutetut tulokset on kerätty yhteen taulukkoon muiden 

menetelmien tulosten vertailun helpottamiseksi. Munsell-tietokannan virheanalyysi 

c-means -menetelmää käyttäen löytyy liitteestä 3 ja Macbeth-tietokannan 

virheanalyysi löytyy puolestaan liitteestä 4. 

Taulukossa 7 esitellään tulokset Munsell-tietokannalle kahdeksalla suotimella 

käyttäen c-means menetelmää. Huomattavaa on, että kuvassa 11 kohdassa a esitetyt 

tulokset on saavutettu käyttäen rekonstruointimenetelmänä Wiener estimointia 

ja aprioridatana on käytetty Munsell-tietokantaa. 

Taulukossa 8 esitellään yhteenveto tuloksista kahdeksalla suotimella Macbethtietokantaa 

käyttäen. Macbeth-tietokannan kohdalla on kuvassa 11 esitetty tulokset, 

jotka on saavutettu käyttäen Wiener estimointia, mutta aprioridatana on käytetty 

Munsell-tietokannan sijasta Macbeth-tietokantaa. 

Equitzin (1989) mukaan PNN -algoritmia voidaan käyttää alustuksena c-means 

-algoritmille, jolloin saavutetaan parempi tehokkuus kuin kummallakaan algoritmilla 

erikseen. Tällä tavalla c-means -algoritmin tulokset saadaan paranemaan, 

mutta tulokset eivät kuitenkaan yllä samalle tasolle kuin luvussa 5.5 

43

Taulukko 7: C-means -menetelmällä saavutetut kuuden ja kahdeksan suotimen tulokset 

Munsell-tietokannalle. 


6 PI 2 - 0.54 3.11 33.06 0.0171 0.30 

6 WE 3 Munsell 0.54 3.19 36.29 0.0135 0.30 

6 WE Macbeth 1.10 4.62 36.76 0.0284 0.65 

8 PI - 0.44 2.39 15.76 0.0104 0.29 

8 WE Munsell 0.36 2.17 18.09 0.0055 0.27 

8 WE Macbeth 0.84 3.78 17.41 0.0207 0.58 

Taulukko 8: C-means -menetelmällä saavutetut kuuden ja kahdeksan suotimen tulokset 



6 PI 2 - 1.62 4.51 11.27 0.0386 1.13 

6 WE 3 Munsell 0.99 5.41 24.78 0.0614 1.19 

6 WE Macbeth 0.70 4.50 16.48 0.0244 1.05 

8 PI - 0.00 2.69 6.76 0.0200 0.39 

8 WE Munsell 0.80 3.35 8.82 0.0198 0.43 

8 WE Macbeth 0.43 2.65 6.02 0.0087 0.39 

esiteltävät PNN -algoritmilla yksinään aikaan saadut tulokset. Edellä esitellyllä 

Munsell-tietokannasta tuotetulla kahdeksan suotimen joukolla keskimääräinen 

rekonstruointivirhe alenee 2.17:sta prosentista 2.08:aan prosenttiin. Macbethtietokannan 

kohdalla kahdeksan suotimen joukolle keskimääräinen rekonstruointivirhe 

alenee 2.65:stä prosentista 2.50:een prosenttiin. Näistä tuloksista voidaan 

tehdä se johtopäätös, että alustuksen laatu vaikuttaa huomattavasti c-means - 

algoritmilla saavutettuihin tuloksiin. 




44

Tässä osassa todettiin, että c-means -algoritmia käyttävä menetelmä tuottaa nopeammin 

värisuotimia optisen hahmontunnistuksen sovelluksia varten kuin edellä 

luvussa 5.3 esitelty SOM -menetelmä. Lisäksi c-means -algoritmia varten käyttäjän 

tarvitsee asettaa vähemmän parametreja kuin SOM -menetelmässä. 

5.5 PNN 

Viimeisenä menetelmänä sovelletaan käytäntöön Equitzin vuonna 1989 esittelemää 

PNN -algoritmia. Equitz esitteli täydellisen haun -algoritmin sekä nopean 

haun -algoritmin, joista käsittelemme nyt täydellisen haun -algoritmia. Algoritmi 

3 esiteltiin luvussa 3.4. Tarkoitus on saada aikaan SOM- ja c-means -menetelmien 

tuottamien suotimien tasoisia tai parempi suotimia, joita voidaan käyttää suoraan 

optisissa sovelluksissa. Suotimet olisi tarkoitus tuottaa ohjelmallisesti nopeasti. 

Tässä kokeessa on käytetty samoja Munsell- ja Macbeth-tietokantoja kuin aiemmin 

luvuissa 5.2, 5.3 ja 5.4. Näiden tietokantojen tarkemmat kuvaukset löytyvät 

luvusta 2.3. Seuraavaksi esitellään PNN -algoritmilla saavutetut tulokset. 

Algoritmin periaate on lyhyesti se, että jokaisella kierroksella etsitään kaksi lähintä 

ryhmää ja korvataan ne yhdellä ryhmällä. Etäisyyksien ja uuden ryhmän 

laskemisessa käytetään apuna luvussa 3.4 esiteltyjä kaavoja 19 ja 20. Tuloksena 

saadaan kuvissa 12 ja 13 esitellyt suotimet. 

Suotimet tuottava PNN -algoritmi on suuremmilla syötteillä, kuten Munselltietokannalla 

hidas. Laskettu aikakompleksisuus on luokkaa O(N 3 ). Suotimien 

tuottamiseen Munsell-tietokannasta meni aikaa 800Mhz:n Duron prosessorilla ja 

160Mb:n keskusmuistilla varustetulla PC -tietokoneella prosessoriajalla mitattuna 

26772 sekuntia eli lähes 7 ja puoli tuntia. Algoritmin ensimmäiset kierrokset 

ovat hitaita, koska silloin läpikäytäviä värispektrejä on 1269 kappaletta. Algoritmin 

edetessä, värispektrien määrä tietokannassa pienenee. Tämä johtuu siitä, että 

uuden ryhmän tilalta poistuu kaksi yhdistettyä ryhmää, kunnes ryhmiä on jäljellä 

haluttu määrä. Tästä seuraa se, että algoritmin suoritus nopeutuu loppua kohti. 

45

0.2 

Pnn: nro.1/8 

0.2 

Pnn: nro.2/8 

0.2 

Pnn: nro.5/8 

0.2 

Pnn: nro.6/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0.2 

Pnn: nro.3/8 

0.2 

Pnn: nro.4/8 

0.2 

Pnn: nro.7/8 

0.2 

Pnn: nro.8/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 12: PNN -menetelmällä tuotetut suotimet Munsell-tietokannalle: a) nro. 1 – 


Vastaavasti Macbeth-tietokannan kohdalla on kyseessä huomattavasti Munselltietokantaa 

pienempi syötejoukko (24 värispektriä), joten PNN -algoritmin suoritus 

on huomattavasti nopeampi ajallisesti. Em. laitteistolla aikaa kului kahdeksan 

suotimen tuottamiseen Macbeth-tietokannasta prosessoriajalla mitattuna 0.27 

sekuntia. Kierroksia tähän tulokseen pääsemiseksi vaadittiin 16. Luvun 5.6 taulukossa 

12 on kooste eri menetelmien ajoajoista. 

Virheanalyysiä varten tietokannat rekonstruoidaan käyttäen kuvissa 12 – 13 esiteltyjä 

PNN -algoritmilla tuotettuja suotimia. Rekonstruointiin käytettiin Munselltietokannan 

kohdalla luvussa 4 esiteltyjä Wiener estimoinnin kaavoja 23 – 31. 

Macbeth-tietokannan kohdalla rekonstruointiin käytettiin luvun 4 pseudoinverssimenetelmän 

mukaista kaavaa 22. Kuvassa 14 esitellään Munsell- ja Macbethtietokantojen 

rekonstruointivirheet. Kuvasta 14 käy selville kaikkien yksittäisten 

Munsell- ja Macbeth-tietokantojen spektrien rekonstruointivirheet. 

PNN -algoritmilla saavutetut tulokset on kerätty yhteen taulukkoon, jotta vertailu 

muiden menetelmien tuloksiin olisi helpompaa. Munsell-tietokannan virheanalyysi 

PNN -menetelmää käyttäen löytyy liitteestä 3 ja Macbeth-tietokannan virheanalyysi 

löytyy puolestaan liitteestä 4. Liitteet 3 ja 4 on suunniteltu siten, että 

ensin esitellään minimirekonstruointivirheet, jonka jälkeen esitellään keskimää- 

46

0.2 

Pnn: nro.1/8 

0.2 

Pnn: nro.2/8 

0.2 

Pnn: nro.5/8 

0.2 

Pnn: nro.6/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0.2 

Pnn: nro.3/8 

0.2 

Pnn: nro.4/8 

0.2 

Pnn: nro.7/8 

0.2 

Pnn: nro.8/8 

0.15 

0.15 

0.15 

0.15 

0.1 

0.1 

0.1 

0.1 

0.05 

0.05 

0.05 

0.05 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 13: PNN -menetelmällä tuotetut suotimet Macbeth-tietokannalle: a) nro. 1 

– 4, b) nro. 5 –8. Huomioi spektrien järjestys. 

räinen rekonstruointivirhe ja maksimirekonstruointivirhe. Lisäksi esitellään keskimääräinen 

neliövirhe ja keskimääräinen värivirhe. 

Taulukossa 9 esitellään Munsell-tietokannan tuloksien yhteenveto kuudelle ja kahdeksalle 

suotimelle käyttäen PNN -menetelmää. Huomattavaa on, että kuvassa 14 

a esitetyt tulokset on saavutettu käyttäen rekonstruointimenetelmänä Wiener estimointia 

ja aprioridatana on käytetty Munsell-tietokantaa. 

Taulukko 9: PNN -menetelmällä saavutetut kuuden ja kahdeksan suotimen tulokset Munselltietokannalle. 


6 PI 2 - 0.60 4.53 38.70 0.0397 1.60 

6 WE 3 Munsell 0.57 4.16 22.95 0.0270 1.40 

6 WE Macbeth 1.09 6.48 39.54 0.0589 2.30 

8 PI - 0.49 2.12 15.00 0.0073 0.26 

8 WE Munsell 0.34 1.96 16.25 0.0048 0.25 

8 WE Macbeth 0.66 3.58 19.06 0.0198 0.56 

47


Munsell rekonstruointivirheet (PNN) 

15 WE:Munsell 

10 

5 

Heijastus 


1 


0.8 

0.6 

0.4 

0.2 


Macbeth rekonstruointivirheet (PNN) 

6 

PI 

5 

4 

3 

2 

1 

Heijastus 


1 


0.8 

0.6 

0.4 

0.2 

0 

0 500 1000 

Näyteindeksi 


1 

maksimi: 16.2489% 

0.8 

0 

400 500 600 700 



1 

minimi: 0.33802% 

0.8 

0 

0 5 10 15 20 

Näyteindeksi 


1 


0.8 

0 

400 500 600 700 



1 

minimi: 1.9282e−011% 

0.8 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

Heijastus 

0.6 

0.4 

0.2 

0.2 

0.2 

0.2 

0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


0 

400 500 600 700 


a) b) 

Kuva 14: Rekonstruointivirheet kahdeksalla suotimella käyttäen PNN - 


Taulukossa 10 esitellään vastaavasti yhteenveto tuloksista kuudelle ja kahdeksalle 

suotimelle Macbeth-tietokantaa käyttäen. Macbeth-tietokannan kohdalla on kuvassa 

14 kohdassa b on esitetty tulokset, jotka on saavutettu käyttäen pseudoinverssimenetelmää. 

Taulukko 10: PNN -menetelmällä saavutetut kuuden ja kahdeksan suotimen tulokset 



6 PI 2 - 0.50 4.19 15.40 0.0370 0.49 

6 WE 3 Munsell 0.94 4.32 13.99 0.0333 0.38 

6 WE Macbeth 1.09 3.78 11.40 0.0157 0.35 

8 PI - 0.00 2.26 5.89 0.0164 0.26 

8 WE Munsell 0.73 3.08 8.22 0.0169 0.32 

8 WE Macbeth 0.51 2.60 5.31 0.0079 0.29 




48

Tässä osassa todettiin, että PNN -algoritmia käyttävä menetelmä tuottaa suuremmilla 

syötejoukoilla (Munsell) hitaammin värisuotimia optisen hahmontunnistuksen 

sovelluksia varten kuin edellä luvuissa 5.3 ja 5.4 esitellyt menetelmät. Pienemmillä 

syötejoukoilla, kuten Macbeth-tietokannalla, PNN -menetelmä on nopea 

suoritukseltaan. Lisäksi PNN -menetelmällä saadaan aikaiseksi toisistaan eroavia 

ja muodoiltaan sileitä värisuotimia. 

5.6 Tulosten vertailua 

Tässä luvussa esitellään tiivistettynä luvuissa 5.2 – 5.5 esitetyt tulokset ja vertaillaan 

niitä muihin vastaaviin tuloksiin. Vertailukohteita kirjallisuudesta kokeellisen 

osan tuloksille on vähän. Tämä johtuu siitä, että useimmissa kokeissa on käytetty 

erilaisia värispektritietokantoja kuin tämän tutkielman kokeellisessa osassa. Tieteellinen 

julkaisu, jossa on tehty kokeita vastaavilla värispektritietokannoilla kuin 

tämän tutkielman kokeellisessa osassa on mm. Murakami & al. vuonna 2001 tekemä. 

Murakami & al. ovat käyttäneet Macbeth-tietokantaa, jossa on 18 värispektriä. 

Tämä tietokanta poikkeaa luvussa 2.3 esitellystä Macbeth-tietokannasta siten, että 

siitä on jätetty pois kuusi viimeistä spektriä, jotka ovat valkoinen, harmaan eri 

värisävyt ja musta. Liitteessä 5 on kuvattu kaikki 24 spektriä, joista 18 ensimmäistä 

on otettu mukaan Murakami & al. tekemään kokeeseen. 

Vertailua varten taulukossa 11 esitellään kokeellisessa osassa esiteltyjen menetelmien 

tulokset vastaavalla 18 spektrin Macbeth-tietokannalla kuin Murakamin & 

al. saavuttamat tulokset. Kaikki tulokset ovat värieron (E L a b) arvoja. Kaikissa 

kokeellisen osan laskennoissa käytetty valonlähde oli D 65 , mutta taulukossa 11 

esitetyt tulokset on kaikki laskettu valonlähteen A alla. Rekonstruointimenetelmänä 

Murakami & al. olivat käyttäneet kokeissaan Wiener estimointia. 

Taulukossa 11 on kuvattu tulokset kolmella, kuudella ja yhdeksällä suotimella. 

Toisessa sarakkeessa on Murakami & al. saavuttamat tulokset ja sarakkeissa 3 

49

Taulukko 11: Tulosten vertailua värieron (E L a b) avulla Murakami & al. 

(2001) tuloksiin. Tietokantana kaikissa on 18 värispektrin Macbeth-tietokanta. 

Suotimien LKM Murakami SOM C-means PNN 

3 5.836 5.714 8.336 5.749 

6 1.553 0.407 0.638 0.555 

9 1.002 0.081 0.101 0.108 

– 5 on kokeellisessa osassa esitellyillä menetelmillä saavutetut tulokset. Tuloksista 

voidaan päätellä, että kolmella suotimella menetelmissä ei ole vielä suuria 

eroja, mutta kuudella suotimella väriero (E L a b) on tässä tutkielmassa esitellyillä 

menetelmillä kolmasosa siitä mitä Murakami & al. saavuttamat tulokset ja 

yhdeksällä suotimella väriero (E L a b) on enää kymmenesosa Murakami & al. 

saavuttamista tuloksista. 

Taulukossa 12 esitellään eri menetelmillä kuluvat ajat kahdeksan suotimen tuottamiseen 

prosessoriajalla mitattuna. Taulukkoon on otettu mukaan myös PCA - 

menetelmä vertailun vuoksi. 

Taulukko 12: Prosessoriajalla mitatut ajoajat eri menetelmille kahdeksaa suodinta 

tuotettaessa. Ajat ovat ilmoitettu sekunneissa. 

Tietokanta PCA SOM C-means PNN 

Munsell 0.77 560.13 13.96 26772 

Macbeth 0.17 525.14 0.22 0.27 

Lopuksi taulukkoihin 13 – 14 on kerätty yhteenvetona kaikki tulokset kuudelle 

ja kahdeksalle suotimelle. Taulukossa 13 on yhteenvetona tulokset Munselltietokannalle 

ja taulukossa 14 on yhteenvetona tulokset 24:n spektrin Macbethtietokannalle. 

Molemmissa taulukoissa esitellään keskimääräinen virheprosentti. 

50

Liitteissä 6 ja 7 esitellään Munsell- ja Macbeth-tietokantojen spektrien sijoittuminen 

a b - ja xy-koordinaatistoon. Lisäksi liitteissä 6 ja 7 esitellään edellä käsitellyillä 

menetelmillä tulokseksi saatujen kahdeksan värisuotimen joukkojen sijoittuminen 

a b - ja xy -koordinaatistoihin. Liitteessä 8 esitellään spektrien sijoittuminen 

kuuteen ja kahdeksaan ryhmään Munsell- ja Macbeth-tietokannoilla. 

Taulukko 13: Yhteenveto kaikkien menetelmien tuloksista kuudella ja kahdeksalla 

suotimella Munsell-tietokannalle. Rekonstruointiin on käytetty SOM-, c-means-, 

ja PNN -menetelmien kohdalla Wiener estimointia. Aprioridatana oli Munselltietokanta. 

Suotimien LKM PCA SOM C-means PNN 

Virhe (%) - - - - 

6 suodinta 3.18 3.49 3.11 4.16 

8 suodinta 1.95 2.20 2.17 1.96 

E L a b - - - - 

6 suodinta 0.77 0.79 0.30 1.40 

8 suodinta 0.14 0.24 0.27 0.25 

MSE - - - - 

6 suodinta 0.0113 0.0165 0.0135 0.0270 

8 suodinta 0.0042 0.0054 0.0055 0.0048 

PNN -menetelmällä päästään Munsell- ja Macbeth tietokantojen kohdalla keskimääräisessä 

rekonstruointivirheessä, kahdeksalla suotimella, lähimmäksi PCA 

-menetelmällä saavutettua tulosta. Munsell-tietokannalla tulos PCA- ja PNN - 

menetelmän välillä on lähes sama (1.95 vs. 1.96) ja Macbeth-tietokannan kohdalla 

PNN -menetelmän tulos on jopa PCA -menetelmää parempi. 

Keskimääräisen värieron (E L a b) kohdalta kahdeksaa suodinta tarkasteltaessa 

huomataan, että Munsell-tietokannan kohdalla SOM-, c-means-, ja PNN - 

menetelmillä saavutetut tulokset ovat lähes samoja. Vertailukohteena olevassa 

PCA -menetelmässä keskimääräinen väriero (E L a b) on pienin. Macbeth- 

51

Taulukko 14: Yhteenveto kaikkien menetelmien tuloksista kuudella ja kahdeksalla 

suotimella Macbeth-tietokannalle. Rekonstruointiin c-means -menetelmän kohdalla 

on käytetty Wiener estimointia, jossa aprioridata oli Macbeth-tietokanta. 

SOM- ja PNN -menetelmien kohdalla rekonstruointiin on käytetty pseudoinverssimenetelmää. 

Suotimien LKM PCA SOM C-means PNN 

Virhe (%) - - - - 

6 suodinta 3.56 3.84 4.50 3.78 

8 suodinta 2.32 2.65 2.65 2.26 

E L a b - - - - 

6 suodinta 0.33 0.46 1.05 0.35 

8 suodinta 0.26 0.32 0.39 0.26 

MSE - - - - 

6 suodinta 0.0131 0.0163 0.0244 0.0157 

8 suodinta 0.0053 0.0091 0.0087 0.0079 

tietokannan kohdalla PNN -menetelmällä saavutetaan sama keskimääräinen väriero 

(E L a b) kuin PCA -menetelmällä. 

Keskimääräistä neliövirhettä kahdeksan suotimen kohdalta tarkasteltaessa huomataan, 

että Munsell-tietokannan kohdalla PNN -menetelmällä saavutetaan PCA 

-menetelmää lähin tulos. Macbeth-tietokannankin kohdalla lähimmäksi PCA - 

menetelmän tulosta päästään PNN -menetelmällä. 

52

6 Menetelmien ja tulosten pohdinta 

Tässä tutkielmassa tutkittiin värispektritietokannoille tapahtuvaa värisuodinten 

suunnittelua. Kolmiulotteiset värinäkömallit perustuvat ihmisen värinäköjärjestelmään 

ja siksi ne ovat hallinneet väritutkimusta ja sen sovelluksia pitkään. Kolmiulotteisissa 

värinäkömalleissa on kuitenkin haittana esimerkiksi metamerismi. 

Spektriin perustuvan värien esityksen etuna on se, että se välttää metamerismin ja 

spektrejä voidaan mitata myös ultravioletti- tai infrapuna-alueella. 

Väriaistimuksen aiheuttaja eli elektromagneettinen spektri voidaan mitata fysikaalisesti. 

Värien mittauslaitteistot voidaan jakaa kolmeen ryhmään: spektrivärimittareihin, 

kolmisuotimisiin värimittareihin ja monisuotimisiin värimittareihin. 

Useiden tutkimusryhmien mielenkiinnon aiheena ovat viime aikoina olleet värispektrikamerat, 

jotka käyttävät useampaa kuin kolmea, mutta kuitenkin vähempää 

kuin kymmentä värisuodinta spektritiedon tallentamiseen. 

Värisuotimen suunnittelussa on tarkoituksena tuottaa optiseen hahmontunnistukseen 

soveltuvia värisuotimia. Värisuotimien tulisi sisältää vain positiivisia kertoimia 

ja niiden tulisi virittää väriavaruus niin tarkasti kuin mahdollista. Värisuotimien 

tuli myös erottua toinen toisistaan ja niiden tulisi olla muodoiltaan sileitä, ei 

piikikkäitä. 

Tässä tutkielmassa esiteltiin neljä eri menetelmää, joiden avulla värispektritietokantoja 

voidaan ryhmitellä. Nämä menetelmät ovat: PCA, SOM, c-means ja PNN. 

Tilastollisiin hahmontunnistusmenetelmiin kuuluva aliavaruusmenetelmä on samantapainen 

menetelmä kuin PCA. Aliavaruusmenetelmällä tuotettuja suotimia 

ei voida kuitenkaan käyttää suoraan optisessa hahmontunnistuksessa, koska sillä 

tuotetut ominaisvektorit ovat ortogonaalisia ja ne sisältävät negatiivisia kertoimia. 

Lisäksi ominaisvektorit 5 – 8 sisältävät jo monimutkaisia muotoja ja ovat optisesti 

vaikeampia toteuttaa. Aliavaruusmenetelmällä tuotettuja suotimia voidaan kuitenkin 

käyttää kannan määrittämiseen, jolla spektridata voidaan määrittää tarkasti. 

Aliavaruusmenetelmän tuloksia voidaan verrata muiden menetelmien tuloksiin. 

53

SOM -menetelmä perustuu ohjaamattomaan oppimiseen. SOM -menetelmässä on 

useita asetettavia parametreja, jotka riippuvat toinen toisistaan ja varsinkin syötedatasta. 

Kierrosten lukumäärä on parametreistä helpoin asetettava ja siihen tulisi 

käyttää aikaa niin paljon kuin sitä on mahdollista käyttää. Opetuskertoimen 

ja alustavan naapuruston koon asettaminen onkin sitten hankalampaa. Yleisimmin 

käytettyjä opetuskerroin muotoja ovat lineaarinen funktio ja käänteisesti aikaan 

verrannollinen funktio. Naapuruston koon pitäisi olla lähempänä arvoa yksi 

kuin ryhmien lukumäärä, koska muutoin neuronien liikkumavapaus alenee. Jos 

naapuston koko on nolla, vastaa SOM -algoritmi c-means -menetelmää. SOM - 

menetelmän haittoja on useat asetettavat parametrit. Lisäksi SOM -menetelmä ei 

ole suoritukseltaan kovin nopea algoritmi. 

C-means -algoritmi tunnetaan useammalla eri nimellä, mutta periaate kaikissa 

on kuitenkin sama. C-means kuuluu ohjaamattoman oppimisen algoritmeihin. C- 

means -algoritmin suoritus alkaa alustavalla ratkaisulla, jota parannetaan kunnes 

edistystä ei enää saavuteta. Kierrosten lukumäärä riippuu alustuksen laadusta ja 

syötedatasta. Yleensä tarvitaan noin 10 – 50 kierrosta hyvään tulokseen, kun aloitetaan 

satunnaisesta alustuksesta. Etuna c-means -algoritmissa on se, että se on 

laskennallisesti yksinkertainen ja se on suoritukseltaan nopea isoillakin syötejoukoilla. 

C-means -algoritmin suorituksen aikana voi tulla tilanne, jossa syntyy tyhjiä 

ryhmiä. Tämä tilanne saadaan kuitenkin korjattua valitsemalla satunnaisesti 

syötedatasta uusi tunnusvektori tyhjän ryhmän tilalle ja suoritusta voidaan siten 

jatkaa. 

PNN -algoritmista esiteltiin ns. täydellisen haun versio, josta on olemassa nopeutettujakin 

versioita. Näissä nopeutetuissa versioissa pidetään yllä lähempien naapureiden 

taulua ja vältetään tarpeetonta etäisyyksien uudelleen laskemista. PNN 

-algoritmi on aikakompleksisuudeltaan luokkaa O(N 3 ). PNN -algoritmi on hidas 

suurilla syötejoukoilla, mutta pienemmillä syötejoukoilla kuten esimerkiksi 

Macbeth-tietokannalla nopeus on c-means -algoritmin luokkaa. 

Kaikilla kolmella käsitellyllä menetelmällä saadaan aikaiseksi varsin samanlaisia 

värisuotimia, eivätkä erot ole kovin suuria. Keskimääräisiä rekonstruointivir- 

54

heprosentteja vertailemalla eri menetelmien erot tulevat parhaiten esille. Tutkielmassa 

esiteltiin rekonstruointivirheiden lisäksi keskimääräinen neliövirhe ja keskimääräinen 

värivirhe (E L a b) eri menetelmien tulosten vertailemiseksi. Näidenkään 

virhemittojen perusteella eri menetelmillä saavutetuissa tuloksissa ei ollut 

suuria eroja. Menetelmien suoritusnopeudessa erot vastaavasti ovat suuria. 

SOM -menetelmä häviää suorituksen nopeudessa c-means -menetelmälle sekä 

suuremmilla, että pienemmillä syötejoukoilla. Koska tuotetut suotimet ovat hyvin 

samanlaisia ja SOM -menetelmässä on c-means menetelmään verrattuna useita 

asetettavia parametrejä, osuu valinta näiden kahden menetelmän välillä c-means 

-menetelmään. 

PNN -algoritmilla saa tuotettua pienillä syötejoukoilla kuten Macbethtietokannalla 

nopeasti värisuotimia. PNN -algoritmi on nopeudeltaan pienillä syötejoukoilla 

c-means -algoritmin tasoa. Suurimmilla syötejoukoilla kuten Munselltietokannalla 

erot kuitenkin tulevat esiin. Siinä missä c-means -algoritmi suoriutuu 

sekunneilla laskien, kuluu PNN -algoritmilla aikaa useita tunteja. Valinta PNN 

-algoritmin ja c-means -algoritmin välillä on selvä, varsinkin kun molemmilla menetelmillä 

tuotetut suotimet ovat hyvin samanlaisia. Näistä kolmesta menetelmästä: 

SOM, c-means ja PNN, on c-means suositeltavin menetelmä värisuotimien 

tuottamiseen. 

55

Viitteet 

Baronti, S., Casini, A., Lotti, F., Porcinai, S. (1998) Multispectral imaging system 

for the mapping of pigments in works of art by use of principal-component 

analysis. Applied Optics 37 (8), 1299 – 1309. 

Delport, V., Liesch, D. (1994) Fuzzy-c-means algorithm for codebook design in 

vector quantization. Electronics Letters 30 (13), 1025 – 1026. 

Drew, M.S., Funt, B.V. (1992) Natural Metamers. CVGIP: Image Understanding 

56 (2), 139 – 151. 

Equitz, W.H. (1989) A New Vector Quantization Clustering Algorithm. IEEE 

Transactions on Acoustics, Speech and Signal Processing 37 (10), 1568 – 1575. 

Fränti, P. (1999) On the usefulness of self-organizing maps for the clustering 

problem in vector quantization. Proceedings of the 11th Scandinavian Conference 

on Image Analysis (SCIA’99), Kangerlussuaq, Greenland, 415-422. 

Fränti, P., Kaukoranta, T. (1999) Fast Implementation of the Exact PNN Algorithm. 

TUCS Technical Report No 295, Turku Centre for Computer Science. 

Haneishi, H., Hasegawa, H., Tsumura, N., Miyake, Y. (1997) Design of Color 

Filters for Recording Artworks. Proceedings of the 50th Annual Conference of 

Imaging Science and Technology, Cambridge, Mass, 369 – 372. 

Haneishi, H., Hasegawa, T., Hosoi, A., Yokoyama, Y., Tsumura, N., Miyake, Y. 

(2000) System design for accurately estimating the spectral reflectance of art paintings. 

Applied Optics 39 (35), 6621 – 6632. 

Hardeberg, J.Y. (1999) Acquisition and reproduction of color images: colorimetric 

and multispectral approaches. Väitöskirja, Ecole Nationale Superieure des Telecommunications. 

56

Hauta-Kasari, M. (1999) Computational Techniques for Spectral Image Analysis. 

Väitöskirja, Lappeenrannan teknillinen korkeakoulu. 

Hauta-Kasari, M., Wang, W., Toyooka, S., Parkkinen, J., Lenz, R. (1998) Unsupervised 

Filtering of Munsell Spectra. Proceedings of the 3rd Asian Conference 

on Computer Vision (ACCV’98), Hong Kong, 248 – 255. 

Hauta-Kasari, M., Miyazawa, K., Toyooka, S., Parkkinen, J. (1999) Spectral vision 

system for measuring color images. Journal of the Optical Society of America 

A 16 (10), 2352 – 2362. 

Hauta-Kasari, M., Karttunen, P. (2002) Broad-band Color Filter Design for Spectral 

Camera. International Congress of Imaging Science (ICIS’02), Tokyo, Japan, 

486 – 487. 

Hyvönen, E., Karanta, I., Syrjänen, M. (1993) Tekoälyn ensyklopedia. Oy Gaudeamus 

Ab, Hämeenlinna. 

Jaaskelainen, T., Parkkinen, J., Toyooka, S. (1990) Vector-subspace model for 

color representation. Journal of the Optical Society of America A 7 (4), 725 – 

730. 

Jaaskelainen, T., Toyooka, S., Izawa, S., Kadono, H. (1992) Color classification by 

vector subspace method and its optical implementation using liquid crystal spatial 

light modulator. Optics Communications 89 (1), 23 – 29. 

Jain, A.K., Dubes, R.C. (1988) Algorithms for Clustering Data. Prentice Hall, 

New Jersey. 

Kaiser, P.K., Boynton, R.M. (1996) Human Color Vision, 2nd ed. Optical Society 

of America, Washington DC. 

57

Kaukoranta, T., Fränti, P., Nevalainen, O. (1998) Fast and space efficient PNN 

algorithm with delayed distance calculations. Proceedings of the 8th International 

Conference on Computer Graphics and Visualization (GraphiCon’98), Moscow, 

Russia, 239-244. 

Kohonen, T. (1982) Self-organized formation of topologically correct feature 

maps. Biological Cybernetics 43, 59 – 69. 

Kohonen, T. (1990) The Self-Organizing Map. Proceedings of the IEEE 78 (9), 

1464 – 1480. 

Kohonen, T. (1993a) Physiological Interpretation of the Self-Organizing Map Algorithm. 

Neural Networks 6 (8), 895 – 905. 

Kohonen, T. (1993b) Things You Haven’t Heard about the Self-Organizing Map. 

Proceedings of International Conference on Neural Networks (ICNN’93), Piscataway, 

NJ, 1147 – 1156. 

Kohonen, T. (1997) Self-Organizing Maps. Springer-Verlag, Berlin Heidelberg. 

Kohonen, T. (1998) The self-organizing map. Neurocomputing 21 (1-3), 1–6. 

Kohonen, T. (2002) SOM Implementation in SOM Toolbox. 

http://www.cis.hut.fi/projects/somtoolbox/ (15.3.2002). 

Koikkalainen, P. (1994) Progress with the tree-structured self-organizing 

map. Proceedings of the 11th European Conference on Artificial Intelligence 

(ECAI’94), Wiley & Sons, 211 – 215. 

Koikkalainen, P. (2002) Tilastollisen hahmontunnistuksen perusteet. 

http://erin.mit.jyu.fi/pako/kurssit/th2000/ (10.3.2002). 

Lenz, R., Österberg, M., Hiltunen, J., Jaaskelainen, T., Parkkinen, J. (1996) Unsupervised 

filtering of color spectra. Journal of the Optical Society of America A 13 

(7), 1315 – 1324. 

58

Linde, Y., Buzo, A., Gray, R.M. (1980) An Algorithm for Vector Quantizer Design. 

IEEE Transactions on Communications 28 (1), 84 – 95. 

McCamy, C.S., Marcus, H., Davidson, J.G. (1976) A Color rendition chart. Journal 

of Applied Photographic Engineering 2, 95 – 99. 

McQueen, J. (1967) Some methods of classification and analysis of multivariate 

observations. Proceedings of the Fifth Berkeley Symposium on Mathemtical Statistics 

and Probability, 281 – 297. 

Miyazawa, K., Hauta-Kasari, M., Toyooka, S. (2001) Rewritable Broad-Band Color 

Filters for Spectral Image Analysis. Optical Review 8 (2), 112 – 119. 

Munsell (1976) Munsell Book of Color, Matte Finish Collection. Munsell Color, 

Baltimore. 

Murakami, Y., Takashi, O., Yamaguchi, M., Ohyama, N., Komiya, Y. (2001) 

Spectral reflectance estimation from multi-band image using color chart. Optics 

Communications 188,47–54. 

Parkkinen, J., Jaaskelainen, T. (1987) Color representation using statistical pattern 

recognition. Applied Optics 26 (19), 4240 – 4245. 

Parkkinen, J.P.S., Hallikainen, J., Jaaskelainen, T. (1989) Characteristic spectra of 

Munsell colors. Journal of the Optical Society of America A 6 (2), 318 – 322. 

Schalkoff, R. (1992 ) Pattern Recognition: Statistical, Structural and Neural Approaches. 

John Wiley & Sons, New York. 

Sharma, G., Trussell, H.J., Vrhel, M.J. (1998) Optimal Nonnegative Color Scanning 

Filters. IEEE Transactions on Image Processing 7 (1), 129 – 133. 

Theodoridis, S., Koutroumbas, K. (1998) Pattern Recognition. Academic Press, 

San Diego. 

59

Tominaga, S. (1996) Multichannel vision system for estimating surface and illumination 

functions. Journal of the Optical Society of America A 13 (11), 2163 – 

2173. 

Tsumura, N., Sato, H., Hasegawa, T., Haneishi, H., Miyake, Y. (1999) Limitation 

of Color Samples for Spectral Estimation from Sensor Responses in Fine Art 

Painting. Optical Review 6 (1), 57 – 61. 

Vora, P.L., Trussell, H.J. (1993) Measure of goodness of a set of color-scanning 

filters. Journal of the Optical Society of America A 10 (7), 1499 – 1508. 

Vora, P.L., Trussell, H.J. (1997a) Mathematical Methods for the Design of Color 

Scanning Filters. IEEE Transactions on Image Processing 6 (2), 312 – 320. 

Vora, P.L., Trussell, H.J. (1997b) Mathematical Methods for the Analysis of Color 

Scanning Filters. IEEE Transactions on Image Processing 6 (2), 321 – 327. 

Vrhel, M.J., Trussell, H.J. (1992) Color correction using principal components. 

Color Research and applications 17 (5), 328 – 338. 

Vrhel, M.J., Trussell, H.J. (1994) Filter Considerations in Color Correction. IEEE 

Transactions on Image Processing 3 (2), 147 – 161. 

Vrhel, M.J., Trussell, H.J. (1995) Optimal Color Filters in the Presence of Noise. 

IEEE Transactions on Image Processing 4 (6), 814 – 823. 

Vrhel, M.J., Trussell, H.J., Bosch, J. (1995) Design and realization of optimal 

color filters for multi-illuminant color correction. Journal of Electronic Imaging 4 

(1), 6 – 14. 

Wyszecki, G., Stiles, W.S. (1982) Color Science: Concepts and Methods, Quantitative 

Data and Formulae, 2nd ed. John Wiley & Sons, New York. 

Zhang, X., Wandell, B.A. (1996) A Spatial Extension of CIELAB for Digital Color 

Image Reproduction. Proceedings, Society for Information Display Symposium 

Tecnical Digest 27, 731 – 734. 

60

Liite 1: Esimerkki Munsell-värikirjan sivusta 

Kuva 15: Munsell-värikirjan sivu, 5G. 

61

Liite 2: Macbeth-väritaulu 

Kuva 16: GretagMacbeth ColorChecker -väriesitystaulu. 

62

Liite 3: Munsell-tietokannan virheanalyysi 

Taulukko 15: Munsell-tietokannan pienimmät rekonstruointivirheet. 

63

Taulukko 16: Munsell-tietokannan keskimääräiset rekonstruointivirheet. 

64

Taulukko 17: Munsell-tietokannan suurimmat rekonstruointivirheet. 

65

Taulukko 18: Munsell-tietokannan keskimääräiset neliövirheet. 

66

Taulukko 19: Munsell-tietokannan värivirheet. 

67

Liite 4: Macbeth-tietokannan virheanalyysi 

Taulukko 20: Macbeth-tietokannan pienimmät rekonstruointivirheet. 

68

Taulukko 21: Macbeth-tietokannan keskimääräiset rekonstruointivirheet. 

69

Taulukko 22: Macbeth-tietokannan suurimmat rekonstruointivirheet. 

70

Taulukko 23: Macbeth-tietokannan keskimääräiset neliövirheet. 

71

Taulukko 24: Macbeth-tietokannan värivirheet. 

72

Liite 5: Macbeth-tietokannan spektrit 

1 

1 

1 

1 

1 

1 

1 2 3 4 5 6 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 

0 

0 

0 

0 

0 

0 

400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 

1 

1 

1 

1 

1 

1 

7 8 9 10 11 12 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 

0 

0 

0 

0 

0 

0 

400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 

1 

1 

1 

1 

1 

1 

13 14 15 16 17 18 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 

0 

0 

0 

0 

0 

0 

400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 

1 

1 

1 

1 

1 

1 

20 21 22 23 24 

0.5 

0.5 

0.5 

0.5 

0.5 

0.5 

19 

0 

0 

0 

0 

0 

0 

400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 400 500 600 700 

Kuva 17: Macbeth-tietokannan spektrit Macbeth-väritaulun mukaisessa järjestyksessä. 

73

Liite 6: Ryhmien keskustat a b -koordinaatistossa 

80 

80 

60 

60 

40 

40 

20 

20 

b* 

b* 

0 

0 

−20 

−20 

−40 

−40 

−60 

−60 −40 −20 0 20 40 60 

a* 

−60 

−60 −40 −20 0 20 40 60 

a) b) 

Kuva 18: a) Munsell-tietokanta, b) SOM -menetelmällä tuotetut väriryhmien keskustat. 

80 

80 

a* 

60 

60 

40 

40 

20 

20 

b* 

b* 

0 

0 

−20 

−20 

−40 

−40 

−60 

−60 −40 −20 0 20 40 60 

a* 

−60 

−60 −40 −20 0 20 40 60 

a) b) 

Kuva 19: a) C-means -menetelmällä tuotetut väriryhmien keskustat, b) PNN - 

menetelmällä tuotetut väriryhmien keskustat. 

a* 

74

80 

80 

60 

60 

40 

40 

20 

20 

b* 

b* 

0 

0 

−20 

−20 

−40 

−40 

−60 

−60 −40 −20 0 20 40 60 

a* 

−60 

−60 −40 −20 0 20 40 60 

a) b) 

Kuva 20: a) Macbeth-tietokanta, b) SOM -menetelmällä tuotetut väriryhmien keskustat. 

80 

80 

a* 

60 

60 

40 

40 

20 

20 

b* 

b* 

0 

0 

−20 

−20 

−40 

−40 

−60 

−60 −40 −20 0 20 40 60 

a* 

−60 

−60 −40 −20 0 20 40 60 

a) b) 



a* 

75

Liite 7: Ryhmien keskustat xy -koordinaatistossa 

1 

1 

0.9 

0.9 

0.8 

0.8 

0.7 

0.7 

0.6 

0.6 

y 

0.5 

y 

0.5 

0.4 

0.4 

0.3 

0.3 

0.2 

0.2 

0.1 

0.1 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

x 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

a) b) 

Kuva 22: a) Munsell-tietokanta, b) SOM -menetelmällä tuotetut väriryhmien keskustat. 

1 

1 

x 

0.9 

0.9 

0.8 

0.8 

0.7 

0.7 

0.6 

0.6 

y 

0.5 

y 

0.5 

0.4 

0.4 

0.3 

0.3 

0.2 

0.2 

0.1 

0.1 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

x 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

a) b) 



x 

76

1 

1 

0.9 

0.9 

0.8 

0.8 

0.7 

0.7 

0.6 

0.6 

y 

0.5 

y 

0.5 

0.4 

0.4 

0.3 

0.3 

0.2 

0.2 

0.1 

0.1 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

x 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

a) b) 

Kuva 24: a) Macbeth-tietokanta, b) SOM -menetelmällä tuotetut väriryhmien keskustat. 

1 

1 

x 

0.9 

0.9 

0.8 

0.8 

0.7 

0.7 

0.6 

0.6 

y 

0.5 

y 

0.5 

0.4 

0.4 

0.3 

0.3 

0.2 

0.2 

0.1 

0.1 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

x 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

a) b) 



x 

77

Liite 8: Spektrien sijoittuminen ryhmiin 

Munsell-tietokanta sisältää 1269 värispektriä ja Macbeth-tietokanta sisältää 24 värispektriä. 

Näiden spektrien sijoittumista kuuteen ja kahdeksaan ryhmään SOM, 

c-means ja PNN -menetelmillä kuvataan taulukoissa 25 – 28. Taulukot vastaavat 

luvuissa 5.3 – 5.5 esiteltyjä tuloksia. 

Taulukko 25: Spektrien sijoittuminen kuuteen ryhmään Munsell-tietokannan kohdalla, 

käytettäessä SOM-, c-means-, ja PNN- menetelmiä. 

Menetelmä 1 2 3 4 5 6 

SOM 131 174 175 454 210 125 

c-means 131 126 342 311 200 159 

PNN 129 107 322 349 164 198 

Taulukko 26: Spektrien sijoittuminen kahdeksaan ryhmään Munsell-tietokannan 

kohdalla, käytettäessä SOM-, c-means-, ja PNN- menetelmiä. 

Menetelmä 1 2 3 4 5 6 7 8 

SOM 88 131 135 298 287 95 119 116 

c-means 74 134 139 294 285 109 119 115 

PNN 89 125 131 335 272 82 106 129 

Taulukko 27: Spektrien sijoittuminen kuuteen ryhmään Macbeth-tietokannan kohdalla, 

käytettäessä SOM-, c-means-, ja PNN- menetelmiä. 

Menetelmä 1 2 3 4 5 6 

SOM 4 8 3 3 2 4 

c-means 4 7 2 6 2 3 

PNN 2 6 3 5 4 4 

78

Taulukko 28: Spektrien sijoittuminen kahdeksaan ryhmään Macbeth-tietokannan 

kohdalla, käytettäessä SOM-, c-means-, ja PNN- menetelmiä. 

Menetelmä 1 2 3 4 5 6 7 8 

SOM 3 1 3 6 2 2 4 3 

c-means 4 1 2 7 2 2 3 3 

PNN 2 2 3 6 2 1 3 5 

79

Liite 9: Ohjelmakoodi 

80

Printed by Pasi Karttunen 

May 28, 02 10:35 koodit.txt 

Page 1/10 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% Spektri, Pasi T. Karttunen, 8.8.2001 − 4.3.2002. 


Page 2/10 

end 

end 

% Valitaan käytettävä menetelmä. 

menetelma = input(’Valitse menetelmä: (1) PCA, (2) SOM, (3) C−means, 

(4) PNN ’); 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% C−means −algoritmi. 

function [B] = Fcmeans(menetelma, tietokanta, data, lukumaara) 

% Valitaan käytettävä tietokanta. 

tietokanta = input(’Valitse tietokanta: (1) Munsell, (2) Macbeth ’); 

if tietokanta == 1 

load munsell400_700_2; 

data = munsell; 

elseif tietokanta == 2 

load macbeth400_700_2; 

data = macbeth; 

end 

% Valitaan tuotettavien suotimien lukumäärä. 

lukumaara = input(’Valitse suotimien lukumäärä (1 − 151): ’); 

% Ladataan mahdolliset talletetut suotimet. 

lataus = input(’Ladataanko talletetut suotimet (1) Ei, (2) Kyllä: ’); 

if lataus == 1 

if menetelma == 1 

[B] = Fpca(menetelma, tietokanta, data, lukumaara); 

elseif menetelma == 2 

[B] = Fsom(menetelma, tietokanta, data, lukumaara); 


[B] = Fcmeans(menetelma, tietokanta, data, lukumaara); 


[B] = Fpnn(menetelma, tietokanta, data, lukumaara); 

end 

Ftalletus(menetelma, tietokanta, lukumaara, B); 

elseif lataus == 2 

lopetus = 0; 

jatko = 0; 

while lopetus == 0 

tiedosto = num2str(input(’Anna ladattavan tiedoston nimi, ilman 

.mat −päätettä (esim. pcamu5): ’,’s’)); 

nimi = ([tiedosto,’.mat’]); 

if exist(nimi) == 2 

(load(nimi)); 

B = B; 

lopetus = 1; 

else 

disp(’Ei löydy annetun nimistä tiedostoa.’); 

jatko = input(’(1) Yritetään uudella nimellä, (2) Lopetaan: ’); 

if jatko == 2 

lopetus = 1; 

end 

end 

end 

if jatko == 2 

disp(’Käynnistä ohjelma uudestaan!’); 

break; 

else 

% Tulostetaan kantavektorijoukko B. 

Ftulostus(menetelma, tietokanta, data, lukumaara, B); 

% Rekonstruointivirheiden laskeminen ja tulostus. 

Frekonstruktio(menetelma, tietokanta, data, B); 

% Informaatiosisällön laskeminen ja tulostus. 

Finformaatiosisalto(data, lukumaara); 

lkm = lukumaara; 

alkm = lukumaara; 

[x, y] = size(data); 

datanorm = normc(data); 

[temp] = Funify(data, lukumaara); 

mu = datanorm(:,temp(1:lkm)); 

D = zeros(lkm,y); 

kierros = 0; 

old2 = 0; 

ditera = 50; 

% Kysytään c−means −algoritmin maksimikierroksia. 

itera = input([’Anna maksimikierrosten lukumäärä (enter = ’, 

int2str(ditera), ’): ’]); 

if isempty(itera) 

itera = ditera; 

end; 

% C−means −algoritmi. 

for ii = 1:itera 

if lkm < alkm 

apuA = floor(rand*(y−1)); 

randomillaLisattavanIndeksi = apuA + 1; 

muUusiIndeksi = lkm + 1; 

mu(:,muUusiIndeksi) = datanorm(:,randomillaLisattavanIndeksi); 

end 

old = mu; 

kierros = kierros + 1 

% Laskee etäisyydet tunnusvektoreihin. 

for i = 1:lkm, 

D(i,:) = sum((repmat(mu(:,i),1,y) − datanorm).^2); 

end; 

% Siirtää piirrevektorin siihen ryhmään, johon sen etäisyys on pienin. 

if lkm == 1 

classes = ones(1,y); 

else 

[foo, classes] = min(D); 

end; 

% Laskee ryhmien keskiarvot. 

for i = 1:lkm, 

mu(:,i) = mean(datanorm(:,find(classes == i))’)’; 

end; 

mu = mu(:,isnan(sum(mu))==0); 

old = old(:,isnan(sum(mu))==0); 

% Jos ryhmät ovat samat, lopetetaan. 

sum(sum(abs(mu − old))); 

if (old2 == sum(sum(abs(mu − old)))) 

break; 

end; 

old2 = sum(sum(abs(mu − old))); 

if sum(sum(abs(mu − old))) < 0.1; 

end; 

end; 

B = mu; 

break; 

Tuesday May 28, 2002 koodit.txt 

1/5



Page 3/10 

lukumaara = lkm; 


Page 4/10 

function [B] = Fpca(menetelma, tietokanta, data, lukumaara) 





[x,y] = size(data); 

% Korrelaatiomatriisin R ominaisvektorit. 

R = (data*data’)/y; 

[evectors, evalues] = eig(R); 



−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 


function Finformaatiosisalto(data, lukumaara) 


% Korrelaatiomatriisi R. 

R = (data * data’)/y; 

[evectors, evalues] = eig(R); 

% Lajitellaan ominaisvektorit ominaisarvojen mukaan. 

[evsort, evind] = sort(diag(evalues)); 

B = evectors(:,evind(x:−1:1)); 

evals = evsort(evind(x:−1:(x−lukumaara+1))); 

B = B(:,1:lukumaara); 





% Kaikkien ominaisvektoreiden yhteenlaskettu ominaisarvo. 

N = 0; 

for j = 1:x; 

N = N + sum(evalues(:,j)); 

end; 

if lukumaara == 1 

% Ensimmäisten (n) ominaisvektorin ominaisarvot. 

n = 0; 

for i = (x − (1 − 1)):x 

n = n + sum(evalues(:,i)); 

k = n/N; 

end 

IS(:,1) = k; 

else 

% Ensimmäisten (n) ominaisvektorin ominaisarvot. 

end 

for kierros = 1:lukumaara 

n = 0; 

for i = (x − (kierros − 1)):x 

n = n + sum(evalues(:,i)); 

k = n/N; 

end 

IS(:,kierros) = k; 

end 

% Informaatiosisältö. 

[minimi, spektri] = min(IS); 

apu = floor(minimi * 10); 

pohja = apu/10; 


figure;bar(IS); 

else 

figure;bar(IS);axis([1 lukumaara pohja 1]); 

end 

xlabel(’Ominaisvektoreiden määrä’); 

ylabel(’*100 (%)’); 

% Tulostaa informaatiosisällön. 

IS 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% PCA −menetelmä. 



−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% PNN −algoritmi. Hauta−Kasari, M., Karttunen, P. (2002). 

function [B] = Fpnn(menetelma, tietokanta, data, lukumaara) 



spektrit = normc(data); 

S = spektrit; 

[x,y] = size(S); 

clear spektrit; 

vos = 1; % Vuorossa oleva spektri. 

loa = y; % Ensimmäisen while−lauseen lopetusarvo. 

lob = y; % Toisen while−lauseen lopetusarvo. 

kierros = 0; % Alustetaan kierros−muuttuja. 

freq = ones(1,y); % Frekvenssit 

% PNN −algoritmi 

while loa ~= lkm % KUNNES saavutetaan haluttu LKM. 

kierros = kierros + 1 

for iii = 1:lob 

vS = repmat(S(:,iii), [1 lob]); 

em = S − vS; 

apu = sum(em.^2); 

apu = (freq.*freq(iii))./(freq+freq(iii)).*apu; 

[arvo, ind] = sort(apu); 

arvot(iii) = arvo(2); 

indeksit(iii) = ind(2); 

end; 

[minetaisyys,ind] = min(arvot); 

va = ind; 

vb = indeksit(ind); 

% Luodaan va:n ja vb:n korvaava vektori vuusi. 

A(:,1) = S(:,va); 

A(:,2) = S(:,vb); 

AA = ((freq(va)*A(:,1) + freq(vb)*A(:,2))/(freq(va) + freq(vb)))’; 

vuusi = (AA)’; 

% Poistetaan va ja vb. Poistetaan ensin indeksiltään suurempi vektori. 

S(:,vb) = []; 

S(:,va) = vuusi; 


2/5



Page 5/10 

end 

freq(va) = freq(vb) + freq(va); 

freq(vb) = []; 

% Talletetaan vuusi matriisiin S. Vähennetään sarakkeiden määrää. 

arvot = zeros(1,loa−1); 

indeksit = zeros(1,loa−1); 

[arvo, uusikoko] = size(S); 

% Whihe−lauseiden uudet lopetusehdot. 

[apuarvo, lob] = size(S); 

loa = loa − 1; 

vos = 1; 

% Alustetaan matriisi vS ja etaisyys seuraavalle kierrokselle. 

vS = zeros(apuarvo,lob); 

% Tulostetaan frekvenssi. 

freq 

B = S; 





−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% Rekonstruointivirheiden laskeminen ja niiden tulostus. 

function Frekonstruktio(menetelma, tietokanta, data, B) 

%Rekonstruointi 


rdata = B * B’ * data; 

else 

pw = input(’Valitse käytettävä rekonstruointimenetelmä: (1) pi, 

(2) we: ’); 

if pw == 1 

rdata= B * inv(B’ * B) * B’ * data; 

else 

ap = input(’Valitse aprioiridata (1) Munsell, (2) Macbeth: ’); 

if ap == 1 

load munsell400_700_2; 

aprioridata = munsell; 

elseif ap == 2 

load macbeth400_700_2; 

aprioridata = macbeth; 

end 

r = aprioridata; 

v = (B’*r); 

vt = v’; 

Rrv = (r * vt); 

Rvv = (v * vt); 

G = (Rrv * (inv(Rvv))); 

v = (B’ * data); 

rdata = (G * v); 

end 

end 

%Rekonstruointivirheet 


for i = 1:y; 

error = 100 * (norm(rdata(:,i) − data(:,i)) / norm(data(:,i))); 

rvirheet(:,i) = error; 

end; 


Page 6/10 

[maxvirhe, spektrinro] = max(rvirheet); 

katto = ceil(maxvirhe); 

figure(10);subplot(2,2,1);bar(rvirheet);axis([0 y 0 katto]); 

xlabel(’Näytemäärä’); 

ylabel(’Virheprosentti’); 


ttietokanta= (’Munsell’); 

et = 100; 


ttietokanta= (’Macbeth’); 

et = 1; 

end 


tmenetelma = (’PCA’); 


tmenetelma = (’SOM’); 


tmenetelma = (’c−Means’); 


tmenetelma = (’PNN’); 

end 


title([ttietokanta, ’ rekonstruointivirheet ’, ’(’,tmenetelma ’)’]); 

else 

if pw == 1 

rme = (’PI’); 


text(et, (katto − (0.1 * katto)), [rme]); 

end 

elseif pw == 2 

end 

rme = (’WE’); 

if ap == 1 

api = (’Munsell’); 

elseif ap == 2 

api = (’Macbeth’); 

end 


text(et, (katto − (0.1 * katto)), [rme, ’:’, api]); 

%Keskimääräinen Rekonstruointivirhe 

h = 0; 

for j = 1:y; 

h = h + rvirheet(:,j); 

end; 

are = h/j; 

for k = 1:y; 

E(:,k) = abs(are − rvirheet(:,k)); 

end; 

[erotus,lkos] = min(E); 

figure(10);subplot(2,2,2);plot([400:2:700], data(:,lkos)); 

axis([400 700 0 1]);hold on; 

subplot(2,2,2);plot([400:2:700], rdata(:,lkos),’−−’); 

axis([400 700 0 1]);hold off; 

xlabel(’Aallonpituus (nm)’); 

ylabel(’Heijastus’); 

title([’Keskimääräinen rekonstruointivirhe: ’,int2str(lkos)]); 

text(410, 0.9, [’keskiarvo: ’, num2str(are),’%’]); 

%Suurin Rekonstruointivirhe 

[maximi, maspektri] = max(rvirheet); 

figure(10);subplot(2,2,3);plot([400:2:700], data(:,maspektri)); 


3/5



Page 7/10 

axis([400 700 0 1]);hold on; 

subplot(2,2,3);plot([400:2:700], rdata(:,maspektri),’−−’); 

axis([400 700 0 1]);hold off; 



title([’Suurin rekonstruointivirhe:’, int2str(maspektri)]); 

text(410, 0.9, [’maksimi: ’, num2str(maximi),’%’]); 

%Pienin Rekonstruointivirhe 

[minimi, mispektri] = min(rvirheet); 

figure(10);subplot(2,2,4);plot([400:2:700], data(:,mispektri)); 

axis([400 700 0 1]);hold on; 

subplot(2,2,4);plot([400:2:700], rdata(:,mispektri),’−−’); 

axis([400 700 0 1]);hold off; 



title([’Pienin rekonstruointivirhe:’, int2str(mispektri)]); 

text(410, 0.9, [’minimi: ’, num2str(minimi),’%’]); 


Page 8/10 

if alustus == 1 

net=newsom([zeros(x,1) ones(x,1)],[lukumaara],[’hextop’],[’linkdist’], 

[alku],[kesto],[loppu],[1]); 

elseif alustus == 2 

net=newsom([min(datanorm’)’ max(datanorm’)’],[lukumaara],[’hextop’], 

[’linkdist’],[alku],[kesto],[loppu],[1]); 

elseif alustus == 3 

net=newsom([zeros(x,1) ones(x,1)],[lukumaara],[’hextop’],[’linkdist’], 

[alku],[kesto],[loppu],[1]); 

load sp.mat 

net.IW{1,1}(1,:) = normc(sp(:,1))’; 

net.IW{1,1}(lukumaara,:) = normc(sp(:,2))’; 

end 

% Suoritetaan oppiminen 

net.trainParam.epochs = kierrokset; 

net=train(net, datanorm); 

B = (net.IW{1,1})’; 

%Keskimääräinen neliövirhe, MSE 

MSE = 1/y*(sum(sum((data − rdata).^2))) 



%Keskimääräisen neliövirheen neliöjuuri, RMSE 

RMSE = sqrt(1/y*(sum(sum((data − rdata).^2)))) 



Ftulostuslab(tietokanta, data, rdata, B); 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% SOM −algoritmi. 

function [B] = Fsom(menetelma, tietokanta, data, lukumaara) 

[x,y] = size(data); 

datanorm = normc(data); 

% Oletukset. 

dalku = 0.9; 

dloppu = 0.01; 

dkesto = 20000; 

dkierrokset = 100000; 

% Valitaan opetuskertoimen alkuarvo. 

alku = input(’Anna opetuskertoimen alkuarvo: ’); 

% Valitaan opetuskertoimen loppuarvo. 

loppu= input(’Anna opetuskertoimen loppuarvo: ’); 

% Valitaan opetuksen kesto. 

kesto = input([’Anna järjestelyvaiheen kesto kierroksissa 

(’, num2str(dkesto), ’): ’]); 

if isempty(kesto) 

kesto = dkesto; 

end; 

% Valitaan kierroksien määrä. 

kierrokset = input([’Anna kaikkien kierrosten lukumäärä 

(’, num2str(dkierrokset), ’): ’]); 

if isempty(kierrokset) 

kierrokset = dkierrokset; 

end; 

% Valitaan tietokannan alustustapa. 

alustus = input(’(1) 0/1, (2) min/max, (3) Reuna−arvot: ’); 



−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% Suotimien talletus. 

function Ftalletus (menetelma, tietokanta, lukumaara, B) 

talletus = input(’Talletetaanko tuotetut värisuotimet (1) Kyllä, (2) Ei: ’); 

if talletus == 1 

lopetus = 0; 

while lopetus == 0 

tiedosto = input(’Anna talletettavan tiedoston nimi, ilman 

.mat päätettä: ’,’s’); 

nimi = ([tiedosto,’.mat’]) 

if exist(nimi) == 2 

huom = input(’Talletetaanko entisen päälle (1) Ei, (2) Kyllä: ’); 

if huom == 1 

lopetus = 0; 

elseif huom == 2 

save(nimi,’B’) 

lopetus = 1; 

end 

else 

save(nimi,’B’) 

end 

end 

end 

lopetus = 1; 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% Suotimien tulostus. 

function Ftulostus(menetelma, tietokanta, data, lukumaara, B) 

% Määritellään tulostuksessa käytettävät asteikot ja otsikot. 


xx = −0.2; 

yy = 0.2; 


4/5



Page 9/10 


xx = 0; 

yy = 0.2; 

else 

xx = 0; 

yy = 0.2; 

end 


nimi = (’PCA’); 


nimi = (’SOM’); 


nimi = (’c−Means’); 


nimi = (’Pnn’); 

end 

nop = 4; % Yhteen kuvaan tulostettavien suotimien oletusmäärä. 

numero = 1; 

apu = 1; 

% Suotimien lukumäärä 1. 


figure(1);subplot(2,2,1);plot([400:2:700], B(:,apu)); 

axis([400 700 xx yy]);apu = apu + 1; 

title([nimi,’: nro.’,int2str(numero),’/’, num2str(lukumaara)]); 


% Suotimien lukumäärä välillä 2 − 4. 

elseif lukumaara < (nop + 1) 

for h = 1:lukumaara 

figure(1);subplot(2,2,h);plot([400:2:700], B(:,apu)); 




numero = numero + 1; 

end 

% Suotimien lukumäärä välillä 5 −>. 

elseif lukumaara > nop 

for k = 1:(floor(lukumaara/nop)) 

for i = 1:nop 

figure(k);subplot(2,2,i);plot([400:2:700], B(:,apu)); 




numero = numero+1; 

end 

end 

lisa = (lukumaara−(floor(lukumaara/nop))*nop); 

for l = 1:lisa 

figure(k+1);subplot(2,2,l);plot([400:2:700], B(:,apu)); 

axis([400 700 xx yy]);apu = apu+1; 



numero = numero+1; 

end 

end 


Page 10/10 

specset = munsell; 


load macbeth400_700_2.mat; 

specset = macbeth; 

end 

wrang = [400:2:700]; 

filters = B; 

c11=colors([wrang’ specset]); 

c22=colors([wrang’ filters]); 

figure,cspace(’xyY’,0,c11,1); 

figure,cspace(’xyY’,0,c22,1); 

c11=colors([wrang’ data]); 

c22=colors([wrang’ rdata]); 

deltaL = c11(10,:) − c22(10,:); 

deltaa = c11(11,:) − c22(11,:); 

deltab = c11(12,:) − c22(12,:); 

deltaE = sqrt(deltaL.^2 + deltaa.^2 + deltab.^2); 

deltaE_avg = mean(deltaE) 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% Satunnaisten valintojen tekeminen opetusjoukosta. 

function [temp] = Funify(data, lukumaara) 


temp = zeros(1,lkm); 

for i=1:lkm; 

temp1 = round(rand*size(data,2)); 

while(isempty(find(temp == temp1)) == 0) 

temp1 = round(rand*size(data,2)); 

end; 

temp(i) = temp1; 

end; 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% Naapurusto ja opetuskerroin (muokkaus learnsom.m −tiedostoon). 

... 

if (ls.step < lp.order_steps) 

nd = 1.00001; 

ao = lp.order_lr; % Järjestelyvaiheen opetuskerroin. 

at = lp.tune_lr; % Hienosäätövaiheen opetuskerroin. 

t = ls.step; 

T = lp.order_steps; 

lr = ao * (at/ao)^(t/T); %Power series opetuskerroin. 

else 

lp.tune_nd = 0; 

nd = lp.tune_nd + 0.00001; 

lr = lp.tune_lr * lp.order_steps/ls.step; 

end 

if (mod(ls.step,1000) == 0) 

lr 

nd 

olr((ls.step/1000) + 1) = lr; 

end 

figure(50);plot(olr);axis([1 100 0 1]); 

... 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 

% Suotimien tulostus Lab −koordinaatistoon. 

function Ftulostuslab(tietokanta, data, rdata, B) 

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− 


load munsell400_700_2.mat; 


5/5

Pasi Karttunen - Joensuu

Create successful ePaper yourself

Delete template?

Save as template?