10.07.2015 Views

Elektroniski sagatavots arī Vidzemes Augstskolas 4. Studentu

Elektroniski sagatavots arī Vidzemes Augstskolas 4. Studentu

Elektroniski sagatavots arī Vidzemes Augstskolas 4. Studentu

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

184 185Nākamajā solī tiek noteikta optimālā klasteru struktūra, katrā apakškopā T i’ nošķirot dažādus klasteruapvienojumus ar klasifikācijas algoritmu C<strong>4.</strong>5 un CART palīdzību. Vislabākā struktūra ir tā, kurasapakšklasterus nošķir ar vismazāko kļūdu. Tad katram ierakstam tiek piešķirta jaunās klases iezīmey j’, kas atbilst klasteru kombinācijām un no kuras var izgūt sākotnējo klases iezīmi, iegūstot modificētuapakškopu Ti′ = {(x, yj’)}.Tad visas apakškopas tiek apvienotas kopā T′=i=1kTi′, kurā tiek veikta klasifikācija. Lai novērtētuklasifikācijas rezultātus, jaunās iezīmes tiek konvertētas uz sākotnējām klasēm.Lai klasifikatoru veidošanas laikā izmantotu sakarības atribūtu vērtību starpā, tās ir jāattēlo saprotamāveidā. Šajā gadījumā saišu attēlošanai tiek izmantota taksonomija (hierarhiska ontoloģija, kas izmantoIS-A saites). Ir vairāki veidi, kā iegūt taksonomijas, taču šajā pētījumā tika izmantotas manuālās unalgoritma AVT-Learner izveidotās taksonomijas.Manuālās taksonomijas tiek sastādītas, izmantojot informāciju par domēnu, kas ir pieejama vai iegūta,izmantojot statistisko datu analīzi.Lai izmantotu taksonomijas lēmumu koku projektēšanā, tika izlietots algoritms ODT (Zhang, Silvescu,Honavar, 2002). Pieņemsim, ka ir dota datu kopa S ar atribūtu kopu A={A 1, A 2, ..., A n} un klašu kopu C={ C 1,C 2, ..., C m}, tad katram atribūtam ir taksonomija kopā T={T 1, T 2, ..., T n}. Katra taksonomijas lapas virsotnesašķel datu kopu apakškopās, kurās katrai pieder k rādītāji uz k konceptiem k taksonomijās.Algoritms izvēlas atribūtu datu sašķelšanai tā, lai būtu maksimāls entropijas samazinājums. Tas sastāvno šādiem soļiem:1. ja visi ieraksti datu kopā S pieder vienai klasei, tiek atgriezts klases nosaukums vienas lapasveidā;2. pretējā gadījumā ar Gain mēra palīdzību tiek noteikts labākais atribūts un koncepts datu kopasšķelšanai;3. šķelšanas kritēriji ir izvēlētā koncepta pēcteči;<strong>4.</strong> datu kopu S sašķel atbilstoši izvēlētajiem kritērijiem;5. algoritms atkārto iepriekšējos soļus, lai izveidotu apakškokus.Griezumam taksonomijā katrai lapas virsotnei l ir jāatbilst šādiem nosacījumiem: l pieder griezumam vaiir virsotnes, kas pieder griezumam, pēctecis, un jebkuras divas virsotnes, kas pieder griezumam, navpriekšteči vai pēcteči viena otrai.ir nedaudz uzlabojusies – nepareizi klasificēti vien seši ieraksti astoņu vietā, taču klasifikācijas kokaizmērs ir palielinājies, jo nepieciešams klasificēt vairāk klasēs nekā sākotnējos datos. Atribūtu vērtībudekompozīcijas izmantošana uzlaboja veiktspēju vēl vairāk, samazinot arī klasifikatora izmēru, jo tiekizmantotas augstāka abstrakcijas līmeņa atribūtu vērtības, kas arī novērš pārapmācības iespēju.1. tabula. Klasifikācijas rezultāti Īrisu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsBez AVT un KD 5,33% 8 19 17KD 4% 6 46 41AVT 3,33% 5 11 8LapasKlasifikācijas rezultāti Zīļu datu kopai redzami 2. tabulā. Izmantojot klašu dekompozīciju, klasifikācijasprecizitāte uzlabojusies par 5%, taču arī šajā gadījumā klasifikācijas koka izmērs ir palielinājies, josākotnējā klasifikācijā izmantota klasifikācija, kas visiem ierakstiem piešķir vienu un to pašu klasi.Izmantojot atribūtu vērtību taksonomiju, precizitāte uzlabojās vēl vairāk, lai arī koks palielinājās,salīdzinot ar sākotnējo klasifikāciju.2. tabula. Klasifikācijas rezultāti Zīļu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsBez AVT un KD 28,21 % 11 1 1KD 23,08 % 9 13 12AVT 20,51 % 8 5 4LapasPētījuma metodeTā kā nav pieejama pietiekama teorētiskā informācija par sistēmas izveides gaitā izmantojamāmpieejām (konkrētas prasības meta-informācija u.tml.) un meta-informācijas un datu struktūras ietekmiuz klasifikatoru efektivitāti, ir nepieciešami eksperimentāli pētījumi. Šajā darbā tiek veikti eksperimentiar mērķi noskaidrot, vai datu iekšējā struktūra ietekmē klasifikatoru efektivitāti un kādas ir klasifikatoruveiktspējas izmaiņas ar un bez papildus informācijas izmantošanas klasifikatoru konstruēšanā.Klasifikācijas rezultāti Lapgraužu datu kopai parādīti 3. tabulā. Var redzēt, ka klašu dekompozīcijasizmantošana uzlaboja klasifikācijas precizitāti, lai gan koka izmērs ir palicis tāds pats. Savukārtatribūtu vērtību taksonomijas izmantošana ievērojami uzlaboja klasifikācijas precizitāti, samazinot arīklasifikatora izmēru, kas saistīts ar atribūtu augstāku abstrakcijas līmeņu vērtību izmantošanu, kas ļaujizmantot vairāk atribūtu, un īpatnējo datu kopas struktūru, kurā klases ir labi atdalāmas, taču nelielāierakstu skaita dēļ klasifikācijas kļūda ir lielāka, neizmantojot atribūtu vērtību taksonomijas.RezultātiAbas metodoloģijas tika izlietotas darbā ar trīs datu kopām – Īrisa ziedu, Zīļu un Lapgraužu datukopām. 1. tabulā var redzēt Īrisa ziedu klasifikācijas rezultātus, izmantojot katru no metodoloģijāmun bez to izmantošanas. Var redzēt, ka, izmantojot klašu dekompozīciju, klasifikatora efektivitāte<strong>Vidzemes</strong> <strong>Augstskolas</strong> <strong>4.</strong><strong>Studentu</strong> pētniecisko darbu konferences rakstu krājums<strong>Vidzemes</strong> <strong>Augstskolas</strong> <strong>4.</strong><strong>Studentu</strong> pētniecisko darbu konferences rakstu krājums

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!