11.07.2015 Views

Å eit - Vidzemes Augstskola

Å eit - Vidzemes Augstskola

Å eit - Vidzemes Augstskola

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

184 185Hierarhiskā aglomeratīvā klasterizācijaHierarhiskās aglomeratīvās klasterizācijas metode veic hierarhisku datu dekompozīciju, apvienojotatsevišķus ierakstus apakškopās (klasteros), līdz visi ieraksti pieder vienai kopai.Par ierakstu līdzības mēru, pēc kura apvienot ierakstus, var tikt izmantotas dažādi mēri (Han, Kamber,2006). Šajā darbā tika izmantots Eiklīda attālums, kas starp diviem punktiem A = (a1, a2, …, an) un B = (b1,b2, …, bn) n dimensiju telpā tiek izteikts šādi:da,b=i=1n(ai2−bi2), (6)Ierakstu grupu apvienošanai tiek ņemts vērā attālums starp klasteriem. Šajā darbā tika izmantots Vardaattālums (Ward, 1963), kas par saites funkciju izvēlas kvadrātiskās summētās kļūdas pieaugumu, kasrodas, apvienojot klasterus, un kuru var izteikt šādi:ESS(Sl)=i=1nlxi−x2, (7)bet attālums starp klasteriem ir starpība starp kļūdu, kas raksturo apvienoto klasteri, un kļūdām, kasraksturo katru atsevišķo klasteri:AVT-LearnerdSl,Sm=ESSSl Sm−[ESSSl+ESSSm]. (8)Šis algoritms balstās uz hierarhisko aglomeratīvo klasterizāciju, kas klasterizē atribūtu vērtības,pamatojoties uz klašu sadalījumu (Kang, Silvescu, Zhang, Honavar, 2004). Respektīvi, katrai atribūtaAi vērtībai vij tiek noteikta varbūtība p(ck|vij) katrai klasei ck no klašu kopas C, nosakot klašu varbūtībusadalījumu katrai atribūta vērtībai vij:P(C|vij)=pc1vij, …, pckvij, (9)Tālāk tiek meklēta tuvākā vērtība, kuru var pievienot noteiktai atribūta β vērtībai, lai izveidotu klasteri unvēlāk arī hierarhiju. Par attāluma mēru var tikt pieņemts jebkurš sadalījumu pāru diverģences mērs.Šajā darbā tiek izmantota diverģence, kas pēc savas būtības ir svērts Information gain. Diverģencidiviem varbūtību sadalījumiem βp(C|vix) un Q(C|viy) var aprēķināt pēc šādas formulas:D(P||Q)=12pilog2pipi+qi+qilog2qipi+qi, (10)Kad visiem pāriem ir noteikti savstarpējie attālumi, tiek apvienotas atribūta vērtības vai apakšklasteri,kuriem ir vismazākā savstarpējā diverģence. Pēc apvienošanas tiek pārrēķināts klašu varbūtībusadalījums un diverģence starp apvienoto klasteri un pārējām atribūta vērtībām vai apakšklasteriem.Šis process tiek atkārtots līdz brīdim, kad visas vērtības ir apvienotas vienā kopējā klasterī.Metodoloģiju aprakstsKlašu dekompozīcija izmanto klasterizāciju, lai iegūtu tādu meta-informāciju kā augsta blīvumaapgabali klašu iekšienē. Pirmajā solī datu kopu T={(x,y)}, kur x = {x 1, x 2, …, x n) ir n-dimensionāls vektors, kasapraksta datu kopas objektu un y Є{ y 1, y 2, ..., y m} ir klases iezīme, sašķeļ apakškopās T 1, T 2, …, T ktā, lai visiapakškopas ieraksti piederētu vienai klasei T i= {(x, y i)} un i = 1 ... m , kā arī katrs sākotnējās datu kopasieraksts pieder tieši vienai apakškopai.Katrā apakškopā tiek veikta hierarhiskā aglomeratīvā klasterizācija. Šī metode tika izvēlēta, jo tai navnepieciešama apriora informācija par klasteru skaitu un struktūru un tā palīdz noteikt optimālo klasteruskaitu (vistālāk atrodošies klasteri kādā no apvienojumiem). Pēc klasterizācijas veikšanas un optimālāklasteru skaita noteikšanas katram ierakstam, tiek piešķirta jauna klases iezīme, kas atbilst klasterim,iegūstot modificētas apakškopas T i’.Nākamajā solī tiek noteikta optimālā klasteru struktūra, katrā apakškopā T i’ nošķirot dažādus klasteruapvienojumus ar klasifikācijas algoritmu C4.5 un CART palīdzību. Vislabākā struktūra ir tā, kurasapakšklasterus nošķir ar vismazāko kļūdu. Tad katram ierakstam tiek piešķirta jaunās klases iezīmey j’, kas atbilst klasteru kombinācijām un no kuras var izgūt sākotnējo klases iezīmi, iegūstot modificētuapakškopu Ti′ = {(x, yj’)}.Tad visas apakškopas tiek apvienotas kopā T′=i=1kTi′, kurā tiek veikta klasifikācija. Lai novērtētuklasifikācijas rezultātus, jaunās iezīmes tiek konvertētas uz sākotnējām klasēm.Lai klasifikatoru veidošanas laikā izmantotu sakarības atribūtu vērtību starpā, tās ir jāattēlo saprotamāveidā. Šajā gadījumā saišu attēlošanai tiek izmantota taksonomija (hierarhiska ontoloģija, kas izmantoIS-A saites). Ir vairāki veidi, kā iegūt taksonomijas, taču šajā pētījumā tika izmantotas manuālās unalgoritma AVT-Learner izveidotās taksonomijas.Manuālās taksonomijas tiek sastādītas, izmantojot informāciju par domēnu, kas ir pieejama vai iegūta,izmantojot statistisko datu analīzi.Lai izmantotu taksonomijas lēmumu koku projektēšanā, tika izlietots algoritms ODT (Zhang, Silvescu,Honavar, 2002). Pieņemsim, ka ir dota datu kopa S ar atribūtu kopu A={A 1, A 2, ..., A n} un klašu kopu C={ C 1,C 2, ..., C m}, tad katram atribūtam ir taksonomija kopā T={T 1, T 2, ..., T n}. Katra taksonomijas lapas virsotnesašķel datu kopu apakškopās, kurās katrai pieder k rādītāji uz k konceptiem k taksonomijās.Algoritms izvēlas atribūtu datu sašķelšanai tā, lai būtu maksimāls entropijas samazinājums. Tas sastāvno šādiem soļiem:1. ja visi ieraksti datu kopā S pieder vienai klasei, tiek atgriezts klases nosaukums vienas lapasveidā;2. pretējā gadījumā ar Gain mēra palīdzību tiek noteikts labākais atribūts un koncepts datu kopasšķelšanai;3. šķelšanas kritēriji ir izvēlētā koncepta pēcteči;4. datu kopu S sašķel atbilstoši izvēlētajiem kritērijiem;5. algoritms atkārto iepriekšējos soļus, lai izveidotu apakškokus.Griezumam taksonomijā katrai lapas virsotnei l ir jāatbilst šādiem nosacījumiem: l pieder griezumam vaiir virsotnes, kas pieder griezumam, pēctecis, un jebkuras divas virsotnes, kas pieder griezumam, navpriekšteči vai pēcteči viena otrai.Pētījuma metodeTā kā nav pieejama pietiekama teorētiskā informācija par sistēmas izveides gaitā izmantojamāmpieejām (konkrētas prasības meta-informācija u.tml.) un meta-informācijas un datu struktūras ietekmiuz klasifikatoru efektivitāti, ir nepieciešami eksperimentāli pētījumi. Šajā darbā tiek veikti eksperimentiar mērķi noskaidrot, vai datu iekšējā struktūra ietekmē klasifikatoru efektivitāti un kādas ir klasifikatoruveiktspējas izmaiņas ar un bez papildus informācijas izmantošanas klasifikatoru konstruēšanā.RezultātiAbas metodoloģijas tika izlietotas darbā ar trīs datu kopām – Īrisa ziedu, Zīļu un Lapgraužu datukopām. 1. tabulā var redzēt Īrisa ziedu klasifikācijas rezultātus, izmantojot katru no metodoloģijāmun bez to izmantošanas. Var redzēt, ka, izmantojot klašu dekompozīciju, klasifikatora efektivitāte<strong>Vidzemes</strong> <strong>Augstskola</strong>s 4.Studentu pētniecisko darbu konferences rakstu krājums<strong>Vidzemes</strong> <strong>Augstskola</strong>s 4.Studentu pētniecisko darbu konferences rakstu krājums

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!