Å eit - Vidzemes Augstskola

More documents

Recommendations

Info

184 185Hierarhiskā aglomeratīvā klasterizācijaHierarhiskās aglomeratīvās klasterizācijas metode veic hierarhisku datu dekompozīciju, apvienojotatsevišķus ierakstus apakškopās (klasteros), līdz visi ieraksti pieder vienai kopai.Par ierakstu līdzības mēru, pēc kura apvienot ierakstus, var tikt izmantotas dažādi mēri (Han, Kamber,2006). Šajā darbā tika izmantots Eiklīda attālums, kas starp diviem punktiem A = (a1, a2, …, an) un B = (b1,b2, …, bn) n dimensiju telpā tiek izteikts šādi:da,b=i=1n(ai2−bi2), (6)Ierakstu grupu apvienošanai tiek ņemts vērā attālums starp klasteriem. Šajā darbā tika izmantots Vardaattālums (Ward, 1963), kas par saites funkciju izvēlas kvadrātiskās summētās kļūdas pieaugumu, kasrodas, apvienojot klasterus, un kuru var izteikt šādi:ESS(Sl)=i=1nlxi−x2, (7)bet attālums starp klasteriem ir starpība starp kļūdu, kas raksturo apvienoto klasteri, un kļūdām, kasraksturo katru atsevišķo klasteri:AVT-LearnerdSl,Sm=ESSSl Sm−[ESSSl+ESSSm]. (8)Šis algoritms balstās uz hierarhisko aglomeratīvo klasterizāciju, kas klasterizē atribūtu vērtības,pamatojoties uz klašu sadalījumu (Kang, Silvescu, Zhang, Honavar, 2004). Respektīvi, katrai atribūtaAi vērtībai vij tiek noteikta varbūtība p(ck|vij) katrai klasei ck no klašu kopas C, nosakot klašu varbūtībusadalījumu katrai atribūta vērtībai vij:P(C|vij)=pc1vij, …, pckvij, (9)Tālāk tiek meklēta tuvākā vērtība, kuru var pievienot noteiktai atribūta β vērtībai, lai izveidotu klasteri unvēlāk arī hierarhiju. Par attāluma mēru var tikt pieņemts jebkurš sadalījumu pāru diverģences mērs.Šajā darbā tiek izmantota diverģence, kas pēc savas būtības ir svērts Information gain. Diverģencidiviem varbūtību sadalījumiem βp(C|vix) un Q(C|viy) var aprēķināt pēc šādas formulas:D(P||Q)=12pilog2pipi+qi+qilog2qipi+qi, (10)Kad visiem pāriem ir noteikti savstarpējie attālumi, tiek apvienotas atribūta vērtības vai apakšklasteri,kuriem ir vismazākā savstarpējā diverģence. Pēc apvienošanas tiek pārrēķināts klašu varbūtībusadalījums un diverģence starp apvienoto klasteri un pārējām atribūta vērtībām vai apakšklasteriem.Šis process tiek atkārtots līdz brīdim, kad visas vērtības ir apvienotas vienā kopējā klasterī.Metodoloģiju aprakstsKlašu dekompozīcija izmanto klasterizāciju, lai iegūtu tādu meta-informāciju kā augsta blīvumaapgabali klašu iekšienē. Pirmajā solī datu kopu T={(x,y)}, kur x = {x 1, x 2, …, x n) ir n-dimensionāls vektors, kasapraksta datu kopas objektu un y Є{ y 1, y 2, ..., y m} ir klases iezīme, sašķeļ apakškopās T 1, T 2, …, T ktā, lai visiapakškopas ieraksti piederētu vienai klasei T i= {(x, y i)} un i = 1 ... m , kā arī katrs sākotnējās datu kopasieraksts pieder tieši vienai apakškopai.Katrā apakškopā tiek veikta hierarhiskā aglomeratīvā klasterizācija. Šī metode tika izvēlēta, jo tai navnepieciešama apriora informācija par klasteru skaitu un struktūru un tā palīdz noteikt optimālo klasteruskaitu (vistālāk atrodošies klasteri kādā no apvienojumiem). Pēc klasterizācijas veikšanas un optimālāklasteru skaita noteikšanas katram ierakstam, tiek piešķirta jauna klases iezīme, kas atbilst klasterim,iegūstot modificētas apakškopas T i’.Nākamajā solī tiek noteikta optimālā klasteru struktūra, katrā apakškopā T i’ nošķirot dažādus klasteruapvienojumus ar klasifikācijas algoritmu C4.5 un CART palīdzību. Vislabākā struktūra ir tā, kurasapakšklasterus nošķir ar vismazāko kļūdu. Tad katram ierakstam tiek piešķirta jaunās klases iezīmey j’, kas atbilst klasteru kombinācijām un no kuras var izgūt sākotnējo klases iezīmi, iegūstot modificētuapakškopu Ti′ = {(x, yj’)}.Tad visas apakškopas tiek apvienotas kopā T′=i=1kTi′, kurā tiek veikta klasifikācija. Lai novērtētuklasifikācijas rezultātus, jaunās iezīmes tiek konvertētas uz sākotnējām klasēm.Lai klasifikatoru veidošanas laikā izmantotu sakarības atribūtu vērtību starpā, tās ir jāattēlo saprotamāveidā. Šajā gadījumā saišu attēlošanai tiek izmantota taksonomija (hierarhiska ontoloģija, kas izmantoIS-A saites). Ir vairāki veidi, kā iegūt taksonomijas, taču šajā pētījumā tika izmantotas manuālās unalgoritma AVT-Learner izveidotās taksonomijas.Manuālās taksonomijas tiek sastādītas, izmantojot informāciju par domēnu, kas ir pieejama vai iegūta,izmantojot statistisko datu analīzi.Lai izmantotu taksonomijas lēmumu koku projektēšanā, tika izlietots algoritms ODT (Zhang, Silvescu,Honavar, 2002). Pieņemsim, ka ir dota datu kopa S ar atribūtu kopu A={A 1, A 2, ..., A n} un klašu kopu C={ C 1,C 2, ..., C m}, tad katram atribūtam ir taksonomija kopā T={T 1, T 2, ..., T n}. Katra taksonomijas lapas virsotnesašķel datu kopu apakškopās, kurās katrai pieder k rādītāji uz k konceptiem k taksonomijās.Algoritms izvēlas atribūtu datu sašķelšanai tā, lai būtu maksimāls entropijas samazinājums. Tas sastāvno šādiem soļiem:1. ja visi ieraksti datu kopā S pieder vienai klasei, tiek atgriezts klases nosaukums vienas lapasveidā;2. pretējā gadījumā ar Gain mēra palīdzību tiek noteikts labākais atribūts un koncepts datu kopasšķelšanai;3. šķelšanas kritēriji ir izvēlētā koncepta pēcteči;4. datu kopu S sašķel atbilstoši izvēlētajiem kritērijiem;5. algoritms atkārto iepriekšējos soļus, lai izveidotu apakškokus.Griezumam taksonomijā katrai lapas virsotnei l ir jāatbilst šādiem nosacījumiem: l pieder griezumam vaiir virsotnes, kas pieder griezumam, pēctecis, un jebkuras divas virsotnes, kas pieder griezumam, navpriekšteči vai pēcteči viena otrai.Pētījuma metodeTā kā nav pieejama pietiekama teorētiskā informācija par sistēmas izveides gaitā izmantojamāmpieejām (konkrētas prasības meta-informācija u.tml.) un meta-informācijas un datu struktūras ietekmiuz klasifikatoru efektivitāti, ir nepieciešami eksperimentāli pētījumi. Šajā darbā tiek veikti eksperimentiar mērķi noskaidrot, vai datu iekšējā struktūra ietekmē klasifikatoru efektivitāti un kādas ir klasifikatoruveiktspējas izmaiņas ar un bez papildus informācijas izmantošanas klasifikatoru konstruēšanā.RezultātiAbas metodoloģijas tika izlietotas darbā ar trīs datu kopām – Īrisa ziedu, Zīļu un Lapgraužu datukopām. 1. tabulā var redzēt Īrisa ziedu klasifikācijas rezultātus, izmantojot katru no metodoloģijāmun bez to izmantošanas. Var redzēt, ka, izmantojot klašu dekompozīciju, klasifikatora efektivitāteVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājumsVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājums
186 187ir nedaudz uzlabojusies – nepareizi klasificēti vien seši ieraksti astoņu vietā, taču klasifikācijas kokaizmērs ir palielinājies, jo nepieciešams klasificēt vairāk klasēs nekā sākotnējos datos. Atribūtu vērtībudekompozīcijas izmantošana uzlaboja veiktspēju vēl vairāk, samazinot arī klasifikatora izmēru, jo tiekizmantotas augstāka abstrakcijas līmeņa atribūtu vērtības, kas arī novērš pārapmācības iespēju.3. tabula. Klasifikācijas rezultāti Lapgraužu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsLapas1. tabula. Klasifikācijas rezultāti Īrisu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsLapasBez AVT un KD 48.65 % 36 10 9KD 32,43 % 24 10 9AVT 1,35 % 1 6 4Bez AVT un KD 5,33% 8 19 17KD 4% 6 46 41AVT 3,33% 5 11 8Klasifikācijas rezultāti Zīļu datu kopai redzami 2. tabulā. Izmantojot klašu dekompozīciju, klasifikācijasprecizitāte uzlabojusies par 5%, taču arī šajā gadījumā klasifikācijas koka izmērs ir palielinājies, josākotnējā klasifikācijā izmantota klasifikācija, kas visiem ierakstiem piešķir vienu un to pašu klasi.Izmantojot atribūtu vērtību taksonomiju, precizitāte uzlabojās vēl vairāk, lai arī koks palielinājās,salīdzinot ar sākotnējo klasifikāciju.2. tabula. Klasifikācijas rezultāti Zīļu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsBez AVT un KD 28,21 % 11 1 1KD 23,08 % 9 13 12AVT 20,51 % 8 5 4LapasKlasifikācijas rezultāti Lapgraužu datu kopai parādīti 3. tabulā. Var redzēt, ka klašu dekompozīcijasizmantošana uzlaboja klasifikācijas precizitāti, lai gan koka izmērs ir palicis tāds pats. Savukārtatribūtu vērtību taksonomijas izmantošana ievērojami uzlaboja klasifikācijas precizitāti, samazinot arīklasifikatora izmēru, kas saistīts ar atribūtu augstāku abstrakcijas līmeņu vērtību izmantošanu, kas ļaujizmantot vairāk atribūtu, un īpatnējo datu kopas struktūru, kurā klases ir labi atdalāmas, taču nelielāierakstu skaita dēļ klasifikācijas kļūda ir lielāka, neizmantojot atribūtu vērtību taksonomijas.Lapgraužu datu kopas klasifikācijai konstruētie klasifikatori ir redzami 2. attēlā. Augšpusē (a) ir redzamsklasifikācijas koks, kas izveidots ar sākotnējiem datiem, neizmantojot nevienu no metodēm. Tas saturtikai vienu atribūtu un visas tā vērtības. Savukārt apakšā redzamais koks (b) ir izveidots, izmantojotatribūtu vērtību dekompozīciju, un izmanto augstākus atribūtu vērtību abstrakcijas līmeņus, kas ļaujizveidot divu līmeņu koku tam pašam nelielajam ierakstu skaitam. Koka precizitāte ir palielinājusies,jo tiek izmantoti abi atribūti un klases 2 dimensiju telpā pārklājas mazāk nekā to projekcijas uz vienaatribūta ass.Hep(a)(b)Hep8Hep9 10 11HepHepcLeņķis12HeiPlatumsHei2. attēls. Klasifikācijas koki Lapgraužu datu kopai.1314HeiLeņķisKopumā var secināt, ka datu kopu īpašību izmantošana ietekmēja klasifikācijas rezultātus un klasifikatorustruktūru, tāpēc to ietekme uz klasifikācijas stratēģijas izvēli ir vērā ņemama un jāiekļauj klasifikatoruizvēles sistēmā.idcCon1516HeikConHeiHeiVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājumsVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājums
Page 1 and 2:
Vidzemes Augstskolas4.Studentu pēt
Page 5 and 6:
6 7Vidzemes Augstskolas 2005. gada
Page 7 and 8:
10 11tika intervēti arī protesta
Page 9 and 10:
14 15Gadījumu analīzeIegūtie (no
Page 11 and 12:
18 19Partiju apvienības „Vienot
Page 13 and 14:
22 23Ir veikta darba autores izvēl
Page 15:
26 27ievērojama saistība starp me
Page 18 and 19:
32 33SABIEDRISKO POLITIKU ANALĪZEV
Page 20 and 21:
36 37viedokļa, izvirzītie akredit
Page 22 and 23:
40 41ieinteresēta, lai ārstēšan
Page 24:
44 45Alternatīvo aprūpes veidu iz
Page 27 and 28:
50 51RespondentsAEfektivitāteTehni
Page 29 and 30:
54 55RespondentsCilvēkresursu piet
Page 31 and 32:
58 59Izmantotā literatūraAbebe, T
Page 33 and 34:
62 63Pētījuma gaitā tika identif
Page 35 and 36:
66 67rindas. Kopā tika novēroti 5
Page 37 and 38:
70 71nevis Madonas slimnīcā. Vidz
Page 39 and 40:
74 75Privātā finansējuma piesais
Page 41 and 42:
78 79virsotnes tas arī sasniegtu (
Page 43 and 44: 82 83No pētījumā izmantoto gadī
Page 45 and 46: 86 87KOMUNIKĀCIJA UN SABIEDRISKĀS
Page 47 and 48: 90 91Sabiedrisko attiecību modeļu
Page 49 and 50: 94 95iepriekšējos pētījumos par
Page 51 and 52: 98 995. tabula. SA modeļi un komun
Page 53 and 54: 102 103Dažādu zinātnes nozaru sp
Page 55 and 56: 106 1071.2. Zinātnes komunikācija
Page 57 and 58: 110 1114.1. Zinātnes komunikācija
Page 59 and 60: 114 115Nākamais problēmu bloks, k
Page 61 and 62: 118 119IevadsZināšanas ir kļuvu
Page 63 and 64: 122 123interpretēti dati no šīs
Page 65 and 66: 126 127Latvijas sabiedrisko attiec
Page 67 and 68: 130 131Zināšanu pārneses klimats
Page 69 and 70: 134 135par mazāk ietekmīgu. Lai g
Page 71 and 72: 138 139Lai varētu precīzāk notei
Page 73 and 74: 142 143Analizējot struktūrvienīb
Page 75 and 76: 146 147Transformatīvās līderība
Page 77 and 78: 150 151MetodePētījuma dalībnieki
Page 79 and 80: 154 1553.tabula. Korelācijas koefi
Page 81 and 82: 158 159Paulus, B.P., Larey, S.T., D
Page 83 and 84: 162 163uzņēmuma dibināšanos ar
Page 85 and 86: 166 167personīgajām iezīmēm kā
Page 87 and 88: 170 171Volume 32, number 5, pp. 548
Page 89 and 90: 174 175Izplūdušais PRISM algoritm
Page 91 and 92: 178 1792.tabula. Veikto eksperiment
Page 93: 182 183classifiers. Attribute-value
show all

Å eit - Vidzemes Augstskola

Create successful ePaper yourself

Delete template?

Save as template?