Elektroniski sagatavots arÄ« Vidzemes Augstskolas 4. Studentu

More documents

Recommendations

Info

184 185Nākamajā solī tiek noteikta optimālā klasteru struktūra, katrā apakškopā T i’ nošķirot dažādus klasteruapvienojumus ar klasifikācijas algoritmu C4.5 un CART palīdzību. Vislabākā struktūra ir tā, kurasapakšklasterus nošķir ar vismazāko kļūdu. Tad katram ierakstam tiek piešķirta jaunās klases iezīmey j’, kas atbilst klasteru kombinācijām un no kuras var izgūt sākotnējo klases iezīmi, iegūstot modificētuapakškopu Ti′ = {(x, yj’)}.Tad visas apakškopas tiek apvienotas kopā T′=i=1kTi′, kurā tiek veikta klasifikācija. Lai novērtētuklasifikācijas rezultātus, jaunās iezīmes tiek konvertētas uz sākotnējām klasēm.Lai klasifikatoru veidošanas laikā izmantotu sakarības atribūtu vērtību starpā, tās ir jāattēlo saprotamāveidā. Šajā gadījumā saišu attēlošanai tiek izmantota taksonomija (hierarhiska ontoloģija, kas izmantoIS-A saites). Ir vairāki veidi, kā iegūt taksonomijas, taču šajā pētījumā tika izmantotas manuālās unalgoritma AVT-Learner izveidotās taksonomijas.Manuālās taksonomijas tiek sastādītas, izmantojot informāciju par domēnu, kas ir pieejama vai iegūta,izmantojot statistisko datu analīzi.Lai izmantotu taksonomijas lēmumu koku projektēšanā, tika izlietots algoritms ODT (Zhang, Silvescu,Honavar, 2002). Pieņemsim, ka ir dota datu kopa S ar atribūtu kopu A={A 1, A 2, ..., A n} un klašu kopu C={ C 1,C 2, ..., C m}, tad katram atribūtam ir taksonomija kopā T={T 1, T 2, ..., T n}. Katra taksonomijas lapas virsotnesašķel datu kopu apakškopās, kurās katrai pieder k rādītāji uz k konceptiem k taksonomijās.Algoritms izvēlas atribūtu datu sašķelšanai tā, lai būtu maksimāls entropijas samazinājums. Tas sastāvno šādiem soļiem:1. ja visi ieraksti datu kopā S pieder vienai klasei, tiek atgriezts klases nosaukums vienas lapasveidā;2. pretējā gadījumā ar Gain mēra palīdzību tiek noteikts labākais atribūts un koncepts datu kopasšķelšanai;3. šķelšanas kritēriji ir izvēlētā koncepta pēcteči;4. datu kopu S sašķel atbilstoši izvēlētajiem kritērijiem;5. algoritms atkārto iepriekšējos soļus, lai izveidotu apakškokus.Griezumam taksonomijā katrai lapas virsotnei l ir jāatbilst šādiem nosacījumiem: l pieder griezumam vaiir virsotnes, kas pieder griezumam, pēctecis, un jebkuras divas virsotnes, kas pieder griezumam, navpriekšteči vai pēcteči viena otrai.ir nedaudz uzlabojusies – nepareizi klasificēti vien seši ieraksti astoņu vietā, taču klasifikācijas kokaizmērs ir palielinājies, jo nepieciešams klasificēt vairāk klasēs nekā sākotnējos datos. Atribūtu vērtībudekompozīcijas izmantošana uzlaboja veiktspēju vēl vairāk, samazinot arī klasifikatora izmēru, jo tiekizmantotas augstāka abstrakcijas līmeņa atribūtu vērtības, kas arī novērš pārapmācības iespēju.1. tabula. Klasifikācijas rezultāti Īrisu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsBez AVT un KD 5,33% 8 19 17KD 4% 6 46 41AVT 3,33% 5 11 8LapasKlasifikācijas rezultāti Zīļu datu kopai redzami 2. tabulā. Izmantojot klašu dekompozīciju, klasifikācijasprecizitāte uzlabojusies par 5%, taču arī šajā gadījumā klasifikācijas koka izmērs ir palielinājies, josākotnējā klasifikācijā izmantota klasifikācija, kas visiem ierakstiem piešķir vienu un to pašu klasi.Izmantojot atribūtu vērtību taksonomiju, precizitāte uzlabojās vēl vairāk, lai arī koks palielinājās,salīdzinot ar sākotnējo klasifikāciju.2. tabula. Klasifikācijas rezultāti Zīļu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsBez AVT un KD 28,21 % 11 1 1KD 23,08 % 9 13 12AVT 20,51 % 8 5 4LapasPētījuma metodeTā kā nav pieejama pietiekama teorētiskā informācija par sistēmas izveides gaitā izmantojamāmpieejām (konkrētas prasības meta-informācija u.tml.) un meta-informācijas un datu struktūras ietekmiuz klasifikatoru efektivitāti, ir nepieciešami eksperimentāli pētījumi. Šajā darbā tiek veikti eksperimentiar mērķi noskaidrot, vai datu iekšējā struktūra ietekmē klasifikatoru efektivitāti un kādas ir klasifikatoruveiktspējas izmaiņas ar un bez papildus informācijas izmantošanas klasifikatoru konstruēšanā.Klasifikācijas rezultāti Lapgraužu datu kopai parādīti 3. tabulā. Var redzēt, ka klašu dekompozīcijasizmantošana uzlaboja klasifikācijas precizitāti, lai gan koka izmērs ir palicis tāds pats. Savukārtatribūtu vērtību taksonomijas izmantošana ievērojami uzlaboja klasifikācijas precizitāti, samazinot arīklasifikatora izmēru, kas saistīts ar atribūtu augstāku abstrakcijas līmeņu vērtību izmantošanu, kas ļaujizmantot vairāk atribūtu, un īpatnējo datu kopas struktūru, kurā klases ir labi atdalāmas, taču nelielāierakstu skaita dēļ klasifikācijas kļūda ir lielāka, neizmantojot atribūtu vērtību taksonomijas.RezultātiAbas metodoloģijas tika izlietotas darbā ar trīs datu kopām – Īrisa ziedu, Zīļu un Lapgraužu datukopām. 1. tabulā var redzēt Īrisa ziedu klasifikācijas rezultātus, izmantojot katru no metodoloģijāmun bez to izmantošanas. Var redzēt, ka, izmantojot klašu dekompozīciju, klasifikatora efektivitāteVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājumsVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājums
186 1873. tabula. Klasifikācijas rezultāti Lapgraužu datu kopaiKļūda %Nepareiziklasificētoierakstu skaitsVirsotnesKoka lielumsBez AVT un KD 48.65 % 36 10 9KD 32,43 % 24 10 9AVT 1,35 % 1 6 4LapasLapgraužu datu kopas klasifikācijai konstruētie klasifikatori ir redzami 2. attēlā. Augšpusē (a) ir redzamsklasifikācijas koks, kas izveidots ar sākotnējiem datiem, neizmantojot nevienu no metodēm. Tas saturtikai vienu atribūtu un visas tā vērtības. Savukārt apakšā redzamais koks (b) ir izveidots, izmantojotatribūtu vērtību dekompozīciju, un izmanto augstākus atribūtu vērtību abstrakcijas līmeņus, kas ļaujizveidot divu līmeņu koku tam pašam nelielajam ierakstu skaitam. Koka precizitāte ir palielinājusies,jo tiek izmantoti abi atribūti un klases 2 dimensiju telpā pārklājas mazāk nekā to projekcijas uz vienaatribūta ass.SecinājumiLēmumu koku klasifikatoru efektivitāti negatīvi ietekmē atribūtu vērtību nepilnības (pārāk daudz vaimaz vērtību, lai ar minimālu atribūtu skaitu iegūtu optimālu koku), kuru var novērst ar taksonomijuizmantošanas palīdzību, un klašu iekšējās struktūras sarežģītība, kuru var novērst, izmantojot klašudekompozīciju.Lai noteiktu blīvuma apgabalus klašu dekompozīcijai, visizdevīgākā metode ir hierarhiskā klasterizācija,jo tai nav nepieciešamas aprioras zināšanas par datu iekšējo struktūru. Taču klasifikācijas algoritmaizvēli sarežģī fakts, ka algoritms, kurš bez klašu dekompozīcijas uzrādīja zemākus rezultātus par citiemalgoritmiem, var izrādīties piemērotākais, izmantojot klašu dekompozīciju. Vēl viens sarežģījums ir tas,ka klasteru kombinācijas izvēlē klašu dekompozīcijai ir jāveic tās novērtēšana, veicot pilnu klasifikāciju,jo iepriekš zināmās heiristikas nedarbojas pietiekami efektīvi.Datu kopās, kurās iekšējās sakarības ir pilnībā izzinātas, visefektīvākās ir ekspertu taksonomijas, betpārējās – AVT-Learner izveidotās taksonomijas, kas iekļauj papildus informāciju, ko iegūst no datiemprojektēšanas posmā.Efektivitātes uzlabošanas metodes kopumā var pasliktināt klasifikatoru veiktspēju, kas ir saistīts arsarežģītu klašu savstarpējo pārklāšanos vai pārapmācību, taču lielākoties efektivitāte, izmantojot kāduno metodēm, uzlabojās, bet klasifikatora izmērs, izmantojot atribūtu vērtību taksonomijas, parastisamazinājās.Leņķis(a)89 10 111213141516Literatūras sarakstsHepHepHepHepHeiHeiHeiHeiHei1. Brazdil P.B., Soares C., Da Costa J.P. Ranking learning algorithms: Using IBL and meta-learning onaccuracy and time results // Machine Learning – Vol. 50 (2003), 251.-277. lpp.(b)Platumsc dHepLeņķis2. Quinlan J. R. C4.5: Programs for Machine Learning. – San Mateo: Morgan Kaufmann Pub., 1993. – 302lpp.3. Classification and Regression Trees / L. Breiman, J. Friedman, R. Olshen, C. Stone. –Belmont:Wadsworth Int. Group, 1984. – 368 lpp.iHeicConkCon4. Kohavi R., Quinlan J. R. Decision-tree discovery. // Handbook of Data Mining and KnowledgeDiscovery / Klosgen W., Zytkow J. M., editors,. – Oxford: Oxford University Press, 2002. – 267.-276. lpp.2. attēls. Klasifikācijas koki Lapgraužu datu kopai.5. Han J., Kamber M. Data Mining: Concepts and Techniques, 2nd ed. Morgan Kaufmann, 2006. – 550lpp.Kopumā var secināt, ka datu kopu īpašību izmantošana ietekmēja klasifikācijas rezultātus un klasifikatorustruktūru, tāpēc to ietekme uz klasifikācijas stratēģijas izvēli ir vērā ņemama un jāiekļauj klasifikatoruizvēles sistēmā.6. Ward, J. H. Hierachical grouping to optimize an objective function. // J. Am. Statist. Assoc. – Vol. 58(1963), 236.-244. lpp.7. Kang D. K., Silvescu A., Zhang J., Honavar V. Generation of attribute Value Taxonomies from Datafor Data-Driven Construction of Accurate and Compact Classifiers. // Proceedings of the 4th IEEEInternational Conference on Data Mining 2004, Brighton, UK, November 1-4, 2004. – Washington: IEEEComputer Society, 2004. – 1.-4. lpp.8. Zhang J., Silvescu A., Honavar V. Ontology-Driven Induction of Decision Trees at Multiple Levels ofAbstraction. // Proceedings of Symposium on Abstraction, Reformulation and Approximation 2002,Kananaskis, Alberta, Canada, August 2-4, 2002. – Berlin: Springer Berlin/Heidelberg, 2002. – 316. 323.lpp.Vidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājumsVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājums
Page 1 and 2:
Vidzemes Augstskolas4.Studentu pēt
Page 3 and 4:
2 3Galvenais redaktors Dr.sc.pol. V
Page 5 and 6:
6 7Vidzemes Augstskolas 2005. gada
Page 7 and 8:
10 11tika intervēti arī protesta
Page 9 and 10:
14 15Gadījumu analīzeIegūtie (no
Page 11 and 12:
18 19Partiju apvienības „Vienot
Page 13 and 14:
22 23Ir veikta darba autores izvēl
Page 15 and 16:
26 27ievērojama saistība starp me
Page 17 and 18:
30 31MetodeLai sasniegtu bakalaura
Page 19 and 20:
34 35procentu. Šobrīd reālā sit
Page 21 and 22:
38 39jo pašas augstākās izglīt
Page 23 and 24:
42 43studentu viedokli, tika aptauj
Page 25 and 26:
46 47Literatūras sarakstsAkadēmis
Page 27 and 28:
50 51piemēram, vai nav garas pacie
Page 29 and 30:
54 552.tabula. Šķēršļi veselī
Page 31 and 32:
58 59Eiropas Komisija, mājas lapa,
Page 33 and 34:
62 63Literatūras sarakstsAnderson,
Page 35 and 36:
66 67teritoriālām nodaļām. Sapr
Page 37 and 38:
70 71pie ārstiem speciālistiem Vi
Page 39 and 40:
74 75IevadsSavā plašākajā nozī
Page 41 and 42:
78 791.tabula. Notikumu sadalījums
Page 43 and 44: 82 833. Pētījumā analizēto gad
Page 45 and 46: 86 87Pašlaik sabiedrisko mediju st
Page 47 and 48: 90 91IevadsAizvien biežāk sabiedr
Page 49 and 50: 94 953. tabula. Kampaņu analīzes
Page 51 and 52: 98 99Kā galvenais SA mērķis 22 k
Page 53 and 54: 102 103IevadsPasaule regulāri pied
Page 55 and 56: 106 1074. zinātnes kopienu un vald
Page 57 and 58: 110 111un ārzemju vieslektoru dal
Page 59 and 60: 114 115izmaiņas notiks strauji. Pa
Page 61 and 62: 118 119pētījumos tiek uzsvērts,
Page 63 and 64: 122 1233.tabula. Aprakstošā stati
Page 65 and 66: 126 127SecinājumiLatvijas sabiedri
Page 67 and 68: 130 131Ievads21.gadsimtā arvien b
Page 69 and 70: 134 135Sociālo tīklu analīze dar
Page 71 and 72: 138 139„Dalīšanās zināšanās
Page 73 and 74: 142 143Literatūras sarakstsAlvarez
Page 75 and 76: 146 147IevadsInovācijas organizāc
Page 77 and 78: 150 151Lai noteiktu grupas radošum
Page 79 and 80: 154 155iepriekšējo pieredzi, tad
Page 81 and 82: 158 159Vadības un komunikācijas p
Page 83 and 84: 162 163Kultūru atšķirību ietekm
Page 85 and 86: 166 167Multikulturālu organizācij
Page 87 and 88: 170 171INFORMĀCIJAS SABIEDRĪBAIzp
Page 89 and 90: 174 175Nozīmīgo atribūtu un pied
Page 91 and 92: 178 1793.tabula. Algoritmu īss sal
Page 93: 182 183Hierarhiskā aglomeratīvā
show all

Elektroniski sagatavots arÄ« Vidzemes Augstskolas 4. Studentu

Create successful ePaper yourself

Delete template?

Save as template?