10.07.2015 Views

Elektroniski sagatavots arī Vidzemes Augstskolas 4. Studentu

Elektroniski sagatavots arī Vidzemes Augstskolas 4. Studentu

Elektroniski sagatavots arī Vidzemes Augstskolas 4. Studentu

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

182 183Hierarhiskā aglomeratīvā klasterizācijaHierarhiskās aglomeratīvās klasterizācijas metode veic hierarhisku datu dekompozīciju, apvienojotatsevišķus ierakstus apakškopās (klasteros), līdz visi ieraksti pieder vienai kopai.Par ierakstu līdzības mēru, pēc kura apvienot ierakstus, var tikt izmantotas dažādi mēri (Han, Kamber,2006). Šajā darbā tika izmantots Eiklīda attālums, kas starp diviem punktiem A = (a1, a2, …, an) un B = (b1,b2, …, bn) n dimensiju telpā tiek izteikts šādi:da,b=i=1n(ai2−bi2), (6)Ierakstu grupu apvienošanai tiek ņemts vērā attālums starp klasteriem. Šajā darbā tika izmantots Vardaattālums (Ward, 1963), kas par saites funkciju izvēlas kvadrātiskās summētās kļūdas pieaugumu, kasrodas, apvienojot klasterus, un kuru var izteikt šādi:ESS(Sl)=i=1nlxi−x2, (7)1. attēls. Klasifikatora izvēles sistēmas shēma.Šobrīd pieejamā teorētiskā informācija nav pietiekama šādas sistēmas izveidē ((Brazdil, Soares, DaCosta, 2003), tāpēc nepieciešami praktiskie eksperimenti, kas ļautu izdarīt secinājumus par to, kādameta-informācija ir lietderīga sistēmas izveidē un kā tā ietekmē klasifikatoru veiktspēju.Algoritmi C<strong>4.</strong>5 un CARTAlgoritms C<strong>4.</strong>5 (Quinlan 1993) konstruē kokus, par informatīvuma kritēriju, izvēloties atribūtus kopusadalīšanai izmantojot Information gain vai Gain ratio. Information gain ir informācijas entropijasizmaiņas, ja informācijas stāvoklis tiek mainīts. Ja C={ c1, c2, …, cn} ir klases atribūts un A={a1, a2, …, ak}ir apskatāmais atribūts, H(C) ir klases atribūta entropija un H(C|A) ir nosacītā entropija (C entropija, ja Astāvoklis ir zināms), tad Information gain aprēķina pēc:I(C, A) = H(C) - H(C|A) (1)Atribūta C entropija ir:H(C) = −i=1nPC=cilog2(P(C=ci)) (2)kur P(C=cnβ) ir klases vērtības β relatīvais parādīšanās biežums. un nosacītā entropija ir:H(C|A) = −j=1kPA=ajH(C|A=aj) (3)Information gain dod priekšroku atribūtiem ar lielu vērtību skaitu. Lai no tā izvairītos, tiek izmantots Gainratio mērs:IG(C,A) = I(C,A)H(A) (4)Algoritms CART (Breiman, Friedman, Olshen, Stone, 1984) parasti izmanto Gini index par šķelšanasmēru:G(C) = 1−i=1nPC=ci (5)CART un C<strong>4.</strong>5 ir arī citas atšķirības, to skaitā arī atzarošanas pieeja, trūkstošu vērtību apstrāde un citas(Kohavi, Quinlan 2002).bet attālums starp klasteriem ir starpība starp kļūdu, kas raksturo apvienoto klasteri, un kļūdām, kasraksturo katru atsevišķo klasteri:AVT-LearnerdSl,Sm=ESSSl Sm−[ESSSl+ESSSm]. (8)Šis algoritms balstās uz hierarhisko aglomeratīvo klasterizāciju, kas klasterizē atribūtu vērtības,pamatojoties uz klašu sadalījumu (Kang, Silvescu, Zhang, Honavar, 2004). Respektīvi, katrai atribūtaAi vērtībai vij tiek noteikta varbūtība p(ck|vij) katrai klasei ck no klašu kopas C, nosakot klašu varbūtībusadalījumu katrai atribūta vērtībai vij:P(C|vij)=pc1vij, …, pckvij, (9)Tālāk tiek meklēta tuvākā vērtība, kuru var pievienot noteiktai atribūta β vērtībai, lai izveidotu klasteri unvēlāk arī hierarhiju. Par attāluma mēru var tikt pieņemts jebkurš sadalījumu pāru diverģences mērs.Šajā darbā tiek izmantota diverģence, kas pēc savas būtības ir svērts Information gain. Diverģencidiviem varbūtību sadalījumiem βp(C|vix) un Q(C|viy) var aprēķināt pēc šādas formulas:D(P||Q)=12pilog2pipi+qi+qilog2qipi+qi, (10)Kad visiem pāriem ir noteikti savstarpējie attālumi, tiek apvienotas atribūta vērtības vai apakšklasteri,kuriem ir vismazākā savstarpējā diverģence. Pēc apvienošanas tiek pārrēķināts klašu varbūtībusadalījums un diverģence starp apvienoto klasteri un pārējām atribūta vērtībām vai apakšklasteriem.Šis process tiek atkārtots līdz brīdim, kad visas vērtības ir apvienotas vienā kopējā klasterī.Metodoloģiju aprakstsKlašu dekompozīcija izmanto klasterizāciju, lai iegūtu tādu meta-informāciju kā augsta blīvumaapgabali klašu iekšienē. Pirmajā solī datu kopu T={(x,y)}, kur x = {x 1, x 2, …, x n) ir n-dimensionāls vektors, kasapraksta datu kopas objektu un y Є{ y 1, y 2, ..., y m} ir klases iezīme, sašķeļ apakškopās T 1, T 2, …, T ktā, lai visiapakškopas ieraksti piederētu vienai klasei T i= {(x, y i)} un i = 1 ... m , kā arī katrs sākotnējās datu kopasieraksts pieder tieši vienai apakškopai.Katrā apakškopā tiek veikta hierarhiskā aglomeratīvā klasterizācija. Šī metode tika izvēlēta, jo tai navnepieciešama apriora informācija par klasteru skaitu un struktūru un tā palīdz noteikt optimālo klasteruskaitu (vistālāk atrodošies klasteri kādā no apvienojumiem). Pēc klasterizācijas veikšanas un optimālāklasteru skaita noteikšanas katram ierakstam, tiek piešķirta jauna klases iezīme, kas atbilst klasterim,iegūstot modificētas apakškopas T i’.<strong>Vidzemes</strong> <strong>Augstskolas</strong> <strong>4.</strong><strong>Studentu</strong> pētniecisko darbu konferences rakstu krājums<strong>Vidzemes</strong> <strong>Augstskolas</strong> <strong>4.</strong><strong>Studentu</strong> pētniecisko darbu konferences rakstu krājums

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!