Å eit - Vidzemes Augstskola

More documents

Recommendations

Info

180 181iespējams sasniegt ar izplūdušo PRISM algoritmu, pie nosacījuma, ka nav pārāk liels intervālu (janepārtraukti dati) vai konstanto vērtību (ja kategoriski dati) skaits.NAPFM algoritma darbībā ir mazāk iespēju izpausties nejaušības principam, jo sākotnējās piederībasfunkcijas tiek aprēķinātas, izmantojot stingras matemātiskas darbības. Turpretī izplūdušajā PRISMalgoritmā iespējams ieviest subjektīvus vērtējumus. Nozīmīgo atribūtu un piederības funkcijumeklēšanas algoritms ir precīzāks, taču tas nav piemērots visām datu kopām, jo, ja nozīmīgoatribūtu skaits lielāks par diviem, tas sarežģī aprēķinus. Izplūdušais PRISM algoritms ir universālāks,jo ar to iespējams darboties gan ar skaitliskiem, gan kategoriskiem datiem, taču piederības funkcijuaprēķināšanas gaita ir sarežģīta.Pastāv arī iespēja izvēlēties algoritmu atkarībā no sākotnējiem datiem – ja dati ir skaitliski un nepārtraukti,tad NAPFM algoritmu iespējams izmantot bez datu transformācijas. Attiecīgi, ja dati ir kategoriski, tadvar izmantot tikai izplūdušo PRISM.Ja nākotnē pētījumos būtu iespējams piemērot NAPFM algoritmu izmantošanai arī kategoriskiemdatiem, tad tas noteikti kļūtu par universāli lietojamu algoritmu, jo tas nav tik atkarīgs no lēmējpersonasattieksmes, kā tas ir ar izplūdušo PRISM. Vēl nākotnē ieteiktu salīdzināt NAPFM algoritmu ar tāmodifikāciju MMTF, kā arī apskatīt citu PRISM algoritma modifikāciju – FAQR.Literatūras sarakstsHong T.P., Lee C.H. Induction of fuzzy rules and membership functions from traning examples - FuzzySets and Systems - Vol.84 (1996), pp. 33-47.Hong T. P., Chen J. B. Finding relevant attributes and membership functions - Fuzzy Sets and Systems- Vol. 103, No. 3 (1999), pp. 389-404.Cendrowska, J. PRISM: an algorithm for inducing modular rules - Internat. J. Man – Machine Studies. -Vol. 27 (1987), pp. 349-370.Wang C. H., Liu J. F., Hong T. P., Tseng S.S. A fuzzy inductive learning strategy for modular rules - Fuzzysets and Systems. - Vol. 103 (1999), pp. 91–105.Bramer, M. Principles of Data Mining – London: Springer – Verlag London Limited, 2007. – 343 p.Asuncion A., Newman, D.J., UCI Machine Learning Repository Irvine, CA:University of California, Schoolof Information and Computer Science (2007). Link http://www.ics.uci.edu/~mlearn/MLRepository.html. - last viewed in may 2010.Gasparovica M., Aleksejeva L. A Comparative Analysis of Prism and MDTF Algorith // Proceedingsof Mendel 16th International Conference of Soft Computing 2010, Brno, Czech Republic, 23-25 June,2010, pp. 191 – 197.Gasparovica M., Aleksejeva L. A study on the behaviour of the algorithm for finding relevant attributesand membership functions // Scientific Proceedings of Riga Technical University. Issue 5, ComputerScience. Information Technology and Management Science. - Vol.40 (2009), pp.75-80.Wang C.H., Tsai C.J., Hong T.P., Tseng S.S. Fuzzy Inductive Learning Strategies // Applied Intelligence.- Vol. 18 (2003), pp.179 – 193.Hong T. P., Chen J. B. Processing individual fuzzy attributes for fuzzy rule induction, Fuzzy Sets andSystems. - Vol. 112, No. 1 (2000), pp. 127-140.Meta-informācijas izmantošana klasifikācijas uzdevumosUsing Meta-Information in Classification TasksInese Poļaka, Rīgas Tehniskās universitātes absolventeDarba zinātniskais vadītājs: Dr.hab.sc.comp. Arkādijs BorisovsRezumējumsKlasifikācijas uzdevums ir populārs datu ieguves uzdevums dažādās sfērās – medicīnā, finansēs,bioloģijā u.c., un tā risināšanai ir izstrādātas daudzas metodes. Viena no populārākajām pieejāmklasifikācijas uzdevuma risināšanā ir lēmumu koku izmantošana, jo modeļu izveide aizņem salīdzinošimaz resursu un tos ir viegli interpretēt arī konkrētās sfēras speciālistiem, kas nepārzina šīs metodes.Darbā tiek apskatīta datu struktūras meta-informācijas izmantošana datu ieguves klasifikācijasuzdevumā. Meta-informācija var tikt izmantota piemērotākā klasifikatora un tā parametru izvēlē, kāarī datiem piemērotāka klasifikatora projektēšanā. Tiek aplūkots modelis, pēc kura principa darbojasklasifikatoru izvēles sistēma, kas balstās uz meta-informācijas par datiem izmantošanu.Darbā apskatītas divas metodes, kas izmanto datu struktūras informāciju klasifikatoru projektēšanāar mērķi izveidot datiem pielāgotus, kompaktus un precīzus klasifikatorus. Klašu dekompozīcijā arhierarhiskās klasterizācijas palīdzību tiek aprakstīta klašu iekšējā struktūra, sadalot klases apakšklasēs,lai uzlabotu klasifikatoru precizitāti. Uz atribūtu vērtību taksonomiju pamata konstruētos lēmumuklasifikatoros tiek izmantota atribūtu iekšējā struktūra, lai konstruētu klasifikatorus, kas izmanto atribūtuvērtības dažādos abstrakcijas līmeņos.Datu struktūras meta-informācijas izmantošanas ietekme uz klasifikatoriem tiek eksperimentālipārbaudīta, izmantojot reālās dzīves datus. Abu aplūkoto metožu izmantošana zīmīgi uzlabo klasifikatoruveiktspēju, salīdzinot ar klasifikatoriem, kas konstruēti, neizmantojot šīs metodes, kas pierāda metainformācijasizmantošanas lietderīgumu. Tāpat tiek apskatīti sarežģījumi, ar kuriem nākas saskarties,veidojot uz meta-informācijas balstītas klasifikatoru izvēles sistēmas, un veidoti ieteikumi tālākajamdarbam.AbstractClassification task is a popular data mining task in various fields – health, finance, biology etc. andmany methods have been developed to solve it. One of the most popular approaches is using decisiontrees for classification because building models does not require much resource and the models areinterpretable for experts who do not know these methods.The article examines possibilities of using meta-information about data structure in data miningclassification task. Meta-information can be used in choosing the most suitable classifier and itsparameters as well as building a classifier that fits the data. The research also outlines a model of aclassifier selection system that is based on the use of meta-information about data.The research analyzes two methods that use information about data structure in building classifiersto design classifiers that fit data, are compact and accurate. Class decomposition uses hierarchicalclassification to describe class structures by dividing them into subclasses to increase efficiency ofVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājumsVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājums
182 183classifiers. Attribute-value taxonomy based decision tree design uses structure of attribute values tobuild classifiers that use attribute values in different abstraction levels.The impact of the use of data structure meta-information on classifiers is experimentally proven usingreal-life data. The use of both methods significantly improves the performance of classifiers whencompared to classifiers that were built without the use of these methods. This proves the utility of metainformation.The article also examines complications than can arise when building meta-informationbased classifier selection systems and gives recommendations for future work.Atslēgas vārdi: datu ieguve, klasifikācija, meta-informācija datu ieguvē, klašu dekompozīcija, atribūtuvērtību taksonomija.IevadsKlasifikācijas uzdevums ir populārs datu ieguves uzdevums dažādās sfērās – medicīnā, finansēs,bioloģijā u.tml., un tā risināšanai ir izveidotas daudzas metodes. Taču šo metožu veiktspēja nav vienlīdzlaba visās datu kopās. Ir grūti izvēlēties piemērotāko klasifikatoru, tāpēc pastāv ideja izveidot sistēmu,kas, balstoties uz datu meta-īpašībām, izvēlēsies piemērotāko algoritmu un tā parametrus. Šī mērķasasniegšanai ir nepieciešamas zināšanas par to, kā datu īpašības ietekmē klasifikatoru veiktspēju.Problēma ir tajā, ka šobrīd nav pieejama matemātiska apraksta metožu izvēles procesam, kā arī trūkstempīrisku aprakstu, kas būtu apkopoti un tieši saistīti ar tēmu. Tāpēc darbā piedāvāta eksperimentālāanalīze, kas apskata klašu iekšējās struktūras un atribūtu vērtību struktūras ietekmi uz klasifikatoruveiktspēju. Tas ļauj noteikt arī šīs meta-informācijas ietekmi uz klasifikatora izvēli.Darbā tiek izmantotas divas metodes, kas izmanto datu struktūras īpašības klasifikatoru konstruēšanā:klašu dekompozīcija (izmanto hierarhisko klasterizāciju, lai izpētītu klašu iekšējo struktūru) un uztaksonomijas balstīta klasifikācijas koku konstruēšana (izmanto AVT-Learner metodi, lai izpētītuatribūtu vērtību sakarības). Klasifikācijai tiek izmantoti algoritmi C4.5 un CART, izmantojot 10-kārtīgušķērsvalidāciju rezultātu novērtēšanai.Teorētiskais pamatojumsKlasifikatora izvēles sistēmas pamatā ir datu bāze, kas satur informāciju par datu kopām, to metaīpašībāmun dažādu klasifikatoru veiktspēju, izmantojot šos datus. Katra jauna datu kopa, kurā irparedzēts veikt klasifikāciju, tiek analizēta, iegūstot meta-informāciju par to, kas tiek salīdzināta ardatu bāzē esošajām zināšanām par citām datu kopām. Pēc datu kopu līdzības ir paredzēts noteiktpiemērotāko klasifikācijas stratēģiju – līdzīgās datu kopās klasifikatoru veiktspēja ir līdzīga. Sistēmasshēma ir parādīta 1. attēlā.1. attēls. Klasifikatora izvēles sistēmas shēma.Šobrīd pieejamā teorētiskā informācija nav pietiekama šādas sistēmas izveidē ((Brazdil, Soares, DaCosta, 2003), tāpēc nepieciešami praktiskie eksperimenti, kas ļautu izdarīt secinājumus par to, kādameta-informācija ir lietderīga sistēmas izveidē un kā tā ietekmē klasifikatoru veiktspēju.Algoritmi C4.5 un CARTAlgoritms C4.5 (Quinlan 1993) konstruē kokus, par informatīvuma kritēriju, izvēloties atribūtus kopusadalīšanai izmantojot Information gain vai Gain ratio. Information gain ir informācijas entropijasizmaiņas, ja informācijas stāvoklis tiek mainīts. Ja C={ c1, c2, …, cn} ir klases atribūts un A={a1, a2, …, ak}ir apskatāmais atribūts, H(C) ir klases atribūta entropija un H(C|A) ir nosacītā entropija (C entropija, ja Astāvoklis ir zināms), tad Information gain aprēķina pēc:I(C, A) = H(C) - H(C|A) (1)Atribūta C entropija ir:H(C) = −i=1nPC=cilog2(P(C=ci)) (2)kur P(C=cnβ) ir klases vērtības β relatīvais parādīšanās biežums. un nosacītā entropija ir:H(C|A) = −j=1kPA=ajH(C|A=aj) (3)Information gain dod priekšroku atribūtiem ar lielu vērtību skaitu. Lai no tā izvairītos, tiek izmantots Gainratio mērs:IG(C,A) = I(C,A)H(A) (4)Algoritms CART (Breiman, Friedman, Olshen, Stone, 1984) parasti izmanto Gini index par šķelšanasmēru:G(C) = 1−i=1nPC=ci (5)CART un C4.5 ir arī citas atšķirības, to skaitā arī atzarošanas pieeja, trūkstošu vērtību apstrāde un citas(Kohavi, Quinlan 2002).Vidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājumsVidzemes Augstskolas 4.Studentu pētniecisko darbu konferences rakstu krājums
Page 1 and 2:
Vidzemes Augstskolas4.Studentu pēt
Page 5 and 6:
6 7Vidzemes Augstskolas 2005. gada
Page 7 and 8:
10 11tika intervēti arī protesta
Page 9 and 10:
14 15Gadījumu analīzeIegūtie (no
Page 11 and 12:
18 19Partiju apvienības „Vienot
Page 13 and 14:
22 23Ir veikta darba autores izvēl
Page 15:
26 27ievērojama saistība starp me
Page 18 and 19:
32 33SABIEDRISKO POLITIKU ANALĪZEV
Page 20 and 21:
36 37viedokļa, izvirzītie akredit
Page 22 and 23:
40 41ieinteresēta, lai ārstēšan
Page 24:
44 45Alternatīvo aprūpes veidu iz
Page 27 and 28:
50 51RespondentsAEfektivitāteTehni
Page 29 and 30:
54 55RespondentsCilvēkresursu piet
Page 31 and 32:
58 59Izmantotā literatūraAbebe, T
Page 33 and 34:
62 63Pētījuma gaitā tika identif
Page 35 and 36:
66 67rindas. Kopā tika novēroti 5
Page 37 and 38:
70 71nevis Madonas slimnīcā. Vidz
Page 39 and 40:
74 75Privātā finansējuma piesais
Page 41 and 42: 78 79virsotnes tas arī sasniegtu (
Page 43 and 44: 82 83No pētījumā izmantoto gadī
Page 45 and 46: 86 87KOMUNIKĀCIJA UN SABIEDRISKĀS
Page 47 and 48: 90 91Sabiedrisko attiecību modeļu
Page 49 and 50: 94 95iepriekšējos pētījumos par
Page 51 and 52: 98 995. tabula. SA modeļi un komun
Page 53 and 54: 102 103Dažādu zinātnes nozaru sp
Page 55 and 56: 106 1071.2. Zinātnes komunikācija
Page 57 and 58: 110 1114.1. Zinātnes komunikācija
Page 59 and 60: 114 115Nākamais problēmu bloks, k
Page 61 and 62: 118 119IevadsZināšanas ir kļuvu
Page 63 and 64: 122 123interpretēti dati no šīs
Page 65 and 66: 126 127Latvijas sabiedrisko attiec
Page 67 and 68: 130 131Zināšanu pārneses klimats
Page 69 and 70: 134 135par mazāk ietekmīgu. Lai g
Page 71 and 72: 138 139Lai varētu precīzāk notei
Page 73 and 74: 142 143Analizējot struktūrvienīb
Page 75 and 76: 146 147Transformatīvās līderība
Page 77 and 78: 150 151MetodePētījuma dalībnieki
Page 79 and 80: 154 1553.tabula. Korelācijas koefi
Page 81 and 82: 158 159Paulus, B.P., Larey, S.T., D
Page 83 and 84: 162 163uzņēmuma dibināšanos ar
Page 85 and 86: 166 167personīgajām iezīmēm kā
Page 87 and 88: 170 171Volume 32, number 5, pp. 548
Page 89 and 90: 174 175Izplūdušais PRISM algoritm
Page 91: 178 1792.tabula. Veikto eksperiment
Page 95 and 96: 186 187ir nedaudz uzlabojusies - ne
show all

Å eit - Vidzemes Augstskola

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?