Sayi9kasimaralik
Sayi9kasimaralik
Sayi9kasimaralik
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Kasım-Aralık 2012 Yıl : 2 Sayı : 9<br />
3. Genelleştirme Yöntemleri<br />
3.1. Bootstrap:<br />
Bootstrap yöntemi standart sapma, güven aralığı<br />
gibi istatistiklerde ve parametrik olmayan tahmin<br />
problemlerinde kullanılan basit ve güvenilir bir metottur.<br />
Bu yöntem belirli bir veri seti içinden, yerine<br />
koyarak tekrar örneklem çekme temeline dayanır.<br />
Herhangi büyüklükteki bir veri setinde gözlemlerin<br />
şansa bağlı olarak yer değiştirilerek yeniden örneklenmesi<br />
ile çeşitli miktarda ve büyüklükte veri setleri<br />
oluşturulabilmektedir. Böylece mevcut veri setinden<br />
mümkün olabildiğince fazla miktarda bilgi alınabilmektedir.<br />
3.2. Çapraz Geçerlilik:<br />
Veri setlerinde olgu sayısının orta düzeyde (en az 50)<br />
olduğu deney düzenlerinde kullanışlı bir genelleştirme<br />
aracıdır.[11,12] Genel olarak '10-parça çapraz<br />
geçerlilik' yöntemi tercih edilmektedir. Bu yöntemde<br />
veri kümesi rastgele on eşit parçaya ayrılır. İlk<br />
aşamada birinci parça test veri seti olarak bırakılır,<br />
geriye kalan dokuz parça eğitim seti olarak kullanılır.<br />
İkinci aşamada ise ikinci parça test veri seti olarak<br />
kullanılır, geriye kalan dokuz parça ile model bulunmaya<br />
çalışılır. Bu süreç on parça ayrı, ayrı test seti<br />
olarak kullanılıncaya kadar devam eder.<br />
4. Kullanılan Analiz Araçları<br />
Veriler uygun veri tabanlarındadepolandıktan sonra<br />
araştırıcıların karşılaştıkları en önemli sorun hangi<br />
analiz aracını kullanacaklarını tercih edememeleridir.<br />
Araştırıcıların aldıkları eğitimi, alışkanlıklarını<br />
göz önüne alarak yapılması gereken bu tercihte iki<br />
önemli faktör rol almaktadır. Bunlar: 1) Kod tabanlı,<br />
herhangi bir arayüze sahip olmayan yazılımlar: [R],<br />
2)Kullanıcı ara yüzüne sahip, analiz kodlamalarının<br />
hazır olduğu yazılımlar [WEKA, ORANGE]<br />
Bu çalışma kapsamında her iki gruba ait yazılımlardan<br />
örnekler verilmiştir.<br />
4.1. [R]<br />
R, VM çalışan her araştırmacı için standart olan, açık<br />
AKADEMİK<br />
kaynak kodlu ve ücretsiz bir yazılımdır. R programının<br />
mantığı her analiz için kullanılabilecek `analiz paketlerine`<br />
sahip olmasıdır. Kullanıcılar yapmak istedikleri<br />
analize ait paketi indirdikten sonra ilgili paketin<br />
kullanım kılavuzuna göre analizlere devam ederler.<br />
Bu programa ait tüm bilgiye bu bağlantıdan http://<br />
www.r-project.org/, yöntemlerin paketlerine ait tam<br />
listeye ise bu bağlantıdan ulaşılabilir: http://cran.rproject.org/src/contrib/PACKAGES.html.<br />
[24]<br />
4.2. WEKA<br />
VM çalışmalarında kullanılan bir diğer açık kaynak<br />
kodlu ve ücretsiz program WEKA’dır. [27]<br />
WEKA`nın en önemli avantajı Java dilinde yazılmış<br />
olmasıdır. Bu nedenle hemen, hemen tüm işletim<br />
sistemlerinde (Linux, Mac,Sun,Windows) çalışabilmektedir.<br />
WEKA çok zengin bir içeriğe sahiptir. Bu<br />
çalışma kapsamında da bahsedilen `danışmanlı ve<br />
danışmansız öğrenme teknikleri, kümeleme, birliktelik<br />
kuralları gibi birçok yönteme ait paketlere sahiptir.<br />
(http://www.cs.waikato.ac.nz/ml/weka) [24]<br />
4.3. ORANGE<br />
Ücretsiz şekilde ulaşılabilen bir diğer yazılım da<br />
ORANGE`dır. (Demsar et al., 2004) ORANGE’ı diğer<br />
yazılımlardan ayıran en önemli nokta görsel bir analiz<br />
penceresine sahip olmasıdır. Yöntemler ve araçlar<br />
küçük ‘ikonlar’ halindedir. Kullanıcılar yapmak istedikleri<br />
analizlere ait ikonları `canvas` denilen çalışma<br />
alanına taşırlar ve analiz modellerini bu ikonlar arası<br />
`bağlantı yolları` kurarak oluştururlar. Bu nedenle<br />
son yıllarda giderek artan bir kullanım oranına sahiptir.<br />
Yazılıma ve ayrıntılı bilgiye bu linkten ulaşılabilir:<br />
http://www.ailab.si/orange.[24]<br />
5. Sonuç-Tartışma<br />
Veri madenciliği sağlıktan finansa birçok alanda<br />
kullanılmaktadır. Sağlık alanındaki en önemli uygulamalar<br />
ilaç sektörü ve genetik araştırmalardadır.<br />
[6,7,8,9] Yeni ilaç keşfinde firmalar klinik denemeler<br />
ile ilaç performanslarını test ederler. Bu denemelerdeki<br />
verilerin büyüklüğü çoğu zaman binlerce denek<br />
ve yüzlerce ölçüm ile ifade edilir. Bu kadar büyük<br />
veri yığınında ilacın hastalara hangi dozda verileceği,<br />
hangi semptomlara sahip bireylere hangi tedavinin<br />
uygulanacağı VM ile mümkün olmaktadır. Genetik<br />
araştırmalarda da VM çok sık kullanılmaktadır. Maliyetlerinden<br />
dolayı daha az hasta ve binlerce gen<br />
için gerçekleştirilen deneylerde klasik istatistiksel<br />
yöntemler [diskriminant analizi, t-testi] kullanılamamaktadır.<br />
Bunun nedeni klasik yöntemlerdeki temel<br />
varsayım “denek sayısının, değişken sayısından en<br />
az bir fazla olmasıdır”. Hastalıklarla ilgili genlerin belirlenmesi,<br />
hastalıkların insan genomunun hangi dizi<br />
pozisyonundan kaynaklandığı, mutasyona uğramış<br />
genetik bölgelerin belirlenmesi gibi çalışmalar en<br />
bilinen örneklerdir. [1,2, 6,7,10,26]<br />
Finans alanında da VM çok sık kullanılır. Borsa verilerinden<br />
yararlanarak hisse senetlerinin değer<br />
tahmini, finansal krizlerin tahmini, şirketlerinkârlarını<br />
arttırmak için satış stratejilerinin belirlenmesi, bankaların<br />
müşteri profili çıkarması, sahtekârlıkların<br />
belirlenmesi(frauddetection) gibi birçok soruna çözüm<br />
için VM kullanılmıştır. [16,17,18,19]<br />
Bu kadar hassas bilgi verebilen bu yöntem grubunun<br />
doğru ve hızlı şekilde uygulanabilmesi çok önemlidir.<br />
Bu makale ile en güncel yöntemler ve analiz akış şeması<br />
açıklanmaya çalışılmıştır. Araştırıcıların her veriye<br />
değil uygun veriye veri madenciliği uygulaması<br />
temel kazanım hedeflerindendir.<br />
Referanslar<br />
1. Cosgun E, Limdi N, Duarte CW. High dimensionalpharmacogeneticprediction<br />
of a continuoustraitusingmachinelearningtechniqueswithapplicationtowarfarindoseprediction<br />
in AfricanAmerican. Bioinformatics 2011;27:10:1384-9.<br />
2. Cosgun E, Karaagaoğlu E. Thenewhybridmethodforclassification of patientsby<br />
gene expressionprofiling. In: SuhSang C, GurupurVadadraj P, Tanik Murat M (eds).<br />
BiomedicalEngineering: Healthcare Systems, TechnologyandTechniques, Springer.<br />
1st ed. 2011: 255-65.<br />
3.Vapnik V. Estimation of DependencesBased on Empirical Data [in Russian]. Nauka,<br />
Moscow, 1979. (English translation:Springer, New York, 1982).<br />
4. LarsJuhlJensen,AlexBatemanTheriseandfall of supervisedmachinelearning tec<br />
hniques,Bioinformatics27,24,3331-3332,2011<br />
5. Tamayo P, Slonim D, Mesirov J, Zhu Q, et al. Interpretingpatterns of gene expressionwith<br />
self-organizingmaps: methodsandapplicationtohematopoieticdifferen<br />
tiation,ProcNatlAcadSci 1999; 96:2907-12.<br />
6.Yao, LX , InSilicoSearchforDrugTargets of Natural Compounds,CURRENT PHAR-<br />
MACEUTICAL BIOTECHNOLOGY,13,9,1632-1639,JUL 2012<br />
7. Li, XJ et al.,Unsupervised data mining technology based on research of strokemedication<br />
rules and discovery of prescription, AFRICAN JOURNAL OF PHAR-<br />
MACY AND PHARMACOLOGY,6,29, 2247-2254,AUG 2012<br />
8.Alcolea, MP et al.,Phosphoproteomic Analysis of Leukemia Cellsunder Basaland<br />
Drug-treated ConditionsIdentifies Markers of Kinase Pathway Activationand-<br />
Mechanisms of Resistance, MOLECULAR & CELLULAR PROTEOMICS,11,8,453-<br />
466,AUG 2012<br />
9. Gevaert O, Smet FD, Timmerman D, Moreau Y, Moor BD. Predictingtheprognosis<br />
of breast cancer by integrating clinical and microarray data with bayesiannetworks.<br />
Bioinformatics,2006; 22:184-90.<br />
10. Dudoit S, Fridlyand J, Speed TP. Comparison of discrimination methods forthe<br />
classification of tumorsusing gene expressiondata. 2000. Technical Report 576,<br />
Department of Statistics, University of California, Berkeley<br />
11.Jagota A. Microarray Data Analysis andVisualization, Bioinformatics, bythe Bay<br />
Press, SantaCruz, 2001.<br />
12. Frank E, Hall MA, Holmes G, Kirkby R, Pfahringer B. Witten, TriggL. Weka-a<br />
machine learning work bench for data mining. In: Maimon O, Rokach L (eds). The<br />
Data Miningand Knowledge DiscoveryHandbook, Springer 2005: 1305-14.<br />
13. Bradley AP. Theuse of theareaunderthe ROC curve in theevaluation of machinelearningalgorithms.<br />
Pattern Recognition,1997; 30:1145:59.<br />
14. Ben-Dor A, Bruhn L, Friedman N, Nachman I, Schummer,M, Yakhini N. Tissueclassificationwith<br />
gene expressionprofiles. Journal of ComputationalBiology<br />
2000; 7:559-83.<br />
15. Karabulut E, Karaağaoglu E. Biyoinformatik ve biyoistatistik. Hacettepe Tıp<br />
Dergisi 2010; 41:162-70.<br />
16.Oliveira, M et al., A frame work to monitor clusters evolution applied to economy<br />
and finance problems, INTELLIGENT DATA ANALYSIS,16,1 93-111, 2012<br />
17. Falavigna, G et al., Financial ratingswithscarceinformation: A neural network<br />
approach, EXPERT SYSTEMS WITH APPLICATIONS, 39,2 1784-1792, 1 2012<br />
18. Huang, CF et al, Feature Selection and Parameter Optimization of a Fuzzybased<br />
Stock Selection Model Using GeneticAlgorithms, INTERNATIONAL JOUR-<br />
NAL OF FUZZY SYSTEMS, 14, 1, 65-75, 2012<br />
19. Lin, WY et al., Machine Learning in Financial CrisisPrediction: A Survey,IEEE<br />
TRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS<br />
AND REVIEWS,42, 4 Pages: 421-436,JUL 2012<br />
20. Leo B. Randomforests. Machine Learning 2001; 45:5-32.<br />
21.Bradley AP. Theuse of theareaunderthe ROC curve in theevaluation of machine<br />
learning algorithms. PatternRecognition 1997; 30:1145:59.<br />
22..Vanderlooy S, Hullermeier E. A criticalanalysis of variants of the AUC. Machine<br />
Learning 2008; 72:247:62.<br />
23.Başak Öztürk et al., Kalite iyileştirmede veri kümeleme: Döküm endüstrisinde<br />
bir uygulama,ODTÜ Uygulamalı Matematik Ens., http://www3.iam.metu.edu.tr/<br />
iam/images/7/7a/Preprint75.pdf<br />
24.Erdal COŞGUN, Ergun Karaağaoğlu, Veri Madenciliği Yöntemleri ile Mikrodizilim<br />
Gen İfade Analizi, Hacettepe Tıp Dergisi, 42:180-189, 2011<br />
25. J.Han, M.Kamber, Data MiningConceptsandTechniques,MorganKaufmannP<br />
ub., 2006<br />
26. Cross-speciestransferability of SSR loci developed from transcip to mesequencing<br />
in lodgepolepine,Lesser, MR, MOLECULAR ECOLOGY RESOURCES,12,3,448-<br />
455, 2012<br />
27. Zhang K, Zhao H. Assessingreliability of gene clustersfrom gene expressiondata.<br />
FunctionalIntegrated Genomics,2000: 156-73<br />
28.Schneider,G et al.,Causaldescription: moving beyond stamp collecting in politicalscience,<br />
EUROPEAN POLITICAL SCIENCE,9,1,62-67 ,2010<br />
38 39