02.12.2012 Views

Sayi9kasimaralik

Sayi9kasimaralik

Sayi9kasimaralik

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Kasım-Aralık 2012 Yıl : 2 Sayı : 9<br />

3. Genelleştirme Yöntemleri<br />

3.1. Bootstrap:<br />

Bootstrap yöntemi standart sapma, güven aralığı<br />

gibi istatistiklerde ve parametrik olmayan tahmin<br />

problemlerinde kullanılan basit ve güvenilir bir metottur.<br />

Bu yöntem belirli bir veri seti içinden, yerine<br />

koyarak tekrar örneklem çekme temeline dayanır.<br />

Herhangi büyüklükteki bir veri setinde gözlemlerin<br />

şansa bağlı olarak yer değiştirilerek yeniden örneklenmesi<br />

ile çeşitli miktarda ve büyüklükte veri setleri<br />

oluşturulabilmektedir. Böylece mevcut veri setinden<br />

mümkün olabildiğince fazla miktarda bilgi alınabilmektedir.<br />

3.2. Çapraz Geçerlilik:<br />

Veri setlerinde olgu sayısının orta düzeyde (en az 50)<br />

olduğu deney düzenlerinde kullanışlı bir genelleştirme<br />

aracıdır.[11,12] Genel olarak '10-parça çapraz<br />

geçerlilik' yöntemi tercih edilmektedir. Bu yöntemde<br />

veri kümesi rastgele on eşit parçaya ayrılır. İlk<br />

aşamada birinci parça test veri seti olarak bırakılır,<br />

geriye kalan dokuz parça eğitim seti olarak kullanılır.<br />

İkinci aşamada ise ikinci parça test veri seti olarak<br />

kullanılır, geriye kalan dokuz parça ile model bulunmaya<br />

çalışılır. Bu süreç on parça ayrı, ayrı test seti<br />

olarak kullanılıncaya kadar devam eder.<br />

4. Kullanılan Analiz Araçları<br />

Veriler uygun veri tabanlarındadepolandıktan sonra<br />

araştırıcıların karşılaştıkları en önemli sorun hangi<br />

analiz aracını kullanacaklarını tercih edememeleridir.<br />

Araştırıcıların aldıkları eğitimi, alışkanlıklarını<br />

göz önüne alarak yapılması gereken bu tercihte iki<br />

önemli faktör rol almaktadır. Bunlar: 1) Kod tabanlı,<br />

herhangi bir arayüze sahip olmayan yazılımlar: [R],<br />

2)Kullanıcı ara yüzüne sahip, analiz kodlamalarının<br />

hazır olduğu yazılımlar [WEKA, ORANGE]<br />

Bu çalışma kapsamında her iki gruba ait yazılımlardan<br />

örnekler verilmiştir.<br />

4.1. [R]<br />

R, VM çalışan her araştırmacı için standart olan, açık<br />

AKADEMİK<br />

kaynak kodlu ve ücretsiz bir yazılımdır. R programının<br />

mantığı her analiz için kullanılabilecek `analiz paketlerine`<br />

sahip olmasıdır. Kullanıcılar yapmak istedikleri<br />

analize ait paketi indirdikten sonra ilgili paketin<br />

kullanım kılavuzuna göre analizlere devam ederler.<br />

Bu programa ait tüm bilgiye bu bağlantıdan http://<br />

www.r-project.org/, yöntemlerin paketlerine ait tam<br />

listeye ise bu bağlantıdan ulaşılabilir: http://cran.rproject.org/src/contrib/PACKAGES.html.<br />

[24]<br />

4.2. WEKA<br />

VM çalışmalarında kullanılan bir diğer açık kaynak<br />

kodlu ve ücretsiz program WEKA’dır. [27]<br />

WEKA`nın en önemli avantajı Java dilinde yazılmış<br />

olmasıdır. Bu nedenle hemen, hemen tüm işletim<br />

sistemlerinde (Linux, Mac,Sun,Windows) çalışabilmektedir.<br />

WEKA çok zengin bir içeriğe sahiptir. Bu<br />

çalışma kapsamında da bahsedilen `danışmanlı ve<br />

danışmansız öğrenme teknikleri, kümeleme, birliktelik<br />

kuralları gibi birçok yönteme ait paketlere sahiptir.<br />

(http://www.cs.waikato.ac.nz/ml/weka) [24]<br />

4.3. ORANGE<br />

Ücretsiz şekilde ulaşılabilen bir diğer yazılım da<br />

ORANGE`dır. (Demsar et al., 2004) ORANGE’ı diğer<br />

yazılımlardan ayıran en önemli nokta görsel bir analiz<br />

penceresine sahip olmasıdır. Yöntemler ve araçlar<br />

küçük ‘ikonlar’ halindedir. Kullanıcılar yapmak istedikleri<br />

analizlere ait ikonları `canvas` denilen çalışma<br />

alanına taşırlar ve analiz modellerini bu ikonlar arası<br />

`bağlantı yolları` kurarak oluştururlar. Bu nedenle<br />

son yıllarda giderek artan bir kullanım oranına sahiptir.<br />

Yazılıma ve ayrıntılı bilgiye bu linkten ulaşılabilir:<br />

http://www.ailab.si/orange.[24]<br />

5. Sonuç-Tartışma<br />

Veri madenciliği sağlıktan finansa birçok alanda<br />

kullanılmaktadır. Sağlık alanındaki en önemli uygulamalar<br />

ilaç sektörü ve genetik araştırmalardadır.<br />

[6,7,8,9] Yeni ilaç keşfinde firmalar klinik denemeler<br />

ile ilaç performanslarını test ederler. Bu denemelerdeki<br />

verilerin büyüklüğü çoğu zaman binlerce denek<br />

ve yüzlerce ölçüm ile ifade edilir. Bu kadar büyük<br />

veri yığınında ilacın hastalara hangi dozda verileceği,<br />

hangi semptomlara sahip bireylere hangi tedavinin<br />

uygulanacağı VM ile mümkün olmaktadır. Genetik<br />

araştırmalarda da VM çok sık kullanılmaktadır. Maliyetlerinden<br />

dolayı daha az hasta ve binlerce gen<br />

için gerçekleştirilen deneylerde klasik istatistiksel<br />

yöntemler [diskriminant analizi, t-testi] kullanılamamaktadır.<br />

Bunun nedeni klasik yöntemlerdeki temel<br />

varsayım “denek sayısının, değişken sayısından en<br />

az bir fazla olmasıdır”. Hastalıklarla ilgili genlerin belirlenmesi,<br />

hastalıkların insan genomunun hangi dizi<br />

pozisyonundan kaynaklandığı, mutasyona uğramış<br />

genetik bölgelerin belirlenmesi gibi çalışmalar en<br />

bilinen örneklerdir. [1,2, 6,7,10,26]<br />

Finans alanında da VM çok sık kullanılır. Borsa verilerinden<br />

yararlanarak hisse senetlerinin değer<br />

tahmini, finansal krizlerin tahmini, şirketlerinkârlarını<br />

arttırmak için satış stratejilerinin belirlenmesi, bankaların<br />

müşteri profili çıkarması, sahtekârlıkların<br />

belirlenmesi(frauddetection) gibi birçok soruna çözüm<br />

için VM kullanılmıştır. [16,17,18,19]<br />

Bu kadar hassas bilgi verebilen bu yöntem grubunun<br />

doğru ve hızlı şekilde uygulanabilmesi çok önemlidir.<br />

Bu makale ile en güncel yöntemler ve analiz akış şeması<br />

açıklanmaya çalışılmıştır. Araştırıcıların her veriye<br />

değil uygun veriye veri madenciliği uygulaması<br />

temel kazanım hedeflerindendir.<br />

Referanslar<br />

1. Cosgun E, Limdi N, Duarte CW. High dimensionalpharmacogeneticprediction<br />

of a continuoustraitusingmachinelearningtechniqueswithapplicationtowarfarindoseprediction<br />

in AfricanAmerican. Bioinformatics 2011;27:10:1384-9.<br />

2. Cosgun E, Karaagaoğlu E. Thenewhybridmethodforclassification of patientsby<br />

gene expressionprofiling. In: SuhSang C, GurupurVadadraj P, Tanik Murat M (eds).<br />

BiomedicalEngineering: Healthcare Systems, TechnologyandTechniques, Springer.<br />

1st ed. 2011: 255-65.<br />

3.Vapnik V. Estimation of DependencesBased on Empirical Data [in Russian]. Nauka,<br />

Moscow, 1979. (English translation:Springer, New York, 1982).<br />

4. LarsJuhlJensen,AlexBatemanTheriseandfall of supervisedmachinelearning tec<br />

hniques,Bioinformatics27,24,3331-3332,2011<br />

5. Tamayo P, Slonim D, Mesirov J, Zhu Q, et al. Interpretingpatterns of gene expressionwith<br />

self-organizingmaps: methodsandapplicationtohematopoieticdifferen<br />

tiation,ProcNatlAcadSci 1999; 96:2907-12.<br />

6.Yao, LX , InSilicoSearchforDrugTargets of Natural Compounds,CURRENT PHAR-<br />

MACEUTICAL BIOTECHNOLOGY,13,9,1632-1639,JUL 2012<br />

7. Li, XJ et al.,Unsupervised data mining technology based on research of strokemedication<br />

rules and discovery of prescription, AFRICAN JOURNAL OF PHAR-<br />

MACY AND PHARMACOLOGY,6,29, 2247-2254,AUG 2012<br />

8.Alcolea, MP et al.,Phosphoproteomic Analysis of Leukemia Cellsunder Basaland<br />

Drug-treated ConditionsIdentifies Markers of Kinase Pathway Activationand-<br />

Mechanisms of Resistance, MOLECULAR & CELLULAR PROTEOMICS,11,8,453-<br />

466,AUG 2012<br />

9. Gevaert O, Smet FD, Timmerman D, Moreau Y, Moor BD. Predictingtheprognosis<br />

of breast cancer by integrating clinical and microarray data with bayesiannetworks.<br />

Bioinformatics,2006; 22:184-90.<br />

10. Dudoit S, Fridlyand J, Speed TP. Comparison of discrimination methods forthe<br />

classification of tumorsusing gene expressiondata. 2000. Technical Report 576,<br />

Department of Statistics, University of California, Berkeley<br />

11.Jagota A. Microarray Data Analysis andVisualization, Bioinformatics, bythe Bay<br />

Press, SantaCruz, 2001.<br />

12. Frank E, Hall MA, Holmes G, Kirkby R, Pfahringer B. Witten, TriggL. Weka-a<br />

machine learning work bench for data mining. In: Maimon O, Rokach L (eds). The<br />

Data Miningand Knowledge DiscoveryHandbook, Springer 2005: 1305-14.<br />

13. Bradley AP. Theuse of theareaunderthe ROC curve in theevaluation of machinelearningalgorithms.<br />

Pattern Recognition,1997; 30:1145:59.<br />

14. Ben-Dor A, Bruhn L, Friedman N, Nachman I, Schummer,M, Yakhini N. Tissueclassificationwith<br />

gene expressionprofiles. Journal of ComputationalBiology<br />

2000; 7:559-83.<br />

15. Karabulut E, Karaağaoglu E. Biyoinformatik ve biyoistatistik. Hacettepe Tıp<br />

Dergisi 2010; 41:162-70.<br />

16.Oliveira, M et al., A frame work to monitor clusters evolution applied to economy<br />

and finance problems, INTELLIGENT DATA ANALYSIS,16,1 93-111, 2012<br />

17. Falavigna, G et al., Financial ratingswithscarceinformation: A neural network<br />

approach, EXPERT SYSTEMS WITH APPLICATIONS, 39,2 1784-1792, 1 2012<br />

18. Huang, CF et al, Feature Selection and Parameter Optimization of a Fuzzybased<br />

Stock Selection Model Using GeneticAlgorithms, INTERNATIONAL JOUR-<br />

NAL OF FUZZY SYSTEMS, 14, 1, 65-75, 2012<br />

19. Lin, WY et al., Machine Learning in Financial CrisisPrediction: A Survey,IEEE<br />

TRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS<br />

AND REVIEWS,42, 4 Pages: 421-436,JUL 2012<br />

20. Leo B. Randomforests. Machine Learning 2001; 45:5-32.<br />

21.Bradley AP. Theuse of theareaunderthe ROC curve in theevaluation of machine<br />

learning algorithms. PatternRecognition 1997; 30:1145:59.<br />

22..Vanderlooy S, Hullermeier E. A criticalanalysis of variants of the AUC. Machine<br />

Learning 2008; 72:247:62.<br />

23.Başak Öztürk et al., Kalite iyileştirmede veri kümeleme: Döküm endüstrisinde<br />

bir uygulama,ODTÜ Uygulamalı Matematik Ens., http://www3.iam.metu.edu.tr/<br />

iam/images/7/7a/Preprint75.pdf<br />

24.Erdal COŞGUN, Ergun Karaağaoğlu, Veri Madenciliği Yöntemleri ile Mikrodizilim<br />

Gen İfade Analizi, Hacettepe Tıp Dergisi, 42:180-189, 2011<br />

25. J.Han, M.Kamber, Data MiningConceptsandTechniques,MorganKaufmannP<br />

ub., 2006<br />

26. Cross-speciestransferability of SSR loci developed from transcip to mesequencing<br />

in lodgepolepine,Lesser, MR, MOLECULAR ECOLOGY RESOURCES,12,3,448-<br />

455, 2012<br />

27. Zhang K, Zhao H. Assessingreliability of gene clustersfrom gene expressiondata.<br />

FunctionalIntegrated Genomics,2000: 156-73<br />

28.Schneider,G et al.,Causaldescription: moving beyond stamp collecting in politicalscience,<br />

EUROPEAN POLITICAL SCIENCE,9,1,62-67 ,2010<br />

38 39

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!