Sayi9kasimaralik

Recommendations

Info

Kasım-Aralık 2012 Yıl : 2 Sayı : 9 3. Genelleştirme Yöntemleri 3.1. Bootstrap: Bootstrap yöntemi standart sapma, güven aralığı gibi istatistiklerde ve parametrik olmayan tahmin problemlerinde kullanılan basit ve güvenilir bir metottur. Bu yöntem belirli bir veri seti içinden, yerine koyarak tekrar örneklem çekme temeline dayanır. Herhangi büyüklükteki bir veri setinde gözlemlerin şansa bağlı olarak yer değiştirilerek yeniden örneklenmesi ile çeşitli miktarda ve büyüklükte veri setleri oluşturulabilmektedir. Böylece mevcut veri setinden mümkün olabildiğince fazla miktarda bilgi alınabilmektedir. 3.2. Çapraz Geçerlilik: Veri setlerinde olgu sayısının orta düzeyde (en az 50) olduğu deney düzenlerinde kullanışlı bir genelleştirme aracıdır.[11,12] Genel olarak '10-parça çapraz geçerlilik' yöntemi tercih edilmektedir. Bu yöntemde veri kümesi rastgele on eşit parçaya ayrılır. İlk aşamada birinci parça test veri seti olarak bırakılır, geriye kalan dokuz parça eğitim seti olarak kullanılır. İkinci aşamada ise ikinci parça test veri seti olarak kullanılır, geriye kalan dokuz parça ile model bulunmaya çalışılır. Bu süreç on parça ayrı, ayrı test seti olarak kullanılıncaya kadar devam eder. 4. Kullanılan Analiz Araçları Veriler uygun veri tabanlarındadepolandıktan sonra araştırıcıların karşılaştıkları en önemli sorun hangi analiz aracını kullanacaklarını tercih edememeleridir. Araştırıcıların aldıkları eğitimi, alışkanlıklarını göz önüne alarak yapılması gereken bu tercihte iki önemli faktör rol almaktadır. Bunlar: 1) Kod tabanlı, herhangi bir arayüze sahip olmayan yazılımlar: [R], 2)Kullanıcı ara yüzüne sahip, analiz kodlamalarının hazır olduğu yazılımlar [WEKA, ORANGE] Bu çalışma kapsamında her iki gruba ait yazılımlardan örnekler verilmiştir. 4.1. [R] R, VM çalışan her araştırmacı için standart olan, açık AKADEMİK kaynak kodlu ve ücretsiz bir yazılımdır. R programının mantığı her analiz için kullanılabilecek `analiz paketlerine` sahip olmasıdır. Kullanıcılar yapmak istedikleri analize ait paketi indirdikten sonra ilgili paketin kullanım kılavuzuna göre analizlere devam ederler. Bu programa ait tüm bilgiye bu bağlantıdan http:// www.r-project.org/, yöntemlerin paketlerine ait tam listeye ise bu bağlantıdan ulaşılabilir: http://cran.rproject.org/src/contrib/PACKAGES.html. [24] 4.2. WEKA VM çalışmalarında kullanılan bir diğer açık kaynak kodlu ve ücretsiz program WEKA’dır. [27] WEKA`nın en önemli avantajı Java dilinde yazılmış olmasıdır. Bu nedenle hemen, hemen tüm işletim sistemlerinde (Linux, Mac,Sun,Windows) çalışabilmektedir. WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamında da bahsedilen `danışmanlı ve danışmansız öğrenme teknikleri, kümeleme, birliktelik kuralları gibi birçok yönteme ait paketlere sahiptir. (http://www.cs.waikato.ac.nz/ml/weka) [24] 4.3. ORANGE Ücretsiz şekilde ulaşılabilen bir diğer yazılım da ORANGE`dır. (Demsar et al., 2004) ORANGE’ı diğer yazılımlardan ayıran en önemli nokta görsel bir analiz penceresine sahip olmasıdır. Yöntemler ve araçlar küçük ‘ikonlar’ halindedir. Kullanıcılar yapmak istedikleri analizlere ait ikonları `canvas` denilen çalışma alanına taşırlar ve analiz modellerini bu ikonlar arası `bağlantı yolları` kurarak oluştururlar. Bu nedenle son yıllarda giderek artan bir kullanım oranına sahiptir. Yazılıma ve ayrıntılı bilgiye bu linkten ulaşılabilir: http://www.ailab.si/orange.[24] 5. Sonuç-Tartışma Veri madenciliği sağlıktan finansa birçok alanda kullanılmaktadır. Sağlık alanındaki en önemli uygulamalar ilaç sektörü ve genetik araştırmalardadır. [6,7,8,9] Yeni ilaç keşfinde firmalar klinik denemeler ile ilaç performanslarını test ederler. Bu denemelerdeki verilerin büyüklüğü çoğu zaman binlerce denek ve yüzlerce ölçüm ile ifade edilir. Bu kadar büyük veri yığınında ilacın hastalara hangi dozda verileceği, hangi semptomlara sahip bireylere hangi tedavinin uygulanacağı VM ile mümkün olmaktadır. Genetik araştırmalarda da VM çok sık kullanılmaktadır. Maliyetlerinden dolayı daha az hasta ve binlerce gen için gerçekleştirilen deneylerde klasik istatistiksel yöntemler [diskriminant analizi, t-testi] kullanılamamaktadır. Bunun nedeni klasik yöntemlerdeki temel varsayım “denek sayısının, değişken sayısından en az bir fazla olmasıdır”. Hastalıklarla ilgili genlerin belirlenmesi, hastalıkların insan genomunun hangi dizi pozisyonundan kaynaklandığı, mutasyona uğramış genetik bölgelerin belirlenmesi gibi çalışmalar en bilinen örneklerdir. [1,2, 6,7,10,26] Finans alanında da VM çok sık kullanılır. Borsa verilerinden yararlanarak hisse senetlerinin değer tahmini, finansal krizlerin tahmini, şirketlerinkârlarını arttırmak için satış stratejilerinin belirlenmesi, bankaların müşteri profili çıkarması, sahtekârlıkların belirlenmesi(frauddetection) gibi birçok soruna çözüm için VM kullanılmıştır. [16,17,18,19] Bu kadar hassas bilgi verebilen bu yöntem grubunun doğru ve hızlı şekilde uygulanabilmesi çok önemlidir. Bu makale ile en güncel yöntemler ve analiz akış şeması açıklanmaya çalışılmıştır. Araştırıcıların her veriye değil uygun veriye veri madenciliği uygulaması temel kazanım hedeflerindendir. Referanslar 1. Cosgun E, Limdi N, Duarte CW. High dimensionalpharmacogeneticprediction of a continuoustraitusingmachinelearningtechniqueswithapplicationtowarfarindoseprediction in AfricanAmerican. Bioinformatics 2011;27:10:1384-9. 2. Cosgun E, Karaagaoğlu E. Thenewhybridmethodforclassification of patientsby gene expressionprofiling. In: SuhSang C, GurupurVadadraj P, Tanik Murat M (eds). BiomedicalEngineering: Healthcare Systems, TechnologyandTechniques, Springer. 1st ed. 2011: 255-65. 3.Vapnik V. Estimation of DependencesBased on Empirical Data [in Russian]. Nauka, Moscow, 1979. (English translation:Springer, New York, 1982). 4. LarsJuhlJensen,AlexBatemanTheriseandfall of supervisedmachinelearning tec hniques,Bioinformatics27,24,3331-3332,2011 5. Tamayo P, Slonim D, Mesirov J, Zhu Q, et al. Interpretingpatterns of gene expressionwith self-organizingmaps: methodsandapplicationtohematopoieticdifferen tiation,ProcNatlAcadSci 1999; 96:2907-12. 6.Yao, LX , InSilicoSearchforDrugTargets of Natural Compounds,CURRENT PHAR- MACEUTICAL BIOTECHNOLOGY,13,9,1632-1639,JUL 2012 7. Li, XJ et al.,Unsupervised data mining technology based on research of strokemedication rules and discovery of prescription, AFRICAN JOURNAL OF PHAR- MACY AND PHARMACOLOGY,6,29, 2247-2254,AUG 2012 8.Alcolea, MP et al.,Phosphoproteomic Analysis of Leukemia Cellsunder Basaland Drug-treated ConditionsIdentifies Markers of Kinase Pathway Activationand- Mechanisms of Resistance, MOLECULAR & CELLULAR PROTEOMICS,11,8,453- 466,AUG 2012 9. Gevaert O, Smet FD, Timmerman D, Moreau Y, Moor BD. Predictingtheprognosis of breast cancer by integrating clinical and microarray data with bayesiannetworks. Bioinformatics,2006; 22:184-90. 10. Dudoit S, Fridlyand J, Speed TP. Comparison of discrimination methods forthe classification of tumorsusing gene expressiondata. 2000. Technical Report 576, Department of Statistics, University of California, Berkeley 11.Jagota A. Microarray Data Analysis andVisualization, Bioinformatics, bythe Bay Press, SantaCruz, 2001. 12. Frank E, Hall MA, Holmes G, Kirkby R, Pfahringer B. Witten, TriggL. Weka-a machine learning work bench for data mining. In: Maimon O, Rokach L (eds). The Data Miningand Knowledge DiscoveryHandbook, Springer 2005: 1305-14. 13. Bradley AP. Theuse of theareaunderthe ROC curve in theevaluation of machinelearningalgorithms. Pattern Recognition,1997; 30:1145:59. 14. Ben-Dor A, Bruhn L, Friedman N, Nachman I, Schummer,M, Yakhini N. Tissueclassificationwith gene expressionprofiles. Journal of ComputationalBiology 2000; 7:559-83. 15. Karabulut E, Karaağaoglu E. Biyoinformatik ve biyoistatistik. Hacettepe Tıp Dergisi 2010; 41:162-70. 16.Oliveira, M et al., A frame work to monitor clusters evolution applied to economy and finance problems, INTELLIGENT DATA ANALYSIS,16,1 93-111, 2012 17. Falavigna, G et al., Financial ratingswithscarceinformation: A neural network approach, EXPERT SYSTEMS WITH APPLICATIONS, 39,2 1784-1792, 1 2012 18. Huang, CF et al, Feature Selection and Parameter Optimization of a Fuzzybased Stock Selection Model Using GeneticAlgorithms, INTERNATIONAL JOUR- NAL OF FUZZY SYSTEMS, 14, 1, 65-75, 2012 19. Lin, WY et al., Machine Learning in Financial CrisisPrediction: A Survey,IEEE TRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS AND REVIEWS,42, 4 Pages: 421-436,JUL 2012 20. Leo B. Randomforests. Machine Learning 2001; 45:5-32. 21.Bradley AP. Theuse of theareaunderthe ROC curve in theevaluation of machine learning algorithms. PatternRecognition 1997; 30:1145:59. 22..Vanderlooy S, Hullermeier E. A criticalanalysis of variants of the AUC. Machine Learning 2008; 72:247:62. 23.Başak Öztürk et al., Kalite iyileştirmede veri kümeleme: Döküm endüstrisinde bir uygulama,ODTÜ Uygulamalı Matematik Ens., http://www3.iam.metu.edu.tr/ iam/images/7/7a/Preprint75.pdf 24.Erdal COŞGUN, Ergun Karaağaoğlu, Veri Madenciliği Yöntemleri ile Mikrodizilim Gen İfade Analizi, Hacettepe Tıp Dergisi, 42:180-189, 2011 25. J.Han, M.Kamber, Data MiningConceptsandTechniques,MorganKaufmannP ub., 2006 26. Cross-speciestransferability of SSR loci developed from transcip to mesequencing in lodgepolepine,Lesser, MR, MOLECULAR ECOLOGY RESOURCES,12,3,448- 455, 2012 27. Zhang K, Zhao H. Assessingreliability of gene clustersfrom gene expressiondata. FunctionalIntegrated Genomics,2000: 156-73 28.Schneider,G et al.,Causaldescription: moving beyond stamp collecting in politicalscience, EUROPEAN POLITICAL SCIENCE,9,1,62-67 ,2010 38 39
Kasım-Aralık 2012 Yıl : 2 Sayı : 9 Prof. Dr. Hülya Çıngı Hacettepe Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü Araştırmalarda Örnekleme Yöntemleri Çevremizde ve yaşantımızda karşılaştığımız olayların çoğu bizi araştırma yapmaya yöneltir. Araştırma bir gereksinim olarak doğmuştur. Temelde, bir arama, gerçeği öğrenme, bilinmeyeni bilinir yapma, karanlığa ışık tutma, kısaca aydınlanma sürecidir. İnsanlar bilgide ilerlemek, gelişmeyi sağlamak, çevresini tanımak ve ondan en iyi şekilde yararlanmak ister. Bir soruna güvenilir çözümler aramak amacıyla verilerin planlı olarak toplanması, sınıflandırılması, çözümlenmesi, yorumlanarak değerlendirilmesi ve rapor edilmesi sürecine araştırma denir. Araştırmalarda en önemli aşamalardan biri örneklem seçme ve seçilen örneklemden tahminler yapmaktır. Günümüzde, fizik, kimya, biyoloji gibi fen dallarında, çeşitli mühendislik dallarında, tıp, ecza, diş hekimliği gibi sağlık bilimlerinde ve sosyal bilimlerde yapılan pek çok araştırmada; kamuoyu yoklamalarında ve pazarlama araştırmalarında, örnekleme yönteminden yararlanılır. Günlük yaşantıda da örnekleme yöntemi kullanılır. Örneğin, pişirmekte olduğu yemeğin tadına bakarak yemek hakkında karar veren bir ev hanımı; satın aldığı bir mal bozuk ya da kusurlu çıktığı AKADEMİK için o satın aldığı yerden bir kez daha alışveriş yapmayan müşteri gerçekte örnekleme yönteminden yararlanmaktadır. Kalite kontrol problemlerinde de örneklemeden yararlanılır. Bu tür problemler, daha çok fabrikalarda üretilen mallar satışa sunulurken ya da çeşitli kuruluşlar tarafından alım yapılırken ortaya çıkar. Burada, üretilen ya da alımı yapılacak olan malların tek tek ele alınması, çoğu zaman olanaksızdır. O nedenle, malları simgeleyebilen, bir diğer deyişle, kitlenin özelliklerini taşıyan bir alt grup incelenerek karar verilir. İşte, kitleyi simgeleyebilecek nitelikte bir miktar birimin oluşturduğu alt gruba örneklem, kitleden örneklem seçme işine de örnekleme adı verilir. Örneklemden yararlanarak kitle hakkında tahminler yapılır. Araştırmalarda amaç, şans eseri örnekleme ile seçilmiş birimleri incelemek değil; kitleden, kitleyi en iyi temsil edecek birimleri olasılıksal örnekleme yöntemiyle seçerek incelemektir. İyi bir örneklem seçme işlemi her bir birime eşit ya da farklı seçilme şansı tanıyarak olasılıksal örnekleme yöntemleriyle yapılan seçimdir. Araştırmaya katılmak isteyen gönüllüler arasından bir örneklemin seçilmesi yanlış olur. Doğru tanımlanmış bir hedef kitleden, eksiksiz bir çerçeveden, doğru örnekleme yöntemiyle seçilen bir örneklem ile doğru kararlar alınabilir. Örneklem üzerinde çalışmak, araştırıcıya zaman, para ve insan gücü bakımından tasarruf sağlar. Örneğin, Türkiye’de toplam buğday üretim miktarı tahmin edilmek istendiğinde, Türkiye’de tüm buğday üretimi yapan çiftlikleri incelemek yerine bu çiftlikleri en iyi simgeleyebilen bir örneklem seçmek, zaman, para ve emek yönünden büyük ölçüde tasarruf sağlar. Bazı kitlelere büyüklüğü nedeniyle örneklemenin uygulanması zorunludur. Örneklemenin yapılabilmesi için kitle, her bir kitle birimi bir ve yalnız bir parçaya ait olma koşulu altında bir takım alt parçalara bölünür. Örnekleme bu alt parçalar üzerinden uygulanır. Bu alt parçalara örneklem birimi adı verilir. Örneklem birimi bir tek kitle biriminden oluşabildiği gibi, birden çok kitle biriminden de oluşabilir. Örneğin, Türkiye Elektrik Kurumu (TEK) bir bölgede hane başına ortalama elektrik tüketimini tahmin etmek istediğinde, kitle birimi haneler, örneklem birimi apartmanlar (bloklar) alınabilir. Bu durumda örneklemeye apartmanlar üzerinden gidilerek tahminlerde bulunulacaktır. Örneklem birimine ilişkin ölçümleri saptamak üzere kullanılan birime de gözlem birimi adı verilmektedir. Bazı araştırmalarda örneklem birimi ile gözlem birimi aynı, bazılarında ise farklıdır. Mahallelerin örneklem birimi alındığı bir araştırmada gözlem birimi o mahallenin muhtarı olabilir. Gözlem biriminden o mahallede yaşayan kişiler hakkında bilgi edinilebilir. Sonlu kitleler üzerinde araştırma yapıldığında örneklemin başarılı bir şekilde seçilebilmesi için sonlu kitledeki örneklem birimlerinden oluşan bir liste ya da harita hazırlamak yerinde olur. İşte bu araca çerçeve adı verilir. Örneğin, mahallelerin örneklem birimi olarak alındığı bir araştırmada, belirlenen bölgede mahallelerin listesi çerçevedir. Bazı araştırmalarda havadan alınan fotoğraflar da çerçeve olabilir. İyi ve tam bir çerçeve hazırlamak oldukça zordur. Sonlu kitlede çerçeve hazırlandıktan sonra, kitlenin yapısına uygun örnekleme yönteminin seçilmesi gerekir. Uygun örnekleme yönteminin seçimi, kitlenin yapısına bağlı olduğu gibi araştırma için ayrılan mali kaynaklar, emek ve zamanla da il- gilidir. Sosyal içerikli bir araştırmada, evlerinde yaşayan insanlar ile hapishane, hastane gibi yerlerde yaşayan insanların aynı biçimde değerlendirilmeleri araştırmanın sonucuna farklı yönde etki edebilir. Bir araştırma için ayrılan süre içerisinde örneklem biriminde değişiklikler görülebilir. Örnekleme yönteminin seçiminde bu noktaların göz önünde bulundurulması gerekir. Örnekleme yönteminin belirlenmesiyle, kitleden seçilecek örneklem büyüklüğü bu yönteme göre belirlenebilir. Böylece sonlu büyüklükte bir kitleden uygun büyüklüklü bir örneklem seçilerek seçim süreci tamamlanmış olur. Seçim sürecinden sonra tahmin süreci gelir. Seçim sürecinde kullanılan yönteme göre parametreler tahmin edilir. Tahmin edilirken örneklemeden doğan hata payları da elde edilir. İşte örneklemenin yararı burada daha çok belirgindir. Örneklem seçildikten sonra da ne kadarlık bir hata ile parametrelerin tahmin edilebileceği, parametlerin içinde bulundukları sınırlar bulunabilir. Yukarıda da açıklandığı gibi, araştırmaların birçoğunda örnekleme yönteminden yararlanılır. Örnekleme yönteminin istatistiksel hipotez testleri, karar kuramı, deney düzenleme gibi istatistiğin çeşitli konularında kuram ve uygulama açısından yeri ve önemi büyüktür. ÖRNEKLEME YÖNTEMLERİNİN TANIMI Araştırmalarda amaç, iyi bir örneklem ile yansız, tutarlı ve duyarlı tahminler yapabilmektir. İyi bir örneklem, kitleye en uygun örnekleme yönteminin belirlenmesinden sonra bu yönteme göre örneklem büyüklüğünün saptanmasıyla elde edilebilir. Uygun örnekleme yönteminin belirlenmesi parametreye ilişkin örnekleme varyansının en küçük kılınmasıyla mümkündür. Bu nedenle uygun örnekleme yönteminin seçimi araştırmalarda önemli bir yer tutar. Örneklem Birimlerinin Çekilme Olasılıklarına Göre Sınıflandırma 1. Olasılıksal Örnekleme Örneklem birimlerinin belirli olasılıklarla çekildiği örnekleme yöntemine olasılıksal örnekleme adı verilir. 40 41
Page 3 and 4: Ahlaki gereklilik istatistik... pre
Page 5 and 6: Yıl: 2 Sayı:9 Kasım-Aralık 2012
Page 7 and 8: Kasım-Aralık 2012 Yıl : 2 Sayı
Page 21: Kasım-Aralık 2012 Yıl : 2 Sayı
Page 35 and 36: %9’u “”zorlama”, %25’i
Page 39 and 40: 72 Kasım-Aralık 2012 Yıl : 2 Say
Page 41 and 42: Kasım-Aralık 2012 Yıl: 2 Sayı:
Page 45 and 46: 5 Kasım-Aralık 2012 Yıl: 2 Sayı
Page 47 and 48: 22 23 Kasım-Aralık 2012 Yıl: 2 S
Page 51: 96 Kasım-Aralık 2012 Yıl: 2 Say

Sayi9kasimaralik

Create successful ePaper yourself

Delete template?

Save as template?