13.07.2015 Views

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Veri Kümeleme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir ÇalışmaMustafa Seçkin Durmuş, Serdar İplikçi7. SonuçlarKullanılan tüm veri setleri için en iyi kümelemeyiyapabilen bir algoritma bulunmamaktadır.Çünkü tüm kümeleme algoritmalarının performanslarıverilerin dağılımına bağlıdır, Iris veriseti için başarımı yüksek (düşük flop sayısı veişlem süresi, daha belirgin kümeler) kümelemeyapabilen bir algoritma diğer veri setleri içinanlamlı kümeler oluşturamamaktadır. Bu nedenleamacımıza uygun bir kümeleme algoritmasıönceden belirlenmelidir. Bu belirleme işleminde,uzmanın önemi unutulmamalıdır. Buçalışmada gerçeklenen algoritmalar arasındantüm özellikler göz önünde bulundurulduğunda,en yakın komşuluk algoritması en iyi algoritmaolarak belirlenmiştir. Algoritmaların seçimidışında kümeleme işlemlerine önemli orandaetki eden diğer bir önemli husus da uygun eşikdeğerlerinin belirlenmesidir. Halen üzerindeçalışılan bir konu olmakla birlikte, kümelenecekolan veri setinin yakınlık matrisinde bulunanen büyük, en küçük ve ortalama değerleregöre de eşik değeri belirlenebilmektedir veyabir noktanın diğer noktalara olan uzaklık değerleriarasından ortalama değerin üstündeolan yakınlık değer(ler)i uyuşmayan kenar (inconsistentedge) olarak belirlenip kaldırılmaktadır.İç içe girmiş veriler için bulanık kümelemekullanılarak daha iyi sonuçlar elde edilebilir.Günümüzde veri tabanlarının terabayt’larcinsinden ifade edilmektedir. Mesela, uydularvasıtası ile alınan bir görüntüyü işlemek amacıylahem hızlı, hem de verimli kümeleme algoritmalarınaihtiyaç duyulmaktadır. Bu gibibüyük boyutlu verileri kümeleyebilmek için buamaca uygun hazırlanmış bilgisayarlar (paketprogramlar v.b.) ve algoritmalar kullanmakdaha elverişli olacaktır.8. Kaynaklar[1] Jain A. K., Dubes R. C., Algorithms forClustering Data, Prentice Hall, EnglewoodCliffs, NJ, 1988.[2] Jain A. K., Murty M. N., Flynn P. J., DataClustering: A Review, ACM Computing Surveys,Vol. <strong>31</strong>, No. 3, 1999.[3] Mannila H., Data mining: Machine Learning,Statistics, and Databases. Eight InternationalConference on Scientific and StatisticalDatabase Management, Stockholm, June18-20, p. 1-8, 1996.[4] İplikçi S. and Denizhan Y., Kaotik Sistemlerİçin Yapay Sinir Ağı Tabanlı Bir Hedef BölgesineGötürme Yöntemi, TOK’2002 BildirilerKitabı, s.281-291, Ankara, 2002.[5] Zahn C. T., Graph Theoretical Methods forDetecting and Describing Gestalt Clusters, IEEETrans. on Computers, SLAC-PUB-672, 1970.[6] Hartigan J. A., Clustering Algorithms, JohnWiley & Sons Inc., ISBN 0-471-35645-X, NewYork, 1975.[7] Ben-Hur A., Horn D., Siegelmann H. T.,Vapnik V., Support Vector Clustering, Journalof Machine Learning Research, 125-137, 2001.[8] Anderson E., The Irises of the Gaspe Peninsula,Bulletin of the American Iris Society,59, 2-5, 1935.[9] Ripley B. D., Pattern Recognition andNeural Networks, Cambridge University Press,ISBN 0-521-460-867, Cambridge, 1996.[10] Hösel V., Walcher S., Clustering Techniques:A Brief Survey, AMS Subject Classification,62H30, 68T10, 62-<strong>07</strong>, Germany, 2000.[11] Venkataraman P., Applied Optimizationwith MATLAB Programming, John Wiley &Sons Inc., ISBN 0-471-34958-5, U.S.A., 2002.[12] http://members.tripod.com/asim_saeed/paper.htm400

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!