13.07.2015 Views

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Veri Kümeleme Algoritmalarının Performansları Üzerine Karşılaştırmalı Bir ÇalışmaMustafa Seçkin Durmuş, Serdar İplikçiölçümlerin sonuçlarını içermektedir. Örnekvektörünün her bir sayısal elemanı da (x i), yaniverilerin yakınlık bileşenleri, öznitelik olaraktanımlanmaktadır (1). Buradaki d örnek uzayınınboyutunu, n örnek sayısını ifade etmektedir.Örnek seti (2)’de görülmektedir.Tx = [ ] , ( i 1, 2, ..., n)x x x ni 1 2[ ];X = x x x X =1 2d⎡⎢⎢⎢⎢⎣= (1)x x x11 12 1dx x x21 22 2 d x x xn1 n 2nd⎤⎥⎥(2)⎥⎥⎦Örnek dizisi n xd örnek matrisi olarak da ifadeedilebilmektedir. Bu matrisin her satırı örneklerive her sütunu da öznitelikleri veya ölçümleri ifadeetmektedir. Veriler arasındaki ilişkiler, satır vesütunları verilerden oluşan yakınlık matrisleri (3)ile ifade edilmektedir. Bu yakınlıklar, Minkowskiölçüleri olarak da bilinen, Öklit, Manhattan,Supremium, Hamming, Mahalanobis gibi yakınlıkölçüm yöntemleri ile hesaplanmaktadır [1,2].Bu çalışmada kullanılan yakınlık matrisleri Öklituzaklık ölçümüne (4) göre hesaplanmıştır.[ D( i,j)]⎡ 0 d d12 1m⎤⎢d0 d ⎥21 2 m= ⎢⎥⎢ ⎥⎢⎥⎣dd 0n1 n2⎦(3)Yukarıda bulunan ilk üç adım şekil 1’de görülmektedir.Geri besleme, kümeleme sonucundaelde edilen çıkışın, örnek uzaklık ölçümlerineve özniteliklerin çıkarılmasına etki etmektedir.4. Benzetimlerde Kullanılan Algoritmalar4.1. En Yakın Komşu Algoritması:1. Her nokta kendisine en yakın (nearest neighbour)kümeye yerleştirilir.2. Eşik değeri (threshold - t), yeni bir komşuyuveya yeni bir kümeyi belirler.3. Tüm noktalar herhangi bir kümeye yerleştirilinceyekadar işlemlere devam edilir [1,4].4.2. Karşılıklı Komşuluk Değeri Algoritması:1. Tüm noktalar için karşılıklı enyakın komşuluk değerleri (MutualNeighbourhood Value - MNV) belirlenir.2. Eşik değeri yerine en yakın komşu sayısı(k) belirlenir.3. MNV= 2, 3, …, 2k için kümeler oluşturulur[1,2].4.3. En Küçük Örten Ağaç Algoritması:1. İki nokta arasındaki uzaklıklar “ağırlık”olarak tanımlanır.2. Olası ağaçlar arasından ağırlıklar toplamıen küçük ağaç seçilir.3. Seçilen eşik değerinden büyük ağırlığa sahipdallar ağaçtan kaldırılır.T= ( , ) ( x x ) ( x x ) (4)d d i k = − −ik i k i k3. Kümeleme İşleminde İzlenecek YolKlasik bir örnek kümeleme işleminde takipedilmesi gereken adımlar şunlardır:1.2.3.4.5.Örneklerin sunulması,Örneklerin uzaklık ölçümlerinin veri tabanınauygun olarak tanımlanması,Kümeleme veya gruplama,Veri ayıklama (gerekli olduğu durumlardayapılmaktadır),Çıkışın değerlendirilmesi (gerekli olduğudurumlarda yapılmaktadır) [2,10].394Bu algoritma için eşik değeri yerine uyuşmayankenar (inconsistent edge) seçimi ile de kümelerbelirlenir. Kendisine yakın olan ağırlıkların ortalamasındandaha büyük ağırlığa sahip kenar“uyuşmayan kenar” olarak adlandırılır [5,1].4.4. Delaunay Üçgen Metodu:1. x ve x ’yi birleştiren kenar eğer x ve x ’yi dei j i jiçeren Dirichlet mozaiğinin (Şekil 2) iki hücresiortak sınırı paylaşıyorsa oluşturulan çizgedebirbirine bağlıdır. Uygulamaların çoğusadece iki boyutlu veriler için yapılmıştır.2. Sınır–Kenar ilişkileri göz önünde bulundurulurve oluşturulacak olan çizge yapısıbu ilişkilere göre belirlenir [1].

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!