PDF - YÄ±ldÄ±z Teknik Ãniversitesi

çeşitli yazar tanıma veri kümeleri üzerindeki çalışmalarımızda bu bölümde sunulmuştur.Pencere boyutunun ne olması gerektiği ile ilgili soruyacevap vermek için yapılan denemelerde az sayıda örnekiçeren veri kümelerinde pencere boyutunun tüm metin ya datüm sınıf yapıldığında birliktelik matrisinde kelimelerinbirbirlerine uzaklıkları arasında pek fark olmadığı ve bunedenle çok boyutlu ölçeklemenin kelime koordinatlarınıbelirlemede başarısız olduğu görülmüştür. Bu nedenle örneksayısı az olan veri kümelerinde çalışırken pencere boyutunu2, 3 ya da 5 seçmek gerektiği görülmüştür. Ancak örneksayısının çok olduğu veri kümelerinde ise 2, 3, 5 boyutlupencereler seçildiğinde birliktelik matrisinin çok seyrekolduğu ve kelime koordinatlarının yine doğru bir şekildehesaplanamadığı görülmüştür. Bu nedenle eğer örnek sayısıçok ise pencere boyutu olarak tüm metin seçilmelidir.Pencere boyutu olarak tüm sınıfın seçilmesinin faydalıolduğu veri kümeleri ise çok sınıf sayısına sahip verikümeleridir. Bölüm 2.1.1’de anlatıldığı gibi pencere boyututüm sınıf seçildiğinde birliktelik matrisindeki en büyükdeğer sınıf sayısı kadar olabilmektedir. 2 sınıfa sahip bir verikümesi için tüm sınıf pencere boyutu olarak seçildiğinde tümmatris 0,1, ve 2’den oluşacak ve kelime koordinatları düzgünolarak belirlenemeyecektir. Bu denemelerden çıkan başlıcasonuçlar aşağıda verilmiştir:1- Az sayıda sınıf ve metin varsa pencere boyutu 2,3,ya da 5 seçilmeli.2- Çok sayıda metin varsa, sınıf sayısı azsa pencereboyutu tüm metin seçilmeli3- Çok sayıda sınıf varsa, metinlerin boyutları kısaysapencere boyutu tüm sınıf seçilmelidir.Kelime tür ve frekans filtrelerinin oluşan yörüngelereetkisi, 2 yazara ait birer yazı üzerinde incelenmiştir. Şekil2’de pencere boyutu 2 seçilip, kelimeler üzerinde hiçbirfiltre uygulandığında elde edilen yörüngeler verilmiştir.(a)Şekil 3: (a) Kelimelere frekans filtresi uygulandığında (b)sadece fiil türündeki kelimeler kullanıldığında eldeedilen yörüngeler.Şekil 3 incelendiğinde ise filtrelerin yazarları birbirindenayırmaya yardımcı oldukları görülmektedir. Örneğin Şekil 3(b)’de kahverengi renkli yazarın peş peşe kullandığı fiillerinanlamca birbirine yakın kelimeler olduğunu, yeşil renkliyazarın ise daha dağınık (kavramları arasındaki ortalamauzaklıkların daha fazla) bir stile sahip olduğu söylenebilir.Sıklıkla kullanılan kelimelerin filtrelenmesinin oluşanyörüngelere etkisi, 5 yazara ait birer yazı üzerindeincelenmiştir. Şekil 4 (a)’da 5 yazının filtresiz yörüngeleri,Şekil 4 (b)’de ise Türkçe’de sık kullanılan 194 kelimenindışarıda tutulduğunda elde edilen yörüngeleri verilmiştir.(b)(a)(b)Şekil 4: (a) Kelimelere frekans filtresi uygulandığında (b)sadece fiil türündeki kelimeler kullanıldığında eldeedilen yörüngeler.Şekil 2: Filtrelenmemiş kelimelerde elde edilenyörüngeler.Şekil 2 incelendiğinde yazarların kelime havuzlarınınbirbirine benzediği görülmektedir. Kelimelerden 3’ten azgeçenlerin elenmesi sonucunda elde edilen yörüngeler iseŞekil 3 (a)’da, sadece fiil türündeki kelimelerin kullanımıylaelde edilen yörüngeler ise Şekil 3 (b)’de verilmiştir.Şekil 4 incelendiğinde sık geçen kelimeler ayıklanıncaorta taraftaki (ortak kullanılan kelimelerde) yoğunlukta birazalma görülmektedir.Kelime filtrelerinin ve pencere boyutlarının etkileriincelendikten sonra çalışmanın asıl amacı olan yörüngeözelliklerinin yazarları birbirinden ayırmada kullanılıpkullanılamayacağı incelenmiştir. Bunun için önce 2 yazaraait 35’er yazıdan oluşan bir veri kümesi üzerindeçalışılmıştır. Bu 70 yazının yörüngeleri (tüm metin boyutlupencere ve kelime filtresiz seçenekleriyle) bulunmuş ve heryörüngenin (yazının) Bölüm 3’te anlatılan 100’er özelliğiçıkarılmıştır. Oluşturulan bu veri kümesi Weka [7]kütüphanesindeki (C4.5 karar ağacı, En yakın komşualgoritması, Naive Bayes, Destek Vektör Makineleri)metotlar kullanılarak 10’lu çapraz geçerleme ile

sınıflandırılmıştır. Tablo 1’de bu sınıflandırma sonuçlarıverilmiştir.Tablo 1: İki yazarın yörüngelerinin ayrılabilirliğiAlgoritma Sınıflandırma Başarısı(%)C4.5 97.15Naive Bayes 97.15En yakın komşu 95.71Destek Vektör Makineleri 98.57Tablo 1 incelendiğinde 2 yazarın birbirinden çok başarılı birşekilde ayrılabildiği görülmüştür. Yörüngelerin hangiözelliklerine göre birbirlerinden ayrılmışlardır sorusunacevap aramak içinse C4.5 karar ağacının yörüngelerisınıflandırmak için ürettiği model incelenmiştir. Model tekbir kuraldan oluşmaktadır. Bu kurala göre metinler (n, n+1)arası mesafelerin histogramının ilk parçasının frekansı43’ten büyükse bir yazara değilse diğer yazara aittir. Şekil6’da 70 metnin bu özelliğine ait histogram verilmiştir.Şekil 6: 2 yazara ait 70 yazının (n, n+1) arasımesafelerinin histogramının ilk parçasının frekanslarınınhistogramı.Şekil 6 incelendiğinde kırmızılı yazarın ardışık (n, n+1)kavramları arası mesafelerinin daha küçük, mavili yazarınmesafelerinin daha büyük oldukları görülmektedir.Sınıf sayısının artışının etkilerini incelemek için yazarsayıları arttırılarak çeşitli denemeler (tüm metin pencereboyutu ve kelime filtresiz seçenekleriyle) yapılmıştır.Denemelerde her yazara ait 35’er metin kullanılmıştır. Tablo2’de 3, 4, ve 8 yazar için alınan sonuçlar görülmektedir.Tablo 2: 3, 4, ve 8 yazarın yörüngelerinin ayrılabilirliğiAlgoritma 3 yazar 4 yazar 8 yazarC4.5 91.43 90.71 53.21Naive Bayes 95.24 92.14 62.5En yakın komşu 80.95 62.14 50Destek Vektör 94.29 85.71 68.57MakineleriZero 0 33.33 25 12.5Tablo 2’nin son satırında yer alan değerler sınıf değerlerirasgele atandığında elde edilecek başarı oranlarıdır. Tablo 2incelendiğinde sınıf sayısı arttıkça başarının düştüğü ancakyine de başarılı ayrımlar yapılabildiği görülmektedir. Kararağaçlarındaki kurallar incelendiğinde karar düğümlerinde ençok geçen yörünge özellikleri mesafe ve açılarınfrekanslarıdır.5. SONUÇ VE GELECEK ÇALIŞMALARİnsanların düşünce süreçlerinin dolaylı olarak ölçümlenmesiüzerine yapılan bu çalışmada kişilerin yazdıkları metinlerçok boyutlu bir uzayda yörüngeler olarak temsiledilmişlerdir. Daha sonra bu yörüngelerin çeşitli özellikleriçıkarılarak kişiler arası yörünge farklılıkları / benzerlikleriincelenmiştir. Bu yöntemle 2 kişiye ait 35’er yazıdan oluşanveri kümesinde bir metnin yazarını tanıma başarısı % 98olarak ölçülmüştür. yazar sayısı arttıkça başarının düştüğüancak yine de başarılı ayrımların yapılabildiği görülmüştür.Kişileri ayırmada en çok kullanılan yörünge özelliğininmesfe ve açı değerleri değil, bunların frekansları olduğugörülmüştür.Metodun avantajları olarak metinde kullanılankavramlardan bağımsız olması (sadece yörüngeninözelliklerinin kullanılıyor olması), kişilerin yazdıklarımetinlerin sistemin çalışması için yeterli olması (ek birgörüntüleme cihazı gerektirmemesi) söylenebilir.Önerilen yöntemin olası uygulama alanları olarakpsikolojik hastalıkların tespiti, psikolojik hastalıklarındüşünce süreçleri üzerindeki etkilerinin araştırılması,cinsiyet, yaş, eğitim farklılıklarının düşünce süreçleriüzerindeki etkilerinin araştırılması verilebilir.Kelimelerin koordinatlarının bulunmasında kullanılandönüşüm formülünün ve çok boyutlu ölçeklemenin yerinefarklı yöntemlerin kullanılması, yeni yörünge özelliklerininçıkarılması gelecekte denenebilir. Bununla birlikte, metinyörüngeleri çok boyutlu zaman serileri olarak dagörülebilirler. Çeşitli zaman serisi yöntemlerinin veuygulama alanlarının bu veriler üzerinde uygulanması dagelecek bir çalışma konusu olarak düşünülmektedir.6. KAYNAKÇA[1] Amasyalı, M. F., Davletov, F., Torayew, A, Çiftçi, Ü,"text2arff: Türkçe Metinler İçin Özellik ÇıkarımYazılımı", SİU, 2010.[2] Amasyalı, M. F., Beken, A., “Türkçe KelimelerinAnlamsal Benzerliklerinin Ölçülmesi ve MetinSınıflandırmada Kullanılması”, SİU, 2009.[3] Amasyalı, M. F., “Arama Motorları Kullanarak BulunanAnlamsal Benzerlik Ölçütüne Dayalı KelimeSınıflandırma”, SİU, 2006.[4] Haris, Z. S., “Mathematical structures of language”,Wiley, pp.12, 1968.[5] Multidimensional Scaling for Java, University ofKonstanz, Department of Computer & InformationScience, Algorithmics Group, http://www.inf.unikonstanz.de/algo/software/mdsj/[6] http://code.google.com/p/zemberek/[7] Witten, I. H., Frank, E., “Data Mining: Practicalmachine learning tools and techniques”, 2nd Edition,Morgan Kaufmann, San Francisco, 2005.

PDF - YÄ±ldÄ±z Teknik Ãniversitesi

Create successful ePaper yourself

Delete template?

Save as template?

PDF - YÄ±ldÄ±z Teknik Ãniversitesi