13.07.2015 Views

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

07 31 Ocak - 2 Şubat 2007 Kütahya - Akademik Bilişim Konferansları

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Türkçe Bir Sözlükteki Tanımlardan Kavramlar Arasındaki Üst-Kavram İlişkilerinin ÇıkarılmasıOnur Güngör, Tunga GüngörWordNet’in ilk sürümü 5 yıl süren bir çalışmanınürünüdür. İlk sürümde yaklaşık 95.600sözcük biçimi (bunların yaklaşık olarak yarısıiki veya daha çok sözcükten oluşan öbeklerdir)70.000 eş anlam kümesine ayrıştırılmıştır. Anlaşılacağıüzere, bu tür veri tabanlarını elle geliştirmekoldukça büyük miktarda insan emeğive zamanı gerektirmektedir.Bu bildiride, bir sözlükteki sözcükleri otomatikolarak analiz ederek anlamsal bir hiyerarşikyapı oluşturan bir yöntem anlatılmaktadır. Buhiyerarşideki düğümler (nodes) birbirlerine altkavramve üst-kavram ilişkileriyle bağlanırlar.Bu çalışmada, Türk Dil Kurumu (TDK) tarafındanyayımlanmış olan güncel Türkçe sözlüğünelektronik sürümü kullanılmıştır [2]. Buçalışma, Türkçe bir sözlükteki sözcüklerin arasındakikavramsal ilişkileri kullanarak tamamenotomatik olarak alt-kavram/üst-kavramhiyerarşisi oluşturan ilk çalışmadır. Buna ilaveolarak, sözcükler arasındaki eş anlamlılık ilişkileride çıkarılmaya çalışılmıştır.Chodorow ve Byrd tarafından İngilizce içinyapılan bir çalışmada, isim kökenli ve fiil kökenlisözcükler dikkate alınmış, birincisi içintanımın içindeki isim öbeği, ikincisi için isetanımın içindeki fiil öbeği çıkarılmıştır [3].Bu öbeklerdeki ana sözcüğün (head word) üstkavramolduğu varsayılarak, bu sözcüğün tespitedilmesine çalışılmıştır.Başka bir araştırmada, üst-kavram ilişkilerininçıkarılmasına yönelik çalışmalarda sadece tekbir sözlükten yararlanmanın yetersiz olduğuöne sürülmüştür [4]. Birden fazla sözlük kullanıldığındaise bu hataların önemli ölçüde azaldığıifade edilmiştir.tanımlara ve tutarsızlıklara bağlandığı görüşüöne sürülmüştür.Sözlük tanımlarının çeşitli örüntüler şeklindetemsil edildiği ve bu örüntüler arasında birhiyerarşinin kurulduğu bir çalışma [6]’de verilmiştir.Bir tanıma karşılık gelen örüntü öncedaha özgül örüntüler içerisinde aranmakta, bulunamadığıdurumlarda daha genel örüntülerleeşleştirmek mümkün olmaktadır.2. YöntemBu çalışmada, üst-kavram ve alt-kavram ilişkileriniiçeren hiyerarşik bir yapının yaratılmasıamacıyla iki temel aşama uygulanmıştır.İlk aşamada, sözlükteki bütün isim kökenlisözcüklerin üst-kavramları, bu sözcüklerinsözlük tanımlarına üst-kavram çıkarma algoritmasıuygulanarak toplanmıştır. Çıkarılan üstkavramlarikinci aşamada kullanılmak üzerebir dizinde tutulmaktadır. İkinci aşamada ise,birinci aşamada oluşturulan dizin kullanılarakhiyerarşik yapı elde edilmiştir. Bahsedilen aşamalardanilki 2.1. bölümde, ikincisi 2.2. bölümdeanlatılmaktadır.2.1. Üst-kavramların ÇıkarılmasıSözcüklerin sözlük tanımlarından üstkavramlarınçıkarılması için, buluşsal bir yönteme(heuristics) dayanan bir algoritma geliştirilmiştir.İlk olarak, analiz edilmekte olan tanım,ayırıcı olarak virgül karakteri kullanılarak parçalarabölünür. Sözlükteki tanımlar, aşağıda düzenligramer (regular grammar) biçiminde belirtilengenel örüntüyü (pattern) izlemektedir:sözcük : (sözcük* üstkavram) (, sözcük* üstkavram)*(, eşanlamlı)*.Sözlüklerden anlamsal ilişkilerin otomatikolarak çıkarılması üzerine yapılan araştırmalarınzenginleşeceği ve tatmin edici sonuçlaralınacağı yönündeki görüşlere karşın, bazıaraştırmacılara göre bu konudaki araştırmalarbeklenen niteliğe ulaşamamıştır [4] ve [5]. Budurumun, büyük oranda sözlüklerdeki eksik32Tanım parçalara ayrıldıktan sonra, en son parçadanbaşlanarak en baştaki parçaya doğrubazı kurallar uygulanarak ilerlenmektedir. Birüst-kavram bulunduğu zaman bu kurallarınuygulanması durmaktadır. Bir sözcüğün eşanlamlılarının her zaman üst-kavramlarındansonra gelmelerinden dolayı, süreci bu noktada

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!