1 KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ...
1 KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ...
1 KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
KALĐTE ĐYĐLEŞTĐRMEDE VERĐ <strong>KÜMELEME</strong>: <strong>DÖKÜM</strong> ENDÜSTRĐSĐNDE BĐR<br />
UYGULAMA<br />
Araş. Gör. Başak AKTEKE-<br />
ÖZTÜRK<br />
Bilimsel Hesaplama Anabilim Dalı,<br />
Uygulamalı Matematik Entitüsü,<br />
ODTÜ, bozturk@metu.edu.tr<br />
Prof. Dr. Gerhard-Wilhelm<br />
WEBER<br />
Uygulamalı Matematik Entitüsü,<br />
ODTÜ,<br />
gweber@metu.edu.tr<br />
Prof. Dr. Sinan<br />
KAYALIGĐL<br />
Endüstri Mühendisliği,<br />
ODTÜ,<br />
skayali@metu.edu.tr<br />
ÖZET<br />
Bu çalışma, bir ürünün veya üretim sürecinin iyileştirilmesi ve endüstriyel kurumlarda kalitenin<br />
artırılmasında kullanılabilecek veri madenciliği yaklaşımlarını belirlemek ve varolan yöntemlerden<br />
daha etkili ve kullanım alanı daha geniş bilgi keşfetme (knowledge discovery) yaklaşımlarını<br />
geliştirmek amacı ile yürütülen kapsamlı bir projenin bir bölümüdür. Bu bildiride öncelikle Ankara’da<br />
bulunan bir döküm fabrikasının verileri, medoidler etrafında bölümleme (MEB) ve k-ortalamalar<br />
yöntemleri kullanılarak analiz edilmiştir. Elde edilen sonuçlar daha sonra yeni bir yöntem olan pürüzlü<br />
(nonsmooth) optimizasyon kullanılarak değiştirilmiş k-ortalamalar’dan elde edilen sonuçlarla<br />
karşılaştırılmıştır. Çalışmamız kalite verisi üzerinde değişik kümeleme yöntemleri kullanarak bulunan<br />
sonuçların nasıl karşılaştırılacağını göstermiştir.<br />
Anahtar Sözcükler: Kalite Đyileştirme, Veri Madenciliği, Kümeleme, k-Ortalamalar, Medoidler<br />
Etrafında Bölümleme (MEB), Pürüzlü (nonsmooth) Optimizasyon<br />
1. GĐRĐŞ<br />
Geleneksel olarak üretim sürecinde ürünlerde oluşan hataların ve sürecin kararlılığını bozan<br />
nedenlerin bulunması ve giderilmesi için istatistiksel proses kontrolü (ĐPK) yöntemleri<br />
kullanılmaktadır. Ancak günümüz üretim sistemleri klasik kontrol şemalarıyla açıklanamayacak kadar<br />
karmaşıklaşmıştır. Üretim sürecinde hatalı ürünlerin oluşma nedenleri, bir üründe hatanın oluşup<br />
oluşmayacağının tahmin edilebilmesi ve hata oluşumunu en çok etkileyen üretim süreci<br />
parametrelerinin belirlenmesi veri analiziyle kolaylaşır. Bu nedenle özellikle birçok değişken tipinin<br />
büyük hacimli olarak saklandığı karmaşık verilerin analizinde başarılı bir şekilde uygulanan veri<br />
madenciliği (VM) teknikleri kullanılarak kalite verisi etkin bir şekilde izlenebilir, hatta toplanan veride<br />
gizli olan bilgi ortaya çıkartılabilir ve süreçte meydana gelecek hatalar hızlı bir şekilde saptanabilir.<br />
VM öğrenmeye dayalı bir yöntemle mevcut veride gizli olan örüntülerin keşfedilerek bilgi elde<br />
edilmesini amaçlamaktadır. Endüstriyel süreçler genellikle büyük hacimli, sürekli veya kesikli veriyi<br />
saklayan veri toplama sistemleri ile desteklenmektedirler. Karar (sınıflandırma ve regresyon) ağaçları<br />
(KA), yapay sinir ağları (YSA), destek vektör makinaları (DVM), k-ortalamalar gibi VM araçları<br />
veriden bilgi çıkarımı sağlamakta etkin ve hızlı çözümler sunabilmektedir.<br />
Temel VM fonksiyonları aşağıdaki gibi özetlenebilir [3,4]:<br />
• Sınıflandırma (classification): verinin önceden tanımlanmış gruplara atanma sürecidir. (Örneğin,<br />
KA, DVM)<br />
• Kümeleme (clustering): bölümlere ayırma işidir. Kümelemenin amacı, birbirlerinden farklı<br />
gruplaşmaları ve bir topluluk içinde öznitelikleriyle birbirlerine benzer üyeleri bulmaktır.<br />
Sınıflandırmanın tersine kümelemede gruplar veri incelenerek tanımlanır. (Örneğin, k-ortalamalar,<br />
MEB, Kendi Düzenleyen Haritalar (KDH))<br />
• Regresyon: bir veri elemanının gerçel değerli bir tahmin değişkeni ile eşleştirilmesidir. Doğrusal,<br />
doğrusal-olmayan ve logistik regresyon modelleri vardır.<br />
• Tahmin (prediction): var olmayan veya kayıp veri değerlerinin tahmini için kullanılır. Bir<br />
sınıflandırma türü olarak da düşünülebilir. (Örneğin, KA, YSA, DVM)<br />
• Genelleştirme veya tanımlama (generalization veya characterization) olarak da isimlendirilen<br />
özetleme (summarization): veriye ilişkin bilgiyi gösterir. Örneğin, ortalama, standart sapma,<br />
ortanca gibi.<br />
1
• Zaman serisi analizi: veride gizli bir özelliğin zaman içindeki değerini inceler.<br />
• Birliktelik keşfetme (association): veri içindeki ilişkileri ortaya koymak için kullanılır.<br />
• Sıra keşfetme (sequence discovery): veride var olan ardışık örüntüleri belirlemeyi amaçlar. Bu<br />
örüntüler etkinliklerin zaman sırasına dayandırılır.<br />
KA, DVM gibi sınıflandırma ve tahmin amaçlı kullanılan VM yöntemleri, ürettikleri sonuçların kolay<br />
anlaşılması ve hata tahmininde kullanılabilecek güçlü modeller oluşturabilmeleri nedeniyle kalite<br />
iyileştirmede daha fazla tercih edilmektedirler. Çalışmalar ve deneyimlerimiz bu yöntemlerin özellikle<br />
gerçek veriler için kesin sonuçlar vermediği ya da tahmin gücü yüksek modeller üretemediği<br />
durumlarda, veride kümeleme yapılarak verideki homojen grupların belirlenmesinden sonra<br />
incelenmesinin yararlı olduğunu göstermektedir. Bu çalışmada önce döküm fabrikasından derlenen<br />
veriler yaygın olarak kullanılan k-ortalamalar ve MEB kümeleme yöntemleri ile gruplandırılmıştır.<br />
Daha sonra, bu sonuçlar yeni bir kümeleme yöntemi olan pürüzlü optimizasyon kullanılarak<br />
değiştirilmiş k-ortalamalar yöntemi ile elde edilenlerle karşılaştırılmıştır.<br />
2. <strong>DÖKÜM</strong> VERĐSĐ<br />
Veri derlenen fabrikadaki döküm süreci Şekil 1’de gösterilmektedir. Tipik olarak ergitme ve döküm<br />
aşamalarındaki parametre ayarlarına bağlı olarak değişik hata türleri oluşmaktadır. Firmanın kalite<br />
amaçlarından bir tanesi önemli süreç parametrelerini belirleyip bunları optimize ederek hatalı ürün<br />
oranını azaltmaktır. Firma bunu deney tasarımı verilerini analiz ederek başarmaktadır [1].<br />
Şekil 1. Üretim Hattı<br />
Bu çalışmada 2006 yılının ilk beş aylık üretim döneminde firmanın maça, kalıplama ve ergitme ardışık<br />
süreçlerinden gözlemleme yoluyla elde edilen ve hata oranı yüksek olan bir ürüne ilişkin veriler<br />
kullanılmıştır. Firma belli değişkenlerin değerlerini herhangi bir veri analizinden geçirmeden saatlik,<br />
günlük ve aylık olarak bir parti malın üretimi boyunca, örnekleme yoluyla kaydetmektedir. Bu nedenle<br />
girdi parametrelerine ilişkin bu değerler verili bir partideki her ürün için sabit ve ürünün ait olduğu<br />
partinin ortalamasına eşittir. Bazı parametre değerleri ise hiç kaydedilmediğinden veri kümesinde<br />
eksik gözlem olarak işlem görmektedir. Ürünlerde temel olarak 10 değişik hata tipi gözlenmiştir. Bu<br />
hata tiplerinden en önemli olan ikisi için geliştirilen KA ve regresyon analizleri [2]’de yer almaktadır.<br />
2.1. Veri Önişleme<br />
Verideki gözlem değerlerini (satırları) kümeleme sürecinde, süreç parametreleri (sütunlar) kullanılarak<br />
önce satırlara Temel Bileşen Analizi (TBA) yaklaşımı uygulanmıştır (Şekil 2). TBA veri kümesindeki<br />
varyasyonun çoğunu içeren değişkenleri -ki verimizde bunlar, yukarıda da belirtildiği gibi süreç<br />
parametrelerine karşılık gelmektedir- aramakta ve bu değişkenleri veri kümesinin temel bileşenleri<br />
olarak kullanıp, verinin boyutunu indirgemektedir. Bu çalışmada TBA’den elde edilen bileşenlerden<br />
veriyi en iyi temsil edenleri seçmek amacıyla Friedman endeksi kullanılmıştır [7]. Bu işlem sonucunda<br />
bulduğumuz bileşenler ile Sugar yöntemi [7] uygulandığındaki sonuçlar Şekil 3’te yeralmaktadır.<br />
Grafikteki köşelerin sayısı küme sayısını göstermektedir. Bu durumda incelenen veri kümesinde iki<br />
veya dört küme bulunduğu söylenebilir.<br />
2
Şekil 2. Temel Bileşenler Analizi (TBA)<br />
Şekil 3. Sugar yöntemi<br />
Şekil 2’den gözlem değerlerinin çoklu doğrusal bağlantılı olduğu görülmektedir. TBA ile verinin satır<br />
bazında oldukça ilişkili olduğunu tespit ettiğimizden, eksik değerlerin yerine sütun (süreç<br />
parametrelerinin) ortalamaları konulabileceği düşünülmüştür. Bu tarz ilişkili veri kümelerinde<br />
kümeleme yapısını daha iyi anlamak için Öklit metriğinden daha farklı bir metriğe ihtiyaç olacağı<br />
söylenebilir. Çünkü Öklid metriği birbirinden bağımsız öznitelikler görülen durumlarda daha iyi<br />
kümleme sonuçları vermektedir.<br />
3. K-ORTALAMALAR ve MEDOĐDLER ETRAFINDA BÖLÜMLEME (MEB)<br />
K-ortalamalar yöntemi toplam n noktayı (veri satırını), k kümeye bölmek için her noktanın,<br />
başlangıçta rastgele seçilen küme merkezlerine olan Öklit uzaklıklarını yinelemeli şekilde hesaplar. Đlk<br />
adımda bu şekilde yaptığı kümelemeyi, sonraki adımlarda her kümedeki noktaların ortalamasını alarak<br />
güncellediği küme merkezleriyle tekrarlamaktadır. Her yinelemede noktaların hangi küme merkezine<br />
daha yakın olduğunu bulmak için bu uzaklıkların karesini en aza indirerek, optimum küme<br />
merkezlerini bulmaya çalışır. MEB ise veri kümesinde k medoid bularak, bu k medoide olan<br />
uzaklıklarına göre toplamdaki n noktayı kümelemektedir. Burada medoid, bir kümedeki tüm noktalara<br />
olan ortalama uzaklığı (benzemezlik ölçüsü) en küçük olan küme elemanıdır.<br />
Veriyi kümelemek için her iki yöntemi de kullanmamızın nedeni, k-ortalamalar yönteminin çok<br />
yaygın olarak kullanılmasına rağmen, MEB yönteminin düzensizlik ve uç değerler (sapan gözlemler)<br />
içeren verilerde daha sağlam (robust) olmasıdır. MEB yönteminin daha sağlam olmasının nedeni ise,<br />
Öklit uzaklıkları kareleri toplamını değil, benzemezlik değerlerinin toplamını en aza indirmesidir.<br />
Medoidler düzensizliklerin ve uç değerlerin varlığından küme merkezlerine göre daha az<br />
etkilenmektedirler.<br />
3.1. K-ortalamalar<br />
SPSS’in veri madenciliği modülü olan Clementine10.1 [6] paket programında yeralan k-ortalamalar<br />
yöntemi kullanarak elde edilen kümeler ve kümeler arası benzerlik/benzemezlik durumları Tablo 1’de<br />
yeralmaktadır. Burada 4 gruplu (k=4) kümelemede benzemezliğin, 2 ve 3 kümeli ayrıştırmalara göre,<br />
çoğunlukla birbirine daha uzak gruplamalar verdiği görülmektedir.<br />
Tablo 1. k=2, k= 3 ve k=4 için K-ortalamalar sonuçları<br />
Nesne 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />
k:2 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1<br />
k:3 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 3 1 1 1 1 3 1<br />
k:4 1 1 1 1 1 1 1 4 1 1 1 4 1 1 1 1 1 1 3 1 1 1 1 3 1<br />
Nesne 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50<br />
k:2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />
k:3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />
K:4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />
3
Nesne 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75<br />
k:2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2<br />
k:3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2<br />
k:4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4 4 4 4 4<br />
Nesne 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92<br />
k:2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2<br />
k:3 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2<br />
k:4 4 4 4 4 4 4 4 4 4 1 2 2 2 1 2 2 2<br />
Tablo 2. k=2, k=3 ve k=4 için K-ortalamalar ile bulunan kümelerin birbirlerine uzaklıkları<br />
2 küme küme_1 (70 Nesne) – küme_2 (22 Nesne) 1.113769<br />
küme_1 (68 Nesne) – küme_2 (22 Nesne) 1.111567<br />
3 küme<br />
küme_1 (68 Nesne) – küme_3 (2 Nesne) 1.593595<br />
küme_2 (22 Nesne) – küme_3 (2 Nesne) 1.968277<br />
küme_1 (68 Nesne) – küme_2 (6 Nesne) 1.44533<br />
küme_1 (68 Nesne) – küme_3 (2 Nesne) 1.593595<br />
küme_1 (68 Nesne) – küme_4 (16 Nesne) 1.104353<br />
4 küme<br />
küme_2 (6 Nesne) – küme_3 (2 Nesne) 2.197992<br />
küme_2 (6 Nesne) – küme_4 (16 Nesne) 1.055844<br />
küme_3 (2 Nesne) – küme_4 (16 Nesne) 1.95292<br />
3.2. Medoidler Etrafında Bölümleme<br />
Çalışmamızda MEB algoritması MATLAB 7.0 [8] ile programlanmıştır. Geliştirilen program veri<br />
kümemize uygulandığında elde edilen sonuçlar Tablo 3’de yeralmaktadır.<br />
Tablo 3. k=2, k= 3 ve k=4 için MEB sonuçları<br />
Nesne 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />
k:4 1 2 3 2 3 2 2 1 2 3 2 4 2 3 3 2 2 2 2 3 3 3 3 2 3<br />
k:3 1 2 3 2 3 2 2 1 2 3 2 1 2 3 3 2 2 2 2 3 3 3 3 2 3<br />
k:2 1 2 2 2 1 2 2 1 2 2 2 1 2 2 1 2 2 2 2 2 2 2 2 2 2<br />
Nesne 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50<br />
k:4 2 2 3 2 2 2 2 3 2 2 2 3 3 3 3 2 3 2 2 2 2 2 1 3 3<br />
k:3 2 2 3 2 2 2 2 3 2 2 2 3 3 3 3 2 3 2 2 2 2 2 1 3 3<br />
k:2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2<br />
Nesne 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75<br />
k:4 2 1 1 1 2 3 3 1 3 2 2 3 2 3 1 2 1 1 1 1 1 1 4 4 4<br />
k:3 2 1 1 1 2 3 3 1 3 2 2 3 2 3 1 2 1 1 1 1 1 1 1 1 1<br />
k:2 2 1 1 1 2 2 1 1 1 2 2 2 2 1 1 2 1 1 1 1 1 1 1 1 1<br />
Nesne 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92<br />
k:4 4 4 1 1 4 1 4 4 1 3 1 4 1 2 4 4 4<br />
k:3 1 1 1 1 1 1 1 1 1 3 1 1 1 2 1 1 1<br />
k:2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1<br />
Burada yine 4 gruplu (k=4) kümelemede benzemezliğin, 2 ve 3 kümeli ayrıştırmalara göre çoğunlukla<br />
birbirine daha uzak gruplamalar verdiği görülmektedir. Bu durum, örnek çalışmada, 4 gruplu<br />
kümelemenin tercih edilmesine yol açmaktadır.<br />
Tablo 4. k=2, k=3 ve k=4 için MEB ile bulunan kümelerin birbirlerine olan uzaklıkları<br />
2 küme küme_1 (40 Nesne) – küme_2 (52 Nesne) 1.2838<br />
3 küme<br />
4 küme<br />
küme_1 (33 Nesne) – küme_2 (34 Nesne)<br />
küme_1 (33 Nesne) – küme_3 (25 Nesne)<br />
küme_2 (34 Nesne) – küme_3 (25 Nesne)<br />
küme_1 (20 Nesne) – küme_2 (34 Nesne)<br />
küme_1 (20 Nesne) – küme_3 (25 Nesne)<br />
küme_1 (20 Nesne) – küme_4 (13 Nesne)<br />
küme_2 (34 Nesne) – küme_3 (25 Nesne)<br />
küme_2 (34 Nesne) – küme_4 (13 Nesne)<br />
küme_3 (25 Nesne) – küme_4 (13 Nesne)<br />
1.2838<br />
1.2729<br />
1.1242<br />
1.2838<br />
1.2729<br />
1.1374<br />
1.1242<br />
1.5336<br />
1.5523<br />
4
3.3. Kümeleme Sonuçları<br />
k-ortalamalar ve MEB yöntemleri k=2 için çalıştırıldığında elde edilen sonuçlar yapay olabileceğinden<br />
ve ayrıca Bölüm 2.1’de sözü edilen MEB ve Sugar yöntemlerinin sonuçları kullanılarak veride dört<br />
küme olduğununa karar verilmiştir. MEB algoritmasının k=4 için oluşturduğu kümeler, içerdikleri<br />
nesne sayılarının dengeli olması ve kümelerin birbirine uzaklıklarının orantılı bulunması nedeniyle<br />
(bkz. Tablo 2 ve Tablo 4) oldukça doğal görünmektedir. k=4 için çalıştırdığımız MEB ve kortalamalar<br />
ile bulduğumuz kümelerin çapraz tablosu Tablo 5’te verilmiştir.<br />
Tablo 5. K-ortalamalar ve MEB için çapraz tablo<br />
PAM<br />
1.00 2.00 3.00 4.00<br />
Total<br />
1.00 20<br />
10<br />
25<br />
13<br />
68<br />
k-Meansr 2.00 0<br />
2<br />
0<br />
0<br />
2<br />
3.00 0<br />
6<br />
0<br />
0<br />
6<br />
4.00 0<br />
16<br />
0<br />
0<br />
16<br />
Total 20 34 25 13 92<br />
Tablo 5’te MEB yönteminin bulduğu ikinci kümenin, k-ortalamalardaki ikinci, üçüncü ve dördüncü<br />
kümeyi kapsadığını, k-ortalamaların hepsini bir gruba topladığı 68 nesneyi (birinci küme) daha<br />
homojen kümelere ayırdığını görüyoruz. Tablo 2 ve Tablo 4 incelendiğinde MEB yönteminin bulduğu<br />
kümelerin birbirlerine uzaklıkları, k-Ortalamalar ile bulunanan kümelerin birbirlerine uzaklıkları ile<br />
karşılaştırıldığında, MEB yönteminin veri kümemizi daha iyi grupladığını söyleyebiliriz. Sonuç<br />
olarak, MEB ile yapılan kümeleme işleminin k-ortalamalar ile yapılanın ince ayarı olduğu şeklinde de<br />
yorum yapılabilir.<br />
4. PÜRÜZLÜ OPTĐMĐZASYON ile <strong>KÜMELEME</strong><br />
K-ortalamalar yöntemi daha yakından incelenirse, bir veri kümesindeki anlamlı küme sayısını<br />
bilmediğimiz durumlarda kümeleme problemini çözmede bu yöntemin yeterli olamayacağı<br />
söylenebilir. Bu çalışmada, Bölüm 2.1’de yaptığımız önişleme sayesinde veri kümemiz için anlamlı<br />
olan küme sayısını belirlediğimizden dolayı k-ortalamalar yöntemi kullanılabilmiştir. K-ortalamalar<br />
yönteminin bu eksikliğini gidermek amacı ile sayısal bir optimizasyon yaklaşımı olan pürüzlü<br />
optimizasyon yönteminin kullanılabileceği düşünülmektedir. Bu yolla elde edilen değiştirilmiş kortalamalar<br />
yöntemi kümeleri adım adım hesaplama özelliği sayesinde bitirme koşulu sağlanıncaya<br />
kadar bir veri kümesinin kapsadığı kadar kümeyi belli bir toleransa göre hesaplamaya izin vermektedir<br />
[5]. Bu yöntemin yapay test verileri üzerinde k-ortalamalar yönteminden daha iyi sonuç verdiği [8]’de<br />
gösterilmiştir. Çalışmamız bu yeni yöntemin elimizdeki veri kümesinde de k-ortalamalardan daha iyi<br />
sonuç verdiğini göstermektedir (bkz. Tablo 6 ve Tablo 7).<br />
Tablo 6. k=2, k= 3 ve k=4 için Pürüzlü optimizasyon ile değiştirilmiş k-ortalamalar sonuçları<br />
k=2 k=3 k=4<br />
küme_1: 61 nesne<br />
küme_2: 31 nesne<br />
küme_1: 61 nesne<br />
küme_2: 31 nesne<br />
küme_3: 2 nesne<br />
küme_1: 45 nesne küme_2: 24 nesne<br />
küme_3: 2 nesne küme_4: 21 nesne<br />
Tablo 7. k-Ortalamalar ve Pürüzlü optimizasyon ile değiştirilmiş k-ortalamalar için çapraz tablo<br />
Pürüzlü Optimizasyon ile Değiştirilmiş k-ortalamalar<br />
1.00 2.00 3.00 4.00<br />
Total<br />
1.00 45<br />
0<br />
2<br />
21<br />
68<br />
k-Ortalamalar 2.00<br />
0<br />
2<br />
0<br />
0<br />
2<br />
3.00<br />
0<br />
6<br />
0<br />
0<br />
6<br />
4.00<br />
0<br />
16<br />
0<br />
0<br />
16<br />
Total 45 24 2 21 92<br />
5
Çapraz tablo, 4 küme ile k-ortalamalar yaklaşımının verdiği küme üyeliklerinin, pürüzlü optmizasyon<br />
eşliğinde değiştirilmiş k-ortalamalar yaklaşımıyla daha farklı bir dağılım verdiğini göstermektedir. Kortalamaların<br />
iki grubu 10’dan az üye ile kurulmuşken, yeni yöntemde tek bir küme dışındailerin hepsi<br />
20’nin üzerinde üyeye sahiptir.<br />
5. SONUÇ ve GELECEK ÇALIŞMA ALANI<br />
Bu çalışmada, döküm süreci çıktılarını temsil eden 92 nesnenin her birine karşılık gelen, 35 süreç<br />
değişkeninden oluşan ve eksik değerleri bulunan kalite verisini kümelemek için 3 farklı yaklaşım<br />
denenmiştir. Yeni bir kümeleme yöntemi olan pürüzlü optimizasyon kullanılarak değiştirilmiş kortalamalar<br />
yöntemi ile k-ortalamalar ve MEB yöntemleri karşılaştırılmıştır. Pürüzlü optimizasyon ile<br />
değiştirilmiş k-ortalamalar yöntemi gelenekse k-ortalamalar yaklaşımından daha iyi kümeleme<br />
yapabilmesine rağmen, veri kümemiz için, benzemezlik ve üyelik dağılımı ölçülerine göre en iyi<br />
kümelemeyi MEB yönteminin verdiği görülmektedir.<br />
Veride saklı bulunan grupları kümeleme yaklaşımları ile incelemenin önemli sonuçlarından bir tanesi<br />
de, veri kümesindeki uç değerlerin ve azınlıkta olan verilerin saptanabilmesidir. Kalite verisi açısından<br />
baktığımızda, kümeleme çalışmalarının kural kümeleri ve tahmin modelleri oluşturan diğer VM<br />
yöntemleri kullanımı öncesinde veri üzerinde önişleme amacıyla kullanılabileceği söylenebilir.<br />
Bundan sonraki çalışmamızda, döküm endüstrisine ilişkin kalite verisi içinde saptadığımız kümeler<br />
üzerinde KA yöntemi uygulanacaktır. Böylece hatalar ile süreç değişkenleri arasındaki ilişkileri daha<br />
kesin bir şekilde modellemenin mümkün olabileceği düşünülmektedir.<br />
Teşekkür: Bu çalışma TÜBĐTAK 105M138 kodlu proje tarafından desteklenmiştir. Doç. Dr. Đnci<br />
Batmaz, Prof. Dr. Gülser Köksal ve tüm proje üyelerine katkılarından dolayı teşekkür ederiz.<br />
KAYNAKÇA<br />
[1] Bagirov, A.M., Rubinov, A.M., Soukhoroukova, N.V., and Yearwood, J., Unsupervised and<br />
supervised data classification via nonsmooth and global optimization, TOP 11, 1 (2003), 1-93.<br />
[2] Bakır, B., Batmaz, Đ., Güntürkün, F.A., Đpekçi, Đ.A., Köksal, G., and Özdemirel, N.E., Defect<br />
Cause Modeling with Decision Tree and Regression Analysis, Proceedings of XVII. International<br />
Conference on Computer and Information Science and Engineering, Cairo, Egypt, December 08-10,<br />
2006, Volume 17, pp. 266-269, ISBN 975-00803-7-8.<br />
[3] Cabena P., Discovering data mining: from concept to implementation. Upper Saddle River, N.J.:<br />
Prentice Hall, 1998.<br />
[4] Dunham M.H., Data mining introductory and advanced topics. Upper Saddle River, N.J.: Prentice<br />
Hall/Pearson Education, 2003.<br />
[5] Öztürk-Akteke, B., Weber, G-W., A Survey and Results on Semidefinite and Nonsmooth<br />
Optimization for Minimum Sum of Squared Distances Problem, preprint no. 1, Institute of Applied<br />
Mathematics, METU, 2006, submitted to the special issue of Discrete Applied Mathematics “GO V”'<br />
in honour of the 70th birthday of Prof. Dr. P.L. Hammer and Prof. Dr. J. Krarup.<br />
[6] SPSS Clementine, http://www.spss.com/clementine/.<br />
[7] Sugar, C.A. and James, G. M., Finding the Number of Clusters in a Dataset: An Information-<br />
Theoretic Approach, Journal of the American Statistical Association, 98 (463), 2003, 750-763.<br />
[8] The Mathworks-MATLAB-The Language of Computing,<br />
http://www.mathworks.com/products/matlab/<br />
6