20.02.2013 Views

1 KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ...

1 KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ...

1 KALİTE İYİLEŞTİRMEDE VERİ KÜMELEME: DÖKÜM ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

KALĐTE ĐYĐLEŞTĐRMEDE VERĐ <strong>KÜMELEME</strong>: <strong>DÖKÜM</strong> ENDÜSTRĐSĐNDE BĐR<br />

UYGULAMA<br />

Araş. Gör. Başak AKTEKE-<br />

ÖZTÜRK<br />

Bilimsel Hesaplama Anabilim Dalı,<br />

Uygulamalı Matematik Entitüsü,<br />

ODTÜ, bozturk@metu.edu.tr<br />

Prof. Dr. Gerhard-Wilhelm<br />

WEBER<br />

Uygulamalı Matematik Entitüsü,<br />

ODTÜ,<br />

gweber@metu.edu.tr<br />

Prof. Dr. Sinan<br />

KAYALIGĐL<br />

Endüstri Mühendisliği,<br />

ODTÜ,<br />

skayali@metu.edu.tr<br />

ÖZET<br />

Bu çalışma, bir ürünün veya üretim sürecinin iyileştirilmesi ve endüstriyel kurumlarda kalitenin<br />

artırılmasında kullanılabilecek veri madenciliği yaklaşımlarını belirlemek ve varolan yöntemlerden<br />

daha etkili ve kullanım alanı daha geniş bilgi keşfetme (knowledge discovery) yaklaşımlarını<br />

geliştirmek amacı ile yürütülen kapsamlı bir projenin bir bölümüdür. Bu bildiride öncelikle Ankara’da<br />

bulunan bir döküm fabrikasının verileri, medoidler etrafında bölümleme (MEB) ve k-ortalamalar<br />

yöntemleri kullanılarak analiz edilmiştir. Elde edilen sonuçlar daha sonra yeni bir yöntem olan pürüzlü<br />

(nonsmooth) optimizasyon kullanılarak değiştirilmiş k-ortalamalar’dan elde edilen sonuçlarla<br />

karşılaştırılmıştır. Çalışmamız kalite verisi üzerinde değişik kümeleme yöntemleri kullanarak bulunan<br />

sonuçların nasıl karşılaştırılacağını göstermiştir.<br />

Anahtar Sözcükler: Kalite Đyileştirme, Veri Madenciliği, Kümeleme, k-Ortalamalar, Medoidler<br />

Etrafında Bölümleme (MEB), Pürüzlü (nonsmooth) Optimizasyon<br />

1. GĐRĐŞ<br />

Geleneksel olarak üretim sürecinde ürünlerde oluşan hataların ve sürecin kararlılığını bozan<br />

nedenlerin bulunması ve giderilmesi için istatistiksel proses kontrolü (ĐPK) yöntemleri<br />

kullanılmaktadır. Ancak günümüz üretim sistemleri klasik kontrol şemalarıyla açıklanamayacak kadar<br />

karmaşıklaşmıştır. Üretim sürecinde hatalı ürünlerin oluşma nedenleri, bir üründe hatanın oluşup<br />

oluşmayacağının tahmin edilebilmesi ve hata oluşumunu en çok etkileyen üretim süreci<br />

parametrelerinin belirlenmesi veri analiziyle kolaylaşır. Bu nedenle özellikle birçok değişken tipinin<br />

büyük hacimli olarak saklandığı karmaşık verilerin analizinde başarılı bir şekilde uygulanan veri<br />

madenciliği (VM) teknikleri kullanılarak kalite verisi etkin bir şekilde izlenebilir, hatta toplanan veride<br />

gizli olan bilgi ortaya çıkartılabilir ve süreçte meydana gelecek hatalar hızlı bir şekilde saptanabilir.<br />

VM öğrenmeye dayalı bir yöntemle mevcut veride gizli olan örüntülerin keşfedilerek bilgi elde<br />

edilmesini amaçlamaktadır. Endüstriyel süreçler genellikle büyük hacimli, sürekli veya kesikli veriyi<br />

saklayan veri toplama sistemleri ile desteklenmektedirler. Karar (sınıflandırma ve regresyon) ağaçları<br />

(KA), yapay sinir ağları (YSA), destek vektör makinaları (DVM), k-ortalamalar gibi VM araçları<br />

veriden bilgi çıkarımı sağlamakta etkin ve hızlı çözümler sunabilmektedir.<br />

Temel VM fonksiyonları aşağıdaki gibi özetlenebilir [3,4]:<br />

• Sınıflandırma (classification): verinin önceden tanımlanmış gruplara atanma sürecidir. (Örneğin,<br />

KA, DVM)<br />

• Kümeleme (clustering): bölümlere ayırma işidir. Kümelemenin amacı, birbirlerinden farklı<br />

gruplaşmaları ve bir topluluk içinde öznitelikleriyle birbirlerine benzer üyeleri bulmaktır.<br />

Sınıflandırmanın tersine kümelemede gruplar veri incelenerek tanımlanır. (Örneğin, k-ortalamalar,<br />

MEB, Kendi Düzenleyen Haritalar (KDH))<br />

• Regresyon: bir veri elemanının gerçel değerli bir tahmin değişkeni ile eşleştirilmesidir. Doğrusal,<br />

doğrusal-olmayan ve logistik regresyon modelleri vardır.<br />

• Tahmin (prediction): var olmayan veya kayıp veri değerlerinin tahmini için kullanılır. Bir<br />

sınıflandırma türü olarak da düşünülebilir. (Örneğin, KA, YSA, DVM)<br />

• Genelleştirme veya tanımlama (generalization veya characterization) olarak da isimlendirilen<br />

özetleme (summarization): veriye ilişkin bilgiyi gösterir. Örneğin, ortalama, standart sapma,<br />

ortanca gibi.<br />

1


• Zaman serisi analizi: veride gizli bir özelliğin zaman içindeki değerini inceler.<br />

• Birliktelik keşfetme (association): veri içindeki ilişkileri ortaya koymak için kullanılır.<br />

• Sıra keşfetme (sequence discovery): veride var olan ardışık örüntüleri belirlemeyi amaçlar. Bu<br />

örüntüler etkinliklerin zaman sırasına dayandırılır.<br />

KA, DVM gibi sınıflandırma ve tahmin amaçlı kullanılan VM yöntemleri, ürettikleri sonuçların kolay<br />

anlaşılması ve hata tahmininde kullanılabilecek güçlü modeller oluşturabilmeleri nedeniyle kalite<br />

iyileştirmede daha fazla tercih edilmektedirler. Çalışmalar ve deneyimlerimiz bu yöntemlerin özellikle<br />

gerçek veriler için kesin sonuçlar vermediği ya da tahmin gücü yüksek modeller üretemediği<br />

durumlarda, veride kümeleme yapılarak verideki homojen grupların belirlenmesinden sonra<br />

incelenmesinin yararlı olduğunu göstermektedir. Bu çalışmada önce döküm fabrikasından derlenen<br />

veriler yaygın olarak kullanılan k-ortalamalar ve MEB kümeleme yöntemleri ile gruplandırılmıştır.<br />

Daha sonra, bu sonuçlar yeni bir kümeleme yöntemi olan pürüzlü optimizasyon kullanılarak<br />

değiştirilmiş k-ortalamalar yöntemi ile elde edilenlerle karşılaştırılmıştır.<br />

2. <strong>DÖKÜM</strong> VERĐSĐ<br />

Veri derlenen fabrikadaki döküm süreci Şekil 1’de gösterilmektedir. Tipik olarak ergitme ve döküm<br />

aşamalarındaki parametre ayarlarına bağlı olarak değişik hata türleri oluşmaktadır. Firmanın kalite<br />

amaçlarından bir tanesi önemli süreç parametrelerini belirleyip bunları optimize ederek hatalı ürün<br />

oranını azaltmaktır. Firma bunu deney tasarımı verilerini analiz ederek başarmaktadır [1].<br />

Şekil 1. Üretim Hattı<br />

Bu çalışmada 2006 yılının ilk beş aylık üretim döneminde firmanın maça, kalıplama ve ergitme ardışık<br />

süreçlerinden gözlemleme yoluyla elde edilen ve hata oranı yüksek olan bir ürüne ilişkin veriler<br />

kullanılmıştır. Firma belli değişkenlerin değerlerini herhangi bir veri analizinden geçirmeden saatlik,<br />

günlük ve aylık olarak bir parti malın üretimi boyunca, örnekleme yoluyla kaydetmektedir. Bu nedenle<br />

girdi parametrelerine ilişkin bu değerler verili bir partideki her ürün için sabit ve ürünün ait olduğu<br />

partinin ortalamasına eşittir. Bazı parametre değerleri ise hiç kaydedilmediğinden veri kümesinde<br />

eksik gözlem olarak işlem görmektedir. Ürünlerde temel olarak 10 değişik hata tipi gözlenmiştir. Bu<br />

hata tiplerinden en önemli olan ikisi için geliştirilen KA ve regresyon analizleri [2]’de yer almaktadır.<br />

2.1. Veri Önişleme<br />

Verideki gözlem değerlerini (satırları) kümeleme sürecinde, süreç parametreleri (sütunlar) kullanılarak<br />

önce satırlara Temel Bileşen Analizi (TBA) yaklaşımı uygulanmıştır (Şekil 2). TBA veri kümesindeki<br />

varyasyonun çoğunu içeren değişkenleri -ki verimizde bunlar, yukarıda da belirtildiği gibi süreç<br />

parametrelerine karşılık gelmektedir- aramakta ve bu değişkenleri veri kümesinin temel bileşenleri<br />

olarak kullanıp, verinin boyutunu indirgemektedir. Bu çalışmada TBA’den elde edilen bileşenlerden<br />

veriyi en iyi temsil edenleri seçmek amacıyla Friedman endeksi kullanılmıştır [7]. Bu işlem sonucunda<br />

bulduğumuz bileşenler ile Sugar yöntemi [7] uygulandığındaki sonuçlar Şekil 3’te yeralmaktadır.<br />

Grafikteki köşelerin sayısı küme sayısını göstermektedir. Bu durumda incelenen veri kümesinde iki<br />

veya dört küme bulunduğu söylenebilir.<br />

2


Şekil 2. Temel Bileşenler Analizi (TBA)<br />

Şekil 3. Sugar yöntemi<br />

Şekil 2’den gözlem değerlerinin çoklu doğrusal bağlantılı olduğu görülmektedir. TBA ile verinin satır<br />

bazında oldukça ilişkili olduğunu tespit ettiğimizden, eksik değerlerin yerine sütun (süreç<br />

parametrelerinin) ortalamaları konulabileceği düşünülmüştür. Bu tarz ilişkili veri kümelerinde<br />

kümeleme yapısını daha iyi anlamak için Öklit metriğinden daha farklı bir metriğe ihtiyaç olacağı<br />

söylenebilir. Çünkü Öklid metriği birbirinden bağımsız öznitelikler görülen durumlarda daha iyi<br />

kümleme sonuçları vermektedir.<br />

3. K-ORTALAMALAR ve MEDOĐDLER ETRAFINDA BÖLÜMLEME (MEB)<br />

K-ortalamalar yöntemi toplam n noktayı (veri satırını), k kümeye bölmek için her noktanın,<br />

başlangıçta rastgele seçilen küme merkezlerine olan Öklit uzaklıklarını yinelemeli şekilde hesaplar. Đlk<br />

adımda bu şekilde yaptığı kümelemeyi, sonraki adımlarda her kümedeki noktaların ortalamasını alarak<br />

güncellediği küme merkezleriyle tekrarlamaktadır. Her yinelemede noktaların hangi küme merkezine<br />

daha yakın olduğunu bulmak için bu uzaklıkların karesini en aza indirerek, optimum küme<br />

merkezlerini bulmaya çalışır. MEB ise veri kümesinde k medoid bularak, bu k medoide olan<br />

uzaklıklarına göre toplamdaki n noktayı kümelemektedir. Burada medoid, bir kümedeki tüm noktalara<br />

olan ortalama uzaklığı (benzemezlik ölçüsü) en küçük olan küme elemanıdır.<br />

Veriyi kümelemek için her iki yöntemi de kullanmamızın nedeni, k-ortalamalar yönteminin çok<br />

yaygın olarak kullanılmasına rağmen, MEB yönteminin düzensizlik ve uç değerler (sapan gözlemler)<br />

içeren verilerde daha sağlam (robust) olmasıdır. MEB yönteminin daha sağlam olmasının nedeni ise,<br />

Öklit uzaklıkları kareleri toplamını değil, benzemezlik değerlerinin toplamını en aza indirmesidir.<br />

Medoidler düzensizliklerin ve uç değerlerin varlığından küme merkezlerine göre daha az<br />

etkilenmektedirler.<br />

3.1. K-ortalamalar<br />

SPSS’in veri madenciliği modülü olan Clementine10.1 [6] paket programında yeralan k-ortalamalar<br />

yöntemi kullanarak elde edilen kümeler ve kümeler arası benzerlik/benzemezlik durumları Tablo 1’de<br />

yeralmaktadır. Burada 4 gruplu (k=4) kümelemede benzemezliğin, 2 ve 3 kümeli ayrıştırmalara göre,<br />

çoğunlukla birbirine daha uzak gruplamalar verdiği görülmektedir.<br />

Tablo 1. k=2, k= 3 ve k=4 için K-ortalamalar sonuçları<br />

Nesne 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />

k:2 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1<br />

k:3 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1 1 1 1 3 1 1 1 1 3 1<br />

k:4 1 1 1 1 1 1 1 4 1 1 1 4 1 1 1 1 1 1 3 1 1 1 1 3 1<br />

Nesne 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50<br />

k:2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />

k:3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />

K:4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />

3


Nesne 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75<br />

k:2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2<br />

k:3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2<br />

k:4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4 4 4 4 4<br />

Nesne 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92<br />

k:2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2<br />

k:3 2 2 2 2 2 2 2 2 2 1 2 2 2 1 2 2 2<br />

k:4 4 4 4 4 4 4 4 4 4 1 2 2 2 1 2 2 2<br />

Tablo 2. k=2, k=3 ve k=4 için K-ortalamalar ile bulunan kümelerin birbirlerine uzaklıkları<br />

2 küme küme_1 (70 Nesne) – küme_2 (22 Nesne) 1.113769<br />

küme_1 (68 Nesne) – küme_2 (22 Nesne) 1.111567<br />

3 küme<br />

küme_1 (68 Nesne) – küme_3 (2 Nesne) 1.593595<br />

küme_2 (22 Nesne) – küme_3 (2 Nesne) 1.968277<br />

küme_1 (68 Nesne) – küme_2 (6 Nesne) 1.44533<br />

küme_1 (68 Nesne) – küme_3 (2 Nesne) 1.593595<br />

küme_1 (68 Nesne) – küme_4 (16 Nesne) 1.104353<br />

4 küme<br />

küme_2 (6 Nesne) – küme_3 (2 Nesne) 2.197992<br />

küme_2 (6 Nesne) – küme_4 (16 Nesne) 1.055844<br />

küme_3 (2 Nesne) – küme_4 (16 Nesne) 1.95292<br />

3.2. Medoidler Etrafında Bölümleme<br />

Çalışmamızda MEB algoritması MATLAB 7.0 [8] ile programlanmıştır. Geliştirilen program veri<br />

kümemize uygulandığında elde edilen sonuçlar Tablo 3’de yeralmaktadır.<br />

Tablo 3. k=2, k= 3 ve k=4 için MEB sonuçları<br />

Nesne 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />

k:4 1 2 3 2 3 2 2 1 2 3 2 4 2 3 3 2 2 2 2 3 3 3 3 2 3<br />

k:3 1 2 3 2 3 2 2 1 2 3 2 1 2 3 3 2 2 2 2 3 3 3 3 2 3<br />

k:2 1 2 2 2 1 2 2 1 2 2 2 1 2 2 1 2 2 2 2 2 2 2 2 2 2<br />

Nesne 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50<br />

k:4 2 2 3 2 2 2 2 3 2 2 2 3 3 3 3 2 3 2 2 2 2 2 1 3 3<br />

k:3 2 2 3 2 2 2 2 3 2 2 2 3 3 3 3 2 3 2 2 2 2 2 1 3 3<br />

k:2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2<br />

Nesne 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75<br />

k:4 2 1 1 1 2 3 3 1 3 2 2 3 2 3 1 2 1 1 1 1 1 1 4 4 4<br />

k:3 2 1 1 1 2 3 3 1 3 2 2 3 2 3 1 2 1 1 1 1 1 1 1 1 1<br />

k:2 2 1 1 1 2 2 1 1 1 2 2 2 2 1 1 2 1 1 1 1 1 1 1 1 1<br />

Nesne 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92<br />

k:4 4 4 1 1 4 1 4 4 1 3 1 4 1 2 4 4 4<br />

k:3 1 1 1 1 1 1 1 1 1 3 1 1 1 2 1 1 1<br />

k:2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1<br />

Burada yine 4 gruplu (k=4) kümelemede benzemezliğin, 2 ve 3 kümeli ayrıştırmalara göre çoğunlukla<br />

birbirine daha uzak gruplamalar verdiği görülmektedir. Bu durum, örnek çalışmada, 4 gruplu<br />

kümelemenin tercih edilmesine yol açmaktadır.<br />

Tablo 4. k=2, k=3 ve k=4 için MEB ile bulunan kümelerin birbirlerine olan uzaklıkları<br />

2 küme küme_1 (40 Nesne) – küme_2 (52 Nesne) 1.2838<br />

3 küme<br />

4 küme<br />

küme_1 (33 Nesne) – küme_2 (34 Nesne)<br />

küme_1 (33 Nesne) – küme_3 (25 Nesne)<br />

küme_2 (34 Nesne) – küme_3 (25 Nesne)<br />

küme_1 (20 Nesne) – küme_2 (34 Nesne)<br />

küme_1 (20 Nesne) – küme_3 (25 Nesne)<br />

küme_1 (20 Nesne) – küme_4 (13 Nesne)<br />

küme_2 (34 Nesne) – küme_3 (25 Nesne)<br />

küme_2 (34 Nesne) – küme_4 (13 Nesne)<br />

küme_3 (25 Nesne) – küme_4 (13 Nesne)<br />

1.2838<br />

1.2729<br />

1.1242<br />

1.2838<br />

1.2729<br />

1.1374<br />

1.1242<br />

1.5336<br />

1.5523<br />

4


3.3. Kümeleme Sonuçları<br />

k-ortalamalar ve MEB yöntemleri k=2 için çalıştırıldığında elde edilen sonuçlar yapay olabileceğinden<br />

ve ayrıca Bölüm 2.1’de sözü edilen MEB ve Sugar yöntemlerinin sonuçları kullanılarak veride dört<br />

küme olduğununa karar verilmiştir. MEB algoritmasının k=4 için oluşturduğu kümeler, içerdikleri<br />

nesne sayılarının dengeli olması ve kümelerin birbirine uzaklıklarının orantılı bulunması nedeniyle<br />

(bkz. Tablo 2 ve Tablo 4) oldukça doğal görünmektedir. k=4 için çalıştırdığımız MEB ve kortalamalar<br />

ile bulduğumuz kümelerin çapraz tablosu Tablo 5’te verilmiştir.<br />

Tablo 5. K-ortalamalar ve MEB için çapraz tablo<br />

PAM<br />

1.00 2.00 3.00 4.00<br />

Total<br />

1.00 20<br />

10<br />

25<br />

13<br />

68<br />

k-Meansr 2.00 0<br />

2<br />

0<br />

0<br />

2<br />

3.00 0<br />

6<br />

0<br />

0<br />

6<br />

4.00 0<br />

16<br />

0<br />

0<br />

16<br />

Total 20 34 25 13 92<br />

Tablo 5’te MEB yönteminin bulduğu ikinci kümenin, k-ortalamalardaki ikinci, üçüncü ve dördüncü<br />

kümeyi kapsadığını, k-ortalamaların hepsini bir gruba topladığı 68 nesneyi (birinci küme) daha<br />

homojen kümelere ayırdığını görüyoruz. Tablo 2 ve Tablo 4 incelendiğinde MEB yönteminin bulduğu<br />

kümelerin birbirlerine uzaklıkları, k-Ortalamalar ile bulunanan kümelerin birbirlerine uzaklıkları ile<br />

karşılaştırıldığında, MEB yönteminin veri kümemizi daha iyi grupladığını söyleyebiliriz. Sonuç<br />

olarak, MEB ile yapılan kümeleme işleminin k-ortalamalar ile yapılanın ince ayarı olduğu şeklinde de<br />

yorum yapılabilir.<br />

4. PÜRÜZLÜ OPTĐMĐZASYON ile <strong>KÜMELEME</strong><br />

K-ortalamalar yöntemi daha yakından incelenirse, bir veri kümesindeki anlamlı küme sayısını<br />

bilmediğimiz durumlarda kümeleme problemini çözmede bu yöntemin yeterli olamayacağı<br />

söylenebilir. Bu çalışmada, Bölüm 2.1’de yaptığımız önişleme sayesinde veri kümemiz için anlamlı<br />

olan küme sayısını belirlediğimizden dolayı k-ortalamalar yöntemi kullanılabilmiştir. K-ortalamalar<br />

yönteminin bu eksikliğini gidermek amacı ile sayısal bir optimizasyon yaklaşımı olan pürüzlü<br />

optimizasyon yönteminin kullanılabileceği düşünülmektedir. Bu yolla elde edilen değiştirilmiş kortalamalar<br />

yöntemi kümeleri adım adım hesaplama özelliği sayesinde bitirme koşulu sağlanıncaya<br />

kadar bir veri kümesinin kapsadığı kadar kümeyi belli bir toleransa göre hesaplamaya izin vermektedir<br />

[5]. Bu yöntemin yapay test verileri üzerinde k-ortalamalar yönteminden daha iyi sonuç verdiği [8]’de<br />

gösterilmiştir. Çalışmamız bu yeni yöntemin elimizdeki veri kümesinde de k-ortalamalardan daha iyi<br />

sonuç verdiğini göstermektedir (bkz. Tablo 6 ve Tablo 7).<br />

Tablo 6. k=2, k= 3 ve k=4 için Pürüzlü optimizasyon ile değiştirilmiş k-ortalamalar sonuçları<br />

k=2 k=3 k=4<br />

küme_1: 61 nesne<br />

küme_2: 31 nesne<br />

küme_1: 61 nesne<br />

küme_2: 31 nesne<br />

küme_3: 2 nesne<br />

küme_1: 45 nesne küme_2: 24 nesne<br />

küme_3: 2 nesne küme_4: 21 nesne<br />

Tablo 7. k-Ortalamalar ve Pürüzlü optimizasyon ile değiştirilmiş k-ortalamalar için çapraz tablo<br />

Pürüzlü Optimizasyon ile Değiştirilmiş k-ortalamalar<br />

1.00 2.00 3.00 4.00<br />

Total<br />

1.00 45<br />

0<br />

2<br />

21<br />

68<br />

k-Ortalamalar 2.00<br />

0<br />

2<br />

0<br />

0<br />

2<br />

3.00<br />

0<br />

6<br />

0<br />

0<br />

6<br />

4.00<br />

0<br />

16<br />

0<br />

0<br />

16<br />

Total 45 24 2 21 92<br />

5


Çapraz tablo, 4 küme ile k-ortalamalar yaklaşımının verdiği küme üyeliklerinin, pürüzlü optmizasyon<br />

eşliğinde değiştirilmiş k-ortalamalar yaklaşımıyla daha farklı bir dağılım verdiğini göstermektedir. Kortalamaların<br />

iki grubu 10’dan az üye ile kurulmuşken, yeni yöntemde tek bir küme dışındailerin hepsi<br />

20’nin üzerinde üyeye sahiptir.<br />

5. SONUÇ ve GELECEK ÇALIŞMA ALANI<br />

Bu çalışmada, döküm süreci çıktılarını temsil eden 92 nesnenin her birine karşılık gelen, 35 süreç<br />

değişkeninden oluşan ve eksik değerleri bulunan kalite verisini kümelemek için 3 farklı yaklaşım<br />

denenmiştir. Yeni bir kümeleme yöntemi olan pürüzlü optimizasyon kullanılarak değiştirilmiş kortalamalar<br />

yöntemi ile k-ortalamalar ve MEB yöntemleri karşılaştırılmıştır. Pürüzlü optimizasyon ile<br />

değiştirilmiş k-ortalamalar yöntemi gelenekse k-ortalamalar yaklaşımından daha iyi kümeleme<br />

yapabilmesine rağmen, veri kümemiz için, benzemezlik ve üyelik dağılımı ölçülerine göre en iyi<br />

kümelemeyi MEB yönteminin verdiği görülmektedir.<br />

Veride saklı bulunan grupları kümeleme yaklaşımları ile incelemenin önemli sonuçlarından bir tanesi<br />

de, veri kümesindeki uç değerlerin ve azınlıkta olan verilerin saptanabilmesidir. Kalite verisi açısından<br />

baktığımızda, kümeleme çalışmalarının kural kümeleri ve tahmin modelleri oluşturan diğer VM<br />

yöntemleri kullanımı öncesinde veri üzerinde önişleme amacıyla kullanılabileceği söylenebilir.<br />

Bundan sonraki çalışmamızda, döküm endüstrisine ilişkin kalite verisi içinde saptadığımız kümeler<br />

üzerinde KA yöntemi uygulanacaktır. Böylece hatalar ile süreç değişkenleri arasındaki ilişkileri daha<br />

kesin bir şekilde modellemenin mümkün olabileceği düşünülmektedir.<br />

Teşekkür: Bu çalışma TÜBĐTAK 105M138 kodlu proje tarafından desteklenmiştir. Doç. Dr. Đnci<br />

Batmaz, Prof. Dr. Gülser Köksal ve tüm proje üyelerine katkılarından dolayı teşekkür ederiz.<br />

KAYNAKÇA<br />

[1] Bagirov, A.M., Rubinov, A.M., Soukhoroukova, N.V., and Yearwood, J., Unsupervised and<br />

supervised data classification via nonsmooth and global optimization, TOP 11, 1 (2003), 1-93.<br />

[2] Bakır, B., Batmaz, Đ., Güntürkün, F.A., Đpekçi, Đ.A., Köksal, G., and Özdemirel, N.E., Defect<br />

Cause Modeling with Decision Tree and Regression Analysis, Proceedings of XVII. International<br />

Conference on Computer and Information Science and Engineering, Cairo, Egypt, December 08-10,<br />

2006, Volume 17, pp. 266-269, ISBN 975-00803-7-8.<br />

[3] Cabena P., Discovering data mining: from concept to implementation. Upper Saddle River, N.J.:<br />

Prentice Hall, 1998.<br />

[4] Dunham M.H., Data mining introductory and advanced topics. Upper Saddle River, N.J.: Prentice<br />

Hall/Pearson Education, 2003.<br />

[5] Öztürk-Akteke, B., Weber, G-W., A Survey and Results on Semidefinite and Nonsmooth<br />

Optimization for Minimum Sum of Squared Distances Problem, preprint no. 1, Institute of Applied<br />

Mathematics, METU, 2006, submitted to the special issue of Discrete Applied Mathematics “GO V”'<br />

in honour of the 70th birthday of Prof. Dr. P.L. Hammer and Prof. Dr. J. Krarup.<br />

[6] SPSS Clementine, http://www.spss.com/clementine/.<br />

[7] Sugar, C.A. and James, G. M., Finding the Number of Clusters in a Dataset: An Information-<br />

Theoretic Approach, Journal of the American Statistical Association, 98 (463), 2003, 750-763.<br />

[8] The Mathworks-MATLAB-The Language of Computing,<br />

http://www.mathworks.com/products/matlab/<br />

6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!