13.07.2015 Views

V i M d iliği Veri Madenciliği

V i M d iliği Veri Madenciliği

V i M d iliği Veri Madenciliği

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Ayrık ve sürekli nitelikler• Ayrık Nitelik / Discrete Attribute–Sonlu sayıda değerden oluşan nitelikler• E.g., posta kodu, meslek, ya da doküman setiiçerisindeki kelimeler–Tamsayı değerler olarak ifade edilebilir– İkili / binary nitelikler de ayrık niteliklerin özel birtürüdür• Sürekli Nitelik / Continuous Attribute–Değeri gerçek sayılar olan nitelikler• E.g., sıcaklık, k yükseklik, klik ya da ağırlıkğ – Floating-point değerler olarak ifade edilebilir<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirNeden veri önişleme?• Gerçek hayatta karşılaştığımız veriler genelde eksik(missing or incomplete), hatalı (noisy), ve tutarsız(inconsistent) olma eğilimindedir.– Düşük ş kaliteli veri• <strong>Veri</strong> kalitesini düşüren sorunlar:– Noise / Gürültü– Outliers / Sapan veri– Missing values / Eksik veri– Duplicate data / Tekrarlı veri– <strong>Veri</strong> iletim hataları–Teknolojik sınırlamalar– <strong>Veri</strong> isimlendirmede veya yapısında uyumsuzluk<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir2


Noise / Gürültü• Orjinal veride oluşan istenmeyen değişimlerdir– Örnek: telefonda konuşurken sesimizin bozulması, televizyonekranındaki karlanmaİki Sinüs Dalgasıİki Sinüs Dalgası + Gürültü<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirOutliers / Sapan veri• Sapan veriler veri setinin geri kalan kısmından çokfarklı olan verileridir.<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir3


Missing Values / Eksik veri• Nedenler– Bilginin toplanamaması•Yaşını, kilosunu ya da gelirini belirtmek istemeyen insanlar– Uygun olmayan nitelikler• Çocuklar için gelir niteliği uygulanamaz• Çözümler– Eksik verileri dikkate alma– Eksik veriyi tahmin et (ortalama vs.)<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirDuplicate Data / Tekrarlı veri• Birbirinin aynısı olan veriler–Değişik veritabanlarının birleştirilmesi sırasında ortayaçıkar– Birden çok eposta adresine sahip insan• Çözüm– <strong>Veri</strong> temizleme<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir4


Neden veri önişleme?• Düşük kaliteli veri düşük kaliteli veri madenciliğisonuçlarına yol açar• <strong>Veri</strong> önişleme?– <strong>Veri</strong> madenciliği kalitesini artırmak– <strong>Veri</strong> madenciliğini kolaylaştırmak– <strong>Veri</strong>mliliği artırmak hedeflenir<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirTanımlayıcı veri özetleme• <strong>Veri</strong> önişlemenin temeli• <strong>Veri</strong>yi daha iyi anlamak ve anlatmak– <strong>Veri</strong>nin merkezi eğilimi•Ortalama, ortanca (median), mode– <strong>Veri</strong>nin dağılımı• Çeyreklikler (quartiles), IQR, variance, boxplots<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir5


Ortalama (Mean)• Ortalama (mean)n1x – Örnekleme ni 1x i– Popülasyon– Ağırlıklı ortalama x xNni1ni 1w i x iwi<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirOrtanca (Median)• <strong>Veri</strong> setinde ortadaki verinin değeri–Çift sayıda veri varsa ortadaki iki verinin ortalaması• Gruplanmış veriler için interpolation yolu ilebulunurYaş Frekans5‐10 12011‐15 5016‐20 16021‐25 7026‐30 200<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemirn / 2 ( f ) lmedian L1 () cfOrtanca aralığın ilk elemanıOrtanca aralıktan aşağıdaki aralıklardakieleman sayılarının toplamıf median600 / 2 (270)median 16 ()5 16.9160Ortanca aralığıngenişliğiOrtanca aralığınfrekansı6


Mod (Mode)• <strong>Veri</strong> seti içinde en çok tekrarlanan veri–Unimodal–Bimodal– Ti Trimodal• Deneysel (empirical) formülmeanmode 3(meanmedian)<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirSimetrik ve Çarpık <strong>Veri</strong>• Ortalama, ortanca vemod değerleriMeanMedianMode<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir7


<strong>Veri</strong>nin dağılımı• Quartiles, outliers and boxplots– Çeyrek (Quartile): Q 1 (25 th percentile), Q 3 (75 thpercentile)– Inter-quartile range: IQR = Q 3 –Q 1– Five number summary: min, Q 1 , M, Q 3 , max– Boxplot: ends of the box are the quartiles, median ismarked, whiskers, and plot outlier individually– Sapan veri (Outlier):• usually, a value higher/lower than 1.5 x IQR<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong>nin dağılımı• Varyans ve standart sapma (örnekleme: s,populasyon: σ)– Varyans:s21n1ni1( x x)i21 [n1nn2xi (i1 n i12x ) ]– Standart sapma s (ya da σ) varyansın kare kökü1inn2 12 1 ( xi ) N i1N i1x2i2 <strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir8


Normal dağılım eğrisinin özellikleri• Normal dağılım eğrisi–(μ–σ) ile (μ+σ) arasında verilerin yaklaşık %68ibulunur (μ: ortalama, σ: standart sapma)–(μ–2σ) ile (μ+2σ) arasında %95i–(μ–3σ) ile (μ+3σ) arasında %99.7si68%95%99.7%−3 −2 −1 0 +1 +2 +3−3 −2 −1 0 +1 +2 +3−3 −2 −1 0 +1 +2 +3<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirGörsel tanımlayıcı veri özetleme• <strong>Veri</strong>yi daha iyi ifade edebilmek için kullandığımızyöntemler– Boxplot– Histogram, sıklık histogramı, bar chart–Eşit bölen (Quantile) grafikleri– Q-Q grafikleri– Serpme (scatter) grafikleri<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir9


Boxplot analizi• Five number summary nin grafik olarak gösterimi– Minimum, Q1, M, Q3, Maximum• Boxplot– <strong>Veri</strong> bir kutu olarak gösterilir– Kutunun alt ve üst çizgileri 1. ve 3. çeyreklerdir– Ortanca bir çizgi ile belirtilir–Maxve mindeğerleri kutunun dışında iki çizgi(Whiskers) ile belirtilir<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirHistogram analizi• Basit istatistiksel sınıfları gösteren grafik– <strong>Veri</strong> setindeki çeşitli sınıflara ait verilerin sayısını ya da frekansınıveren dikdörtgenlerden oluşur<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir10


Quantile plot• Kullanıcının hem normal verileri hem de aykırılıklarınıgörmesini sağlar• Quantile bilgisi verir– <strong>Veri</strong> x i ile gösterilirse, f i değeri ğ veri setindeki verilerin i %100f isinin x i den küçük ya da eşit olduğunu gösterir• Tek değişkenli analiz<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirQuantile-Quantile plot• Karşılaştırma yapar, eğilimi gösterir• Çift değişkenli analizQ1MQ3Quantile-quantile plots(also called q-q plots)are used to determineif two data sets comefrom populations witha common distribution.In such a plot, pointsare formed from thequantiles of the data.Şube 1 de satılan ürünler şube 2 desatılanlardan daha ucuz olma eğiliminde<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir11


Scatter plot• <strong>Veri</strong> içindeki sapan verileri, kümeleri gösterir<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirÖzet: <strong>Veri</strong> Dağılımının Grafiksel Olarak Gösterimi• Histogram• Boxplot• Quantile plot: each value x i is paired with f i indicating thatapproximately 100 f i %ofdata are x i• Quantile-quantile (q-q) plot: graphs the quantiles of oneunivariant distribution against the corresponding quantiles ofanother• Scatter plot: each pair of values is a pair of coordinates andplotted as points in the plane<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir12


<strong>Veri</strong> önişleme• <strong>Veri</strong> temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• <strong>Veri</strong> bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• <strong>Veri</strong> değiştirme– <strong>Veri</strong>yi daha anlaşılabilir bir halde ifade etme,normalizasyon• <strong>Veri</strong> azaltma– <strong>Veri</strong> bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong> önişleme<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir13


<strong>Veri</strong> önişleme• <strong>Veri</strong> temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• <strong>Veri</strong> bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• <strong>Veri</strong> değiştirme– <strong>Veri</strong>yi daha anlaşılabilir bir halde ifade etme,normalizasyon• <strong>Veri</strong> azaltma– <strong>Veri</strong> bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong> temizleme• Eksik veri tamamlama, hatalı verileri düzeltme,tutarsız verileri kaldırma• Eksik veri tamamlama (missing values)– Kaydı yok say– Elle doldurma– Global bir değerle doldurma– Nitelik ortalamasıyla doldurma– Eksik verinin ait olduğu grubun nitelik ortalamasıyladoldurma– En olası değerle doldurma (regression, Bayesianinference)<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir14


<strong>Veri</strong> temizleme• Hatalı verileri düzeltme (gürültülü-noisy data)– hatalı veri toplama gereçleri–veri giriş problemleri– veri girişi i i sırasında kullanıcıların l hatalı yorumları– veri iletim hataları–teknolojik sınırlamalar– veri isimlendirmede veya yapısında uyumsuzluk• Hatalı verinin tespiti?– Sapan veriler<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong> temizleme• Çözüm yöntemleri– Kova metodu (Binning): <strong>Veri</strong>yi düzleştirme, lokal çözüm• Kova ortalaması ile düzleştirme• Kova ortancası ile düzleştirme• Kova sınırları ile düzleştirme–Eğri uydurma (Regression)– Demetleme (Clustering)– İnsan-bilgisayar incelemesi<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir15


Kova metodu (Binning)• Eşit genişlik (Equal-width (distance) partitioning)– <strong>Veri</strong> setini N eşit aralığa böler: uniform grid–Eğer A ve B veri setindeki en büyük ve en küçük değerlerise her bir aralığın genişliği: W = (B –A)/N.– Basit ancak sapan verilerden etkilenir–Çarpık (skewed) veri iyi ifade edilemez<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirKova metodu (Binning)• Eşit derinlik (Equal-depth (frequency) partitioning)– Her bir veri aralığı yaklaşık olarak aynı sayıda veri içerir– Ölçeklenebilir<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir16


Binning - ÖrnekSorted data for price (in dollars):4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34• Partition into equal-frequency (equi-depth) bins:- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34• Smoothing by bin means:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29• Smoothing by bin boundaries:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25- Bin 3: 26, 26, 26, 34<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirRegresyonY1Y1’y = x + 1X1x<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir17


Demetleme / Kümeleme<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong> önişleme• <strong>Veri</strong> temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• <strong>Veri</strong> bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• <strong>Veri</strong> değiştirme– <strong>Veri</strong>yi daha anlaşılabilir bir halde ifade etme,normalizasyon• <strong>Veri</strong> azaltma– <strong>Veri</strong> bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir18


<strong>Veri</strong> bütünleştirme• Artık verileri ortadan kaldırma, veritabanlarınıbirleştirme– Schema bütünleştirme• Varlık tanımlama (entity identification) problem– <strong>Veri</strong>tabanı 1 -> Cust_id– <strong>Veri</strong>tabanı 2 -> Cust_number• Metadata kullanımı–Her niteliği tanımla–Artık/tekrarlı veri temizleme• Korelasyon analizi•Chi-squaretest<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirKorelasyon Analizi• Correlation coefficient (also called Pearson’s productmoment coefficient)r A , B( A A)( B B)( AB) N A BN A BN A Bwhere n is the number of tuples, A and B are the respectivemeans of A and B, σ A and σ B are the respective standarddeviation of A and B, and Σ(AB) is the sum of the AB crossproduct.• If r A,B > 0, A and dB are positively correlated d(A’ (A’s valuesincrease as B’s). The higher, the stronger correlation.• r A,B = 0: independent; r A,B < 0: negatively correlated<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir19


Pearson’s product moment coefficient• r A,B değerlerinin anlamıCorrelation Negative PositiveNone −0.09 to 0.0 0.0 to 0.09Small −0.3 to −0.1 0.1 to 0.3Medium −0.5 to −0.3 0.3 to 0.5Strong −1.0 to −0.5 0.5 to 1.0<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirKorelasyon Analizi - Örnek<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir20


Chi-square Test• Ayrık / kategorik veri için korelasyon• Χ 2 (chi-square) test2 (Observed Expected) Expected• The larger the Χ 2 value, the more likely the variables arerelated• The cells that contribute the most to the Χ 2 value are thosewhose actual count is very different from the expected count• Correlation does not imply causality– # of hospitals and # of car-theft in a city are correlated– Both are causally linked to the third variable: population2<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirChi-square Test - Örnekmale female Sum (row)fiction 250(90) 200(360) 450non-fiction 50(210) 1000(840) 1050Sum(col.) 300 1200 1500• Χ 2 (chi-square) calculation (numbers in parenthesis are expected countscalculated based on the data distribution in the two categories)22222 (250 90) (50 210) (200 360) (1000 840) 507.9390 210 360 840• Bu hipotezin yanlış olduğunu red etmek için– Bağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chisquaredağılımının kritik değer tablosuna bakılır– 0.001 önem değeri için 10.828• 10.828 < 507.93 olduğundan Cinsiyet ve okuma tercihi birbirlerindenbağımsız değil denir (çok kuvvetli bir ilişki vardır).<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir21


Kritik değer tablosu<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong> önişleme• <strong>Veri</strong> temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• <strong>Veri</strong> bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• <strong>Veri</strong> değiştirme– <strong>Veri</strong>yi daha anlaşılabilir bir halde ifade etme,normalizasyon• <strong>Veri</strong> azaltma– <strong>Veri</strong> bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir22


<strong>Veri</strong> değiştirme• <strong>Veri</strong>yi daha anlaşılabilir bir halde ifade etme,normalizasyon– Düzeltme (smoothing)– Birleştirme (aggregation)– Genelleme– Normalizasyon• Max-min normalizasyon• Z-score normalizasyon• Normalizasyon by decimal scaling– Nitelik oluşturma<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong> değiştirme• Min-max normalization: to [new_min A , new_max A ]v minAv ' ( new_maxA new_minA) new_minAmaxA minA– Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0].– Then $73,600 is mapped to 73,600 12,000(1.0 0) 0 0.71698,000 12,000v A• Z-score normalization (μ: mean, σ: standard deviation): v ' A– Ex. Let μ = 54,000, σ = 16,000. Then73,600 54,000 1.22516,000• Normalization by decimal scalingvv'10jWhere j is the smallest integer such that Max(|ν’|) < 1v’


<strong>Veri</strong> önişleme• <strong>Veri</strong> temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• <strong>Veri</strong> bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• <strong>Veri</strong> değiştirme– <strong>Veri</strong>yi daha anlaşılabilir bir halde ifade etme,normalizasyon• <strong>Veri</strong> azaltma– <strong>Veri</strong> bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir<strong>Veri</strong> azaltma• <strong>Veri</strong> boyutunu düşür• Orijinal verinin özelliklerini koru• Boyut küçültmek için harcanan zaman verimadenciliği ğ yaparken kazanacağımız ğ zamanıgeçmemelidir• Bazı metotlar– <strong>Veri</strong> küpü birleştirme– Nitelik altkümesi seçme– Boyut azaltma– Numerosity reduction (<strong>Veri</strong>yi modellerle yada görselolarak ifade etme)–Ayrıştırma ve konsept hiyerarşisi geliştirme<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir24


Nitelik altkümesi seçme• <strong>Veri</strong>ye ait tüm nitelikler yapılacak iş için önemliolmayabilir–Alışveriş eğiliminin belirlenmesi/müşterilerin telefonnumaraları– Tekrarlı/redundant l/ d nitelikler• <strong>Veri</strong>nin dağılım özelliğini bozmadan veriyi ifadeedebilecek en küçük nitelik altkümesininseçilmesi• Sonuçta ortaya çıkan örüntü sayısı azaltılarakveri anlaşılması daha kolay hale getirilir• <strong>Veri</strong>yi i “iyi” i” şekilde ifade edecek nitelik altkümesinasıl bulunacak?<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirNitelik altkümesi seçme• “İyi” ve “kötü” nitelikler bağımsızlık testleri, kararağaçları gibi yöntemlerle belirlenir• Bilgi kazancı vb.• n nitelik için 2 n altküme (exponential)• Sezgisel (heuristic) i metotlar :– İleri adım adım seçme (Step-wise forward selection)•Boş küme ile başlayıp en iyi nitelikler kümeye dahiledilir–Geri adım adım eleme (Step-wise backwardelimination)• Tüm nitelikler ile başlanıp, her basamakta en kötüolan(lar) elenir– İleri seçme ve geri elemenin birleştirilmesi– Karar ağacı çıkarma (Decision-tree induction)•Ağaç ortaya çıkarılır ağaç üzerinde görülmeyennitelikler kötü/önemsiz olarak nitelendirilir ve elenir<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir25


Boyut azaltma (Dimentionality Reduction)• Kodlama (encoding) ve değiştirmeyle veriyi sıkıştırma– Wavelet transforms– Principle Component Analysis (PCA)<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirNumerosity reduction• <strong>Veri</strong>yi modellerle yada görsel olarak daha küçükformlarda ifade etme–Eğri uydurma modelleri– Histogramlar– Demetleme–Örnekleme<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir26


Regresyon Analizi• Bağımlı değişken ile bir veya dahaçok bağımsız değişken arasındakiilişkiyi incelemek amacıyla kullanılanbir analiz yöntemidir.• Regresyon analizi ile bağımlı vebağımsız değişkenler arasında birilişki var mıdır? Eğer bir ilişki varsabu ilişkinin gücü nedir? Değişkenlerarasında ne tür bir ilişki vardır? gibisorulara cevap aranmaya çalışılır.yY1Y1’X1y = x + 1x<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirHistogramlar•Equ-width/Eşit genişlik•Equ-depth/Eşit derinlik•V optimal•(Barlar arasında en düşük varyans)•Olası bütün histogramlardan barlararasından en düşük varyansa sahipolanı seç•MaxDiff•(<strong>Veri</strong>ler arasındaki en fazla fark edendeğer çiftleri sınırları belirler)•B kova sayısı•En yüksek B-1 tane farkı belirle vekovaları ayır403530252015105010000 30000 50000 70000 90000<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir27


Demetleme / Kümeleme• <strong>Veri</strong> setini benzerliklerine göre demetlere ayırma• Sadece demeti ifade eden bilgiyi sakla– Merkez ve çap• Gruplu yapıya sahip veri setinde daha iyi sonuç verir• Hiyeraşik demetleme yapılabilir ve indeks ağaçları olarakifade edilebilir<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirÖrnekleme• Tüm veri seti N’i temsil edecek küçük veri seti s’i seçmek• Basit metotların performansı iyi değil• Uyarlanabilir metotlar– Strafied örnekleme– Belli bir kurala göre sınıfla her sınıftan eşit sayıda örnek al<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir28


Örnekleme çeşitleri• Simple random sampling– There is an equal probability of selecting any particularitem• Sampling without replacement– Once an object is selected, it is removed from thepopulation• Sampling with replacement– A selected object is not removed from the population• Stratified sampling:– Partition the data set, and draw samples from eachpartition (proportionally, i.e., approximately the samepercentage of the data)– Used in conjunction with skewed data<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirSampling: With or without ReplacementRaw Data<strong>Veri</strong> MadenciliğiDoç. Dr. Suat Özdemir29


Sampling: Cluster or Stratified SamplingRaw DataCluster/Stratified Sample<strong>Veri</strong> MadenciliğiDoç. Dr. Suat ÖzdemirAyrıştırma ve konsept hiyerarşisi geliştirme• Sayısal veri– Binning– Histogram analizi• Kategorik veri– Şema seviyesinde (kullanıcılar tarafından)• Cadde

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!