V i M d iliÄi Veri MadenciliÄi

Ayrık ve sürekli nitelikler• Ayrık Nitelik / Discrete Attribute–Sonlu sayıda değerden oluşan nitelikler• E.g., posta kodu, meslek, ya da doküman setiiçerisindeki kelimeler–Tamsayı değerler olarak ifade edilebilir– İkili / binary nitelikler de ayrık niteliklerin özel birtürüdür• Sürekli Nitelik / Continuous Attribute–Değeri gerçek sayılar olan nitelikler• E.g., sıcaklık, k yükseklik, klik ya da ağırlıkğ – Floating-point değerler olarak ifade edilebilirVeri MadenciliğiDoç. Dr. Suat ÖzdemirNeden veri önişleme?• Gerçek hayatta karşılaştığımız veriler genelde eksik(missing or incomplete), hatalı (noisy), ve tutarsız(inconsistent) olma eğilimindedir.– Düşük ş kaliteli veri• Veri kalitesini düşüren sorunlar:– Noise / Gürültü– Outliers / Sapan veri– Missing values / Eksik veri– Duplicate data / Tekrarlı veri– Veri iletim hataları–Teknolojik sınırlamalar– Veri isimlendirmede veya yapısında uyumsuzlukVeri MadenciliğiDoç. Dr. Suat Özdemir2

Noise / Gürültü• Orjinal veride oluşan istenmeyen değişimlerdir– Örnek: telefonda konuşurken sesimizin bozulması, televizyonekranındaki karlanmaİki Sinüs Dalgasıİki Sinüs Dalgası + GürültüVeri MadenciliğiDoç. Dr. Suat ÖzdemirOutliers / Sapan veri• Sapan veriler veri setinin geri kalan kısmından çokfarklı olan verileridir.Veri MadenciliğiDoç. Dr. Suat Özdemir3

Missing Values / Eksik veri• Nedenler– Bilginin toplanamaması•Yaşını, kilosunu ya da gelirini belirtmek istemeyen insanlar– Uygun olmayan nitelikler• Çocuklar için gelir niteliği uygulanamaz• Çözümler– Eksik verileri dikkate alma– Eksik veriyi tahmin et (ortalama vs.)Veri MadenciliğiDoç. Dr. Suat ÖzdemirDuplicate Data / Tekrarlı veri• Birbirinin aynısı olan veriler–Değişik veritabanlarının birleştirilmesi sırasında ortayaçıkar– Birden çok eposta adresine sahip insan• Çözüm– Veri temizlemeVeri MadenciliğiDoç. Dr. Suat Özdemir4

Neden veri önişleme?• Düşük kaliteli veri düşük kaliteli veri madenciliğisonuçlarına yol açar• Veri önişleme?– Veri madenciliği kalitesini artırmak– Veri madenciliğini kolaylaştırmak– Verimliliği artırmak hedeflenirVeri MadenciliğiDoç. Dr. Suat ÖzdemirTanımlayıcı veri özetleme• Veri önişlemenin temeli• Veriyi daha iyi anlamak ve anlatmak– Verinin merkezi eğilimi•Ortalama, ortanca (median), mode– Verinin dağılımı• Çeyreklikler (quartiles), IQR, variance, boxplotsVeri MadenciliğiDoç. Dr. Suat Özdemir5

Ortalama (Mean)• Ortalama (mean)n1x – Örnekleme ni 1x i– Popülasyon– Ağırlıklı ortalama x xNni1ni 1w i x iwiVeri MadenciliğiDoç. Dr. Suat ÖzdemirOrtanca (Median)• Veri setinde ortadaki verinin değeri–Çift sayıda veri varsa ortadaki iki verinin ortalaması• Gruplanmış veriler için interpolation yolu ilebulunurYaş Frekans5‐10 12011‐15 5016‐20 16021‐25 7026‐30 200Veri MadenciliğiDoç. Dr. Suat Özdemirn / 2 ( f ) lmedian L1 () cfOrtanca aralığın ilk elemanıOrtanca aralıktan aşağıdaki aralıklardakieleman sayılarının toplamıf median600 / 2 (270)median 16 ()5 16.9160Ortanca aralığıngenişliğiOrtanca aralığınfrekansı6

Mod (Mode)• Veri seti içinde en çok tekrarlanan veri–Unimodal–Bimodal– Ti Trimodal• Deneysel (empirical) formülmeanmode 3(meanmedian)Veri MadenciliğiDoç. Dr. Suat ÖzdemirSimetrik ve Çarpık Veri• Ortalama, ortanca vemod değerleriMeanMedianModeVeri MadenciliğiDoç. Dr. Suat Özdemir7

Verinin dağılımı• Quartiles, outliers and boxplots– Çeyrek (Quartile): Q 1 (25 th percentile), Q 3 (75 thpercentile)– Inter-quartile range: IQR = Q 3 –Q 1– Five number summary: min, Q 1 , M, Q 3 , max– Boxplot: ends of the box are the quartiles, median ismarked, whiskers, and plot outlier individually– Sapan veri (Outlier):• usually, a value higher/lower than 1.5 x IQRVeri MadenciliğiDoç. Dr. Suat ÖzdemirVerinin dağılımı• Varyans ve standart sapma (örnekleme: s,populasyon: σ)– Varyans:s21n1ni1( x x)i21 [n1nn2xi (i1 n i12x ) ]– Standart sapma s (ya da σ) varyansın kare kökü1inn2 12 1 ( xi ) N i1N i1x2i2 Veri MadenciliğiDoç. Dr. Suat Özdemir8

Normal dağılım eğrisinin özellikleri• Normal dağılım eğrisi–(μ–σ) ile (μ+σ) arasında verilerin yaklaşık %68ibulunur (μ: ortalama, σ: standart sapma)–(μ–2σ) ile (μ+2σ) arasında %95i–(μ–3σ) ile (μ+3σ) arasında %99.7si68%95%99.7%−3 −2 −1 0 +1 +2 +3−3 −2 −1 0 +1 +2 +3−3 −2 −1 0 +1 +2 +3Veri MadenciliğiDoç. Dr. Suat ÖzdemirGörsel tanımlayıcı veri özetleme• Veriyi daha iyi ifade edebilmek için kullandığımızyöntemler– Boxplot– Histogram, sıklık histogramı, bar chart–Eşit bölen (Quantile) grafikleri– Q-Q grafikleri– Serpme (scatter) grafikleriVeri MadenciliğiDoç. Dr. Suat Özdemir9

Boxplot analizi• Five number summary nin grafik olarak gösterimi– Minimum, Q1, M, Q3, Maximum• Boxplot– Veri bir kutu olarak gösterilir– Kutunun alt ve üst çizgileri 1. ve 3. çeyreklerdir– Ortanca bir çizgi ile belirtilir–Maxve mindeğerleri kutunun dışında iki çizgi(Whiskers) ile belirtilirVeri MadenciliğiDoç. Dr. Suat ÖzdemirHistogram analizi• Basit istatistiksel sınıfları gösteren grafik– Veri setindeki çeşitli sınıflara ait verilerin sayısını ya da frekansınıveren dikdörtgenlerden oluşurVeri MadenciliğiDoç. Dr. Suat Özdemir10

Quantile plot• Kullanıcının hem normal verileri hem de aykırılıklarınıgörmesini sağlar• Quantile bilgisi verir– Veri x i ile gösterilirse, f i değeri ğ veri setindeki verilerin i %100f isinin x i den küçük ya da eşit olduğunu gösterir• Tek değişkenli analizVeri MadenciliğiDoç. Dr. Suat ÖzdemirQuantile-Quantile plot• Karşılaştırma yapar, eğilimi gösterir• Çift değişkenli analizQ1MQ3Quantile-quantile plots(also called q-q plots)are used to determineif two data sets comefrom populations witha common distribution.In such a plot, pointsare formed from thequantiles of the data.Şube 1 de satılan ürünler şube 2 desatılanlardan daha ucuz olma eğilimindeVeri MadenciliğiDoç. Dr. Suat Özdemir11

Scatter plot• Veri içindeki sapan verileri, kümeleri gösterirVeri MadenciliğiDoç. Dr. Suat ÖzdemirÖzet: Veri Dağılımının Grafiksel Olarak Gösterimi• Histogram• Boxplot• Quantile plot: each value x i is paired with f i indicating thatapproximately 100 f i %ofdata are x i• Quantile-quantile (q-q) plot: graphs the quantiles of oneunivariant distribution against the corresponding quantiles ofanother• Scatter plot: each pair of values is a pair of coordinates andplotted as points in the planeVeri MadenciliğiDoç. Dr. Suat Özdemir12

Veri önişleme• Veri temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• Veri bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• Veri değiştirme– Veriyi daha anlaşılabilir bir halde ifade etme,normalizasyon• Veri azaltma– Veri bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.Veri MadenciliğiDoç. Dr. Suat ÖzdemirVeri önişlemeVeri MadenciliğiDoç. Dr. Suat Özdemir13

Veri önişleme• Veri temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• Veri bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• Veri değiştirme– Veriyi daha anlaşılabilir bir halde ifade etme,normalizasyon• Veri azaltma– Veri bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.Veri MadenciliğiDoç. Dr. Suat ÖzdemirVeri temizleme• Eksik veri tamamlama, hatalı verileri düzeltme,tutarsız verileri kaldırma• Eksik veri tamamlama (missing values)– Kaydı yok say– Elle doldurma– Global bir değerle doldurma– Nitelik ortalamasıyla doldurma– Eksik verinin ait olduğu grubun nitelik ortalamasıyladoldurma– En olası değerle doldurma (regression, Bayesianinference)Veri MadenciliğiDoç. Dr. Suat Özdemir14

Veri temizleme• Hatalı verileri düzeltme (gürültülü-noisy data)– hatalı veri toplama gereçleri–veri giriş problemleri– veri girişi i i sırasında kullanıcıların l hatalı yorumları– veri iletim hataları–teknolojik sınırlamalar– veri isimlendirmede veya yapısında uyumsuzluk• Hatalı verinin tespiti?– Sapan verilerVeri MadenciliğiDoç. Dr. Suat ÖzdemirVeri temizleme• Çözüm yöntemleri– Kova metodu (Binning): Veriyi düzleştirme, lokal çözüm• Kova ortalaması ile düzleştirme• Kova ortancası ile düzleştirme• Kova sınırları ile düzleştirme–Eğri uydurma (Regression)– Demetleme (Clustering)– İnsan-bilgisayar incelemesiVeri MadenciliğiDoç. Dr. Suat Özdemir15

Kova metodu (Binning)• Eşit genişlik (Equal-width (distance) partitioning)– Veri setini N eşit aralığa böler: uniform grid–Eğer A ve B veri setindeki en büyük ve en küçük değerlerise her bir aralığın genişliği: W = (B –A)/N.– Basit ancak sapan verilerden etkilenir–Çarpık (skewed) veri iyi ifade edilemezVeri MadenciliğiDoç. Dr. Suat ÖzdemirKova metodu (Binning)• Eşit derinlik (Equal-depth (frequency) partitioning)– Her bir veri aralığı yaklaşık olarak aynı sayıda veri içerir– ÖlçeklenebilirVeri MadenciliğiDoç. Dr. Suat Özdemir16

Binning - ÖrnekSorted data for price (in dollars):4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34• Partition into equal-frequency (equi-depth) bins:- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34• Smoothing by bin means:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29• Smoothing by bin boundaries:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25- Bin 3: 26, 26, 26, 34Veri MadenciliğiDoç. Dr. Suat ÖzdemirRegresyonY1Y1’y = x + 1X1xVeri MadenciliğiDoç. Dr. Suat Özdemir17

Demetleme / KümelemeVeri MadenciliğiDoç. Dr. Suat ÖzdemirVeri önişleme• Veri temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• Veri bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• Veri değiştirme– Veriyi daha anlaşılabilir bir halde ifade etme,normalizasyon• Veri azaltma– Veri bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.Veri MadenciliğiDoç. Dr. Suat Özdemir18

Veri bütünleştirme• Artık verileri ortadan kaldırma, veritabanlarınıbirleştirme– Schema bütünleştirme• Varlık tanımlama (entity identification) problem– Veritabanı 1 -> Cust_id– Veritabanı 2 -> Cust_number• Metadata kullanımı–Her niteliği tanımla–Artık/tekrarlı veri temizleme• Korelasyon analizi•Chi-squaretestVeri MadenciliğiDoç. Dr. Suat ÖzdemirKorelasyon Analizi• Correlation coefficient (also called Pearson’s productmoment coefficient)r A , B( A A)( B B)( AB) N A BN A BN A Bwhere n is the number of tuples, A and B are the respectivemeans of A and B, σ A and σ B are the respective standarddeviation of A and B, and Σ(AB) is the sum of the AB crossproduct.• If r A,B > 0, A and dB are positively correlated d(A’ (A’s valuesincrease as B’s). The higher, the stronger correlation.• r A,B = 0: independent; r A,B < 0: negatively correlatedVeri MadenciliğiDoç. Dr. Suat Özdemir19

Pearson’s product moment coefficient• r A,B değerlerinin anlamıCorrelation Negative PositiveNone −0.09 to 0.0 0.0 to 0.09Small −0.3 to −0.1 0.1 to 0.3Medium −0.5 to −0.3 0.3 to 0.5Strong −1.0 to −0.5 0.5 to 1.0Veri MadenciliğiDoç. Dr. Suat ÖzdemirKorelasyon Analizi - ÖrnekVeri MadenciliğiDoç. Dr. Suat Özdemir20

Chi-square Test• Ayrık / kategorik veri için korelasyon• Χ 2 (chi-square) test2 (Observed Expected) Expected• The larger the Χ 2 value, the more likely the variables arerelated• The cells that contribute the most to the Χ 2 value are thosewhose actual count is very different from the expected count• Correlation does not imply causality– # of hospitals and # of car-theft in a city are correlated– Both are causally linked to the third variable: population2Veri MadenciliğiDoç. Dr. Suat ÖzdemirChi-square Test - Örnekmale female Sum (row)fiction 250(90) 200(360) 450non-fiction 50(210) 1000(840) 1050Sum(col.) 300 1200 1500• Χ 2 (chi-square) calculation (numbers in parenthesis are expected countscalculated based on the data distribution in the two categories)22222 (250 90) (50 210) (200 360) (1000 840) 507.9390 210 360 840• Bu hipotezin yanlış olduğunu red etmek için– Bağımsızlık derecesi = (r-1)(c-1)=(2-1)(2-1)=1 ve belli bir önem derecesi için chisquaredağılımının kritik değer tablosuna bakılır– 0.001 önem değeri için 10.828• 10.828 < 507.93 olduğundan Cinsiyet ve okuma tercihi birbirlerindenbağımsız değil denir (çok kuvvetli bir ilişki vardır).Veri MadenciliğiDoç. Dr. Suat Özdemir21

Kritik değer tablosuVeri MadenciliğiDoç. Dr. Suat ÖzdemirVeri önişleme• Veri temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• Veri bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• Veri değiştirme– Veriyi daha anlaşılabilir bir halde ifade etme,normalizasyon• Veri azaltma– Veri bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.Veri MadenciliğiDoç. Dr. Suat Özdemir22

Veri değiştirme• Veriyi daha anlaşılabilir bir halde ifade etme,normalizasyon– Düzeltme (smoothing)– Birleştirme (aggregation)– Genelleme– Normalizasyon• Max-min normalizasyon• Z-score normalizasyon• Normalizasyon by decimal scaling– Nitelik oluşturmaVeri MadenciliğiDoç. Dr. Suat ÖzdemirVeri değiştirme• Min-max normalization: to [new_min A , new_max A ]v minAv ' ( new_maxA new_minA) new_minAmaxA minA– Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0].– Then $73,600 is mapped to 73,600 12,000(1.0 0) 0 0.71698,000 12,000v A• Z-score normalization (μ: mean, σ: standard deviation): v ' A– Ex. Let μ = 54,000, σ = 16,000. Then73,600 54,000 1.22516,000• Normalization by decimal scalingvv'10jWhere j is the smallest integer such that Max(|ν’|) < 1v’

Veri önişleme• Veri temizleme– Eksik veri tamamlama, hatalı verileri düzeltme, tutarsızverileri kaldırma• Veri bütünleştirme– Artık verileri ortadan kaldırma, veritabanlarını birleştirme• Veri değiştirme– Veriyi daha anlaşılabilir bir halde ifade etme,normalizasyon• Veri azaltma– Veri bütünleştirme, nitelik alt kümesi seçme, boyutküçültme, vb.Veri MadenciliğiDoç. Dr. Suat ÖzdemirVeri azaltma• Veri boyutunu düşür• Orijinal verinin özelliklerini koru• Boyut küçültmek için harcanan zaman verimadenciliği ğ yaparken kazanacağımız ğ zamanıgeçmemelidir• Bazı metotlar– Veri küpü birleştirme– Nitelik altkümesi seçme– Boyut azaltma– Numerosity reduction (Veriyi modellerle yada görselolarak ifade etme)–Ayrıştırma ve konsept hiyerarşisi geliştirmeVeri MadenciliğiDoç. Dr. Suat Özdemir24

Nitelik altkümesi seçme• Veriye ait tüm nitelikler yapılacak iş için önemliolmayabilir–Alışveriş eğiliminin belirlenmesi/müşterilerin telefonnumaraları– Tekrarlı/redundant l/ d nitelikler• Verinin dağılım özelliğini bozmadan veriyi ifadeedebilecek en küçük nitelik altkümesininseçilmesi• Sonuçta ortaya çıkan örüntü sayısı azaltılarakveri anlaşılması daha kolay hale getirilir• Veriyi i “iyi” i” şekilde ifade edecek nitelik altkümesinasıl bulunacak?Veri MadenciliğiDoç. Dr. Suat ÖzdemirNitelik altkümesi seçme• “İyi” ve “kötü” nitelikler bağımsızlık testleri, kararağaçları gibi yöntemlerle belirlenir• Bilgi kazancı vb.• n nitelik için 2 n altküme (exponential)• Sezgisel (heuristic) i metotlar :– İleri adım adım seçme (Step-wise forward selection)•Boş küme ile başlayıp en iyi nitelikler kümeye dahiledilir–Geri adım adım eleme (Step-wise backwardelimination)• Tüm nitelikler ile başlanıp, her basamakta en kötüolan(lar) elenir– İleri seçme ve geri elemenin birleştirilmesi– Karar ağacı çıkarma (Decision-tree induction)•Ağaç ortaya çıkarılır ağaç üzerinde görülmeyennitelikler kötü/önemsiz olarak nitelendirilir ve elenirVeri MadenciliğiDoç. Dr. Suat Özdemir25

Boyut azaltma (Dimentionality Reduction)• Kodlama (encoding) ve değiştirmeyle veriyi sıkıştırma– Wavelet transforms– Principle Component Analysis (PCA)Veri MadenciliğiDoç. Dr. Suat ÖzdemirNumerosity reduction• Veriyi modellerle yada görsel olarak daha küçükformlarda ifade etme–Eğri uydurma modelleri– Histogramlar– Demetleme–ÖrneklemeVeri MadenciliğiDoç. Dr. Suat Özdemir26

Regresyon Analizi• Bağımlı değişken ile bir veya dahaçok bağımsız değişken arasındakiilişkiyi incelemek amacıyla kullanılanbir analiz yöntemidir.• Regresyon analizi ile bağımlı vebağımsız değişkenler arasında birilişki var mıdır? Eğer bir ilişki varsabu ilişkinin gücü nedir? Değişkenlerarasında ne tür bir ilişki vardır? gibisorulara cevap aranmaya çalışılır.yY1Y1’X1y = x + 1xVeri MadenciliğiDoç. Dr. Suat ÖzdemirHistogramlar•Equ-width/Eşit genişlik•Equ-depth/Eşit derinlik•V optimal•(Barlar arasında en düşük varyans)•Olası bütün histogramlardan barlararasından en düşük varyansa sahipolanı seç•MaxDiff•(Veriler arasındaki en fazla fark edendeğer çiftleri sınırları belirler)•B kova sayısı•En yüksek B-1 tane farkı belirle vekovaları ayır403530252015105010000 30000 50000 70000 90000Veri MadenciliğiDoç. Dr. Suat Özdemir27

Demetleme / Kümeleme• Veri setini benzerliklerine göre demetlere ayırma• Sadece demeti ifade eden bilgiyi sakla– Merkez ve çap• Gruplu yapıya sahip veri setinde daha iyi sonuç verir• Hiyeraşik demetleme yapılabilir ve indeks ağaçları olarakifade edilebilirVeri MadenciliğiDoç. Dr. Suat ÖzdemirÖrnekleme• Tüm veri seti N’i temsil edecek küçük veri seti s’i seçmek• Basit metotların performansı iyi değil• Uyarlanabilir metotlar– Strafied örnekleme– Belli bir kurala göre sınıfla her sınıftan eşit sayıda örnek alVeri MadenciliğiDoç. Dr. Suat Özdemir28

Örnekleme çeşitleri• Simple random sampling– There is an equal probability of selecting any particularitem• Sampling without replacement– Once an object is selected, it is removed from thepopulation• Sampling with replacement– A selected object is not removed from the population• Stratified sampling:– Partition the data set, and draw samples from eachpartition (proportionally, i.e., approximately the samepercentage of the data)– Used in conjunction with skewed dataVeri MadenciliğiDoç. Dr. Suat ÖzdemirSampling: With or without ReplacementRaw DataVeri MadenciliğiDoç. Dr. Suat Özdemir29

Sampling: Cluster or Stratified SamplingRaw DataCluster/Stratified SampleVeri MadenciliğiDoç. Dr. Suat ÖzdemirAyrıştırma ve konsept hiyerarşisi geliştirme• Sayısal veri– Binning– Histogram analizi• Kategorik veri– Şema seviyesinde (kullanıcılar tarafından)• Cadde

V i M d iliÄi Veri MadenciliÄi

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

V i M d iliÄi Veri MadenciliÄi