29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

30<br />

- Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu: Ví dụ, ta biết thu nhập<br />

bình quân đầu người của một khu vực lầ 800.000đ, giá trị này có thể được dùng thể thay thế cho giá<br />

trị thu nhập bị thiếu của khách hàng trong khu vực đó.<br />

- Sử dụng các giá trị của các bộ cùng thể loại để thay thế cho giá trị thiếu: Ví dụ, nếu khách<br />

hàng A thuộc cùng nhóm phân loại theo rủi ro tín dụng với một khách hàng B khác trong khi đó<br />

khách hàng này có thông tin thu nhập bình quân. Ta có thể sử dụng giá trị đó để điền vào cho giá trị<br />

thu nhập bình quân của khách hàng A .<br />

- Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu.: Điều này có thể xác<br />

định bằng phương pháp hồi quy, các công cụ suy luận dựa trên lý thuyết Bayersian hay cây quyết<br />

định<br />

3.2.2. Dữ liệu nhiễu<br />

Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực<br />

hiện, hoặc sự ghi chép nhầm lẫn ko được kiểm soát… Ví dụ cho thuộc tính như giá cá, làm cách<br />

nào để có thể làm mịn thuộc tính này để loại bỏ dữ liệu nhiễu. Hãy xem xét các kỹ thuật làm mịn<br />

sau:<br />

Mảng lƣu giá các mặt hàng: 4, 8, 15, 21, 21, 24, 25, 28, 34<br />

Phân thành các bin<br />

Bin 1: 4, 8 , 15<br />

Bin 2: 21, 21, 24<br />

Bin 3: 25, 28, 34<br />

Làm mịn sử dụng phƣơng pháp trung vị<br />

Bin 1: 9, 9 ,9<br />

Bin 2: 22, 22, 22<br />

Bin 3: 29, 29, 29<br />

Làm mịn biên<br />

Bin 1: 4, 4, 15<br />

Bin 2: 21, 21, 24<br />

Bin 3: 25, 25, 34<br />

Bảng 3.1. Ví dụ về phƣơng pháp làm mịn Binning<br />

a. Binning: Làm mịn một giá trị dữ liệu được xác định thông qua các giá trị xung <strong>quan</strong>h nó.<br />

Ví dụ, các giá trị giá cả được sắp xếp trước sau đó phân thành các dải khác nhau có cùng kích thước<br />

3 (tức mỗi “Bin” chứa 3 giá trị).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!