Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
30<br />
- Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu: Ví dụ, ta biết thu nhập<br />
bình quân đầu người của một khu vực lầ 800.000đ, giá trị này có thể được dùng thể thay thế cho giá<br />
trị thu nhập bị thiếu của khách hàng trong khu vực đó.<br />
- Sử dụng các giá trị của các bộ cùng thể loại để thay thế cho giá trị thiếu: Ví dụ, nếu khách<br />
hàng A thuộc cùng nhóm phân loại theo rủi ro tín dụng với một khách hàng B khác trong khi đó<br />
khách hàng này có thông tin thu nhập bình quân. Ta có thể sử dụng giá trị đó để điền vào cho giá trị<br />
thu nhập bình quân của khách hàng A .<br />
- Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu.: Điều này có thể xác<br />
định bằng phương pháp hồi quy, các công cụ suy luận dựa trên lý thuyết Bayersian hay cây quyết<br />
định<br />
3.2.2. Dữ liệu nhiễu<br />
Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực<br />
hiện, hoặc sự ghi chép nhầm lẫn ko được kiểm soát… Ví dụ cho thuộc tính như giá cá, làm cách<br />
nào để có thể làm mịn thuộc tính này để loại bỏ dữ liệu nhiễu. Hãy xem xét các kỹ thuật làm mịn<br />
sau:<br />
Mảng lƣu giá các mặt hàng: 4, 8, 15, 21, 21, 24, 25, 28, 34<br />
Phân thành các bin<br />
Bin 1: 4, 8 , 15<br />
Bin 2: 21, 21, 24<br />
Bin 3: 25, 28, 34<br />
Làm mịn sử dụng phƣơng pháp trung vị<br />
Bin 1: 9, 9 ,9<br />
Bin 2: 22, 22, 22<br />
Bin 3: 29, 29, 29<br />
Làm mịn biên<br />
Bin 1: 4, 4, 15<br />
Bin 2: 21, 21, 24<br />
Bin 3: 25, 25, 34<br />
Bảng 3.1. Ví dụ về phƣơng pháp làm mịn Binning<br />
a. Binning: Làm mịn một giá trị dữ liệu được xác định thông qua các giá trị xung <strong>quan</strong>h nó.<br />
Ví dụ, các giá trị giá cả được sắp xếp trước sau đó phân thành các dải khác nhau có cùng kích thước<br />
3 (tức mỗi “Bin” chứa 3 giá trị).