29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- Tích hợp dữ liệu;<br />

- Biến đổi dữ liệu;<br />

- Rút gọn dữ liệu.<br />

29<br />

3.2. Làm sạch dữ liệu<br />

3.2.1. Thiếu giá trị<br />

Hãy xem xét một kho dữ liệu bán hàng và quản lý khách hàng. Trong đó có thể có một hoặc<br />

nhiều giá trị mà khó có thể thu thập được ví dụ như thu nhập của khách hàng. Vậy làm cách nào để<br />

chúng ta có được các thông tin đó, hãy xem xét các phương pháp sau.<br />

- Bỏ qua các bộ: Điều này thường được thực hiện khi thông tin nhãn dữ liệu bị mất. Phương<br />

pháp này không phải lúc nào cũng hiệu quả trừ khi các bộ có chứa một số thuộc tính không thực sự<br />

<strong>quan</strong> trọng.<br />

- Điền vào các giá trị thiếu bằng tay: Phương pháp này thường tốn thời gian và có thể không<br />

khả thi cho một tập dữ liệu nguồn lớn với nhiều giá trị bị thiếu.<br />

- Sử dụng các giá trị quy ước để điền vào cho giá trị thiệu: Thay thế các giá trị thuộc tính<br />

thiếu bởi cùng một hằng số quy ước, chẳng hạn như một nhãn ghi giá trị “Không biết” hoặc “∞”.<br />

Tuy vậy điều này cũng có thể khiến cho chương trình <strong>khai</strong> phá dữ liệu hiểu nhầm trong một số<br />

trường hợp và đưa ra các kết luận không hợp lý.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!