Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
- Tích hợp dữ liệu;<br />
- Biến đổi dữ liệu;<br />
- Rút gọn dữ liệu.<br />
29<br />
3.2. Làm sạch dữ liệu<br />
3.2.1. Thiếu giá trị<br />
Hãy xem xét một kho dữ liệu bán hàng và quản lý khách hàng. Trong đó có thể có một hoặc<br />
nhiều giá trị mà khó có thể thu thập được ví dụ như thu nhập của khách hàng. Vậy làm cách nào để<br />
chúng ta có được các thông tin đó, hãy xem xét các phương pháp sau.<br />
- Bỏ qua các bộ: Điều này thường được thực hiện khi thông tin nhãn dữ liệu bị mất. Phương<br />
pháp này không phải lúc nào cũng hiệu quả trừ khi các bộ có chứa một số thuộc tính không thực sự<br />
<strong>quan</strong> trọng.<br />
- Điền vào các giá trị thiếu bằng tay: Phương pháp này thường tốn thời gian và có thể không<br />
khả thi cho một tập dữ liệu nguồn lớn với nhiều giá trị bị thiếu.<br />
- Sử dụng các giá trị quy ước để điền vào cho giá trị thiệu: Thay thế các giá trị thuộc tính<br />
thiếu bởi cùng một hằng số quy ước, chẳng hạn như một nhãn ghi giá trị “Không biết” hoặc “∞”.<br />
Tuy vậy điều này cũng có thể khiến cho chương trình <strong>khai</strong> phá dữ liệu hiểu nhầm trong một số<br />
trường hợp và đưa ra các kết luận không hợp lý.