Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
31<br />
- Khi làm mịn trung vị trong mỗi bin, các giá trị sẽ được thay thế bằng giá trị trung bình<br />
các giá trị có trong bin<br />
- Làm mịn biên: các giá trị nhỏ nhất và lớn nhất được xác định và dùng làm danh giới của<br />
bin. Các giá trị còn lại của bin sẽ được thay thế bằng một trong hai giá trị trên tùy thuộc vào độ lệch<br />
giữa giá trị ban đầu với các giá trị biên đó.<br />
Ví dụ, bin 1 có các giá trị 4, 8, 15 với giá trị trung bình là 9. Do vậy nếu làm mịn trung vị<br />
các giá trị ban đầu sẽ được thay thế bằng 9. Còn nếu làm mịn biên giá trị 8 ở gần giá trị 4 hơn nên<br />
nó được thay thế bằng 4.<br />
b. Hồi quy: Phương pháp thường dùng là hồi quy tuyến tính, để tìm ra được một mối <strong>quan</strong><br />
hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ đó một thuộc tính có thể dùng để dự đoán thuộc<br />
tính khác. Hồi quy tuyến tính đa điểm là một sự mở rộng của phương pháp trên, trong đó có nhiều<br />
hơn hai thuộc tính được xem xét, và các dữ liệu tính ra thuộc về một miền đa chiều.<br />
Hình 3.1. Phân cụm dữ liệu khách hàng dựa trên thông tin địa chỉ<br />
c. Nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm hay “cụm" trực <strong>quan</strong>.<br />
Các giá trị rơi ra bên ngoài các nhóm này sẽ được xem xét để làm mịn để đưa chúng<br />
3.3. Tích hợp và biến đổi dữ liệu<br />
3.3.1. Tích hợp dữ liệu<br />
Trong nhiều bài toán phân tích, chúng ta phải đồng ý rằng nguồn dữ liệu dùng để phân tích<br />
không thông nhất. Để có thể phân tích được, các dữ liệu này cần phải được tích hợp, kết hơp thành<br />
một kho dữ liệu thống nhất. Về dạng thức, các nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các<br />
cơ sở dữ liệu phổ dụng, các tập tin flat-file, các dữ liệu khối …. Vấn đề đặt ra là làm thế nào có thể<br />
tích hợp chúng mà vẫn đảm bảo tính tương đương của thông tin giữa các nguồn.