29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

31<br />

- Khi làm mịn trung vị trong mỗi bin, các giá trị sẽ được thay thế bằng giá trị trung bình<br />

các giá trị có trong bin<br />

- Làm mịn biên: các giá trị nhỏ nhất và lớn nhất được xác định và dùng làm danh giới của<br />

bin. Các giá trị còn lại của bin sẽ được thay thế bằng một trong hai giá trị trên tùy thuộc vào độ lệch<br />

giữa giá trị ban đầu với các giá trị biên đó.<br />

Ví dụ, bin 1 có các giá trị 4, 8, 15 với giá trị trung bình là 9. Do vậy nếu làm mịn trung vị<br />

các giá trị ban đầu sẽ được thay thế bằng 9. Còn nếu làm mịn biên giá trị 8 ở gần giá trị 4 hơn nên<br />

nó được thay thế bằng 4.<br />

b. Hồi quy: Phương pháp thường dùng là hồi quy tuyến tính, để tìm ra được một mối <strong>quan</strong><br />

hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ đó một thuộc tính có thể dùng để dự đoán thuộc<br />

tính khác. Hồi quy tuyến tính đa điểm là một sự mở rộng của phương pháp trên, trong đó có nhiều<br />

hơn hai thuộc tính được xem xét, và các dữ liệu tính ra thuộc về một miền đa chiều.<br />

Hình 3.1. Phân cụm dữ liệu khách hàng dựa trên thông tin địa chỉ<br />

c. Nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm hay “cụm" trực <strong>quan</strong>.<br />

Các giá trị rơi ra bên ngoài các nhóm này sẽ được xem xét để làm mịn để đưa chúng<br />

3.3. Tích hợp và biến đổi dữ liệu<br />

3.3.1. Tích hợp dữ liệu<br />

Trong nhiều bài toán phân tích, chúng ta phải đồng ý rằng nguồn dữ liệu dùng để phân tích<br />

không thông nhất. Để có thể phân tích được, các dữ liệu này cần phải được tích hợp, kết hơp thành<br />

một kho dữ liệu thống nhất. Về dạng thức, các nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các<br />

cơ sở dữ liệu phổ dụng, các tập tin flat-file, các dữ liệu khối …. Vấn đề đặt ra là làm thế nào có thể<br />

tích hợp chúng mà vẫn đảm bảo tính tương đương của thông tin giữa các nguồn.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!