05.11.2023 Views

Khai_pha_d_liu_data_mining

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- Một số ngi sẽ đảm nhiệm việc kiểm tra và gán các giá trị thuộc tính còn

thiếu, nhng đòi hỏi chi phí cao và rất tẻ nhạt.

- Gán giá trị tự động bi máy tính:

+ Gán giá trị mặc định

+ Gán giá trị trung bình ca thuộc tính đó.

+ Gán giá trị có thể xảy ra nhất – dựa theo phơng pháp xác suất.

d) Giải pháp khi dữ liệu cha nhiễu/lỗi

- Phân khoảng (binning): Sắp xếp dữ liệu và phân chia thành các khoảng

(bins) có tần số xuất hiện giá trị nh nhau. Sau đó, mỗi khoảng dữ liệu có thể đợc

biểu diễn bằng trung bình, trung vị, hoặc các giới hạn … ca các giá trị trong

khoảng đó.

- Hồi quy (regression): Gắn dữ liệu với một hàm hồi quy.

- Phân cụm (clustering): Phát hiện và loại bỏ các ngoại lai (sau khi đư xác

định các cụm).

- Kết hợp giữa máy tính và kiểm tra ca con ngi: Máy tính sẽ tự động phát

hiện ra các giá trị nghi ng. Các giá trị này sẽ đợc con ngi kiểm tra lại.

1.2.3. Tích hợp dữ liệu (data integration)

Tích hợp dữ liệu là quá trình trộn dữ liệu từ các nguồn khác nhau vào một

kho dữ liệu có sẵn cho quá trình khai phá dữ liệu.

Khi tích hợp cần xác định thực thể từ nhiều nguồn dữ liệu để tránh d thừa

dữ liệu. Ví dụ: Bill Clinton ≡œ B.Clinton.

Việc d thừa dữ liệu là thng xuyên xảy ra, khi tích hợp nhiều nguồn. Bi

cùng một thuộc tính (hay cùng một đối tợng) có thể mang các tên khác nhau trong

các nguồn (cơ s dữ liệu) khác nhau. Hay các dữ liệu suy ra đợc nh một thuộc

tính trong một bảng có thể đợc suy ra từ các thuộc tính trong bảng khác. Hay sự

trùng lắp các dữ liệu. Các thuộc tính d thừa có thể bị phát hiện bằng phân tích

tơng quan giữa chúng.

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!