29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

37<br />

Hình 3.3. Dữ liệu tổng hợp<br />

Phân cấp khái niệm có thể tồn tại ở mỗi thuộc tính, nó cho phép phân tích dữ liệu ở nhiều<br />

mức trừu tượng. Ví dụ, phân cấp chi nhánh cho phép các chi nhánh được nhóm lại theo thừng vùng<br />

dựa trên địa chỉ. Khối dữ liệu cho phép truy cập nhanh đến các dữ liệu đã tính toán, tống hợp do vậy<br />

nó khá phù hợp với các quá trình khái phá.<br />

Các khối dữ liệu được tạo ở mức trừu tượng thấp thường được gọi là cuboid. Các cuboid<br />

tương ứng với một tập thực thể nào đó ví dụ như người bán hàng, khách hàng. Các khối này cung<br />

cấp nhiều thông tin hữu dụng cho quá trình phân tích. Khối dữ liệu ở mức trừu tượng cao gọi là<br />

apex cuboid, trong hình 3.3 trên thể hiện dữ liệu bán hàng cho cả 3 năm, tất cả các loại mặt hàng và<br />

các chi nhánh. Khối dữ liệu được tạo từ nhiều mức trừu tượng thường được gọi là cuboids, do vậy<br />

khối dữ liệu thường được gọi bằng tên khác là lưới cuboids.<br />

b. Lựa chọn tập thuộc tính con<br />

Nguồn dữ liệu dùng phân tích có thể chứa hàng trăm thuộc tích, rất nhiều trong số đó có thể<br />

không cần cho việc phân tích hoặc chúng là dư thừa. Ví dụ nếu nhiệm vụ phân tích chỉ liên <strong>quan</strong><br />

đến việc phân loại khách hàng xem họ có hoặc không muốn mua một đĩa nhạc mới hay không. Khi<br />

đó thuộc tính điện thoại của khách hàng là không cần thiết khi so với các thuộc tính như độ tuổi, sở<br />

thích âm nhạc. Mặc dù vậy việc lựa chọn thuộc tính nào cần <strong>quan</strong> tâm là một việc khó khăn và mất<br />

thời gian đặt biệt khi các đặc tính của dữ liệu là không rõ ràng. Giữ các thuộc tình cần, bỏ các thuộc<br />

tính không hữ ích cũng sẽ có thể gây nhầm lẫn, và sai lệch kết quả của các thuật toàn <strong>khai</strong> phá dữ<br />

liệu.<br />

Phương pháp này rút gọn kích thước dữ liệu bằng cách loại bỏ các thuộc tính không hữu ích<br />

hoặc dư thừa (hoặc loại bỏ các chiều). Mục đích chính là tìm ra tập thuộc tính nhỏ nhất sao cho khi<br />

áp dụng các phương pháp <strong>khai</strong> phá dữ liệu thì kết quả thu được là gần sát nhất với kết quả khi sử<br />

dụng tất cả các thuộc tính.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!