Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
37<br />
Hình 3.3. Dữ liệu tổng hợp<br />
Phân cấp khái niệm có thể tồn tại ở mỗi thuộc tính, nó cho phép phân tích dữ liệu ở nhiều<br />
mức trừu tượng. Ví dụ, phân cấp chi nhánh cho phép các chi nhánh được nhóm lại theo thừng vùng<br />
dựa trên địa chỉ. Khối dữ liệu cho phép truy cập nhanh đến các dữ liệu đã tính toán, tống hợp do vậy<br />
nó khá phù hợp với các quá trình khái phá.<br />
Các khối dữ liệu được tạo ở mức trừu tượng thấp thường được gọi là cuboid. Các cuboid<br />
tương ứng với một tập thực thể nào đó ví dụ như người bán hàng, khách hàng. Các khối này cung<br />
cấp nhiều thông tin hữu dụng cho quá trình phân tích. Khối dữ liệu ở mức trừu tượng cao gọi là<br />
apex cuboid, trong hình 3.3 trên thể hiện dữ liệu bán hàng cho cả 3 năm, tất cả các loại mặt hàng và<br />
các chi nhánh. Khối dữ liệu được tạo từ nhiều mức trừu tượng thường được gọi là cuboids, do vậy<br />
khối dữ liệu thường được gọi bằng tên khác là lưới cuboids.<br />
b. Lựa chọn tập thuộc tính con<br />
Nguồn dữ liệu dùng phân tích có thể chứa hàng trăm thuộc tích, rất nhiều trong số đó có thể<br />
không cần cho việc phân tích hoặc chúng là dư thừa. Ví dụ nếu nhiệm vụ phân tích chỉ liên <strong>quan</strong><br />
đến việc phân loại khách hàng xem họ có hoặc không muốn mua một đĩa nhạc mới hay không. Khi<br />
đó thuộc tính điện thoại của khách hàng là không cần thiết khi so với các thuộc tính như độ tuổi, sở<br />
thích âm nhạc. Mặc dù vậy việc lựa chọn thuộc tính nào cần <strong>quan</strong> tâm là một việc khó khăn và mất<br />
thời gian đặt biệt khi các đặc tính của dữ liệu là không rõ ràng. Giữ các thuộc tình cần, bỏ các thuộc<br />
tính không hữ ích cũng sẽ có thể gây nhầm lẫn, và sai lệch kết quả của các thuật toàn <strong>khai</strong> phá dữ<br />
liệu.<br />
Phương pháp này rút gọn kích thước dữ liệu bằng cách loại bỏ các thuộc tính không hữu ích<br />
hoặc dư thừa (hoặc loại bỏ các chiều). Mục đích chính là tìm ra tập thuộc tính nhỏ nhất sao cho khi<br />
áp dụng các phương pháp <strong>khai</strong> phá dữ liệu thì kết quả thu được là gần sát nhất với kết quả khi sử<br />
dụng tất cả các thuộc tính.