Tá»ng quan vá» khai phÃ¡ dá»¯ liá»u - Äáº¡i há»c Duy TÃ¢n

More documents

Recommendations

Info

36 - Tổng hợp khối dữ liệu, trong đó các hành động tổng hợp được áp dụng trên dữ liệu để hình thành các khối. - Lựa chọn tập thuộc tính con, trong đó các thuộc tính không thích hợp, yếu hoặc dư thừa hay các chiều sẽ được loại bỏ - Rút gọn chiều, trong đó các cơ chế mã hóa sẽ rút gọn kích thước dữ liệu - Rút gọn số học, trong đó các dữ liệu sẽ được thay thế bằng các dữ liệu phụ nhỏ hơn nhưng cùng biểu diễn vấn đề. - Rời rạc và phân cấp khái niệm , trong đó cá giá trị của các thuộc tính được thay thế bằng các dải khái niệm ở mức cao hơn. Dạng thức rời rạc hóa dữ liệu sử dụng rút gọn số học thường rất hữu dụng cho việc tự động phát sinh các dải phân cấp khái niệm. Phương pháp này cho phép việc khai phá dữ liệu diễn ra ở các mức trừu tượng. a. Tổng hợp khối dữ liệu Hãy xem xét dữ liệu bán hàng của một đơn vị, các dữ liệu đó được tổ chức báo cáo theo hàng quý cho các năm từ 2008 đến 2010. Tuy nhiên việc khai phá dữ liệu lại quan tâm hơn đến các báo cáo bán hàng theo năm chứ không phải theo từng quý. Do đó các dữ liệu nên được tổng hợp thành báo cáo tổng về tình hình bán hàng theo năm hơn là theo quý. Hình 3.2. Dữ liệu bán hàng
37 Hình 3.3. Dữ liệu tổng hợp Phân cấp khái niệm có thể tồn tại ở mỗi thuộc tính, nó cho phép phân tích dữ liệu ở nhiều mức trừu tượng. Ví dụ, phân cấp chi nhánh cho phép các chi nhánh được nhóm lại theo thừng vùng dựa trên địa chỉ. Khối dữ liệu cho phép truy cập nhanh đến các dữ liệu đã tính toán, tống hợp do vậy nó khá phù hợp với các quá trình khái phá. Các khối dữ liệu được tạo ở mức trừu tượng thấp thường được gọi là cuboid. Các cuboid tương ứng với một tập thực thể nào đó ví dụ như người bán hàng, khách hàng. Các khối này cung cấp nhiều thông tin hữu dụng cho quá trình phân tích. Khối dữ liệu ở mức trừu tượng cao gọi là apex cuboid, trong hình 3.3 trên thể hiện dữ liệu bán hàng cho cả 3 năm, tất cả các loại mặt hàng và các chi nhánh. Khối dữ liệu được tạo từ nhiều mức trừu tượng thường được gọi là cuboids, do vậy khối dữ liệu thường được gọi bằng tên khác là lưới cuboids. b. Lựa chọn tập thuộc tính con Nguồn dữ liệu dùng phân tích có thể chứa hàng trăm thuộc tích, rất nhiều trong số đó có thể không cần cho việc phân tích hoặc chúng là dư thừa. Ví dụ nếu nhiệm vụ phân tích chỉ liên quan đến việc phân loại khách hàng xem họ có hoặc không muốn mua một đĩa nhạc mới hay không. Khi đó thuộc tính điện thoại của khách hàng là không cần thiết khi so với các thuộc tính như độ tuổi, sở thích âm nhạc. Mặc dù vậy việc lựa chọn thuộc tính nào cần quan tâm là một việc khó khăn và mất thời gian đặt biệt khi các đặc tính của dữ liệu là không rõ ràng. Giữ các thuộc tình cần, bỏ các thuộc tính không hữ ích cũng sẽ có thể gây nhầm lẫn, và sai lệch kết quả của các thuật toàn khai phá dữ liệu. Phương pháp này rút gọn kích thước dữ liệu bằng cách loại bỏ các thuộc tính không hữu ích hoặc dư thừa (hoặc loại bỏ các chiều). Mục đích chính là tìm ra tập thuộc tính nhỏ nhất sao cho khi áp dụng các phương pháp khai phá dữ liệu thì kết quả thu được là gần sát nhất với kết quả khi sử dụng tất cả các thuộc tính.
Page 1 and 2: TRƢỜNG ĐẠI HỌC HÀNG HẢI
Page 3 and 4: 3 Tên học phần: Khai phá dữ
Page 5 and 6: 5 Chương 1. Tổng quan về kho
Page 7 and 8: 7 là dữ liệu tác nghiệp và
Page 9 and 10: 9 Tính tích hợp thể hiện
Page 11 and 12: 11 DW thông thường chứa các
Page 13 and 14: 13 Chương 2: Tổng quan về kha
Page 15 and 16: 15 Hình 2.1. Quy trình phát hi
Page 17 and 18: 17 hiện theo luật có dạng sa
Page 19 and 20: 19 chuẩn đánh giá mô hình v
Page 21 and 22: 21 Cho một lược đồ R={A 1 ,
Page 23 and 24: 23 Khai phá dữ liệu rất khá
Page 25 and 26: 25 là hằng số, một số khá
Page 27 and 28: 27 3. Trình bày các nét khác n
Page 29 and 30: - Tích hợp dữ liệu; - Biến
Page 31 and 32: 31 - Khi làm mịn trung vị tron
Page 33 and 34: 33 này thực sự không có quan
Page 35: 35 Thực hiện một biến đổ
Page 39 and 40: 39 Bài tập: 1. Nếu một thu
Page 41 and 42: 41 nữ là công nhân đặt mua
Page 43 and 44: 43 này, các nhà nghiên cứu đ
Page 45 and 46: Với giá trị độ hỗ trợ t
Page 47 and 48: 47 Tính card( B (S)) Cho S = {s 1
Page 49 and 50: 49 4.4.3. Ví dụ minh hoạ Cho h
Page 51 and 52: Cuối cùng ta có L B,3 = {d 2 ,
Page 53 and 54: 0 2 x a 2. c a ( x; a, b,
Page 55 and 56: 2) x) Min{ A(x), B (x)} nÕu M
Page 57 and 58: 57 Theo lý thuyết tập mờ, m
Page 59 and 60: 59 Cho V F (d 1 ) = (d 11 ,...,d 1n
Page 61 and 62: 61 hợp mờ có độ tin cậy l
Page 63 and 64: 63 7. for ( ứng cử c C t ) 8.
Page 65 and 66: 65 4.5.5.3. Ví dụ minh hoạ thu
Page 67 and 68: THỰC HÀNH: 67 2. Nếu các tậ
Page 69 and 70: 69 Hình 5.1. Quá trình học Hì
Page 71 and 72: 71 5. Trả về N thành một nú
Page 73 and 74: MỘT SỐ ĐỀ THI MẪU 73
Page 75 and 76: Trƣờng Đại Học Hàng Hải
Page 77 and 78: Trƣờng Đại Học Hàng Hải

Tá»ng quan vá» khai phÃ¡ dá»¯ liá»u - Äáº¡i há»c Duy TÃ¢n

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

Tá»ng quan vá» khai phÃ¡ dá»¯ liá»u - Äáº¡i há»c Duy TÃ¢n