Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
57<br />
Theo lý thuyết tập mờ, một phần tử thuộc vào một tập nào đó với một “mức độ thuộc”<br />
(membership value) nằm trong khoảng [0, 1]. Giá trị này được xác định dựa vào hàm thuộc<br />
(membership function) tương ứng với mỗi tập mờ. Bây giờ, chúng ta áp dụng khái niệm tập mờ vào<br />
việc rời rạc hoá dữ liệu để giải quyết một số vấn đề còn vướng mắc nêu trên.<br />
Đối với những thuộc tính hạng mục A (bao gồm cả thuộc tính nhị phân ) có các tập giá trị {V 1 , V 2 ,.<br />
. . , V k } và k không quá lớn thì gắn với mỗi giá trị V i một tập mờ A_Vi (A là tên thuộc tính) có<br />
hàm thuộc A-Vi xác định như sau:<br />
A-Vi = 1 (nếu x = V i )<br />
Và A-Vi = 1 (nếu x V i )<br />
Thực ra A_Vi giống như tập rõ vì giá trị hàm thuộc của nó chỉ là 0 hoặc 1.<br />
Trường hợp k quá lớn, chúng ta có thể chia và gán tập mờ cho từng khoảng.<br />
4.5.3.2. Các ưu điểm của áp dụng tập mờ để rời rạc hoá dữ liệu<br />
Ưu điểm thứ nhất: Giải quyết được vấn đề “điểm biên gãy” nhờ tập mờ có thể phân khoảng<br />
mịn hơn nhờ vào “độ trơn” của hàm thuộc.<br />
Ưu điểm thứ hai: Rời rạc hoá bằng phân khoảng đôi khi tạo ra số khoảng rất lớn và do đó số<br />
thuộc tính nhị phân cũng rất lớn. Còn khi sử dụng tập mờ thì số lượng tập mờ gắn với mỗi thuộc<br />
tính là không đáng kể. Ví dụ, áp dụng phân khoảng cho thuộc tính giờ bắt đầu gọi trong ngày chúng<br />
ta sẽ thu được 24 khoảng trong [0, 23] mỗi khoảng tương ứng cách nhau một giờ, còn khi áp dụng<br />
tập mờ thì ta chỉ cần hai tập mờ là giờ_thấp_điểm và giờ_cao_điểm.<br />
Ưu điểm thứ ba: Tập mờ cho phép chúng ta biểu diễn luật kết hợp dưới dạng tự nhiên hơn<br />
và gần gũi hơn với người sử dụng.<br />
Ưu điểm thứ tư: Giá trị thuộc tính sau khi rời rạc hoá (sau khi tính qua hàm phụ thuộc) biến<br />
thiên trong khoảng [0, 1] cho biết “mức độ thuộc” ít hay nhiều trong khi đó các thuộc tính nhị phân<br />
trước đây chỉ có một trong hai giá trị 0, 1.<br />
Điều này cho chúng ta khả năng ước lượng chính xác hơn “độ đóng góp” của các bản ghi<br />
trong cơ sở dữ liệu vào một tập phổ biến nào đó.<br />
Ưu điểm thứ năm: Các thuộc tính mặc dầu đã được mờ hoá, nhưng vẫn giữ nguyên được<br />
một số tính chất của thuộc tính nhị phân, do đó vẫn có thể áp dụng các thuật toán <strong>khai</strong> phá luật kết<br />
hợp nhị phân vào <strong>khai</strong> phá luật kết hợp mờ với một vài thay đổi. Ví dụ tính chất “ mọi tập con khác<br />
rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập không phổ biến đều là tập không<br />
phổ biến” vẫn còn đúng nếu chúng ta chon được phép toán T-norm (T-chuẩn) phù hợp.<br />
Một ưu điểm nữa đối với rời rạc hoá dựa vào tập mờ là nó có thể áp dụng tốt cho cả hai<br />
dạng cơ sở dữ liệu: cơ sở dữ liệu <strong>quan</strong> hệ (relation databases) và cơ sở dữ liệu dạng giao tác<br />
(transactional databases).<br />
4.5.4. Luật kết hợp trên hệ thông tin mờ (luật kết hợp mờ)<br />
4.5.4.1. Các định nghĩa hình thức trên hệ thông tin mờ