29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

57<br />

Theo lý thuyết tập mờ, một phần tử thuộc vào một tập nào đó với một “mức độ thuộc”<br />

(membership value) nằm trong khoảng [0, 1]. Giá trị này được xác định dựa vào hàm thuộc<br />

(membership function) tương ứng với mỗi tập mờ. Bây giờ, chúng ta áp dụng khái niệm tập mờ vào<br />

việc rời rạc hoá dữ liệu để giải quyết một số vấn đề còn vướng mắc nêu trên.<br />

Đối với những thuộc tính hạng mục A (bao gồm cả thuộc tính nhị phân ) có các tập giá trị {V 1 , V 2 ,.<br />

. . , V k } và k không quá lớn thì gắn với mỗi giá trị V i một tập mờ A_Vi (A là tên thuộc tính) có<br />

hàm thuộc A-Vi xác định như sau:<br />

A-Vi = 1 (nếu x = V i )<br />

Và A-Vi = 1 (nếu x V i )<br />

Thực ra A_Vi giống như tập rõ vì giá trị hàm thuộc của nó chỉ là 0 hoặc 1.<br />

Trường hợp k quá lớn, chúng ta có thể chia và gán tập mờ cho từng khoảng.<br />

4.5.3.2. Các ưu điểm của áp dụng tập mờ để rời rạc hoá dữ liệu<br />

Ưu điểm thứ nhất: Giải quyết được vấn đề “điểm biên gãy” nhờ tập mờ có thể phân khoảng<br />

mịn hơn nhờ vào “độ trơn” của hàm thuộc.<br />

Ưu điểm thứ hai: Rời rạc hoá bằng phân khoảng đôi khi tạo ra số khoảng rất lớn và do đó số<br />

thuộc tính nhị phân cũng rất lớn. Còn khi sử dụng tập mờ thì số lượng tập mờ gắn với mỗi thuộc<br />

tính là không đáng kể. Ví dụ, áp dụng phân khoảng cho thuộc tính giờ bắt đầu gọi trong ngày chúng<br />

ta sẽ thu được 24 khoảng trong [0, 23] mỗi khoảng tương ứng cách nhau một giờ, còn khi áp dụng<br />

tập mờ thì ta chỉ cần hai tập mờ là giờ_thấp_điểm và giờ_cao_điểm.<br />

Ưu điểm thứ ba: Tập mờ cho phép chúng ta biểu diễn luật kết hợp dưới dạng tự nhiên hơn<br />

và gần gũi hơn với người sử dụng.<br />

Ưu điểm thứ tư: Giá trị thuộc tính sau khi rời rạc hoá (sau khi tính qua hàm phụ thuộc) biến<br />

thiên trong khoảng [0, 1] cho biết “mức độ thuộc” ít hay nhiều trong khi đó các thuộc tính nhị phân<br />

trước đây chỉ có một trong hai giá trị 0, 1.<br />

Điều này cho chúng ta khả năng ước lượng chính xác hơn “độ đóng góp” của các bản ghi<br />

trong cơ sở dữ liệu vào một tập phổ biến nào đó.<br />

Ưu điểm thứ năm: Các thuộc tính mặc dầu đã được mờ hoá, nhưng vẫn giữ nguyên được<br />

một số tính chất của thuộc tính nhị phân, do đó vẫn có thể áp dụng các thuật toán <strong>khai</strong> phá luật kết<br />

hợp nhị phân vào <strong>khai</strong> phá luật kết hợp mờ với một vài thay đổi. Ví dụ tính chất “ mọi tập con khác<br />

rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập không phổ biến đều là tập không<br />

phổ biến” vẫn còn đúng nếu chúng ta chon được phép toán T-norm (T-chuẩn) phù hợp.<br />

Một ưu điểm nữa đối với rời rạc hoá dựa vào tập mờ là nó có thể áp dụng tốt cho cả hai<br />

dạng cơ sở dữ liệu: cơ sở dữ liệu <strong>quan</strong> hệ (relation databases) và cơ sở dữ liệu dạng giao tác<br />

(transactional databases).<br />

4.5.4. Luật kết hợp trên hệ thông tin mờ (luật kết hợp mờ)<br />

4.5.4.1. Các định nghĩa hình thức trên hệ thông tin mờ

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!