Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
43<br />
này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hoá nhằm chuyển dạng luật này<br />
về dạng nhị phân để có thể áp dụng các thuật toán đã có. Một ví dụ về dạng luật này “phương thức<br />
gọi = „Tự động‟ AND giờ gọi IN [„23:00:39.. 23:00:59‟] AND Thời gian đàm thoại IN [„200.. 300‟]<br />
=> gọi liên tỉnh =‟có‟ , với độ hỗ trợ là 23. 53% , và độ tin cậy là 80%”.<br />
Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set) : Tìm<br />
kiếm luật kết hợp dựa trên lý thuyết tập thô.<br />
Luật kết nhiều mức (multi-level association rule) : Với cách tiếp cận theo luật này sẽ tìm<br />
kiếm thêm những luật có dạng “ mua máy tính PC => mua hệ điều hành AND mua phần mềm tiện<br />
ích văn phòng, …” thay vì chỉ những luật quá cụ thể như “mua máy tính IBM PC => mua hệ điều<br />
hành Microsoft Windows AND mua phần mềm tiện ích văn phòng Microsoft Office, …”. Như vậy<br />
dạng luật đầu là dạng luật tổng quát hoá của dạng luật sau và tổng quát theo nhiều mức khác nhau.<br />
Luật kết hợp mờ (fuzzy association rule) : Với những hạn chế còn gặp phải trong quá trình<br />
rời rạc hoá các thuộc tính số (<strong>quan</strong>titave attributes), các nhà nghiên cứu đã đề xuất luật kết hợp mờ<br />
nhằm khắc phục các hạn chế trên và chuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với<br />
người sử dụng một ví dụ của dạng này là : “thuê bao tư nhân = ‘yes’ AND thời gian đàm thoại lớn<br />
AND cước nội tỉnh = ‘yes’ => cước không hợp lệ = ‘yes’, với độ hỗ trợ 4% và độ tin cậy 85%”.<br />
Trong luật trên, điều kiện thời gian đàm thoại lớn ở vế trái của luật là một thuộc tính đã được mờ<br />
hoá.<br />
Luật kết với thuộc tính được đánh trọng số (association rule with weighted items) : Trong<br />
thực tế, các thuộc tính trong cơ sở dữ liệu không phải lúc nào cũng có vai trò như nhau. Có một số<br />
thuộc tính được chú trọng hơn và có mức độ <strong>quan</strong> trọng cao hơn các thuộc tính khác. Ví dụ khi<br />
khảo sát về doanh thu hàng tháng, thông tin về thời gian đàm thoại, vùng cước là <strong>quan</strong> trọng hơn<br />
nhiều so với thông tin về phương thức gọi... Trong quá trình tìm kiếm luật, chúng ta sẽ gán thời<br />
gian gọi, vùng cước các trọng số lớn hơn thuộc tính phương thức gọi. Đây là hướng nghiên cứu rất<br />
thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này. Với luật kết hợp có<br />
thuộc tính được đánh trọng số, chúng ta sẽ <strong>khai</strong> thác được những luật “hiếm” (tức là có độ hỗ trợ<br />
thấp, nhưng có ý nghĩa đặc biệt hoặc mang rất nhiều ý nghĩa).<br />
Khai thác Luật kết hợp song song (parallel mining of association rules): Bên cạnh <strong>khai</strong> thác<br />
luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vào nghiên cứu các thuật giải song song cho<br />
quá trình phát hiện luật kết hợp. Nhu cầu song song hoá và xử lý phân tán là cần thiết bởi kích<br />
thước dữ liệu ngày càng lớn hơn nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ của hệ thống<br />
phải được đảm bảo. Có rất nhiều thuật toán song song khác nhau đã đề xuất để có thể không phụ<br />
thuộc vào phần cứng.<br />
Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhà nghiên cứu còn chú<br />
trọng đề xuất những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ cơ sở dữ liệu.