29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

43<br />

này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hoá nhằm chuyển dạng luật này<br />

về dạng nhị phân để có thể áp dụng các thuật toán đã có. Một ví dụ về dạng luật này “phương thức<br />

gọi = „Tự động‟ AND giờ gọi IN [„23:00:39.. 23:00:59‟] AND Thời gian đàm thoại IN [„200.. 300‟]<br />

=> gọi liên tỉnh =‟có‟ , với độ hỗ trợ là 23. 53% , và độ tin cậy là 80%”.<br />

Luật kết hợp tiếp cận theo hướng tập thô (mining association rules base on rough set) : Tìm<br />

kiếm luật kết hợp dựa trên lý thuyết tập thô.<br />

Luật kết nhiều mức (multi-level association rule) : Với cách tiếp cận theo luật này sẽ tìm<br />

kiếm thêm những luật có dạng “ mua máy tính PC => mua hệ điều hành AND mua phần mềm tiện<br />

ích văn phòng, …” thay vì chỉ những luật quá cụ thể như “mua máy tính IBM PC => mua hệ điều<br />

hành Microsoft Windows AND mua phần mềm tiện ích văn phòng Microsoft Office, …”. Như vậy<br />

dạng luật đầu là dạng luật tổng quát hoá của dạng luật sau và tổng quát theo nhiều mức khác nhau.<br />

Luật kết hợp mờ (fuzzy association rule) : Với những hạn chế còn gặp phải trong quá trình<br />

rời rạc hoá các thuộc tính số (<strong>quan</strong>titave attributes), các nhà nghiên cứu đã đề xuất luật kết hợp mờ<br />

nhằm khắc phục các hạn chế trên và chuyển luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với<br />

người sử dụng một ví dụ của dạng này là : “thuê bao tư nhân = ‘yes’ AND thời gian đàm thoại lớn<br />

AND cước nội tỉnh = ‘yes’ => cước không hợp lệ = ‘yes’, với độ hỗ trợ 4% và độ tin cậy 85%”.<br />

Trong luật trên, điều kiện thời gian đàm thoại lớn ở vế trái của luật là một thuộc tính đã được mờ<br />

hoá.<br />

Luật kết với thuộc tính được đánh trọng số (association rule with weighted items) : Trong<br />

thực tế, các thuộc tính trong cơ sở dữ liệu không phải lúc nào cũng có vai trò như nhau. Có một số<br />

thuộc tính được chú trọng hơn và có mức độ <strong>quan</strong> trọng cao hơn các thuộc tính khác. Ví dụ khi<br />

khảo sát về doanh thu hàng tháng, thông tin về thời gian đàm thoại, vùng cước là <strong>quan</strong> trọng hơn<br />

nhiều so với thông tin về phương thức gọi... Trong quá trình tìm kiếm luật, chúng ta sẽ gán thời<br />

gian gọi, vùng cước các trọng số lớn hơn thuộc tính phương thức gọi. Đây là hướng nghiên cứu rất<br />

thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này. Với luật kết hợp có<br />

thuộc tính được đánh trọng số, chúng ta sẽ <strong>khai</strong> thác được những luật “hiếm” (tức là có độ hỗ trợ<br />

thấp, nhưng có ý nghĩa đặc biệt hoặc mang rất nhiều ý nghĩa).<br />

Khai thác Luật kết hợp song song (parallel mining of association rules): Bên cạnh <strong>khai</strong> thác<br />

luật kết hợp tuần tự, các nhà làm tin học cũng tập trung vào nghiên cứu các thuật giải song song cho<br />

quá trình phát hiện luật kết hợp. Nhu cầu song song hoá và xử lý phân tán là cần thiết bởi kích<br />

thước dữ liệu ngày càng lớn hơn nên đòi hỏi tốc độ xử lý cũng như dung lượng bộ nhớ của hệ thống<br />

phải được đảm bảo. Có rất nhiều thuật toán song song khác nhau đã đề xuất để có thể không phụ<br />

thuộc vào phần cứng.<br />

Bên cạnh những nghiên cứu về những biến thể của luật kết hợp, các nhà nghiên cứu còn chú<br />

trọng đề xuất những thuật toán nhằm tăng tốc quá trình tìm kiếm tập phổ biến từ cơ sở dữ liệu.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!