Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
40<br />
Chương 4: Luật kết hợp<br />
4.1. Khái niệm cơ bản<br />
Từ khi được giới thiệu từ năm 1993, bài toán <strong>khai</strong> thác luật kết hợp nhận được rất nhiều sự<br />
<strong>quan</strong> tâm của nhiều nhà khoa học. Ngày nay việc <strong>khai</strong> thác các luật như thế vẫn là một trong những<br />
phương pháp <strong>khai</strong> thác mẫu phổ biến nhất trong việc khám phá tri thức và <strong>khai</strong> thác dữ liệu (KDD:<br />
Knowledge Discovery and Data Mining).<br />
Mục đích chính của <strong>khai</strong> phá dữ liệu là các tri thức được kết xuất ra sẽ được sử dụng trong<br />
dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa học.<br />
Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà<br />
quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xem máy màu đỏ<br />
và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi<br />
mua TV thường mua loại TV 21 inches”. Những thông tin như vậy rất hữu ích trong việc định<br />
hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ <strong>khai</strong><br />
phá dữ liệu hay không Câu trả lời là hoàn oàn có thể. Đó chính là nhiệm vụ <strong>khai</strong> phá luật kết hợp.<br />
Giả sử chúng ta có một cơ sở dữ liệu D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất<br />
hiện của tập các thuộc tính S nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập<br />
những thuộc tính khác U cũng trong những record đó. Mỗi luật kết hợp được đặc trưng bởi một cặp<br />
tỉ lệ (ration) hỗ trợ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả S và<br />
U.<br />
Vấn đề khám phá luật kết hợp được phát biểu như sau:<br />
• Cho trước tỉ lệ hỗ trợ (support ration) và độ tin cậy (confidence) <br />
• Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn và tương<br />
ứng.<br />
Ví dụ: D là CSDL mua bán và với = 40%, = 90%. Vấn đề phát hiện luật kết hợp KH được thực<br />
hiện như sau:<br />
• Liệt kê (đếm) tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một<br />
số mục khác.<br />
• Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%.<br />
Hay chúng ta hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng<br />
được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách<br />
hàng. Giả sử công ty <strong>quan</strong> tâm đến mối <strong>quan</strong> hệ "tuổi, giới tính, nghề nghiệp => sản phẩm". Khi đó<br />
có thể có rất nhiều câu hỏi tương ứng với luật trên. Ví dụ: trong lứa tuổi nào thì những khách hàng