29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

40<br />

Chương 4: Luật kết hợp<br />

4.1. Khái niệm cơ bản<br />

Từ khi được giới thiệu từ năm 1993, bài toán <strong>khai</strong> thác luật kết hợp nhận được rất nhiều sự<br />

<strong>quan</strong> tâm của nhiều nhà khoa học. Ngày nay việc <strong>khai</strong> thác các luật như thế vẫn là một trong những<br />

phương pháp <strong>khai</strong> thác mẫu phổ biến nhất trong việc khám phá tri thức và <strong>khai</strong> thác dữ liệu (KDD:<br />

Knowledge Discovery and Data Mining).<br />

Mục đích chính của <strong>khai</strong> phá dữ liệu là các tri thức được kết xuất ra sẽ được sử dụng trong<br />

dự báo thông tin trợ giúp trong sản xuất kinh doanh và nghiên cứu khoa học.<br />

Trong hoạt động sản xuất kinh doanh, ví dụ kinh doanh các mặt hàng tại siêu thị, các nhà<br />

quản lý rất thích có được các thông tin mang tính thống kê như: “90% phụ nữ có xem máy màu đỏ<br />

và đeo đồng hồ Thuỵ Sỹ thì dùng nước hoa hiệu Chanel” hoặc “70% khách hàng là công nhân khi<br />

mua TV thường mua loại TV 21 inches”. Những thông tin như vậy rất hữu ích trong việc định<br />

hướng kinh doanh. Vậy vấn đề đặt ra là liệu có tìm được các luật như vậy bằng các công cụ <strong>khai</strong><br />

phá dữ liệu hay không Câu trả lời là hoàn oàn có thể. Đó chính là nhiệm vụ <strong>khai</strong> phá luật kết hợp.<br />

Giả sử chúng ta có một cơ sở dữ liệu D. Luật kết hợp cho biết phạm vi mà trong đó sự xuất<br />

hiện của tập các thuộc tính S nào đó trong các bản ghi của D sẽ kéo theo sự xuất hiện của một tập<br />

những thuộc tính khác U cũng trong những record đó. Mỗi luật kết hợp được đặc trưng bởi một cặp<br />

tỉ lệ (ration) hỗ trợ. Mỗi tỉ lệ hỗ trợ được biểu diễn bằng tỉ lệ % những bản ghi trong D chứa cả S và<br />

U.<br />

Vấn đề khám phá luật kết hợp được phát biểu như sau:<br />

• Cho trước tỉ lệ hỗ trợ (support ration) và độ tin cậy (confidence) <br />

• Đánh số tất cả các luật trong D có các giá trị tỉ lệ hỗ trợ và tin cậy lớn hơn và tương<br />

ứng.<br />

Ví dụ: D là CSDL mua bán và với = 40%, = 90%. Vấn đề phát hiện luật kết hợp KH được thực<br />

hiện như sau:<br />

• Liệt kê (đếm) tất cả những qui luật chỉ ra sự xuất hiện một số các mục sẽ kéo theo một<br />

số mục khác.<br />

• Chỉ xét những qui luật mà tỉ lệ hỗ trợ lớn hơn 40% và độ tin cậy lớn hơn 90%.<br />

Hay chúng ta hãy tưởng tượng, một công ty bán hàng qua mạng Internet. Các khách hàng<br />

được yêu cầu điền vào các mẫu bán hàng để công ty có được một CSDL về các yêu cầu của khách<br />

hàng. Giả sử công ty <strong>quan</strong> tâm đến mối <strong>quan</strong> hệ "tuổi, giới tính, nghề nghiệp => sản phẩm". Khi đó<br />

có thể có rất nhiều câu hỏi tương ứng với luật trên. Ví dụ: trong lứa tuổi nào thì những khách hàng

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!