29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

17<br />

hiện theo luật có dạng sau: “Nếu một mục thuộc về lớp đã chỉ trong tiền đề thì mục đó có tất cả<br />

các thuộc tính đã nêu trong kết luận”. Lưu ý rằng luật dạng này có các khác biệt so với luật phân<br />

lớp. Luật phát hiện đặc trưng cho lớp chỉ sản sinh khi các mục đã thuộc về lớp đó.<br />

2.4.5. Mô hình hoá sự phụ thuộc (dependency modeling)<br />

Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức:<br />

Mức cấu trúc của mô hình mô tả (thường dưới dạng đồ thị). Trong đó, các biến phụ thuộc bộ phận<br />

vào các biến khác. Mức định lượng mô hình mô tả mức độ phụ thuộc. Những phụ thuộc này thường<br />

được biểu thị dưới dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì kết luận đúng). Về nguyên tắc,<br />

cả tiền đề và kết luận đều có thể là sự kết hợp logic của các giá trị thuộc tính. Trên thực tế, tiền đề<br />

thường là nhóm các giá trị thuộc tính và kết luận chỉ là một thuộc tính. Hơn nữa hệ thống có thể<br />

phát hiện các luật phân lớp trong đó tất cả các luật cần phải có cùng một thuộc tính do người dùng<br />

chỉ ra trong kết luận.<br />

Quan hệ phụ thuộc cũng có thể biểu diễn dưới dạng mạng tin cậy Bayes. Đó là đồ thị có<br />

hướng, không chu trình. Các nút biểu diễn thuộc tính và trọng số của liên kết phụ thuộc giữa các nút<br />

đó.<br />

2.4.6. Phát hiện sự biến đổi và độ lệch (change and deviation dectection)<br />

Nhiệm vụ này tập trung vào khám phá hầu hết sự thay đổi có nghĩa dưới dạng độ đo đã biết<br />

trước hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội<br />

dung mong đợi. Hai mô hình độ lệch hay dùng là lệch theo thời gian hay lệch theo nhóm. Độ lệch<br />

theo thời gian là sự thay đổi có ý nghĩa của dữ liệu theo thời gian. Độ lệch theo nhóm là sự khác<br />

nhau của giữa dữ liệu trong hai tập con dữ liệu, ở đây tính cả trường hợp tập con dữ liệu này thuộc<br />

tập con kia, nghĩa xác định dữ liệu trong một nhóm con của đối tượng có khác đáng kể so với toàn<br />

bộ đối tượng không Theo cách này, sai sót dữ liệu hay sai lệch so với giá trị thông thường được<br />

phát hiện.<br />

Vì những nhiệm vụ này yêu cầu số lượng và các dạng thông tin rất khác nhau nên chúng<br />

thường ảnh hưởng đến việc thiết kế và chọn phương pháp <strong>khai</strong> phá dữ liệu khác nhau. Ví dụ như<br />

phương pháp cây quyết định (sẽ được trình bày dưới đây) tạo ra được một mô tả phân biệt được các<br />

mẫu giữa các lớp nhưng không có tính chất và đặc điểm của lớp.<br />

2.5. Các phƣơng pháp <strong>khai</strong> phá dữ liệu<br />

Khai phá dữ liệu là lĩnh vực mà con người luôn tìm cách đạt được mực đích sử dụng thông<br />

tin của mình. Quá trình <strong>khai</strong> phá dữ liệu là quá trình phát hiện mẫu, trong đó phương pháp <strong>khai</strong> phá<br />

dữ liệu để tìm kiếm các mẫu đáng <strong>quan</strong> tâm theo dạng xác định. Có thể kể ra đây một vài phương<br />

pháp như: sử dụng công cụ truy vấn, xây dựng cây quyết định, dựa theo khoảng cách (K-láng giềng<br />

gần), giá trị trung bình, phát hiện luật kết hợp, … Các phương pháp trên có thể được phỏng theo và<br />

được tích hợp vào các hệ thống lai để <strong>khai</strong> phá dữ liệu theo thống kê trong nhiều năm nghiên cứu.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!