29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

33<br />

này thực sự không có <strong>quan</strong> hệ nhân quả trực tiếp mà chúng <strong>quan</strong> hệ nhân quả với một thuộc tính<br />

thứ 3 là dân số.<br />

Với nguồn dữ liệu rời rạc, một mối <strong>quan</strong> hệ tương <strong>quan</strong> giữa hai thuộc tính A và B có thể<br />

được khám phá ra qua phép kiểm 2. Giả sử A có c giá trị không lặp được ký hiệu là a 1 , a 2 , …, a c . B<br />

có r giá trị không lặp, ký hiệu b 1 , b 2 , …, b r . Bảng biểu diễn mối <strong>quan</strong> hệ A và B có thể được xây<br />

dựng như sau:<br />

- c giá trị của A tạo thành cột<br />

- r giá trị của B tạo hành hàng.<br />

- Gọi (Aj, Bj) biểu diễn các trường hợp mà thuộc tính A nhận giá trị a i , B nhận giá trị b i<br />

Giá trị 2 được tính như sau<br />

Trong đó:<br />

- là tần xuất <strong>quan</strong> sát được các trường hợp (Aj, Bj)<br />

- là tần xuất dự kiến các trường hợp (Aj, Bj)<br />

Với N là tổng số bộ, là số bộ có chứa giá trị ai cho thuộc tính A,<br />

là tổng số bộ có chứa trị bj cho thuộc tính B.<br />

Ví dụ: phân tích tương <strong>quan</strong> của các thuộc tính sử dụng phương pháp 2<br />

Giả sử có một nhóm 1500 người được khảo sát. Giới tính của họ được ghi nhận sau đó họ sẽ<br />

được hỏi về thể loại sách yêu thích thuộc hai dạng hư cấu và viễn tưởng. Như vậy ở đây có hai<br />

thuộc tính “giới tính” và “sở thích đọc”. Số lần xuất hiện của các trường hợp được cho trong bảng<br />

sau<br />

Nam Nữ Tổng<br />

Hư cấu 250 (90) 200 (360) 450<br />

Viễn tưởng 50 (210) 1000 (840) 1050<br />

Tổng 300 1200 1500<br />

Vậy chúng ta tính được

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!