Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
33<br />
này thực sự không có <strong>quan</strong> hệ nhân quả trực tiếp mà chúng <strong>quan</strong> hệ nhân quả với một thuộc tính<br />
thứ 3 là dân số.<br />
Với nguồn dữ liệu rời rạc, một mối <strong>quan</strong> hệ tương <strong>quan</strong> giữa hai thuộc tính A và B có thể<br />
được khám phá ra qua phép kiểm 2. Giả sử A có c giá trị không lặp được ký hiệu là a 1 , a 2 , …, a c . B<br />
có r giá trị không lặp, ký hiệu b 1 , b 2 , …, b r . Bảng biểu diễn mối <strong>quan</strong> hệ A và B có thể được xây<br />
dựng như sau:<br />
- c giá trị của A tạo thành cột<br />
- r giá trị của B tạo hành hàng.<br />
- Gọi (Aj, Bj) biểu diễn các trường hợp mà thuộc tính A nhận giá trị a i , B nhận giá trị b i<br />
Giá trị 2 được tính như sau<br />
Trong đó:<br />
- là tần xuất <strong>quan</strong> sát được các trường hợp (Aj, Bj)<br />
- là tần xuất dự kiến các trường hợp (Aj, Bj)<br />
Với N là tổng số bộ, là số bộ có chứa giá trị ai cho thuộc tính A,<br />
là tổng số bộ có chứa trị bj cho thuộc tính B.<br />
Ví dụ: phân tích tương <strong>quan</strong> của các thuộc tính sử dụng phương pháp 2<br />
Giả sử có một nhóm 1500 người được khảo sát. Giới tính của họ được ghi nhận sau đó họ sẽ<br />
được hỏi về thể loại sách yêu thích thuộc hai dạng hư cấu và viễn tưởng. Như vậy ở đây có hai<br />
thuộc tính “giới tính” và “sở thích đọc”. Số lần xuất hiện của các trường hợp được cho trong bảng<br />
sau<br />
Nam Nữ Tổng<br />
Hư cấu 250 (90) 200 (360) 450<br />
Viễn tưởng 50 (210) 1000 (840) 1050<br />
Tổng 300 1200 1500<br />
Vậy chúng ta tính được