29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

34<br />

Chú ý trên mỗi dòng tổng số các tần xuất xuất hiện dự kiến được ghi trong cặp ngoặc ()<br />

và tổng số tần xuất dự kiến trên mỗi cột bằng với tổng số tần xuất <strong>quan</strong> sát được trên cột đó.<br />

Từ bảng dữ liệu cho thấy bậc tự do (r-1)(c-1) = (2-1)(2-1) = 1. Với 1 bậc tự do, giá trị<br />

cần<br />

để bác bỏ giả thiết này ở mức 0.001 là 10.828. Và với giá trị tính được như trên 507.93 cho thấy<br />

giải thuyết sở thích đọc là độc lập với giới tính là không chắc chắn, hai thuộc tính này có một <strong>quan</strong><br />

hệ tương <strong>quan</strong> khá mạnh trong nhóm người được khảo sát.<br />

3.3.2. Biến đổi dữ liệu<br />

Trong phần này các dữ liệu sẽ được biến đổi sang các dạng phù hợp cho việc <strong>khai</strong> phá dữ<br />

liệu. Các phương pháp thường thấy như:<br />

- Làm mịn: Phương pháp này loại bỏ các trường hợp nhiễu khỏi dữ liệu ví dụ như các<br />

phương pháp binning, hồi quy, nhóm cụm.<br />

- Tổng hợp: trong đó tổng hợp hoặc tập hợp các hành động được áp dụng trên dữ liệu. Ví dụ<br />

thấy rằng doanh số bán hàng hàng ngày có thể được tổng hợp để tính toán hàng tháng và hàng năm.<br />

Bước này thường được sử dụng để xây dựng một khối dữ liệu cho việc phân tích.<br />

- Khái quát hóa dữ liệu, trong đó các dữ liệu mức thấp hoặc thô được thay thế bằng các khái<br />

niệm ở mức cao hơn thông qua kiến trúc <strong>khai</strong> niệm. Ví dụ, các thuộc tính phân loại ví dụ như<br />

“Đường phố” có thể khái quát hóa lên mức cao hơn thành “Thành phố” hay “Quốc gia”. Tương tự<br />

như vậy các giá trị số, như tuổi có thể được ánh xạ lên khái niệm cao hơn như “Trẻ”, “Trung niên”,<br />

“Có tuổi”<br />

- Chuẩn hóa, trong đó các dữ liệu của thuộc tính được quy về các khoảng giá trị nhỏ hơn ví<br />

dụ như từ -1.0 đến 1.0, hoặc từ 0.0 đến 1.0<br />

- Xác định thêm thuộc tính, trong đo các thuộc tính mới sẽ được thêm vào nguồn dữ liệu để<br />

giúp cho quá trình <strong>khai</strong> phá.<br />

Trong phần này chúng ta sẽ xem xét phƣơng pháp chuẩn hóa làm chủ đạo<br />

Một thuộc tính được chuẩn hóa bằng cách ánh xạ một cách có tỉ lệ dữ liệu về một khoảng<br />

xác định ví dụ như 0.0 đến 1.0. Chuẩn hóa là một phần hữu ích của thuật toán phân lớp trong mạng<br />

noron, hoặc thuật toán tính toán độ lệch sử dụng trong việc phân lớp hay nhóm cụm các phần tử liền<br />

kề. Chúng ta sẽ xem xét ba phương pháp: min-max, z-score, và thay đổi số chữ số phần thập phân<br />

(decimal scaling)<br />

a. Min-Max

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!