Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
23<br />
Khai phá dữ liệu rất khác với phát kiến khoa học ở chỗ <strong>khai</strong> phá trong CSDL ít có chủ<br />
tâm và có điều kiện hơn. Các dữ liệu khoa học có ừ thực nghiệm nhằm loại bỏ một số tác động của<br />
các tham số để nhấn mạnh độ biến thiên của một hay một số tham số đích. Tuy nhiên, các cơ sở dữ<br />
liệu thương mại điển hình lại ghi một số lượng thừa thông tin về các dự án của họ để đạt được một<br />
số mục đích về mặt tổ chức. Độ dư thừa này (hay có thể gọi là sự lẫn lộn – confusion) có thể nhìn<br />
thấy và cũng có thể ẩn chứa trong các mối <strong>quan</strong> hệ dữ liệu. Hơn nữa, các nhà khoa học có thể tạo lại<br />
các thí nghiệm và có thể tìm ra rằng các thiết kế ban đầu không thích hợp. Trong khi đó, các nhà<br />
quản lý cơ sở dữ liệu hầu như không thể xa xỉ đi thiết kế lại các trường dữ liệu và thu thập lại dữ<br />
liệu.<br />
2.6.4. Phương pháp thống kê<br />
Một câu hỏi hiển nhiên là <strong>khai</strong> phá dữ liệu khác gì so với phương pháp thống kê. Một câu hỏi<br />
hiển nhiên là <strong>khai</strong> phá dữ liệu khác gì so với phương pháp thống kê. Từ nhiều năm nay, con người<br />
đã sử dụng phương pháp thống kê một cách rất hiệu quả để đạt được mục đích của mình.<br />
Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết vững chắc cho các bài toàn<br />
phân tích dữ liệu nhưng chỉ có tiếp cận thống kê thuần túy thôi chưa đủ. Thứ nhất, các phương pháp<br />
thống kê chuẩn không phù hợp đối với các kiểu dữ liệu có cấu trúc trong rất nhiều các CSDL. Thứ<br />
hai, thống kê hoàn toàn theo dữ liệu (data driven), nó không sử dụng tri thức sẵn có về lĩnh vực.<br />
Thứ ba, các kết quả phân tích thống kê có thể sẽ rất nhiều và khó có thể làm rõ được. Cuối cùng,<br />
các phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như<br />
thế nào và ở đâu.<br />
Sự khác nhau cơ bản giữa <strong>khai</strong> phá dữ liệu và thống kê là ở chỗ <strong>khai</strong> phá dữ liệu là một phương<br />
tiện được dùng bởi người sử dụng đầu cuối chứ không phải là các nhà thống kê. Khai phá dữ liệu tự<br />
động quá trình thống kê một cách có hiệu quả, vì vậy làm nhẹ bớt công việc của người dùng đầu<br />
cuối, tạo ra một công cụ dễ sử dụng hơn. Như vậy, nhờ có <strong>khai</strong> phá dữ liệu, việc dự đoán và kiểm<br />
tra rất vất vả trước đây có thể được đưa lên máy tính, được tính, dự đoán và kiểm tra một cách tự<br />
động.<br />
2.7. Lựa chọn phƣơng pháp<br />
Các giải thuật <strong>khai</strong> phá dữ liệu tự động vẫn mới chỉ ở giai đoạn phát triển ban đầu. Người ta<br />
vẫn chưa đưa ra được một tiêu chuẩn nào trong việc quyết định sử dụng phương pháp nào và trong<br />
trường hợp hợp nào thì có hiệu quả.<br />
Hầu hết các kỹ thuật <strong>khai</strong> phá dữ liệu đều mới đối với lĩnh vực kinh doanh. Hơn nữa lại có<br />
rất nhiều kỹ thuật, mỗi kỹ thuật được sử dụng cho nhiều bài toán khác nhau. Vì vậy, ngay sau câu<br />
hỏi “<strong>khai</strong> phá dữ liệu là gì” sẽ là câu hỏi “vậy thì dùng kỹ thuật nào”. Câu trả lời tất nhiên là<br />
không đơn giản. Mỗi phương pháp đều có điểm mạnh và yếu của nó, nhưng hầu hết các điểm yếu<br />
đều có thể khắc phục được. Vậy thì phải làm như thế nào để áp dụng kỹ thuật một cách thật đơn<br />
giản, dễ sử dụng để không cảm thấy những phức tạp vốn có của kỹ thuật đó.