29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

23<br />

Khai phá dữ liệu rất khác với phát kiến khoa học ở chỗ <strong>khai</strong> phá trong CSDL ít có chủ<br />

tâm và có điều kiện hơn. Các dữ liệu khoa học có ừ thực nghiệm nhằm loại bỏ một số tác động của<br />

các tham số để nhấn mạnh độ biến thiên của một hay một số tham số đích. Tuy nhiên, các cơ sở dữ<br />

liệu thương mại điển hình lại ghi một số lượng thừa thông tin về các dự án của họ để đạt được một<br />

số mục đích về mặt tổ chức. Độ dư thừa này (hay có thể gọi là sự lẫn lộn – confusion) có thể nhìn<br />

thấy và cũng có thể ẩn chứa trong các mối <strong>quan</strong> hệ dữ liệu. Hơn nữa, các nhà khoa học có thể tạo lại<br />

các thí nghiệm và có thể tìm ra rằng các thiết kế ban đầu không thích hợp. Trong khi đó, các nhà<br />

quản lý cơ sở dữ liệu hầu như không thể xa xỉ đi thiết kế lại các trường dữ liệu và thu thập lại dữ<br />

liệu.<br />

2.6.4. Phương pháp thống kê<br />

Một câu hỏi hiển nhiên là <strong>khai</strong> phá dữ liệu khác gì so với phương pháp thống kê. Một câu hỏi<br />

hiển nhiên là <strong>khai</strong> phá dữ liệu khác gì so với phương pháp thống kê. Từ nhiều năm nay, con người<br />

đã sử dụng phương pháp thống kê một cách rất hiệu quả để đạt được mục đích của mình.<br />

Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết vững chắc cho các bài toàn<br />

phân tích dữ liệu nhưng chỉ có tiếp cận thống kê thuần túy thôi chưa đủ. Thứ nhất, các phương pháp<br />

thống kê chuẩn không phù hợp đối với các kiểu dữ liệu có cấu trúc trong rất nhiều các CSDL. Thứ<br />

hai, thống kê hoàn toàn theo dữ liệu (data driven), nó không sử dụng tri thức sẵn có về lĩnh vực.<br />

Thứ ba, các kết quả phân tích thống kê có thể sẽ rất nhiều và khó có thể làm rõ được. Cuối cùng,<br />

các phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như<br />

thế nào và ở đâu.<br />

Sự khác nhau cơ bản giữa <strong>khai</strong> phá dữ liệu và thống kê là ở chỗ <strong>khai</strong> phá dữ liệu là một phương<br />

tiện được dùng bởi người sử dụng đầu cuối chứ không phải là các nhà thống kê. Khai phá dữ liệu tự<br />

động quá trình thống kê một cách có hiệu quả, vì vậy làm nhẹ bớt công việc của người dùng đầu<br />

cuối, tạo ra một công cụ dễ sử dụng hơn. Như vậy, nhờ có <strong>khai</strong> phá dữ liệu, việc dự đoán và kiểm<br />

tra rất vất vả trước đây có thể được đưa lên máy tính, được tính, dự đoán và kiểm tra một cách tự<br />

động.<br />

2.7. Lựa chọn phƣơng pháp<br />

Các giải thuật <strong>khai</strong> phá dữ liệu tự động vẫn mới chỉ ở giai đoạn phát triển ban đầu. Người ta<br />

vẫn chưa đưa ra được một tiêu chuẩn nào trong việc quyết định sử dụng phương pháp nào và trong<br />

trường hợp hợp nào thì có hiệu quả.<br />

Hầu hết các kỹ thuật <strong>khai</strong> phá dữ liệu đều mới đối với lĩnh vực kinh doanh. Hơn nữa lại có<br />

rất nhiều kỹ thuật, mỗi kỹ thuật được sử dụng cho nhiều bài toán khác nhau. Vì vậy, ngay sau câu<br />

hỏi “<strong>khai</strong> phá dữ liệu là gì” sẽ là câu hỏi “vậy thì dùng kỹ thuật nào”. Câu trả lời tất nhiên là<br />

không đơn giản. Mỗi phương pháp đều có điểm mạnh và yếu của nó, nhưng hầu hết các điểm yếu<br />

đều có thể khắc phục được. Vậy thì phải làm như thế nào để áp dụng kỹ thuật một cách thật đơn<br />

giản, dễ sử dụng để không cảm thấy những phức tạp vốn có của kỹ thuật đó.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!