Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
13<br />
Chương 2: Tổng <strong>quan</strong> về <strong>khai</strong> phá dữ liệu<br />
2.1. Khai phá dữ liệu<br />
Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL. Quá trình<br />
này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động<br />
sản xuất, ... Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước<br />
kia (ví dụ như phương pháp thống kê).<br />
Sau đây là một số định nghiã mang tính mô tả của nhiều tác giả về <strong>khai</strong> phá dữ liệu.<br />
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phương pháp được dùng trong<br />
tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối <strong>quan</strong> hệ và các mẫu chưa biết bên trong<br />
dữ liệu”<br />
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết định, trong đó chúng<br />
ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trong CSDL lớn”<br />
Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầm thường nhận ra<br />
những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”.<br />
2.2. Các ứng dụng của <strong>khai</strong> phá dữ liệu<br />
Phát hiện tri thức và <strong>khai</strong> phá dữ liệu liên <strong>quan</strong> đến nhiều ngành, nhiều lĩnh vực: thống kê,<br />
trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc độ cao, thu thập tri thức cho<br />
các hệ chuyên gia, <strong>quan</strong> sát dữ liệu... Đặc biệt phát hiện tri thức và <strong>khai</strong> phá dữ liệu rất gần gũi với<br />
lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu, luật<br />
... Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến (OLAP- On Line<br />
Analytical Processing) cũng liên <strong>quan</strong> rất chặt chẽ với phát hiện tri thức và <strong>khai</strong> phá dữ liệu.<br />
Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như:<br />
Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo giá của<br />
các loại cổ phiếu trong thị trường chứng khoán. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín<br />
dụng, phát hiện gian lận, ...<br />
Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định. Ví dụ như bảng sau:<br />
Năm<br />
Dân số thế giới<br />
(triệu ngƣời)<br />
Năm<br />
Dân số thế giới<br />
(triệu ngƣời)<br />
Năm<br />
Dân số thế giới<br />
(triệu ngƣời)<br />
1950 2555 1970 3708 1990 5275<br />
1951 2593 1971 3785 1991 5359<br />
1952 2635 1972 3862 1992 5443<br />
1953 2680 1973 3938 1993 5524