Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Tá»ng quan vá» khai phá dữ liá»u - Äại há»c Duy Tân
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
22<br />
Mặc dù người ta đã cố gắng cải tiến các phương pháp học máy để có thể phù hợp với mục<br />
đích <strong>khai</strong> phá dữ liệu nhưng sự khác biệt giữa cách thiết kế, các đặc điểm của cơ sở dữ liệu đã làm<br />
cho phương pháp học máy trở nên không phù hợp với mục đích này, mặc dù cho đến nay, phần lớn<br />
các phương pháp <strong>khai</strong> phá dữ liệu vẫn đựa trên nền tảng cơ sở của phương pháp học máy. Những<br />
phân tích sau đây sẽ cho thấy điều đó.<br />
Trong quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp được tích hợp một cách logic<br />
của dữ liệu được lưu trong một hay nhiều tệp và được tổ chức để lưu trữ có hiệu quả, sửa đổi và lấy<br />
thông tin liên <strong>quan</strong> được dễ dàng. Ví dụ như trong CSDL <strong>quan</strong> hệ, dữ liệu được tổ chức thành các<br />
tệp hoặc các bảng có các bản ghi có độ dài cố định. Mỗi bản ghi là một danh sách có thứ tự các giá<br />
trị, mỗi giá trị được đặt vào một trường. Thông tin về tên trường và giá trị của trường được đặt<br />
trong một tệp riêng gọi là thư viện dữ liệu (data dictionary). Một hệ thống quản trị cơ sở dữ liệu sẽ<br />
quản lý các thủ tục (procedures) để lấy, lưu trữ, và xử lý dữ liệu trong các cơ sở dữ liệu đó.<br />
Trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập đến một tập các mẫu (instance hay<br />
example) được lưu trong một tệp. Các mẫu thường là các vector đặc điểm có độ dài cố định. Thông<br />
tin về các tên đặc điểm, dãy giá trị của chúng đôi khi cũng được lưu lại như trong từ điển dữ liệu.<br />
Một giải thuật học còn sử dụng tập dữ liệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào và<br />
đầu ra biểu thị kết quả của việc học (ví dụ như một khái niệm).<br />
Với so sánh cơ sở dữ liệu thông thường và CSDL trong học máy như trên, có thể thấy là học<br />
máy có khả năng được áp dụng cho cơ sở dữ liệu, bởi vì không phải học trên tập các mẫu mà học<br />
trên tệp các bản ghi của CDSL.<br />
Tuy nhiên, phát hiện tri thức trong cơ sở dữ liệu làm tăng thêm các vấn đề vốn đã là điển<br />
hình trong học máy và đã quá khả năng của học máy. Trong thực tế, cơ sở dữ liệu thường động,<br />
không đầy đủ, bị nhiễu, và lớn hơn nhiều so với tập các dữ liệu học máy điển hình. Các yếu tố này<br />
làm cho hầu hết các giải thuật học máy trở nên không hiệu quả trong hầu hết các trường hợp. Vì vậy<br />
trong <strong>khai</strong> phá dữ liệu, cần tập trung rất nhiều công sức vào việc vượt qua những khó khăn, phức<br />
tạp này trong CSDL.<br />
2.6.2. Phương pháp hệ chuyên gia<br />
Các hệ chuyên gia cố gắng nắm bắt các tri thức thích hợp với bài toán nào đó. Các kỹ thuật<br />
thu thập giúp cho việp háp đó là một cách suy diễn các chuyên gia con người. Mỗi phương pháp đó<br />
là một cách suy diễn các luật từ các ví dụ và giải pháp đối với bài toán chuyên gia đưa ra. Phương<br />
pháp này khác với <strong>khai</strong> phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao<br />
hơn rất nhiều so với các dữ liệu trong cơ sở dữ liệu, và chúng thường chỉ bao được các trường hợp<br />
<strong>quan</strong> trọng. Hơn nữa, các chuyên gia sẽ xác nhận tính giá trị và hữu dụng của các mẫu phát hiện<br />
được. Cũng như với các công cụ quản trị cơ sở dữ liệu, ở các phương pháp này đòi hỏi có sự tham<br />
gia của con người trong việc phát hiện tri thức<br />
2.6.3. Phát kiến khoa học