29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

22<br />

Mặc dù người ta đã cố gắng cải tiến các phương pháp học máy để có thể phù hợp với mục<br />

đích <strong>khai</strong> phá dữ liệu nhưng sự khác biệt giữa cách thiết kế, các đặc điểm của cơ sở dữ liệu đã làm<br />

cho phương pháp học máy trở nên không phù hợp với mục đích này, mặc dù cho đến nay, phần lớn<br />

các phương pháp <strong>khai</strong> phá dữ liệu vẫn đựa trên nền tảng cơ sở của phương pháp học máy. Những<br />

phân tích sau đây sẽ cho thấy điều đó.<br />

Trong quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp được tích hợp một cách logic<br />

của dữ liệu được lưu trong một hay nhiều tệp và được tổ chức để lưu trữ có hiệu quả, sửa đổi và lấy<br />

thông tin liên <strong>quan</strong> được dễ dàng. Ví dụ như trong CSDL <strong>quan</strong> hệ, dữ liệu được tổ chức thành các<br />

tệp hoặc các bảng có các bản ghi có độ dài cố định. Mỗi bản ghi là một danh sách có thứ tự các giá<br />

trị, mỗi giá trị được đặt vào một trường. Thông tin về tên trường và giá trị của trường được đặt<br />

trong một tệp riêng gọi là thư viện dữ liệu (data dictionary). Một hệ thống quản trị cơ sở dữ liệu sẽ<br />

quản lý các thủ tục (procedures) để lấy, lưu trữ, và xử lý dữ liệu trong các cơ sở dữ liệu đó.<br />

Trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập đến một tập các mẫu (instance hay<br />

example) được lưu trong một tệp. Các mẫu thường là các vector đặc điểm có độ dài cố định. Thông<br />

tin về các tên đặc điểm, dãy giá trị của chúng đôi khi cũng được lưu lại như trong từ điển dữ liệu.<br />

Một giải thuật học còn sử dụng tập dữ liệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào và<br />

đầu ra biểu thị kết quả của việc học (ví dụ như một khái niệm).<br />

Với so sánh cơ sở dữ liệu thông thường và CSDL trong học máy như trên, có thể thấy là học<br />

máy có khả năng được áp dụng cho cơ sở dữ liệu, bởi vì không phải học trên tập các mẫu mà học<br />

trên tệp các bản ghi của CDSL.<br />

Tuy nhiên, phát hiện tri thức trong cơ sở dữ liệu làm tăng thêm các vấn đề vốn đã là điển<br />

hình trong học máy và đã quá khả năng của học máy. Trong thực tế, cơ sở dữ liệu thường động,<br />

không đầy đủ, bị nhiễu, và lớn hơn nhiều so với tập các dữ liệu học máy điển hình. Các yếu tố này<br />

làm cho hầu hết các giải thuật học máy trở nên không hiệu quả trong hầu hết các trường hợp. Vì vậy<br />

trong <strong>khai</strong> phá dữ liệu, cần tập trung rất nhiều công sức vào việc vượt qua những khó khăn, phức<br />

tạp này trong CSDL.<br />

2.6.2. Phương pháp hệ chuyên gia<br />

Các hệ chuyên gia cố gắng nắm bắt các tri thức thích hợp với bài toán nào đó. Các kỹ thuật<br />

thu thập giúp cho việp háp đó là một cách suy diễn các chuyên gia con người. Mỗi phương pháp đó<br />

là một cách suy diễn các luật từ các ví dụ và giải pháp đối với bài toán chuyên gia đưa ra. Phương<br />

pháp này khác với <strong>khai</strong> phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao<br />

hơn rất nhiều so với các dữ liệu trong cơ sở dữ liệu, và chúng thường chỉ bao được các trường hợp<br />

<strong>quan</strong> trọng. Hơn nữa, các chuyên gia sẽ xác nhận tính giá trị và hữu dụng của các mẫu phát hiện<br />

được. Cũng như với các công cụ quản trị cơ sở dữ liệu, ở các phương pháp này đòi hỏi có sự tham<br />

gia của con người trong việc phát hiện tri thức<br />

2.6.3. Phát kiến khoa học

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!