29.01.2015 Views

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

Tổng quan về khai phá dữ liệu - Đại học Duy Tân

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5<br />

Chương 1. Tổng <strong>quan</strong> về kho dữ liệu (Datawarehouse)<br />

1.1. Các chiến lƣợc xử lý và <strong>khai</strong> thác thông tin<br />

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh<br />

vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được<br />

các cơ <strong>quan</strong> thu thập và lưu trữ ngày một tích luỹ nhiều lên. Họ lưu trữ các dữ liệu này vì cho rằng<br />

trong nó ẩn chứa những giá trị nhất định nào đó. Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ<br />

của những dữ liệu này (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ<br />

phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ<br />

rằng sẽ có cái gì đó <strong>quan</strong> trọng đã bị bỏ qua sau này có lúc cần đến nó. Một vấn đề đặt ra là làm thế<br />

nào để tổ chức, <strong>khai</strong> thác những khối lượng dữ liệu khổng lồ và đa dạng đó được<br />

Về phía người sử dụng, các khó khăn gặp phải thường là:<br />

Không thể tìm thấy dữ liệu cần thiết<br />

Dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau, khiến<br />

tốn nhiều thời gian chuyền từ hệ thống này sang hệ thống khác.<br />

Có thể có nhiều nguồn thông tin đáp ứng được đòi hỏi, nhưng chúng lại có những<br />

khác biệt và khó phát hiện thông tin nào là đúng.<br />

Không thể lấy ra được dữ liệu cần thiết<br />

Thường xuyên phải có chuyên gia trợ giúp, dẫn đến công việc bị dồn đống.<br />

Có những loại thông tin không thể lấy ra được nếu không mở rộng khả năng làm<br />

việc của hệ thống có sẵn.<br />

Không thể hiểu dữ liệu tìm thấy<br />

Mô tả dữ liệu nghèo nàn và thường xa rời với các thuật ngữ nghiệp vụ quen thuộc.<br />

Không thể sử dụng được dữ liệu tìm thấy<br />

Kết quả thường không đáp ứng về bản chất dữ liệu và thời gian tìm kiếm.<br />

Dữ liệu phải chuyên đổi bằng tay vào môi trường làm việc của người sử dụng.<br />

Những vấn đề về hệ thống thông tin:<br />

“Phát triển các chương trình ứng dụng khác nhau là không đơn giản”.<br />

Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử<br />

dụng nó là rất khó khăn do hạn chế về kỹ thuật.<br />

Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử<br />

dụng là rất khó khăn.<br />

“<strong>Duy</strong> trì những chương trình này gặp rất nhiều vấn đề”<br />

Một thay đổi ở một ứng dụng sẽ ảnh hưởng đến các ứng dụng khác có liên <strong>quan</strong>.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!