13.07.2015 Views

07 - Trung tâm Thông tin KH&CN

07 - Trung tâm Thông tin KH&CN

07 - Trung tâm Thông tin KH&CN

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Muôn màu cuộc sốngĐừng hỏi tại sao P. UYÊN (theo Foreign Affairs)Dữ liệu lớn sẽ giúp trả lời "cái gì" chứ không phải "tại sao", vàthường chỉ cần vậy là đủ.Bạn có biết, mỗi ngày chúng ta tạora 2,5 nghìn tỉ tỉ tỉ (mười tám số0) byte dữ liệu. Dữ liệu đang bùngnổ với tốc độ chóng mặt, chỉ hainăm gần đây đã tạo ra đến 90%lượng dữ liệu trên toàn thế giới.(Ước tính, nếu ghi tất cả dữ liệuhiện có trên thế giới lên đĩa CD rồixếp chồng các đĩa lên nhau, chúngta sẽ có năm cột CD cao đến mặtTrăng). Dữ liệu này từ đâu? Mọinơi, ví dụ như từ những chiếc cảmbiến để thu thập thông <strong>tin</strong> thờitiết, những thông <strong>tin</strong> được đưa lêncác trang web mạng xã hội, nhữngbức ảnh và video kỹ thuật số, tínhiệu GPS của điện thoại di động,giao dịch mua bán...Tên gọi “dữ liệu lớn” dễ làm chongười ta chỉ nghĩ đến kích cỡ hayquy mô. Nhưng không chỉ vậy, dữliệu lớn còn có đặc tính quan trọngkhác đó là khả năng chuyển hóa thếgiới muôn màu vốn chưa từng địnhlượng được trước đây thành dữ liệu,như mối quan hệ bạn bè trên mạngxã hội Facebook chẳng hạn.Khi mẫu là tất cảGần như suốt chiều dài lịch sử,chúng ta chỉ làm việc với lượngdữ liệu tương đối nhỏ vì thiếu cáccông cụ thu thập, quản lý, lưu trữvà phân tích thông <strong>tin</strong>. <strong>Thông</strong> <strong>tin</strong>được chắt lọc để dễ kiểm tra. Đâychính là <strong>tin</strong>h thần của thống kêhiện đại, xuất hiện từ cuối thế kỷXIX và trở thành công cụ để lý giảinhững vấn đề phức tạp ngay cảkhi chỉ có ít dữ liệu.Việc thu thập thông <strong>tin</strong> trước đâyđược thực hiện bằng cách lấymẫu. Khi việc thu thập dữ liệu tốnkém, việc xử lý khó khăn và mấtnhiều thời gian, mẫu là vị cứu<strong>tin</strong>h. Việc lấy mẫu dựa trên quanđiểm cho rằng trong biên độ saisố nhất định có thể từ một nhómnhỏ (mẫu) suy ra điều gì đó củacả tập hợp lớn, miễn là mẫu đượcchọn ngẫu nhiên. Ví dụ, ngườita thăm dò ngẫu nhiên vài trămngười trước cuộc bầu cử để dựđoán kết quả trên cả nước.Cách này cho kết quả tốt với cácvấn đề đơn giản, nhưng khôngthể áp dụng khi cần phân tích sâuhơn, ví dụ như ứng cử viên nào cónhiều khả năng được phụ nữ độcthân dưới 30 tuổi bỏ phiếu bầu?Khi đó mẫu gần như vô dụng vì cóthể chỉ có vài người thỏa tiêu chí,quá ít để rút ra kết luận có tínhđại diện. Vấn đề được hóa giảinếu số mẫu mở rộng bao trùm tấtcả (thăm dò tất cả mọi người).Ví dụ này đặt ra một vấn đề kháccủa việc sử dụng một vài dữ liệuthay vì tất cả. Trước đây, khi thuSTinfo SỐ 7 - 2013thập chỉ một ít dữ liệu, người tathường phải quyết định ngay từđầu thu thập cái gì và dùng như thếnào. Giờ đây, khi thu thập tất cả dữliệu, chúng ta không cần phải biếttrước. Tất nhiên, không phải lúcnào cũng có thể thu thập được mọidữ liệu, nhưng so ra việc này khả thihơn việc “suy diễn” từ mẫu.Tuy nhiên ở đây có sự đánh đổi.Khi tăng quy mô, chúng ta có thểsẽ phải hy sinh sự <strong>tin</strong>h gọn của dữliệu và chấp nhận một chút “lộnxộn”. Quan điểm này đi ngược lạicách người ta làm việc với dữ liệuhàng chục năm qua. Tuy nhiên,về mặt nào đó, nỗi ám ảnh về sựchính xác là cảm xúc giả tạo domôi trường thông <strong>tin</strong> hạn chế.Khi không có nhiều dữ liệu, cácnhà nghiên cứu phải cố đảm bảonhững con số mà họ nhọc côngthu thập được chính xác nhấtcó thể. Giờ đây với vô số dữ liệuchúng ta có thể chấp nhận mộtchút sai số (miễn là toàn bộ dữliệu không sai lệch), bù lại có đượckhả năng phân tích thấu đáo.Ví dụ trong dịch thuật. Cóvẻ như máy tính hiểnnhiên sẽ dịch tốt vì cókhả năng lưu trữ nhiềuthông <strong>tin</strong> và tìm kiếmnhanh chóng. Nhưngnếu chỉ tra từ điển rồithay chữ, bản dịch sẽrất tệ. Ngôn ngữ rấtphức tạp. Google cócách tiếp cận khác, khaithác nhiều dữ liệu hơn từInternet “lộn xộn”: thu thậpbản dịch từ nhiều trang webvới mọi ngôn ngữ, kể cả các bản41

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!