Thời đại dữ liệu lớn
Là khả năng của xã hội khai thác thông tin theo những cách thức mới để đưa ra những kiến thức hữu ích hay những sản phẩm và dịch vụ có giá trị.
Dữ liệu không còn được xem là tĩnh hay cũ – tức là tính hữu ích của dữ liệu kết thúc một khi mục tiêu mà vì nó dữ liệu được thu thập đã đạt được – mà thay vào đó, dữ liệu trở thành một nguyên liệu thô quan trọng, một đầu vào hữu ích và có thể được dùng lại một cách thông minh để trở thành một suối nguồn của thông tin và những dịch vụ mới.
Nhưng đó chỉ là khởi đầu. Thời đại của dữ liệu lớn thách thức cách chúng ta sống và tương tác với thế giới. Quan hệ nhân quả đổi lấy những tương quan đơn giản, không biết TẠI SAO mà chỉ biết CÁI GÌ.
Dữ liệu lớn là một cuộc cách mạng thật sự, không phải ở những chiếc máy tính toán dữ liệu mà ở ngay chính dữ liệu và cách chúng ta sử dụng chúng. Với dữ liệu lớn: bằng cách thay đổi số lượng, chúng ta tay đổi bản chất.
Việc chúng ta sử dụng Google để tìm kiếm thông tin đã góp phần làm cho dữ liệu ngày càng dồi dào và Google là người hưởng lợi.
Tại cốt lõi của nó, dữ liệu lớn là về các dự đoán. Dữ liệu lớn không phải là về việc cố gắng “dạy” một máy tính “nghĩ” giống như con người. Thay vào đó, nó là về việc áp dụng toán học với số lượng lớn dữ liệu để suy ra xác suất: khả năng một email là rác; các ký tự gõ “teh” đáng lẽ phải là “the”,…
Dữ liệu lớn dẫn đến ba sự thay đổi trong cách chúng ta phân tích thông tin, làm biến đổi cách chúng ta hiểu và tổ chức xã hội:
- Việc sử dụng tất cả dữ liệu cho phép chúng ta xem xét những chi tiết chưa hề xem được khi bị giới hạn bởi những số lượng nhỏ hơn. Dữ liệu lớn cho chúng ta một cái nhìn đặc biệt rõ ràng về các tiểu phần: tiểu thể loại và tiểu thị trường.
- Việc xem xét dữ liệu rộng lớn hơn cũng cho phép chúng ta nới lỏng mong muốn hướng tới tính chính xác. Khi quy mô tăng số lượng của những sự không chính xác cũng tăng. Chúng ta không bỏ qua hoàn toàn sự chính xác; chúng ta chỉ bỏ qua sự sùng bái nó.
- Trong một thế giới dữ liệu lớn, chúng ta sẽ không phải gắn chặt vào quan hệ nhân quả, thay vào đó chúng ta có thể khám phá các khuôn mẫu và mối tương quan trong các dữ liệu để thu được những hiểu biết mới lạ và vô giá. Các mối tương quan có thể không cho chúng ta biết chính xác tại sao một cái gì đó đang xảy ra, nhưng chúng cảnh báo chúng ta rằng cái đó đang xảy ra. Dữ liệu lớn là về cái gì chứ không phải tại sao. Chúng ta không luôn luôn cần biết nguyên nhân của một hiện tượng, thay vào đó, chúng ta có thể để cho dữ liệu tự nói.
Những lợi ích cho xã hội sẽ là vô kể khi dữ liệu lớn trở thành bộ phận của giải pháp cho những vấn đề bức xúc toàn cầu, như giải quyết thay đổi khí hậu, xoá bỏ bệnh tật, thúc đẩy sự quản trị tốt và phát triển kinh tế. Nhưng thời đại dữ liệu lớn cũng thách thức chúng ta phải chuẩn bị tốt hơn về cách thức trong đó việc khai thác công nghệ sẽ làm thay đổi các tổ chức của chúng ta và chính bản thân chúng ta.
Khi dữ liệu nhiều hơn
Khi chúng ta làm việc với một số ít dữ liệu do công cụ thu thập, lưu trữ, tổ chức, và phân tích còn nghèo nàn, chúng ta sàng lọc thông tin, giữ lại mức tối thiểu vừa đủ để có thể khảo sát được dễ dàng hơn. Khi dữ liệu trở nên lớn hơn – như điều tra dân số, chúng ta không thể áp dụng các phương pháp “thủ công” như khi làm việc với dữ liệu nhỏ, mà thay vào đó sẽ sử dụng phương pháp thống kê và chọn mẫu. Nhưng làm thế nào để chọn một mẫu? Giải pháp là chọn các thành phần ngẫu nhiên để đưa vào mẫu. Sự ngẫu nhiên quan trọng hơn cỡ mẫu là một hiểu biết sâu sắc đáng ngạc nhiên. Về bản chất, lấy mẫu ngẫu nhiên làm giảm những vấn đề dữ liệu lớn xuống thành những vấn đề dữ liệu dễ quản lý hơn. Nhưng chọn mẫu ngẫu nhiên cũng gặp một số vấn đề:
- Những thành kiến có hệ thống trong cách thức dữ liệu được thu thập có thể dẫn đến các kết quả ngoại suy rất sai.
- Lấy mẫu ngẫu nhiên không dễ dàng mở rộng được để bao gồm các tiểu thể loại, vì khi chia kết quả thành những nhóm nhỏ hơn sẽ làm tăng khả năng dự đoán sai. Những gì hoạt động được ở tầm vĩ mô lại thất bại ở tầm vi mô.
Trong thế giới dữ liệu lớn, chọn mẫu ngẫu nhiên chỉ là giải pháp tốt thứ hai, giải pháp hiệu quả hơn là thu thập dữ liệu càng nhiều càng tốt, và nếu có thể, thì lấy tất cả mọi thứ. Giải pháp lấy tất cả mọi thứ xuất hiện khi các công cụ tính toán, phân tích, xử lý, lưu trữ ngày càng hiện đại và đa dạng, và một điều quan trọng, chi phí của các công cụ này ngày càng giảm một cách đáng kể.
Google dịch là sản phẩm công nghệ của dữ liệu lớn
Một trong những lĩnh vực chịu ảnh hưởng mạnh nhất của giải pháp thu thập tất cả dữ liệu là khoa học xã hội . Trước đây, lĩnh vực này chỉ dựa trên lấy mẫu và bảng câu hỏi; bây giờ, chúng ta có thể thu thập những thông tin mà trước đây chúng ta không thể thu thập nổi, đó có thể là những mối quan hệ tiết lộ qua các cuộc gọi điện thoại di động hay bộc lộ cảm xúc qua facebook hay những từ khoá chúng ta gõ trên thanh tìm kiếm Google. Quan trọng hơn, sự cần thiết phải lấy mẫu biến mất.
Hỗn độn
Trong thế giới của dữ liệu nhỏ, giảm sai sót và đảm bảo chất lượng cao của dữ liệu là động lực tự nhiên và cần thiết. Tuy nhiên, trong nhiều tình huống mới nảy sinh ngày hôm nay, việc cho phép sự không chính xác – sự hỗn độn – có thể là một tính năng tích cực, chứ không phải là một thiếu sót. Nó không chỉ mang ý nghĩa “nhiều hơn thì tốt hơn”, mà thật ra đôi khi nó sẽ là “nhiều hơn thì tốt hơn cả tốt hơn”.
Hỗn độn có thể mang một ý nghĩa đơn giản là khả năng sai sót tăng lên khi bạn thêm dữ liệu hay bằng cách kết hợp nhiều loại thông tin khác nhau hay có thể tham chiếu tới sự không thống nhất định dạng hay khi trích xuất hay xử lý dữ liệu.
Bất kỳ phép đọc cụ thể nào đó cũng đều có thể không chính xác, nhưng tổng hợp của nhiều phép đọc sẽ cung cấp một bức tranh toàn diện hơn.
Nhiều lợi ích cho xã hội từ dữ liệu lớn lại xảy ra không phải vì các chip nhanh hơn hay vì các thuật toán tốt hơn, mà vì có nhiều dữ liệu hơn và được thể hiện trong xử lý ngôn ngữ tự nhiên như thành phần kiểm tra ngữ pháp của phần mềm Microsoft Word hay Google dịch.
Nên lưu ý rằng hỗn độn không phải là đặc tính vốn có của dữ liệu lớn. Thay vào đó, nó là một chức năng của sự không hoàn hảo của các công cụ chúng ta sử dụng để đo lường, ghi nhận và phân tích thông tin. Trong nhiều lĩnh vực công nghệ và xã hội, chúng ta đang nghiêng về ủng hộ sự nhiều hơn và sự hỗn độn chứ không phải sự ít hơn và sự chính xác. Khi số lượng là nhỏ, mỗi cú nhấp chuột đều được hiển thị, như “63”. Tuy nhiên, khi số lượng lớn lên, con số được hiển thị chỉ là một kiểu ước lượng, như “4K”. Nó không có nghĩa là hệ thống không biết tổng số thực tế, mà chỉ vì khi quy mô tăng, thì việc cho thấy con số chính xác là ít quan trọng hơn. Bên cạnh đó, số lượng có thể thay đổi nhanh đến mức một con số cụ thể sẽ trở thành lạc hậu ngay vào thời điểm nó xuất hiện.
Chúng ta đang tạo ra nguồn dữ liệu dồi dào thông qua những tương tác trên Facebook và ai hưởng lợi? Có lẽ ai cũng biết. (Hình từ Internet)
Tương quan
Trong thế giới dữ liệu lớn thì tương quan có một vai trò nổi bật. Tương quan giữa các dữ liệu có thể là yếu (nghĩa là khi giá trị một dữ liệu thay đổi thì giá trị dữ liệu kia ít thay đổi) hay mạnh (khi giá trị một dữ liệu thay đổi thì giá trị dữ liệu kia chắc chắn thay đổi). Bằng cách xác định một phương tiện đo lường thực sự tốt cho một hiện tượng, các mối tương quan giúp chúng ta nắm bắt được hiện tại và dự đoán được tương lai: nếu A thường xảy ra cùng với B, chúng ta cần phải xem chừng B để dự đoán rằng A sẽ xảy ra. Sử dụng B như một phương tiện đo lường sẽ giúp chúng ta nắm bắt được những gì xảy ra cùng với A, ngay cả khi chúng ta không thể đo lường hay quan sát được A một cách trực tiếp. Quan trọng hơn, nó cũng giúp chúng ta dự đoán những gì có thể xảy ra với A trong tương lai.
Hơn nữa, các mối tương quan không chỉ có giá trị cho riêng chúng mà còn vạch đường cho các cuộc điều tra nhân quả. Bằng cách cho chúng ta biết hai sự vật nào có khả năng liên kết, chúng cho phép ta tiếp tục điều tra xem một mối quan hệ nhân quả có tồn tại không, và nếu như vậy thì tại sao.
Dữ liệu lớn cung cấp một cái nhìn tươi mát và những hiểu biết mới mẻ một cách chính xác vì nó không bị cản trở bởi lối suy nghĩ thông thường và những thành kiến cố hữu tiềm ẩn trong lý thuyết của một lĩnh vực cụ thể.
Dữ liệu hoá
Dữ liệu hoá một hiện tượng là đặt nó trong một dạng định lượng để nó có thể được phân tích và lập bảng (khác với việc số hoá). Điều này đòi hỏi các công cụ thích hợp. Nó cũng đòi hỏi một khao khát được định lượng và ghi chép lại.
Nhờ ngôn ngữ mà con người có thể định lượng được cả thế giới; nhờ toán học mà dữ liệu có thể được phân tích; từ ngữ trở thành dữ liệu (Google dịch, nhận dạng văn bản, v.v.), vị trí trở thành dữ liệu (hệ thống định vị trên các thiết bị thông minh), tương tác trở thành dữ liệu (các câu chuyện trên các diễn đàn, chia sẻ facebook, v..), và mọi thứ trở thành dữ liệu.
Chức năng kiểm tra lỗi chính tả trong MS Word là thành quả công nghệ của dữ liệu lớn.
Với dữ liệu lớn, chúng ta không còn xem thế giới như một chuỗi các diễn biến được giải thích như những hiện tượng tự nhiên hay xã hội, mà như một vũ trụ bao gồm chủ yếu là thông tin. Trong nhiều trường hợp chúng ta có thể nắm bắt và tính toán các khía cạnh vật chất và phi vật thể của sự sống và tác động lên chúng trên một quy mô toàn diện hơn.
Giá trị
Điều làm cho thời đại chúng ta khác biệt rất nhiều hạn chế cố hữu về thu thập dữ liệu không còn nữa. Công nghệ đã đạt tới điểm mà những lượng lớn thông tin thường xuyên có thể được ghi nhận với giá rẻ.
Dữ liệu có thể được sử dụng nhiều lần cho cùng một mục đích hoặc có thể được khai thác cho nhiều mục đích khác nhau. Ngay cả những thông tin tầm thường nhất cũng có thể có giá trị đặc biệt, nếu được áp dụng một cách đúng đắn. Đôi khi giá trị tiềm ẩn chỉ có thể được giải phóng bằng cách kết hợp một bộ dữ liệu với một bộ khác.
Hầu hết dữ liệu đều bị mất một phần hữu ích của nó theo thời gian và sự hiện diện của dữ liệu cũ sẽ làm giảm giá trị của các dữ liệu mới hơn. Khó khăn nằm ở chỗ biết được dữ liệu nào không còn hữu ích nữa.
Dữ liệu xả là một thuật ngữ mới xuất hiện trong thời đại dữ liệu lớn. Nó đề cập đến dữ liệu được tạo ra như một sản phẩm phụ của các hành vi và của các chuyển động của con người trong thế giới. Với Internet, nó mô tả những tương tác trực tuyến của người sử dụng: nơi họ nhấp chuột, nơi họ xem một trang bao lâu, nơi con trỏ chuột qua lại, những gì họ nhập từ bàn phím, v.v. Dữ liệu xả là cơ chế đằng sau rất nhiều dịch vụ như nhận dạng giọng nói, lọc thư rác, dịch ngôn ngữ, và nhiều nữa. Ý tưởng này đang lan rộng vượt ra ngoài lĩnh vực Internet tới bất kỳ công ty nào thu thập thông tin phản hồi của người dùng.
Nó cũng có thể trở thành một rào cản mạnh mẽ để ngăn đối thủ mới xuất hiện. Nếu một công ty vừa thành lập một trang web thương mại điện tử, mạng xã hội, hay công cụ tìm kiếm tốt hơn rất nhiều so với Google, Amazon, hay Facebook, nó sẽ gặp khó khăn khi cạnh tranh, không chỉ đơn giản vì những hiệu ứng kinh tế quy mô lớn và mạng lưới hoặc thương hiệu, mà còn vì phần lớn hiệu suất của những công ty hàng đầu này là từ dữ liệu xả họ thu thập từ các tương tác của khách hàng và kết hợp trở lại với dịch vụ.
Chính phủ các quốc gia mới là những người thu lượm thông tin gốc trên quy mô lớn, và họ sẽ không kém cạnh bất kỳ doanh nghiệp tư nhân nào về khối lượng lớn dữ liệu mà họ kiểm soát. Vấn đề đặt ra là làm sao khai thác được nguồn dữ liệu dồi dào này.
Vậy dữ liệu được định giá như thế nào? Việc tính toán giá trị của nó sẽ không chỉ đơn giản là cộng những gì đã đạt được từ ứng dụng chính của nó. Một cách để bắt đầu là xem xét các chiến lược khác nhau mà những người sở hữu dữ liệu để tận dụng giá trị. Tuy nhiên, do người được cấp phép có thể thất bại trong việc tận dụng toàn bộ giá trị tương lai, chủ sở hữu dữ liệu có thể không muốn cấp quyền truy cập tài sản theo kiểu độc quyền. Thay vì vậy, “dữ liệu chung chạ” có thể trở thành tiêu chuẩn. Bằng cách đó, họ có thể tự bảo hiểm cho mình.
Những tác động
Một nghề chuyên môn mới xuất hiện gần đây, “nhà khoa học dữ liệu”, kết hợp các kỹ năng của nhà thống kê, người lập trình phần mềm, nhà thiết kế thông tin đồ hoạ, và người kể chuyện. Thời đại dữ liệu lớn báo hiệu sự cáo chung của các chuyên gia.
Chúng ta cung cấp rất nhiều thông tin cá nhân và điều đó có thể khiến chúng ta bị kiểm soát.
Bên cạnh sự riêng tư và khuynh hướng, chúng ta có nguy cơ trở thành nạn nhân của một chế độ độc tài dữ liệu, trong đó chúng ta tôn sùng thông tin và cuối cùng là lạm dụng nó.
Dữ liệu lớn cho phép giám sát cuộc sống của chúng ta nhiều hơn, trong khi nó khiến một số biện pháp pháp lý để bảo vệ sự riêng tư hầu như trở nên lỗi thời như thông báo và xin phép cá nhân, loại ra, hay vô danh hoá. Cũng đáng lo ngại khi các dự đoán dữ liệu lớn về cá nhân có thể được sử dụng để trừng phạt công dân vì những khuynh hướng của họ, chứ không phải vì những hành động của họ. Điều này phủ nhận ý chí tự do và làm xói mòn phẩm giá con người.
Những gì chúng ta có thể thu thập và xử lý sẽ luôn luôn chỉ là một phần nhỏ của các thông tin tồn tại trên thế giới. Nó chỉ có thể là một hình ảnh của hiện thực. Bởi vì chúng ta không bao giờ có được thông tin hoàn hảo, nên các dự đoán của chúng ta vốn dĩ luôn có thể sai lầm. Điều này không có nghĩa chúng là sai, chỉ là chúng luôn không đầy đủ. Nó không phủ nhận những hiểu biết mà dữ liệu lớn cung cấp, nhưng nó đặt dữ liệu lớn vào đúng vị trí của nó – một công cụ không cung cấp các câu trả lời cuối cùng, mà chỉ những câu trả lời đủ tốt để giúp chúng ta bây giờ cho đến khi có được các phương pháp tốt hơn, và cùng với đó là các câu trả lời tốt hơn. Nó cũng cho chúng ta thấy rằng chúng ta phải sử dụng công cụ này với rất nhiều sự khiêm nhường và cả tính nhân văn nữa.
Ý kiến bài viết