Nguồn: Generative AI: The First Draft, Not Final – KDnuggets

Có thể nói rằng Trí tuệ Nhân tạo (AI) đang trở thành một trào lưu. Kể từ khi trợ lý trò chuyện của OpenAI, ChatGPT, bất ngờ trở nên nổi tiếng vào cuối năm ngoái, ngành công nghệ đã rộn ràng về các mô hình ngôn ngữ lớn (LLM), công nghệ đằng sau ChatGPT. Google, Meta và Microsoft, cùng với các công ty khởi nghiệp được đầu tư mạnh như Anthropic Cohere, đều đã tung ra sản phẩm LLM của riêng họ. Các công ty trên nhiều lĩnh vực đã nhanh chóng tích hợp LLM vào dịch vụ của họ: chỉ riêng OpenAI đã có khách hàng từ các fintech như Stripe sử dụng chatbot để hỗ trợ dịch vụ khách hàng, đến các edtech như Duolingo Khan Academy tạo nội dung giáo dục, và các công ty game như Inworld sử dụng LLM để tạo lời thoại cho nhân vật không chơi (NPC) ngay lập tức. Dựa trên những hợp tác và việc sử dụng rộng rãi này, dự kiến OpenAI sẽ đạt doanh thu hơn một tỷ đô la hàng năm. Dễ dàng bị ấn tượng bởi thành công của những mô hình này: báo cáo kỹ thuật về GPT-4, phiên bản mới nhất của LLM của OpenAI, cho thấy mô hình đạt được điểm số ấn tượng trên nhiều tiêu chí học thuật và nghề nghiệp, bao gồm kỳ thi bar, SAT, LSAT và GRE, cũng như các kỳ thi AP trong các môn như lịch sử nghệ thuật, tâm lý học, thống kê, sinh học và kinh tế.

Kết quả nổi bật này có thể cho thấy sự kết thúc của người lao động tri thức, nhưng có một điểm khác biệt chính giữa GPT-4 và một chuyên gia con người: GPT-4 không hiểu biết. Các phản hồi mà GPT-4 và tất cả các LLM tạo ra không bắt nguồn từ quá trình suy luận logic mà từ các hoạt động thống kê. Các mô hình ngôn ngữ lớn được đào tạo trên lượng dữ liệu lớn từ internet. Các web crawler – bot truy cập hàng triệu trang web và tải xuống nội dung của chúng – tạo ra các bộ dữ liệu văn bản từ tất cả các loại trang web: mạng xã hội, wikis và diễn đàn, các trang web tin tức và giải trí. Những bộ dữ liệu văn bản này chứa hàng tỷ hoặc hàng nghìn tỷ từ, chủ yếu được sắp xếp theo ngôn ngữ tự nhiên: các từ tạo thành câu, câu tạo thành đoạn văn.

Để học cách tạo ra văn bản mạch lạc, các mô hình tự huấn luyện bằng cách sử dụng dữ liệu này trên hàng triệu ví dụ về hoàn thiện văn bản. Ví dụ, bộ dữ liệu cho một mô hình cụ thể có thể chứa các câu như “Đó là một đêm tối và u ám,” và “Thủ đô của Tây Ban Nha là Madrid.” Lần lượt, mô hình cố gắng dự đoán từ tiếp theo sau khi nhìn thấy “Đó là một đêm tối và” hoặc “Thủ đô của Tây Ban Nha là,” sau đó kiểm tra xem nó đúng hay không và tự cập nhật mỗi khi sai. Dần dần, mô hình trở nên giỏi hơn ở nhiệm vụ hoàn thiện văn bản này, đặc biệt ở những ngữ cảnh nơi từ tiếp theo gần như luôn giống nhau, như “Thủ đô của Tây Ban Nha là” – phản ứng được mô hình xem xét là phản ứng được coi là “đúng” nhất theo quan điểm của con người. Trong những ngữ cảnh mà từ tiếp theo có thể là một số từ khác nhau, như “Đó là một đêm tối và,” mô hình sẽ học cách chọn lựa điều con người sẽ coi là ít nhất là một lựa chọn hợp lý, có thể là “u ám,” nhưng cũng có thể là “đen tối” hoặc “ẩm mốc” thay vào đó. Giai đoạn này của vòng đời của LLM, nơi mà mô hình tự huấn luyện trên các bộ dữ liệu văn bản lớn, được gọi là giai đoạn tiền huấn luyện. Đối với một số ngữ cảnh, việc chỉ dự đoán từ tiếp theo không nhất thiết sẽ đem lại kết quả mong muốn; mô hình có thể không hiểu rằng nó nên phản ứng với các hướng dẫn như “Viết một bài thơ về một con chó” bằng một bài thơ thay vì tiếp tục theo hướng dẫn đó. Để tạo ra các hành vi nhất định như tuân thủ hướng dẫn và cải thiện khả năng của mô hình thực hiện các nhiệm vụ cụ thể, như viết mã hoặc trò chuyện thông thường với mọi người, LLMs sau đó được huấn luyện trên các bộ dữ liệu được thiết kế để bao gồm các ví dụ của những nhiệm vụ đó.

Tuy nhiên, nhiệm vụ chính của các LLMs được huấn luyện để tạo ra văn bản bằng cách dự đoán các từ tiếp theo có khả năng dẫn đến hiện tượng được biết đến là ảo tưởng (hallucinations), một lỗi kỹ thuật được ghi chép chặt chẽ trong ngành, nơi mà các LLMs tự tin tạo ra thông tin và giải thích không chính xác khi được khởi chạy. Khả năng của các LLMs dự đoán và hoàn thiện văn bản dựa trên các mẫu học được trong quá trình đào tạo, nhưng khi phải đối mặt với việc hoàn thiện không chắc chắn hoặc có nhiều lựa chọn khả dĩ, các LLMs sẽ chọn lựa chọn có vẻ hợp lý nhất, ngay cả khi thiếu bất kỳ cơ sở thực tế nào.

Ví dụ, khi Google ra mắt trợ lý trò chuyện của mình, Bard, nó đã mắc một lỗi thực tế trong buổi trình diễn công chúng đầu tiên. Bard đã nổi tiếng khi tuyên bố rằng Kính viễn vọng Không gian James Webb (JWST) “chụp những hình ảnh đầu tiên của một hành tinh ngoài hệ mặt trời của chúng ta.” Nhưng theo thực tế, hình ảnh đầu tiên của một hành tinh ngoài hệ mặt trời đã được chụp vào năm 2004 bởi Kính viễn vọng Rất Lớn (Very Large Telescope – VLT) trong khi JWST không được phóng lên cho đến năm 2021.

Ảo tưởng không phải là điểm yếu duy nhất của LLM – việc đào tạo trên lượng lớn dữ liệu internet cũng dẫn đến các vấn đề về độ thiên vị (bias)bản quyền (copyright). Đầu tiên, hãy thảo luận về độ thiên vị, đó là các kết quả khác nhau từ một mô hình theo các thuộc tính của danh tính cá nhân, chẳng hạn như chủng tộc, giới tính, tầng lớp hoặc tôn giáo. Vì LLM học các đặc điểm và mẫu từ dữ liệu internet, chúng cũng tiếp thu các thành kiến giống con người, bất công lịch sử và các liên kết văn hóa. Trong khi con người có thiên vị, LLM lại càng tồi tệ hơn vì chúng có xu hướng khuếch đại các thiên vị hiện có trong dữ liệu đào tạo. Đối với LLM, nam giới là bác sĩ, kỹ sư và CEO thành công, phụ nữ là nhân viên lễ tân và y tá trợ giúp và xinh đẹp, và người LGBTQ (đồng tính) không tồn tại.

Việc huấn luyện LLMs trên lượng dữ liệu internet không lường trước được cũng đặt ra những câu hỏi về vấn đề bản quyền. Bản quyền là quyền độc quyền đối với một tác phẩm sáng tạo, trong đó người sở hữu bản quyền là thực thể duy nhất có thẩm quyền sao chép, phân phối, trình diễn hoặc biểu diễn tác phẩm trong một khoảng thời gian nhất định.

Hiện tại, vấn đề pháp lý chính liên quan đến LLMs không tập trung vào việc có thể bảo vệ bản quyền cho sản phẩm của chúng hay không, mà thay vào đó là vi phạm tiềm ẩn đối với các bản quyền hiện tại từ các nghệ sĩ và nhà văn, người sáng tạo góp phần vào các tập dữ liệu đào tạo của chúng. Hội đồng Tác giả đã kêu gọi OpenAI, Google, Meta và Microsoft, cùng với các công ty khác, phải đồng ý, công nhận và đền bù công bằng cho các tác giả sử dụng tác phẩm có bản quyền trong quá trình đào tạo LLMs. Một số tác giả và nhà xuất bản cũng đã tự xử lý vấn đề này.

Lập trình viên LLM hiện đang đối mặt với một số vụ kiện từ cá nhân và các nhóm liên quan đến vấn đề bản quyền – Sarah Silverman, một nghệ sĩ hài và diễn viên, đã tham gia một nhóm tác giả và nhà xuất bản kiện OpenAI vì cho rằng họ chưa bao giờ cho phép sử dụng sách được bảo vệ bản quyền của họ để huấn luyện LLM.

Ngoài các vấn đề liên quan đến ảo tưởng, thiên vị và bản quyền, LLM còn có nhiều vấn đề khác. Ví dụ, LLM mã hóa thông tin nhạy cảm, tạo ra các đầu ra không mong muốn hoặc độc hại và có thể bị kẻ thù khai thác. Tuy nhiên, LLM xuất sắc trong việc tạo ra văn bản mạch lạc và phù hợp về ngữ cảnh và chắc chắn sẽ được tận dụng để cải thiện hiệu quả trong nhiều nhiệm vụ và kịch bản khác nhau.

Các nhà nghiên cứu cũng đang làm việc để giải quyết một số trong số các vấn đề này, nhưng cách tốt nhất để kiểm soát các đầu ra của mô hình vẫn là một câu hỏi nghiên cứu mở, do đó các LLM hiện có không thể tránh khỏi sai sót. Các đầu ra của chúng luôn được kiểm tra tính chính xác, tính thực tế và thiên vị tiềm ẩn. Nếu bạn nhận được một đầu ra quá tốt để là sự thật, bạn nên cẩn trọng và xem xét kỹ hơn. Trách nhiệm nằm ở người dùng để xác minh và sửa đổi bất kỳ văn bản được tạo ra từ LLM hoặc như chúng tôi thường nói, trí tuệ nhân tạo tạo sinh: đó là bản nháp đầu tiên, không phải bản cuối cùng.

Posted in , , ,