Khi mô hình biết nhớ, biết nhìn và biết hành động

Không chỉ trả lời tốt hơn, mà còn có trí nhớ, hiểu hình ảnh sâu hơn, bảo vệ dữ liệu riêng tư và dự đoán hậu quả hành động.

SenseNova-U1 gây chú ý với hướng thống nhất nhiều năng lực trong một mô hình: hiểu ảnh, suy luận đa phương thức, tạo ảnh, nhận biết không gian và hỗ trợ hành động. Thay vì tách riêng “AI nhìn ảnh” và “AI tạo ảnh”, nghiên cứu này đặt mục tiêu xây dựng một hệ thống thị giác-ngôn ngữ tổng hợp hơn.

Ở mảng trí nhớ, δ-mem đề xuất cơ chế bộ nhớ online rất nhỏ cho LLM. Chỉ với trạng thái nhớ 8×8, mô hình vẫn cải thiện hiệu quả trên nhiều bài kiểm tra, cho thấy AI không nhất thiết phải kéo dài context vô hạn, mà cần nhớ có chọn lọc.

Tuy nhiên, khi AI có trí nhớ cá nhân, rủi ro riêng tư tăng mạnh. MemPrivacy xử lý vấn đề này bằng cách thay dữ liệu nhạy cảm bằng placeholder như <Health_Info_1>, rồi khôi phục cục bộ khi cần. Benchmark gồm 200 người dùng và hơn 52.000 privacy instances, với mức suy giảm hiệu quả chỉ khoảng 1.6%.

Với embodied AI, World Action Models nhấn mạnh rằng robot không chỉ cần biết hành động, mà phải dự đoán thế giới thay đổi ra sao sau hành động đó. Trong khi đó, CausalCine mở hướng tạo video dài nhiều cảnh theo thời gian thực, cho phép người dùng điều khiển nội dung khi video đang được sinh ra.

AI tương lai sẽ không chỉ thông minh hơn, mà còn cần nhớ đúng, hiểu đúng, hành động đúng và bảo vệ dữ liệu đúng cách.