Video dài, thao tác phần mềm và an toàn agent

Ở mảng video AI, EntityBench đặt ra một bài kiểm tra quan trọng: mô hình tạo video không chỉ cần hình ảnh đẹp, mà phải giữ đúng nhân vật, vật thể và địa điểm qua nhiều cảnh. Benchmark gồm 140 episode, 2.491 shot, với độ khó lên tới 50 shot, 13 nhân vật, 8 địa điểm và 22 vật thể trong cùng một chuỗi.

Cũng trong video, Causal Forcing++ hướng tới tạo video tương tác thời gian thực bằng cơ chế autoregressive theo từng frame, chỉ cần 1–2 sampling steps. Điều này mở ra viễn cảnh người dùng có thể điều khiển video AI khi nó đang được sinh ra, thay vì chờ render xong mới chỉnh sửa.

Với AI agent, Video2GUI rất đáng chú ý vì cho AI học thao tác phần mềm từ video hướng dẫn trên Internet. Nhóm nghiên cứu quét 500 triệu metadata video, tạo WildGUI với 12 triệu trajectory, phủ hơn 1.500 app/web, giúp nhiều GUI agent tăng 5–20% trên benchmark.

Ở khía cạnh trí nhớ, GroupMemBench cho thấy AI dễ rối khi hội thoại nhóm: mô hình mạnh nhất chỉ đạt 46.0% accuracy, và chỉ 27.1% ở tác vụ cập nhật kiến thức.

Cuối cùng, HarnessAudit nhắc rằng agent trả lời đúng chưa chắc đã an toàn. Benchmark 210 task trong 8 lĩnh vực cho thấy rủi ro truy cập sai tài nguyên và rò rỉ ngữ cảnh tăng theo độ dài quá trình hành động.