Trần Ngọc Minh

Agent vẫn “đuối” đường dài, video trở thành bộ não thị giác

13/07/2026

Tâm điểm hôm nay là Long-Horizon-Terminal-Bench, đứng đầu Hugging Face Daily Papers. Benchmark gồm 46 tác vụ terminal dài hạn, từ kỹ nghệ phần mềm đến tái lập thí nghiệm. Mô hình mạnh nhất chỉ hoàn thành hoàn hảo 10,9%; mỗi lần chạy trung bình tiêu thụ 9,9 triệu token. Khoảng cách lớn nhất của agent hiện không phải viết lệnh, mà là duy trì kế hoạch, ngữ cảnh và sửa lỗi qua hàng trăm bước. Computer vision nổi bật với nghiên cứu Google DeepMind Video Generation Models are General-Purpose Vision Learners. Thay vì chỉ tạo video, mô hình…

Agent vẫn “đuối” đường dài, video trở thành bộ não thị giác