Ở nhóm paper, Evaluation Cards nhấn mạnh rằng việc đánh giá AI không thể chỉ dựa vào vài con số leaderboard; benchmark cần lớp giải thích minh bạch hơn để người đọc hiểu mô hình mạnh ở đâu, yếu ở đâu. SIGA đưa coding agent vào mô phỏng khoa học, nơi agent không chỉ viết code mà còn tự tiến hóa adapter để thích nghi với từng miền bài toán. CHAP đề xuất giao thức cộng tác người–agent, phản ánh xu hướng agent không thay thế hoàn toàn con người mà cần phối hợp theo quy tắc rõ ràng.
Trong nghiên cứu sâu, SearchSwarm tập trung vào năng lực phân công và điều phối nhiều tuyến tìm kiếm, còn WeaveBench kiểm tra computer-use agent trong workflow dài hạn với giao diện lai. Đây là bước quan trọng vì agent thật không chỉ bấm đúng một lần, mà phải đi qua nhiều màn hình, nhiều quyết định và nhiều trạng thái.
Về nền tảng, Anthropic ra mắt Claude Fable 5 và Mythos 5 với 1M token context và 128k output tokens. GitHub Copilot trong VS Code cũng tiến thêm với remote agents, Agents window và khả năng duy trì phiên làm việc khi client ngắt kết nối.