Ở nhóm paper, PreAct đặt mục tiêu rất thực tế cho computer-use agents: khi gặp lại tác vụ quen thuộc, agent không nên suy luận lại từ đầu mà phải tận dụng kinh nghiệm để thao tác nhanh hơn. StepGuard tiếp tục nhấn mạnh rủi ro trong web navigation: chỉ một bước click sai có thể làm hỏng toàn bộ workflow, nên agent cần hiệu chuẩn từng bước. ProvenanceGuard đưa vấn đề factuality vào bối cảnh MCP: khi agent dùng dữ liệu và tool bên ngoài, mỗi kết luận cần truy vết được nguồn, thời điểm và bằng chứng. Đây là khác biệt giữa “AI trả lời nghe hợp lý” và “AI có thể kiểm toán”.

Ở chiều khoa học, PseudoBench cảnh báo mặt tối của auto-research: agent nghiên cứu sâu có thể làm giả khoa học trông thuyết phục hơn nếu thiếu kiểm chứng. Với giáo dục, Measuring Whether LLM Tutors Teach or Solve chạm đúng câu hỏi cốt lõi: AI tutor đang giúp người học hiểu, hay chỉ giải hộ bài?

Về nền tảng, OpenAI giới thiệu LifeSciBench với 750 tasks, 1.062 artifacts, 173 scientist contributors, 453 expert reviewers19.020 rubric criteria; GPT-Rosalind đạt 36,1% exact pass rate, tăng từ 25,7% của GPT-5.5 nhưng vẫn cho thấy khoa học thật rất khó. Google Cloud đẩy data agents vào doanh nghiệp, còn GitHub tiếp tục tăng kiểm soát chất lượng và bảo mật cho coding agent.

AI agent tương lai phải nhanh hơn, có nguồn hơn, được chấm bằng rubric thật và không được biến tự động hóa thành nhà máy giả khoa học.

Posted in