Agent thông minh hơn, nhưng áp lực kiểm chứng cũng lớn hơn

Ở nhóm paper, LiveBrowseComp đặt câu hỏi rất đáng chú ý: search agent có thật sự tìm kiếm thông tin mới, hay chỉ dùng web để xác nhận điều nó đã tin sẵn? Đây là vấn đề cốt lõi khi AI được giao nhiệm vụ nghiên cứu, tổng hợp tài liệu hoặc viết báo cáo. Do Agents Know What They Can’t Do? đi sâu hơn vào năng lực tự nhận biết giới hạn: agent cần biết khi nào thiếu công cụ, thiếu quyền, thiếu dữ liệu hoặc không đủ chắc để tiếp tục. VeriTrip đưa bài toán này vào lập kế hoạch du lịch, nơi thông tin web phi cấu trúc phải được kiểm chứng trước khi đề xuất lịch trình. AutoScientists mở rộng sang nghiên cứu khoa học dài hạn, còn LACUNA tiếp cận an toàn agent từ góc nhìn ngôn ngữ lập trình.

Ở nhóm nền tảng và hạ tầng, các hãng lớn như Microsoft, Google, Amazon và Meta đang chú ý hơn đến data center xanh, vì AI agent chạy dài hạn sẽ tiêu thụ tài nguyên lớn hơn chatbot thông thường.

Với lập trình, bài học quan trọng là không nên “vibe coding” theo kiểu giao việc mơ hồ rồi tin ngay code AI sinh ra. Thủ thuật đáng dùng là đo token theo workflow, cắt context thừa, yêu cầu agent lập kế hoạch, thực thi, chạy test và xác minh kết quả.