• Ở nhóm paper, LiveBrowseComp đặt câu hỏi rất đáng chú ý: search agent có thật sự tìm kiếm thông tin mới, hay chỉ dùng web để xác nhận điều nó đã tin sẵn? Đây là vấn đề cốt lõi khi AI được giao nhiệm vụ nghiên cứu, tổng hợp tài liệu hoặc viết báo cáo. Do Agents Know What They Can’t Do? đi sâu hơn vào năng lực tự nhận biết giới hạn: agent cần biết khi nào thiếu công cụ, thiếu quyền, thiếu dữ liệu hoặc không đủ chắc để tiếp tục. VeriTrip đưa bài toán này vào…