• Ở nhóm paper, HLL đặt vấn đề về “ranh giới cuối của kiểm chứng”: khi agent ngày càng phức tạp, liệu kết quả của nó còn đủ minh bạch để con người đánh giá? Harness-1 đưa search agent vào huấn luyện tăng cường với harness quản lý trạng thái bên ngoài, giúp quá trình tìm kiếm có cấu trúc và dễ kiểm soát hơn. POIROT tiếp cận lỗi trong hệ multi-agent bằng cách “thẩm vấn” chính các agent để phát hiện điểm bất thường. Where Do Deep-Research Agents Go Wrong? đi thẳng vào bài toán rất thực tế: agent…