Agent bắt đầu học từ lỗi thật

Ở nhóm paper, Locally Coherent, Globally Incoherent nêu một vấn đề rất đáng chú ý: từng bước của agent có thể nghe hợp lý, nhưng toàn bộ hệ thống lại mâu thuẫn. Điều này đặc biệt quan trọng với multi-agent, nơi nhiều thành phần cùng lập kế hoạch, gọi công cụ và tổng hợp kết quả. When Should Models Change Their Minds? đi vào năng lực cập nhật niềm tin: AI cần biết khi nào nên giữ lập luận cũ, khi nào phải đổi theo bằng chứng mới. Conformal Certification of Reasoning Trace Prefixes mở hướng kiểm chứng độ tin cậy ngay từ phần đầu của chuỗi suy luận, còn AgentDoG 1.5 tập trung vào alignment, safety và security cho agent.

Ở nhóm nền tảng, OpenAI nổi bật với hai hướng ứng dụng. Rosalind Biodefense đưa AI vào phòng vệ sinh học, hỗ trợ phát hiện sớm, mô hình dịch tễ và phát triển đối sách y tế. Trong khi đó, mô hình Tax AI dùng Codex để biến phản hồi chuyên gia thành eval và vòng cải tiến; pilot xử lý 7.000 hồ sơ thuế, tiết kiệm khoảng 1/3 thời gian, accuracy draft tới 97% và throughput tăng khoảng 50%.