Trần Ngọc Minh

Agent cần dữ liệu hợp nhất, trí nhớ tiết kiệm và kiểm chứng sâu hơn

30/06/2026

Ở nhóm paper, Tandem Reinforcement Learning with Verifiable Rewards nhấn mạnh một hướng quan trọng: nếu muốn agent học tốt, reward phải kiểm chứng được thay vì chỉ dựa vào đánh giá cảm tính. ATOD tiếp tục hướng này với distillation on-policy cho multi-turn autonomous agents, tức agent nhiều lượt cần được nén hành vi mà vẫn giữ khả năng hành động. Verifiable Geometry Problem Solving đưa kiểm chứng vào bài toán hình học bằng autoformalization và theorem proposing, cho thấy AI reasoning đang dịch chuyển từ “giải nghe hợp lý” sang “giải có thể xác minh”. AI-Driven Synthesis…

Agent cần dữ liệu hợp nhất, trí nhớ tiết kiệm và kiểm chứng sâu hơn