• Ở nhóm paper, LedgerAgent đặt trọng tâm vào structured state cho tool-calling agents. Thay vì để mọi quyết định trôi trong context, agent cần một “sổ cái trạng thái” để bám policy, ghi nhận hành động và kiểm soát quyền. Automating SKILL.md Generation mở hướng rất thực tế: agent có thể khai thác interaction trajectory để tự tạo file kỹ năng, biến lịch sử thao tác thành quy trình tái sử dụng. Multi-LCB mở rộng LiveCodeBench sang nhiều ngôn ngữ lập trình, giúp đánh giá coding model sát thực tế hơn. Confidence-Aware Automated Assessment đưa AI vào chấm mô…