Ở nhóm paper, LedgerAgent đặt trọng tâm vào structured state cho tool-calling agents. Thay vì để mọi quyết định trôi trong context, agent cần một “sổ cái trạng thái” để bám policy, ghi nhận hành động và kiểm soát quyền. Automating SKILL.md Generation mở hướng rất thực tế: agent có thể khai thác interaction trajectory để tự tạo file kỹ năng, biến lịch sử thao tác thành quy trình tái sử dụng. Multi-LCB mở rộng LiveCodeBench sang nhiều ngôn ngữ lập trình, giúp đánh giá coding model sát thực tế hơn. Confidence-Aware Automated Assessment đưa AI vào chấm mô hình khoa học học sinh vẽ, nhưng kèm độ tin cậy để tránh chấm máy móc. ScaffoldAgent tập trung vào deep research mở, nơi agent phải tối ưu dàn ý động để tránh lan man.

Ở nhóm nền tảng, Anthropic đưa enterprise-managed authorization cho MCP connectors, cho phép admin cấp quyền tập trung qua IdP như Okta. Đây là bước quan trọng vì agent càng nhiều tool càng cần quản trị quyền nghiêm túc. Claude Code Artifacts biến kết quả làm việc của agent thành trang web tương tác như PR walkthrough, incident timeline hay release checklist. Microsoft mở rộng MAI-Code-1-Flash sang nhiều bề mặt Copilot, còn Google Cloud trình bày cách dùng Antigravity 2.0 để migrate TypeScript CLI sang Go bằng skill và TDD.

AI agent tương lai không chỉ cần thông minh, mà cần state có cấu trúc, quyền MCP quản trị tập trung, kỹ năng tái sử dụng và artifact để cả nhóm kiểm tra được.

Posted in