-
Ở nhóm paper, Evaluation Cards nhấn mạnh rằng việc đánh giá AI không thể chỉ dựa vào vài con số leaderboard; benchmark cần lớp giải thích minh bạch hơn để người đọc hiểu mô hình mạnh ở đâu, yếu ở đâu. SIGA đưa coding agent vào mô phỏng khoa học, nơi agent không chỉ viết code mà còn tự tiến hóa adapter để thích nghi với từng miền bài toán. CHAP đề xuất giao thức cộng tác người–agent, phản ánh xu hướng agent không thay thế hoàn toàn con người mà cần phối hợp theo quy tắc rõ ràng.…