Sinh viên đã tự tạo một bài kiểm tra cho AI — và nhiều agent hiện tại vẫn chưa vượt qua!

AcademiClaw là một benchmark mới nhằm kiểm tra năng lực thật của các AI agent trong môi trường học thuật, thay vì chỉ đánh giá các tác vụ trợ lý đơn giản như sắp lịch, đọc email hay tạo dự án mẫu. Bộ dữ liệu gồm 80 tác vụ dài, phức tạp, được chọn lọc từ 230 đề xuất của sinh viên đại học, dựa trên các workflow thật như bài tập, nghiên cứu, cuộc thi và dự án cá nhân. Các tác vụ trải rộng 25+ lĩnh vực, gồm toán Olympic, ngôn ngữ học, lập trình full-stack, phân tích bảo mật, machine learning, computer vision, robotic simulation và khoa học tính toán. Trong đó có 16 tác vụ cần CUDA GPU, điều hiếm thấy trong các benchmark agent hiện nay.

Điểm mạnh của AcademiClaw là cách đánh giá nhiều chiều. Mỗi task chạy trong Docker sandbox, rubric bị ẩn với agent, và kết quả được chấm bằng 6 kỹ thuật: kiểm tra mẫu, chạy code, LLM-as-judge, vision LLM, kiểm thử trình duyệt end-to-end và xác thực cấu trúc đầu ra. Ngoài độ đúng, nhóm tác giả còn ghi log hành vi và kiểm tra an toàn theo 5 nhóm rủi ro.

Kết quả cho thấy AI agent hiện nay vẫn còn giới hạn rõ rệt: mô hình tốt nhất chỉ đạt khoảng 55% pass rate. Không có mô hình nào thống trị mọi lĩnh vực; STEM reasoning là nhóm khó nhất, trong khi Language & Creativity dễ hơn. Một phát hiện quan trọng là dùng nhiều token hơn không đồng nghĩa làm tốt hơn; có mô hình “chạy thử nhiều” nhưng điểm không cao.

AI agent đã mạnh, nhưng vẫn chưa đủ tin cậy cho các nhiệm vụ học thuật dài, đa bước, cần hiểu sâu, dùng công cụ đúng và giữ an toàn trong môi trường thật.