• AcademiClaw là một benchmark mới nhằm kiểm tra năng lực thật của các AI agent trong môi trường học thuật, thay vì chỉ đánh giá các tác vụ trợ lý đơn giản như sắp lịch, đọc email hay tạo dự án mẫu. Bộ dữ liệu gồm 80 tác vụ dài, phức tạp, được chọn lọc từ 230 đề xuất của sinh viên đại học, dựa trên các workflow thật như bài tập, nghiên cứu, cuộc thi và dự án cá nhân. Các tác vụ trải rộng 25+ lĩnh vực, gồm toán Olympic, ngôn ngữ học, lập trình full-stack, phân…