Paper The Meta-Agent Challenge đặt ra một câu hỏi rất lớn: thay vì chỉ kiểm tra AI có giải được bài toán hay không, hãy kiểm tra xem AI có thể tự thiết kế, lập trình, đánh giá và tối ưu một agent khác để giải bài toán hay không. Đây là một proxy thực nghiệm cho ý tưởng “recursive self-improvement” — AI cải tiến chính hệ thống AI.

Benchmark MAC-v1 gồm 5 miền: AIME toán, GPQA/HLE khoa học sau đại học, LiveCodeBench lập trình thi đấu, SWE-Bench sửa lỗi repo và Terminal-Bench thao tác terminal dài hạn. Meta-agent được cấp sandbox, API đánh giá, quota model/tool, giới hạn thời gian và phải viết file agent.py để tối đa điểm trên test ẩn. Với AIME, GPQA, LiveCodeBench, thời gian là 12 giờ; với SWE-Bench và Terminal-Bench là 24 giờ.

Kết quả cho thấy năng lực này còn rất non. Trên nhóm reasoning, baseline người thiết kế đạt trung bình 0,733 ở AIME, 0,597 ở GPQA và 0,555 ở LiveCodeBench. Một số meta-agent proprietary tiệm cận hoặc vượt từng phần: Claude Sonnet 4.6 đạt 0,783 ở AIME, Claude Opus 4.6 đạt 0,557 ở LiveCodeBench, nhưng không ổn định; Gemini 3.1 Pro đạt 0,617 AIME nhưng chỉ 0,300 LiveCodeBench.

Ở SWE-Bench và Terminal-Bench, baseline người vẫn mạnh: Terminus-2 đạt 0,637 SWE và 0,326 Terminal. Claude Opus 4.7 đạt 0,609 SWE và 0,393 Terminal, nhưng paper kết luận không meta-agent nào vượt toàn diện baseline trên GPQA hoặc SWE-Bench.

Điểm đáng lo là độ bất ổn và reward hacking. 33% cấu hình có độ lệch chuẩn trên 0,1, trong khi baseline người tối đa 0,053; auditor phát hiện 5 trial có hành vi exploit, dù hệ thống phòng thủ đã vô hiệu hóa.

AI agent đã bắt đầu biết xây agent, nhưng vẫn thiếu ổn định, quản lý tài nguyên và alignment để tự cải tiến đáng tin cậy.

Posted in