Paper MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research giải quyết một nút thắt lớn của mobile AI agent: muốn AI học dùng điện thoại, ta cần môi trường vừa giống app thật, vừa kiểm chứng được kết quả, vừa chạy song song rẻ. Các benchmark trên thiết bị thật khó tái lập vì tài khoản, backend, phiên bản app và hành động có hậu quả thật; emulator thì nặng và khó mở rộng cho huấn luyện online.

MobileGym chọn hướng khác: mô phỏng Android-like trên trình duyệt, nơi toàn bộ trạng thái app, hệ điều hành và thiết bị được biểu diễn bằng structured JSON. Nhờ vậy, hệ thống có thể đọc trạng thái để chấm điểm, ghi lại để reset, fork để rollout song song và so sánh state diff để phát hiện tác dụng phụ ngoài nhiệm vụ. Mỗi instance chỉ khoảng 400 MB RAM, cold start khoảng 3 giây, cho phép một server chạy hàng trăm môi trường song song.

Bộ MobileGym-Bench gồm 416 task template: 256 test, 160 train, phủ 28 app gồm 12 everyday apps16 system apps. Các tác vụ được chấm bằng judge xác định thay vì VLM judge dễ sai; với truy vấn, AnswerSheet có cấu trúc giúp tránh lỗi so khớp văn bản tự do.

Kết quả cho thấy bài toán còn rất khó. Trên 9 agent, success rate trải từ 9.4% đến 58.8%; Gemini 3.1 Pro cao nhất 58.8%, trong khi Qwen3-VL-4B-Instruct chỉ 9.4%. Ở mức khó L4, chỉ Gemini còn đạt 21.9%, các model khác rất thấp.

Điểm mạnh nhất là khả năng huấn luyện: GRPO trên Qwen3-VL-4B-Instruct tăng từ 9.4% lên 22.2% trên 256 task. Trên 59 task chạy được ở thiết bị thật, pass rate tăng từ 32.2% lên 72.9%, giữ lại 95.1% mức cải thiện từ mô phỏng.

Muốn AI dùng điện thoại thật sự tốt, không chỉ cần model mạnh, mà cần môi trường luyện tập có thể kiểm chứng, fork, chấm điểm và mở rộng như hạ tầng RL nghiêm túc.

Posted in