Bài báo “LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling” đặt ra một vấn đề quan trọng: muốn LLM trả lời tốt hơn, không nhất thiết phải huấn luyện lại mô hình lớn hơn; ta có thể phân bổ thêm tính toán lúc suy luận, gọi là test-time scaling. Nhưng trước đây, các chiến lược này thường do con người tự thiết kế bằng kinh nghiệm: khi nào mở thêm nhánh suy luận, khi nào tiếp tục, thăm dò, cắt nhánh hoặc dừng.
Nhóm tác giả đề xuất AutoTTS, một framework để AI agent tự khám phá chiến lược test-time scaling. Thay vì bắt nhà nghiên cứu viết thủ công từng heuristic, con người chỉ thiết kế môi trường: trạng thái, hành động, phản hồi và mục tiêu. Sau đó, agent đề xuất “controller” điều khiển quá trình suy luận trong không gian width–depth: mở nhiều nhánh hay đào sâu một nhánh. Để giảm chi phí, AutoTTS dùng offline replay: với mỗi bài toán, hệ thống thu trước 128 reasoning trajectories, chia theo khoảng 500 token, rồi đánh giá controller mà không cần gọi LLM lặp lại.
Thử nghiệm dùng bốn mô hình Qwen3 0.6B, 1.7B, 4B, 8B; tìm chiến lược trên AIME24, rồi kiểm tra trên AIME25 và HMMT25 chưa từng dùng khi khám phá. AutoTTS chạy 5 vòng discovery với Claude Code, chỉ tốn 39.9 USD và 160 phút. Kết quả trung bình đạt 53.1% accuracy với 575.5K token, tốt hơn các bản ablation: bỏ beta parameterization còn 49.0%, bỏ execution traces còn 51.6%.
Điểm sâu nhất của paper là thay đổi vai trò con người: không còn tự nghĩ mẹo suy luận, mà thiết kế môi trường để AI tự phát hiện chiến lược. Tương lai của LLM không chỉ là mô hình lớn hơn, mà là mô hình biết dùng thời gian suy luận thông minh hơn.