Paper From Model Scaling to System Scaling đặt lại cách nhìn về tiến bộ AI. Thay vì chỉ tăng kích thước mô hình, nghiên cứu nhấn mạnh vai trò của harness, workflow, công cụ, bộ nhớ, kiểm thử và cơ chế điều phối. Đây là hướng rất thực tế vì một agent giỏi không chỉ “trả lời thông minh”, mà phải biết dùng đúng công cụ, kiểm tra kết quả và hoàn thành nhiệm vụ trong môi trường thật.
CUA-Gym tiếp tục xu hướng này bằng cách xây môi trường huấn luyện và đánh giá cho computer-use agents — các AI có thể thao tác máy tính, trình duyệt và phần mềm như người dùng. Điểm quan trọng là agent không thể chỉ được kiểm tra bằng câu trả lời cuối; nó cần được đánh giá qua từng hành động trên giao diện.
Ở nhóm nền tảng lớn, Microsoft Research giới thiệu MagenticLite, MagenticBrain và Fara1.5, một stack agentic tối ưu cho mô hình nhỏ. Đây là tín hiệu đáng chú ý: tương lai agent không nhất thiết chỉ thuộc về mô hình khổng lồ, mà còn phụ thuộc vào kiến trúc điều phối, trình duyệt, file system và cách chia nhỏ nhiệm vụ.