Từ suy luận Olympic đến trợ lý doanh nghiệp

Ở nhóm nghiên cứu, các paper hot tập trung vào năng lực agent, trí nhớ và video. SU-01 cho thấy mô hình 30B-A3B có thể đạt mức suy luận huy chương vàng Olympic nhờ khoảng 340K trajectory, 200 bước RL và chuỗi suy luận vượt 100K token. Causal Forcing++ hướng tới tạo video tương tác thời gian thực chỉ với 1–2 sampling steps, mở đường cho việc “đạo diễn video AI khi đang chạy”. SDAR cải thiện agent nhiều lượt, tăng +9.4% ALFWorld, +7.0% Search-QA và +10.2% WebShop-Acc. MemLens cảnh báo VLM nhớ hình ảnh kém hơn kỳ vọng: khi bỏ ảnh bằng chứng, hai mô hình mạnh rơi xuống dưới 2% accuracy trên phần lớn câu hỏi cần ảnh. Trong khi đó, LLMs Improving LLMs cho thấy AI có thể tự khám phá chiến lược suy luận hiệu quả hơn với chi phí chỉ khoảng 39.9 USD.

Ở nhóm nền tảng, Google I/O 2026 trở thành tâm điểm trước thềm công bố mới về Gemini và Android. AlphaEvolve của Google DeepMind tiếp tục nhấn mạnh vai trò AI trong tối ưu thuật toán. Microsoft báo cáo tỷ lệ lao động dùng AI tăng lên 17.8%, với 26 nền kinh tế vượt mức 30%. Claude for Small Business đưa AI agent vào tài chính, bán hàng, marketing và vận hành. Cuối cùng, Anthropic Mythos cho thấy AI an ninh mạng đã trở thành vấn đề cấp hệ thống.