Nhiều bài nghiên cứu cho thấy AI đang chuyển từ “trả lời nhanh” sang tự tối ưu cách suy luận, tìm kiếm và quan sát thế giới.

Đáng chú ý nhất là paper LLMs Improving LLMs, đề xuất để AI tự khám phá chiến lược test-time scaling — tức phân bổ thêm tính toán khi trả lời, thay vì con người phải tự thiết kế mẹo suy luận thủ công. Ý tưởng này có thể giúp mô hình trả lời thông minh hơn mà không nhất thiết phải huấn luyện lại từ đầu.

Ở hướng embodied AI, HumanNet giới thiệu bộ dữ liệu video lấy con người làm trung tâm với khoảng 967 nghìn giờ video, phục vụ huấn luyện và đánh giá AI/robot học từ hành vi người thật. Đây là bước quan trọng vì robot tương lai có thể học “cách con người hành động” trước khi thao tác trong môi trường thật.

Với lập trình, CoREB chỉ ra một vấn đề thú vị: tìm kiếm code thực tế khó hơn nhiều so với benchmark cũ. Đặc biệt, các truy vấn ngắn kiểu lập trình viên hay gõ khiến nhiều mô hình gần như rơi xuống mức rất thấp, dù embedding chuyên cho code vẫn mạnh hơn mô hình tổng quát trong truy vấn code-to-code.

Computer vision cũng có hai hướng đáng chú ý. HyperEyes biến mô hình đa phương thức thành agent tìm kiếm song song, vừa định vị hình ảnh vừa truy hồi thông tin trong một hành động. Trong khi đó, GazeVLM đặt vấn đề: VLM hiện nay nhìn ảnh khá thụ động, còn con người biết tập trung vào vùng quan trọng khi suy luận.

AI không chỉ cần lớn hơn, mà cần biết suy nghĩ hiệu quả hơn, nhìn có trọng tâm hơn và tìm thông tin đúng ngữ cảnh hơn.

Posted in