AI tiếp tục được triển khai và đánh giá

OpenAI gây chú ý khi lập OpenAI Deployment Company với khoản đầu tư hơn 4 tỷ USD, nhằm đưa AI vào doanh nghiệp thông qua đội ngũ kỹ sư và chuyên gia triển khai. Điều này cho thấy AI đang chuyển từ công cụ chatbot sang hạ tầng vận hành thực tế trong công việc.

Ở mảng nghiên cứu, Soohak đặt ra một thử thách lớn cho các mô hình ngôn ngữ: 439 bài toán nghiên cứu do 64 nhà toán học xây dựng. Kết quả cho thấy các mô hình mạnh như Gemini, GPT và Claude vẫn còn khoảng cách lớn với tư duy toán học chuyên sâu.

Trong học thuật, PaperFit giải quyết một vấn đề quen thuộc: bài báo LaTeX biên dịch được chưa chắc đã trình bày đẹp. Hệ thống dùng AI “nhìn” bản PDF, phát hiện lỗi bố cục rồi sửa mã nguồn.

Với computer vision, WorldReasonBench nhắc rằng video AI có thể rất đẹp mắt nhưng vẫn sai logic, nhân quả hoặc diễn biến thế giới. Còn X-OmniClaw mở ra hướng mobile AI agent có thể hiểu màn hình, giọng nói, bộ nhớ và hành động trên Android.