Agent bước vào nghiên cứu, Colab và kiểm chứng hình thức

Ở nhóm paper, How AI Agents Reshape Knowledge Work đặt vấn đề rộng hơn: agent không chỉ tăng năng suất, mà có thể thay đổi cách tổ chức lao động tri thức. Act As a Real Researcher kiểm tra liệu frontier LLM và agentic harness có thể tham gia toàn bộ vòng đời nghiên cứu như một nhà nghiên cứu thật hay không. DuMate-DeepResearch đi theo hướng deep research có thể audit, dùng multi-agent, recursive search và reasoning bám rubric. StainFlow tập trung vào GUI agent, theo dõi entity, evidence và process reward để biết bằng chứng nào dẫn tới hành động nào. Đặc biệt, Lean4Agent mở hướng kiểm chứng formal cho trajectory của agent bằng Lean4.

Ở nhóm nền tảng, OpenAI cập nhật GPT-Rosalind cho life sciences: MedChemBench đạt 27,5%, GeneBench 21,6%, LabWorkBench 63,2%, đồng thời dùng ít token hơn GPT-5.5 ở một số tác vụ. Google giới thiệu Colab CLI, cho phép agent hoặc người dùng điều khiển runtime Colab từ terminal cục bộ, rất hữu ích cho bài lab ML và pipeline cần GPU. Anthropic cũng thông báo lịch ngừng API Claude Opus 4.1, khuyến nghị chuyển sang Opus 4.8.