Agent bước vào tầng hạ tầng, bảo mật và quản lý ngữ cảnh

Ở nhóm paper, AOHP cho thấy agent cấp hệ điều hành cần harness mở, cá nhân hóa, hiệu quả và an toàn. Điều này quan trọng vì agent càng gần máy cá nhân thì rủi ro quyền truy cập càng lớn. Managing Procedural Memory và Plans Don’t Persist đi vào lõi kỹ thuật của agent dài hạn: agent không chỉ cần nhớ dữ kiện, mà phải giữ được quy trình, kế hoạch và ngữ cảnh qua nhiều bước. Litmus bổ sung hướng đánh giá mới: mô tả metric bằng code, giảm phụ thuộc vào nhãn thủ công.

Ở nhóm nền tảng, OpenAI mở rộng Daybreak và GPT-5.5-Cyber, chuyển trọng tâm từ phát hiện lỗ hổng sang hỗ trợ vá lỗi. Google đưa Managed Python UDFs lên GA trong BigQuery, giúp dữ liệu doanh nghiệp chạy logic Python trực tiếp trên hạ tầng serverless. Anthropic mở rộng trải nghiệm Claude Desktop lên AWS, Google Cloud và Microsoft Foundry. GitHub tiếp tục đưa Copilot vào workflow agent doanh nghiệp với Claude provider preview, agent debug logs và khả năng steer task đang chạy.

AI agent tương lai phải có harness an toàn, memory bền, metric rõ, dữ liệu chạy được tại chỗ và security workflow đủ mạnh để vào production.