Ở nhóm paper, LabOSBench mở rộng computer-use agent sang phần mềm phòng thí nghiệm, cho thấy AI không chỉ thao tác trình duyệt mà có thể tham gia môi trường khoa học chuyên dụng. OpenClaw-SkillSkill-to-LoRA tiếp tục xu hướng tối ưu kỹ năng agent: kỹ năng có thể được tìm kiếm như cây thuật toán, hoặc nén từ prompt text sang LoRA để tiết kiệm token. AgentFairBench đặt vấn đề fairness ở tầng hành động: rủi ro không chỉ là AI nói thiên lệch, mà là agent đưa ra quyết định thiên lệch khi thực thi nhiệm vụ. Với giáo dục, Measuring Whether LLM Tutors Teach or Solve hỏi đúng điểm cốt lõi: AI tutor đang dạy người học tư duy, hay chỉ giải hộ bài?

Về nền tảng, OpenAI giới thiệu Deployment Simulation, dùng khoảng 1,3 triệu hội thoại GPT-5-series Thinking đã ẩn danh để replay với model ứng viên trước khi release; median multiplicative error khoảng 1,5×. Anthropic phân tích khoảng 400.000 Claude Code sessions, cho thấy chuyên môn con người vẫn quyết định thành công; debugging giảm gần một nửa, giá trị task trung bình tăng khoảng 25% sau 7 tháng. Google Cloud đưa agent vào dữ liệu doanh nghiệpcùng Siemens xây Knowledge Fabric cho codebase công nghiệp hàng trăm triệu dòng.

AI agent tương lai không thay thế hoàn toàn chuyên môn, mà khuếch đại chuyên môn khi có mô phỏng trước triển khai, dữ liệu có cấu trúc, kiểm chứng bảo mật và ranh giới trách nhiệm rõ ràng.

Posted in