SkillOpt: khi “kỹ năng” của AI agent cũng cần được huấn luyện

Paper SkillOpt: Executive Strategy for Self-Evolving Agent Skills đặt ra một ý tưởng rất thực tế: với AI agent, thích nghi nhiệm vụ không nhất thiết phải fine-tune trọng số mô hình. Thay vào đó, ta có thể huấn luyện skill document — một tài liệu ngôn ngữ tự nhiên chứa quy trình, mẹo, chính sách dùng công cụ, định dạng đầu ra và lỗi cần tránh. Nói ngắn gọn: nếu mô hình là “bộ não”, skill là “sổ tay thao tác” của agent.

Vấn đề là các skill hiện nay thường do người viết tay, LLM tạo một lần, hoặc tự sửa khá tùy hứng. SkillOpt biến quá trình này thành một dạng tối ưu hóa trong không gian văn bản. Agent chạy thử nhiệm vụ, ghi lại trajectory, thành công, thất bại, tool call và verifier feedback; sau đó một optimizer model đề xuất các chỉnh sửa có giới hạn kiểu thêm/xóa/thay thế. Mỗi chỉnh sửa chỉ được chấp nhận nếu làm tăng điểm trên tập validation ẩn. Cơ chế này giống “learning rate”, “validation gate” và “momentum” trong deep learning, nhưng áp dụng cho văn bản kỹ năng.

Kết quả rất ấn tượng với SkillOpt được đánh giá trên 6 benchmark, 7 target model, 3 execution harness gồm direct chat, Codex và Claude Code. Trong 52 tổ hợp model–benchmark–harness, SkillOpt đứng đầu hoặc đồng hạng đầu ở cả 52/52. Với GPT-5.5, nó tăng accuracy trung bình so với không dùng skill +23,5 điểm trong direct chat, +24,8 điểm trong Codex loop và +19,1 điểm trong Claude Code.

Điểm đáng chú ý nhất là skill sau tối ưu chỉ khoảng 300–2.000 token, không thêm model call khi triển khai, có thể kiểm tra bằng mắt, chuyển giữa model, giữa Codex và Claude Code, thậm chí sang benchmark toán gần kề.

AI agent tương lai không chỉ cần mô hình mạnh hơn, mà cần kỹ năng được huấn luyện, kiểm chứng và tái sử dụng như một tài sản phần mềm.