Skill-to-LoRA: kỹ năng agent nên nằm trong prompt hay trong trọng số?

Paper Skill-to-LoRA: From Using Skills to Learning Behaviors for Token-Efficient LLM Agents đặt ra một vấn đề rất thực tế của coding agent: nhiều hệ thống dùng file SKILL.md để mô tả quy trình, tool, tài nguyên và quy ước miền. Cách này dễ đọc, dễ kiểm tra, nhưng mỗi lần agent chạy lại phải nhét cùng một skill document vào context, làm tốn token và có thể cạnh tranh với bằng chứng quan trọng trong repo.

Giải pháp của paper là S2L – Skill-to-LoRA. Thay vì nén văn bản skill, S2L học hành vi mà skill tạo ra. Offline, hệ thống dùng toàn bộ SKILL.md để sinh các demonstration có hướng dẫn kỹ năng; sau đó distill hành vi đó vào một LoRA adapter riêng cho từng skill. Online, agent không cần đưa toàn bộ SKILL.md vào prompt nữa, chỉ giữ metadata nhẹ và nạp adapter tương ứng để kích hoạt hành vi đã học.

Thử nghiệm dùng Qwen3.6-27B trên 21 skill của SWE-Skills-Bench, tổng cộng 210 task. Kết quả: S2L giải được 65/210 task, cao hơn Vanilla LLM 59/210 và Full Skill Text 54/210. So với không dùng skill, S2L tăng pass rate +2,9 điểm phần trăm; so với Full Skill Text, tăng +5,2 điểm. Đồng thời, S2L giảm token cost mỗi bước 6,6% so với Full Skill Text; so với Vanilla, Full Skill Text làm tăng token 13,39%, còn S2L giảm 4,89%.

Điểm đáng chú ý: S2L bằng hoặc hơn Full Skill Text trên 18/21 skill, và hơn no-skill baseline trên 15/21 skill; Wrong-LoRA và Shared-LoRA đều làm giảm hiệu quả, chứng tỏ adapter phải khớp đúng kỹ năng.

Skill của agent không nhất thiết phải sống mãi trong prompt. Với kỹ năng có workflow ổn định, ta có thể chuyển từ runtime instruction sang behavioral module: rẻ token hơn, gọn context hơn và gần với cách triển khai agent dài hạn hơn.