Paper Diagnosing Knowledge Gaps in LLM Tool Use đánh vào một điểm rất thực tế của AI lập trình: model có thể biết Python, nhưng khi gặp API mới chưa có trong dữ liệu huấn luyện, nó thường không chỉ thiếu tên hàm, mà thiếu cả đường dẫn import, tham số, kiểu dữ liệu, hành vi ngữ nghĩa và cách dùng trong chương trình thật.
Đóng góp chính là NOVELAPIBENCH, một benchmark động, tự động phát hiện API mới theo từng base model và thư viện mục tiêu, trích xuất “knowledge bundle”, sinh task có test harness chạy được, rồi phân loại lỗi thành 6 nhóm: chọn sai API, import sai, syntax sai, tham số sai, shape/dtype sai và logic sai. Benchmark tạo khoảng 1.9k task, phủ khoảng 800 API mới, 5 miền thư viện, 19 thư viện và 4 backbone model.
Kết quả cho thấy “cho nhiều tài liệu hơn” không phải lúc nào cũng tốt. Với Qwen2.5-Coder-7B-Instruct, baseline không có tri thức chỉ đạt 3.1% pass@1. Ví dụ sử dụng API là thành phần đơn lẻ mạnh nhất, đạt 18.2%; surface signature đạt 21.7%; kết hợp signature + mechanism prose đạt cao nhất 23.5%. Ngược lại, thêm source code đầy đủ chỉ đạt 20.5%, thấp hơn vì làm tăng lỗi import và nhiễu đường dẫn module.
Điểm sâu nhất nằm ở fine-tuning. Các phương pháp SFT, RAFT, GRACE, MEMIT, AlphaEdit không thật sự “nhớ” API mới nếu bỏ bundle lúc suy luận. Không có bundle, SFT chỉ đạt 3.3%, RAFT và AlphaEdit 5.7%; nhưng khi có bundle, SFT đạt 85.5%, RAFT 82.7%, AlphaEdit 72.7%.
Với coding agent, retrieval cung cấp tri thức API biến động, còn fine-tuning chủ yếu dạy model cách dùng tri thức được đưa vào. Tương lai của AI lập trình không chỉ là model mạnh hơn, mà là hệ thống biết tìm đúng tài liệu, chọn đúng API, import đúng và kiểm chứng bằng test thật.