Paper Code-on-Graph: Iterative Programmatic Reasoning via Large Language Models on Knowledge Graphs giải quyết một điểm nghẽn lớn của LLM khi dùng knowledge graph: nếu chỉ nhét facts vào prompt, context sẽ phình to; nếu chỉ dùng tool/operator có sẵn, AI bị kẹt khi câu hỏi cần thao tác phức tạp như xếp hạng, lọc lồng nhau, so sánh giá trị hay gom nhóm.
Giải pháp là CoG – Code-on-Graph. Thay vì bắt LLM viết SPARQL trực tiếp hoặc gọi vài operator cố định, CoG chia câu hỏi thành các subtask, truy xuất facts liên quan, biến schema của graph thành Python class, rồi để LLM sinh code chạy trên các object đó trong sandbox. Nếu code lỗi, hệ thống dùng execution feedback để sửa và chạy lại. Cách này giúp AI “viết công cụ tạm thời” cho từng câu hỏi, thay vì bị giới hạn bởi bộ tool cố định.
Thử nghiệm trên 3 benchmark KGQA đa bước: WebQSP, CWQ và GrailQA, tất cả dựa trên Freebase. Số mẫu test lần lượt là 1.639, 3.531 và 1.000 mẫu GrailQA được chọn theo thiết lập ToG/PoG. Chỉ số chính là Hits@1.
Kết quả khá mạnh: CoG + DeepSeek-V3.2 đạt 88,7 trên WebQSP, 79,1 trên CWQ, 91,0 trên GrailQA Overall, 90,5 I.I.D., 84,2 Compositional và 93,5 Zero-shot. Paper báo cáo CoG vượt phương pháp SOTA trước đó tới 10,5%.
Hiệu quả ấn tượng: trên CWQ, CoG xử lý 20.276 fact units/câu hỏi so với 408 của PoG, trong khi số token tương đương và runtime còn thấp hơn một chút; LLM calls giảm từ 25,1 xuống 7,0.