Paper GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge đặt ra một vấn đề nền tảng: phần mềm, dữ liệu, hạ tầng và thí nghiệm đều có version control, nhưng suy luận của AI agent thì không. Chain-of-thought biến mất khi hết context; nhánh tìm kiếm bị cắt không để lại dấu vết; memory buffer không diff, không merge, không audit được.

GitOfThoughts đề xuất lưu cây suy luận của agent như một Git repository: mỗi “thought” có điểm số là một commit, điểm số là git notes, kết quả là tag, nhánh khám phá là branch, truy xuất ký ức bằng git log, còn hợp nhất ký ức giữa agent bằng git fetchgit merge. Nhờ vậy, suy luận có thể replay, audit, diff, merge, thậm chí đóng gói bằng git bundle.

Điểm sâu nhất của paper lại là một kết quả âm tính: memory không giúp đáng tin cậy trên bài toán mới. Qua 5 substrate — không memory, markdown, vector, graph, git — trên 2 benchmarkGPQA-DiamondMATH-500, với 2 quy mô model và thí nghiệm replication đăng ký trước, không substrate nào cải thiện ổn định accuracy trên novel problems. Xu hướng Git tăng +15 điểm phần trăm ở n=40 đã sụp khi replication.

Memory chỉ có ích khi vượt “copyability threshold”: nếu case truy xuất gần trùng bài hiện tại, similarity khoảng ≥ 0,8, accuracy tăng mạnh +12 đến +13,5 điểm; với model lớn hơn 4,5×, payoff gần trùng tăng +22,5 đến +28,5 điểm. Nhưng đó chủ yếu là answer retrieval, không phải chuyển giao phương pháp.

GitOfThoughts không chứng minh agent nhớ tốt hơn, mà chứng minh agent cần trí nhớ có nguồn gốc, có lịch sử, có diff và có thể kiểm toán như một hệ thống phần mềm thật.

Posted in