CROP: không vứt cả lời giải AI chỉ vì một bước sai

Paper Conformal Certification of Reasoning Trace Prefixes đặt ra một vấn đề rất tinh tế: khi AI suy luận sai, thường không phải toàn bộ chuỗi suy luận đều sai. Nhiều bước đầu có thể đúng, rồi lỗi xuất hiện ở một điểm nào đó và kéo đáp án cuối đi lệch. Cách đánh giá truyền thống thường chỉ chấp nhận hoặc loại bỏ toàn bộ câu trả lời, nên hoặc quá mạo hiểm, hoặc lãng phí phần suy luận còn dùng được.

Nhóm tác giả đề xuất CROP – Conformal Reasoning Output Prefixes. Ý tưởng là thay vì chứng nhận toàn bộ lời giải, CROP tìm đoạn tiền tố dài nhất của chuỗi suy luận mà rủi ro lỗi vẫn nằm dưới ngưỡng đã hiệu chỉnh. Phần sau chưa được chứng nhận sẽ được chuyển cho bước kiểm tra, sửa lỗi hoặc backtracking. CROP không phụ thuộc vào một verifier cụ thể; nó có thể dùng process reward model, detector học máy, likelihood statistic hoặc heuristic miễn là có điểm rủi ro theo từng bước.

Điểm mạnh của CROP nằm ở bảo đảm thống kê: dưới giả định exchangeability, xác suất đoạn prefix được giữ lại chứa lỗi được kiểm soát ở mức mục tiêu α. Paper cũng nhấn mạnh rằng AUROC theo từng bước chưa đủ để đánh giá verifier; điều quan trọng hơn là giữ lại được bao nhiêu prefix sạch.

Thử nghiệm trên 6 bộ dữ liệu process-labeled gồm Arithmetic, GSM8K, ProcessBench, Math-Shepherd, PRMBench và PRM800K. Riêng benchmark chính có 2.819 traces, 19.311 bước suy luận và 1.006 lỗi được gán nhãn. Trên Arithmetic, độ lệch biên của CROP chỉ 1,1, tốt hơn whole-trace abstention 4,6; trên GSM8K là 9,9 so với 14,1.