Paper “Process Rewards with Learned Reliability” giải quyết một điểm yếu quan trọng của các mô hình suy luận hiện nay: khi AI giải toán hoặc lập luận nhiều bước, ta thường dùng Process Reward Model – PRM để chấm điểm từng bước. Nhưng PRM truyền thống chỉ đưa ra một điểm số, ví dụ bước này có vẻ đúng bao nhiêu phần trăm, mà không nói điểm số đó có đáng tin hay không. Vì vậy, hệ thống phía sau dễ coi một phán đoán thiếu chắc chắn như tín hiệu chắc chắn.

Nhóm tác giả đề xuất BetaPRM, một PRM dạng phân phối. Thay vì học trực tiếp từ tỷ lệ thành công hữu hạn K/NK/NK/N, BetaPRM mô hình hóa xác suất thành công của một prefix suy luận bằng phân phối Beta. Mô hình dự đoán hai đại lượng: mean μ là điểm thưởng/quả quyết bước đó có khả năng dẫn tới đáp án đúng, và concentration κ là độ tin cậy của dự đoán. κ\kappaκ cao nghĩa là mô hình khá chắc; κ\kappaκ thấp nghĩa là cùng một điểm số nhưng còn nhiều bất định.

Điểm hay là BetaPRM học từ Monte Carlo continuations: với mỗi bước suy luận, hệ thống cho mô hình đi tiếp nhiều lần rồi đếm số lần ra đáp án đúng. Thay vì ép mô hình khớp cứng vào tỷ lệ quan sát được, BetaPRM học một niềm tin có độ bất định, phù hợp hơn với bản chất nhiễu của quá trình lấy mẫu.

Trên 4 backbone4 reasoning benchmark, BetaPRM cải thiện lựa chọn Best-of-N có PRM hướng dẫn; ví dụ tăng trung bình +3.37 điểm trên InternVL2.5-8B. Khi kết hợp với Adaptive Computation Allocation – ACA, hệ thống biết dừng khi lời giải điểm cao đã đủ tin cậy, hoặc tiếp tục tính toán ở các prefix còn bất định. Kết quả: giảm token tới 33.57% so với Best-of-16 cố định, đồng thời vẫn cải thiện độ chính xác cuối.

AI suy luận tốt không chỉ cần nghĩ nhiều hơn, mà cần biết khi nào nên tin vào chính quá trình suy luận của mình.

Posted in