Bài báo Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs đặt ra một thước đo mới cho năng lực toán học của AI. Sau khi các mô hình lớn đạt mức rất cao ở toán kiểu Olympic, câu hỏi tiếp theo là: AI có thể chạm tới toán nghiên cứu thật hay chưa? Soohak trả lời bằng một benchmark gồm 439 bài toán, được viết mới từ đầu bởi 64 nhà toán học, nhằm giảm rủi ro mô hình đã “nhìn thấy đề” trong dữ liệu huấn luyện.

Soohak có hai phần chính: Challenge gồm 340 bài ở mức sau đại học và gần nghiên cứu; Refusal gồm 99 bài kiểm tra khả năng nhận ra đề sai, thiếu giả thiết hoặc không có đáp án duy nhất. Đây là điểm rất sâu: làm toán nghiên cứu không chỉ là giải, mà còn phải biết khi nào không nên giải một bài toán được phát biểu sai.

Kết quả cho thấy khoảng cách còn lớn. Trên tập Challenge, Gemini-3-Pro đạt 30.39%, GPT-5 đạt 26.37%, Claude-Opus-4.5 đạt 10.39%; mô hình mở tốt nhất là Kimi-2.5 với 13.87%. Ở tập Refusal, không mô hình nào vượt 50%; mô hình đóng tốt nhất đạt 43.10%, còn GLM-5 đạt 49.49%.

Nhóm tác giả cũng xây Soohak-Mini gồm 702 câu hỏi, do 105 người đóng góp, bao phủ từ Olympic phổ thông đến đầu sau đại học; tại đây GPT-5 đạt 72.22%, còn Kimi-K2.5 đạt 66.07%. Với baseline con người, 25 người chia thành 5 đội giải 79 prompt và bao phủ 50.6% mẫu, cho thấy benchmark khó nhưng vẫn khả thi với người giỏi.

AI đã rất mạnh trong suy luận toán, nhưng toán nghiên cứu cần hơn “tính đúng”: cần kiến thức sâu, trực giác chuyên ngành và khả năng biết dừng khi bài toán không hợp lệ.

Posted in