Paper Beyond Helpfulness: A Teaching-over-Solving Diagnostic for Measuring Educational Impact in LLM Tutors đặt ra một câu hỏi rất đúng với giáo dục AI: một mô hình giải bài giỏi có đồng nghĩa với dạy học tốt không? Câu trả lời của nhóm tác giả là không đủ. Trong lớp học, đưa đáp án đúng quá nhanh có thể làm học sinh hoàn thành nhiệm vụ, nhưng lại làm mất cơ hội tự suy luận.
Paper không tạo benchmark mới, mà phân tích lại hai nguồn công khai: MathTutorBench leaderboard và TutorBench sample. Với MathTutorBench, nhóm tác giả tách điểm thành hai nhóm: solving composite gồm problem solving, solution correctness, mistake location, mistake correction; và pedagogy composite gồm Socratic questioning, scaffolding, pedagogy instruction-following và các biến thể khó hơn. Kết quả trên 8 mô hình cho thấy hai năng lực này chỉ tương quan vừa phải, r = 0,421.
Số liệu rất đáng chú ý: LearnLM-1.5-Pro đạt solving 0,750, pedagogy 0,594; GPT-4o đạt 0,695 và 0,592. Nhưng Qwen2.5-Math-7B đạt solving khá cao 0,568 nhưng pedagogy chỉ 0,116, tạo khoảng lệch −0,452. Ngược lại, LLaMA3.1-8B không mạnh nhất về giải bài, nhưng tăng từ hạng 7 solving lên hạng 4 pedagogy, với teaching-over-solving gap +0,077.
Phần TutorBench phân tích 30 tình huống, 324 rubric items. Active learning có mật độ tiêu chí agency cao nhất: agency dimension 1,000, agency skill 0,411; rubric còn yêu cầu tutor đưa gợi ý bằng ít nhất 2 câu hỏi dẫn dắt mà không lộ toàn bộ bước tiếp theo.
AI tutor không nên được chấm chỉ bằng “đúng đáp án”. Giá trị giáo dục nằm ở việc giữ quyền suy nghĩ cho người học, gợi mở vừa đủ và dạy mà không làm thay.