Trong bài DOPD: Dual On-policy Distillation, “teacher” là mô hình AI lớn hơn, mạnh hơn, có nhiệm vụ hướng dẫn. “Student” là mô hình AI nhỏ hơn, rẻ hơn, cần học lại năng lực của teacher để có thể chạy hiệu quả trong thực tế.
Thông thường, để huấn luyện student, người ta dùng distillation: cho student quan sát hoặc bắt chước cách teacher tạo câu trả lời. Với on-policy distillation, student không chỉ học từ dữ liệu có sẵn, mà tự sinh câu trả lời của mình trước; sau đó teacher đánh giá và chỉ dẫn từng token. Cách này giống một học sinh tự làm bài, rồi giáo viên sửa từng bước.
Nhưng bài báo chỉ ra một vấn đề rất nguy hiểm: không phải mọi tín hiệu từ teacher đều đáng học. Nếu teacher được cấp thêm thông tin đặc quyền — ví dụ gợi ý đúng, lời giải đã kiểm chứng, hoặc annotation thị giác — teacher có thể trả lời tốt hơn không phải vì nó “thông minh hơn”, mà vì nó có dữ kiện mà student sẽ không có khi triển khai thật. Nếu student cố bắt chước toàn bộ, nó sẽ học một năng lực giả. Paper gọi hiện tượng này là privilege illusion.
DOPD giải quyết bằng cách chọn lọc ở cấp token. Token nào phản ánh năng lực thật sự có thể chuyển giao thì student học mạnh từ teacher. Token nào chỉ phản ánh lợi thế thông tin đặc quyền thì giảm lực học hoặc chuyển sang học từ chính hành vi của student.
Tóm lại, chưng cất AI không phải là “mô hình nhỏ bắt chước mô hình lớn càng nhiều càng tốt”, mà là biết chọn tín hiệu nào thật sự đáng học, tín hiệu nào chỉ tạo ảo giác năng lực.