Các mô hình ngôn ngữ – thị giác ngày nay có thể mô tả ảnh, đọc tài liệu, phân tích biểu đồ và hỗ trợ nhiều tác vụ đa phương thức. Nhưng bài báo Online Self-Calibration Against Hallucination in Vision-Language Models cho thấy một điều quan trọng: AI nhìn ảnh rất giỏi, nhưng vẫn có thể “ảo giác” — tức mô tả những chi tiết không hề tồn tại trong ảnh. Vấn đề này đặc biệt nguy hiểm trong y tế, xe tự lái, robot và các hệ thống cần độ tin cậy cao.
Điểm sâu sắc của nghiên cứu là phê phán cách huấn luyện phổ biến: dùng mô hình mạnh hơn làm “giáo viên” để tạo mô tả chi tiết cho mô hình yếu hơn. Nghe hợp lý, nhưng đôi khi lại phản tác dụng. Khi mô hình học trò bị ép mô tả những chi tiết vượt quá khả năng nhìn của nó, nó không học cách “thấy” tốt hơn, mà học cách “đoán” thuyết phục hơn.
Nhóm tác giả đề xuất OSCAR, một cơ chế tự hiệu chỉnh trực tuyến. Thay vì chỉ sinh mô tả mở, mô hình tự kiểm tra: “Chi tiết này có thật trong ảnh không?” Nghiên cứu nhận thấy mô hình thường yếu khi mô tả tự do, nhưng khá hơn khi xác minh đúng/sai từng chi tiết cụ thể.
AI đáng tin không phải AI nói nhiều nhất, mà là AI biết dừng lại, kiểm chứng và chỉ nói những gì nó thật sự “thấy”.