Bài báo “Social Bias in LLM-Generated Code: Benchmark and Mitigation“ đặt ra một vấn đề rất đáng chú ý: các mô hình AI sinh code thường được đánh giá bằng tiêu chí “chạy đúng”, nhưng ít được kiểm tra xem logic code có tạo ra thiên lệch xã hội hay không. Nhóm tác giả xây dựng SocialBias-Bench gồm 343 tác vụ lập trình thực tế, thuộc 7 nhóm bối cảnh như phúc lợi xã hội, tuyển sinh/học bổng, phát triển nhân sự, sức khỏe, giấy phép, sở thích và nghề nghiệp; đồng thời kiểm tra 7 chiều nhân khẩu học: tuổi, giới, tôn giáo, chủng tộc, tình trạng việc làm, hôn nhân và giáo dục.
Kết quả cho thấy thiên lệch xuất hiện ở cả 4 mô hình được đánh giá. GPT-3.5-turbo-0125 có Code Bias Score cao nhất: 60,58%, trong khi CodeLlama-70b-instruct-hf thấp nhất nhưng vẫn ở mức 28,34%. Các chiều dễ bị lệch mạnh gồm tuổi, tình trạng việc làm và trình độ giáo dục. Đáng chú ý, các kỹ thuật prompt quen thuộc không giúp giảm lệch: Chain-of-Thought làm CBS của GPT-3.5 tăng từ 60,58% lên 72,65%, còn codechat-bison tăng từ 40,06% lên 55,51%.
Điểm sáng của bài là Fairness Monitor Agent — FMA, một tác nhân giám sát có thể gắn vào pipeline sinh code. FMA phân tích yêu cầu, xác định thuộc tính nào được phép dùng, phát hiện vi phạm và sửa qua nhiều vòng mà không cần bộ test thực thi. Sau 3 vòng sửa, CBS giảm từ 48,40% xuống 16,91%, tức giảm 65,1%, trong khi độ đúng chức năng tăng từ 75,80% lên 83,97%.
AI viết code không chỉ cần đúng cú pháp và đúng logic, mà còn phải đúng về tác động xã hội.