MemPrivacy: để AI nhớ bạn mà không làm lộ dữ liệu riêng tư

Khi AI agent ngày càng có bộ nhớ cá nhân, rủi ro lớn không còn chỉ là “AI trả lời sai”, mà là AI lưu nhầm hoặc gửi dữ liệu nhạy cảm lên cloud. Paper MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents giải quyết đúng điểm nghẽn này: làm sao để AI vẫn cá nhân hóa tốt, nhưng không phơi bày email, địa chỉ, sức khỏe, tài chính hay thông tin định danh của người dùng.

Vấn đề của cách che dữ liệu truyền thống là quá thô. Nếu thay mọi thông tin nhạy cảm bằng ***, cloud không còn hiểu ngữ cảnh để ghi nhớ hoặc xử lý tác vụ. MemPrivacy chọn hướng tinh tế hơn: phát hiện đoạn nhạy cảm ngay trên thiết bị người dùng, thay bằng placeholder có loại, ví dụ <Health_Info_1> hoặc <Email_1>, rồi chỉ khôi phục giá trị thật ở cục bộ sau khi cloud xử lý xong. Nhờ vậy, cloud vẫn hiểu “đây là thông tin sức khỏe” hay “đây là email”, nhưng không thấy dữ liệu thật.

Bài báo xây dựng MemPrivacy-Bench gồm 200 người dùng và hơn 52.000 privacy instances, kèm phân loại riêng tư 4 cấp độ để cấu hình chính sách bảo vệ theo độ nhạy cảm. Nhóm tác giả huấn luyện các mô hình nhẹ từ 0.6B đến 4B tham số, phù hợp triển khai trên thiết bị biên.

Kết quả đáng chú ý: MemPrivacy vượt các mô hình tổng quát mạnh như GPT-5.2 và Gemini-3.1-Pro trong trích xuất thông tin riêng tư, đồng thời giảm độ trễ suy luận. Khi tích hợp với nhiều hệ thống bộ nhớ phổ biến, mức mất tiện ích được giữ trong khoảng 1.6%, tốt hơn các chiến lược masking thông thường.

AI cá nhân hóa tương lai không chỉ cần “nhớ tốt”, mà phải nhớ có chọn lọc, xử lý cục bộ và bảo vệ quyền riêng tư ngay từ thiết kế.