Dữ liệu phức hợp, hạ tầng triển khai lớn, tạo video nhanh và hiểu tài liệu dài.

MulTaBench nhấn mạnh rằng dữ liệu thật hiếm khi chỉ là văn bản hoặc bảng số liệu đơn lẻ. Benchmark này gồm 40 bộ dữ liệu, chia cho hai nhóm image-tabular và text-tabular, phản ánh các tình huống như hồ sơ bệnh án kèm ảnh X-quang, sản phẩm kèm ảnh và mô tả. Đây là hướng quan trọng cho AI ứng dụng trong y tế, giáo dục, thương mại và phân tích dữ liệu.

Ở tầng hạ tầng, MinT cho thấy cuộc đua LLM không chỉ nằm ở mô hình lớn, mà còn ở cách triển khai tiết kiệm. Hệ thống dùng LoRA adapter, hỗ trợ mô hình trên 1T tham số, quản lý tới 10^6 policy, và tăng tốc adapter-only handoff 18.3× trên mô hình 4B.

Với sáng tạo nội dung, AnyFlow của NVIDIA tập trung vào video diffusion “any-step”, giúp tạo video bằng ít bước hơn nhưng vẫn giữ chất lượng. Nghiên cứu thử nghiệm trên mô hình từ 1.3B đến 14B tham số, rất đáng chú ý cho tương lai video AI nhanh và rẻ hơn.

Trong giáo dục và nghiên cứu, MMProLong mở rộng vision-language model 7B từ 32K lên 128K context, tăng 7.1% điểm long-document VQA và tổng quát hóa tới 256K–512K context.

Cuối cùng, Edit-Compass đặt chuẩn đánh giá mới cho AI chỉnh ảnh với 2.388 mẫu và 2.251 cặp ưu tiên, nhấn mạnh rằng chỉnh ảnh AI không chỉ cần đẹp, mà phải đúng ý và đúng logic.