Giọng nói đời thực, mô hình đa phương thức và thế hệ học AI mới

Ở nhóm nghiên cứu, Mega-ASR nổi bật vì nhắm vào nhận dạng giọng nói “in-the-wild”, tức môi trường thật có nhiễu, giọng khác nhau, thiết bị khác nhau. Đây là bài toán quan trọng vì AI giọng nói trong lớp học, chăm sóc khách hàng hay thiết bị di động không thể chỉ hoạt động tốt trong phòng thu.

Lance của ByteDance đi theo hướng mô hình đa phương thức thống nhất, vừa hiểu, tạo và chỉnh sửa ảnh/video bằng huấn luyện đa nhiệm. Thay vì nhiều mô hình riêng lẻ, xu hướng mới là một mô hình có thể xử lý nhiều dạng nội dung trong cùng một pipeline.

Gated DeltaNet-2 của NVIDIA tập trung vào long-context bằng cách tách cơ chế “xóa” và “ghi” trong linear attention. Ý nghĩa sâu sắc ở đây là AI không chỉ cần nhớ dài, mà phải biết giữ thông tin quan trọng và loại bỏ thông tin nhiễu.

PhysX-Omni mở hướng tạo tài sản 3D có thể mô phỏng được, không chỉ đẹp về hình ảnh mà còn có thuộc tính vật lý cho robot, game và môi trường ảo.

Ở nhóm nền tảng, GPT-5.5 được giới thiệu với các điểm benchmark cao trên tác vụ chuyên nghiệp như GDPval, OSWorld-Verified và Tau2-bench Telecom. Ngoài ra, ChatGPT Futures Class of 2026 cho thấy AI đang trở thành công cụ học tập, nghiên cứu và sáng tạo của thế hệ sinh viên mới.