-
Ở nhóm nghiên cứu, Mega-ASR nổi bật vì nhắm vào nhận dạng giọng nói “in-the-wild”, tức môi trường thật có nhiễu, giọng khác nhau, thiết bị khác nhau. Đây là bài toán quan trọng vì AI giọng nói trong lớp học, chăm sóc khách hàng hay thiết bị di động không thể chỉ hoạt động tốt trong phòng thu. Lance của ByteDance đi theo hướng mô hình đa phương thức thống nhất, vừa hiểu, tạo và chỉnh sửa ảnh/video bằng huấn luyện đa nhiệm. Thay vì nhiều mô hình riêng lẻ, xu hướng mới là một mô hình có…