Tài nguyên Khóa Học Qwen

Alibaba Qwen Công Bố Mã Nguồn Mở Bộ Mô Hình Nhận Diện Giọng Nói Qwen3-ASR: Hỗ Trợ 52 Ngôn Ngữ, Phiên Bản 1.7B Đạt SOTA

Yến Đinh February 01, 2026 2 phút đọc

Nhóm Qwen của Alibaba đã công bố mã nguồn mở Qwen3-ASR, mang đến giải pháp nhận diện giọng nói đa ngôn ngữ với độ chính xác và hiệu quả vượt trội.

AI phân tích 4

Các điểm chính được AI trích xuất từ bài viết

1
Alibaba mở mã nguồn Qwen3-ASR hỗ trợ 52 ngôn ngữ

Ngày 29 tháng 1, nhóm Qwen của Alibaba đã công bố mã nguồn mở cho bộ mô hình nhận diện giọng nói Qwen3-ASR. Bộ phát hành này bao gồm hai mô hình ASR là Qwen3-ASR-1.7B và Qwen3-ASR-0.6B, cùng với mô...
2
Hiệu suất đột phá của Qwen3-ASR-1.7B

Qwen3-ASR-1.7B của Alibaba đạt hiệu suất đỉnh cao (SOTA) trong nhiều trường hợp sử dụng, bao gồm tiếng Trung phổ thông, tiếng Anh, và nhận diện giọng hát. Mô hình này sử dụng bộ mã hóa giọng nói AuT kết...
3
Mục tiêu mã nguồn mở của Qwen3-ASR

Việc mã nguồn mở dòng Qwen3-ASR của Alibaba nhằm thúc đẩy nghiên cứu và đổi mới trong lĩnh vực nhận diện và hiểu giọng nói. Nhóm Qwen đã đóng gói toàn bộ kiến trúc mô hình, trọng số và khung...
4
Qwen3-ForcedAligner-0.6B và độ chính xác thời gian

Qwen3-ForcedAligner-0.6B là mô hình dự đoán dấu thời gian dựa trên suy luận mô hình ngôn ngữ lớn không tự hồi quy (NAR). Nó hỗ trợ căn chỉnh chính xác và linh hoạt ở 11 ngôn ngữ khác nhau, với...

Alibaba Qwen chính thức mã nguồn mở bộ mô hình nhận diện giọng nói Qwen3-ASR

Ngày 29 tháng 1, nhóm Qwen của Alibaba đã chính thức phát hành mã nguồn mở cho dòng mô hình nhận diện giọng nói Qwen3-ASR – một hệ thống mạnh mẽ thuộc họ Qwen. Bộ phát hành bao gồm hai mô hình ASR đầy đủ tính năng là Qwen3-ASR-1.7B và Qwen3-ASR-0.6B, cùng với một mô hình căn chỉnh giọng nói sáng tạo mang tên Qwen3-ForcedAligner-0.6B. Toàn bộ dòng Qwen3-ASR hỗ trợ nhận diện giọng nói và xác định ngôn ngữ trên 52 ngôn ngữ và phương ngữ.

Công nghệ nổi bật và hiệu suất đột phá của Qwen3-ASR

Theo Alibaba, Qwen3-ASR sử dụng bộ mã hóa giọng nói được huấn luyện trước AuT kết hợp với nền tảng đa phương tiện mạnh mẽ của Qwen3-Omni, giúp nhận diện giọng nói đạt độ chính xác cao và ổn định.

Phiên bản 1.7B đạt hiệu suất đỉnh cao (SOTA) trên nhiều trường hợp sử dụng, bao gồm tiếng Trung phổ thông, tiếng Anh, nhận diện giọng nói có giọng Trung và nhận diện giọng hát. Đặc biệt, mô hình này thể hiện khả năng chịu nhiễu tốt trong môi trường có văn bản phức tạp và tiếng ồn cao.

Trong khi đó, phiên bản 0.6B cân bằng giữa hiệu suất và tính hiệu quả. Với độ chính xác nhận diện cao, mô hình hỗ trợ 128 luồng suy luận bất đồng bộ đồng thời với thông lượng lên đến 2.000 lần, cho phép xử lý hơn 5 giờ âm thanh chỉ trong 10 giây.

Mô hình căn chỉnh thời gian Qwen3-ForcedAligner-0.6B chính xác và linh hoạt

Qwen3-ForcedAligner-0.6B là mô hình dự đoán dấu thời gian dựa trên suy luận mô hình ngôn ngữ lớn không tự hồi quy (NAR), hỗ trợ căn chỉnh chính xác và linh hoạt ở 11 ngôn ngữ khác nhau trên các vị trí tùy ý.

Độ chính xác dấu thời gian vượt trội hơn các mô hình truyền thống như WhisperX và Nemo-Forced-Aligner.
Đạt hệ số thời gian thực (RTF) hiệu quả là 0.0089 khi suy luận đơn luồng.

Mục tiêu của việc mã nguồn mở Qwen3-ASR

Nhóm Qwen chia sẻ rằng việc mã nguồn mở dòng Qwen3-ASR nhằm thúc đẩy nghiên cứu và đổi mới trong lĩnh vực nhận diện và hiểu giọng nói. Toàn bộ kiến trúc mô hình, trọng số và một khung suy luận toàn diện, thân thiện với người dùng sẽ được đóng gói để phát hành dưới dạng mã nguồn mở.

Nguồn: ITHome

Yến ĐinhBiên tập viên Tin tức

Cựu phóng viên công nghệ tại một tờ báo lớn Việt Nam, 6 năm kinh nghiệm đưa tin về startup và công nghệ. Yến phụ trách dòng tin tức hàng ngày tại Transform.vn: Daily Digest, tin nóng, và phân tích ...

Bài viết hay? Ấn để tương tác