Alibaba Qwen Công Bố Mã Nguồn Mở Bộ Mô Hình Nhận Diện Giọng Nói Qwen3-ASR: Hỗ Trợ 52 Ngôn Ngữ, Phiên Bản 1.7B Đạt SOTA
AI phân tích 4
Các điểm chính được AI trích xuất từ bài viết
-
1
Alibaba mở mã nguồn Qwen3-ASR hỗ trợ 52 ngôn ngữ
Ngày 29 tháng 1, nhóm Qwen của Alibaba đã công bố mã nguồn mở cho bộ mô hình nhận diện giọng nói Qwen3-ASR. Bộ phát hành này bao gồm hai mô hình ASR là Qwen3-ASR-1.7B và Qwen3-ASR-0.6B, cùng với mô...
-
2
Hiệu suất đột phá của Qwen3-ASR-1.7B
Qwen3-ASR-1.7B của Alibaba đạt hiệu suất đỉnh cao (SOTA) trong nhiều trường hợp sử dụng, bao gồm tiếng Trung phổ thông, tiếng Anh, và nhận diện giọng hát. Mô hình này sử dụng bộ mã hóa giọng nói AuT kết...
-
3
Mục tiêu mã nguồn mở của Qwen3-ASR
Việc mã nguồn mở dòng Qwen3-ASR của Alibaba nhằm thúc đẩy nghiên cứu và đổi mới trong lĩnh vực nhận diện và hiểu giọng nói. Nhóm Qwen đã đóng gói toàn bộ kiến trúc mô hình, trọng số và khung...
-
4
Qwen3-ForcedAligner-0.6B và độ chính xác thời gian
Qwen3-ForcedAligner-0.6B là mô hình dự đoán dấu thời gian dựa trên suy luận mô hình ngôn ngữ lớn không tự hồi quy (NAR). Nó hỗ trợ căn chỉnh chính xác và linh hoạt ở 11 ngôn ngữ khác nhau, với...
Alibaba Qwen chính thức mã nguồn mở bộ mô hình nhận diện giọng nói Qwen3-ASR
Ngày 29 tháng 1, nhóm Qwen của Alibaba đã chính thức phát hành mã nguồn mở cho dòng mô hình nhận diện giọng nói Qwen3-ASR – một hệ thống mạnh mẽ thuộc họ Qwen. Bộ phát hành bao gồm hai mô hình ASR đầy đủ tính năng là Qwen3-ASR-1.7B và Qwen3-ASR-0.6B, cùng với một mô hình căn chỉnh giọng nói sáng tạo mang tên Qwen3-ForcedAligner-0.6B. Toàn bộ dòng Qwen3-ASR hỗ trợ nhận diện giọng nói và xác định ngôn ngữ trên 52 ngôn ngữ và phương ngữ.
Công nghệ nổi bật và hiệu suất đột phá của Qwen3-ASR
Theo Alibaba, Qwen3-ASR sử dụng bộ mã hóa giọng nói được huấn luyện trước AuT kết hợp với nền tảng đa phương tiện mạnh mẽ của Qwen3-Omni, giúp nhận diện giọng nói đạt độ chính xác cao và ổn định.
Phiên bản 1.7B đạt hiệu suất đỉnh cao (SOTA) trên nhiều trường hợp sử dụng, bao gồm tiếng Trung phổ thông, tiếng Anh, nhận diện giọng nói có giọng Trung và nhận diện giọng hát. Đặc biệt, mô hình này thể hiện khả năng chịu nhiễu tốt trong môi trường có văn bản phức tạp và tiếng ồn cao.
Trong khi đó, phiên bản 0.6B cân bằng giữa hiệu suất và tính hiệu quả. Với độ chính xác nhận diện cao, mô hình hỗ trợ 128 luồng suy luận bất đồng bộ đồng thời với thông lượng lên đến 2.000 lần, cho phép xử lý hơn 5 giờ âm thanh chỉ trong 10 giây.
Mô hình căn chỉnh thời gian Qwen3-ForcedAligner-0.6B chính xác và linh hoạt
Qwen3-ForcedAligner-0.6B là mô hình dự đoán dấu thời gian dựa trên suy luận mô hình ngôn ngữ lớn không tự hồi quy (NAR), hỗ trợ căn chỉnh chính xác và linh hoạt ở 11 ngôn ngữ khác nhau trên các vị trí tùy ý.
- Độ chính xác dấu thời gian vượt trội hơn các mô hình truyền thống như WhisperX và Nemo-Forced-Aligner.
- Đạt hệ số thời gian thực (RTF) hiệu quả là 0.0089 khi suy luận đơn luồng.
Mục tiêu của việc mã nguồn mở Qwen3-ASR
Nhóm Qwen chia sẻ rằng việc mã nguồn mở dòng Qwen3-ASR nhằm thúc đẩy nghiên cứu và đổi mới trong lĩnh vực nhận diện và hiểu giọng nói. Toàn bộ kiến trúc mô hình, trọng số và một khung suy luận toàn diện, thân thiện với người dùng sẽ được đóng gói để phát hành dưới dạng mã nguồn mở.
Nguồn: ITHome
Bài viết hay? Ấn để tương tác
Bình luận (0)
Hãy là người đầu tiên bình luận trong bài
Đăng nhập Đăng nhập để bình luận trong bài viết này