Podcast Transform Talks Alibaba LLMs Tongyi

Alibaba Tongyi ra mắt Fun-CosyVoice3.5 và Fun-AudioGen-VD với công nghệ tạo giọng nói FreeStyle

Quang Ngô March 02, 2026 2 phút đọc

Alibaba Tongyi giới thiệu Fun-CosyVoice3.5 và Fun-AudioGen-VD, cho phép tạo giọng nói và âm thanh cảnh quan sống động qua lệnh ngôn ngữ tự nhiên, nâng cao trải nghiệm tương tác âm thanh đa dạng.

AI phân tích 4

Các điểm chính được AI trích xuất từ bài viết

1
Công nghệ FreeStyle của Alibaba Tongyi

Alibaba Tongyi đã ra mắt hai mô hình âm thanh mới là Fun-CosyVoice3.5 và Fun-AudioGen-VD, cả hai đều hỗ trợ công nghệ tạo giọng nói theo lệnh “FreeStyle” bằng ngôn ngữ tự nhiên. Công nghệ này cho phép người dùng...
2
Fun-CosyVoice3.5: Tính năng và ưu điểm

Fun-CosyVoice3.5, một trong hai mô hình mới của Alibaba Tongyi, tập trung vào nhân bản giọng nói đa ngôn ngữ và kiểm soát biểu cảm chi tiết. Dựa trên công nghệ Instruct-TTS, mô hình này cho phép tạo giọng nói...
3
Fun-AudioGen-VD: Tạo âm thanh cảnh quan sống động

Fun-AudioGen-VD là mô hình của Alibaba Tongyi cho phép người dùng dựng lên cảnh quan âm thanh dựa trên mô tả bằng ngôn ngữ tự nhiên. Mô hình này không chỉ tạo giọng nói mà còn mô phỏng đồng thời...
4
Định hướng tương lai của Alibaba trong công nghệ âm thanh AI

Sự ra mắt của Fun-CosyVoice3.5 và Fun-AudioGen-VD đánh dấu bước tiến mới của Alibaba trong lĩnh vực công nghệ âm thanh AI. Hai mô hình này không chỉ cải thiện chất lượng giọng nói và âm thanh mà còn mở...

Alibaba Tongyi ra mắt hai mẫu âm thanh mới hỗ trợ tạo giọng nói theo lệnh ngôn ngữ tự nhiên

Đội ngũ phát triển giọng nói tại phòng thí nghiệm Tongyi của Alibaba đã công bố hai mô hình mới là Fun-CosyVoice3.5 và Fun-AudioGen-VD, cả hai đều hỗ trợ công nghệ tạo giọng nói theo lệnh “FreeStyle” bằng ngôn ngữ tự nhiên.

Tính năng và ứng dụng của Fun-CosyVoice3.5 và Fun-AudioGen-VD

Theo thông tin từ Alibaba Group, người dùng có thể điều khiển và tạo ra các âm thanh giọng nói trực tiếp qua hướng dẫn bằng văn bản—từ chỉnh sửa biểu cảm giọng nói đến thiết kế trọn vẹn các âm sắc và không gian âm thanh mới hoàn toàn. Dù cùng hỗ trợ tổng hợp giọng nói qua ngôn ngữ tự nhiên, hai mô hình hướng đến các mục đích khác nhau:

Fun-CosyVoice3.5 tập trung vào nhân bản giọng nói đa ngôn ngữ cùng khả năng kiểm soát biểu cảm chi tiết.
Fun-AudioGen-VD chuyên thiết kế giọng nói và tạo âm thanh cảnh quan hoàn chỉnh, mang đến trải nghiệm âm thanh nhập vai.

Fun-CosyVoice3.5 – nâng cao tổng hợp giọng nói đa ngôn ngữ và biểu cảm sắc nét

Fun-CosyVoice3.5 được nâng cấp dựa trên công nghệ Instruct-TTS của Alibaba, cho phép tạo giọng nói linh hoạt qua chỉ một câu hướng dẫn. Người dùng có thể mô tả phong cách đọc bằng ngôn ngữ tự nhiên, ví dụ như “phát âm quyết đoán hơn”, “hạ tông giọng và chậm lại”, hoặc “thêm biến đổi cảm xúc nhẹ nhàng”, và mô hình sẽ tự động diễn giải cũng như tái tạo hiệu ứng mong muốn.

Mô hình hiện hỗ trợ thêm bốn ngôn ngữ mới là Thái, Indonesia, Bồ Đào Nha, và Tiếng Việt. Alibaba cho biết Fun-CosyVoice3.5 duy trì hiệu suất dẫn đầu ngành về Tỷ lệ lỗi từ (WER) và độ tương đồng giọng nói (SpkSim) trên tổng cộng 13 ngôn ngữ.

Ngoài ra, mô hình đã được tối ưu hóa để giảm sai sót phát âm đối với các ký tự hiếm và câu phức tạp, giảm tỉ lệ lỗi từ 15,2% xuống 5,3%, đồng thời giữ ổn định hơn khi xử lý các đoạn văn dài.

Qua quá trình tinh chỉnh dựa trên kỹ thuật học tăng cường, mô hình nâng cao độ tự nhiên và tầng biểu cảm trong giọng nói. Về hiệu suất, tốc độ xử lý khung (tokenizer frame rate) giảm một nửa, độ trễ gói đầu tiên cũng hạ 35%, giúp phản hồi nhanh hơn và trải nghiệm thực tế mượt mà trong các tình huống tương tác thời gian thực.

Fun-AudioGen-VD – tạo âm thanh cảnh quan sống động, đa dạng cảm xúc và vai trò

Ngược lại, Fun-AudioGen-VD vượt ra ngoài việc tạo giọng nói đơn thuần bằng cách cho phép người dùng dựng lên trọn vẹn cảnh quan âm thanh dựa trên mô tả bằng ngôn ngữ tự nhiên, mô phỏng đồng thời các nhân vật và môi trường trong cùng một sản phẩm đầu ra.

Mô hình cho phép kiểm soát chi tiết các đặc tính sau:

Thuộc tính cơ bản: giới tính, độ tuổi, giọng địa phương, tông giọng, tốc độ nói
Chất giọng: khàn, sáng, sâu, cuốn hút
Cảm xúc: tức giận, buồn bã, hào hứng, quyết tâm
Mô phỏng vai trò: nhân viên chăm sóc khách hàng, người dày dạn kinh nghiệm, trẻ em, trợ lý AI, phát thanh viên
Tình trạng tâm lý phức tạp: các biểu hiện tinh tế như “bề ngoài bình tĩnh nhưng bên trong run rẩy”

Không chỉ tạo giọng nói, Fun-AudioGen-VD còn có khả năng dựng nên môi trường âm thanh nhập vai với nhiều lớp âm nền như tiếng phố xá, quán cà phê hay chiến trường. Mô hình cũng mô phỏng hiệu ứng vang không gian (như trong nhà thờ, phòng kim loại, dưới nước), bộ lọc âm thiết bị (radio cổ điển, bộ đàm, mặt nạ thở), cùng các tương tác môi trường động như tiếng gió thay đổi hay tiếng vọng đa chiều.

Định hướng tương lai của Alibaba trong công nghệ âm thanh AI

Sự ra mắt đồng thời của hai mô hình Fun-CosyVoice3.5 và Fun-AudioGen-VD đánh dấu bước tiến tiếp theo của Alibaba trong việc phát triển công nghệ tổng hợp giọng nói và âm thanh chất lượng cao, có khả năng kiểm soát chi tiết, góp phần mở rộng giới hạn tương tác bằng giọng nói AI và sáng tạo nội dung đa phương tiện mang tính nhập vai sâu sắc.

Nguồn: IT Home

Quang NgôTổng biên tập

Sáng lập Transform.vn. Hơn 10 năm kinh nghiệm trong lĩnh vực công nghệ và truyền thông số tại Việt Nam. Từng dẫn dắt đội ngũ nội dung tại nhiều startup công nghệ trước khi thành lập Transform.vn vớ...

Bài viết hay? Ấn để tương tác