OpenMOSS và MOSI Ra Mắt MOVA: Mô Hình Âm Thanh - Hình Ảnh Mở Nguồn Đạt Chuẩn Phim Điện Ảnh Với Tính Năng Đồng Bộ Hóa Tuyệt Đỉnh

OpenMOSS và MOSI Ra Mắt MOVA: Mô Hình Âm Thanh - Hình Ảnh Mở Nguồn Đạt Chuẩn Phim Điện Ảnh Với Tính Năng Đồng Bộ Hóa Tuyệt Đỉnh

Linh Nguyen January 30, 2026 2 phút đọc
MOVA đánh dấu bước tiến lớn trong AI tạo sinh mã nguồn mở, cung cấp khả năng đồng bộ âm thanh - hình ảnh chuẩn điện ảnh và phá vỡ sự độc quyền của các hệ thống đóng.
AI phân tích 5

Các điểm chính được AI trích xuất từ bài viết

  • 1

    MOVA: Mô hình âm thanh - hình ảnh mã nguồn mở đầu tiên

    MOVA, viết tắt của MOSS-Video-and-Audio, là mô hình âm thanh và hình ảnh mã nguồn mở hiệu suất cao đầu tiên của Trung Quốc. Được phát triển bởi OpenMOSS và startup MOSI, MOVA có khả năng tạo sinh đồng bộ...

  • 2

    Tầm quan trọng của MOVA trong ngành công nghệ

    MOVA đánh dấu một bước tiến lớn trong ngành công nghệ âm thanh và hình ảnh với cách tiếp cận mã nguồn mở. Khi các hệ thống tiên tiến như Sora 2 và Veo 3 chuyển sang đóng nguồn, MOVA...

  • 3

    Hiệu suất và khả năng đồng bộ của MOVA

    MOVA thiết lập tiêu chuẩn mới cho các mô hình mã nguồn mở với khả năng mô phỏng âm thanh vật lý xuất sắc. Nó có thể tái hiện chính xác các tình huống như tiếng động cơ SUV trên...

  • 4

    Kết quả đánh giá và ứng dụng của MOVA

    Trong các bài kiểm tra chuẩn, MOVA vượt trội hơn các đối thủ như LTX-2 và OVI về đồng bộ môi và độ chính xác phát âm. MOVA đạt điểm ELO 1113.8 trong các bài đánh giá đối kháng, với...

  • 5

    Cấu trúc kỹ thuật và chiến lược đào tạo của MOVA

    MOVA được xây dựng trên kiến trúc Mixture-of-Experts (MoE) với 32 tỷ tham số, tích hợp thiết kế tháp đôi dị thể, các module kết nối hai chiều và cơ chế Aligned RoPE. Những yếu tố này giúp giải quyết...

OpenMOSS và MOSI chính thức giới thiệu MOVA - Mô hình tạo sinh âm thanh hình ảnh mã nguồn mở

Ngày 29 tháng 1 — Nhóm OpenMOSS, phối hợp cùng startup MOSI, đã công bố phát hành MOVA (MOSS-Video-and-Audio), một mô hình tạo sinh âm thanh và hình ảnh đầu-cuối (end-to-end).

MOVA - Mô hình âm thanh hình ảnh hiệu suất cao mở đầu tiên tại Trung Quốc

Là mô hình âm thanh - hình ảnh mã nguồn mở hiệu suất cao đầu tiên của Trung Quốc, MOVA đạt được khả năng tạo sinh đồng bộ thực sự giữa âm thanh và hình ảnh, tạo ra âm thanh cùng lúc với hình ảnh thay vì ghép nối sau khi hoàn tất.

Mô hình có thể tạo ra các đoạn clip âm thanh - hình ảnh dài lên đến 8 giây với độ phân giải tối đa 720p, đồng thời thể hiện hiệu suất cấp độ ngành trong việc đồng bộ môi đa ngôn ngữ và tính phù hợp của âm thanh môi trường.

Ý nghĩa lớn trong ngành và bước đi mở nguồn toàn diện

Điểm khác biệt của MOVA nằm ở tầm ảnh hưởng rộng lớn hơn trong ngành. Khi các hệ thống tiên tiến như Sora 2Veo 3 dần chuyển sang đóng nguồn, MOVA áp dụng cách tiếp cận mở nguồn đầy đủ, công khai trọng số mô hình, mã nguồn huấn luyện, mã nguồn suy luận và các công thức điều chỉnh tinh chỉnh, thách thức sự thống trị ngày càng tăng của các công nghệ tạo sinh âm thanh - hình ảnh độc quyền.

Hiệu suất đỉnh cao của MOVA

MOVA thiết lập tiêu chuẩn mới cho các mô hình mã nguồn mở với khả năng mô phỏng âm thanh vật lý xuất sắc, tái hiện chính xác các tình huống như tiếng động cơ SUV gầm rú trên sa mạc hay sự vang vọng của tiếng súng trong chiến đấu đô thị, đạt được sự đồng bộ sâu sắc giữa âm thanh và hình ảnh.

Chất lượng đồng bộ môi đa ngôn ngữ của MOVA đạt chuẩn phim điện ảnh với chuyển động môi, biểu cảm khuôn mặt và ngữ điệu được căn chỉnh sát sao trong các cảnh đối thoại bằng tiếng Trung và tiếng Anh. Khả năng tạo video từ văn bản của MOVA cũng vượt trội so với một số mô hình đóng nguồn hiện đại.

Cấu trúc kỹ thuật và chiến lược đào tạo

MOVA được xây dựng dựa trên kiến trúc Mixture-of-Experts (MoE) với 32 tỷ tham số, tích hợp thiết kế tháp đôi dị thể, các module kết nối hai chiều và cơ chế Aligned RoPE nhằm giải quyết vấn đề đồng bộ hóa đa phương thức âm thanh - hình ảnh.

Chiến lược đào tạo ba giai đoạn kết hợp quy trình làm việc dựa trên tác nhân giúp cải thiện độ ổn định trong quá trình tạo sinh và khả năng tuân theo hướng dẫn.

Kết quả đánh giá và khả năng áp dụng

Trong các bài kiểm tra chuẩn, MOVA vượt trội hơn các đối thủ như LTX-2OVI trên các chỉ số quan trọng như đồng bộ môi và độ chính xác phát âm.

MOVA đạt điểm ELO 1113.8 trong các bài đánh giá đối kháng, với tỷ lệ chiến thắng vượt 70% so với nhiều mô hình khác. Việc phát hành mở toàn bộ giúp giảm đáng kể rào cản áp dụng trong ngành công nghiệp.

Tham khảo và liên kết dự án

Nguồn: Synced

Bài viết hay? Ấn để tương tác

Bình luận (0)

Hãy là người đầu tiên bình luận trong bài

Đọc
-00:00