Sau Seedance 2.0, mẫu video đa phương thức Trung Quốc tiếp theo lọt top 2 Artificial Analysis

Sau Seedance 2.0, mẫu video đa phương thức Trung Quốc tiếp theo lọt top 2 Artificial Analysis

An Hoang February 28, 2026 3 phút đọc
SkyReels-V4 của Kunlun Tech đứng thứ hai toàn cầu trong bảng xếp hạng text-to-video của Artificial Analysis, là mẫu video nền tảng đầu tiên trên thế giới hỗ trợ đa phương thức đầu vào, tạo video âm thanh đồng thời và tích hợp chỉnh sửa.
AI phân tích 6

Các điểm chính được AI trích xuất từ bài viết

  • 1

    Kunlun Tech ra mắt SkyReels-V4

    Ngày 27 tháng 2 năm 2026, Kunlun Tech đã công bố mô hình video đa phương thức SkyReels-V4. Mô hình này hỗ trợ độ phân giải lên tới 1080p, tốc độ khung hình 32 FPS và thời lượng video chất...

  • 2

    Kiến trúc kỹ thuật của SkyReels-V4

    SkyReels-V4 sử dụng cấu trúc dual-stream MMDiT đối xứng, giúp liên kết sâu các đặc trưng âm thanh và hình ảnh thông qua cơ chế chú ý chéo hai chiều. Công nghệ mã hóa vị trí quay RoPE và kỹ...

  • 3

    Tính năng đa phương thức của SkyReels-V4

    SkyReels-V4 hỗ trợ đầu vào từ nhiều phương thức như văn bản, hình ảnh và video, trở thành mô hình nền tảng video đầu tiên hỗ trợ đa phương thức đầu vào. Nó cho phép tạo video đồng bộ âm...

  • 4

    SkyReels-V4 đạt vị trí cao trên bảng xếp hạng

    SkyReels-V4 của Kunlun Tech đã đạt vị trí thứ hai toàn cầu trong danh sách các mô hình hoạt động hiệu quả cho text-to-video (T2V) có âm thanh, theo công ty phân tích Artificial Analysis. Mô hình này cũng đứng...

  • 5

    Hệ sinh thái AI của Kunlun Tech

    Kunlun Tech đã phát triển một hệ sinh thái AI với bốn dòng mô hình lớn chính: Skywork, Mureka, SkyReels và Matrix. Sự xuất hiện của SkyReels-V4 bổ sung một mắt xích quan trọng, hỗ trợ sản xuất nội dung...

  • 6

    Quá trình đào tạo và dữ liệu của SkyReels-V4

    SkyReels-V4 được phát triển thông qua phương pháp huấn luyện tiến triển đa giai đoạn. Bắt đầu từ tiền huấn luyện tạo hình ảnh 256px từ văn bản cơ bản, sau đó mở rộng sang huấn luyện hỗn hợp đa...

Kunlun Tech ra mắt mô hình video đa phương thức SkyReels-V4

Ngày 27 tháng 2 năm 2026, Kunlun Tech chính thức công bố mô hình video nền tảng đa phương thức SkyReels-V4. Mẫu mô hình này hỗ trợ độ phân giải lên tới 1080p, tốc độ khung hình 32 FPS cùng thời lượng xuất video chất lượng điện ảnh lên đến 15 giây, đảm bảo đồng bộ âm thanh - hình ảnh chính xác và bao phủ toàn diện quy trình tạo video từ ý tưởng đến chỉnh sửa chi tiết.

Thành tích nổi bật và vị trí trên bảng xếp hạng toàn cầu

Theo kết quả kiểm định mới nhất của công ty phân tích độc lập Artificial Analysis, SkyReels-V4 đạt vị trí thứ hai toàn cầu trong danh sách các mô hình hoạt động hiệu quả cho text-to-video (T2V) có âm thanh, đồng thời đứng thứ tư trong bảng tổng sắp mô hình T2V lịch sử toàn cầu. Hiệu suất của SkyReels-V4 vượt trội so với các mô hình phổ biến hiện nay như Veo 3.1, Sora 2, Vidu Q3 và Wan 2.6.

Tính năng đa phương thức và quy trình tạo nội dung liền mạch

SkyReels-V4 hỗ trợ đầu vào từ nhiều phương thức khác nhau bao gồm văn bản, hình ảnh và video, trở thành mô hình nền tảng video đầu tiên trên thế giới đồng thời hỗ trợ đa phương thức đầu vào, tạo video đồng bộ âm thanh - hình ảnh và tích hợp chức năng tạo mới cùng chỉnh sửa trong một hệ thống duy nhất.

Mô hình sở hữu lợi thế cốt lõi khi nhận lệnh phức tạp từ nhiều nguồn tham chiếu như văn bản, hình ảnh, video clip, mặt nạ và tham chiếu âm thanh. Người sáng tạo nội dung không còn cần chuyển đổi qua nhiều công cụ khác nhau mà có thể hoàn thành toàn bộ quy trình từ ý tưởng đến video chuyên nghiệp đồng bộ âm thanh chỉ trong một nền tảng duy nhất.

Kiến trúc kỹ thuật tiên tiến và công nghệ vượt trội

Về kiến trúc kỹ thuật, SkyReels-V4 ứng dụng cấu trúc dual-stream MMDiT đối xứng, giúp liên kết sâu các đặc trưng âm thanh và hình ảnh ở mức độ cao thông qua cơ chế chú ý chéo hai chiều (bidirectional cross-attention).

Để giải quyết khác biệt về độ phân giải theo thời gian giữa âm thanh và video, nhóm phát triển đã đưa vào công nghệ mã hóa vị trí quay RoPE với kỹ thuật tỉ lệ hóa tần số, đảm bảo cả hai phương thức có thể hỗ trợ nhau theo cùng một nhịp điệu thời gian. Hệ thống cũng sử dụng khuôn khổ hợp nhất nối kênh (channel concatenation unified framework), đơn giản hóa các thao tác chỉnh sửa phức tạp thành bài toán tô sửa theo mặt nạ cụ thể, đồng thời tích hợp cơ chế chú ý thưa thớt video có thể huấn luyện (Video Sparse Attention - VSA) giúp giảm chi phí tính toán chú ý xuống khoảng ba lần mà không ảnh hưởng chất lượng.

Quá trình đào tạo đa giai đoạn và dữ liệu mạnh mẽ

Nhóm Kunlun Tech đã áp dụng phương pháp huấn luyện tiến triển đa giai đoạn, bắt đầu từ tiền huấn luyện tạo hình ảnh 256px từ văn bản cơ bản rồi dần mở rộng sang huấn luyện hỗn hợp đa độ phân giải 480px, 720px và 1080p. Ở giai đoạn tinh chỉnh cuối cùng có giám sát, họ đã sử dụng 5 triệu dữ liệu video đa phương thức kết hợp với 1 triệu video chất lượng cao được chọn lọc thủ công để hoàn thiện sản phẩm.

Hệ sinh thái AI của Kunlun Tech và tương lai phát triển

Trong toàn bộ hệ sinh thái AI của Kunlun Tech hiện nay, đã hình thành bốn dòng mô hình lớn chính gồm: dòng mô hình lớn Skywork, mô hình âm nhạc và âm thanh Mureka, mô hình video SkyReels và mô hình thế giới game Matrix. Sự xuất hiện của SkyReels-V4 đã bổ sung một mắt xích quan trọng trong hệ sinh thái này, hỗ trợ sản xuất nội dung âm thanh - hình ảnh đa phương thức hoàn chỉnh.

Trong tương lai, SkyReels sẽ hỗ trợ tạo video với độ dài trên 60 giây, chỉnh sửa tương tác thời gian thực và mở API tích hợp đồng bộ toàn bộ dòng sản phẩm.

Nguồn: Minds in AI

Bài viết hay? Ấn để tương tác

Bình luận (0)

Hãy là người đầu tiên bình luận trong bài

Đọc
-00:00