News OpenSourceAI VLA Xiaomi

Xiaomi Mở Mã Nguồn Mô Hình AI Thân Thể 4,7 Tỷ Tham Số Với Độ Trễ 80ms

Nam Cao February 13, 2026 2 phút đọc

Xiaomi công bố mã nguồn mở Xiaomi-Robotics-0, mô hình AI thân thể 4,7 tỷ tham số với độ trễ suy luận 80ms và điều khiển thời gian thực 30Hz, chạy trên RTX 4090.

Xiaomi công bố mô hình AI thân thể Xiaomi-Robotics-0 mã nguồn mở

Ngày 12 tháng 2, nhà sáng lập Xiaomi, Lei Jun, thông báo phát hành mã nguồn mở Xiaomi-Robotics-0, một mô hình Vision-Language-Action (VLA) với 4,7 tỷ tham số. Mã nguồn, trọng số mô hình và tài liệu kỹ thuật hiện đã có trên GitHub và Hugging Face.

Kiến trúc mô hình và hiệu năng nổi bật

Mô hình sử dụng kiến trúc Mixture-of-Transformers, tách biệt giữa Vision-Language Model (VLM) và một Transformer phân tán 16 lớp (DiT). Phần VLM đảm nhiệm hiểu lệnh và suy luận không gian, trong khi "vỏ não vận động" DiT tạo ra các chuỗi chuyển động liên tục tần số cao qua phương pháp flow matching.

Kiến trúc này cung cấp độ trễ suy luận chỉ 80ms, hỗ trợ điều khiển thời gian thực 30Hz và có thể chạy trực tiếp trên GPU tiêu dùng như RTX 4090.

Quá trình huấn luyện hai giai đoạn

Giai đoạn 1: Cơ chế đề xuất hành động bắt buộc VLM dự đoán đồng thời phân phối hành động đa phương thức trong quá trình hiểu hình ảnh, đồng bộ hóa không gian đặc trưng và hành động.
Giai đoạn 2: Khóa VLM bất biến, chỉ huấn luyện DiT để sinh ra các chuỗi chuyển động chính xác.

Cải tiến sau huấn luyện và hiệu quả trên các bộ dữ liệu

Sau huấn luyện, mô hình bổ sung suy luận không đồng bộ và chiến lược che độ tập trung hình chữ Λ, giúp tách biệt thời gian suy luận và thực thi đồng thời ưu tiên phản hồi hình ảnh hiện tại.

Trong mô phỏng, Xiaomi-Robotics-0 vượt trội hơn 30 mô hình chuẩn như π0, OpenVLA, RT-1 và RT-2 trên các bộ dữ liệu LIBERO, CALVIN và SimplerEnv, đạt nhiều kết quả mới tốt nhất thế giới (SOTA). Trên nhiệm vụ Libero-Object, mô hình đạt tỷ lệ thành công 100%.

Ứng dụng thực tế với robot hai cánh tay

Trong triển khai thực tế, robot hai cánh tay chạy trên mô hình này thể hiện khả năng phối hợp tay-mắt ổn định trong các nhiệm vụ phức tạp, tầm nhìn dài như tháo lắp khối và gập khăn, đồng thời duy trì năng lực phát hiện vật thể và trả lời câu hỏi dựa trên hình ảnh.

Nguồn: QbitAI

Bài viết hay? Ấn để tương tác

Thẻ

News OpenSourceAI VLA Xiaomi

Thêm News →

Bình luận (0)

Hãy là người đầu tiên bình luận trong bài

Đăng nhập

Bài viết liên quan

Đọc

-00:00

Xiaomi Mở Mã Nguồn Mô Hình AI Thân Thể 4,7 Tỷ Tham Số Với Độ Trễ 80ms

Xiaomi công bố mô hình AI thân thể Xiaomi-Robotics-0 mã nguồn mở

Kiến trúc mô hình và hiệu năng nổi bật

Quá trình huấn luyện hai giai đoạn

Cải tiến sau huấn luyện và hiệu quả trên các bộ dữ liệu

Ứng dụng thực tế với robot hai cánh tay

Thẻ

Bình luận (0)

vivo Xác Nhận Dự Án Camera Vlog, Hướng Tới Cạnh Tranh Với DJI

Xiaomi Đạt Được Kỹ Thuật Nắm Bắt Robotic Mức Độ Milimet Chỉ Dựa Trên Cảm Ứng Chạm

Vốn hóa thị trường Zhipu AI vượt mốc 150 tỷ HKD, gần gấp ba lần giá trị IPO

Xpeng GX SUV cao cấp chính thức ra mắt và bắt đầu thử nghiệm lái tự động cấp độ L4 mở rộng

Tesla Tăng Tốc Tuyển Dụng Chuyên Gia AI Tại Thượng Hải Khi Đào Tạo FSD Chuyển Sang Trung Tâm Tính Toán Địa Phương

Lei Jun: Xiaomi SU7 Thế Hệ Đầu Tiên Vượt Mốc 381.000 Đơn Hàng Trong Chưa Đến 2 Năm

Amazon Công Bố Sa Thải Toàn Cầu Khoảng 16.000 Nhân Viên, Văn Phòng Bắc Kinh Bị Ảnh Hưởng Nặng

Cựu Giám đốc ByteDance Gây Quỹ Thiên Thần Hơn 10 Tỷ Đồng Cho Startup Truyện Tranh AI “Pinecone Moment”

REDMI Turbo 5 Max Ra Mắt Toàn Cầu Với Chip MediaTek Dimensity 9500s – Giá Khởi Điểm 316 USD!

Ugreen Group Limited Nộp Hồ Sơ IPO tại Hồng Kông, Doanh Thu Quý 1–3 Năm 2025 Vượt Tổng Doanh Thu Cả Năm 2024

Bài viết liên quan

Xiaomi Mở Mã Nguồn Mô Hình AI Thân Thể 4,7 Tỷ Tham Số Với Độ Trễ 80ms

Xiaomi công bố mô hình AI thân thể Xiaomi-Robotics-0 mã nguồn mở

Kiến trúc mô hình và hiệu năng nổi bật

Quá trình huấn luyện hai giai đoạn

Cải tiến sau huấn luyện và hiệu quả trên các bộ dữ liệu

Ứng dụng thực tế với robot hai cánh tay

Thẻ

Bình luận (0)

Bài viết liên quan

Amazon Công Bố Sa Thải Toàn Cầu Khoảng 16.000 Nhân Viên, Văn Phòng Bắc Kinh Bị Ảnh Hưởng Nặng

Cựu Giám đốc ByteDance Gây Quỹ Thiên Thần Hơn 10 Tỷ Đồng Cho Startup Truyện Tranh AI “Pinecone Moment”

REDMI Turbo 5 Max Ra Mắt Toàn Cầu Với Chip MediaTek Dimensity 9500s – Giá Khởi Điểm 316 USD!

Cập nhật tin tức