AI Open Source Unitree Robotics VLA

Unitree Robotics Công Bố Mã Nguồn Mở Mô Hình Thị Giác-Ngôn Ngữ-Hành Động Đa Phương Thức: UnifoLM-VLA-0

Duc Pham January 30, 2026 2 phút đọc

Unitree Robotics đã phát hành mã nguồn mở UnifoLM-VLA-0, mô hình thị giác-ngôn ngữ-hành động được thiết kế để trang bị cho robot hình người trí tuệ thể hiện và khả năng tương tác vật lý hiệu quả.

AI phân tích 5

Các điểm chính được AI trích xuất từ bài viết

1
Unitree Robotics ra mắt mô hình UnifoLM-VLA-0

Unitree Robotics đã công bố mã nguồn mở cho mô hình Vision-Language-Action (VLA) mang tên UnifoLM-VLA-0 vào ngày 29 tháng 1. Mô hình này được thiết kế để khắc phục các hạn chế của mô hình thị giác-ngôn ngữ truyền...
2
Đột phá kỹ thuật trong UnifoLM-VLA-0

UnifoLM-VLA-0 nổi bật với khả năng tích hợp sâu sắc giữa chỉ dẫn văn bản và chi tiết không gian 2D, 3D để đáp ứng yêu cầu cao của các nhiệm vụ thao tác. Mô hình này sử dụng dữ...
3
Ứng dụng thực tế của UnifoLM-VLA-0 trên robot Unitree G1

Trong các thử nghiệm thực tế, UnifoLM-VLA-0 đã thể hiện khả năng mạnh mẽ trên robot hình người Unitree G1, hoàn thành 12 nhóm tác vụ thao tác phức tạp như mở đóng ngăn kéo, cắm rút đầu nối và...
4
UnifoLM-VLA-0: Mô hình dành riêng cho robot hình người

UnifoLM-VLA-0 là một phần của gia đình mô hình UnifoLM, được phát triển đặc biệt cho robot hình người đa năng. Dựa trên phiên bản mã nguồn mở Qwen2.5-VL-7B, mô hình này được huấn luyện trên bộ dữ liệu đa...
5
Hiệu suất của UnifoLM-VLA-0 trong thử nghiệm

UnifoLM-VLA-0 đã chứng minh hiệu suất vượt trội so với các mô hình cơ bản trên nhiều chuẩn nhận thức không gian khác nhau. Trong chế độ 'không suy nghĩ', nó có hiệu năng tương đương với Gemini-Robotics-ER 1.5. Trên...

Unitree Robotics ra mắt mã nguồn mở UnifoLM-VLA-0

Ngày 29 tháng 1, Unitree Robotics thông báo phát hành mã nguồn mở cho mô hình lớn Vision-Language-Action (VLA) của họ mang tên UnifoLM-VLA-0. Mô hình này được thiết kế để khắc phục những hạn chế của các mô hình thị giác-ngôn ngữ truyền thống (VLM) trong các tương tác vật lý. Qua quá trình huấn luyện tiền định hướng, mô hình tiến hóa từ khả năng hiểu hình ảnh-kèm văn bản thành một "bộ não" hiện hữu có khả năng suy luận kiến thức vật lý cơ bản.

Mô hình dành riêng cho robot hình người đa năng

Theo Unitree, UnifoLM-VLA-0 nằm trong gia đình mô hình UnifoLM và được phát triển nhằm mục đích thao tác đa năng cho robot hình người. Mô hình dựa trên phiên bản mã nguồn mở Qwen2.5-VL-7B và được huấn luyện liên tục trên bộ dữ liệu đa nhiệm bao gồm các tình huống tổng quát lẫn chuyên biệt cho robot, từ đó nâng cao sự phù hợp giữa nhận thức không gian hình học và suy luận ngữ nghĩa.

Đột phá kỹ thuật trong tích hợp đa chiều

Điểm nổi bật kỹ thuật của mô hình là tích hợp sâu sắc các chỉ dẫn văn bản với chi tiết không gian 2D và 3D để đáp ứng yêu cầu cao của các nhiệm vụ thao tác. Mô hình tích hợp dữ liệu dự đoán động lực học đầu-cuối nhằm tăng khả năng tổng quát hóa. Đặc biệt, Unitree đã bổ sung một đầu dự đoán hành động vào kiến trúc và làm sạch hệ thống các bộ dữ liệu mã nguồn mở một cách có hệ thống.

Chỉ với khoảng 340 giờ dữ liệu từ robot thực tế, kết hợp kỹ thuật phân đoạn dự đoán hành động và ràng buộc động lực học, mô hình đạt được khả năng mô hình hóa thống nhất các chuỗi hành động phức tạp và kế hoạch dài hạn.

Hiệu suất vượt trội trong thử nghiệm

Kết quả đánh giá cho thấy UnifoLM-VLA-0 vượt trội đáng kể so với các mô hình cơ bản trên nhiều chuẩn nhận thức không gian khác nhau. Trong chế độ "không suy nghĩ", hiệu năng của nó tương đương với Gemini-Robotics-ER 1.5. Trên chuẩn mô phỏng LIBERO, mô hình đa nhiệm đạt gần mức tối ưu hiện nay.

Ứng dụng thực tế trên robot hình người Unitree G1

Trong các thử nghiệm robot thực tế, UnifoLM-VLA-0 thể hiện khả năng mạnh mẽ trên robot hình người Unitree G1, hoàn thành 12 nhóm tác vụ thao tác phức tạp — bao gồm mở đóng ngăn kéo, cắm rút đầu nối và các thao tác lấy đặt — chỉ với một mạng lưới chính sách duy nhất. Unitree cho biết mô hình duy trì độ ổn định và khả năng chống nhiễu mạnh, ngay cả khi chịu tác động từ môi trường bên ngoài.