AI LLM hunyuan LLMs Tencent

Tencent Hunyuan Mở Mã Nguồn HPC-Ops, Tăng 30% Hiệu Suất Dự Đoán AI

Huy Vo February 05, 2026 1 phút đọc

Tencent công bố mã nguồn mở HPC-Ops, thư viện operator cốt lõi cho dự đoán AI, giúp tăng tốc xử lý mô hình Hunyuan lên tới 30%.

Tencent Mã nguồn mở Hiệu suất AI HPC-Ops Operator Định hướng phát triển

AI phân tích 3

Các điểm chính được AI trích xuất từ bài viết

1
Tencent phát hành mã nguồn mở HPC-Ops

Nhóm Hunyuan AI Infrastructure của Tencent đã công bố mã nguồn mở HPC-Ops, một thư viện operator hiệu suất cao dành cho dự đoán các mô hình ngôn ngữ lớn. HPC-Ops được thiết kế để xử lý các nút thắt...
2
Hiệu suất của HPC-Ops qua các bài kiểm tra

Theo các tiêu chuẩn đánh giá do Tencent công bố, HPC-Ops đã đạt được mức tăng hiệu suất ấn tượng đối với từng operator cụ thể. Operator attention đạt hiệu suất lên tới 2,22 lần so với FlashInfer/FlashAttention, GroupGEMM đạt...
3
Định hướng phát triển tương lai của Tencent với HPC-Ops

Trong tương lai, Tencent sẽ tập trung phát triển các operator Attention thưa để giải quyết nút thắt bối cảnh dài. Họ cũng sẽ mở rộng các chiến lược lượng tử hóa và phát triển các kernel tối ưu đồng...

Tencent Hunyuan Công Bố Mã Nguồn Mở HPC-Ops

Ngày 4 tháng 2 — Nhóm Hunyuan AI Infrastructure của Tencent đã chính thức phát hành mã nguồn mở HPC-Ops, một thư viện operator hiệu suất cao chuẩn sản xuất được thiết kế dành cho việc dự đoán các mô hình ngôn ngữ lớn.

HPC-Ops Giải Quyết Các Nút Thắt Trong Thực Tiễn

Được xây dựng từ đầu nhằm xử lý các nút thắt trong môi trường sản xuất thực tế, HPC-Ops tận dụng trừu tượng kiến trúc, điều chỉnh vi kiến trúc sâu và tối ưu hóa theo từng lệnh để đưa các operator cốt lõi tiến gần hơn tới giới hạn hiệu năng phần cứng.

Qua các bài kiểm tra thực tế, Tencent cho biết HPC-Ops đã tăng giá trị QPM (quá trình dự đoán) của các mô hình Hunyuan lên 30%, đồng thời cải thiện QPM của mô hình DeepSeek thêm 17%.

Hiệu Suất Đáng Kể Theo Các Bài Kiểm Tra

Các tiêu chuẩn đánh giá do Tencent công bố cho thấy mức tăng hiệu suất ấn tượng đối với từng operator cụ thể:

Operator attention đạt hiệu suất lên tới 2,22 lần so với FlashInfer/FlashAttention;
GroupGEMM đạt hiệu suất tối đa 1,88 lần so với DeepGEMM;
FusedMoE đạt tới 1,49 lần hiệu suất của TensorRT-LLM.

Định Hướng Phát Triển Tương Lai

Về kế hoạch tiếp theo, Tencent sẽ tập trung phát triển các operator Attention thưa để giải quyết nút thắt bối cảnh dài, mở rộng các chiến lược lượng tử hóa, và phát triển các kernel tối ưu đồng bộ tính toán - truyền thông nhằm giảm thiểu chi phí giao tiếp trong mô hình dự đoán phân tán.

Nguồn: IT Home

Bài viết hay? Ấn để tương tác