Xiaohongshu Mở Mã Nguồn FireRed-Image-Edit, Đạt Hiệu Suất SOTA Trên Nhiều Chuẩn Đánh Giá

Xiaohongshu Mở Mã Nguồn FireRed-Image-Edit, Đạt Hiệu Suất SOTA Trên Nhiều Chuẩn Đánh Giá

Huy Vo February 13, 2026 1 phút đọc
Xiaohongshu công bố mã nguồn mở FireRed-Image-Edit, mô hình cơ sở chỉnh sửa ảnh cao cấp vượt trội trong xử lý văn bản, chuyển đổi phong cách và phục chế ảnh cũ — phiên bản trọng số sẽ sớm ra mắt.

Xiaohongshu phát hành mã nguồn mở FireRed-Image-Edit

Ngày 12 tháng 2 — Xiaohongshu (RED) đã chính thức mở mã nguồn mô hình chỉnh sửa ảnh nền tảng mới nhất của mình mang tên FireRed-Image-Edit, cùng với việc công bố mã nguồn, báo cáo kỹ thuật và trang demo trên GitHub và Hugging Face. Phiên bản trọng số mô hình dự kiến sẽ được phát hành trong vài ngày tới.

Xiaohongshu FireRed-Image-Edit

Hiệu suất hàng đầu trên nhiều chuẩn đánh giá

Mô hình này đã đạt được kết quả thuật toán hàng đầu (SOTA) trên các chuẩn đánh giá chỉnh sửa ảnh nổi bật như ImgEdit và GEdit.

Ra mắt RedEdit Bench - Bộ công cụ đánh giá độc quyền

Đội ngũ phát triển cũng giới thiệu RedEdit Bench, một khung đánh giá độc quyền bao gồm 15 tác vụ phụ như chèn/xóa đối tượng, cải thiện chân dung, và phục hồi ảnh chất lượng thấp. RedEdit Bench cũng sẽ được mở mã nguồn trong thời gian tới.

Chiến lược huấn luyện ba giai đoạn

Về mặt kỹ thuật, FireRed-Image-Edit áp dụng chiến lược huấn luyện ba giai đoạn:

  • Tiền huấn luyện: Sử dụng phương pháp lấy mẫu nhóm và tăng cường hướng dẫn động đa điều kiện giúp nâng cao khả năng tổng quát hóa của mô hình.
  • Tinh chỉnh: Sử dụng dữ liệu được tuyển chọn kỹ lưỡng nhằm nâng cao chất lượng chỉnh sửa.
  • Học tăng cường: Cơ chế thưởng dựa trên OCR nhận dạng bố cục mới, có khả năng phạt lỗi chính tả, ký tự lệch vị trí, tỉ lệ font chữ bất thường, và biến dạng bố cục — cải thiện đáng kể độ chính xác trong chỉnh sửa văn bản và tính đồng nhất về phong cách.
Xiaohongshu FireRed-Image-Edit Features

Tính năng nổi bật

Một số khả năng cốt lõi của mô hình bao gồm:

  • Tuân thủ hướng dẫn mạnh mẽ
  • Chỉnh sửa văn bản chính xác
  • Chuyển đổi phong cách
  • Hòa hợp hình ảnh đa tham chiếu
  • Phục hồi ảnh cũ
  • Tăng cường chất lượng ảnh với độ trung thực cao

Kế hoạch phát triển trong tương lai

Xiaohongshu cho biết các bản cập nhật sắp tới sẽ tập trung nâng cao khả năng chỉnh sửa chân dung, độ chính xác trong chỉnh sửa văn bản và bảo toàn sự đồng nhất về phong cách. Ngoài ra, hãng cũng dự kiến tiếp tục mở rộng mã nguồn, trong đó bao gồm kế hoạch phát hành mô hình nền tảng chuyển văn bản thành hình ảnh trong vài tháng tới.

Nguồn: QbitAI

Bài viết hay? Ấn để tương tác

Bình luận (0)

Hãy là người đầu tiên bình luận trong bài

Đọc
-00:00