Xiaohongshu công bố mã nguồn mở FireRed-Image-Edit, mô hình cơ sở chỉnh sửa ảnh cao cấp vượt trội trong xử lý văn bản, chuyển đổi phong cách và phục chế ảnh cũ — phiên bản trọng số sẽ sớm ra mắt.
Xiaohongshu phát hành mã nguồn mở FireRed-Image-Edit
Ngày 12 tháng 2 — Xiaohongshu (RED) đã chính thức mở mã nguồn mô hình chỉnh sửa ảnh nền tảng mới nhất của mình mang tên FireRed-Image-Edit, cùng với việc công bố mã nguồn, báo cáo kỹ thuật và trang demo trên GitHub và Hugging Face. Phiên bản trọng số mô hình dự kiến sẽ được phát hành trong vài ngày tới.
Hiệu suất hàng đầu trên nhiều chuẩn đánh giá
Mô hình này đã đạt được kết quả thuật toán hàng đầu (SOTA) trên các chuẩn đánh giá chỉnh sửa ảnh nổi bật như ImgEdit và GEdit.
Ra mắt RedEdit Bench - Bộ công cụ đánh giá độc quyền
Đội ngũ phát triển cũng giới thiệu RedEdit Bench, một khung đánh giá độc quyền bao gồm 15 tác vụ phụ như chèn/xóa đối tượng, cải thiện chân dung, và phục hồi ảnh chất lượng thấp. RedEdit Bench cũng sẽ được mở mã nguồn trong thời gian tới.
Chiến lược huấn luyện ba giai đoạn
Về mặt kỹ thuật, FireRed-Image-Edit áp dụng chiến lược huấn luyện ba giai đoạn:
-
Tiền huấn luyện: Sử dụng phương pháp lấy mẫu nhóm và tăng cường hướng dẫn động đa điều kiện giúp nâng cao khả năng tổng quát hóa của mô hình.
-
Tinh chỉnh: Sử dụng dữ liệu được tuyển chọn kỹ lưỡng nhằm nâng cao chất lượng chỉnh sửa.
-
Học tăng cường: Cơ chế thưởng dựa trên OCR nhận dạng bố cục mới, có khả năng phạt lỗi chính tả, ký tự lệch vị trí, tỉ lệ font chữ bất thường, và biến dạng bố cục — cải thiện đáng kể độ chính xác trong chỉnh sửa văn bản và tính đồng nhất về phong cách.
Tính năng nổi bật
Một số khả năng cốt lõi của mô hình bao gồm:
- Tuân thủ hướng dẫn mạnh mẽ
- Chỉnh sửa văn bản chính xác
- Chuyển đổi phong cách
- Hòa hợp hình ảnh đa tham chiếu
- Phục hồi ảnh cũ
- Tăng cường chất lượng ảnh với độ trung thực cao
Kế hoạch phát triển trong tương lai
Xiaohongshu cho biết các bản cập nhật sắp tới sẽ tập trung nâng cao khả năng chỉnh sửa chân dung, độ chính xác trong chỉnh sửa văn bản và bảo toàn sự đồng nhất về phong cách. Ngoài ra, hãng cũng dự kiến tiếp tục mở rộng mã nguồn, trong đó bao gồm kế hoạch phát hành mô hình nền tảng chuyển văn bản thành hình ảnh trong vài tháng tới.
Nguồn: QbitAI
Bình luận (0)
Hãy là người đầu tiên bình luận trong bài
Đăng nhập Đăng nhập để bình luận trong bài viết này