Multiverse ra mắt mô hình OpenAI nén giúp tiết kiệm bộ nhớ

AI Crazy

New member
Multiverse Computing vừa phát hành HyperNova 60B 2602 — phiên bản nén của gpt-oss-120B — và công bố mã nguồn miễn phí trên Hugging Face. Phiên bản mới giảm nhu cầu bộ nhớ từ 61GB xuống còn khoảng 32GB, vẫn giữ hiệu năng gọi công cụ gần tương đương.

multiverse-ra-mat-mo-hinh-openai-nen-giup-tiet-kiem-bo-nho-1.jpeg


Multiverse Computing, công ty AI đến từ Tây Ban Nha, vừa giới thiệu HyperNova 60B 2602 — một phiên bản nén của mô hình gốc gpt-oss-120B. Họ công bố mô hình này miễn phí trên Hugging Face để cộng đồng và nhà phát triển dễ tiếp cận hơn.

HyperNova 60B 2602 cắt giảm bộ nhớ cần thiết từ khoảng 61GB xuống còn 32GB, tương đương giảm khoảng 50% so với bản gốc. Dù nhỏ hơn, Multiverse khẳng định mô hình vẫn duy trì hiệu năng gọi công cụ (tool-calling) gần như tương đương, giúp hỗ trợ các luồng công việc agent và lập trình tự động tốt hơn.

Cốt lõi của việc nén là công nghệ CompactifAI do Multiverse phát triển, dựa trên mạng tensor lấy cảm hứng từ cơ học lượng tử. Thay vì loại bỏ tham số một cách thô, CompactifAI tái cấu trúc ma trận trọng số bên trong transformer thành biểu diễn mạng tensor hiệu quả hơn, khai thác tương quan giữa các tham số và loại bỏ sự dư thừa cấu trúc.

Quy trình nén được áp dụng sau khi huấn luyện (post-training), nên không cần huấn luyện lại mô hình hay truy cập dữ liệu huấn luyện ban đầu. Multiverse cho biết phương pháp này có thể giảm sử dụng bộ nhớ rất lớn trong một số trường hợp (tuyên bố lên đến khoảng 93%), đồng thời giảm số lượng tham số, tăng tốc xử lý và tiết kiệm năng lượng khi triển khai trên đám mây, tại chỗ hoặc thiết bị biên.

Về hiệu năng, Multiverse báo cáo cải thiện so với bản nén trước đó: tăng 5x trên Tau2-Bench và 2x trên Terminal Bench Hard — các bài kiểm tra tập trung vào khả năng sử dụng công cụ và luồng làm việc liên quan đến mã hơn là trả lời văn bản đơn thuần. Tuy nhiên, hiệu quả nén còn phụ thuộc vào mức độ dư thừa trong mô hình gốc; các mô hình lớn, quá tham số thường cho tiềm năng nén cao hơn.

Những thách thức kỹ thuật chính gồm việc giữ độ chính xác khi đạt tỷ lệ nén cao, đảm bảo độ bền qua nhiều nhiệm vụ (lý luận, đa ngôn ngữ, chuyên ngành), và tối ưu hóa cho các phần cứng triển khai khác nhau với yêu cầu độ trễ và giới hạn vận hành khác nhau. Multiverse giải quyết điều này bằng cách tinh chỉnh các tham số phân rã tensor để cân bằng giữa giảm kích thước và ổn định hiệu năng.

Ý nghĩa thực tiễn là rõ ràng: mô hình nén có thể giúp giảm chi phí hạ tầng và tiêu thụ năng lượng, mở đường cho các tổ chức hoặc nhà phát triển có ngân sách eo hẹp triển khai các mô hình lớn trên phần cứng ít tốn kém hơn. Multiverse cũng liên kết quan điểm này với các cuộc thảo luận ở châu Âu về AI chủ quyền, giới hạn hạ tầng và tiêu thụ năng lượng, cho thấy nén hiệu quả là một hướng đi thay thế cho việc chỉ tạo ra những mô hình ngày càng lớn hơn.

Tóm lại, HyperNova 60B 2602 là một ví dụ về cách nén mô hình có thể làm cho AI quy mô lớn trở nên thiết thực và bền vững hơn, nhưng vẫn cần kiểm chứng rộng rãi bởi cộng đồng về độ tin cậy và hiệu năng thực tế trong đa dạng ứng dụng.

Nguồn: Techradar
 
Back
Top