DeepSeek R1-0528: Bước Tiến Mới Trong Mô Hình AI Có Thể Chạy Trên Một GPU

Long Huỳnh

Moderator
Thành viên BQT

🔍 DeepSeek R1-0528: Bước Tiến Mới Trong Mô Hình AI Có Thể Chạy Trên Một GPU​


DeepSeek, công ty khởi nghiệp AI đến từ Trung Quốc, vừa giới thiệu bản nâng cấp đầu tiên cho mô hình ngôn ngữ lớn R1, mang tên R1-0528. Điểm nổi bật của phiên bản này là khả năng chạy trên một GPU duy nhất, mở ra cơ hội tiếp cận rộng rãi hơn cho cộng đồng nghiên cứu và phát triển AI

1749068281209.jpeg

🚀 Những Nâng Cấp Đáng Chú Ý​

Theo thông báo trên nền tảng Hugging Face, R1-0528 được mô tả là một "nâng cấp nhỏ" nhưng mang lại cải thiện đáng kể về khả năng suy luận và xử lý các tác vụ phức tạp. DeepSeek khẳng định hiệu suất của mô hình mới chỉ thấp hơn một chút so với các mô hình hàng đầu như OpenAI o3 và Gemini 2.5 Pro của Google
Trên nền tảng WeChat, DeepSeek cho biết tỷ lệ "ảo giác" – tức việc mô hình tạo ra thông tin sai lệch hoặc gây hiểu lầm – đã giảm khoảng 45-50% trong các tác vụ như viết lại và tóm tắt. Ngoài ra, R1-0528 còn thể hiện khả năng vượt trội trong việc viết bài luận, tiểu thuyết và các thể loại sáng tạo khác, cũng như cải thiện hiệu suất trong lĩnh vực lập trình giao diện phần mềm và nhập vai dưới dạng tác nhân AI (AI agent).


🧠 Kích Thước Và Hiệu Suất​

Với kích thước 685 tỷ tham số, R1-0528 là một mô hình khá lớn. Tuy nhiên, DeepSeek đã phát triển một biến thể nhỏ gọn hơn mang tên DeepSeek-R1-0528-Qwen3-8B, dựa trên mô hình Qwen3-8B của Alibaba với 8 tỷ tham số. Biến thể này được tạo ra thông qua quá trình "chưng cất", sử dụng văn bản do R1-0528 tạo ra để tinh chỉnh Qwen3-8B, giúp mô hình mới mạnh mẽ hơn và sử dụng ít tài nguyên hơn.
Theo NodeShift, DeepSeek-R1-0528-Qwen3-8B chỉ yêu cầu một GPU có RAM từ 40-80 GB để chạy, chẳng hạn như Nvidia A100, trong khi R1-0528 tiêu chuẩn cần khoảng 16 GPU A100 80 GB.


📊 Đánh Giá Hiệu Suất​

DeepSeek cho biết mô hình nhỏ gọn này hoạt động tốt hơn Gemini 2.5 Flash của Google trong bài kiểm tra AIME 2025 – một tập hợp các câu hỏi toán học thử thách – và có sức mạnh tương đương với mô hình lý luận Phi 4 của Microsoft trong bài kiểm tra kỹ năng toán học HMMT.
Trên Hugging Face, DeepSeek mô tả DeepSeek-R1-0528-Qwen3-8B là "dành cho cả nghiên cứu học thuật, lý luận và phát triển công nghiệp quy mô nhỏ". Mô hình này cũng được cấp phép theo giấy phép MIT, cho phép sử dụng cho mục đích thương mại


🌐 Phản Ứng Từ Cộng Đồng​

Adina Yakefu, nhà nghiên cứu AI tại Hugging Face, đánh giá cao bản nâng cấp của R1, cho rằng mô hình mới "sắc nét hơn về mặt lý luận, mạnh hơn về toán học và mã, và gần đạt đến trình độ của các mô hình hàng đầu như Gemini và OpenAI o3".
Tuy nhiên, sau thông báo cập nhật R1 của DeepSeek, cổ phiếu của nhiều công ty AI đã giảm từ 5-15%, cho thấy sự ảnh hưởng mạnh mẽ của DeepSeek đến thị trường.

🔮 Tương Lai Của DeepSeek​

DeepSeek đã thu hút sự chú ý từ cuối năm ngoái khi ra mắt mô hình V3 và sau đó là R1 vào đầu năm nay. Cả hai đều được đánh giá có sức mạnh tương đương với những sản phẩm hàng đầu từ OpenAI hay Google, dù sử dụng ít GPU để đào tạo hơn. Để đối phó với DeepSeek, nhiều công ty đã có chiến lược tăng sức hút, chẳng hạn như Google giới thiệu các gói dịch vụ Gemini với giá phải chăng, OpenAI giảm giá và phát hành mô hình o3-mini sử dụng ít năng lực tính toán hơn.
DeepSeek được thành lập vào tháng 5/2023, đặt trụ sở tại Hàng Châu, Chiết Giang, và do quỹ đầu tư High-Flyer sở hữu. Công ty tập trung vào xây dựng công nghệ nền tảng và không có kế hoạch huy động vốn.
 
Back
Top Bottom