DeepSeek công bố mô hình trí tuệ nhân tạo cạnh tranh GPT-5

Love AI

New member
Startup Trung Quốc DeepSeek vừa phát hành hai mô hình mới — DeepSeek‑V3.2 và DeepSeek‑V3.2‑Speciale — và cho phép tải về mã nguồn theo giấy phép MIT. Công ty tuyên bố chúng đạt hiệu năng suy luận dài, giải toán và lập trình ngang ngửa hoặc vượt GPT‑5, đồng thời giảm đáng kể chi phí xử lý cho ngữ cảnh dài.

RFHhebaafuggVviVNzSsy-1920-80.jpg


DeepSeek, một công ty khởi nghiệp Trung Quốc, vừa công bố hai mô hình AI lớn: DeepSeek‑V3.2 (mô hình suy luận hàng ngày) và DeepSeek‑V3.2‑Speciale (phiên bản hiệu năng cao). Cả hai được phát hành dưới giấy phép MIT, cho phép mọi người sao chép, chỉnh sửa và thương mại hóa mã nguồn.

Điểm nổi bật về hiệu năng​

DeepSeek khẳng định V3.2 và nhất là phiên bản Speciale có thể sánh ngang hoặc vượt GPT‑5 và Gemini 3 Pro ở các bài toán suy luận dài, sử dụng công cụ và giải quyết các bài toán phức tạp. Phiên bản Speciale đạt 99,2% ở Harvard‑MIT Math Tournament, 73% trong bài kiểm tra sửa lỗi phần mềm và giành huy chương vàng ở nhiều chuẩn đo quốc tế — ngay cả khi chạy offline và không có công cụ bên ngoài.

Công nghệ giảm chi phí​

Bí quyết của DeepSeek là một thủ thuật kiến trúc gọi là DeepSeek Sparse Attention (DSA). Thay vì so sánh mọi từ với mọi từ trong vùng ngữ cảnh, DSA chỉ tập trung vào những phần liên quan nhất, kiểu "lướt" nội dung thay vì đọc tất cả. Cách làm này giúp giảm chi phí tính toán cho tài liệu dài đến 70%, khiến mô hình rẻ hơn để chạy, đặc biệt với cửa sổ ngữ cảnh lớn lên đến 128.000 token.

Khả năng dùng công cụ và ghi nhớ liên công cụ​

Một điểm đáng chú ý là khả năng "suy nghĩ khi dùng công cụ": nhiều agent hiện nay mất trạng thái suy luận sau mỗi hành động với công cụ khác nhau. DeepSeek giải quyết bằng cách giữ lại bộ nhớ giữa các công cụ, nhờ huấn luyện với hơn 85.000 chỉ dẫn tổng hợp phức tạp, giúp mô hình phối hợp trình duyệt web, môi trường lập trình và các tác vụ liên quan thực tế một cách mượt mà hơn.

Tác động của giấy phép mở​

Việc chọn giấy phép MIT là bước mang tính đột phá: nó cho phép mọi bên sao chép, chỉnh sửa và thương mại hóa mô hình, đối nghịch với xu hướng bảo vệ trọng số mô hình như tài sản độc quyền với lý do an toàn hoặc bí mật doanh nghiệp. Điều này mở cơ hội cho nhà phát triển độc lập và nhóm sinh viên tiếp cận công nghệ từng đòi hỏi ngân sách đám mây lớn.

Quan ngại địa chính trị và triển khai​

Quyết định mở nguồn không đồng nghĩa với việc được chào đón ở mọi nơi. Một số cơ quan quản lý lo ngại về chuyển giao dữ liệu: Italy từng cấm ứng dụng, Đức tìm cách ngăn chặn với lý do an toàn dữ liệu, và một số nghị sĩ Mỹ muốn cấm dùng trên thiết bị chính phủ. DeepSeek là công ty Trung Quốc, nên bối cảnh địa chính trị là yếu tố lớn khi cân nhắc sử dụng.

Sẵn sàng và ý nghĩa​

Hiện Speciale chỉ mở qua API tạm thời, và dự kiến giữa tháng 12 sẽ được hợp nhất vào bản V3.2 để mọi người truy cập. Nếu các tuyên bố về hiệu năng và chi phí là chính xác, lần ra mắt này đánh dấu bước chuyển: cuộc đua AI không chỉ còn là tính năng, mà còn là quyền truy cập, chi phí vận hành và kiểm soát công nghệ.
 
Back
Top