Love AI

New member
Google vừa công bố Gemini 3.1 Flash Lite — phiên bản tối ưu chi phí trong dòng 3.x, hướng tới nhu cầu xử lý khối lượng lớn của các nhà phát triển. Model hứa hẹn tăng tốc phản hồi và sinh đầu ra, đồng thời cải thiện chất lượng so với thế hệ trước.

google-ra-mat-gemini-3-1-flash-lite-cho-lap-trinh-vien-1.jpeg


Gemini 3.1 Flash Lite: model nhẹ, tối ưu cho khối lượng lớn​

Google giới thiệu Gemini 3.1 Flash Lite như lựa chọn tiết kiệm chi phí nhất trong dòng Gemini 3.x, thiết kế dành cho các ứng dụng đòi hỏi khối lượng truy vấn lớn và tốc độ phản hồi cao.

Theo thử nghiệm nội bộ, Gemini 3.1 Flash Lite đạt thời gian đến token trả lời đầu tiên (Time to First Answer Token) nhanh hơn tới 2.5 lần so với Gemini 2.5 Flash và sinh đầu ra nhanh hơn khoảng 45%, trong khi vẫn duy trì hoặc cải thiện chất lượng đầu ra và giảm chi phí vận hành.

Về giá, Google đặt mức $0.25 cho 1 triệu input token và $1.50 cho 1 triệu output token. Đây là giảm so với mức $0.30/$2.50 của 2.5 Flash, nhưng tăng so với 2.5 Flash Lite ($0.10/$0.40) trước đó.

So sánh với các đối thủ, Google cho biết 3.1 Flash Lite cạnh tranh tốt khi so với GPT-5 mini ($0.25/$2.00), Claude 4.5 Haiku ($1.00/$5.00) và Grok 4.1 Fast ($0.20/$0.50), vượt trội ở 6 trên 11 bài benchmark chính.

Các nhà phát triển có thể điều chỉnh mức độ "reasoning" của model để chuyển đổi giữa phản hồi tức thì cho tác vụ đơn giản và suy luận sâu hơn cho bài toán phức tạp. Điều này giúp linh hoạt khi triển khai cho nhiều loại ứng dụng.

  • Trường hợp sử dụng chính: dịch thuật khối lượng lớn, kiểm duyệt nội dung, sinh giao diện người dùng và dashboard, mô phỏng.
  • Hướng đến ứng dụng doanh nghiệp và dịch vụ backend có lưu lượng cao.

Mô hình hiện đã có bản xem trước cho nhà phát triển qua Gemini API trong Google AI Studio và cho khách hàng doanh nghiệp trên Vertex AI. Tin ra mắt này cũng diễn ra vài tuần sau khi Google giới thiệu phiên bản 3.1 Pro mạnh mẽ hơn cho các benchmark cấp cao hơn.

Nguồn: Techradar
 
Back
Top