Phi Vũ
New member
Google giới thiệu TurboQuant với lời hứa giảm mạnh nhu cầu bộ nhớ cho AI, nhưng các nhà phân tích cho rằng công nghệ này không phải là cứu tinh cho khủng hoảng RAM. Hiệu quả nén có thể giúp AI chạy nhanh hơn, nhưng rất có thể sẽ làm tăng nhu cầu sử dụng bộ nhớ về lâu dài.
Google công bố TurboQuant vào ngày 24/3, khẳng định công nghệ nén này có thể giảm tới 6 lần dung lượng bộ nhớ dùng cho key-value cache — phần bộ nhớ tạm giữ ngữ cảnh hội thoại của mô hình ngôn ngữ lớn (LLM). Tin tức này từng khiến cổ phiếu của một số nhà sản xuất bộ nhớ lao dốc ngắn hạn do lo ngại về tác động lâu dài lên doanh thu ngành.
Key-value cache là 'bộ nhớ ngắn hạn' của LLM, lưu trữ trạng thái hội thoại và ngữ cảnh để trả lời liên tục. TurboQuant tập trung nén vùng bộ nhớ này mà Google nói là không làm giảm chất lượng đầu ra đáng kể, nên trên lý thuyết một mô hình có thể duy trì hiệu năng trong khi dùng ít bộ nhớ hơn.
Tuy nhiên, các nhà phân tích tại Hàn Quốc cảnh báo rằng việc tối ưu hoá bộ nhớ không đồng nghĩa với giảm nhu cầu chip. Lee Jong-wook từ Samsung Securities nhận xét «Đã có nỗ lực tối ưu mô hình để dùng chip hiệu quả hơn, nhưng các mô hình hiệu quả hơn thường làm giảm chi phí vận hành và đổi lại kích thích nhu cầu tính toán AI lớn hơn. Thay vì làm giảm nhu cầu bán dẫn, những mô hình tối ưu được dùng để cung cấp dịch vụ AI hiệu suất cao hơn trên cùng nguồn tài nguyên chip.»
Nói cách khác, cải tiến như TurboQuant có thể không làm các trung tâm dữ liệu dùng ít RAM hơn; thay vào đó, các nhà cung cấp AI có thể dùng tài nguyên đó để nâng cao hiệu năng, còn người dùng sẽ sử dụng AI nhiều hơn vì kết quả được cải thiện. Kết quả là tổng nhu cầu cho bộ nhớ — DRAM và lưu trữ — có thể vẫn tăng.
Kim Rok-ho từ Hana Securities cũng cảnh báo: «Các công nghệ nén không phải mới, và chưa chắc đã được áp dụng rộng rãi trong toàn ngành. Ngay cả khi được dùng nhiều hơn trong trung hạn, chúng sẽ hạ rào cản chi phí và mở rộng ứng dụng AI. Khả năng giảm nhu cầu DRAM và lưu trữ là rất hạn chế.»
Ngoài ra, TurboQuant hiện vẫn ở giai đoạn nghiên cứu, và còn nhiều nghi ngờ về cách Google truyền thông về công nghệ này. Ngay cả khi nó thực sự hiệu quả, hiệu ứng hồi quy (rebound effect) — tức hiệu quả dẫn tới tăng nhu cầu — có thể khiến TurboQuant không thể trở thành 'viên đạn bạc' giải quyết khủng hoảng RAM. Tóm lại, đây là một bước tiến kỹ thuật có ý nghĩa, nhưng không phải lời giải dứt điểm cho vấn đề thiếu hụt bộ nhớ của ngành AI.
Nguồn: Techradar
Google công bố TurboQuant vào ngày 24/3, khẳng định công nghệ nén này có thể giảm tới 6 lần dung lượng bộ nhớ dùng cho key-value cache — phần bộ nhớ tạm giữ ngữ cảnh hội thoại của mô hình ngôn ngữ lớn (LLM). Tin tức này từng khiến cổ phiếu của một số nhà sản xuất bộ nhớ lao dốc ngắn hạn do lo ngại về tác động lâu dài lên doanh thu ngành.
Key-value cache là 'bộ nhớ ngắn hạn' của LLM, lưu trữ trạng thái hội thoại và ngữ cảnh để trả lời liên tục. TurboQuant tập trung nén vùng bộ nhớ này mà Google nói là không làm giảm chất lượng đầu ra đáng kể, nên trên lý thuyết một mô hình có thể duy trì hiệu năng trong khi dùng ít bộ nhớ hơn.
Tuy nhiên, các nhà phân tích tại Hàn Quốc cảnh báo rằng việc tối ưu hoá bộ nhớ không đồng nghĩa với giảm nhu cầu chip. Lee Jong-wook từ Samsung Securities nhận xét «Đã có nỗ lực tối ưu mô hình để dùng chip hiệu quả hơn, nhưng các mô hình hiệu quả hơn thường làm giảm chi phí vận hành và đổi lại kích thích nhu cầu tính toán AI lớn hơn. Thay vì làm giảm nhu cầu bán dẫn, những mô hình tối ưu được dùng để cung cấp dịch vụ AI hiệu suất cao hơn trên cùng nguồn tài nguyên chip.»
Nói cách khác, cải tiến như TurboQuant có thể không làm các trung tâm dữ liệu dùng ít RAM hơn; thay vào đó, các nhà cung cấp AI có thể dùng tài nguyên đó để nâng cao hiệu năng, còn người dùng sẽ sử dụng AI nhiều hơn vì kết quả được cải thiện. Kết quả là tổng nhu cầu cho bộ nhớ — DRAM và lưu trữ — có thể vẫn tăng.
Kim Rok-ho từ Hana Securities cũng cảnh báo: «Các công nghệ nén không phải mới, và chưa chắc đã được áp dụng rộng rãi trong toàn ngành. Ngay cả khi được dùng nhiều hơn trong trung hạn, chúng sẽ hạ rào cản chi phí và mở rộng ứng dụng AI. Khả năng giảm nhu cầu DRAM và lưu trữ là rất hạn chế.»
Ngoài ra, TurboQuant hiện vẫn ở giai đoạn nghiên cứu, và còn nhiều nghi ngờ về cách Google truyền thông về công nghệ này. Ngay cả khi nó thực sự hiệu quả, hiệu ứng hồi quy (rebound effect) — tức hiệu quả dẫn tới tăng nhu cầu — có thể khiến TurboQuant không thể trở thành 'viên đạn bạc' giải quyết khủng hoảng RAM. Tóm lại, đây là một bước tiến kỹ thuật có ý nghĩa, nhưng không phải lời giải dứt điểm cho vấn đề thiếu hụt bộ nhớ của ngành AI.
Nguồn: Techradar
Bài viết liên quan