Trong kỷ nguyên AI, nén dữ liệu không còn chỉ để tiết kiệm băng thông hay lưu trữ. Mục tiêu mới là giảm số token — tức giảm lượng “suy nghĩ” mà AI phải thực hiện — để cắt chi phí và độ trễ khi inference.
Nén từng là chuyện về hiệu năng: làm nhỏ file để tải nhanh hơn và tiết kiệm dung lượng...