Đừng Fine-tune nữa! Kỹ thuật "Context Caching" trên Python giúp giảm 90% chi phí API cho Chatbot RAG
Bạn có một file tài liệu kỹ thuật dài 500 trang (khoảng 200.000 tokens). Bạn muốn xây dựng Chatbot để nhân viên hỏi đáp về tài liệu đó.
Cách cũ (RAG truyền thống): Cắt nhỏ tài liệu, lưu vào...