Đừng Fine-tune nữa! Kỹ thuật "Context Caching" trên Python giúp giảm 90% chi phí API cho Chatbot RAG

AI Hunter · Lúc 06:02:40

Đừng Fine-tune nữa! Kỹ thuật "Context Caching" trên Python giúp giảm 90% chi phí API cho Chatbot RAG

Bạn có một file tài liệu kỹ thuật dài 500 trang (khoảng 200.000 tokens). Bạn muốn xây dựng Chatbot để nhân viên hỏi đáp về tài liệu đó.

Cách cũ (RAG truyền thống): Cắt nhỏ tài liệu, lưu vào Vector DB. Khi hỏi, tìm đoạn liên quan rồi gửi cho AI. -> Nhược điểm: Mất ngữ cảnh toàn cục, AI trả lời rời rạc.
Cách "Đại gia" (Long Context): Gửi toàn bộ 500 trang vào mỗi lần hỏi. -> Nhược điểm: Phá sản! Mỗi câu hỏi tốn $2 - $5 chỉ tiền Input.

Chào mừng đến với năm 2026, nơi chúng ta có giải pháp thứ 3: Context Caching. Bạn gửi tài liệu 1 lần, AI "nhớ" nó trên server. Các câu hỏi sau đó chỉ tốn phí cho câu hỏi ngắn ngủi của bạn. Phí đọc tài liệu? Giảm tới 90%.

1. Context Caching là gì?

Hãy tưởng tượng việc đưa sách cho AI đọc.

Không Cache: Mỗi lần bạn hỏi, bạn phải đưa lại cuốn sách và bắt nó đọc lại từ trang 1.
Có Cache: Bạn đưa sách 1 lần. AI kẹp bookmark lại. Lần sau hỏi, nó trả lời ngay lập tức.

2. So sánh chi phí: Gemini 1.5 Pro vs Claude 3.5 Sonnet

Giả sử kịch bản: Tài liệu 1 Triệu Token. Hỏi 20 câu hỏi liên tiếp trong 1 giờ.

Yếu tố	Gemini 1.5 Pro (Cached)	Claude 3.5 Sonnet (Cached)	Không dùng Cache (Standard)
Phí ghi Cache (Lần đầu)	$2.50	$3.75	$0
Phí Input (20 câu hỏi)	Miễn phí (Token cached)	$0.30 (Giảm 90%)	$60.00 ($3 * 20 lần)
Phí lưu trữ (1 giờ)	~$0.50	~$0.00	$0
TỔNG CỘNG	~$3.00	~$4.05	$60.00

=> Kết luận: Context Caching rẻ hơn 20 lần so với cách gọi API thông thường.

3. Khái niệm TTL (Time To Live) - Quản lý vòng đời

Cache không tồn tại mãi mãi (vì tốn RAM server của Google/Anthropic). TTL là thời gian sống của Cache.

Default TTL: Thường là 1 giờ (60 phút).
Auto-refresh: Mỗi khi bạn gọi API hỏi vào Cache, TTL sẽ tự động reset lại từ đầu (đối với một số provider) hoặc bạn phải gọi lệnh update_ttl thủ công.
Hết hạn: Khi hết TTL, Cache bị xóa. Bạn phải tốn tiền upload lại từ đầu.

Mẹo: Hãy đặt TTL phù hợp với phiên làm việc. Ví dụ: Bot nội bộ công ty chỉ hoạt động giờ hành chính -> Đặt TTL 8 tiếng.

4. Triển khai Code (Python & Google GenAI)

Chúng ta dùng thư viện google-generativeai vì API của họ rất trực quan.

Python:

import os
import time
import google.generativeai as genai
from google.generativeai import caching
import datetime

# Setup API Key
os.environ["GEMINI_API_KEY"] = "YOUR_API_KEY_HERE"
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

def create_and_chat():
    print("🚀 Đang upload tài liệu 'manual.pdf'...")
    # 1. Upload file (Giả định bạn có file này)
    # doc_file = genai.upload_file(path="manual.pdf")
    # (Chờ file processing...)
   
    # 2. Tạo Context Caching
    print("💾 Đang khởi tạo Cache trên Server...")
    cache = caching.CachedContent.create(
        model="models/gemini-1.5-pro-002",
        display_name="Tech_Manual_Repo",
        system_instruction="Bạn là trợ lý kỹ thuật.",
        contents=[doc_file],
        # TTL: Cache sống trong 60 phút
        ttl=datetime.timedelta(minutes=60)
    )
   
    print(f"✅ Cache ID: {cache.name} | Hết hạn sau: 60 phút")

    # 3. Khởi tạo model từ Cache
    model = genai.GenerativeModel.from_cached_content(cached_content=cache)
    chat = model.start_chat()
   
    # 4. Chat thử
    response = chat.send_message("Tóm tắt chương 3 cho tôi")
    print(f"AI: {response.text}")
   
    # Kiểm tra Token Usage
    print(f"Input Tokens bị tính phí: {response.usage_metadata.prompt_token_count}")
    # Bạn sẽ thấy số này cực nhỏ (<100), dù tài liệu gốc là 1 triệu token!

if __name__ == "__main__":
    # create_and_chat()
    pass

5. Khi nào nên dùng Context Caching?

Chat với sách, tài liệu pháp lý, code base lớn (trên 50k tokens).
Bot CSKH cần load thông tin sản phẩm cố định trong ngày.
Phân tích video dài (Multimodal).

Năm 2026, kỹ năng tối ưu chi phí (Cost Optimization) quan trọng ngang ngửa kỹ năng code. Đừng lãng phí tiền của công ty vào việc gửi đi gửi lại cùng một dữ liệu. Hãy Cache nó!