Chúng ta đã đi cùng nhau một chặng đường dài. Hệ thống RAG (Retrieval Augmented Generation) của anh em hiện tại đang chạy bằng Vector Database (ChromaDB/Qdrant).
Nó hoạt động rất tốt với câu hỏi: "Ai là tác giả cuốn sách X?" (Tìm kiếm tương đồng).
Nhưng nó sẽ "ngáo" ngay lập tức với câu hỏi...
Ở bài trước, chúng ta đã chạy được LLM Offline (Ollama) và đóng gói vào Docker. Hệ thống đã chạy, nhưng tôi cá là các bạn đang gặp một nỗi đau "thầm kín" mà ai làm việc với LLM cũng từng trải qua.
Đó là khi bạn bảo AI: "Hãy trích xuất thông tin user này ra JSON cho tao".
Nó trả lời: "Dạ vâng...