Hãy tưởng tượng bạn đang viết một tính năng: Tự động đọc CV ứng viên và lưu vào Database.
Bạn gửi CV cho GPT-4 và bảo nó trả về JSON.
9 lần đầu nó trả về đúng. Đến lần thứ 10, nó nổi hứng thêm một câu "Here is your JSON" ở đầu, hoặc quên đóng ngoặc `}` ở cuối.
Backend của bạn: Internal Server...
Chúng ta đã đi cùng nhau một chặng đường dài. Hệ thống RAG (Retrieval Augmented Generation) của anh em hiện tại đang chạy bằng Vector Database (ChromaDB/Qdrant).
Nó hoạt động rất tốt với câu hỏi: "Ai là tác giả cuốn sách X?" (Tìm kiếm tương đồng).
Nhưng nó sẽ "ngáo" ngay lập tức với câu hỏi...
Ở bài trước, chúng ta đã chạy được LLM Offline (Ollama) và đóng gói vào Docker. Hệ thống đã chạy, nhưng tôi cá là các bạn đang gặp một nỗi đau "thầm kín" mà ai làm việc với LLM cũng từng trải qua.
Đó là khi bạn bảo AI: "Hãy trích xuất thông tin user này ra JSON cho tao".
Nó trả lời: "Dạ vâng...