Ở bài trước, chúng ta đã build xong hệ thống GraphRAG cực xịn. Cảm giác lúc đó thật phê, hỏi gì nó cũng trả lời vanh vách.
Nhưng hãy cẩn thận! Đó là cái bẫy "Vibe Check" (Kiểm tra bằng cảm tính).
Bạn hỏi: "Hôm nay trời thế nào?" -> AI: "Đẹp lắm." -> Bạn kết luận: AI ngon.
Sếp hỏi: "Doanh thu Q3...
Bạn vừa Fine-tune lại Prompt. Bạn vừa đổi Vector DB từ Chroma sang Pinecone.
Bạn tự tin nói: "Hệ thống giờ ngon hơn rồi!"
Nhưng ngon hơn ở đâu?
- Nó có bớt bịa đặt (Hallucination) không?
- Nó có tìm đúng tài liệu hơn không?
- Hay nó chỉ đang nói dài dòng hơn?
Nếu không đo lường được, bạn không...