Bạn có 1 triệu cuốn sách trong thư viện.
Cách 1 (Flat Search): Bạn chạy bộ qua từng kệ sách, so sánh từng cuốn một xem cuốn nào giống cuốn bạn cần tìm nhất. (Độ phức tạp O(N) -> Chậm, chính xác 100%).
Cách 2 (ANN - Approximate Nearest Neighbor): Bạn dùng bản đồ chỉ dẫn để nhảy cóc đến đúng khu...
Bạn gửi file PDF 100 trang cho ChatGPT. Nó trả lời ngon lành.
Nhưng nếu bạn có 10.000 file PDF? Bạn không thể ném tất cả vào Prompt được (tràn Context Window).
Giải pháp là **RAG (Retrieval Augmented Generation)**. Và trái tim của RAG chính là **Vector Database**.
Thay vì lưu chữ cái (A, B, C)...