Trước đây, để máy tính "nhìn" và hiểu được vật thể là một bài toán cực kỳ phức tạp, đòi hỏi kiến thức sâu về toán học và xử lý ảnh. Tuy nhiên, sự ra đời của YOLO (You Only Look Once) đã thay đổi tất cả.
Trong bài viết này, chúng ta sẽ sử dụng phiên bản mới nhất YOLOv8 (phát triển bởi...
Hôm nay chúng ta sẽ code tính năng "nhìn và hiểu". Bạn sẽ chĩa điện thoại vào một món đồ, chụp "tách" một cái, và Jarvis sẽ nói cho bạn biết đó là gì.
1. Nâng cấp Backend (Xử lý hình ảnh)
Các Model AI hiện đại (như GPT-4o) yêu cầu ảnh phải được gửi dưới dạng chuỗi ký tự (Base64).
Mở file...
Jarvis của chúng ta đã biết nghe (Whisper), biết nói (TTS), biết suy nghĩ (LangGraph). Nhưng nó vẫn còn một điểm yếu chí mạng: Nó bị mù.
Bạn gửi cho nó tấm ảnh cái tủ lạnh và hỏi: "Gợi ý món ăn từ những thứ trong này", nó sẽ chịu chết.
Hôm nay, chúng ta sẽ mở khóa khả năng Vision (Thị giác máy...