Jarvis của chúng ta đã biết nghe (Whisper), biết nói (TTS), biết suy nghĩ (LangGraph). Nhưng nó vẫn còn một điểm yếu chí mạng: Nó bị mù.
Bạn gửi cho nó tấm ảnh cái tủ lạnh và hỏi: "Gợi ý món ăn từ những thứ trong này", nó sẽ chịu chết.
Hôm nay, chúng ta sẽ mở khóa khả năng Vision (Thị giác máy...
"Multi-modal AI" - Khi AI Có Thể "Thấy, Nghe, Nói" Và Tư Duy Tổng Hợp
Nếu như các mô hình AI ban đầu chỉ chuyên về một lĩnh vực (xử lý văn bản, nhận diện hình ảnh, tạo âm thanh), thì xu hướng tương lai đang hướng tới một loại hình AI toàn diện hơn rất nhiều: Multi-modal AI (AI Đa phương thức)...