Hôm nay chúng ta sẽ code tính năng "nhìn và hiểu". Bạn sẽ chĩa điện thoại vào một món đồ, chụp "tách" một cái, và Jarvis sẽ nói cho bạn biết đó là gì.
1. Nâng cấp Backend (Xử lý hình ảnh)
Các Model AI hiện đại (như GPT-4o) yêu cầu ảnh phải được gửi dưới dạng chuỗi ký tự (Base64).
Mở file...
Jarvis của chúng ta đã biết nghe (Whisper), biết nói (TTS), biết suy nghĩ (LangGraph). Nhưng nó vẫn còn một điểm yếu chí mạng: Nó bị mù.
Bạn gửi cho nó tấm ảnh cái tủ lạnh và hỏi: "Gợi ý món ăn từ những thứ trong này", nó sẽ chịu chết.
Hôm nay, chúng ta sẽ mở khóa khả năng Vision (Thị giác máy...
Web Scraping "Bất tử": Dùng AI Vision (GPT-4o) để tự động sửa lỗi Selector và vượt Captcha
Bạn viết một con bot cào giá Shopee/Amazon. Chạy mượt mà được 2 ngày.
Ngày thứ 3, Shopee cập nhật giao diện. Class `.product-price` đổi thành `.price-tag-v2`. Bot chết. Bạn phải hì hục sửa code.
Đó là...
OpenAI vừa cập nhật chế độ thoại của ChatGPT, cho phép dùng giọng nói ngay trong khung chat mà không cần chuyển sang chế độ riêng. Bản nâng cấp sửa nhiều hạn chế trước đây, bổ sung bản ghi trực tiếp, hiển thị hình ảnh/bản đồ và thay đổi cách phân phối mô hình cho người dùng miễn phí và trả phí...