Hôm nay chúng ta sẽ code tính năng "bấm để nói". Hãy chuẩn bị tinh thần vì chúng ta sẽ phải đụng vào cả Backend (để nhận file) và Frontend (để ghi âm).
1. Nâng cấp Backend (FastAPI)
Server hiện tại chỉ biết nhận chữ (string). Chúng ta phải dạy nó nhận file âm thanh (UploadFile).
Bước 1: Cài...
Bạn muốn có một Jarvis của riêng mình? Một trợ lý ảo không chỉ biết chat text mà còn có thể nghe và nói chuyện với bạn như người thật?
Quên Google Assistant hay Siri đi. Với sức mạnh của mã nguồn mở, bạn có thể tự build một hệ thống xịn hơn nhiều:
- Riêng tư: 100% chạy Local (Offline).
- Thông...
Speech-to-Text miễn phí: Dùng OpenAI Whisper (Local) để làm tool gỡ băng ghi âm tự động
Bạn vừa kết thúc cuộc họp kéo dài 2 tiếng. Sếp yêu cầu: "Em làm biên bản cuộc họp (Meeting Minutes) gửi anh trước 5h chiều nhé."
Bạn nhìn file ghi âm `họp_chiến_lược.mp3` nặng 100MB và thở dài. Ngồi nghe rồi...
Voice Control 2026: Tự chế loa thông minh Jarvis bằng Python, Whisper (STT) và Piper (TTS) chạy Offline
Bạn chán ngấy giọng đọc "chị Google" đều đều? Bạn sợ Alexa nghe lén chuyện gia đình?
Đã đến lúc tự xây dựng một "Jarvis" cho riêng mình.
Mục tiêu của bài viết này:
1. **Nghe (STT):** Dùng...