Clone Giọng Nói - Để Jarvis Trả Lời Bằng Chính Giọng Của Bạn (Coqui XTTS)

AI Hunter · 22/01/2026

Đây là kỹ thuật sẽ nâng tầm Jarvis của bạn từ một "cái máy đọc chữ" thành một trợ lý có cá tính riêng biệt.
Chúng ta sẽ sử dụng Coqui TTS (XTTS v2) - mô hình AI mã nguồn mở tốt nhất hiện nay, có khả năng "nhái" giọng bất kỳ ai chỉ trong vài giây.

1. Nguyên lý hoạt động (Zero-Shot Cloning)

Khác với công nghệ cũ cần thu âm hàng giờ đồng hồ, XTTS v2 sử dụng kỹ thuật **Zero-Shot Learning**:

1. Bạn cung cấp 1 file âm thanh mẫu ngắn (khoảng 6-10 giây) giọng của người bạn muốn clone (Ví dụ: `giong_mau.wav`).
2. AI sẽ phân tích đặc trưng của chất giọng đó (cao độ, âm sắc, cách nhả chữ).
3. Khi bạn đưa văn bản mới, AI sẽ tổng hợp giọng đọc dựa trên đặc trưng đã học.

2. Chuẩn bị (Cảnh báo: Cần GPU)

Cực kỳ quan trọng: Voice Cloning là tác vụ rất nặng.
* Nếu chạy trên CPU (Chip thường): Mất 30 giây để tạo ra 5 giây âm thanh -> Không thể dùng thực tế.
* Yêu cầu bắt buộc: Máy tính phải có Card màn hình rời **NVIDIA (GPU)** để chạy mượt.

Cài đặt thư viện:

Mã:

# Cần cài PyTorch bản hỗ trợ CUDA trước (Xem hướng dẫn trên trang chủ PyTorch)
pip install TTS

3. Chuẩn bị giọng mẫu

1. Dùng điện thoại hoặc micro máy tính, thu âm một đoạn khoảng 10 giây. Nói rõ ràng, không có tiếng ồn nền.
2. Ví dụ câu thu âm: *"Xin chào, đây là giọng mẫu của tôi để huấn luyện AI. Hôm nay trời rất đẹp và tôi đang học lập trình Python."*
3. Lưu file với tên `reference.wav` và để cùng thư mục code.

4. Triển khai Code (Full Source)

Tạo file `voice_clone.py`. Lần đầu chạy nó sẽ tự tải model khoảng vài GB, hãy kiên nhẫn.

Python:

import torch
from TTS.api import TTS
import os

# --- CẤU HÌNH ---
MODEL_NAME = "tts_models/multilingual/multi-dataset/xtts_v2"
REFERENCE_AUDIO = "reference.wav" # File giọng mẫu của bạn
OUTPUT_FILE = "cloned_output.wav"
TEXT_TO_SPEAK = "Chào sếp! Tôi đã học được giọng nói của sếp rồi. Từ nay tôi sẽ dùng giọng này để báo cáo công việc."

# --- KIỂM TRA GPU ---
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"⚙️ Đang chạy trên thiết bị: {device.upper()}")
if device == "cpu":
    print("⚠️ Cảnh báo: Chạy trên CPU sẽ RẤT CHẬM!")

# --- KHỞI TẠO MODEL ---
print("⏳ Đang tải model XTTS (Lần đầu sẽ lâu)...")
tts = TTS(model_name=MODEL_NAME).to(device)

# --- CHẠY VOICE CLONING ---
print("🗣️ Đang tổng hợp giọng nói...")
tts.tts_to_file(
    text=TEXT_TO_SPEAK,
    speaker_wav=REFERENCE_AUDIO, # Truyền file mẫu vào đây
    language="vi",               # Chọn tiếng Việt
    file_path=OUTPUT_FILE
)

print(f"✅ Xong! Đã lưu file tại: {OUTPUT_FILE}")
# Phát thử (Nếu trên Windows)
# os.system(f"start {OUTPUT_FILE}")

5. Tích hợp vào Jarvis

Bạn thay thế hàm `edge_tts` trong các bài trước bằng hàm gọi Coqui TTS này.

Lưu ý về tốc độ (Latency):
* Edge-TTS (Bài 6): Phản hồi tức thì (< 1 giây).
* Coqui XTTS (Clone): Sẽ có độ trễ khoảng 2-5 giây tùy độ mạnh GPU của bạn.

-> Bạn phải đánh đổi giữa "Tốc độ" và "Chất riêng".

Lời kết cho Series

Đến đây, bạn đã nắm trong tay toàn bộ "Long Đồ" để xây dựng một hệ thống AI Assistant hoàn chỉnh. Từ Backend, Frontend, Mobile App, Brain, Eyes, Ears, cho đến Voice.

Giới hạn duy nhất bây giờ là trí tưởng tượng của bạn. Hãy dùng những viên gạch này để xây nên những công trình tuyệt vời cho diễn đàn và ngôi nhà của bạn nhé!

Clone Giọng Nói - Để Jarvis Trả Lời Bằng Chính Giọng Của Bạn (Coqui XTTS)

AI Hunter

Member

1. Nguyên lý hoạt động (Zero-Shot Cloning)​

2. Chuẩn bị (Cảnh báo: Cần GPU)​

3. Chuẩn bị giọng mẫu​

4. Triển khai Code (Full Source)​

5. Tích hợp vào Jarvis​

Lời kết cho Series​