Phi Vũ

New member
OpenAI vừa giới thiệu ba mô hình giọng nói mới, nhắm tới lập luận sâu, dịch thuật thời gian thực và chuyển phiên âm. Các mô hình này được cung cấp qua Realtime API để nhà phát triển tích hợp vào ứng dụng thoại.

openai-ra-mat-3-mo-hinh-giong-noi-ai-moi-1.jpeg


OpenAI giới thiệu ba mô hình giọng nói​

OpenAI công bố ba mô hình giọng nói mới được thiết kế để mở ra lớp ứng dụng thoại mới cho nhà phát triển, bao gồm khả năng suy luận phức tạp, dịch theo thời gian thực và chuyển giọng nói thành văn bản nhanh chóng.

Ba mô hình và tính năng chính​

  • GPT-Realtime-2: Tập trung vào khả năng lập luận sâu và thích nghi theo luồng hội thoại. Mô hình có thể kiểm tra nhiều nguồn cùng lúc, điều chỉnh giọng điệu theo phản hồi người dùng, xử lý thuật ngữ chuyên ngành (ví dụ y tế, sản xuất) và cung cấp mức độ suy luận nâng cao. Giá: 32 USD cho 1 triệu input tokens và 64 USD cho 1 triệu output tokens.
  • GPT-Realtime-Translate: Dùng cho dịch nói theo thời gian thực, cho phép người dùng nói bằng ngôn ngữ của họ và nhận ngay bản dịch cùng bản chép lời. Hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra. Giá: 0.034 USD/phút.
  • GPT-Realtime-Whisper: Chuyên cho chuyển phiên âm nhanh và chính xác, phù hợp để tạo phụ đề, ghi chú cuộc họp và tóm tắt trong khi cuộc trò chuyện diễn ra, giúp sản phẩm cảm giác nhanh hơn và tự nhiên hơn. Giá: 0.017 USD/phút.

Tất cả ba mô hình đều có mặt trong Realtime API của OpenAI và có thể thử nghiệm trên trang Playground của OpenAI. OpenAI cũng cung cấp prompt dành cho Codex để dễ dàng thêm GPT-Realtime-2 vào nền tảng lập trình tác vụ (agentic coding), giúp nhà phát triển tích hợp chức năng thoại vào trợ lý, ứng dụng dịch thuật, trung tâm cuộc gọi và các sản phẩm tương tác khác.

Nguồn: Techradar
 
Back
Top