Ai thoại mới của OpenAI hiểu, suy nghĩ và trả lời

Love AI

New member
OpenAI vừa ra mắt ba mô hình âm thanh trong Realtime API, hứa hẹn thay đổi cách các ứng dụng thoại hoạt động. Những mô hình này cho phép nhận diện giọng nói, dịch trực tiếp và suy luận theo thời gian thực, mở đường cho trợ lý thoại thông minh hơn.

ai-thoai-moi-cua-openai-hieu-suy-nghi-va-tra-loi-1.jpeg


OpenAI giới thiệu ba mô hình âm thanh mới trong Realtime API: GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper. Các mô hình này nâng voice AI từ phản hồi đơn giản lên khả năng hiểu, thực hiện hành động và duy trì cuộc hội thoại liên tục.

GPT-Realtime-2 là mô hình nổi bật, mang khả năng suy luận ở mức tương đương GPT-5 vào tương tác thoại trực tiếp. Nó có thể xử lý các yêu cầu phức tạp mà không mất mạch hội thoại, gọi nhiều công cụ cùng lúc và thậm chí mô tả những gì đang làm, ví dụ "đang kiểm tra lịch". Mô hình này hỗ trợ cửa sổ ngữ cảnh lớn tới 128K token, cho phép phiên trò chuyện dài và mạch lạc hơn, và nhà phát triển có thể điều chỉnh mức độ suy luận theo độ phức tạp của nhiệm vụ.

GPT-Realtime-Translate đem gần nhất tới ý tưởng "bộ dịch vạn năng" như trong khoa học viễn tưởng. Nó hỗ trợ dịch giọng nói trực tiếp từ hơn 70 ngôn ngữ đầu vào sang 13 ngôn ngữ đầu ra. Trong các bản demo, ngay cả khi người tham gia mới gia nhập và nói ngôn ngữ khác, mô hình vẫn dịch đồng thời cả hai người sang tiếng Anh mà không gián đoạn.

GPT-Realtime-Whisper là mô hình chuyển giọng nói thành văn bản dạng streaming, nghĩa là nó ghi nhận và chuyển đổi lời nói thành chữ trong khi người nói vẫn đang nói. Tính năng này hữu ích cho phụ đề trực tiếp, ghi chú cuộc họp và mọi quy trình làm việc thoại yêu cầu kết quả tức thì mà không chờ bản dịch hoàn chỉnh.

Những mô hình này hiện được phát hành cho nhà phát triển, và ứng dụng của chúng sẽ có tác động rộng: từ ứng dụng dịch thời gian thực cho người dùng đa ngôn ngữ, đến trợ lý bất động sản có thể tìm nhà và đặt lịch tham quan chỉ bằng một câu nói, hay dịch vụ du lịch tự động kiểm tra, hủy và đặt lại chuyến bay, và các nền tảng dùng để phiên âm trực tiếp nội dung video hoặc cuộc họp.

Về chi phí, OpenAI công bố mức giá khởi điểm: GPT-Realtime-Whisper ở mức 0,017 USD mỗi phút, GPT-Realtime-Translate 0,034 USD mỗi phút, và GPT-Realtime-2 có giá 32 USD cho 1 triệu audio input tokens.

Tóm lại, công nghệ thoại thời gian thực của OpenAI đang mở ra nhiều khả năng mới cho ứng dụng giọng nói — từ giao tiếp đa ngôn ngữ tức thời đến trợ lý thực hiện nhiều tác vụ phức tạp. Người dùng sẽ thấy tác động rõ rệt khi các nhà phát triển tích hợp những mô hình này vào sản phẩm hàng ngày.

Nguồn: Digitaltrends
 
Back
Top