AI Crazy
New member
Các nhà nghiên cứu tại POSTECH (Hàn Quốc) phát triển một đai cổ trang bị camera có thể dịch các chuyển động cơ và da ở cổ thành lời nói. Thiết bị hướng tới phục hồi "giọng nói" cho những người không thể phát âm thông thường và hỗ trợ giao tiếp im lặng trong môi trường ồn.
Một nhóm tại Pohang University of Science and Technology (POSTECH) vừa giới thiệu một đai cổ trang bị camera nhỏ, dùng để theo dõi "bản đồ chuyển động" trên cổ khi người đeo cố gắng nói, mà không cần phát âm.
Nhóm nghiên cứu cho biết tỷ lệ nhận diện có thể cải thiện khi hệ thống được huấn luyện thêm và mở rộng bộ từ vựng, nhưng còn nhiều việc cần làm trước khi sản phẩm sẵn sàng dùng rộng rãi.
Ngoài các thách thức kỹ thuật, việc triển khai thực tế cần cân nhắc vấn đề riêng tư, bảo mật dữ liệu chuyển động và giọng nói, cũng như thử nghiệm lâm sàng để xác nhận hiệu quả và an toàn trước khi ứng dụng rộng rãi.
Nguồn: Techradar
Một nhóm tại Pohang University of Science and Technology (POSTECH) vừa giới thiệu một đai cổ trang bị camera nhỏ, dùng để theo dõi "bản đồ chuyển động" trên cổ khi người đeo cố gắng nói, mà không cần phát âm.
Cách hoạt động
Thiết bị quay lại các chuyển động cơ và da ở vùng cổ, sau đó mô hình học máy ánh xạ những chuyển động này sang các từ hoặc ký hiệu. Kết quả ước tính được ghép với hệ thống tổng hợp giọng nói để phát ra lời nói — thậm chí hệ thống có thể được huấn luyện trên giọng của chính người dùng để tạo ra lời nói giống họ hơn.Ứng dụng
- Phục hồi giao tiếp cho bệnh nhân mất thanh quản hoặc những người không thể phát âm.
- Giao tiếp im lặng trong thư viện, phòng họp hoặc môi trường cần kín tiếng.
- Hỗ trợ nhân viên trong môi trường công nghiệp ồn ào, thay thế một số trường hợp cần dùng radio hoặc nhắn tin.
Hiệu suất và hạn chế
Trong thử nghiệm ban đầu, hệ thống đạt độ chính xác nhận diện 85,8% nhưng chỉ trên 26 từ được định nghĩa trước (bộ từ theo bảng phát âm NATO: "Alpha", "Bravo"...). Khi người dùng di chuyển, tỷ lệ chính xác giảm còn khoảng 39,72%. Bù lại, đai cổ hoạt động tốt trong môi trường có tiếng ồn nền mạnh, vẫn nhận diện được từ ở mức nền khoảng 90 decibel (tương đương công trường xây dựng đông đúc).Nhóm nghiên cứu cho biết tỷ lệ nhận diện có thể cải thiện khi hệ thống được huấn luyện thêm và mở rộng bộ từ vựng, nhưng còn nhiều việc cần làm trước khi sản phẩm sẵn sàng dùng rộng rãi.
Ưu điểm so với công nghệ khác
So với các hệ thống chuyển suy nghĩ thành ngôn ngữ dựa trên điện não đồ (EEG) hoặc các phương pháp xâm lấn, đai cổ này đơn giản hơn, nhẹ, dễ mang theo và ít cồng kềnh, giúp tăng tính khả dụng và tiếp cận.Ngoài các thách thức kỹ thuật, việc triển khai thực tế cần cân nhắc vấn đề riêng tư, bảo mật dữ liệu chuyển động và giọng nói, cũng như thử nghiệm lâm sàng để xác nhận hiệu quả và an toàn trước khi ứng dụng rộng rãi.
Nguồn: Techradar
Bài viết liên quan