AI Crazy
New member
Các nhà nghiên cứu tại Đại học Liverpool vừa phát triển một mô hình máy tính mới có thể kết hợp thông tin thị giác và thính giác tương tự cách con người làm. Mô hình này lấy cảm hứng từ chức năng não của côn trùng và có thể ứng dụng cho trí tuệ nhân tạo và cảm nhận máy móc.
Một nhóm tại Đại học Liverpool đã tạo ra mô hình máy tính mới có khả năng xử lý trực tiếp các tín hiệu nghe‑nhìn thực tế (video và âm thanh) để xác định khi nào âm thanh và hình ảnh được nhận thức là khớp nhau. Công trình do Tiến sĩ Cesare Parise dẫn dắt được xuất bản trên tạp chí eLife (2025).
Mô hình lấy cảm hứng từ một chức năng não đầu tiên được phát hiện ở côn trùng, liên quan tới phát hiện chuyển động. Parise đã điều chỉnh ý tưởng này để mô phỏng cách não bộ kết hợp hai nguồn thông tin khác nhau thay vì dựa trên các tham số trừu tượng như trong các mô hình trước đây.
Nền tảng lý thuyết là nguyên lý phát hiện tương quan (correlation detection) do Parise và Marc Ernst đề xuất. Từ đó họ phát triển Bộ phát hiện đa giác quan (Multisensory Correlation Detector, MCD) và bố trí nhiều detector theo dạng lưới (lattice) trên không gian thị giác và thính giác, giúp mô hình xử lý các kích thích phức tạp trong thế giới thực.
Trong mô phỏng, mô hình tái tạo thành công kết quả từ 69 thí nghiệm nổi tiếng trên người, khỉ và chuột, đánh dấu quy mô kiểm thử lớn nhất trong lĩnh vực. Mô hình còn cho kết quả tốt hơn mô hình ước lượng nhân quả Bayes (Bayesian Causal Inference) với cùng số tham số có thể điều chỉnh.
Bên cạnh đó, MCD dự đoán được vị trí chú ý (nơi người xem hay nhìn) khi xem phim nghe‑nhìn, hoạt động như một mô hình saliency nhẹ, hiệu quả và không cần huấn luyện trên tập dữ liệu gán nhãn lớn.
Ưu điểm then chốt là tính "stimulus‑computable": mô hình hoạt động trực tiếp trên tín hiệu nghe‑nhìn thô, nên có thể áp dụng cho tài liệu thực tế ở nhiều bối cảnh khác nhau. Parise nhấn mạnh rằng đây là hướng tiếp cận gọn nhẹ, không cần mạng lớn và nhiều tham số, hứa hẹn ứng dụng cho thế hệ AI tiếp theo và nghiên cứu khoa học thần kinh.
Công bố chi tiết: Cesare V. Parise, "Correlation detection as a stimulus computable account for audiovisual perception, causal inference, and saliency maps in mammals", eLife (2025). DOI: 10.7554/elife.106122
Nguồn: https://techxplore.com/news/2025-11-mimics-human-audiovisual-perception.html
Một nhóm tại Đại học Liverpool đã tạo ra mô hình máy tính mới có khả năng xử lý trực tiếp các tín hiệu nghe‑nhìn thực tế (video và âm thanh) để xác định khi nào âm thanh và hình ảnh được nhận thức là khớp nhau. Công trình do Tiến sĩ Cesare Parise dẫn dắt được xuất bản trên tạp chí eLife (2025).
Mô hình lấy cảm hứng từ một chức năng não đầu tiên được phát hiện ở côn trùng, liên quan tới phát hiện chuyển động. Parise đã điều chỉnh ý tưởng này để mô phỏng cách não bộ kết hợp hai nguồn thông tin khác nhau thay vì dựa trên các tham số trừu tượng như trong các mô hình trước đây.
Nền tảng lý thuyết là nguyên lý phát hiện tương quan (correlation detection) do Parise và Marc Ernst đề xuất. Từ đó họ phát triển Bộ phát hiện đa giác quan (Multisensory Correlation Detector, MCD) và bố trí nhiều detector theo dạng lưới (lattice) trên không gian thị giác và thính giác, giúp mô hình xử lý các kích thích phức tạp trong thế giới thực.
Trong mô phỏng, mô hình tái tạo thành công kết quả từ 69 thí nghiệm nổi tiếng trên người, khỉ và chuột, đánh dấu quy mô kiểm thử lớn nhất trong lĩnh vực. Mô hình còn cho kết quả tốt hơn mô hình ước lượng nhân quả Bayes (Bayesian Causal Inference) với cùng số tham số có thể điều chỉnh.
Bên cạnh đó, MCD dự đoán được vị trí chú ý (nơi người xem hay nhìn) khi xem phim nghe‑nhìn, hoạt động như một mô hình saliency nhẹ, hiệu quả và không cần huấn luyện trên tập dữ liệu gán nhãn lớn.
Ưu điểm then chốt là tính "stimulus‑computable": mô hình hoạt động trực tiếp trên tín hiệu nghe‑nhìn thô, nên có thể áp dụng cho tài liệu thực tế ở nhiều bối cảnh khác nhau. Parise nhấn mạnh rằng đây là hướng tiếp cận gọn nhẹ, không cần mạng lớn và nhiều tham số, hứa hẹn ứng dụng cho thế hệ AI tiếp theo và nghiên cứu khoa học thần kinh.
Công bố chi tiết: Cesare V. Parise, "Correlation detection as a stimulus computable account for audiovisual perception, causal inference, and saliency maps in mammals", eLife (2025). DOI: 10.7554/elife.106122
Nguồn: https://techxplore.com/news/2025-11-mimics-human-audiovisual-perception.html
Bài viết liên quan