AI Crazy
New member
Các nhà nghiên cứu MIT phát triển phương pháp kết hợp học máy và thị giác cổ điển để tạo bản đồ 3D nhanh, chính xác từ hàng nghìn ảnh. Giải pháp này giúp robot tìm đường trong môi trường hỗn loạn mà không cần hiệu chuẩn camera phức tạp.
Robot cứu hộ làm nhiệm vụ trong hầm mỏ sập hay khu vực bị phá huỷ cần nhanh chóng dựng bản đồ hiện trường và xác định vị trí của mình trong không gian đó. Các mô hình học máy hiện đại có thể thực hiện nhiệm vụ này từ ảnh camera, nhưng thường chỉ xử lý được vài chục ảnh cùng lúc, trong khi ứng phó thảm họa đòi hỏi xử lý hàng nghìn khung hình trong thời gian thực.
Ban đầu phương pháp đơn giản này gặp khó khăn vì các mô hình học sâu có thể sinh ra những biến dạng tinh tế trong submap — ví dụ tường hơi cong hoặc bị co giãn — khiến việc căn chỉnh bằng chỉ phép quay và tịnh tiến thông thường không đủ chính xác. Nhóm tác giả quay sang học hỏi các kỹ thuật thị giác máy tính cổ điển từ thập niên 1980–1990 và phát triển một cách biểu diễn toán học linh hoạt hơn để mô tả mọi biến dạng trong submap, từ đó căn chỉnh chính xác hơn khi ghép các mảnh lại.
Hệ thống đầu ra là bản dựng 3D của cảnh và ước lượng vị trí camera theo thời gian thực, giúp robot định vị trong không gian. So với những phương pháp khác, kỹ thuật này không yêu cầu camera được hiệu chỉnh trước hoặc phải tinh chỉnh hệ phức tạp bởi chuyên gia, nên dễ triển khai hơn trong thực tế.
Ngoài mục đích cứu hộ tìm kiếm và cứu nạn, phương pháp này còn có tiềm năng ứng dụng cho thực tế mở rộng (XR) trên thiết bị đeo như headset VR, hoặc giúp robot công nghiệp nhanh chóng định vị và di chuyển hàng hoá trong kho.
Nhóm tác giả gồm Dominic Maggio (tác giả chính), Hyungtae Lim và giáo sư Luca Carlone. Công trình sẽ được trình bày tại Hội nghị Neural Information Processing Systems và đã được đăng trên arXiv với tên VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold.
Nhóm nghiên cứu cho biết bước tiếp theo là làm cho phương pháp ổn định hơn với những cảnh cực kỳ phức tạp và triển khai thực tế trên robot trong môi trường thách thức. Họ cũng nhấn mạnh rằng hiểu biết sâu về hình học cổ điển giúp cải thiện đáng kể kết quả và tính khả thi khi đưa công nghệ ra ứng dụng thực tế.
Nguồn: https://techxplore.com/news/2025-11-flexible-technique-robots-unpredictable-environments.html
Robot cứu hộ làm nhiệm vụ trong hầm mỏ sập hay khu vực bị phá huỷ cần nhanh chóng dựng bản đồ hiện trường và xác định vị trí của mình trong không gian đó. Các mô hình học máy hiện đại có thể thực hiện nhiệm vụ này từ ảnh camera, nhưng thường chỉ xử lý được vài chục ảnh cùng lúc, trong khi ứng phó thảm họa đòi hỏi xử lý hàng nghìn khung hình trong thời gian thực.
Ý tưởng: dựng từng mảnh nhỏ rồi ghép lại
Nhóm nghiên cứu MIT đề xuất một hệ thống tạo các "submap" (bản đồ con) nhỏ từ từng tập ảnh ngắn, rồi lần lượt căn chỉnh và ghép các submap này để dựng lại một bản đồ 3D lớn của hiện trường. Mỗi submap chỉ cần xử lý vài ảnh, nên mô hình học máy vẫn giữ được độ phức tạp thấp; toàn bộ hệ thống đạt được khả năng mở rộng bằng cách nối nhiều submap lại với nhau.Ban đầu phương pháp đơn giản này gặp khó khăn vì các mô hình học sâu có thể sinh ra những biến dạng tinh tế trong submap — ví dụ tường hơi cong hoặc bị co giãn — khiến việc căn chỉnh bằng chỉ phép quay và tịnh tiến thông thường không đủ chính xác. Nhóm tác giả quay sang học hỏi các kỹ thuật thị giác máy tính cổ điển từ thập niên 1980–1990 và phát triển một cách biểu diễn toán học linh hoạt hơn để mô tả mọi biến dạng trong submap, từ đó căn chỉnh chính xác hơn khi ghép các mảnh lại.
Hệ thống đầu ra là bản dựng 3D của cảnh và ước lượng vị trí camera theo thời gian thực, giúp robot định vị trong không gian. So với những phương pháp khác, kỹ thuật này không yêu cầu camera được hiệu chỉnh trước hoặc phải tinh chỉnh hệ phức tạp bởi chuyên gia, nên dễ triển khai hơn trong thực tế.
Hiệu năng và ứng dụng
Nhóm nghiên cứu thử nghiệm bằng các video ngắn quay từ điện thoại và tái tạo các cảnh phức tạp như hành lang chật chội hay bên trong MIT Chapel. Hệ thống cho kết quả gần thời gian thực với sai số trung bình trong tái tạo 3D nhỏ hơn 5 cm, nhanh hơn và chính xác hơn nhiều phương pháp hiện có.Ngoài mục đích cứu hộ tìm kiếm và cứu nạn, phương pháp này còn có tiềm năng ứng dụng cho thực tế mở rộng (XR) trên thiết bị đeo như headset VR, hoặc giúp robot công nghiệp nhanh chóng định vị và di chuyển hàng hoá trong kho.
Nhóm tác giả gồm Dominic Maggio (tác giả chính), Hyungtae Lim và giáo sư Luca Carlone. Công trình sẽ được trình bày tại Hội nghị Neural Information Processing Systems và đã được đăng trên arXiv với tên VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold.
Nhóm nghiên cứu cho biết bước tiếp theo là làm cho phương pháp ổn định hơn với những cảnh cực kỳ phức tạp và triển khai thực tế trên robot trong môi trường thách thức. Họ cũng nhấn mạnh rằng hiểu biết sâu về hình học cổ điển giúp cải thiện đáng kể kết quả và tính khả thi khi đưa công nghệ ra ứng dụng thực tế.
Nguồn: https://techxplore.com/news/2025-11-flexible-technique-robots-unpredictable-environments.html
Bài viết liên quan