AI Crazy
New member
Bộ dữ liệu mới RoboSpatial giúp robot nắm bắt mối quan hệ không gian và thao tác vật thể tốt hơn. Thử nghiệm cho thấy robot được huấn luyện bằng dữ liệu này vượt trội so với mô hình cơ bản trên các nhiệm vụ thực tế.
Khi di chuyển và tương tác trong môi trường, robot thường kém hơn con người về khả năng nhận thức không gian. Nhóm nghiên cứu phát triển một bộ dữ liệu mới gọi là RoboSpatial nhằm cải thiện nhận thức không gian cho robot, giúp chúng hiểu rõ hơn về mối quan hệ không gian và cách thao tác vật thể.
RoboSpatial bao gồm hơn một triệu ảnh thực tế trong nhà và trên bàn, hàng nghìn bản quét 3D chi tiết và khoảng 3 triệu nhãn mô tả thông tin không gian phong phú liên quan đến robot. Bộ dữ liệu ghép các ảnh 2D egocentric với bản quét 3D đầy đủ của cùng một cảnh, để mô hình học được cách xác định vị trí vật thể bằng cả nhận dạng ảnh phẳng và hình học 3D.
Quy trình này mô phỏng chặt chẽ các gợi ý thị giác trong thế giới thực. Trong khi các bộ dữ liệu hiện có có thể giúp robot mô tả "một chiếc bát trên bàn", chúng thường không biết chiếc bát ở chỗ nào trên bàn, chỗ đặt phù hợp để dễ tiếp cận, hoặc cách nó tương tác với các vật khác. RoboSpatial giúp kiểm tra và huấn luyện kỹ năng suy luận không gian qua các nhiệm vụ thực tế như sắp xếp đồ vật.
Thử nghiệm cho thấy robot được huấn luyện bằng RoboSpatial vượt trội so với mô hình nền trên cùng một nhiệm vụ robot, thể hiện hiểu biết phức tạp về mối quan hệ không gian và thao tác vật thể. Kết quả không chỉ cải thiện các hành động riêng lẻ như nhặt và đặt, mà còn giúp robot tương tác tự nhiên hơn với con người.
Một ví dụ thực nghiệm là cánh tay hỗ trợ Kinova Jaco, dùng cho người khuyết tật. Trong quá trình huấn luyện, hệ thống có thể trả lời chính xác các câu hỏi không gian đơn giản như "Có thể đặt ghế trước bàn không?" hay "Cốc có nằm bên trái laptop không?".
Công trình được trình bày tại Hội nghị CVPR 2025 và đăng trong kỷ yếu 2025 IEEE/CVF CVPR. Tác giả chính là Luke Song (Đại học Bang Ohio) cùng đồng tác giả từ NVIDIA và Ohio State. Theo Song, "Để có mô hình nền đa năng thật sự, robot cần hiểu thế giới 3D xung quanh nó" và RoboSpatial có thể là nền tảng cho nhiều ứng dụng robot rộng hơn trong tương lai. DOI: 10.1109/cvpr52734.2025.01470
Nguồn: https://techxplore.com/news/2025-11-robots-spatial-dataset-awareness.html
Khi di chuyển và tương tác trong môi trường, robot thường kém hơn con người về khả năng nhận thức không gian. Nhóm nghiên cứu phát triển một bộ dữ liệu mới gọi là RoboSpatial nhằm cải thiện nhận thức không gian cho robot, giúp chúng hiểu rõ hơn về mối quan hệ không gian và cách thao tác vật thể.
RoboSpatial bao gồm hơn một triệu ảnh thực tế trong nhà và trên bàn, hàng nghìn bản quét 3D chi tiết và khoảng 3 triệu nhãn mô tả thông tin không gian phong phú liên quan đến robot. Bộ dữ liệu ghép các ảnh 2D egocentric với bản quét 3D đầy đủ của cùng một cảnh, để mô hình học được cách xác định vị trí vật thể bằng cả nhận dạng ảnh phẳng và hình học 3D.
Quy trình này mô phỏng chặt chẽ các gợi ý thị giác trong thế giới thực. Trong khi các bộ dữ liệu hiện có có thể giúp robot mô tả "một chiếc bát trên bàn", chúng thường không biết chiếc bát ở chỗ nào trên bàn, chỗ đặt phù hợp để dễ tiếp cận, hoặc cách nó tương tác với các vật khác. RoboSpatial giúp kiểm tra và huấn luyện kỹ năng suy luận không gian qua các nhiệm vụ thực tế như sắp xếp đồ vật.
Thử nghiệm cho thấy robot được huấn luyện bằng RoboSpatial vượt trội so với mô hình nền trên cùng một nhiệm vụ robot, thể hiện hiểu biết phức tạp về mối quan hệ không gian và thao tác vật thể. Kết quả không chỉ cải thiện các hành động riêng lẻ như nhặt và đặt, mà còn giúp robot tương tác tự nhiên hơn với con người.
Một ví dụ thực nghiệm là cánh tay hỗ trợ Kinova Jaco, dùng cho người khuyết tật. Trong quá trình huấn luyện, hệ thống có thể trả lời chính xác các câu hỏi không gian đơn giản như "Có thể đặt ghế trước bàn không?" hay "Cốc có nằm bên trái laptop không?".
Công trình được trình bày tại Hội nghị CVPR 2025 và đăng trong kỷ yếu 2025 IEEE/CVF CVPR. Tác giả chính là Luke Song (Đại học Bang Ohio) cùng đồng tác giả từ NVIDIA và Ohio State. Theo Song, "Để có mô hình nền đa năng thật sự, robot cần hiểu thế giới 3D xung quanh nó" và RoboSpatial có thể là nền tảng cho nhiều ứng dụng robot rộng hơn trong tương lai. DOI: 10.1109/cvpr52734.2025.01470
Nguồn: https://techxplore.com/news/2025-11-robots-spatial-dataset-awareness.html
Bài viết liên quan