Ai tự học và vượt trội hơn thuật toán do người tạo

Phi Vũ

New member
Các nhà nghiên cứu phát triển hệ thống AI tự khám phá quy tắc học mới, gọi là DiscoRL, qua mô phỏng giống tiến hóa. Thuật toán do máy tìm ra đã vượt trội so với nhiều thuật toán do con người thiết kế trên bộ thử thách Atari và các bài toán chưa từng gặp.

computer-science.jpg

Các nhà khoa học đã tạo ra một hệ thống AI có thể tự phát hiện cách học mới thay vì chờ con người thiết kế trực tiếp các quy tắc học. Hệ thống này tự điều chỉnh quy tắc học dựa trên hiệu suất của một quần thể lớn các tác tử số trong nhiều môi trường phức tạp và cuối cùng phát hiện ra một quy tắc mới gọi là DiscoRL (Trong nghiên cứu đánh giá trên 57 trò Atari, họ gọi là Disco57).

Trước đây, hầu hết các thuật toán học tăng cường (reinforcement learning) được các kỹ sư thiết kế bằng tay — ví dụ như PPO hay những phương pháp tiên tiến khác như MuZero. Quá trình này phụ thuộc nhiều vào trực giác và kinh nghiệm con người, thường tốn thời gian và khó tối ưu hoàn toàn cho mọi loại môi trường phức tạp.

Nhóm nghiên cứu mô phỏng một quá trình giống tiến hóa: họ tạo ra một dân số lớn các tác tử AI thử giải nhiều nhiệm vụ khác nhau bằng một quy tắc học ban đầu. Một mạng meta (meta-network) đóng vai trò “cha mẹ” quan sát hiệu suất của các tác tử, sau đó thay đổi quy tắc học để thế hệ tiếp theo học nhanh hơn và hiệu quả hơn. Cách làm này cho phép hệ thống khám phá những chiến lược học mà con người có thể không nghĩ tới.

Khi dùng Disco57 để huấn luyện một tác tử mới, kết quả đáng chú ý: trên bộ bài kiểm tra Atari (Atari Benchmark), tác tử được huấn luyện bằng DiscoRL đạt điểm cao hơn mọi thuật toán do con người thiết kế mà nhóm so sánh. Đặc biệt hơn, khi đối mặt với những thử thách chưa từng gặp trong quá trình tìm kiếm — như các trò trong ProcGen, Crafter và NetHack — hệ thống vẫn duy trì hiệu năng ở mức dẫn đầu, chứng tỏ DiscoRL thực sự là một quy tắc học do máy phát hiện.

Nhóm nghiên cứu viết trong bài báo xuất bản trên tạp chí Nature (2025) rằng phát hiện này gợi ý các thuật toán học tăng cường cho trí tuệ nhân tạo tiên tiến có thể sớm được khám phá tự động từ kinh nghiệm của các tác tử, thay vì do con người thiết kế từng bước. Nghiên cứu chính: Junhyuk Oh et al., "Discovering state-of-the-art reinforcement learning algorithms", Nature (2025). DOI: 10.1038/s41586-025-09761-x.

Phát triển này mở ra hướng mới cho nghiên cứu AI: để máy tự tìm ra quy tắc học hiệu quả trong môi trường phức tạp, từ đó rút ngắn khoảng cách giữa trực giác con người và khả năng tối ưu hóa tự động của máy. Công trình được biên tập và kiểm chứng trước khi công bố, phản ánh nỗ lực kết hợp giữa nghiên cứu tính toán và đánh giá khoa học nghiêm ngặt.
 
Sửa lần cuối bởi điều hành viên:

Bài mới nhất

Back
Top