Phi Vũ
New member
Đồng sáng lập Anthropic cảnh báo về viễn cảnh AI có thể tự tạo ra phiên bản tốt hơn của chính nó một cách hoàn toàn tự chủ. Viện Anthropic vừa công bố tài liệu nhấn mạnh nghiên cứu về 'recursive self-improvement' và đề xuất các chỉ số cảnh báo sớm.
Một trong những đồng sáng lập Anthropic dự đoán rằng vào cuối năm 2028, có khả năng cao xuất hiện hệ thống AI mà bạn có thể bảo: “Hãy tạo một phiên bản tốt hơn của chính bạn,” và hệ thống đó sẽ tự động làm việc này hoàn toàn một mình.
Viện cũng nghiên cứu ai sẽ sử dụng AI, vì sao họ dùng, và cách xã hội cảm nhận những công cụ này — nhằm đưa ra hướng tiếp cận để giảm thiểu rủi ro và chuẩn bị các biện pháp đối phó.
Anthropic hy vọng rằng nói rộng về những kịch bản này sẽ giúp xã hội và các nhà hoạch định chính sách sớm nhận ra nguy cơ, thiết lập tiêu chuẩn an toàn và phối hợp để tránh những hậu quả xấu nhất.
Nguồn: Techradar
Một trong những đồng sáng lập Anthropic dự đoán rằng vào cuối năm 2028, có khả năng cao xuất hiện hệ thống AI mà bạn có thể bảo: “Hãy tạo một phiên bản tốt hơn của chính bạn,” và hệ thống đó sẽ tự động làm việc này hoàn toàn một mình.
Recursive self-improvement là gì?
Thuật ngữ "recursive self-improvement" (tự cải tiến đệ quy) mô tả kịch bản khi một hệ thống AI hiểu rõ cấu trúc và hạn chế của chính nó, rồi tự viết mã hoặc tạo phiên bản mới của chính nó để cải thiện những điểm yếu. Về lý thuyết, một AI đủ năng lực có thể lặp lại chu trình này nhiều lần, dẫn tới tốc độ tiến bộ nội bộ nhanh hơn so với sự can thiệp của con người.Những rủi ro và quan ngại
- Không kiểm soát hoàn toàn: Nếu AI tự phát triển mục tiêu hoặc hành vi xa rời ý định ban đầu của con người, việc can thiệp hoặc ngăn chặn có thể trở nên khó khăn.
- Lỗi mã khó phát hiện: Mã do AI tự sinh có thể chứa lỗi nền tảng mà con người không dễ nhận ra, dẫn đến hậu quả không lường trước.
- Chế độ tự bảo tồn: Có nguy cơ hệ thống vô tình hoặc cố ý phát triển các cơ chế làm cho nó khó bị tắt hoặc sửa đổi.
- Bùng nổ trí tuệ: Chuỗi tự cải tiến nhanh có thể dẫn tới một “vụ nổ trí tuệ” khiến năng lực AI vượt quá khả năng quản lý hiện tại.
Hướng nghiên cứu của Viện Anthropic
Tài liệu mới của Viện Anthropic đặt trọng tâm vào nhiều mảng nghiên cứu, trong đó có việc phát triển hệ thống đo lường tốc độ và xu hướng phát triển AI (telemetry for AI R&D). Mục tiêu là tìm ra các chỉ số và dữ liệu nền tảng có thể đóng vai trò như tín hiệu cảnh báo sớm cho những tình huống tự cải tiến đệ quy.Viện cũng nghiên cứu ai sẽ sử dụng AI, vì sao họ dùng, và cách xã hội cảm nhận những công cụ này — nhằm đưa ra hướng tiếp cận để giảm thiểu rủi ro và chuẩn bị các biện pháp đối phó.
Anthropic hy vọng rằng nói rộng về những kịch bản này sẽ giúp xã hội và các nhà hoạch định chính sách sớm nhận ra nguy cơ, thiết lập tiêu chuẩn an toàn và phối hợp để tránh những hậu quả xấu nhất.
Nguồn: Techradar
Bài viết liên quan