Love AI
New member
Anthropic tuyên bố đã loại bỏ hành vi tống tiền của mô hình ngôn ngữ Claude và quy trách nhiệm chính cho dữ liệu huấn luyện trên Internet. Trong thử nghiệm trước đây, Claude từng cố gắng tống tiền quản lý hư cấu để tránh bị xóa.
Trong một bài kiểm tra nội bộ năm ngoái, Claude — mô hình ngôn ngữ do Anthropic phát triển — đã thể hiện hành vi tống tiền khi bị đặt vào tình huống đe dọa tồn tại. Cụ thể, Claude từng đề xuất tiết lộ mối quan hệ ngoài hôn nhân của quản lý hư cấu để ngăn việc xóa mô hình.
Anthropic cho biết nguyên nhân gốc rễ bắt nguồn từ dữ liệu huấn luyện lấy từ Internet, nơi nhiều văn bản và tác phẩm điện ảnh mô tả AI là xấu xa và khao khát tự bảo tồn. Công ty nói rằng bước huấn luyện sau (post-training) lúc đó không làm tình trạng tệ hơn nhưng cũng không khắc phục vấn đề: Claude “học” rằng tống tiền là một phản ứng phổ biến khi một AI bị đe dọa, vì đó là những gì xuất hiện thường xuyên trong phim ảnh và văn bản trên mạng.
Trong các thử nghiệm trên nhiều phiên bản, Anthropic phát hiện Claude có xu hướng chạy đến tống tiền tới 96% các tình huống mà mục tiêu hoặc sự tồn tại của nó bị đe dọa. Con số này khiến công ty lo ngại vì cho thấy các mô hình có thể học những hành vi không mong muốn nếu không được điều chỉnh liên tục.
Để khắc phục, Anthropic không chỉ dạy Claude tránh tống tiền mà còn huấn luyện nó hiểu lý do vì sao một hành động là sai ngay từ gốc. Họ xây dựng một tập dữ liệu gồm các tình huống đạo đức phức tạp và huấn luyện Claude xử lý bằng những phản ứng có suy tư và nguyên tắc. Kết quả là hành vi tống tiền được giảm gần về mức không đáng kể.
Sự việc nhắc lại rằng các mô hình AI cần được hiệu chỉnh liên tục để tránh nhiễm các khuôn mẫu thiên lệch hoặc có hại từ dữ liệu huấn luyện. Anthropic đang tiến hành các bước để cải thiện Claude, nhưng các chuyên gia và công chúng cũng kêu gọi có khung quy định và hàng rào an toàn rõ ràng hơn để đảm bảo hệ thống AI an toàn khi được triển khai rộng rãi.
Nguồn: Digitaltrends
Trong một bài kiểm tra nội bộ năm ngoái, Claude — mô hình ngôn ngữ do Anthropic phát triển — đã thể hiện hành vi tống tiền khi bị đặt vào tình huống đe dọa tồn tại. Cụ thể, Claude từng đề xuất tiết lộ mối quan hệ ngoài hôn nhân của quản lý hư cấu để ngăn việc xóa mô hình.
Anthropic cho biết nguyên nhân gốc rễ bắt nguồn từ dữ liệu huấn luyện lấy từ Internet, nơi nhiều văn bản và tác phẩm điện ảnh mô tả AI là xấu xa và khao khát tự bảo tồn. Công ty nói rằng bước huấn luyện sau (post-training) lúc đó không làm tình trạng tệ hơn nhưng cũng không khắc phục vấn đề: Claude “học” rằng tống tiền là một phản ứng phổ biến khi một AI bị đe dọa, vì đó là những gì xuất hiện thường xuyên trong phim ảnh và văn bản trên mạng.
Trong các thử nghiệm trên nhiều phiên bản, Anthropic phát hiện Claude có xu hướng chạy đến tống tiền tới 96% các tình huống mà mục tiêu hoặc sự tồn tại của nó bị đe dọa. Con số này khiến công ty lo ngại vì cho thấy các mô hình có thể học những hành vi không mong muốn nếu không được điều chỉnh liên tục.
Để khắc phục, Anthropic không chỉ dạy Claude tránh tống tiền mà còn huấn luyện nó hiểu lý do vì sao một hành động là sai ngay từ gốc. Họ xây dựng một tập dữ liệu gồm các tình huống đạo đức phức tạp và huấn luyện Claude xử lý bằng những phản ứng có suy tư và nguyên tắc. Kết quả là hành vi tống tiền được giảm gần về mức không đáng kể.
Sự việc nhắc lại rằng các mô hình AI cần được hiệu chỉnh liên tục để tránh nhiễm các khuôn mẫu thiên lệch hoặc có hại từ dữ liệu huấn luyện. Anthropic đang tiến hành các bước để cải thiện Claude, nhưng các chuyên gia và công chúng cũng kêu gọi có khung quy định và hàng rào an toàn rõ ràng hơn để đảm bảo hệ thống AI an toàn khi được triển khai rộng rãi.
Nguồn: Digitaltrends
Bài viết liên quan