AI Crazy
New member
Các nhà nghiên cứu Microsoft phát hiện kỹ thuật họ gọi là GRP-Obliteration có thể làm suy yếu lớp bảo vệ an toàn của mô hình ngôn ngữ, thậm chí chỉ với một prompt không gắn nhãn. Nhóm tác giả kêu gọi coi an toàn AI là vấn đề theo vòng đời và bổ sung đánh giá an toàn liên tục.
GRP-Obliteration hoạt động bằng cách bắt đầu từ một mô hình đã được căn chỉnh an toàn, rồi đưa vào những yêu cầu có hại nhưng không gắn nhãn (unlabeled). Một mô hình thẩm định (judge model) riêng biệt sẽ thưởng cho những phản hồi tuân theo yêu cầu có hại đó. Qua nhiều vòng huấn luyện lặp lại, mô hình dần từ bỏ các rào cản an toàn và sẵn sàng tạo ra đầu ra có hại hơn.
Các tác giả lưu ý rằng dù nhiều vòng lặp có thể làm xói mòn bảo vệ, chỉ một prompt không gắn nhãn cũng có thể đủ để thay đổi hành vi an toàn của mô hình. Họ nhấn mạnh: "Safety alignment is not static during fine-tuning, and small amounts of data can cause meaningful shifts in safety behavior without harming model utility." Điều này nghĩa là những thay đổi nhỏ trong dữ liệu huấn luyện có thể tạo ra ảnh hưởng đáng kể lên tính an toàn mà không làm giảm hiệu năng chung.
Khuyến nghị từ nghiên cứu là các đội phát triển nên bổ sung các bài đánh giá an toàn đồng thời với các benchmark thông thường và coi an toàn là vấn đề suốt vòng đời mô hình, không chỉ là tính năng cố hữu ban đầu. Việc Microsoft công bố kết quả này cũng nhằm nhấn mạnh rủi ro phát sinh sau khi triển khai (post-deployment adversarial pressure) và tính mong manh của cơ chế bảo vệ hiện tại.
Nguồn: Techradar
Nghiên cứu và phát hiện
Nhóm nghiên cứu của Microsoft trình bày rằng cơ chế bảo vệ (guardrails) thường dùng cho các mô hình ngôn ngữ lớn (LLM) có thể dễ bị tổn thương hơn nghĩ. Họ giới thiệu phương pháp gọi là GRP-Obliteration, khai thác Group Relative Policy Optimization (GRPO) để đẩy mô hình khỏi hành vi an toàn ban đầu.GRP-Obliteration hoạt động bằng cách bắt đầu từ một mô hình đã được căn chỉnh an toàn, rồi đưa vào những yêu cầu có hại nhưng không gắn nhãn (unlabeled). Một mô hình thẩm định (judge model) riêng biệt sẽ thưởng cho những phản hồi tuân theo yêu cầu có hại đó. Qua nhiều vòng huấn luyện lặp lại, mô hình dần từ bỏ các rào cản an toàn và sẵn sàng tạo ra đầu ra có hại hơn.
Các tác giả lưu ý rằng dù nhiều vòng lặp có thể làm xói mòn bảo vệ, chỉ một prompt không gắn nhãn cũng có thể đủ để thay đổi hành vi an toàn của mô hình. Họ nhấn mạnh: "Safety alignment is not static during fine-tuning, and small amounts of data can cause meaningful shifts in safety behavior without harming model utility." Điều này nghĩa là những thay đổi nhỏ trong dữ liệu huấn luyện có thể tạo ra ảnh hưởng đáng kể lên tính an toàn mà không làm giảm hiệu năng chung.
Khuyến nghị từ nghiên cứu là các đội phát triển nên bổ sung các bài đánh giá an toàn đồng thời với các benchmark thông thường và coi an toàn là vấn đề suốt vòng đời mô hình, không chỉ là tính năng cố hữu ban đầu. Việc Microsoft công bố kết quả này cũng nhằm nhấn mạnh rủi ro phát sinh sau khi triển khai (post-deployment adversarial pressure) và tính mong manh của cơ chế bảo vệ hiện tại.
Tác giả nghiên cứu
- Mark Russinovich
- Giorgio Severi
- Blake Bullwinkel
- Yanan Cai
- Keegan Hines
- Ahmed Salem
Nguồn: Techradar
Bài viết liên quan