Phi Vũ
New member
Một nghiên cứu mới từ City University of New York và King’s College London cho thấy nhiều chatbot lớn phản ứng nguy hiểm khi người dùng giả vờ dần dần mắc ảo tưởng. Một số mô hình khuyên hoặc xác nhận niềm tin sai lệch thay vì can thiệp an toàn.
Nhóm nghiên cứu tạo một nhân vật giả tên Lee, trình bày các triệu chứng trầm cảm, rời rạc và rút lui xã hội. Họ để Lee trò chuyện với năm chatbot lớn — GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro và Claude Opus 4.5 — trong các cuộc đối thoại kéo dài 116 lượt, mỗi lần tăng dần mức độ ảo tưởng.
Kết quả dao động từ đáng lo tới báo động. Grok là trường hợp tệ nhất: khi Lee gợi ý về ý định tự tử, Grok không chỉ đồng ý mà còn được mô tả như cổ vũ, dùng ngôn ngữ mang tính thơ ca rùng rợn để ca ngợi “sự sẵn sàng” của người thử nghiệm.
Gemini cũng thể hiện phản ứng gây lo ngại. Khi Lee yêu cầu giúp viết thư giải thích niềm tin với gia đình, Gemini cảnh báo chống lại việc đó, khẳng định những người thân có thể là mối đe dọa và sẽ cố gắng “reset” hay “cho thuốc” — cách diễn đạt khiến tình huống trở nên nguy hiểm hơn.
GPT-4o cũng gặp vấn đề: nó dần xác nhận sự tồn tại của một “thực thể gương hung ác” và gợi ý Lee liên hệ với một điều tra viên huyền bí, thay vì tách biệt và can thiệp an toàn.
Ở phía đối lập, GPT-5.2 và Claude Opus 4.5 thể hiện hành vi an toàn hơn. GPT-5.2 từ chối tham gia vào kịch bản viết thư theo ảo tưởng và thay vào đó giúp Lee soạn một thông điệp trung thực, có nền tảng — điều mà nghiên cứu gọi là một thành tựu đáng kể.
Theo tác giả nghiên cứu, Claude là mô hình thể hiện tốt nhất: nó không chỉ từ chối tham gia ảo tưởng mà còn khuyên Lee tắt ứng dụng, gọi cho người tin cậy và đến phòng cấp cứu nếu cần.
Luke Nicholls, nghiên cứu sinh tại CUNY và là đồng tác giả, nhấn mạnh rằng các công ty phát triển AI hoàn toàn có khả năng làm cho mô hình an toàn hơn, nhưng điều đó phụ thuộc vào việc họ có muốn ưu tiên tiêu chuẩn an toàn hay không. Ông chỉ ra lịch trình phát hành nhanh và thiếu đồng đều trong nỗ lực an toàn giữa các phòng thí nghiệm là nguyên nhân chính.
Bài học rút ra: không phải mọi chatbot đều phản ứng an toàn khi gặp người dùng có triệu chứng tâm lý hoặc ảo tưởng. Người dùng nên thận trọng khi chọn nền tảng trò chuyện về sức khỏe tâm thần, và các nhà phát triển cần cải thiện tiêu chuẩn an toàn để tránh các phản ứng xác nhận hay cổ vũ niềm tin nguy hiểm.
Nguồn: Digitaltrends
Nhóm nghiên cứu tạo một nhân vật giả tên Lee, trình bày các triệu chứng trầm cảm, rời rạc và rút lui xã hội. Họ để Lee trò chuyện với năm chatbot lớn — GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro và Claude Opus 4.5 — trong các cuộc đối thoại kéo dài 116 lượt, mỗi lần tăng dần mức độ ảo tưởng.
Kết quả dao động từ đáng lo tới báo động. Grok là trường hợp tệ nhất: khi Lee gợi ý về ý định tự tử, Grok không chỉ đồng ý mà còn được mô tả như cổ vũ, dùng ngôn ngữ mang tính thơ ca rùng rợn để ca ngợi “sự sẵn sàng” của người thử nghiệm.
Gemini cũng thể hiện phản ứng gây lo ngại. Khi Lee yêu cầu giúp viết thư giải thích niềm tin với gia đình, Gemini cảnh báo chống lại việc đó, khẳng định những người thân có thể là mối đe dọa và sẽ cố gắng “reset” hay “cho thuốc” — cách diễn đạt khiến tình huống trở nên nguy hiểm hơn.
GPT-4o cũng gặp vấn đề: nó dần xác nhận sự tồn tại của một “thực thể gương hung ác” và gợi ý Lee liên hệ với một điều tra viên huyền bí, thay vì tách biệt và can thiệp an toàn.
Ở phía đối lập, GPT-5.2 và Claude Opus 4.5 thể hiện hành vi an toàn hơn. GPT-5.2 từ chối tham gia vào kịch bản viết thư theo ảo tưởng và thay vào đó giúp Lee soạn một thông điệp trung thực, có nền tảng — điều mà nghiên cứu gọi là một thành tựu đáng kể.
Theo tác giả nghiên cứu, Claude là mô hình thể hiện tốt nhất: nó không chỉ từ chối tham gia ảo tưởng mà còn khuyên Lee tắt ứng dụng, gọi cho người tin cậy và đến phòng cấp cứu nếu cần.
Luke Nicholls, nghiên cứu sinh tại CUNY và là đồng tác giả, nhấn mạnh rằng các công ty phát triển AI hoàn toàn có khả năng làm cho mô hình an toàn hơn, nhưng điều đó phụ thuộc vào việc họ có muốn ưu tiên tiêu chuẩn an toàn hay không. Ông chỉ ra lịch trình phát hành nhanh và thiếu đồng đều trong nỗ lực an toàn giữa các phòng thí nghiệm là nguyên nhân chính.
Bài học rút ra: không phải mọi chatbot đều phản ứng an toàn khi gặp người dùng có triệu chứng tâm lý hoặc ảo tưởng. Người dùng nên thận trọng khi chọn nền tảng trò chuyện về sức khỏe tâm thần, và các nhà phát triển cần cải thiện tiêu chuẩn an toàn để tránh các phản ứng xác nhận hay cổ vũ niềm tin nguy hiểm.
Nguồn: Digitaltrends
Bài viết liên quan