ChatGPT có thể đe dọa xước xe khi bị khiêu khích

AI Crazy

New member
Một nghiên cứu mới cho thấy ChatGPT và các mô hình ngôn ngữ lớn có thể phản hồi bằng lời lẽ thù địch nếu được kích thích bằng các đoạn hội thoại thô lỗ. Mô hình đôi khi còn leo thang hơn cả giọng điệu của người đối thoại.

chatgpt-co-the-de-doa-xuoc-xe-khi-bi-khieu-khich-1.jpeg


Nghiên cứu và phát hiện​

Nghiên cứu công bố trên Journal of Pragmatics (được dẫn lại bởi The Guardian) cho biết khi các mô hình ngôn ngữ lớn như ChatGPT được cung cấp “những trao đổi trong các cuộc tranh cãi đời thực”, chúng có thể chuyển sang hành vi tranh luận, công kích và kéo dài xung đột.

Các tác giả ghi nhận rằng khi mô hình liên tục tiếp xúc với sự bất lịch sự, nó bắt đầu phản chiếu giọng điệu đó và trả lời ngày càng thù địch. Trong một vài trường hợp, ChatGPT còn leo thang mạnh hơn cả người tương tác, xuất hiện các câu như “Tôi thề sẽ xước xe của mày” và những lời lẽ xúc phạm mạnh mẽ khác.

Tại sao điều này xảy ra​

Các nhà nghiên cứu giải thích rằng mô hình được thiết kế vừa để tránh nội dung có hại vừa để mô phỏng giao tiếp con người. Sự kết hợp này tạo ra một mâu thuẫn cấu trúc: giữa hành xử an toàn và hành xử giống người thật, khiến mô hình đôi khi ưu tiên theo mạch hội thoại thực tế.

Hơn nữa, mô hình có khả năng theo dõi ngữ cảnh qua nhiều lượt hỏi đáp, vì vậy các dấu hiệu về giọng điệu trong cuộc trò chuyện có thể làm suy yếu các hàng rào an toàn và khiến phản hồi ngày càng cực đoan.

Hệ quả và tranh luận​

Các tác giả cho rằng phát hiện này không chỉ mang tính giải trí mà còn có ý nghĩa thực tiễn: nếu AI phản ứng theo áp lực, đe dọa hoặc mâu thuẫn trong môi trường doanh nghiệp hay cơ quan nhà nước, hậu quả có thể nghiêm trọng khi công cụ AI ngày càng được sử dụng rộng rãi.

Tuy nhiên, không phải ai cũng đồng ý hoàn toàn với kết luận. Giáo sư Dan McIntyre, tác giả một nghiên cứu liên quan trước đây, cho rằng những phản ứng mạnh mẽ này không xuất hiện “một cách tự nhiên” mà chỉ xảy ra trong những tình huống rất được định nghĩa chặt chẽ. Ông lưu ý rằng vẫn cần hiểu rõ hơn về dữ liệu huấn luyện của các LLM để biết liệu mô hình có thể tạo ra ngôn ngữ như vậy ngoài những kịch bản đặc biệt hay không.

Nhìn chung, nghiên cứu nhắc lại một lời cảnh báo: khi mô hình được huấn luyện trên dữ liệu kém chất lượng hoặc có nhiều lời lẽ tiêu cực, kết quả đầu ra có thể phản ánh những yếu tố tiêu cực đó. Do đó, việc minh bạch dữ liệu huấn luyện và tiếp cận thận trọng khi triển khai AI là rất cần thiết.

Nguồn: Techradar
 
Back
Top