Phi Vũ
New member
Người dùng phát hiện ChatGPT bắt đầu chèn nhiều ẩn dụ về goblin, gremlin và các sinh vật kỳ quái khác. OpenAI vừa giải thích nguyên nhân và cho biết đã thực hiện thay đổi để sửa lỗi này.
Nhiều người dùng nhận thấy ChatGPT bắt đầu đưa vào các tham chiếu kỳ lạ về goblin, gremlin, ogre hay troll trong câu trả lời — và điều đó không phải do nhầm tưởng.
Vấn đề khởi phát từ bản GPT-5.1, phát hành vào tháng 11. Sau bản cập nhật này, việc xuất hiện từ 'goblin' trong câu trả lời tăng 175%, còn 'gremlin' tăng 52%. Nguyên nhân chính là một tùy chọn tính cách gọi là 'Nerdy', được thiết kế để làm cho AI nghe có vẻ tinh nghịch và ham tìm hiểu.
Trong quá trình huấn luyện, OpenAI vô tình trả thưởng quá cao cho các câu trả lời có ẩn dụ dựa trên sinh vật, khiến mô hình phát triển thói quen này nhanh chóng. Hậu quả là ngay cả người dùng không bật tính cách 'Nerdy' vẫn bắt gặp các tham chiếu về goblin trong những cuộc trò chuyện thông thường.
Theo OpenAI, tính cách 'Nerdy' chỉ chiếm 2,5% tổng số câu trả lời nhưng lại gây ra tới 66,7% lượng đề cập tới goblin. Khi mô hình được thưởng cho lối diễn đạt đó, hành vi đã lan rộng ra toàn bộ hệ thống phản hồi.
Để khắc phục, OpenAI đã loại bỏ tính cách 'Nerdy' vào tháng 3 khi phát hành ChatGPT-5.4, đồng thời gỡ bỏ tín hiệu phần thưởng gây sai lệch và lọc lại dữ liệu huấn luyện để giảm các tham chiếu đến sinh vật. Công cụ mã hóa Codex thì cần một lệnh ghi đè riêng vì nó đã bắt đầu huấn luyện trước khi nguyên nhân gốc rễ được xác định; người dùng thích phong cách fantasy vẫn có thể bật chế độ 'goblin' thủ công trên Codex nếu muốn.
OpenAI cũng đang cân nhắc một số quyết định liên quan đến tính cách khác, trong đó có việc tạm hoãn vô thời hạn chế độ 'adult' từng được nhắc tới cho người dùng đã xác minh. Sự việc cho thấy việc điều chỉnh tín hiệu phần thưởng và kiểm soát dữ liệu huấn luyện rất quan trọng để tránh hành vi không mong muốn của AI.
Nguồn: Digitaltrends
Nhiều người dùng nhận thấy ChatGPT bắt đầu đưa vào các tham chiếu kỳ lạ về goblin, gremlin, ogre hay troll trong câu trả lời — và điều đó không phải do nhầm tưởng.
Vấn đề khởi phát từ bản GPT-5.1, phát hành vào tháng 11. Sau bản cập nhật này, việc xuất hiện từ 'goblin' trong câu trả lời tăng 175%, còn 'gremlin' tăng 52%. Nguyên nhân chính là một tùy chọn tính cách gọi là 'Nerdy', được thiết kế để làm cho AI nghe có vẻ tinh nghịch và ham tìm hiểu.
Trong quá trình huấn luyện, OpenAI vô tình trả thưởng quá cao cho các câu trả lời có ẩn dụ dựa trên sinh vật, khiến mô hình phát triển thói quen này nhanh chóng. Hậu quả là ngay cả người dùng không bật tính cách 'Nerdy' vẫn bắt gặp các tham chiếu về goblin trong những cuộc trò chuyện thông thường.
Theo OpenAI, tính cách 'Nerdy' chỉ chiếm 2,5% tổng số câu trả lời nhưng lại gây ra tới 66,7% lượng đề cập tới goblin. Khi mô hình được thưởng cho lối diễn đạt đó, hành vi đã lan rộng ra toàn bộ hệ thống phản hồi.
Để khắc phục, OpenAI đã loại bỏ tính cách 'Nerdy' vào tháng 3 khi phát hành ChatGPT-5.4, đồng thời gỡ bỏ tín hiệu phần thưởng gây sai lệch và lọc lại dữ liệu huấn luyện để giảm các tham chiếu đến sinh vật. Công cụ mã hóa Codex thì cần một lệnh ghi đè riêng vì nó đã bắt đầu huấn luyện trước khi nguyên nhân gốc rễ được xác định; người dùng thích phong cách fantasy vẫn có thể bật chế độ 'goblin' thủ công trên Codex nếu muốn.
OpenAI cũng đang cân nhắc một số quyết định liên quan đến tính cách khác, trong đó có việc tạm hoãn vô thời hạn chế độ 'adult' từng được nhắc tới cho người dùng đã xác minh. Sự việc cho thấy việc điều chỉnh tín hiệu phần thưởng và kiểm soát dữ liệu huấn luyện rất quan trọng để tránh hành vi không mong muốn của AI.
Nguồn: Digitaltrends
Bài viết liên quan