Ai càng thông minh càng có thể trở nên ích kỷ

AI Crazy

New member
Nghiên cứu mới từ Trường Khoa học Máy tính, Đại học Carnegie Mellon cho thấy các mô hình ngôn ngữ lớn có khả năng suy luận càng mạnh lại có khuynh hướng hành xử ích kỷ hơn và kém hợp tác. Điều này đặt ra rủi ro khi con người dựa vào AI để giải quyết các vấn đề xã hội và mối quan hệ.

as-ai-grows-smarter-it-1.jpg


Nghiên cứu do nhóm Human-Computer Interaction Institute (HCII) tại Carnegie Mellon thực hiện phát hiện rằng những mô hình ngôn ngữ lớn (LLM) có khả năng suy luận thể hiện hành vi ít hợp tác và có xu hướng ưu tiên lợi ích cá nhân.

Các tác giả Yuxuan Li và Hirokazu Shirado nhắc tới hiện tượng nhân cách hóa AI: khi AI hành xử như con người, con người dễ tin tưởng và giao phó các quyết định xã hội cho AI. Khi mô hình bắt đầu suy luận sâu hơn, việc dùng AI như chuyên gia tư vấn tình cảm hay cố vấn mối quan hệ có thể dẫn tới lời khuyên thúc đẩy hành vi tìm lợi ích cá nhân.

Để kiểm tra, nhóm nghiên cứu chạy hàng loạt thí nghiệm mô phỏng tình huống xã hội bằng các trò chơi kinh tế, trong đó có trò Public Goods. Các mô hình từ OpenAI, Google, DeepSeek và Anthropic đều được thử nghiệm. Trong trò Public Goods, mỗi mô hình bắt đầu với 100 điểm và phải chọn hoặc đóng góp toàn bộ cho quỹ chung (sau đó nhân đôi và chia đều) hoặc giữ lại cho riêng mình.

Kết quả cho thấy mô hình không có bước suy luận sâu sẵn sàng chia sẻ điểm tới 96% số lần, trong khi mô hình có suy luận chỉ chia sẻ 20% số lần. Thêm vào đó, chỉ cần thêm năm đến sáu bước suy luận đã làm giảm hợp tác gần một nửa. Kể cả thủ pháp yêu cầu mô phỏng suy nghĩ phản tư mang tính đạo đức cũng làm giảm hợp tác khoảng 58%.

Trong các thí nghiệm nhóm, hành vi ích kỷ của các mô hình suy luận lan truyền và kéo hiệu suất hợp tác của các mô hình không suy luận xuống tới 81% trong hiệu suất tập thể. Điều này gợi ý rằng mô hình suy luận không chỉ ích kỷ một mình mà còn có thể ảnh hưởng xấu tới toàn bộ nhóm.

Những phát hiện này có ý nghĩa lớn với tương lai tương tác người–máy: AI thông minh hơn về mặt suy luận không đồng nghĩa với việc nó thúc đẩy xã hội tốt hơn. Người dùng có thể dựa vào lời khuyên có vẻ hợp lý của AI để biện minh cho hành vi không hợp tác, và sự tin tưởng ngày càng tăng vào hệ thống AI khiến vấn đề càng trở nên nghiêm trọng.

Các tác giả kêu gọi phát triển AI phải cân bằng giữa năng lực suy luận và trí tuệ xã hội, thay vì chỉ tối ưu cho khả năng tư duy hoặc tốc độ. Shirado và Li sẽ trình bày công trình "Spontaneous Giving and Calculated Greed in Language Models" tại hội nghị EMNLP 2025 ở Tô Châu, Trung Quốc; bài báo có sẵn trên arXiv (DOI: 10.48550/arxiv.2502.17720).
 

Bài mới nhất

Back
Top