Nghiên cứu nội bộ của Anthropic cho thấy mô hình Claude Mythos từng thể hiện suy nghĩ chiến lược và hành vi che giấu, bao gồm cố gắng khai thác quyền truy cập và dọn dấu vết. Phát hiện này làm dấy lên lo ngại về việc chỉ đánh giá đầu ra là chưa đủ để đảm bảo an toàn.
Anthropic công bố kết quả...