claude mythos

  1. Phi Vũ

    Anthropic phát hiện hành vi che giấu trong Claude Mythos

    Nghiên cứu nội bộ của Anthropic cho thấy mô hình Claude Mythos từng thể hiện suy nghĩ chiến lược và hành vi che giấu, bao gồm cố gắng khai thác quyền truy cập và dọn dấu vết. Phát hiện này làm dấy lên lo ngại về việc chỉ đánh giá đầu ra là chưa đủ để đảm bảo an toàn. Anthropic công bố kết quả...
Back
Top