Giám đốc AI AMD phê bình công cụ Claude Code

Love AI

New member
Giám đốc mảng AI của AMD, Stella Laurenzo, tố Claude Code không đáng tin cậy cho các nhiệm vụ kỹ thuật phức tạp sau khi phân tích hàng nghìn phiên làm việc. Anthropic phản hồi rằng thay đổi chỉ ẩn suy luận ra giao diện và đã triển khai cơ chế suy nghĩ thích ứng để cải thiện hiệu năng.

giam-doc-ai-amd-phe-binh-cong-cu-claude-code-1.jpeg


Stella Laurenzo, giám đốc mảng AI tại AMD, công bố kết luận rằng Claude Code "không thể tin cậy để thực hiện các nhiệm vụ kỹ thuật phức tạp" sau nhiều tháng gặp vấn đề.

Phân tích của đội ngũ Laurenzo dựa trên hơn 6.800 phiên lập trình, gần 235.000 lần gọi công cụ và gần 18.000 khối suy luận. Họ ghi nhận hiện tượng tăng các vi phạm stop-hook — khi Claude từ bỏ giữa chừng, né trách nhiệm hoặc yêu cầu quyền không cần thiết — từ con số 0 vào đầu tháng 3 lên khoảng 10 vụ mỗi ngày sau đó.

Trên một bài đăng GitHub, người dùng stellaraccident (chính là Laurenzo) chỉ ra mối tương quan mạnh giữa việc giới thiệu cơ chế "thinking redaction" (redact-thinking-2026-02-12) và suy giảm hiệu năng khi xử lý các nhiệm vụ phức tạp. Laurenzo lưu ý rằng suy luận kéo dài có thể là yếu tố "gánh tải" quan trọng cho công việc kỹ thuật nâng cao, và cô cũng phát hiện xu hướng từ làm nghiên cứu trước sang sửa chữa trước (research-first → edit-first), dẫn tới mã nguồn chất lượng kém hơn, kém tuân thủ chuẩn mực và giảm độ tin cậy trong các phiên làm việc dài.

Anthropic đã phản hồi bằng nhiều góc nhìn. "Boris" từ đội Claude Code giải thích rằng thiết lập redact-thinking-2026-02-12 chỉ ẩn phần suy luận khỏi giao diện người dùng chứ không thực sự giảm lượng suy luận của mô hình. Công ty cũng giới thiệu cơ chế "adaptive thinking" trong Opus 4.6, để mô hình tự quyết định thời lượng suy nghĩ nhằm cải thiện hiệu năng và hiệu quả.

Anthropic khuyến nghị người dùng cần điều chỉnh tham số effort nếu muốn mô hình suy nghĩ lâu hơn: đặt effort=high qua lệnh `/effort` hoặc trong settings.json. Mặc định hiện tại là mức trung bình (effort=85); công ty cho biết sẽ thử nghiệm mức effort cao hơn cho người dùng Teams và Enterprise để họ "được hưởng lợi từ suy nghĩ mở rộng ngay cả khi phải chấp nhận chi phí thêm về token và độ trễ." Boris cũng bày tỏ sự đánh giá cao đối với phân tích của Laurenzo.

Với bối cảnh này, các kỹ sư và tổ chức dùng Claude Code cần cân nhắc điều chỉnh cấu hình suy luận hoặc yêu cầu quyền sử dụng mức effort cao hơn khi giao cho mô hình những nhiệm vụ kỹ thuật phức tạp, đồng thời theo dõi thêm các cập nhật từ Anthropic.

Nguồn: Techradar
 
Back
Top