Các bài kiểm tra AI thường chỉ đo xem mã có vượt qua bộ test hiện tại hay không, nhưng điều đó không phản ánh chất lượng dài hạn của code. Một nghiên cứu mới chỉ ra AI có thể tạo ra mã ngày càng khó bảo trì dù vẫn 'xanh' trên CI.
Nhiều bộ benchmark đánh giá AI lập trình chỉ hỏi một câu: agent...