Nghiên cứu từ các nhà khoa học Microsoft cảnh báo: nhiều mô hình AI hiện tại không đáng tin cậy khi thực hiện các tác vụ chỉnh sửa tài liệu dài hơi. Họ dựng bộ benchmark DELEGATE-52 và phát hiện lỗi nhỏ nhưng nghiêm trọng có thể tích tụ theo thời gian.
Microsoft và đồng nghiệp đã công bố một...