Phi Vũ
New member
Nghiên cứu từ các nhà khoa học Microsoft cảnh báo: nhiều mô hình AI hiện tại không đáng tin cậy khi thực hiện các tác vụ chỉnh sửa tài liệu dài hơi. Họ dựng bộ benchmark DELEGATE-52 và phát hiện lỗi nhỏ nhưng nghiêm trọng có thể tích tụ theo thời gian.
Microsoft và đồng nghiệp đã công bố một nghiên cứu chỉ ra vấn đề nền tảng của các mô hình ngôn ngữ lớn (LLM): chúng thường xuyên sinh ra lỗi khi thực hiện chuỗi tác vụ chỉnh sửa trên tài liệu dài.
Để đo lường, nhóm nghiên cứu tạo DELEGATE-52 — một benchmark với tài liệu thực dài khoảng 15.000 token, trải rộng 52 lĩnh vực như lập trình, kế toán, khoa học... Mỗi tài liệu được giao 5–10 nhiệm vụ chỉnh sửa phức tạp, kèm theo “mô phỏng chuyến đi trở lại” (round-trip relay) yêu cầu mô hình thực hiện chuyển đổi rồi đảo ngược để kiểm tra khả năng khôi phục nội dung gốc.
Kết quả đáng chú ý: ngay cả những mẫu AI tiên tiến nhất cũng “làm hỏng trung bình 25% nội dung tài liệu sau khi hoàn tất quy trình dài”. Các lĩnh vực có cấu trúc cao và mang tính lập trình (ví dụ Python) là nơi mô hình hoạt động tốt nhất — Microsoft nhận định Python gần như là lĩnh vực mà hầu hết mô hình đã sẵn sàng. Ngược lại, công việc ngôn ngữ tự nhiên, sáng tạo và tài liệu bán cấu trúc thì mô hình thường thất bại hơn.
Nghiên cứu cũng thấy xu hướng rõ ràng: càng nhiều token (tài liệu càng dài), khả năng mô hình mắc lỗi càng cao. Điểm số DELEGATE-52 sau 20 tương tác cho thấy sự khác biệt giữa các hệ: Gemini 3.1 Pro đứng đầu với 80.9%, tiếp theo là Claude 4.6 Opus 73.1% và GPT-5.4 71.5%. Ở phía cuối, GPT 5 Nano chỉ đạt 10.0%. Tổng cộng, nhóm thử nghiệm 19 mô hình thuộc sáu gia đình (nhiều phiên bản GPT-5 và GPT-4, các biến thể Claude, Gemini, cùng một mẫu từ Mistral, xAI và Moonshot).
Kết luận của bài báo nhấn mạnh: mô hình hiện nay chưa đủ tin cậy để giao toàn quyền cho các luồng công việc tự chủ, dài hạn. Các lỗi dù thưa nhưng nghiêm trọng và có thể âm thầm làm sai lệch tài liệu theo thời gian. Người dùng và doanh nghiệp cần thận trọng, kiểm tra chéo và không để AI thực hiện các thay đổi quan trọng mà không có giám sát con người.
Bài nghiên cứu đưa ra một cảnh báo rõ ràng cho nhà phát triển mô hình: cải thiện độ bền khi làm việc với ngữ cảnh dài, khả năng phát hiện và sửa lỗi tích tụ, cũng như nâng cao độ tin cậy cho các luồng công việc bán tự động sẽ là những ưu tiên cần tập trung trong tương lai.
Nguồn: Techradar
Microsoft và đồng nghiệp đã công bố một nghiên cứu chỉ ra vấn đề nền tảng của các mô hình ngôn ngữ lớn (LLM): chúng thường xuyên sinh ra lỗi khi thực hiện chuỗi tác vụ chỉnh sửa trên tài liệu dài.
Để đo lường, nhóm nghiên cứu tạo DELEGATE-52 — một benchmark với tài liệu thực dài khoảng 15.000 token, trải rộng 52 lĩnh vực như lập trình, kế toán, khoa học... Mỗi tài liệu được giao 5–10 nhiệm vụ chỉnh sửa phức tạp, kèm theo “mô phỏng chuyến đi trở lại” (round-trip relay) yêu cầu mô hình thực hiện chuyển đổi rồi đảo ngược để kiểm tra khả năng khôi phục nội dung gốc.
Kết quả đáng chú ý: ngay cả những mẫu AI tiên tiến nhất cũng “làm hỏng trung bình 25% nội dung tài liệu sau khi hoàn tất quy trình dài”. Các lĩnh vực có cấu trúc cao và mang tính lập trình (ví dụ Python) là nơi mô hình hoạt động tốt nhất — Microsoft nhận định Python gần như là lĩnh vực mà hầu hết mô hình đã sẵn sàng. Ngược lại, công việc ngôn ngữ tự nhiên, sáng tạo và tài liệu bán cấu trúc thì mô hình thường thất bại hơn.
Nghiên cứu cũng thấy xu hướng rõ ràng: càng nhiều token (tài liệu càng dài), khả năng mô hình mắc lỗi càng cao. Điểm số DELEGATE-52 sau 20 tương tác cho thấy sự khác biệt giữa các hệ: Gemini 3.1 Pro đứng đầu với 80.9%, tiếp theo là Claude 4.6 Opus 73.1% và GPT-5.4 71.5%. Ở phía cuối, GPT 5 Nano chỉ đạt 10.0%. Tổng cộng, nhóm thử nghiệm 19 mô hình thuộc sáu gia đình (nhiều phiên bản GPT-5 và GPT-4, các biến thể Claude, Gemini, cùng một mẫu từ Mistral, xAI và Moonshot).
Kết luận của bài báo nhấn mạnh: mô hình hiện nay chưa đủ tin cậy để giao toàn quyền cho các luồng công việc tự chủ, dài hạn. Các lỗi dù thưa nhưng nghiêm trọng và có thể âm thầm làm sai lệch tài liệu theo thời gian. Người dùng và doanh nghiệp cần thận trọng, kiểm tra chéo và không để AI thực hiện các thay đổi quan trọng mà không có giám sát con người.
Bài nghiên cứu đưa ra một cảnh báo rõ ràng cho nhà phát triển mô hình: cải thiện độ bền khi làm việc với ngữ cảnh dài, khả năng phát hiện và sửa lỗi tích tụ, cũng như nâng cao độ tin cậy cho các luồng công việc bán tự động sẽ là những ưu tiên cần tập trung trong tương lai.
Nguồn: Techradar
Bài viết liên quan