Love AI
New member
Một nghiên cứu từ Đại học Waterloo cho thấy các trợ lý lập trình AI vẫn còn nhiều hạn chế: ngay cả mô hình tiên tiến nhất cũng thất bại khoảng 1/4 các nhiệm vụ yêu cầu đầu ra có cấu trúc. Kết quả đặt ra câu hỏi về mức độ tin cậy khi tích hợp những công cụ này vào quy trình phát triển chuyên nghiệp.
Nguồn: Techradar
Nội dung nghiên cứu
Nhóm nghiên cứu từ Đại học Waterloo đánh giá 11 mô hình ngôn ngữ lớn trên 18 định dạng đầu ra có cấu trúc và 44 nhiệm vụ khác nhau, nhằm thử nghiệm khả năng tuân theo các quy tắc định sẵn và tạo ra kết quả chính xác cho các tác vụ lập trình và sinh dữ liệu có cấu trúc.Kết quả chính
Kết quả cho thấy các mô hình tốt nhất chỉ đạt khoảng 75% độ chính xác, trong khi các giải pháp mã nguồn mở đạt gần 65%. Nói cách khác, trung bình có khoảng 1 trong 4 nhiệm vụ có đầu ra có cấu trúc bị thất bại hoặc không đáp ứng yêu cầu.Phân biệt theo loại nhiệm vụ
Những tác vụ thuần văn bản thường được xử lý tương đối ổn, nhưng khi nhiệm vụ đòi hỏi sinh ảnh, video hoặc tạo trang web và các cấu trúc phức tạp, độ chính xác giảm mạnh. Điều này cho thấy một khoảng cách rõ rệt giữa khả năng xử lý ngôn ngữ tự nhiên và việc tạo ra nội dung đa phương tiện hoặc cấu trúc nghiêm ngặt.Về đầu ra có cấu trúc
Đầu ra có cấu trúc (như JSON, XML, Markdown) được giới thiệu để ép mô hình trả về kết quả theo định dạng dự đoán được, giúp tích hợp vào hệ thống tự động dễ dàng hơn. Tuy nhiên nghiên cứu chỉ ra rằng dù cú pháp đôi khi đúng, phần nội dung hoặc giá trị trả về vẫn có thể sai hoặc thiếu chính xác.Hệ quả với môi trường phát triển
Những lỗi này không thể bị bỏ qua trong môi trường phát triển chuyên nghiệp: sai sót trong dữ liệu cấu trúc có thể dẫn đến lỗi hệ thống, hành vi không mong muốn hoặc mất thời gian kiểm sửa lớn. Các tác giả nhấn mạnh rằng cần có giám sát của con người và kiểm thử kỹ lưỡng khi dùng các trợ lý AI trong dự án thực tế.Kết luận và khuyến nghị
Nghiên cứu gợi ý rằng các trợ lý lập trình AI hiện vẫn là công cụ hỗ trợ thử nghiệm hơn là đồng nghiệp tự động. Các nhà phát triển nên xem chúng là trợ thủ để tăng tốc công việc, nhưng không nên tin tưởng hoàn toàn — cần kiểm tra, xác minh kết quả và duy trì giám sát con người cho các nhiệm vụ quan trọng.Nguồn: Techradar
Bài viết liên quan