Love AI

New member
Một nghiên cứu mới từ công ty dữ liệu Mercor dùng benchmark APEX-Agents cho thấy các mô hình AI hàng đầu hiện chưa đáp ứng được công việc văn phòng thực tế. Nguyên nhân chính là AI kém trong việc xử lý thông tin phân tán và chuyển đổi ngữ cảnh.

openai-chatgpt-os.jpg


Kết quả nghiên cứu​

Công ty dữ liệu đào tạo Mercor vừa công bố benchmark APEX-Agents, dùng các truy vấn thực tế từ luật sư, tư vấn viên và ngân hàng đầu tư để kiểm tra khả năng hoàn thành các nhiệm vụ đa bước trong môi trường làm việc thực tế.

Kết quả rất khiêm tốn: ngay cả những mô hình hàng đầu như Gemini 3 Flash và GPT-5.2 cũng không vượt qua ngưỡng 25% độ chính xác. Gemini dẫn đầu với 24%, GPT-5.2 đạt 23%, còn hầu hết mô hình khác chỉ dừng ở mức hai chữ số.

Vấn đề không phải là khả năng 'thông minh' thuần túy mà là ngữ cảnh. Giám đốc Mercor, Brendan Foody, nhấn mạnh rằng trong công việc thật sự, câu trả lời không được trình bày sẵn: một luật sư có thể phải kiểm tra chuỗi Slack, đọc chính sách PDF, xem bảng tính rồi tổng hợp tất cả để trả lời câu hỏi về tuân thủ GDPR—và AI hiện vẫn yếu trong việc chuyển đổi giữa các nguồn thông tin rời rạc như vậy.

Với người lo lắng về việc làm, đây có thể là tin nhẹ: hiện tại AI hoạt động giống một thực tập sinh thiếu ổn định, chỉ đúng khoảng một phần tư thời gian, nên chưa thể thay thế chuyên gia trong nhiều nhiệm vụ kiến thức phức tạp.

Tuy nhiên, tiến bộ diễn ra rất nhanh: Foody lưu ý rằng một năm trước các mô hình chỉ đạt khoảng 5–10%, nên việc tăng lên ~24% cho thấy chúng đang cải thiện nhanh chóng. Dù vậy, cuộc cách mạng 'công việc kiến thức' nhiều khả năng vẫn phải chờ thêm cho tới khi AI xử lý tốt việc đa nhiệm và tổng hợp thông tin lộn xộn.

Nguồn: Digitaltrends
 
Back
Top