Love AI
New member
Ứng dụng chính thức của ChatGPT mới đăng thông báo rằng mô hình đã có thể đếm số chữ 'r' trong từ "strawberry". Tuy nhiên người dùng nhanh chóng phát hiện nó vẫn vấp khi đổi sang từ "cranberry" và vấn đề chưa được khắc phục triệt để.
Ứng dụng chính thức ChatGPT vừa tuyên bố rằng nó giờ đây có thể đếm được số chữ "r" trong từ "strawberry" — một bài kiểm tra đơn giản nhưng từng khiến nhiều mô hình ngôn ngữ gặp khó.
Tuy vậy, sau khi thông báo được đăng lên X với câu "At long last", người dùng lập tức thử nghiệm thêm và phát hiện lỗi vẫn tồn tại: khi đổi từ "strawberry" sang "cranberry", ChatGPT lại cho kết quả sai.
Một người dùng X (Twitter) đã chia sẻ ảnh chụp màn hình cho thấy ChatGPT trả lời là chỉ có một chữ "r" trong "cranberry". Khi thử nghiệm trên phiên bản GPT-5.5, kết quả khác nhau nhưng vẫn sai — mô hình nói có hai chữ "r" trong "cranberry", trong khi đáp án đúng là hai chữ "r"? (lưu ý: bài kiểm tra cho thấy các phiên bản khác nhau vẫn chưa thống nhất về cách xử lý).
Vấn đề nằm ở cách mạng học lớn (LLM) xử lý ngôn ngữ: chúng chuyển từ thành các biểu diễn số (token, embedding) để nắm được ý nghĩa và ngữ cảnh, chứ không lưu trữ rõ ràng từng ký tự riêng lẻ như con người. Do đó các tác vụ đếm ký tự trực tiếp thường không phải là điểm mạnh vốn có của LLM.
Việc ChatGPT vượt qua được bài "strawberry" nhưng vẫn thất bại với "cranberry" gợi ý rằng có thể đội ngũ phát triển đã vá sửa cho các trường hợp cụ thể (hard-coded) thay vì cải thiện cách mô hình suy luận tổng quát về ký tự và đếm.
Bên cạnh bài đếm chữ, bài kiểm tra "car wash" cũng được nhắc tới: câu hỏi đặt ra là đi bộ hay lái xe đến trạm rửa cách 50 mét. Nhiều mô hình mặc định trả lời đi bộ nhanh hơn mà bỏ qua điều kiện cần đem theo ôtô để rửa.
ChatGPT tuyên bố giờ sẽ phát hiện lỗi ngữ cảnh này và lưu ý rằng nếu mục tiêu là rửa xe bạn phải mang xe theo. Tuy nhiên khi kiểm tra thực tế trên GPT-5.5 và Claude (Sonnet 4.6), cả hai vẫn khuyên đi bộ mà không nêu vấn đề về việc mang xe. Trong khi đó Gemini chỉ ra rằng đi bộ nhanh hơn nhưng bạn cần mang xe nếu mục tiêu là rửa, và Grok còn phân tích sâu hơn rằng đây là bài kiểm tra xem AI có hiểu mục tiêu thực sự hay chỉ đưa lời khuyên chung chung.
Một vài cải tiến đang xuất hiện, nhưng các ví dụ như "strawberry" vs "cranberry" cho thấy việc vá lỗi từng trường hợp không đồng nghĩa với việc mô hình thực sự hiểu rộng hơn. Thực tế vẫn còn câu hỏi lớn: liệu các mô hình đang thực sự thông minh hơn hay chỉ ngày càng giỏi vượt qua những bài kiểm tra cụ thể mà người ta đặt ra?
Nguồn: Techradar
Tin chính
Ứng dụng chính thức ChatGPT vừa tuyên bố rằng nó giờ đây có thể đếm được số chữ "r" trong từ "strawberry" — một bài kiểm tra đơn giản nhưng từng khiến nhiều mô hình ngôn ngữ gặp khó.
Tuy vậy, sau khi thông báo được đăng lên X với câu "At long last", người dùng lập tức thử nghiệm thêm và phát hiện lỗi vẫn tồn tại: khi đổi từ "strawberry" sang "cranberry", ChatGPT lại cho kết quả sai.
Một người dùng X (Twitter) đã chia sẻ ảnh chụp màn hình cho thấy ChatGPT trả lời là chỉ có một chữ "r" trong "cranberry". Khi thử nghiệm trên phiên bản GPT-5.5, kết quả khác nhau nhưng vẫn sai — mô hình nói có hai chữ "r" trong "cranberry", trong khi đáp án đúng là hai chữ "r"? (lưu ý: bài kiểm tra cho thấy các phiên bản khác nhau vẫn chưa thống nhất về cách xử lý).
Tại sao mô hình vấp với bài toán đếm chữ?
Vấn đề nằm ở cách mạng học lớn (LLM) xử lý ngôn ngữ: chúng chuyển từ thành các biểu diễn số (token, embedding) để nắm được ý nghĩa và ngữ cảnh, chứ không lưu trữ rõ ràng từng ký tự riêng lẻ như con người. Do đó các tác vụ đếm ký tự trực tiếp thường không phải là điểm mạnh vốn có của LLM.
Việc ChatGPT vượt qua được bài "strawberry" nhưng vẫn thất bại với "cranberry" gợi ý rằng có thể đội ngũ phát triển đã vá sửa cho các trường hợp cụ thể (hard-coded) thay vì cải thiện cách mô hình suy luận tổng quát về ký tự và đếm.
Bài kiểm tra khác: bài toán rửa xe
Bên cạnh bài đếm chữ, bài kiểm tra "car wash" cũng được nhắc tới: câu hỏi đặt ra là đi bộ hay lái xe đến trạm rửa cách 50 mét. Nhiều mô hình mặc định trả lời đi bộ nhanh hơn mà bỏ qua điều kiện cần đem theo ôtô để rửa.
ChatGPT tuyên bố giờ sẽ phát hiện lỗi ngữ cảnh này và lưu ý rằng nếu mục tiêu là rửa xe bạn phải mang xe theo. Tuy nhiên khi kiểm tra thực tế trên GPT-5.5 và Claude (Sonnet 4.6), cả hai vẫn khuyên đi bộ mà không nêu vấn đề về việc mang xe. Trong khi đó Gemini chỉ ra rằng đi bộ nhanh hơn nhưng bạn cần mang xe nếu mục tiêu là rửa, và Grok còn phân tích sâu hơn rằng đây là bài kiểm tra xem AI có hiểu mục tiêu thực sự hay chỉ đưa lời khuyên chung chung.
Kết luận
Một vài cải tiến đang xuất hiện, nhưng các ví dụ như "strawberry" vs "cranberry" cho thấy việc vá lỗi từng trường hợp không đồng nghĩa với việc mô hình thực sự hiểu rộng hơn. Thực tế vẫn còn câu hỏi lớn: liệu các mô hình đang thực sự thông minh hơn hay chỉ ngày càng giỏi vượt qua những bài kiểm tra cụ thể mà người ta đặt ra?
Nguồn: Techradar
Bài viết liên quan