Grok 4.2 đánh bại ChatGPT và Claude về toán học

Phi Vũ

New member
Báo cáo mới từ OmniCalculator cho thấy trong các bài kiểm tra toán học, Grok 4.2 vượt trội hơn các model miễn phí khác. Trong khi đó Claude 4.6 lại được khen ngợi về khả năng xử lý văn bản dài và phong cách trả lời.

grok-4-2-danh-bai-chatgpt-va-claude-ve-toan-hoc-1.jpeg


Grok mạnh ở toán, Claude mạnh ở văn​

Grok 4.2 của xAI dẫn đầu về năng lực giải toán trong các bài kiểm tra do OmniCalculator thực hiện. Kết quả cho thấy Grok ít có xu hướng sửa đổi hay lùi bước giữa chừng khi giải các bài toán phức tạp, với tỷ lệ mất ổn định giảm xuống còn khoảng 33.1% so với gần 60% ở các phiên bản cũ hơn của ChatGPT và Claude.

Claude 4.6 nổi bật ở khía cạnh xử lý tài liệu dài và giữ giọng điệu nhất quán. Báo cáo nhận xét rằng Claude thể hiện khả năng trình bày mạch lạc, sẵn sàng thừa nhận sự không chắc chắn và thường cho cảm giác trả lời chững chạc hơn — điều mà nhiều người dùng đánh giá cao hơn khả năng giải toán khô khan.

Sự khác biệt quan trọng là toán học có thể đo lường được bằng đáp án đúng/sai, còn kỹ năng viết hay duy trì mạch văn là cảm nhận chất lượng. Một model có thể giải toán chính xác nhưng trình bày kém, trong khi model khác viết rất trôi chảy nhưng đôi khi phạm sai sót trong suy luận tinh tế.

ChatGPT vẫn là chatbot phổ biến nhất dù nhiều người dịch chuyển sang Claude vì lý do liên quan đến hợp tác chiến lược và phong cách trả lời. Tuy nhiên báo cáo nhấn mạnh không có "nhà vô địch" chung cho mọi nhiệm vụ — mỗi model có thế mạnh riêng và phù hợp với những nhu cầu khác nhau.

Khi cạnh tranh ngày càng gay gắt, các công ty có xu hướng đào sâu điểm mạnh của mình thay vì theo đuổi giải pháp toàn diện. Vì vậy lựa chọn AI tốt nhất thực sự phụ thuộc vào mục đích sử dụng: soạn email, xử lý văn bản dài hay giải bài toán kỹ thuật, mỗi tác vụ có thể cần một model khác nhau.

Nguồn: Techradar
 
Back
Top