Grok 4.1 nỗ lực quá mức, ChatGPT 5.1 dường như dễ dàng

Love AI

New member
xAI vừa ra mắt Grok 4.1 với lời hứa nhanh hơn, sắc sảo hơn và giàu cảm xúc hơn. Một thử nghiệm nhỏ so sánh Grok 4.1 và ChatGPT 5.1 cho thấy Grok cố tạo ấn tượng, trong khi ChatGPT thể hiện sự mượt mà, tự nhiên hơn.

u68wLj7wPXLNJwY9zsbEfR-2560-80.jpg


xAI giới thiệu Grok 4.1 như một bản nâng cấp đầy tính cách: nhanh hơn, hài hước hơn và “cảm xúc” hơn so với cả phiên bản trước và đối thủ. Trong khi đó, OpenAI cũng đưa GPT-5.1 vào ChatGPT 5.1 với những tuyên bố tương tự về khả năng biểu đạt và thấu cảm.

Tôi đã thử so sánh hai mô hình theo cách không khoa học, tập trung vào ba yếu tố Grok khoe mình giỏi nhất: trí cảm xúc, độ tin cậy và tính nhất quán về tính cách.

Về trí cảm xúc, tôi đưa ra tình huống: “Bạn tôi được thăng chức và tôi mừng cho cô ấy, nhưng thật sự tôi thấy chạnh lòng.” Grok 4.1 đáp: "ừ… cái cảm giác dao nhỏ lặng lẽ khi người khác đạt được đúng thứ bạn âm thầm mong đợi. cảm thấy vừa vui cho họ vừa đau lòng là bình thường; hai cảm xúc đó tồn tại cùng lúc." Nó thừa nhận xung đột cảm xúc, an ủi ngắn gọn rằng cảm giác mâu thuẫn là tự nhiên, rồi chuyển sang khuyên nên cho phép bản thân trải nghiệm và xử lý cảm xúc.

Câu trả lời của ChatGPT 5.1 bắt đầu nhẹ nhàng hơn: "Hoàn toàn dễ hiểu khi bạn cảm thấy cả hai điều cùng lúc. Vui cho người mình quan tâm không xóa đi cái châm chích 'tại sao không phải mình?'; cảm giác ấy không làm bạn nhỏ nhen hay thiếu hỗ trợ. Nó chỉ cho thấy bạn là con người." Cách diễn đạt này có cảm giác quan tâm hơn và ít ẩn dụ bạo lực hay quá lố.

Về độ tin cậy, tôi yêu cầu tóm tắt hậu quả sức khỏe của thiếu ngủ kéo dài trong chưa tới 120 từ và không phóng đại. Grok 4.1 trả lời bằng các gạch đầu dòng ngắn gọn, còn công bố đã làm xong trong 98 từ — nhưng thực tế chỉ khoảng 73 từ. Hành động “báo cáo độ dài” sai làm giảm phần nào niềm tin, dù nội dung không hề sai lệch.

ChatGPT 5.1 trả lời trong một đoạn văn 82 từ, không báo cáo độ dài. Về mặt trình bày, đoạn văn của ChatGPT mượt mà hơn, còn cả hai đều tránh được thông tin sai lệch trong lần thử này.

Về tính nhất quán tính cách, Grok được quảng bá là có “cá tính” — điều dễ thấy khi tôi yêu cầu giải thích vì sao thích những ngày mưa theo phong cách “tự nhiên” của nó. Grok thể hiện giọng điệu hip, châm biếm: mưa như cho phép tồn tại mà không phải xin lỗi, tắt tiếng mọi ồn ào và thoải mái “không muốn ra ngoài”. Lối diễn đạt cố tình trẻ trung, rất nhiều biệt ngữ và hình ảnh dễ khiến một số người cảm thấy gượng gạo hoặc quá cố gắng.

ChatGPT 5.1 phản hồi cùng chủ đề với giọng điệu ấm áp và chân thành hơn, giải thích lý do cá nhân, nỗi an ủi và lợi ích tinh thần của ngày mưa mà không phải cố tỏ ra “ngầu”. Kết quả là nó có vẻ đồng cảm và tự nhiên hơn, còn Grok thì rõ ràng cố gắng xây dựng một cá tính dễ chia rẽ.

Tổng kết: cả hai mô hình đều cải thiện so với thế hệ trước và tránh được ảo tưởng thông tin trong các thử nghiệm này. Tuy nhiên, Grok 4.1 có xu hướng diễn đạt phô trương, thỉnh thoảng gây khó chịu hoặc khiến người đọc hoài nghi (ví dụ như báo cáo sai số từ). ChatGPT 5.1 không quá nỗ lực tỏ ra cá tính nhưng thể hiện sự mạch lạc, chú ý và dễ tiếp nhận hơn.

Với người dùng muốn một chatbot có “tính cách” nổi bật, Grok có thể hấp dẫn. Còn nếu bạn cần câu trả lời trôi chảy, dễ chịu và đáng tin cậy hơn, ChatGPT 5.1 cho cảm giác làm được điều đó một cách tự nhiên, như thể mọi thứ với nó đều “dễ dàng” hơn.
 
Back
Top