Love AI
New member
Gemini 3 Flash của Google thể hiện tốc độ và khả năng ấn tượng, nhưng một bài kiểm tra độc lập cho thấy khi không biết câu trả lời, mô hình này thường xuyên 'bịa' ra thông tin thay vì thừa nhận thiếu chắc chắn. Điều này đặt ra rủi ro khi Gemini được tích hợp sâu vào các sản phẩm như Google Search.
Một đánh giá gần đây của nhóm kiểm tra độc lập Artificial Analysis chỉ ra rằng Gemini 3 Flash đạt tỷ lệ "hallucination" lên tới 91% trong phần đánh giá AA-Omniscience. Nói cách khác, khi đáng lẽ phải trả lời "tôi không biết", mô hình vẫn đưa ra đáp án — và hầu hết trong số đó là bịa đặt.
Con số 91% có thể dễ gây hiểu lầm nếu đọc vội. Nó không có nghĩa là 91% tổng số câu trả lời của Gemini là sai. Thay vào đó, nó có nghĩa rằng trong những tình huống mà dữ liệu huấn luyện không có thông tin rõ ràng hoặc không có nguồn công khai xác thực, Gemini vẫn tạo ra câu trả lời giả định 91% thời gian. Đó là khác biệt nhỏ nhưng quan trọng, đặc biệt khi mô hình được dùng trong các tính năng tìm kiếm và trợ lý.
Gemini 3 Flash vẫn là một trong những mô hình hàng đầu về hiệu năng tổng quát và cạnh tranh trực tiếp với các phiên bản mới nhất của ChatGPT và Claude. Tuy nhiên, vấn đề ở đây là mức độ tự tin không tương xứng: mô hình có xu hướng trả lời dứt khoát ngay cả khi lẽ ra nên khiêm tốn hoặc nói rằng nó không có thông tin.
Một phần gốc rễ của vấn đề đến từ bản chất của các mô hình sinh văn bản: chúng chủ yếu dự đoán từ ngữ tiếp theo chứ không phải đánh giá tính chân thực. Dự đoán từ ngữ mới không đồng nghĩa với việc xác minh sự thật, nên hành vi mặc định là sinh ra một đáp án, kể cả khi đáp án đó sai hoặc thiếu căn cứ.
Một số nhà phát triển, như OpenAI, đã bắt đầu cải thiện khả năng nhận biết điều mình không biết và huấn luyện mô hình nói rõ khi không chắc chắn. Đây là bài toán khó vì mô hình thường được thưởng cho việc đưa đáp án rõ ràng hơn là để trống hoặc thừa nhận thiếu thông tin. Việc cân bằng giữa phản hồi mạch lạc và trung thực vẫn là thách thức lớn.
Ở góc độ người dùng, có hai hệ quả cần lưu ý: người dùng thường mong muốn phản hồi nhanh và trôi chảy từ trợ lý AI, nên câu trả lời thẳng thắn có thể cảm giác tự nhiên hơn; nhưng khi thông tin quan trọng hoặc nhạy cảm, lời khuyên tốt nhất vẫn là kiểm tra chéo nguồn tin và đối chiếu thông tin do AI cung cấp. Đặt kỳ vọng phù hợp và kiểm chứng là cách giảm rủi ro khi dùng các mô hình sinh ngôn ngữ như Gemini.
Một đánh giá gần đây của nhóm kiểm tra độc lập Artificial Analysis chỉ ra rằng Gemini 3 Flash đạt tỷ lệ "hallucination" lên tới 91% trong phần đánh giá AA-Omniscience. Nói cách khác, khi đáng lẽ phải trả lời "tôi không biết", mô hình vẫn đưa ra đáp án — và hầu hết trong số đó là bịa đặt.
Con số 91% có thể dễ gây hiểu lầm nếu đọc vội. Nó không có nghĩa là 91% tổng số câu trả lời của Gemini là sai. Thay vào đó, nó có nghĩa rằng trong những tình huống mà dữ liệu huấn luyện không có thông tin rõ ràng hoặc không có nguồn công khai xác thực, Gemini vẫn tạo ra câu trả lời giả định 91% thời gian. Đó là khác biệt nhỏ nhưng quan trọng, đặc biệt khi mô hình được dùng trong các tính năng tìm kiếm và trợ lý.
Gemini 3 Flash vẫn là một trong những mô hình hàng đầu về hiệu năng tổng quát và cạnh tranh trực tiếp với các phiên bản mới nhất của ChatGPT và Claude. Tuy nhiên, vấn đề ở đây là mức độ tự tin không tương xứng: mô hình có xu hướng trả lời dứt khoát ngay cả khi lẽ ra nên khiêm tốn hoặc nói rằng nó không có thông tin.
Một phần gốc rễ của vấn đề đến từ bản chất của các mô hình sinh văn bản: chúng chủ yếu dự đoán từ ngữ tiếp theo chứ không phải đánh giá tính chân thực. Dự đoán từ ngữ mới không đồng nghĩa với việc xác minh sự thật, nên hành vi mặc định là sinh ra một đáp án, kể cả khi đáp án đó sai hoặc thiếu căn cứ.
Một số nhà phát triển, như OpenAI, đã bắt đầu cải thiện khả năng nhận biết điều mình không biết và huấn luyện mô hình nói rõ khi không chắc chắn. Đây là bài toán khó vì mô hình thường được thưởng cho việc đưa đáp án rõ ràng hơn là để trống hoặc thừa nhận thiếu thông tin. Việc cân bằng giữa phản hồi mạch lạc và trung thực vẫn là thách thức lớn.
Ở góc độ người dùng, có hai hệ quả cần lưu ý: người dùng thường mong muốn phản hồi nhanh và trôi chảy từ trợ lý AI, nên câu trả lời thẳng thắn có thể cảm giác tự nhiên hơn; nhưng khi thông tin quan trọng hoặc nhạy cảm, lời khuyên tốt nhất vẫn là kiểm tra chéo nguồn tin và đối chiếu thông tin do AI cung cấp. Đặt kỳ vọng phù hợp và kiểm chứng là cách giảm rủi ro khi dùng các mô hình sinh ngôn ngữ như Gemini.
Bài viết liên quan