Love AI
New member
Ba mô hình AI hàng đầu — ChatGPT 5.1, Gemini 3 Pro và Claude Opus 4.5 — được đặt trước một loạt ảnh phức tạp để đánh giá khả năng nhận diện hình ảnh, đọc chữ và tránh phóng đại thông tin. Kết quả cho thấy mỗi hệ thống có điểm mạnh và hạn chế khác nhau tuỳ mục đích sử dụng.
Tôi đã đưa ba chatbot đa phương thức vào một bài thử bao gồm những hình ảnh rối rắm: một cảnh Times Square đầy biển quảng cáo và đèn neon, bức tranh Michelangelo Last Judgment với hàng chục nhân vật chồng chéo, và một căn phòng hỗn độn đầy dây cáp, sách vở, thùng hộp. Mục tiêu là xem mô hình nào mô tả chính xác, chọn lọc chi tiết hữu ích và tránh bịa đặt.
Gemini 3 Pro thể hiện phong cách phân tích pháp y: ngoài việc nêu đối tượng, nó mô tả mối quan hệ không gian, góc nhìn và sắc độ ánh sáng — ví dụ nêu cách ánh sáng xanh phản chiếu lên mặt dựng tòa nhà hay kiểu vạch qua đường cho thấy lưu lượng người cao. Khả năng nhận diện chữ của Gemini rất tốt; khi chữ không đọc được, nó thừa nhận điều đó thay vì đoán.
Claude thiên về ngôn từ giàu cảm xúc hơn. Khi mô tả, nó thường tạo ra bức tranh mang tính văn học, nêu cảm giác và bối cảnh. Khi ở trên nền mô tả khách quan, Claude vẫn nắm được nhiều chi tiết như màu sắc biển hiệu và mật độ người, nhưng phong cách biểu cảm của nó có thể gây cảm nhận khác so với mô tả thuần tính năng.
Gemini 3 Pro gần giống phân tích của một nhà sử học nghệ thuật: nó phân tích bố cục, nhận diện các cụm nhân vật, nêu vị trí tương đối và các chi tiết biểu tượng nhỏ hơn. Gemini thường phân giải tốt các tư thế phức tạp và mối liên hệ không gian giữa các nhân vật, giúp hiểu được chuyện kể thị giác mà bức tranh truyền tải.
Claude mô tả bức tranh với giọng điệu giàu cảm xúc và tập trung vào bầu không khí, màu sắc và tâm trạng. Nó có thể diễn giải một số biểu tượng theo hướng giàu suy tưởng, điều này hữu ích khi cần một nhận xét cảm nhận hơn là phân tích chi tiết từng nhân vật.
Gemini 3 Pro nổi bật ở việc mô tả mối quan hệ không gian và các nguy cơ tiềm ẩn: vị trí dây điện dồn vào góc, khả năng vấp ngã gần lối đi, hay các khu vực bị che khuất. Những nhận xét này hữu dụng cho mục đích an toàn, kiểm kê tài sản hoặc sửa chữa.
Claude có xu hướng chuyển tải cảnh thành một câu chuyện nhỏ, mô tả trạng thái và cảm nhận của không gian. Điều đó có lợi khi cần mô tả bối cảnh nhưng đôi khi khiến nó thêm giả thiết không được xác thực (ví dụ suy đoán về người dùng hoặc mục đích đồ vật) nếu không có cơ sở trực tiếp trong ảnh.
Kết luận: mỗi mô hình có ưu — nhược riêng. Gemini 3 Pro xuất sắc ở phân tích không gian, chi tiết thị giác và nhận diện chữ, rất phù hợp cho nhiệm vụ cố định, pháp lý hay an toàn. ChatGPT 5.1 cân bằng giữa mô tả rõ ràng và thận trọng, tránh tạo thông tin sai nên phù hợp với người dùng cần kết luận đáng tin cậy. Claude Opus 4.5 mạnh về mô tả giàu cảm xúc và bối cảnh, hợp khi muốn một lời tóm tắt ngôn từ giàu hình ảnh nhưng cần kiểm chứng khi dùng cho mục đích quyết định.
Lời khuyên thực tế: chọn công cụ theo mục tiêu — cần độ chính xác chi tiết và nhận diện chữ, ưu tiên Gemini; cần mô tả khách quan, tránh suy đoán, chọn ChatGPT; cần cảm nhận và diễn giải bằng lời, Claude là lựa chọn phù hợp. Trong mọi tình huống, việc xác minh kết luận quan trọng bằng mắt người hoặc nguồn bổ sung vẫn là bước cần thiết.
Tôi đã đưa ba chatbot đa phương thức vào một bài thử bao gồm những hình ảnh rối rắm: một cảnh Times Square đầy biển quảng cáo và đèn neon, bức tranh Michelangelo Last Judgment với hàng chục nhân vật chồng chéo, và một căn phòng hỗn độn đầy dây cáp, sách vở, thùng hộp. Mục tiêu là xem mô hình nào mô tả chính xác, chọn lọc chi tiết hữu ích và tránh bịa đặt.
Times Square
ChatGPT 5.1 tiếp cận ảnh theo cấu trúc: nó tách cảnh thành các khu vực, liệt kê những biển hiệu lớn, nhận ra xe taxi vàng, xe buýt và các quầy hàng. Mô tả của nó rõ ràng, không thổi phồng, và tránh suy đoán khi chữ trên biển mờ.Gemini 3 Pro thể hiện phong cách phân tích pháp y: ngoài việc nêu đối tượng, nó mô tả mối quan hệ không gian, góc nhìn và sắc độ ánh sáng — ví dụ nêu cách ánh sáng xanh phản chiếu lên mặt dựng tòa nhà hay kiểu vạch qua đường cho thấy lưu lượng người cao. Khả năng nhận diện chữ của Gemini rất tốt; khi chữ không đọc được, nó thừa nhận điều đó thay vì đoán.
Claude thiên về ngôn từ giàu cảm xúc hơn. Khi mô tả, nó thường tạo ra bức tranh mang tính văn học, nêu cảm giác và bối cảnh. Khi ở trên nền mô tả khách quan, Claude vẫn nắm được nhiều chi tiết như màu sắc biển hiệu và mật độ người, nhưng phong cách biểu cảm của nó có thể gây cảm nhận khác so với mô tả thuần tính năng.
Tranh Michelangelo — Last Judgment
Bức tranh này là bài kiểm tra khả năng nhận diện các hình người chồng chéo, cử chỉ và tầng nghĩa biểu tượng. ChatGPT 5.1 tiếp cận như một bài phân tích học thuật: nó nhận ra hình trung tâm (sai lệch là Chúa/đấng cứu thế), mô tả nhóm người được phân biệt giữa những kẻ được cứu và bị phán xét, và chỉ ra các cụm cảnh như thiên thần thổi kèn hay các linh hồn nổi lên mà không gán tên sai.Gemini 3 Pro gần giống phân tích của một nhà sử học nghệ thuật: nó phân tích bố cục, nhận diện các cụm nhân vật, nêu vị trí tương đối và các chi tiết biểu tượng nhỏ hơn. Gemini thường phân giải tốt các tư thế phức tạp và mối liên hệ không gian giữa các nhân vật, giúp hiểu được chuyện kể thị giác mà bức tranh truyền tải.
Claude mô tả bức tranh với giọng điệu giàu cảm xúc và tập trung vào bầu không khí, màu sắc và tâm trạng. Nó có thể diễn giải một số biểu tượng theo hướng giàu suy tưởng, điều này hữu ích khi cần một nhận xét cảm nhận hơn là phân tích chi tiết từng nhân vật.
Phòng bừa bộn
Ảnh một căn phòng lộn xộn là bài thử thực tiễn: nhận dạng đồ vật, xác định mối nguy và liệt kê những thứ quan trọng cho bảo hiểm hay sắp xếp. ChatGPT 5.1 liệt kê các vật thấy rõ—sách, dây cáp, thùng—và giữ thái độ thận trọng, không nói chắc điều không rõ ràng.Gemini 3 Pro nổi bật ở việc mô tả mối quan hệ không gian và các nguy cơ tiềm ẩn: vị trí dây điện dồn vào góc, khả năng vấp ngã gần lối đi, hay các khu vực bị che khuất. Những nhận xét này hữu dụng cho mục đích an toàn, kiểm kê tài sản hoặc sửa chữa.
Claude có xu hướng chuyển tải cảnh thành một câu chuyện nhỏ, mô tả trạng thái và cảm nhận của không gian. Điều đó có lợi khi cần mô tả bối cảnh nhưng đôi khi khiến nó thêm giả thiết không được xác thực (ví dụ suy đoán về người dùng hoặc mục đích đồ vật) nếu không có cơ sở trực tiếp trong ảnh.
Kết luận: mỗi mô hình có ưu — nhược riêng. Gemini 3 Pro xuất sắc ở phân tích không gian, chi tiết thị giác và nhận diện chữ, rất phù hợp cho nhiệm vụ cố định, pháp lý hay an toàn. ChatGPT 5.1 cân bằng giữa mô tả rõ ràng và thận trọng, tránh tạo thông tin sai nên phù hợp với người dùng cần kết luận đáng tin cậy. Claude Opus 4.5 mạnh về mô tả giàu cảm xúc và bối cảnh, hợp khi muốn một lời tóm tắt ngôn từ giàu hình ảnh nhưng cần kiểm chứng khi dùng cho mục đích quyết định.
Lời khuyên thực tế: chọn công cụ theo mục tiêu — cần độ chính xác chi tiết và nhận diện chữ, ưu tiên Gemini; cần mô tả khách quan, tránh suy đoán, chọn ChatGPT; cần cảm nhận và diễn giải bằng lời, Claude là lựa chọn phù hợp. Trong mọi tình huống, việc xác minh kết luận quan trọng bằng mắt người hoặc nguồn bổ sung vẫn là bước cần thiết.
Bài viết liên quan