Khi AI vẽ lời nói của chúng ta

AI Crazy

New member
Một nghiên cứu liên ngành từ Bỉ phân tích khả năng của Midjourney và DALL·E khi chuyển câu chữ thành hình ảnh. Kết quả cho thấy dù đẹp về mặt thẩm mỹ, các mô hình vẫn hay thất bại với những chỉ dẫn cơ bản.

when-ai-draws-our-word.jpg


Nhóm nghiên cứu từ Đại học Liège, Đại học Lorraine và EHESS đã kiểm tra cách hai hệ thống tạo ảnh phổ biến — Midjourney và DALL·E — hiểu và minh họa các câu mô tả đơn giản. Họ kết hợp ký hiệu học, khoa học máy tính và lịch sử nghệ thuật để đánh giá hình ảnh theo tiêu chí nhân văn như bố cục, màu sắc, hướng nhìn và động lực thị giác.

Các thí nghiệm được thực hiện nghiêm ngặt: mỗi yêu cầu được tạo lại nhiều lần (đến 50 lần cho mỗi prompt) để đảm bảo kết quả có độ tin cậy thống kê. Những thử nghiệm này hé lộ rằng dù nhiều ảnh có giá trị thẩm mỹ, các hệ thống vẫn gặp khó khi thực hiện các chỉ dẫn rõ ràng nhất.

Những sai lệch hay gặp gồm: hiểu sai phủ định (ví dụ «con chó không có đuôi» nhưng ảnh vẫn cho thấy đuôi hoặc che đuôi bằng khung), mối quan hệ không gian phức tạp, đặt sai vị trí các yếu tố, và thể hiện không nhất quán về hướng nhìn hoặc khoảng cách (ví dụ «hai người phụ nữ đứng sau một cánh cửa»). Chúng cũng thường nhầm lẫn hành động: cảnh «đánh nhau» đôi khi được vẽ như đang múa, và chúng khó hiện thực hóa chuỗi thời gian như «bắt đầu ăn» hay «đã ăn xong».

Hai mô hình có dấu ấn thẩm mỹ khác nhau: Midjourney thiên về hình thức mỹ hóa với các họa tiết, kết cấu làm đẹp ảnh nhưng đôi khi hy sinh việc tôn trọng chỉ dẫn; DALL·E thận trọng hơn về kết cấu, giúp kiểm soát bố cục tốt hơn nhưng lại biến đổi số lượng hay hướng các vật thể nhiều hơn. Một thử nghiệm với prompt «ba đường thẳng trắng dọc trên nền đen», lặp 50 lần, cho thấy Midjourney thường nhất quán về ý tưởng nhưng thêm nhiều artifact, còn DALL·E biến động về số lượng và hướng các đường thẳng.

Nghiên cứu cũng chỉ ra ảnh hưởng mạnh mẽ của dữ liệu huấn luyện và quyết định thiết kế: vì mô hình dựa trên xác suất do bộ dữ liệu, chúng dễ tái tạo các định kiến thị giác có sẵn (thường xuất phát từ hình ảnh phương Tây). Ví dụ, với prompt «CEO phát biểu», một mô hình có thể tạo nhiều hình phụ nữ, trong khi mô hình khác cho ra chủ yếu nam trung niên da trắng — minh chứng cho việc tập dữ liệu và cài đặt của nhà phát triển định hình "cách nhìn" của máy.

Tác giả nhấn mạnh rằng đánh giá các công cụ này cần kết hợp cả phương pháp khoa học máy tính và nhân văn. Những công cụ AI không phải là máy móc tự động vô tư: chúng dịch ngôn ngữ thành hình ảnh theo logic riêng, bị chi phối bởi thuật toán và dữ liệu. Ký hiệu học và các ngành nhân văn khác có vai trò thiết yếu để hiểu, giải thích và định giá những sản phẩm này.

Kết luận: các hệ thống tạo ảnh đã đạt được nhiều tiến bộ và có thể hỗ trợ minh họa ý tưởng, nhưng vẫn còn khoảng cách lớn để dịch đúng ý nghĩa ngôn ngữ sang hình ảnh một cách nhất quán. Nghiên cứu được công bố trên tạp chí Semiotic Review (2025), Enzo D'Armenio cùng cộng sự. DOI: 10.71743/ee5nrx33.

Nguồn: https://techxplore.com/news/2025-11-ai-words-image-generators-basic.html
 
Back
Top