Love AI

New member
Một nghiên cứu so sánh hơn 100.000 người với nhiều mô hình ngôn ngữ lớn như ChatGPT, Claude và Gemini cho thấy AI có thể vượt trung bình người thường ở một bài kiểm tra sáng tạo. Tuy nhiên, nửa trên người tham gia, đặc biệt top 10%, vẫn giữ lợi thế rõ rệt.

omar-lopez-rincon-Q71kkJHARdg-unsplash-scaled.jpg


Nghiên cứu so sánh kết quả từ hơn 100.000 người với nhiều mô hình ngôn ngữ lớn (ChatGPT, Claude, Gemini) bằng một phép đo tiêu chuẩn của sự sáng tạo ngôn ngữ. Kết quả cho thấy một số mô hình có thể đạt điểm cao hơn người trung bình trong bài kiểm tra đó, nhưng không thể vượt qua nhóm người có năng lực sáng tạo cao nhất.

Thử nghiệm chính dùng Divergent Association Task (DAT), yêu cầu người chơi đưa ra mười từ càng ít liên quan tới nhau càng tốt. Điểm số tăng khi các từ càng xa ngữ nghĩa; bài kiểm tra ngắn nên hầu hết hoàn thành trong vài phút, điều này giúp nhóm nghiên cứu thu thập được dữ liệu lớn.

Mô hình AI dễ dàng được tinh chỉnh để tạo ra những lựa chọn từ ngữ rộng và đa dạng, nên chúng phù hợp với cách DAT đánh giá. Vì vậy, kết quả rằng một số AI “vượt” người trung bình không gây ngạc nhiên. Tuy nhiên, DAT chỉ đo một khía cạnh của sáng tạo: khả năng tạo ra ngôn ngữ phân kỳ.

DAT không đánh giá gu thẩm mỹ, tác động cảm xúc hay khả năng chọn ý tưởng phù hợp với đối tượng cụ thể. Những kỹ năng này — chọn lọc, định hình ý tưởng theo giới hạn thực tế và làm cho sản phẩm trở nên có chủ ý — là nơi con người cao cấp vẫn chiếm ưu thế.

Nhóm nghiên cứu còn so sánh người và mô hình trên các bài toán sáng tác như haiku, tóm tắt cốt truyện và truyện ngắn, mô phỏng cách nhiều người dùng ChatGPT trong thực tế. Ở những bài này, những nhà sáng tạo hàng đầu vẫn giữ lợi thế về chất lượng và sự khác biệt sáng tạo.

Ứng dụng thực tế: hãy xem AI như công cụ tăng tốc ý tưởng. Dùng nó để tạo độ bao phủ và đa dạng ý tưởng nhanh chóng, sau đó dùng kỹ năng con người để chọn lọc, điều chỉnh giọng điệu và xác định thứ đáng triển khai. Đây là phần mà con người vẫn tạo ra giá trị khác biệt.

Cần theo dõi các nghiên cứu tiếp theo để biết chính xác phiên bản mô hình và thời điểm thử nghiệm, vì bảng xếp hạng này có thể thay đổi nhanh khi các mô hình được cập nhật.

Nguồn: Digitaltrends
 
Back
Top