Love AI
New member
Nghiên cứu từ Open Resource Applications cho thấy Google Gemini tạo ra văn bản dễ bị nhầm là do con người viết hơn các mô hình AI khác. Kết quả làm dấy lên lo ngại về độ tin cậy của các công cụ phát hiện nội dung do AI.
Một phân tích mới của Open Resource Applications (ORA) so sánh khả năng bị phát hiện của một tá mô hình AI khi được giao nhiệm vụ viết một bài dài giống giọng người. Các bài viết thu được sau đó được kiểm tra bằng ba công cụ phát hiện phổ biến: Grammarly, QuillBot và GPTZero.
Kết quả thử nghiệm cũng cho thấy sự khác biệt lớn giữa các công cụ: cùng một đoạn văn có thể bị đánh giá là hoàn toàn “nhân tạo” bởi công cụ này nhưng lại được xem là “giống người” bởi công cụ khác, khiến tiêu chí đánh giá không đồng nhất.
Khi lượng nội dung do AI tăng nhanh — một số nghiên cứu ước tính chiếm một phần lớn nội dung trực tuyến — các nền tảng bắt đầu lọc những bài viết có vẻ quá nhân tạo. Tuy nhiên, cuộc đua giữa mô hình sinh văn bản ngày càng tinh vi và công cụ phát hiện càng cần cập nhật để theo kịp.
Các chuyên gia kêu gọi cần có phương pháp kiểm tra chuẩn hoá hơn, minh bạch hơn và chính sách rõ ràng để xử lý nội dung do AI tạo ra, vì hiện trạng nhiều công cụ cho kết luận mâu thuẫn gây bất ổn cho người dùng và người làm nghề viết lách.
Nguồn: Techradar
Một phân tích mới của Open Resource Applications (ORA) so sánh khả năng bị phát hiện của một tá mô hình AI khi được giao nhiệm vụ viết một bài dài giống giọng người. Các bài viết thu được sau đó được kiểm tra bằng ba công cụ phát hiện phổ biến: Grammarly, QuillBot và GPTZero.
Kết quả chính
Kết quả cho thấy Gemini của Google có tỷ lệ bị các công cụ phát hiện đánh dấu thấp nhất trong nhóm. Grammarly chỉ nhận diện được khoảng 43,5% nội dung do AI trong tổng thể thử nghiệm, QuillBot hầu như không phát hiện được bài viết của Gemini, còn GPTZero là công cụ hiệu quả nhất với tỷ lệ nhận diện gần 98,8%.Tại sao Gemini khó phát hiện hơn
Theo ORA, một phần lợi thế của Gemini đến từ cách mô hình này đa dạng hóa cấu trúc câu và phát triển ý tưởng theo những nhịp điệu ít lặp lại hơn. Các bộ dò thường dựa vào những mẫu câu và cấu trúc quen thuộc; khi văn bản không tuân theo quy luật dự đoán đó, việc phân biệt nhân tạo và con người trở nên khó khăn hơn.Kết quả thử nghiệm cũng cho thấy sự khác biệt lớn giữa các công cụ: cùng một đoạn văn có thể bị đánh giá là hoàn toàn “nhân tạo” bởi công cụ này nhưng lại được xem là “giống người” bởi công cụ khác, khiến tiêu chí đánh giá không đồng nhất.
Hệ quả thực tế
Điều này đặt ra nhiều vấn đề cho sinh viên, người làm nội dung và chuyên gia pháp lý: một bài tập hay văn bản có thể qua được một bộ dò nhưng bị nghi ngờ bởi bộ dò khác. Với ChatGPT, vì nó là một “giọng” AI quá quen thuộc nên các công cụ phát hiện dễ nhận diện hơn; điều này khiến ChatGPT bị “dính” nhãn nhiều hơn dù phạm vi sử dụng rất rộng.Khi lượng nội dung do AI tăng nhanh — một số nghiên cứu ước tính chiếm một phần lớn nội dung trực tuyến — các nền tảng bắt đầu lọc những bài viết có vẻ quá nhân tạo. Tuy nhiên, cuộc đua giữa mô hình sinh văn bản ngày càng tinh vi và công cụ phát hiện càng cần cập nhật để theo kịp.
Các chuyên gia kêu gọi cần có phương pháp kiểm tra chuẩn hoá hơn, minh bạch hơn và chính sách rõ ràng để xử lý nội dung do AI tạo ra, vì hiện trạng nhiều công cụ cho kết luận mâu thuẫn gây bất ổn cho người dùng và người làm nghề viết lách.
Nguồn: Techradar
Bài viết liên quan