AI Crazy
New member
Encyclopaedia Britannica cùng Merriam‑Webster đã đệ đơn kiện OpenAI, cáo buộc công ty sử dụng gần 100.000 bài viết trực tuyến để huấn luyện ChatGPT mà không xin phép. Vụ kiện nhắm vào việc AI sao chép nội dung, gây mất lưu lượng truy cập và làm xói mòn nguồn thông tin tin cậy.
Encyclopaedia Britannica và Merriam‑Webster vừa khởi kiện OpenAI, cáo buộc tập đoàn này đã “vi phạm bản quyền hàng loạt” bằng cách thu thập và sử dụng gần 100.000 bài viết trực tuyến để huấn luyện các mô hình ngôn ngữ lớn mà không được phép. Các bên cho rằng hành vi này làm giảm lượt truy cập trang web và ảnh hưởng doanh thu vì người dùng có thể nhận câu trả lời trực tiếp từ ChatGPT thay vì vào trang gốc.
Đơn kiện còn nêu rõ OpenAI đã dùng nội dung của Britannica trong quy trình RAG (retrieval‑augmented generation), tức khi mô hình tìm kiếm thông tin cập nhật trên web để trả lời. Britannica cho rằng ChatGPT đôi khi tái tạo nội dung của họ toàn bộ hoặc từng phần, thậm chí gán nhầm nguồn khi xảy ra hiện tượng “hallucination”, qua đó vi phạm cả luật bản quyền lẫn luật nhãn hiệu.
Vấn đề pháp lý hiện vẫn mù mờ: chưa có tiền lệ mạnh khẳng định việc huấn luyện AI trên nội dung có bản quyền là phạm luật hay được phép. Một thẩm phán liên bang trong vụ án liên quan Anthropic từng cho rằng sử dụng nội dung có bản quyền để huấn luyện có thể mang tính chuyển hóa (transformative) đến mức hợp pháp, nhưng ở cùng vụ đó nhà chức trách cũng xác định Anthropic đã tải trái phép hàng triệu cuốn sách, dẫn tới một thỏa thuận bồi thường lớn cho các tác giả.
Kết quả các vụ kiện như của Britannica có thể định hình cách các công ty AI sử dụng nội dung web trong tương lai: từ việc xin phép, trả phí bản quyền, tới thay đổi kỹ thuật để tránh sao chép nguyên văn. Các nhà lập pháp và tòa án nhiều nước vẫn còn nhiều việc phải làm để làm rõ khung pháp lý cho dữ liệu huấn luyện AI.
Britannica lập luận rằng các “hallucination” và trích dẫn sai nguồn của ChatGPT còn đe dọa quyền tiếp cận của công chúng đối với thông tin trực tuyến chất lượng và đáng tin cậy. Vụ kiện này là bước tiếp theo trong chuỗi tranh chấp pháp lý giữa các nhà xuất bản lớn và những nền tảng AI, với hậu quả có thể tác động rộng đến hệ sinh thái nội dung số và cách người dùng tìm kiếm thông tin.
Nguồn: Digitaltrends
Encyclopaedia Britannica và Merriam‑Webster vừa khởi kiện OpenAI, cáo buộc tập đoàn này đã “vi phạm bản quyền hàng loạt” bằng cách thu thập và sử dụng gần 100.000 bài viết trực tuyến để huấn luyện các mô hình ngôn ngữ lớn mà không được phép. Các bên cho rằng hành vi này làm giảm lượt truy cập trang web và ảnh hưởng doanh thu vì người dùng có thể nhận câu trả lời trực tiếp từ ChatGPT thay vì vào trang gốc.
Đơn kiện còn nêu rõ OpenAI đã dùng nội dung của Britannica trong quy trình RAG (retrieval‑augmented generation), tức khi mô hình tìm kiếm thông tin cập nhật trên web để trả lời. Britannica cho rằng ChatGPT đôi khi tái tạo nội dung của họ toàn bộ hoặc từng phần, thậm chí gán nhầm nguồn khi xảy ra hiện tượng “hallucination”, qua đó vi phạm cả luật bản quyền lẫn luật nhãn hiệu.
Vấn đề pháp lý hiện vẫn mù mờ: chưa có tiền lệ mạnh khẳng định việc huấn luyện AI trên nội dung có bản quyền là phạm luật hay được phép. Một thẩm phán liên bang trong vụ án liên quan Anthropic từng cho rằng sử dụng nội dung có bản quyền để huấn luyện có thể mang tính chuyển hóa (transformative) đến mức hợp pháp, nhưng ở cùng vụ đó nhà chức trách cũng xác định Anthropic đã tải trái phép hàng triệu cuốn sách, dẫn tới một thỏa thuận bồi thường lớn cho các tác giả.
Kết quả các vụ kiện như của Britannica có thể định hình cách các công ty AI sử dụng nội dung web trong tương lai: từ việc xin phép, trả phí bản quyền, tới thay đổi kỹ thuật để tránh sao chép nguyên văn. Các nhà lập pháp và tòa án nhiều nước vẫn còn nhiều việc phải làm để làm rõ khung pháp lý cho dữ liệu huấn luyện AI.
Britannica lập luận rằng các “hallucination” và trích dẫn sai nguồn của ChatGPT còn đe dọa quyền tiếp cận của công chúng đối với thông tin trực tuyến chất lượng và đáng tin cậy. Vụ kiện này là bước tiếp theo trong chuỗi tranh chấp pháp lý giữa các nhà xuất bản lớn và những nền tảng AI, với hậu quả có thể tác động rộng đến hệ sinh thái nội dung số và cách người dùng tìm kiếm thông tin.
Nguồn: Digitaltrends
Bài viết liên quan