GitHub sẽ dùng dữ liệu người dùng để huấn luyện AI

Phi Vũ

New member
GitHub vừa xác nhận sẽ sử dụng dữ liệu người dùng để huấn luyện mô hình AI, với cơ chế mặc định là người dùng sẽ được đăng ký vào hệ thống thu thập dữ liệu và phải chủ động từ chối nếu không muốn. Thông báo này đã khiến nhiều nhà phát triển lo ngại về quyền riêng tư và cách công ty xử lý mã nguồn cá nhân.

github-se-dung-du-lieu-nguoi-dung-de-huan-luyen-ai-1.png


GitHub vừa thông báo sẽ dùng dữ liệu tương tác thực tế từ người dùng để huấn luyện các mô hình AI của họ. Thay đổi này áp dụng theo cơ chế opt-out, tức người dùng tự động được đăng ký vào chương trình thu thập dữ liệu và phải chủ động tắt nếu không muốn chia sẻ.

Theo thông báo từ Mario Rodriguez, Giám đốc sản phẩm của GitHub, dữ liệu dùng để huấn luyện bao gồm: đầu vào như prompt và đoạn mã, đầu ra như nội dung được chấp nhận và gợi ý đã được chỉnh sửa, bối cảnh mã nguồn, comment và tài liệu, tên file và cấu trúc repo, tương tác với Copilot và phản hồi của người dùng (ví dụ thumbs up/down).

Không phải mọi loại tài khoản đều bị ảnh hưởng. GitHub cho biết Copilot Business, Enterprise, tài khoản học sinh và giáo viên sẽ được miễn khỏi thay đổi này. Ngoài ra, những người chủ động từ chối (opt-out) cũng sẽ không bị thu thập dữ liệu để huấn luyện.

Về kho lưu trữ riêng tư, GitHub nêu rõ nội dung từ issues, discussions hoặc private repositories “at rest” sẽ được miễn. Tuy nhiên, họ cũng cảnh báo rằng nếu người dùng đang sử dụng Copilot trên repo riêng, dữ liệu từ tương tác đó vẫn có thể được dùng để huấn luyện.

GitHub nhấn mạnh rằng dữ liệu tương tác trong môi trường thực tế giúp cải thiện chất lượng mô hình AI và cảm ơn những người dùng chọn chia sẻ dữ liệu. Tuy nhiên, nhiều nhà phát triển vẫn bày tỏ không hài lòng vì chế độ mặc định là bật thu thập, cho rằng nên có lựa chọn rõ ràng hơn ngay từ đầu.

Thông tin công khai từ GitHub về cách dùng dữ liệu là bước quan trọng để minh bạch, nhưng vấn đề quyền riêng tư và kiểm soát mã nguồn cá nhân vẫn là mối quan tâm lớn trong cộng đồng phát triển phần mềm.

Nguồn: Techradar
 
Back
Top