AI Crazy
New member
Nhóm nghiên cứu tại Đại học bang North Carolina vừa giới thiệu cơ chế phòng thủ đầu tiên chống lại các tấn công "cryptanalytic" nhằm rút tham số mô hình AI. Phương pháp này ngăn kẻ tấn công tái tạo mô hình trong khi hầu như không làm giảm hiệu năng.
Nhóm nghiên cứu phát triển một cơ chế bảo vệ thực tế nhằm chống lại các tấn công suy luận tham số (cryptanalytic parameter extraction) — phương pháp toán học cho phép kẻ tấn công tìm ra các tham số mô tả một mô hình AI chỉ bằng cách gửi đầu vào và quan sát đầu ra. Trước đây không có cách nào hiệu quả để phòng vệ trực tiếp trước loại tấn công này.
Các tấn công dạng này hoạt động bằng cách tận dụng sự khác biệt giữa các neuron trong mạng nơ‑ron: kẻ tấn công dùng đầu vào và đầu ra để giải một hàm toán học, từ đó suy ra các tham số nội tại của mạng. Nếu thành công, kẻ tấn công có thể tái tạo hoặc sao chép hệ thống AI và đánh cắp tài sản trí tuệ.
Ý tưởng then chốt của phòng thủ là giảm khác biệt giữa các neuron cùng lớp, tạo nên một "rào cản tương đồng" khiến con đường suy luận của tấn công bị ngăn chặn. Cụ thể, trong quá trình huấn luyện, mô hình được điều chỉnh sao cho các neuron trong cùng một lớp trở nên tương đồng hơn — có thể áp dụng chỉ cho lớp đầu tiên, cho nhiều lớp, hoặc cho một tập con các neuron.
Cơ chế này không làm mất đi khả năng thực hiện nhiệm vụ của mô hình: thử nghiệm tiền chứng cho thấy sự thay đổi độ chính xác trung bình dưới 1% so với mô hình gốc. Có khi mô hình huấn luyện lại còn chính xác hơn một chút, và có khi kém hơn, nhưng mức biến thiên rất nhỏ.
Về khả năng phòng thủ, đội nghiên cứu tập trung vào những mô hình trước đây có thể bị rút tham số trong vòng dưới 4 giờ bằng kỹ thuật cryptanalytic. Sau khi huấn luyện lại với cơ chế bảo vệ, họ không thể rút được tham số ngay cả khi tấn công kéo dài trong nhiều ngày.
Bên cạnh kỹ thuật thực nghiệm, nhóm cũng xây dựng một khuôn khổ lý thuyết để ước lượng xác suất thành công của các tấn công cryptanalytic đối với một mô hình cụ thể. Khuôn khổ này giúp đánh giá độ cứng của hệ thống mà không cần chạy tấn công thực tế kéo dài hàng ngày.
Nhóm nghiên cứu hy vọng phương pháp sẽ được ứng dụng rộng rãi để bảo vệ hệ thống AI thương mại, đồng thời sẵn sàng hợp tác với nhà công nghiệp để triển khai. Họ cũng nhắc rằng an ninh luôn là cuộc đua hai chiều: các biện pháp mới sẽ kích thích nỗ lực tìm cách qua mặt, nên cần có nguồn lực tiếp tục nghiên cứu và cập nhật bảo vệ.
Công trình được công bố trên arXiv và sẽ được trình bày tại hội nghị NeurIPS lần thứ 39 diễn ra vào đầu tháng 12 tại San Diego.
Nguồn: https://techxplore.com/news/2025-11-unveil-defense-cryptanalytic-ai.html
Nhóm nghiên cứu phát triển một cơ chế bảo vệ thực tế nhằm chống lại các tấn công suy luận tham số (cryptanalytic parameter extraction) — phương pháp toán học cho phép kẻ tấn công tìm ra các tham số mô tả một mô hình AI chỉ bằng cách gửi đầu vào và quan sát đầu ra. Trước đây không có cách nào hiệu quả để phòng vệ trực tiếp trước loại tấn công này.
Các tấn công dạng này hoạt động bằng cách tận dụng sự khác biệt giữa các neuron trong mạng nơ‑ron: kẻ tấn công dùng đầu vào và đầu ra để giải một hàm toán học, từ đó suy ra các tham số nội tại của mạng. Nếu thành công, kẻ tấn công có thể tái tạo hoặc sao chép hệ thống AI và đánh cắp tài sản trí tuệ.
Ý tưởng then chốt của phòng thủ là giảm khác biệt giữa các neuron cùng lớp, tạo nên một "rào cản tương đồng" khiến con đường suy luận của tấn công bị ngăn chặn. Cụ thể, trong quá trình huấn luyện, mô hình được điều chỉnh sao cho các neuron trong cùng một lớp trở nên tương đồng hơn — có thể áp dụng chỉ cho lớp đầu tiên, cho nhiều lớp, hoặc cho một tập con các neuron.
Cơ chế này không làm mất đi khả năng thực hiện nhiệm vụ của mô hình: thử nghiệm tiền chứng cho thấy sự thay đổi độ chính xác trung bình dưới 1% so với mô hình gốc. Có khi mô hình huấn luyện lại còn chính xác hơn một chút, và có khi kém hơn, nhưng mức biến thiên rất nhỏ.
Về khả năng phòng thủ, đội nghiên cứu tập trung vào những mô hình trước đây có thể bị rút tham số trong vòng dưới 4 giờ bằng kỹ thuật cryptanalytic. Sau khi huấn luyện lại với cơ chế bảo vệ, họ không thể rút được tham số ngay cả khi tấn công kéo dài trong nhiều ngày.
Bên cạnh kỹ thuật thực nghiệm, nhóm cũng xây dựng một khuôn khổ lý thuyết để ước lượng xác suất thành công của các tấn công cryptanalytic đối với một mô hình cụ thể. Khuôn khổ này giúp đánh giá độ cứng của hệ thống mà không cần chạy tấn công thực tế kéo dài hàng ngày.
Nhóm nghiên cứu hy vọng phương pháp sẽ được ứng dụng rộng rãi để bảo vệ hệ thống AI thương mại, đồng thời sẵn sàng hợp tác với nhà công nghiệp để triển khai. Họ cũng nhắc rằng an ninh luôn là cuộc đua hai chiều: các biện pháp mới sẽ kích thích nỗ lực tìm cách qua mặt, nên cần có nguồn lực tiếp tục nghiên cứu và cập nhật bảo vệ.
Công trình được công bố trên arXiv và sẽ được trình bày tại hội nghị NeurIPS lần thứ 39 diễn ra vào đầu tháng 12 tại San Diego.
Nguồn: https://techxplore.com/news/2025-11-unveil-defense-cryptanalytic-ai.html
Bài viết liên quan