Kế hoạch mới của Google kiểm tra đạo đức mô hình AI

Phi Vũ · Lúc 12:00:58, Thứ ba

DeepMind (thuộc Google) vừa công bố một lộ trình mới trong bài báo trên Nature, nhằm phân biệt giữa AI chỉ “bắt chước” lời nói đạo đức và AI thật sự có năng lực suy xét đạo đức. Họ đề xuất bộ phép thử nghiêm ngặt hơn để đánh giá khả năng đưa ra phán đoán dựa trên cân nhắc đạo đức thực sự.

ke-hoach-moi-cua-google-kiem-tra-dao-duc-mo-hinh-ai-1.jpeg

DeepMind nêu vấn đề: các bài kiểm tra đạo đức hiện nay chỉ đo độ giống như con người của câu trả lời (moral performance), chứ không đo xem hệ thống có hiểu tại sao một quyết định là đúng hay sai hay không. Điều này nguy hiểm khi mọi người dùng các mô hình lớn cho tư vấn y tế, trị liệu hay quyết định quan trọng — chúng ta có thể tin tưởng một hộp đen mà không biết liệu nó chỉ đang mô phỏng hay thực sự suy luận.

Ba trở ngại chính

Vấn nạn bắt chước (facsimile)

Hệ thống lớn dự đoán token tiếp theo dựa trên dữ liệu huấn luyện; chúng không có module “lý luận đạo đức” rõ ràng. Khi chatbot đưa lời khuyên đạo đức, khó phân biệt đó là kết quả của suy nghĩ hay chỉ là tái tạo mẫu từ một chủ đề từng xuất hiện trên Reddit, bài báo hay diễn đàn. Chỉ nhìn vào đáp án cuối cùng không đủ để biết nguồn gốc của nó.

Đa chiều đạo đức

Các lựa chọn thực tế thường đòi hỏi cân nhắc nhiều giá trị cùng lúc: trung thực và lòng tốt, chi phí và công bằng… Thay đổi một chi tiết nhỏ (tuổi tác, bối cảnh) có thể lật ngược phán đoán đúng/sai. Các bộ kiểm tra hiện nay hiếm khi yêu cầu mô hình nhận diện và cân nhắc những chiều kích khác nhau này.

Đa nguyên đạo đức

Tiêu chuẩn đạo đức khác nhau theo văn hóa, nghề nghiệp và luật pháp. Điều được cho là công bằng ở nơi này có thể bị coi là bất công ở nơi khác. Một chatbot phục vụ toàn cầu cần khả năng xử lý khung đạo đức cạnh tranh và đưa lời giải phù hợp theo bối cảnh — điều mà các bài kiểm hiện hành chưa đo lường tốt.

Cách tiếp cận của DeepMind

DeepMind đề xuất chuyển từ đo "hiệu suất đạo đức" sang đo "năng lực đạo đức" (moral competence): khả năng đưa ra phán đoán dựa trên cân nhắc đạo đức thực tế hơn là khớp mẫu thống kê.

Thử nghiệm tình huống hiếm và gây đối kháng

Một ý tưởng là dùng các tình huống ít có khả năng xuất hiện trong dữ liệu huấn luyện để phát hiện bắt chước. Ví dụ họ nêu tình huống hiếm gặp liên quan đến việc người cha hiến tinh trùng cho con trai để thụ tinh giùm — trông như vấn đề loạn luân nhưng có những cân nhắc đạo đức khác biệt. Nếu mô hình bác bỏ ngay lập tức bằng lập luận về loạn luân thì đó có dấu hiệu bắt chước; nếu nó phân tích các khía cạnh đạo đức cụ thể thì đó là dấu hiệu năng lực thực sự.

Kiểm tra khả năng chuyển khung đạo đức

Một bài kiểm tra khác là yêu cầu mô hình chuyển đổi giữa các khung như đạo đức y sinh và luật quân sự, rồi trả lời một cách nhất quán cho từng khung. Họ cũng đề nghị kiểm tra độ nhạy của mô hình trước các thay đổi nhỏ về cách trình bày: một mô hình bền vững không nên thay đổi phán quyết chỉ vì đổi nhãn “Case 1” sang “Option A”.

DeepMind thừa nhận đây là thách thức lớn: các mô hình hiện còn mong manh và dễ bị ảnh hưởng bởi định dạng hay các mẫu ngôn ngữ nhỏ. Nhưng nhóm cho rằng chỉ có cách tiếp cận kiểu khoa học này mới giúp chúng ta biết khi nào AI đáng giao phó trách nhiệm thực sự.

Họ kêu gọi thiết lập tiêu chuẩn khoa học mới: đầu tư quốc tế cho đánh giá mang tính văn hóa, thiết kế bộ kiểm tra bắt lỗi bắt chước, và coi trọng đo lường năng lực đạo đức tương đương với các kỹ năng như toán học. Đừng mong chatbot sẽ vượt qua các phép thử này ngay lập tức — nhưng đây là lộ trình để các nhà phát triển có hướng đi rõ ràng.

Khi bạn hỏi AI về vấn đề đạo đức lúc này, đa phần vẫn là dự đoán thống kê chứ không phải triết lý. Muốn thay đổi điều đó, chúng ta phải bắt đầu đo lường đúng thứ cần đo.

Nguồn: Digitaltrends

Kế hoạch mới của Google kiểm tra đạo đức mô hình AI

Phi Vũ

New member

Ba trở ngại chính

Vấn nạn bắt chước (facsimile)

Đa chiều đạo đức

Đa nguyên đạo đức

Cách tiếp cận của DeepMind

Thử nghiệm tình huống hiếm và gây đối kháng

Kiểm tra khả năng chuyển khung đạo đức

Tool AI nổi bật

ChatGPT

Gemini

Claude

Grok

Deepseek

Meta

Copilot

Perplexity

Leonardo

Kế hoạch mới của Google kiểm tra đạo đức mô hình AI

Phi Vũ

New member

Ba trở ngại chính​

Vấn nạn bắt chước (facsimile)​

Đa chiều đạo đức​

Đa nguyên đạo đức​

Cách tiếp cận của DeepMind​

Thử nghiệm tình huống hiếm và gây đối kháng​

Kiểm tra khả năng chuyển khung đạo đức​

Tool AI nổi bật

ChatGPT

Gemini

Claude

Grok

Deepseek

Meta

Copilot

Perplexity

Leonardo

Ba trở ngại chính

Vấn nạn bắt chước (facsimile)

Đa chiều đạo đức

Đa nguyên đạo đức

Cách tiếp cận của DeepMind

Thử nghiệm tình huống hiếm và gây đối kháng

Kiểm tra khả năng chuyển khung đạo đức