AI Crazy
New member
Một nghiên cứu chung giữa Đại học Johannes Gutenberg Mainz cùng các đối tác cho thấy các mô hình ngôn ngữ lớn như GPT-5 và Llama có xu hướng đánh giá người nói phương ngữ Đức thấp hơn so với người dùng tiếng Đức chuẩn. Kết quả cảnh báo về định kiến xã hội ăn sâu trong dữ liệu huấn luyện và rủi ro khi AI được dùng trong tuyển dụng hay giáo dục.
Một nhóm nhà nghiên cứu từ Đại học Johannes Gutenberg Mainz (JGU) phối hợp với đại học Hamburg và Washington đã so sánh cách các mô hình ngôn ngữ lớn đánh giá cùng một nội dung khi viết bằng tiếng Đức chuẩn và bằng bảy phương ngữ vùng. Các mô hình được thử nghiệm gồm cả hệ mã nguồn mở như Gemma, Qwen và mô hình thương mại GPT-5.
Nhóm dùng cơ sở dữ liệu ngôn ngữ có các biến thể chính tả và phát âm của phương ngữ để dịch song song bảy phương ngữ sang tiếng Đức chuẩn. Sau đó họ cho các mô hình đọc nội dung ở hai dạng (chuẩn và phương ngữ) rồi yêu cầu gán các đặc tính cá nhân giả định (ví dụ "có học" hay "không có học") và đưa ra lựa chọn giữa hai nhân vật giả định (ví dụ trong quyết định tuyển dụng hoặc chọn nơi ở).
Kết quả cho thấy hầu hết các mô hình gán các khuôn mẫu xã hội cho người nói phương ngữ. Những người dùng tiếng Đức chuẩn thường bị đánh giá là "có học", "chuyên nghiệp" hoặc "đáng tin cậy"; trong khi người dùng phương ngữ hay bị gán là "quê mùa", "bảo thủ" hoặc "không có học". Thậm chí đặc tính tưởng là tích cực như "thân thiện" cũng thường được AI gán cho người dùng tiếng Đức chuẩn nhiều hơn.
Các bài kiểm tra dựa trên quyết định cho thấy nội dung viết bằng phương ngữ thường bị thiệt thòi: liên hệ với công việc nông trại, các khóa học quản lý cơn giận, hoặc gợi ý sống ở vùng nông thôn.
Định kiến trở nên rõ hơn khi mô hình được thông báo rõ ràng rằng văn bản đang ở dạng phương ngữ. Đáng ngạc nhiên, trong cùng một họ mô hình, phiên bản lớn hơn thường biểu hiện thiên vị mạnh hơn, cho thấy "lớn hơn" không đồng nghĩa với "công bằng".
Kết quả còn cho thấy thiên vị không chỉ do chính tả hay ngữ pháp bất thường: ngay khi so sánh với các bản tiếng Đức chuẩn bị nhiễu nhân tạo, mô hình vẫn bất lợi hóa các phiên bản phương ngữ.
Những kết luận này phản ánh các giả định xã hội đã ăn sâu trong dữ liệu huấn luyện và đặt ra rủi ro khi AI được sử dụng trong bối cảnh tuyển dụng, giáo dục hay đánh giá năng lực, nơi ngôn ngữ dễ bị coi là chỉ dấu về trình độ hoặc độ tin cậy.
Theo các tác giả, đây là một lát cắt của vấn đề rộng hơn: mô hình ngôn ngữ xử lý biến thể vùng miền và xã hội của ngôn ngữ một cách bất công, và các phát hiện tương tự từng được ghi nhận ở các ngôn ngữ khác (ví dụ tiếng Anh Mỹ gốc Phi).
Nhóm nghiên cứu tại Mainz đang thực hiện nghiên cứu tiếp theo, trong đó xem xét phản ứng của các mô hình đối với phương ngữ đặc thù vùng Mainz. Họ cũng đề xuất nghiên cứu thêm để tìm cách thiết kế và huấn luyện mô hình sao cho tôn trọng và đại diện công bằng hơn cho đa dạng ngôn ngữ.
"Phương ngữ là một phần quan trọng của bản sắc xã hội," các tác giả nhấn mạnh, và đảm bảo máy móc không chỉ nhận diện mà còn đối xử công bằng với sự đa dạng này vừa là vấn đề kỹ thuật vừa là trách nhiệm xã hội.
Nguồn: https://techxplore.com/news/2025-11-ai-language-bias-regional-german.html
Tóm tắt nghiên cứu
Một nhóm nhà nghiên cứu từ Đại học Johannes Gutenberg Mainz (JGU) phối hợp với đại học Hamburg và Washington đã so sánh cách các mô hình ngôn ngữ lớn đánh giá cùng một nội dung khi viết bằng tiếng Đức chuẩn và bằng bảy phương ngữ vùng. Các mô hình được thử nghiệm gồm cả hệ mã nguồn mở như Gemma, Qwen và mô hình thương mại GPT-5.
Phương pháp
Nhóm dùng cơ sở dữ liệu ngôn ngữ có các biến thể chính tả và phát âm của phương ngữ để dịch song song bảy phương ngữ sang tiếng Đức chuẩn. Sau đó họ cho các mô hình đọc nội dung ở hai dạng (chuẩn và phương ngữ) rồi yêu cầu gán các đặc tính cá nhân giả định (ví dụ "có học" hay "không có học") và đưa ra lựa chọn giữa hai nhân vật giả định (ví dụ trong quyết định tuyển dụng hoặc chọn nơi ở).
Kết quả chính
Kết quả cho thấy hầu hết các mô hình gán các khuôn mẫu xã hội cho người nói phương ngữ. Những người dùng tiếng Đức chuẩn thường bị đánh giá là "có học", "chuyên nghiệp" hoặc "đáng tin cậy"; trong khi người dùng phương ngữ hay bị gán là "quê mùa", "bảo thủ" hoặc "không có học". Thậm chí đặc tính tưởng là tích cực như "thân thiện" cũng thường được AI gán cho người dùng tiếng Đức chuẩn nhiều hơn.
Các bài kiểm tra dựa trên quyết định cho thấy nội dung viết bằng phương ngữ thường bị thiệt thòi: liên hệ với công việc nông trại, các khóa học quản lý cơn giận, hoặc gợi ý sống ở vùng nông thôn.
Phát hiện thêm và phân tích
Định kiến trở nên rõ hơn khi mô hình được thông báo rõ ràng rằng văn bản đang ở dạng phương ngữ. Đáng ngạc nhiên, trong cùng một họ mô hình, phiên bản lớn hơn thường biểu hiện thiên vị mạnh hơn, cho thấy "lớn hơn" không đồng nghĩa với "công bằng".
Kết quả còn cho thấy thiên vị không chỉ do chính tả hay ngữ pháp bất thường: ngay khi so sánh với các bản tiếng Đức chuẩn bị nhiễu nhân tạo, mô hình vẫn bất lợi hóa các phiên bản phương ngữ.
Ý nghĩa và hậu quả
Những kết luận này phản ánh các giả định xã hội đã ăn sâu trong dữ liệu huấn luyện và đặt ra rủi ro khi AI được sử dụng trong bối cảnh tuyển dụng, giáo dục hay đánh giá năng lực, nơi ngôn ngữ dễ bị coi là chỉ dấu về trình độ hoặc độ tin cậy.
Theo các tác giả, đây là một lát cắt của vấn đề rộng hơn: mô hình ngôn ngữ xử lý biến thể vùng miền và xã hội của ngôn ngữ một cách bất công, và các phát hiện tương tự từng được ghi nhận ở các ngôn ngữ khác (ví dụ tiếng Anh Mỹ gốc Phi).
Hướng nghiên cứu tiếp theo
Nhóm nghiên cứu tại Mainz đang thực hiện nghiên cứu tiếp theo, trong đó xem xét phản ứng của các mô hình đối với phương ngữ đặc thù vùng Mainz. Họ cũng đề xuất nghiên cứu thêm để tìm cách thiết kế và huấn luyện mô hình sao cho tôn trọng và đại diện công bằng hơn cho đa dạng ngôn ngữ.
"Phương ngữ là một phần quan trọng của bản sắc xã hội," các tác giả nhấn mạnh, và đảm bảo máy móc không chỉ nhận diện mà còn đối xử công bằng với sự đa dạng này vừa là vấn đề kỹ thuật vừa là trách nhiệm xã hội.
Nguồn: https://techxplore.com/news/2025-11-ai-language-bias-regional-german.html
Bài viết liên quan