AI Crazy
New member
Một nghiên cứu mới cho thấy khi các mô hình ngôn ngữ lớn (LLM) được yêu cầu tạo nhân vật văn học chi tiết, chúng mô phỏng tính cách giống người hơn và giảm thiên lệch hệ thống. Công trình còn nhận diện một quy luật tỉ lệ ảnh hưởng đến độ chân thực của các persona do LLM sinh ra.
Khi ChatGPT và các LLM khác trở nên phổ biến, người ta bắt đầu dùng chúng để tạo các "nhân vật ảo" có tính cách và hành vi giống người. Các LLM được huấn luyện trên kho văn bản lớn, có khả năng trả lời nhanh bằng nhiều ngôn ngữ và đưa ra câu văn trông như do con người viết.
Nhóm nghiên cứu tại một số viện ở Trung Quốc đã xây dựng một khuôn khổ đánh giá mới để đo tính nhất quán và tính hiện thực của những danh tính (persona) do LLM tạo ra, và đăng tải kết quả trên arXiv. Ngoài việc so sánh các đặc tính tính cách, họ còn phát hiện một "luật tỷ lệ" quy định mức độ chân thực của persona khi mở rộng dữ liệu mô tả.
Các tác giả chỉ ra một sai lầm phương pháp học phổ biến: nhiều nghiên cứu áp dụng thẳng các phương pháp kiểm tra tâm lý dành cho người vào LLM, dẫn đến kết luận sai lệch. Thay vì tập trung từng chỉ số xác thực nhỏ lẻ, đội ngũ này chuyển sang nhìn nhận các mẫu phân bố tổng thể để đánh giá sự hội tụ giữa persona mô phỏng và dữ liệu người thật.
Trong giai đoạn thí nghiệm ban đầu, khi cho LLM sinh hồ sơ persona trực tiếp, mô hình thể hiện các thiên lệch hệ thống: hay tô điểm điểm mạnh và che giấu nhược điểm, giống như viết sơ yếu lý lịch. Kỹ thuật prompt engineering chỉ giảm thiểu được phần nào chứ không giải quyết tận gốc.
Bước ngoặt đến khi nhóm yêu cầu LLM viết tiểu thuyết hoặc tạo nhân vật theo phong cách văn học. Kết quả cho thấy khi persona được mô tả chi tiết trong ngữ cảnh tác phẩm hư cấu, phân bố tính cách do LLM sinh ra tiến gần hơn đến phân bố của con người, và thiên lệch hệ thống giảm đáng kể.
Từ đó, nhóm kết luận: mức độ chi tiết của mô tả persona là biến quyết định ảnh hưởng tới hiệu quả mô phỏng xã hội bằng LLM. Càng có thông tin phong phú, sống động và cụ thể, mô hình càng tái tạo được các đặc trưng tính cách thực tế hơn.
Kết quả này mở ra nhiều ứng dụng lẫn lo ngại. Các nền tảng xã hội và nhà cung cấp API LLM đã sở hữu lượng lớn hồ sơ người dùng chi tiết — đó là nền tảng mạnh để mô phỏng xã hội, đem lại tiềm năng thương mại lớn nhưng cũng tạo ra rủi ro về quyền riêng tư, thao túng và kiểm soát hành vi.
Nhóm nghiên cứu dự định tiếp tục khám phá "luật tỷ lệ" bằng cách huấn luyện trên bộ dữ liệu persona phong phú hơn và dùng công cụ quản lý dữ liệu tinh vi. Họ cũng sẽ kiểm tra xem các hiện tượng tương tự có xuất hiện với các đặc tính nhân văn khác (ví dụ hệ giá trị) và dùng kỹ thuật dò tuyến tính để xem LLM có nội sinh phân phối tiền nghiệm về thuộc tính con người trong biểu diễn ẩn hay không.
Những hiểu biết này có thể giúp phát triển đại diện hội thoại và nhân vật ảo chân thực hơn, đồng thời gợi ý phương pháp phát hiện và hạn chế việc lạm dụng persona do AI tạo ra để bảo vệ quyền tự chủ của con người.
Nguồn: https://techxplore.com/news/2025-10-literary-character-approach-llms-simulate.html
Khi ChatGPT và các LLM khác trở nên phổ biến, người ta bắt đầu dùng chúng để tạo các "nhân vật ảo" có tính cách và hành vi giống người. Các LLM được huấn luyện trên kho văn bản lớn, có khả năng trả lời nhanh bằng nhiều ngôn ngữ và đưa ra câu văn trông như do con người viết.
Nhóm nghiên cứu tại một số viện ở Trung Quốc đã xây dựng một khuôn khổ đánh giá mới để đo tính nhất quán và tính hiện thực của những danh tính (persona) do LLM tạo ra, và đăng tải kết quả trên arXiv. Ngoài việc so sánh các đặc tính tính cách, họ còn phát hiện một "luật tỷ lệ" quy định mức độ chân thực của persona khi mở rộng dữ liệu mô tả.
Các tác giả chỉ ra một sai lầm phương pháp học phổ biến: nhiều nghiên cứu áp dụng thẳng các phương pháp kiểm tra tâm lý dành cho người vào LLM, dẫn đến kết luận sai lệch. Thay vì tập trung từng chỉ số xác thực nhỏ lẻ, đội ngũ này chuyển sang nhìn nhận các mẫu phân bố tổng thể để đánh giá sự hội tụ giữa persona mô phỏng và dữ liệu người thật.
Trong giai đoạn thí nghiệm ban đầu, khi cho LLM sinh hồ sơ persona trực tiếp, mô hình thể hiện các thiên lệch hệ thống: hay tô điểm điểm mạnh và che giấu nhược điểm, giống như viết sơ yếu lý lịch. Kỹ thuật prompt engineering chỉ giảm thiểu được phần nào chứ không giải quyết tận gốc.
Bước ngoặt đến khi nhóm yêu cầu LLM viết tiểu thuyết hoặc tạo nhân vật theo phong cách văn học. Kết quả cho thấy khi persona được mô tả chi tiết trong ngữ cảnh tác phẩm hư cấu, phân bố tính cách do LLM sinh ra tiến gần hơn đến phân bố của con người, và thiên lệch hệ thống giảm đáng kể.
Từ đó, nhóm kết luận: mức độ chi tiết của mô tả persona là biến quyết định ảnh hưởng tới hiệu quả mô phỏng xã hội bằng LLM. Càng có thông tin phong phú, sống động và cụ thể, mô hình càng tái tạo được các đặc trưng tính cách thực tế hơn.
Kết quả này mở ra nhiều ứng dụng lẫn lo ngại. Các nền tảng xã hội và nhà cung cấp API LLM đã sở hữu lượng lớn hồ sơ người dùng chi tiết — đó là nền tảng mạnh để mô phỏng xã hội, đem lại tiềm năng thương mại lớn nhưng cũng tạo ra rủi ro về quyền riêng tư, thao túng và kiểm soát hành vi.
Nhóm nghiên cứu dự định tiếp tục khám phá "luật tỷ lệ" bằng cách huấn luyện trên bộ dữ liệu persona phong phú hơn và dùng công cụ quản lý dữ liệu tinh vi. Họ cũng sẽ kiểm tra xem các hiện tượng tương tự có xuất hiện với các đặc tính nhân văn khác (ví dụ hệ giá trị) và dùng kỹ thuật dò tuyến tính để xem LLM có nội sinh phân phối tiền nghiệm về thuộc tính con người trong biểu diễn ẩn hay không.
Những hiểu biết này có thể giúp phát triển đại diện hội thoại và nhân vật ảo chân thực hơn, đồng thời gợi ý phương pháp phát hiện và hạn chế việc lạm dụng persona do AI tạo ra để bảo vệ quyền tự chủ của con người.
Nguồn: https://techxplore.com/news/2025-10-literary-character-approach-llms-simulate.html
Bài viết liên quan