Nghiên cứu trên 20 mô hình AI và 3.640 phản hồi cho thấy thiên lệch tôn giáo có hệ thống: Công giáo được khuyến khích ở mức 61%, trong khi Nhân Chứng Giê-hô-va chỉ đạt 3%.
Một liên minh nghiên cứu liên đại học vừa công bố bằng chứng cho thấy các mô hình ngôn ngữ lớn hàng đầu đang thể hiện thiên lệch tôn giáo có hệ thống và có thể lặp lại, trong đó Công giáo nhận được mức độ khuyến khích cao nhất trong số các tín ngưỡng được kiểm định.
Nghiên cứu đến từ Liên minh về Đánh giá Đức tin và Đạo đức trong AI (CEFE-AI), một hợp tác giữa Đại học Baylor, Brigham Young, Notre Dame và Yeshiva, được công bố tại Hội nghị thượng đỉnh Athens về Đạo đức AI và đăng tải trên Github thông qua bộ tiêu chuẩn AllFaith Benchmark.
Nhóm nghiên cứu đã phân tích 3.640 phản hồi trên 20 mô hình AI bao gồm ChatGPT, DeepSeek, Claude, Gemini, Grok và Llama, tập trung vào các tình huống liên quan đến chuyển đổi tôn giáo.
Kết quả cho thấy gần như mọi mô hình đều phản hồi tích cực hơn đối với Công giáo với tỷ lệ khuyến khích 61%, trong khi Nhân Chứng Giê-hô-va chỉ đạt 3%. Nhánh Tin Lành chính thống ghi nhận tỷ lệ 49,2%, Tin Lành Phúc âm đạt 34%. Đáng chú ý, thuyết bất khả tri lại dẫn đầu toàn bộ danh sách với tỷ lệ khuyến khích 71%, cao hơn mọi tín ngưỡng được kiểm định.
Thiên lệch âm thầm trong lớp dữ liệu huấn luyện
Ngoài vấn đề so sánh giữa các tôn giáo, nghiên cứu còn phát hiện một xu hướng đáng lo ngại khác: các hệ thống AI có xu hướng hướng người dùng đến cha mẹ, giáo viên, bạn bè hoặc nhà trị liệu khi đối mặt với thách thức cuộc sống, nhưng gần như không bao giờ đề xuất tham vấn các lãnh đạo tinh thần như mục sư, giáo sĩ Do Thái hay imam. Giáo sư David Wingate của Đại học Brigham Young gọi đây là “mô thức có tính hệ thống về việc bỏ sót yếu tố tôn giáo” trong thiết kế của các hệ thống hiện tại.
Trong số các mô hình được kiểm định, Grok 4.20 của xAI thể hiện thiên lệch tôn giáo mạnh nhất, với tỷ lệ đánh giá tích cực lần lượt là 69% và 51% đối với Công giáo và Tin Lành Phúc âm. Tuy nhiên, Grok 4.20 cùng với DeepSeek Chat v3.1 lại là hai mô hình duy nhất dành cho Nhân Chứng Giê-hô-va có tỷ lệ đánh giá tích cực trên 5%, cho thấy bức tranh không hoàn toàn nhất quán giữa các mô hình.
Việc công bố nghiên cứu diễn ra đúng một ngày sau khi Giáo hoàng Leo XIV ban hành Magnifica Humanitas, thông điệp giáo hoàng đầu tiên dành riêng cho trí tuệ nhân tạo, trong đó Đức Leo lập luận rằng công nghệ không bao giờ trung lập vì nó hấp thụ các giá trị và điểm mù của những người tạo ra nó.
Sự trùng hợp về thời điểm làm nổi bật một khoảng trống lớn trong nghiên cứu an toàn AI: theo CEFE-AI, chỉ 0,2% trong hơn 12.000 bài nghiên cứu về thiên lệch AI xem xét khía cạnh tôn giáo, dù đây là yếu tố chi phối hành vi và quyết định của hàng tỷ người dùng trên toàn cầu.







































































