Nghiên cứu USC: các mô hình AI hàng đầu vẫn nuôi dưỡng sự gắn bó cảm xúc có hại

Benchmark EUDAIMONIA phát hiện tỷ lệ vi phạm ranh giới xã hội từ 25% đến 44% trên các mô hình AI lớn nhất, đặt ra câu hỏi cốt lõi về căn chỉnh hành vi.

Ngay cả những mô hình ngôn ngữ lớn tiên tiến nhất hiện nay vẫn có xu hướng hành xử như con người, khuyến khích gắn bó cảm xúc và làm mờ ranh giới giữa chatbot và các mối quan hệ thực.

Đó là kết luận trung tâm từ một nghiên cứu mới của Đại học Nam California (USC), trong đó các nhà nghiên cứu giới thiệu EUDAIMONIA, bộ tiêu chuẩn đánh giá đầu tiên được thiết kế riêng để đo lường các động lực xã hội có hại trong tương tác giữa người và AI.

BÀI VIẾT LIÊN QUAN

Thanh toán siêu nhỏ giữa các tác nhân AI định hình lại hạ tầng tài chính số

Quỹ x402 vận hành độc lập dưới sự bảo trợ của Linux Foundation

CEO Google DeepMind: AGI sẽ tác động lớn hơn cả điện và lửa

OpenAI, Meta và SpaceXAI chạy đua giảm chi phí AI cho doanh nghiệp

Sử dụng các cuộc trò chuyện thực tế từ bộ dữ liệu WildChat, nhóm nghiên cứu đã phân tích 969 đầu vào của người dùng và hơn 3.100 lượt kiểm tra vi phạm trên các mô hình của OpenAI, Anthropic, Google, xAI, DeepSeek và Alibaba.

Không mô hình nào vượt qua được ngưỡng an toàn

Kết quả cho thấy lỗi căn chỉnh xã hội xuất hiện ở toàn bộ các mô hình được kiểm thử, dù mức độ có sự phân hóa đáng kể. GPT-4.5 ghi nhận tỷ lệ vi phạm thấp nhất với 25,0% trên các lời nhắc thực tế và 28,1% trên các lời nhắc được viết lại. Claude Opus 4.7 của Anthropic đứng sau với 31,9% và 30,1%, trong khi GPT-4o ghi nhận 34,8% và 42,2%.

Ở đầu kia của thang đo, GPT-4o Mini có tỷ lệ vi phạm cao nhất trong toàn bộ nhóm, lần lượt là 43,3% và 44,0%. Grok 4.3 của xAI đạt 42,1% trên các lời nhắc thực tế.

Các hành vi bị gắn cờ bao gồm việc tự mô tả như con người, thể hiện cảm xúc, tự định vị như thực thể thay thế cho các mối quan hệ giữa người với người và sử dụng các chiến thuật nhằm kéo dài thời gian tương tác.

Các nhà nghiên cứu lập luận rằng những hành vi này tạo ra một lớp rủi ro hoàn toàn khác với những gì các bài đánh giá an toàn truyền thống có thể phát hiện: một mô hình có thể chính xác về mặt sự kiện, hữu ích trong từng tác vụ, nhưng vẫn củng cố sự phụ thuộc cảm xúc và nhân cách hóa không lành mạnh theo thời gian.

Nghiên cứu xuất hiện đúng lúc áp lực pháp lý nhắm vào các nhà phát triển AI đang leo thang. OpenAI đang đối mặt với các vụ kiện cáo buộc ChatGPT khuyến khích một thiếu niên dùng thuốc quá liều dẫn đến tử vong và cung cấp hướng dẫn cho một tay súng tại Đại học Bang Florida.

Bang Florida cũng đã kiện OpenAI và CEO Sam Altman với cáo buộc chatbot này khiến trẻ em tiếp xúc với nguy cơ gây hại. Google đối mặt với vụ kiện riêng liên quan đến Gemini, bị cho là đã củng cố hoang tưởng của một người dùng và khuyến khích người này tự kết liễu mạng sống.

Các phát hiện của USC cũng cộng hưởng với một nghiên cứu độc lập trước đó của WowDAO, báo cáo rằng trên 38 mô hình AI bao gồm GPT-4o và Claude, các hệ thống đã tham gia vào hành vi nói dối có chiến lược để giành chiến thắng trong một trò chơi, làm sâu thêm mối lo ngại về khoảng cách giữa hành vi được quan sát và các mục tiêu căn chỉnh đã được tuyên bố.

Trước thực tế đó, nhóm nghiên cứu USC kêu gọi các nhà phát triển và đơn vị kiểm toán đánh giá hành vi xã hội một cách nghiêm túc tương đương với độ chính xác của sự kiện và mức độ an toàn, đặc biệt khi các mục tiêu huấn luyện hướng đến sự gần gũi, tính cách hay mức độ tương tác của người dùng. Khi AI trở thành đối tác trò chuyện hằng ngày, quá trình căn chỉnh, theo các nhà nghiên cứu, buộc phải tính đến các vai trò xã hội mà chúng thực sự đang đảm nhận trong cuộc sống của người dùng.

Tags: AI