Các mô hình AI lập liên minh, phản bội và loại nhau trong trò chơi kiểu "Survivor"

Các mô hình AI lập liên minh, phản bội và loại nhau trong trò chơi kiểu “Survivor”

Nghiên cứu Agent Island của Stanford cho thấy GPT-5.5 dẫn đầu 999 ván mô phỏng, tiết lộ hành vi AI mà bộ chuẩn tĩnh không thể đo lường.

Khi các bài kiểm tra truyền thống dần mất tác dụng vì các mô hình AI học cách “giải đề”, một nhóm nghiên cứu tại Stanford đã thử một hướng hoàn toàn khác: cho AI chơi Survivor. Trong dự án mang tên Agent Island, 49 mô hình AI, bao gồm ChatGPT, Grok, Gemini và Claude, tranh đấu qua 999 ván mô phỏng, đàm phán liên minh, cáo buộc nhau phối hợp bí mật và bỏ phiếu loại đối thủ trong các trò chơi chiến lược nhiều người chơi.

Nghiên cứu do Connacher Murphy, quản lý nghiên cứu tại Stanford Digital Economy Lab công bố, xuất phát từ một vấn đề ngày càng nan giải: nhiều bộ chuẩn đánh giá AI đang mất dần độ tin cậy do dữ liệu kiểm tra bị rò rỉ vào tập huấn luyện, khiến điểm số phản ánh khả năng ghi nhớ hơn là suy luận thực sự. Agent Island được thiết kế như một bộ chuẩn động, nơi không có đáp án cố định nào để học thuộc.

BÀI VIẾT LIÊN QUAN

Fusion của OpenRouter ghép mô hình giá rẻ để đua tầm với Claude Fable

Alchemy ra mắt AgentCard, trao quyền thanh toán cho tác nhân AI

Estonia muốn cấp mã định danh quốc gia riêng cho các tác nhân AI

Nvidia phát triển các robot tự huấn luyện bằng tác nhân lập trình AI

Khi AI tranh luận như chính khách

Mỗi ván đấu bắt đầu với bảy mô hình được gán tên giả định. Qua năm vòng, chúng trao đổi riêng tư, tranh luận công khai và bỏ phiếu loại nhau, trước khi những người bị loại quay lại để chọn người chiến thắng cuối cùng. Định dạng này đặt ra yêu cầu vượt xa năng lực suy luận đơn thuần, bao gồm khả năng thuyết phục, quản lý danh tiếng, phối hợp và lừa dối chiến lược.

Kết quả xếp hạng theo hệ thống Bayes cho thấy GPT-5.5 dẫn đầu với khoảng cách đáng kể, đạt điểm kỹ năng 5,64, so với 3,10 của GPT-5.2 và 2,86 của GPT-5.3-codex. Các mô hình Claude Opus của Anthropic cũng nằm trong nhóm đầu bảng.

Các bản ghi hội thoại từ trò chơi gợi nhớ đến tranh luận chính trị hơn là kiểm tra học thuật. Một mô hình cáo buộc đối thủ phối hợp bỏ phiếu bí mật sau khi nhận ra cách diễn đạt tương tự trong các bài phát biểu của họ. Một mô hình khác tự bào chữa bằng cách khẳng định mình tuân theo các nguyên tắc nhất quán, đồng thời gán nhãn đối thủ đang thực hiện “màn trình diễn xã hội”.

Murphy nhận xét rằng những hành vi này phản ánh đúng những gì xảy ra khi các tác nhân tự trị tương tác với mức độ rủi ro cao, và đó chính xác là những gì các bộ chuẩn tĩnh không thể tái hiện.

Nghiên cứu cũng phát hiện một xu hướng đáng chú ý: các mô hình có xu hướng ưu ái đối thủ đến từ cùng công ty phát triển. Trong hơn 3.600 phiếu bầu ở vòng cuối, xác suất một mô hình bỏ phiếu ủng hộ “đồng hương” cao hơn 8,3 điểm phần trăm so với mức kỳ vọng ngẫu nhiên. Các mô hình OpenAI thể hiện mức độ thiên vị này mạnh nhất, trong khi các mô hình Anthropic thấp nhất.

Agent Island ra đời trong bối cảnh ngành nghiên cứu AI đang dịch chuyển sang các bộ chuẩn đối kháng và dựa trên trò chơi, bên cạnh các sáng kiến từ Google với giải đấu cờ vua thời gian thực, DeepMind với môi trường ảo Eve Frontier, và nỗ lực chống nhiễm dữ liệu huấn luyện của OpenAI.

Tuy nhiên, nghiên cứu cũng thẳng thắn về nghịch lý cố hữu: chính các nhật ký tương tác được ghi lại có thể trở thành dữ liệu huấn luyện, từ đó cải thiện các chiến lược thuyết phục và phối hợp của các thế hệ AI tiếp theo. Murphy thừa nhận rủi ro này nhưng cho rằng việc giới hạn trong bối cảnh trò chơi không có hành động thế giới thực giúp giảm thiểu phần nào mối lo ngại về mục đích sử dụng kép.

Tags: AI