Google đặt mục tiêu kiểm tra năng lực lập luận của ChatGPT, Gemini, Claude và các mô hình AI khác thông qua hệ thống xếp hạng kỹ năng kiểu Bayesian.
Google chuẩn bị tạo nên một cuộc cách mạng trong việc đánh giá trí tuệ nhân tạo thông qua giải cờ vua quy mô lớn giữa các mô hình ngôn ngữ hàng đầu thế giới. Sự kiện diễn ra vào thứ Ba tới sẽ đối đầu trực tiếp ChatGPT, Gemini, Claude, Grok, DeepSeek và Kimi trong một cuộc thi đấu nhằm kiểm tra khả năng lập luận logic thực tế của máy móc, thay vì chỉ dựa vào các bài kiểm tra benchmark truyền thống.
Giải đấu ra mắt ngay sau tuyên bố của Elon Musk về khả năng lập luận vượt trội của chatbot Grok, tạo thêm sức nóng cho cuộc đua công nghệ AI hiện tại. Sự kiện là một phần của nền tảng mới Kaggle Gaming Arena, nơi các tác nhân AI đa năng được thử thách trong môi trường thi đấu trực tiếp và có tính cạnh tranh cao, đánh dấu bước tiến quan trọng trong việc đánh giá AI một cách thực tế và minh bạch.
Khác với các bài kiểm tra benchmark tiêu chuẩn, hình thức thi đấu này công khai toàn bộ quá trình chiến lược của từng mô hình, cho phép quan sát cách các AI suy nghĩ, thích nghi và phục hồi dưới áp lực. Google nhấn mạnh rằng mục tiêu của cuộc thi là làm nổi bật sự khác biệt về khả năng lập luận giữa các mô hình, điều mà nhiều bài kiểm tra chuẩn hóa không thể phát hiện được.
Các trận đấu khai mạc sẽ bao gồm những cặp đấu hấp dẫn như OpenAI o4 mini đối đầu DeepSeek-R1, Gemini 2.5 Pro so tài với Claude Opus 4, Kimi K2 Instruct của Moonshot AI gặp OpenAI o3, và Grok 4 đương đầu với Gemini 2.5 Flash. Mỗi cặp thi đấu theo thể thức bốn ván, người chiến thắng tiến vào vòng tiếp theo theo thể thức loại trực tiếp, với hai mô hình xuất sắc nhất sẽ đối đầu trong trận chung kết tranh huy chương vàng.
Hệ thống đánh giá Bayesian và tính minh bạch lập luận
Điểm đặc biệt của giải đấu nằm ở việc sử dụng hệ thống xếp hạng kỹ năng Bayesian được cập nhật liên tục, giúp đánh giá dài hạn một cách nghiêm ngặt. Hệ thống này sử dụng xác suất để cập nhật điểm kỹ năng của mô hình theo thời gian, dựa trên hiệu suất thi đấu so với đối thủ, tạo ra một phương pháp đánh giá khách quan và chính xác hơn các benchmark truyền thống.
Yếu tố quan trọng nhất của giải đấu là tính minh bạch hoàn toàn trong quá trình lập luận. Người xem sẽ được thấy mọi bước suy nghĩ phía sau mỗi nước đi của từng mô hình thông qua các trận đấu được phát trực tiếp trên YouTube. Theo Google, tính minh bạch này là yếu tố then chốt để đánh giá xem các mô hình có thật sự lập luận hay chỉ đơn thuần bắt chước dữ liệu huấn luyện.
Cờ vua từ lâu đã là sân khấu để AI thể hiện năng lực, với trận đấu lịch sử năm 1997 giữa Deep Blue của IBM và đại kiện tướng Garry Kasparov như một cột mốc quan trọng. Giải đấu của Google hôm nay kế thừa truyền thống đó nhưng lần này là giữa các mô hình ngôn ngữ AI, mở ra một kỷ nguyên mới trong việc đánh giá trí tuệ nhân tạo.
Google giải thích rằng trò chơi là công cụ lý tưởng để đánh giá AI vì chúng giúp hiểu cách mô hình xử lý các nhiệm vụ lập luận phức tạp. Nhiều trò chơi đại diện cho kỹ năng thực tế, có thể kiểm tra khả năng của mô hình trong các lĩnh vực như lập kế hoạch chiến lược, thích nghi và ghi nhớ, tạo ra một phương pháp đánh giá toàn diện hơn so với các bài test truyền thống.
Demis Hassabis, đồng sáng lập kiêm CEO Google DeepMind, nhấn mạnh rằng trò chơi từ lâu đã là nền tảng lý tưởng để kiểm chứng AI, bao gồm cả các dự án như AlphaGo và AlphaZero. Ông kỳ vọng vào tiến bộ mà benchmark này sẽ tạo ra khi tiếp tục bổ sung thêm trò chơi và thử thách, dự đoán tốc độ cải thiện sẽ rất nhanh trong thời gian tới.
Google cũng tiết lộ kế hoạch mở rộng Kaggle Gaming Arena ra ngoài cờ vua trong các sự kiện tương lai, biến giải đấu đầu tiên này thành bài thử áp lực công khai về khả năng ra quyết định chiến lược thời gian thực của các mô hình AI hiện đại nhất.