Cuộc đua công nghệ AI ngày càng phức tạp với các phương pháp đánh giá không đồng nhất, Pokémon trở thành minh chứng mới nhất.
Không chỉ giới hạn trong các phòng thí nghiệm hay hội nghị học thuật, cuộc tranh luận về cách đánh giá hiệu suất của các mô hình AI đã lan rộng đến cả lĩnh vực game, cụ thể là tựa game huyền thoại Pokémon.
Tuần trước, một bài đăng trên nền tảng X đã thu hút sự chú ý khi tuyên bố mô hình Gemini mới nhất của Google vượt trội so với Claude của Anthropic trong việc chơi bộ ba game Pokémon nguyên bản. Theo thông tin, Gemini đã đạt đến Lavender Town trong stream của một nhà phát triển trên Twitch, trong khi Claude vẫn “mắc kẹt” tại Mount Moon từ cuối tháng 2.
Tuy nhiên, điều mà bài đăng không đề cập là Gemini đã được hưởng lợi từ một lợi thế đáng kể. Người dùng trên Reddit đã chỉ ra rằng nhà phát triển duy trì stream Gemini đã xây dựng một bản đồ mini tùy chỉnh giúp mô hình xác định các “ô” trong game như cây có thể chặt. Điều này giảm đáng kể nhu cầu Gemini phải phân tích ảnh chụp màn hình trước khi đưa ra quyết định gameplay tương tự như Pokémon.
Vấn đề của chuẩn đo AI hiện đại
Mặc dù Pokémon chỉ là một chuẩn đo AI bán nghiêm túc – ít người cho rằng đây là bài kiểm tra thực sự hữu ích về khả năng của mô hình – nhưng nó lại là ví dụ điển hình về cách các triển khai khác nhau của một tiêu chuẩn có thể ảnh hưởng đến kết quả.
Chẳng hạn, Anthropic đã báo cáo hai điểm số cho mô hình Claude 3.7 Sonnet gần đây trên chuẩn đo SWE-bench Verified, được thiết kế để đánh giá khả năng lập trình của mô hình. Claude 3.7 Sonnet đạt độ chính xác 62,3% trên SWE-bench Verified, nhưng tăng lên 70,3% với một “custom scaffold” (khung tùy chỉnh) do Anthropic phát triển.
Gần đây hơn, Meta đã tinh chỉnh (fine-tune) một phiên bản của một trong những mô hình mới hơn của họ, Llama 4 Maverick, để hoạt động tốt trên một chuẩn đo cụ thể là LM Arena. Phiên bản nguyên bản của mô hình này đạt điểm thấp hơn đáng kể trên cùng một bài đánh giá.
Với thực tế là các chuẩn đo AI – bao gồm cả Pokémon – vốn đã là những thước đo không hoàn hảo, các triển khai tùy chỉnh và không tiêu chuẩn càng làm vấn đề thêm phức tạp. Điều này đồng nghĩa với việc khả năng so sánh các mô hình khi chúng được phát hành không có vẻ sẽ trở nên dễ dàng hơn trong tương lai gần.
Giới chuyên gia AI đang kêu gọi cộng đồng xây dựng các tiêu chuẩn đánh giá minh bạch và thống nhất hơn, đặc biệt khi các mô hình AI ngày càng trở nên phức tạp và đa dạng. Đồng thời, người dùng cũng cần thận trọng khi đánh giá hiệu suất của các mô hình dựa trên những so sánh đơn lẻ hoặc không chuẩn hóa.