Phiên bản chuẩn của mô hình Llama 4 Maverick đạt điểm thấp hơn đáng kể so với các đối thủ trong bảng xếp hạng LM Arena sau khi Meta sử dụng phiên bản thử nghiệm để đạt điểm cao.
Đầu tuần này, Meta bị chỉ trích khi sử dụng phiên bản thử nghiệm, chưa được phát hành chính thức của mô hình Llama 4 Maverick để đạt điểm cao trên nền tảng đánh giá đám đông LM Arena. Sự việc khiến các nhà quản lý LM Arena phải xin lỗi, thay đổi chính sách và tiến hành đánh giá lại phiên bản chuẩn của Maverick.
Kết quả cho thấy phiên bản chuẩn của Meta “Llama-4-Maverick-17B-128E-Instruct” không thực sự cạnh tranh được với các đối thủ. Tính đến thứ Sáu, mô hình này xếp hạng thấp hơn OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet và Google Gemini 1.5 Pro – những mô hình đã ra mắt từ nhiều tháng trước.
Chiến lược tối ưu hóa gây tranh cãi
Theo giải thích của Meta, phiên bản thử nghiệm Llama-4-Maverick-03-26-Experimental được “tối ưu hóa cho tính hội thoại”, điều này dường như phù hợp với cách thức đánh giá của LM Arena – nơi người đánh giá so sánh kết quả từ các mô hình và chọn mô hình họ thích hơn.
LM Arena chưa bao giờ được coi là thước đo đáng tin cậy nhất cho hiệu suất của mô hình AI vì nhiều lý do. Tuy nhiên, việc điều chỉnh một mô hình để phù hợp với một tiêu chí đánh giá không chỉ gây hiểu nhầm mà còn làm cho các nhà phát triển khó dự đoán chính xác hiệu suất của mô hình trong các bối cảnh khác nhau.
Người phát ngôn của Meta cho biết trong một tuyên bố với TechCrunch: “Llama-4-Maverick-03-26-Experimental là phiên bản được tối ưu hóa cho trò chuyện mà chúng tôi thử nghiệm, đồng thời cũng hoạt động tốt trên LM Arena. Chúng tôi hiện đã phát hành phiên bản mã nguồn mở và sẽ xem các nhà phát triển tùy chỉnh Llama 4 cho trường hợp sử dụng riêng của họ. Chúng tôi rất háo hức để xem họ sẽ xây dựng gì và mong đợi phản hồi liên tục từ họ.”
Sự cố này làm dấy lên câu hỏi về tính minh bạch trong việc đánh giá hiệu suất AI, đặc biệt khi các công ty công nghệ lớn cạnh tranh gay gắt trong cuộc đua phát triển mô hình ngôn ngữ lớn. Điều quan trọng là các tiêu chuẩn đánh giá cần phản ánh chính xác khả năng thực tế của các mô hình AI, thay vì bị ảnh hưởng bởi các phiên bản được tối ưu hóa đặc biệt.