Phiên bản Maverick của Meta trên LM Arena được “tối ưu hóa cho khả năng hội thoại” khác biệt đáng kể so với mô hình công khai, gây nghi ngờ về tính minh bạch trong đánh giá AI.
Thông báo mới nhất từ Meta về mô hình AI Maverick đang vấp phải làn sóng chỉ trích từ cộng đồng nghiên cứu công nghệ. Nguyên nhân xuất phát từ việc phiên bản Maverick xếp hạng thứ hai trên bảng đánh giá LM Arena lại khác biệt đáng kể so với phiên bản mà Meta đã phát hành rộng rãi cho các nhà phát triển, làm dấy lên câu hỏi về tính trung thực trong cách các gã khổng lồ công nghệ quảng bá sản phẩm AI của họ.
Hai phiên bản, một cái tên
Vấn đề được phát hiện khi nhiều nhà nghiên cứu AI trên nền tảng X (trước đây là Twitter) chỉ ra rằng Meta đã sử dụng “phiên bản thử nghiệm dành cho trò chuyện” của Maverick để tham gia đánh giá trên LM Arena – một thử nghiệm có người đánh giá so sánh kết quả của các mô hình và chọn ra mô hình họ ưa thích. Trong khi đó, trang web chính thức của Llama tiết lộ rằng bản thử nghiệm này thực chất là “Llama 4 Maverick được tối ưu hóa cho khả năng hội thoại”.
LM Arena vốn đã không phải là thước đo đáng tin cậy nhất cho hiệu suất của mô hình AI, nhưng vấn đề lần này nghiêm trọng hơn khi Meta đã điều chỉnh một phiên bản riêng để đạt điểm số tốt trên bảng xếp hạng này, trong khi vẫn phát hành một phiên bản “nguyên bản” khác cho công chúng.
Hành động này gây khó khăn cho các nhà phát triển trong việc dự đoán chính xác hiệu suất của mô hình trong các bối cảnh cụ thể. Lý tưởng nhất, các bảng đánh giá – dù còn nhiều thiếu sót – cần cung cấp bức tranh trung thực về điểm mạnh và điểm yếu của một mô hình duy nhất trên nhiều tác vụ khác nhau.
Các nhà nghiên cứu trên X đã ghi nhận sự khác biệt rõ rệt trong hoạt động của Maverick công khai so với phiên bản được đưa lên LM Arena. Phiên bản trên LM Arena có xu hướng sử dụng nhiều biểu tượng cảm xúc (emoji) và đưa ra những câu trả lời dài dòng, khác biệt đáng kể so với phiên bản công khai.
Đây không phải là lần đầu tiên các công ty công nghệ lớn bị chỉ trích về cách họ quảng bá hiệu suất AI. Nhiều chuyên gia trong ngành cho rằng việc tùy chỉnh mô hình riêng cho các bảng xếp hạng đang trở thành một xu hướng đáng lo ngại, làm suy giảm giá trị của các đánh giá độc lập và gây nhầm lẫn cho người dùng cuối.
Phản hồi chính thức từ Meta và Chatbot Arena – tổ chức quản lý LM Arena – vẫn đang được chờ đợi. Tuy nhiên, sự việc đã làm dấy lên cuộc thảo luận sôi nổi về nhu cầu cấp thiết cần có các tiêu chuẩn đánh giá minh bạch và nhất quán hơn trong lĩnh vực AI, đặc biệt khi các mô hình ngôn ngữ lớn ngày càng đóng vai trò quan trọng trong các ứng dụng thực tế.
Sự kiện này diễn ra trong bối cảnh cạnh tranh gay gắt giữa các ông lớn công nghệ như Meta, Google và OpenAI, nơi mỗi điểm xếp hạng đều có thể ảnh hưởng đến quyết định đầu tư và chiến lược phát triển sản phẩm.