Giám đốc phụ trách AI tạo sinh của Meta bác bỏ tin đồn công ty điều chỉnh kết quả trên các bộ chuẩn đánh giá để tăng điểm số cho Llama 4 Maverick và Scout.
Cuối tuần qua, tin đồn về việc Meta cố tình nâng cao điểm số đánh giá cho các mô hình AI mới nhất đã lan truyền mạnh mẽ trên các nền tảng mạng xã hội. Tuy nhiên, lãnh đạo cấp cao của gã khổng lồ công nghệ này đã nhanh chóng lên tiếng phủ nhận.
Ahmad Al-Dahle, Phó Chủ tịch phụ trách AI tạo sinh tại Meta, đã khẳng định trên nền tảng X rằng tin đồn về việc công ty huấn luyện các mô hình Llama 4 Maverick và Scout trên “các tập dữ liệu kiểm thử” là “hoàn toàn không đúng”. Đây là một cáo buộc nghiêm trọng trong lĩnh vực AI, khi việc huấn luyện mô hình trên dữ liệu kiểm thử được coi là hành vi phi đạo đức, có thể tạo ra kết quả đánh giá không trung thực.
Nguồn gốc của tin đồn và phản ứng từ Meta
Tin đồn dường như xuất phát từ một bài đăng trên mạng xã hội Trung Quốc, từ một người dùng tự nhận đã từ chức khỏi Meta để phản đối các hoạt động đánh giá của công ty. Điều làm tăng thêm sự nghi ngờ là việc một số nhà nghiên cứu phát hiện sự khác biệt đáng kể trong hành vi giữa phiên bản Maverick có thể tải xuống công khai với mô hình được lưu trữ trên nền tảng đánh giá LM Arena.
Thêm vào đó, quyết định của Meta sử dụng một phiên bản thử nghiệm, chưa được phát hành rộng rãi của Maverick để tham gia đánh giá trên LM Arena cũng làm dấy lên những câu hỏi về tính minh bạch trong phương pháp đánh giá của công ty.
Al-Dahle thừa nhận rằng một số người dùng đang gặp phải vấn đề “chất lượng không đồng đều” khi sử dụng Maverick và Scout trên các nhà cung cấp đám mây khác nhau. Ông giải thích: “Kể từ khi chúng tôi tung ra các mô hình ngay khi chúng sẵn sàng, chúng tôi dự kiến sẽ mất vài ngày để tất cả các triển khai công khai được điều chỉnh hoàn thiện.”
Vị lãnh đạo này cũng cam kết Meta sẽ tiếp tục khắc phục lỗi và hỗ trợ các đối tác để đảm bảo hiệu suất ổn định của các mô hình AI mới.
Cuộc tranh cãi này diễn ra trong bối cảnh cạnh tranh ngày càng gay gắt trên thị trường AI tạo sinh, khi các công ty công nghệ lớn như OpenAI, Google, Anthropic và Meta đều đang nỗ lực phát triển các mô hình ngôn ngữ lớn (LLM) mạnh mẽ hơn. Điểm số trên các bộ đánh giá chuẩn đã trở thành một thước đo quan trọng khi các công ty muốn chứng minh ưu thế công nghệ của mình.
Tuy nhiên, nhiều chuyên gia trong ngành đã cảnh báo rằng các bộ đánh giá chuẩn không phải lúc nào cũng phản ánh chính xác khả năng thực tế của một mô hình AI trong các ứng dụng thực tế. Câu chuyện này một lần nữa nhấn mạnh tầm quan trọng của tính minh bạch và các phương pháp đánh giá đáng tin cậy trong lĩnh vực AI đang phát triển nhanh chóng.