Microsoft tuyên bố các mô hình MAI mới vượt Claude và Google trong kiểm tra độc lập

Microsoft công bố bảy mô hình AI nội bộ tại Build 2025, tuyên bố MAI-Thinking-1 vượt Claude Sonnet 4.6 trong kiểm tra mù và đạt 97% trên AIME 2025.

Trong ngày đầu tiên của sự kiện Microsoft Build thường niên, Microsoft công bố bảy mô hình AI mang thương hiệu MAI, đánh dấu nỗ lực rõ ràng nhất từ trước đến nay của công ty nhằm tự khẳng định là một nhà phát triển AI tiên phong, thay vì chỉ là bên hậu thuẫn lớn nhất và nhà cung cấp hạ tầng của OpenAI.

Trung tâm của đợt ra mắt là MAI-Thinking-1, mô hình suy luận văn bản chủ lực mà Microsoft cho biết được các chuyên gia đánh giá độc lập ưu tiên lựa chọn hơn Anthropic Claude Sonnet 4.6 trong các bài kiểm tra mù.

BÀI VIẾT LIÊN QUAN

Chủ tịch Microsoft và bài toán an ủi thế hệ trẻ trong kỷ nguyên AI

Microsoft công bố chip lượng tử mạnh hơn 1.000 lần, làm dấy lo ngại về an toàn của Bitcoin

Microsoft chiêu mộ 20 chuyên gia AI từ DeepMind của Google

Microsoft phát triển mô hình AI 1-bit

Theo Mustafa Suleyman, Giám đốc điều hành Microsoft AI, mô hình này đạt 97% trên AIME 2025, thước đo đánh giá năng lực suy luận và giải quyết vấn đề nâng cao, đồng thời đứng ngang hàng với Opus 4.6 trên SWE Bench Pro, một trong những bài kiểm tra lập trình khó nhất hiện nay. Đáng chú ý hơn, Microsoft tuyên bố MAI “đạt tỷ lệ thắng cao nhất, vượt cả GPT-5.5 về chất lượng, trong khi chi phí thấp hơn 10 lần.”

Bảy mô hình, một tham vọng

Ngoài MAI-Thinking-1, Microsoft giới thiệu MAI-Code-1-Flash, một mô hình lập trình gọn nhẹ được xây dựng cho GitHub Copilot và Visual Studio Code. Trong lĩnh vực xử lý hình ảnh, MAI-Image-2.5 cùng biến thể Flash được công ty cho là vượt Nano Banana Pro của Google trong các tác vụ chỉnh sửa hình ảnh.

Bộ mô hình còn bao gồm MAI-Transcribe-1.5 hỗ trợ phiên âm 43 ngôn ngữ và MAI-Voice-2, mô hình tạo giọng nói tự nhiên bằng 15 ngôn ngữ với khả năng thích ứng từ một mẫu âm thanh ngắn của người dùng.

Thông báo được đưa ra trong bối cảnh cạnh tranh giữa các nhà phát triển AI hàng đầu tiếp tục tăng nhiệt. Tuần trước, Anthropic ra mắt Opus 4.8, mô tả đây là phiên bản nhanh hơn và thông minh hơn so với thế hệ trước. Cùng ngày, Anthropic thông báo mở rộng Project Glasswing, cho phép 150 công ty tiếp cận mô hình Mythos tập trung vào an ninh mạng.

Tại Google I/O tháng 5, Google giới thiệu Gemini Omni, mô hình đa phương thức tích hợp các hệ thống tạo phương tiện Veo, Nano Banana và Genie, cùng Gemini Spark, một tác nhân AI dựa trên đám mây quản lý tác vụ trên nhiều ứng dụng thay mặt người dùng.

“Năng lực tính toán dùng để huấn luyện các mô hình tiên phong đã tăng gấp một nghìn tỷ lần. Giờ đây, chúng tôi kỳ vọng sẽ có thêm mức tăng gấp một nghìn lần nữa trong ba năm tới,” Suleyman viết trong bài đăng blog công bố các mô hình mới. Đợt ra mắt lần này cho thấy Microsoft đang chuyển dịch có chủ đích từ vai trò nhà đầu tư và nhà phân phối sang vai trò người tạo ra công nghệ AI cốt lõi, một tham vọng mà kết quả thực tế trên thị trường sẽ là thước đo cuối cùng.

Tags: Microsoft