Hai mô hình gpt-oss-120b và gpt-oss-20b của OpenAI đạt hiệu suất ngang phiên bản thương mại, phiên bản nhỏ chỉ cần 16GB RAM.
OpenAI đã công bố bước ngoặt quan trọng với việc phát hành hai mô hình ngôn ngữ mã nguồn mở đầu tiên kể từ GPT-2, đánh dấu sự thay đổi chiến lược đáng kể của công ty. Hai mô hình gpt-oss-120b và gpt-oss-20b có khả năng vận hành trên phần cứng tiêu dùng nhưng vẫn đạt hiệu suất gần tương đương với các mô hình thương mại cao cấp, được phát hành theo giấy phép Apache 2.0 cho phép sử dụng, sửa đổi và thương mại hóa không hạn chế.
Phiên bản gpt-oss-120b sử dụng kiến trúc mixture-of-experts với yêu cầu GPU có 80GB VRAM, chỉ kích hoạt 5,1 tỷ tham số cho mỗi token. Trong khi đó, gpt-oss-20b có thể hoạt động trên thiết bị chỉ với 16GB bộ nhớ, kích hoạt 3,6 tỷ tham số mỗi token. Cả hai mô hình đều hỗ trợ độ dài ngữ cảnh lên tới 128.000 token, tương đương với GPT-4o, và được huấn luyện bằng học tăng cường cùng các kỹ thuật tiên tiến từ hệ thống o3.
Hiệu suất của hai mô hình này đặc biệt ấn tượng trong các benchmark chuyên sâu. Trên Codeforces, gpt-oss-120b đạt Elo 2622 khi sử dụng công cụ và 2463 khi không sử dụng, vượt qua o4-mini và gần bằng o3. Trong bài kiểm tra toán học AIME 2024, mô hình đạt 96,6% so với chỉ 87,3% của o4-mini. Đáng chú ý nhất, trên HealthBench về ứng dụng y sinh, gpt-oss-120b đạt 57,6%, vượt cả o3 với 50,1%.
Tối ưu hóa linh hoạt cho triển khai thực tế
Một điểm nổi bật của hai mô hình là khả năng điều chỉnh linh hoạt giữa độ trễ và hiệu suất thông qua ba mức độ suy luận: thấp, trung bình và cao. Nhà phát triển có thể điều chỉnh này chỉ bằng một câu lệnh trong system message, cho phép tối ưu hóa phù hợp với từng ứng dụng cụ thể. Giai đoạn hậu huấn luyện được thực hiện tương tự o4-mini, bao gồm huấn luyện giám sát và giai đoạn học tăng cường tính toán cao.
OpenAI đặc biệt chú trọng đến khía cạnh an toàn, mặc dù mô hình được phát hành với toàn quyền sửa đổi. Dữ liệu huấn luyện đã loại bỏ thông tin nhạy cảm liên quan đến hóa học, sinh học, phóng xạ và hạt nhân. Giai đoạn hậu huấn luyện áp dụng phương pháp alignment theo tầng mệnh lệnh và kỹ thuật huấn luyện từ chối mệnh lệnh nguy hiểm. Ba nhóm chuyên gia độc lập đã đánh giá bảo mật và xác nhận mô hình không đạt ngưỡng nguy hiểm theo khung Preparedness Framework.
Một quyết định táo bạo của OpenAI là không giám sát Chain-of-Thought của hai mô hình, khác biệt lớn so với các mô hình thương mại hiện tại. Công ty cho rằng việc giữ nguyên chuỗi tư duy không giám sát là quan trọng để theo dõi hành vi sai lệch, lừa dối hoặc bị khai thác. Điều này tương phản với các mô hình tốt nhất hiện tại vốn ẩn CoT để tránh bị sao chép.
Hai mô hình hiện đã có trên HuggingFace với yêu cầu phần cứng tương đối cao nhưng có thể tiếp cận được. Trong khi gpt-oss-120b cần GPU có ít nhất 80GB VRAM như Nvidia A100, phiên bản gpt-oss-20b chạy được trên GPU 16GB VRAM như Nvidia RTX 4090, không còn là rào cản quá lớn với người dùng cá nhân và nhà phát triển edge AI. Điều này mở ra cơ hội cho cộng đồng phát triển các ứng dụng AI mạnh mẽ mà không phụ thuộc vào dịch vụ đám mây.