OpenAI vừa tung ra bộ ba mô hình GPT-4.1 mới với khả năng xử lý 1 triệu token, nhấn mạnh vào lĩnh vực lập trình nhằm cạnh tranh với các đối thủ như Google và Anthropic.
OpenAI đã chính thức giới thiệu dòng mô hình trí tuệ nhân tạo mới mang tên GPT-4.1 vào hôm thứ Hai. Dòng sản phẩm này bao gồm ba phiên bản: GPT-4.1, GPT-4.1 mini và GPT-4.1 nano, tất cả đều được tối ưu hóa cho việc lập trình và tuân thủ chỉ dẫn.
Các mô hình mới này có khả năng xử lý cùng lúc 1 triệu token, tương đương khoảng 750.000 từ – dài hơn cả tiểu thuyết “Chiến tranh và Hòa bình”. Điều đáng chú ý là OpenAI chỉ cung cấp các mô hình này qua API, không tích hợp vào ChatGPT.
Cuộc đua phát triển mô hình chuyên lập trình
Việc ra mắt GPT-4.1 diễn ra trong bối cảnh các đối thủ cạnh tranh của OpenAI như Google và Anthropic đang tăng cường nỗ lực phát triển các mô hình lập trình tiên tiến. Google gần đây đã phát hành Gemini 2.5 Pro với khả năng xử lý 1 triệu token, đạt thứ hạng cao trên các tiêu chuẩn đánh giá lập trình phổ biến. Tương tự, Claude 3.7 Sonnet của Anthropic và mô hình V3 nâng cấp của startup Trung Quốc DeepSeek cũng đang thể hiện khả năng vượt trội.
Theo đại diện OpenAI: “Chúng tôi đã tối ưu hóa GPT-4.1 cho việc sử dụng thực tế dựa trên phản hồi trực tiếp để cải thiện các lĩnh vực mà nhà phát triển quan tâm nhất: lập trình frontend, giảm thiểu chỉnh sửa không cần thiết, tuân thủ định dạng một cách đáng tin cậy, tuân thủ cấu trúc và thứ tự phản hồi, sử dụng công cụ nhất quán, và nhiều tính năng khác.”
Về chi phí, GPT-4.1 có giá 2 USD/triệu token đầu vào và 8 USD/triệu token đầu ra. GPT-4.1 mini có giá 0,40 USD/triệu token đầu vào và 1,60 USD/triệu token đầu ra, trong khi GPT-4.1 nano là phiên bản rẻ nhất với 0,10 USD/triệu token đầu vào và 0,40 USD/triệu token đầu ra.
Trong các bài kiểm tra nội bộ, GPT-4.1 đạt điểm từ 52% đến 54,6% trên SWE-bench Verified, thấp hơn một chút so với Gemini 2.5 Pro (63,8%) và Claude 3.7 Sonnet (62,3%). Tuy nhiên, OpenAI cũng thừa nhận rằng GPT-4.1 trở nên kém tin cậy hơn khi xử lý số lượng token đầu vào lớn, với độ chính xác giảm từ khoảng 84% với 8.000 token xuống còn 50% với 1 triệu token.