Anthropic ra mắt Claude Sonnet 5, đạt 63,2% trên SWE-bench Pro, gần ngang Opus 4.8 trong lúc Fable và Mythos vẫn bị đình chỉ.
Anthropic đã phát hành Claude Sonnet 5 vào thứ Ba, gọi đây là mô hình Sonnet có tính tác nhân cao nhất từ trước đến nay. Đây là mô hình mặc định cho người dùng gói Miễn phí và Pro, hiện đã có mặt trên các gói Max, Team và Enterprise, trong Claude Code và thông qua giao diện lập trình ứng dụng (API).
Khác với các lần ra mắt Sonnet trước đây vốn thường đi sau Opus một bậc, phiên bản này được xây dựng để đứng cạnh mô hình cao cấp đời trước, với hiệu năng được công ty mô tả là tiệm cận Opus 4.8 nhưng ở mức giá thấp hơn đáng kể.
Hiệu năng gần ngang Opus 4.8 trên nhiều bộ chuẩn đánh giá
Trên SWE-bench Pro, bộ chuẩn đánh giá lập trình lấy các bài toán từ những kho mã nguồn đang được duy trì tích cực với thay đổi trên nhiều tệp, Sonnet 5 đạt 63,2%, cao hơn mức 58,1% của Sonnet 4.6. Trên GDPval-AA v2, bộ chuẩn của Artificial Analysis chấm điểm các tác vụ chuyên môn trong thế giới thực trên 44 công việc thông qua xếp hạng Elo theo cặp mù, mô hình đạt 1.618 điểm, gần như tương đương về mặt thống kê với mức 1.616 điểm của Opus 4.8.
Chênh lệch trên Humanity’s Last Exam cũng không đáng kể, với Sonnet 5 đạt 57,4% so với 57,9% của Opus 4.8. Các nhà phát triển có thể điều chỉnh mức nỗ lực xử lý giữa hai mô hình hoặc chọn các cấp độ khác nhau trên ứng dụng web để đánh đổi giữa chi phí và độ chính xác, qua đó tiếp cận phần năng lực vốn trước đây đòi hỏi mức giá của Opus.
Đi kèm đợt phát hành là một bộ tách mã từ được cập nhật, tức hệ thống chia văn bản thành các đơn vị dùng để tính phí, khiến cùng một đầu vào có thể ánh xạ thành nhiều token hơn, dao động khoảng 1,0 đến 1,35 lần tùy loại nội dung. Anthropic đặt mức giá giới thiệu 2 USD trên 10 USD nhằm trung hòa chi phí phát sinh từ thay đổi này cho đến ngày 31/8, trước khi quay lại mức tiêu chuẩn 3 USD trên 15 USD mà Sonnet từng áp dụng.
Đợt ra mắt diễn ra trong bối cảnh Fable 5 và Mythos 5, hai mô hình thuộc tầng cao nhất của Anthropic, vẫn bị đình chỉ đối với công dân nước ngoài kể từ ngày 12/6 theo một chỉ thị kiểm soát xuất khẩu của Mỹ liên quan đến một phát hiện bẻ khóa gây tranh cãi.
Do chưa từng được huấn luyện trên các tác vụ an ninh mạng và đạt 0% trong việc phát triển một khai thác Firefox hoạt động được, Sonnet 5 được phát hành với các biện pháp bảo vệ nhẹ hơn so với tình trạng hạn chế đang áp dụng cho Fable. Thẻ hệ thống của Anthropic mô tả đây là mô hình được xây dựng để cung cấp trí tuệ gần mức Opus với giá Sonnet cho các tác vụ lập trình, tác nhân và công việc hằng ngày.
Xét theo lịch sử phát hành, mỗi lần nhảy số phiên bản nguyên của Claude trước đây đều đánh dấu một thế hệ mới, với khoảng cách thời gian giữa các phiên bản dao động từ vài tháng đến hơn một năm. Sonnet 5 ra mắt sau 13 tháng kể từ phiên bản trước, khoảng cách tương đương với chu kỳ phát hành phiên bản 4, trong bối cảnh cạnh tranh trên thị trường mô hình ngôn ngữ lớn ngày càng gay gắt, đặc biệt khi các mô hình từ Trung Quốc đang thu hẹp khoảng cách nhanh chóng.
Nếu Anthropic tiếp tục theo thứ tự phát hành đã áp dụng ở các chu kỳ trước, Haiku 5 và Opus 5 được dự đoán là hai mô hình còn lại của thế hệ này, có khả năng ra mắt trong năm nay.




































































