Nova Sonic vượt trội với tỷ lệ lỗi từ chỉ 4.2% và chi phí thấp hơn 80% so với GPT-4o, đánh dấu bước tiến quan trọng trong chiến lược AGI của Amazon.
Amazon vừa chính thức tham gia vào cuộc đua AI giọng nói khi ra mắt Nova Sonic – mô hình có khả năng xử lý và tạo ra lời nói tự nhiên với hiệu suất cạnh tranh trực tiếp với OpenAI và Google. Động thái này không chỉ thể hiện tham vọng của gã khổng lồ thương mại điện tử trong lĩnh vực AI, mà còn đánh dấu một bước chuyển mình quan trọng sau thời kỳ Alexa cứng nhắc.
Công nghệ vượt trội với chi phí tối ưu
Nova Sonic nổi bật với khả năng xử lý ngôn ngữ tự nhiên vượt trội. Mô hình này đạt tỷ lệ lỗi từ (WER) chỉ 4.2% trên năm ngôn ngữ chính, đồng thời chính xác hơn 46.7% so với GPT-4o-transcribe của OpenAI khi xử lý các tương tác ồn ào nhiều người tham gia.
Ưu thế cạnh tranh lớn nhất của Nova Sonic nằm ở hiệu quả chi phí. Amazon tuyên bố mô hình này có giá thấp hơn khoảng 80% so với GPT-4o của OpenAI, đồng thời mang lại tốc độ xử lý cao hơn với độ trễ cảm nhận trung bình chỉ 1.09 giây, nhanh hơn so với 1.18 giây của GPT-4o.
“Nova Sonic được xây dựng dựa trên kinh nghiệm dày dặn của chúng tôi trong lĩnh vực hệ thống điều phối quy mô lớn,” Rohit Prasad, Phó Chủ tịch cấp cao kiêm Giám đốc Khoa học AGI của Amazon chia sẻ. Theo ông, điểm mạnh của mô hình này là khả năng định tuyến thông minh các yêu cầu của người dùng đến các API phù hợp.
Nova Sonic đã được tích hợp vào Alexa+, phiên bản nâng cấp của trợ lý ảo Alexa, và hiện đã có mặt trên nền tảng Bedrock của Amazon thông qua API truyền dữ liệu hai chiều mới. Mô hình này có khả năng tương tác tự nhiên, biết khi nào cần lên tiếng trong đối thoại, và có thể tạo bản ghi văn bản từ lời nói của người dùng.
Đặc biệt, Nova Sonic vẫn duy trì hiệu suất cao ngay cả khi người dùng nói lắp, nói sai hoặc trong môi trường ồn ào – một thách thức lớn đối với các mô hình AI giọng nói hiện nay.
Việc ra mắt Nova Sonic là một phần trong chiến lược AGI rộng lớn hơn của Amazon. Trước đó, công ty đã giới thiệu Nova Act, một mô hình AI có khả năng sử dụng trình duyệt. Trong tương lai, Amazon dự kiến sẽ phát hành thêm nhiều mô hình AI đa phương thức, có thể xử lý hình ảnh, video và các dữ liệu cảm giác khác.
Bằng việc cung cấp các mô hình AI nội bộ cho các nhà phát triển, Amazon đang từng bước xây dựng hệ sinh thái AGI của riêng mình, với tham vọng tạo ra “các hệ thống AI có thể thực hiện bất kỳ công việc nào mà con người có thể làm trên máy tính.”