Mô hình chuyển đổi giọng nói – văn bản Chirp 3 của Google sẽ hỗ trợ 31 ngôn ngữ với 8 giọng nói mới, mở rộng khả năng phát triển ứng dụng AI giọng nói.
Google vừa thông báo sẽ tích hợp mô hình Chirp 3 vào nền tảng phát triển Vertex AI từ tuần tới, đánh dấu bước tiến quan trọng trong chiến lược AI của tập đoàn này. Động thái này xuất hiện trong bối cảnh các công ty công nghệ lớn đang đẩy mạnh phát triển công nghệ AI giọng nói, được dự đoán sẽ trở thành làn sóng tiếp theo sau khi AI tạo văn bản và hình ảnh đã bùng nổ.
Theo thông báo được đưa ra tại văn phòng DeepMind ở London, Chirp 3 – mô hình chuyển đổi giọng nói thành văn bản và văn bản thành giọng nói HD – sẽ hỗ trợ 31 ngôn ngữ với 8 giọng nói mới. Các ứng dụng tiềm năng của công nghệ này bao gồm xây dựng trợ lý giọng nói, tạo sách nói, phát triển đại lý hỗ trợ và lồng tiếng cho video.
Cuộc đua phát triển AI giọng nói đang nóng lên
Thị trường AI giọng nói đang chứng kiến sự cạnh tranh gay gắt. Cùng thời điểm Google công bố Chirp 3, công ty khởi nghiệp Sesame – đứng sau các ứng dụng AI “Maya” và “Miles” nổi tiếng với âm thanh giống thật – cũng đã ra mắt nền tảng cho phép các nhà phát triển xây dựng ứng dụng tùy chỉnh dựa trên công nghệ của họ. Một đối thủ khác là ElevenLabs, công ty đã huy động hàng trăm triệu đô la để mở rộng dịch vụ giọng nói AI.
Tuy nhiên, Google cũng đang chú trọng đến vấn đề an toàn khi triển khai công nghệ này. Thomas Kurian, CEO của Google Cloud, cho biết: “Chúng tôi đang làm việc cùng đội ngũ an toàn để giải quyết một số vấn đề” liên quan đến việc kiểm soát lạm dụng công nghệ.
Chirp 3 sẽ gia nhập cùng nhóm với các phiên bản mới của mô hình LLM Gemini, mô hình tạo hình ảnh Imagen và công cụ tạo video Veo 2 trên nền tảng Vertex AI. Việc tích hợp này phản ánh chiến lược của Google nhằm xây dựng một hệ sinh thái AI toàn diện trên Vertex AI, nền tảng được ra mắt từ năm 2021 để hỗ trợ các nhà phát triển xây dựng dịch vụ học máy trên đám mây.
Demis Hassabis, CEO của DeepMind, nhấn mạnh rằng đây là “một cuộc đua dài hơi, không phải một cuộc chạy đua ngắn hạn”. Ông cho rằng: “Trong ngắn hạn, tôi không thấy AI sẽ là giải pháp kỳ diệu cho tất cả mọi thứ trong vài năm tới. Điều này sẽ thay đổi mọi thứ trong thập kỷ tới, vì vậy là trung và dài hạn. Đây là một khoảnh khắc thú vị trong thời gian.”
Với việc bổ sung Chirp 3 vào Vertex AI, Google đang cố gắng bắt kịp các đối thủ như Microsoft và Amazon trong cuộc đua phát triển công cụ AI sáng tạo cho các nhà phát triển. Điều đáng chú ý là Google đã xây dựng các dịch vụ giọng nói “Chirp” trong nhiều năm, bắt đầu từ việc sử dụng tên này như một tên mã cho những nỗ lực ban đầu của họ nhằm cạnh tranh với dịch vụ Alexa của Amazon.