Ngày 29/3/2024, OpenAI cho ra mắt bản phát triển ban đầu của Voice Engine, một mô hình có thể sao chép giọng nói của con người từ mẫu âm thanh 15 giây và tạo ra giọng nói nghe tự nhiên.
Theo OpenAI, Voice Engine có thể đọc văn bản theo yêu cầu bằng cùng ngôn ngữ của người nói hoặc nhiều ngôn ngữ khác. Công ty hiện đang cho một số công ty như Age of Learning, HeyGen, Dimagi, AI Livox và Lifespan được lựa chọn dùng thử Voice Engine để đánh giá và cải thiện công nghệ này.
OpenAI tiết lộ rằng, họ phát triển công nghệ này lần đầu vào cuối năm 2022 và đã sử dụng nó để tạo ra các giọng nói mặc định cho API chuyển văn bản thành giọng nói và tính năng Đọc to của ChatGPT.
Tuy nhiên, việc tạo giọng nói bằng AI cũng tiềm ẩn nhiều nguy cơ. Những kẻ gian có thể sử dụng công cụ này trong việc lừa đảo hoặc trục lợi tài sản, nhất là trong bối cảnh vấn nạn deepfake tiềm tàng đang tăng và những cuộc bầu cử đang diễn ra sắp tới, khi 2024 được xem là năm diễn ra nhiều cuộc bầu cử nhất trong lịch sử với hơn 80 quốc gia.
OpenAI lo ngại Voice Engine có thể bị sử dụng để tạo ra các sản phẩm âm thanh giả mạo, gây ảnh hưởng đến các cuộc bầu cử. Do đó, họ kêu gọi đối thoại cởi mở về “việc triển khai giọng nói tổng hợp một cách có trách nhiệm”.
Công ty hiện áp dụng một số chính sách sử dụng để hạn chế rủi ro, chẳng hạn như yêu cầu đối tác phải có sự đồng ý rõ ràng của người cung cấp giọng nói và phải tiết lộ với người nghe rằng giọng nói đó là do AI tạo ra để ngăn chặn việc sử dụng sai mục đích. Đồng thời sử dụng công nghệ “thêm dấu ấn” (watermarking) cho các bản ghi âm để truy xuất nguồn gốc và theo dõi cách sử dụng.
Công nghệ tạo giọng nói bằng AI đang phát triển nhanh chóng và hứa hẹn mang lại nhiều lợi ích, tuy nhiên chúng cũng đặt ra những thách thức về vấn đề đạo đức và bảo mật.