Sesame do đồng sáng lập Oculus thành lập đã phát hành mô hình CSM-1B dưới giấy phép Apache 2.0, dấy lên lo ngại về các biện pháp bảo vệ giọng nói.
Công ty khởi nghiệp Sesame đã chính thức phát hành mô hình cơ bản đứng sau trợ lý ảo Maya nổi tiếng với khả năng mô phỏng giọng nói siêu thực. Mô hình CSM-1B với quy mô 1 tỷ tham số được công bố dưới giấy phép mở Apache 2.0, cho phép sử dụng thương mại với ít ràng buộc.
Động thái này đánh dấu một bước tiến đáng chú ý trong lĩnh vực AI giọng nói, nhưng cũng làm dấy lên những lo ngại nghiêm trọng về khả năng lạm dụng công nghệ khi thiếu các biện pháp bảo vệ nghiêm ngặt.
Theo thông tin trên nền tảng Hugging Face, CSM-1B có khả năng tạo ra “mã âm thanh RVQ” (residual vector quantization) từ văn bản và âm thanh đầu vào. Công nghệ này đã được sử dụng trong nhiều hệ thống âm thanh AI hiện đại như Google’s SoundStream và Meta’s Encodec.
Tiềm năng và rủi ro của công nghệ giọng nói mở
Mô hình này được xây dựng dựa trên nền tảng Llama của Meta, kết hợp với thành phần “giải mã” âm thanh. Sesame cho biết một phiên bản đã được tinh chỉnh của CSM hiện đang vận hành trợ lý Maya.
“Mô hình này có khả năng tạo ra nhiều giọng nói khác nhau, nhưng chưa được tinh chỉnh cho bất kỳ giọng nói cụ thể nào,” Sesame viết trong tài liệu kỹ thuật. Đáng chú ý, công ty không tiết lộ bộ dữ liệu huấn luyện cho CSM-1B.
Điều gây quan ngại là mô hình này thiếu các biện pháp bảo vệ thực chất, chỉ dựa vào hệ thống tự nguyện và khuyến nghị người dùng không sử dụng để bắt chước giọng nói không được phép, tạo nội dung sai lệch hoặc thực hiện các hoạt động “gây hại”.
Trải nghiệm thực tế cho thấy việc sao chép giọng nói có thể thực hiện chỉ trong vòng một phút thông qua bản demo, sau đó dễ dàng tạo ra các đoạn hội thoại theo ý muốn, kể cả về các chủ đề nhạy cảm.
Consumer Reports gần đây đã cảnh báo về tình trạng thiếu các biện pháp bảo vệ hiệu quả trong nhiều công cụ sao chép giọng nói AI phổ biến, làm tăng nguy cơ gian lận và lạm dụng.
Sesame, được đồng sáng lập bởi Brendan Iribe – người từng sáng lập Oculus, đã gây ấn tượng mạnh vào cuối tháng 2 với công nghệ trợ lý ảo Maya và Miles có khả năng tương tác tự nhiên, gần như vượt qua được “thung lũng kỳ lạ” trong tương tác người-máy.
Công ty đã huy động vốn từ các nhà đầu tư lớn như Andreessen Horowitz, Spark Capital và Matrix Partners. Ngoài phát triển công nghệ trợ lý giọng nói, Sesame cũng đang thử nghiệm kính AI “đeo suốt ngày” tích hợp các mô hình tùy chỉnh của riêng mình.