Google chính thức giới thiệu Gemini Live Chatbot thoại cạnh tranh trực tiếp với Advanced Voice Mode của OpenAI, hứa hẹn thay đổi tương tác giữa người – máy.
Sự kiện “Made by Google” diễn ra vào ngày 13/08/2024 đã chứng kiến sự ra mắt của Gemini Live, chatbot thoại được hỗ trợ bởi mô hình ngôn ngữ lớn (LLM) của Google. Sự kiện này đánh dấu bước tiến mới của Google trong cuộc đua chatbot thoại, cạnh tranh trực tiếp với OpenAI, công ty đã giới thiệu Advanced Voice Mode trước đó.
Gemini Live cho phép người dùng trò chuyện bằng giọng nói tự nhiên, với khả năng phản hồi nhanh chóng trong vòng chưa đầy hai giây. Chatbot cũng có thể chuyển đổi linh hoạt khi bị ngắt lời, một điểm cộng lớn so với các chatbot thoại khác.
Google cũng đã đầu tư mạnh mẽ vào việc đa dạng giọng nói cho Gemini Live cung cấp 10 giọng nói được tạo ra bởi các diễn viên lồng tiếng chuyên nghiệp, mang đến trải nghiệm gần gũi và tự nhiên hơn. So với 3 giọng nói hiện có của Advanced Voice Mode, đây là một lợi thế cạnh tranh đáng kể cho Google. Gemini Live còn hứa hẹn mang đến nhiều tiềm năng ứng dụng, nhất là trong việc tìm kiếm thông tin, hỗ trợ các tác vụ hàng ngày.
Dù vậy, Gemini Live vẫn còn một số hạn chế nhất định. Chatbot này đôi khi gặp lỗi trong việc hiểu ngữ điệu cảm xúc trong giọng nói của người dùng và có thể “ảo tưởng” thông tin. Google cũng hạn chế khả năng hát hoặc bắt chước giọng nói của người dùng nhằm tránh vi phạm bản quyền. Điều này có thể ảnh hưởng đến khả năng tương tác đa dạng của Gemini Live.
Tuy nhiên, Google đã có kế hoạch tích hợp khả năng hiểu video thời gian thực vào Gemini Live trong tương lai. Đây là một bước tiến trên con đường đến Project Astra, mô hình AI đa phương thức hoàn chỉnh mà Google đã giới thiệu trong Google I/O. Với những tính năng trên, Gemini Live có thể thay đổi cách con người tương tác với công nghệ, đặc biệt là trong lĩnh vực tìm kiếm thông tin, trợ lý ảo và giải trí.
Theo dõi Tin tức AI để không bỏ lỡ bất kỳ diễn biến mới nhất về AI tại Diễn đàn phổ cập Blockchain.