Google DeepMind ra mắt Gemini Robotics

Mô hình AI mới của Google DeepMind hứa hẹn cách mạng hóa ngành công nghiệp robot với khả năng thực hiện đa dạng nhiệm vụ phức tạp thông qua điều khiển bằng giọng nói.

Trong một bước tiến đáng chú ý cho lĩnh vực trí tuệ nhân tạo ứng dụng, Google DeepMind vừa công bố Gemini Robotics – mô hình AI tiên tiến được thiết kế đặc biệt để điều khiển robot thực hiện các tác vụ phức tạp trong môi trường thực tế. Sự kiện này đánh dấu một bước ngoặt quan trọng trong nỗ lực của Google nhằm mở rộng khả năng ứng dụng của các mô hình ngôn ngữ lớn (LLM) vào lĩnh vực robotics.

Theo thông báo được đưa ra vào thứ Tư, Gemini Robotics được phát triển với mục tiêu giúp các hệ thống robot có thể tương tác trực quan với các vật thể, di chuyển linh hoạt trong môi trường và hoàn thành nhiều nhiệm vụ đa dạng một cách tự nhiên. Các video demo được công bố cho thấy khả năng ấn tượng của mô hình khi điều khiển robot thực hiện các thao tác tinh vi như gấp giấy hay đặt vật dụng vào hộp thông qua chỉ dẫn bằng giọng nói.

BÀI VIẾT LIÊN QUAN

Estonia muốn cấp mã định danh quốc gia riêng cho các tác tử AI

Nvidia phát triển các robot tự huấn luyện bằng tác tử lập trình AI

Các nhà tâm lý học Mỹ cho biết bệnh nhân đang đưa AI vào các buổi trị liệu

AWS tích hợp giao thức x402, biến tác tử AI thành khách hàng trả phí

Tiềm năng đột phá cho ngành công nghiệp robot

Điểm nổi bật của Gemini Robotics là khả năng tổng quát hóa (generalization) – một trong những thách thức lớn nhất của ngành robotics hiện đại. Mô hình được huấn luyện để kết nối linh hoạt giữa thông tin thị giác mà robot thu nhận được với các hành động cụ thể mà chúng có thể thực hiện, đồng thời hoạt động được trên nhiều nền tảng phần cứng robot khác nhau.

“Chúng tôi đã chứng minh rằng Gemini Robotics có thể hoạt động hiệu quả ngay cả trong những môi trường chưa từng xuất hiện trong dữ liệu huấn luyện,” đại diện DeepMind cho biết. Đây là một bước tiến quan trọng so với các hệ thống trước đây, vốn thường gặp khó khăn khi đối mặt với môi trường mới hoặc nhiệm vụ chưa được lập trình sẵn.

Song song với việc ra mắt mô hình chính, Google DeepMind cũng phát hành Gemini Robotics-ER – phiên bản thu gọn được thiết kế để các nhà nghiên cứu và phát triển có thể tích hợp vào các dự án robot của riêng họ. Động thái này cho thấy chiến lược mở của Google trong việc thúc đẩy sự phát triển của cộng đồng AI robotics.

Để đảm bảo tính an toàn cho công nghệ mới, DeepMind cũng giới thiệu tiêu chuẩn Asimov – một framework đánh giá các rủi ro tiềm ẩn liên quan đến robot được điều khiển bằng AI. Điều này phản ánh mối quan tâm ngày càng tăng của ngành công nghiệp về các vấn đề an toàn và đạo đức khi triển khai công nghệ AI vào các hệ thống vật lý.