Nvidia phát triển các robot tự huấn luyện bằng tác nhân lập trình AI

ENPIRE của Nvidia cho phép tám robot tự học lắp ráp linh kiện với tỷ lệ thành công 99%, rút ngắn thời gian huấn luyện xuống còn một nửa so với phương pháp có con người.

Tám cánh tay robot tại phòng thí nghiệm GEAR của Nvidia đã tự học cách cắm chốt, lắp card đồ họa và cắt dây rút trong vài tuần, mà không cần bất kỳ kỹ sư nào theo dõi. Đây là kết quả từ ENPIRE, một khung làm việc được công bố bởi các nhà nghiên cứu từ Nvidia, Đại học Carnegie Mellon và UC Berkeley, trong đó toàn bộ quy trình huấn luyện robot được giao cho các tác nhân lập trình AI như Codex của OpenAI, Claude Code của Anthropic và Kimi Code của Moonshot.

Từ màn hình ra thế giới vật lý: bước nhảy của tự nghiên cứu AI

Điểm cốt lõi của ENPIRE nằm ở chỗ nó kéo vòng lặp tự nghiên cứu, vốn chỉ tồn tại trên màn hình máy tính, vào môi trường vật lý thực sự. Trước đây, các tác nhân lập trình đã có thể tự viết mã, kiểm thử và chỉnh sửa liên tục mà không cần người giám sát. Nhưng khi thất bại xảy ra trong môi trường ảo, chi phí để bắt đầu lại gần như bằng không. Với ENPIRE, đặt lại một thử nghiệm đồng nghĩa với việc di chuyển một cánh tay robot thực sự, một ràng buộc vật lý hoàn toàn khác.

BÀI VIẾT LIÊN QUAN

Các công ty AI đang phá hủy sách giấy để huấn luyện chatbot

GPT-6 của OpenAI được dự đoán sẽ ra mắt trước tháng 9

Claude Opus 5 vượt Fable 5 trên nhiều tiêu chuẩn, giá chỉ bằng một nửa

FLUX 3 của Black Forest Labs chuyển từ ảnh tĩnh sang video và robot

Hệ thống hoạt động theo hai giai đoạn. Con người chỉ tham gia một lần duy nhất ở đầu vào để thiết lập hai công cụ: một quy trình đưa không gian làm việc về trạng thái ban đầu và một hàm thưởng theo dõi camera để chấm điểm mức độ thành công của từng lần thử.

Sau đó, tác nhân AI hoàn toàn tiếp quản, tự tìm kiếm tài liệu nghiên cứu, lựa chọn giữa các phương pháp như học bắt chước hay học tăng cường, viết lại mã và kiểm thử trên robot mà không cần người xuất hiện. Tám trạm robot trao đổi tiến độ qua Git, cho phép một phát hiện hiệu quả lan rộng toàn đội trong vài phút.

Kết quả đo lường cho thấy hiệu quả rõ rệt. Trên nhiệm vụ đẩy khối hình chữ T vào vùng mục tiêu, việc mở rộng từ một lên tám robot rút ngắn thời gian làm chủ kỹ năng từ khoảng năm giờ xuống còn hai giờ. Với nhiệm vụ cắm chốt vào lỗ đường kính 4 milimét, thời gian giảm từ hơn 90 phút xuống còn khoảng 40 phút. Trên bốn nhiệm vụ thực tế được thử nghiệm, tỷ lệ thành công đạt 99% và các tác nhân đạt độ tin cậy gần như hoàn hảo, nhanh hơn các phương pháp vẫn cần con người có mặt hằng ngày.

Tuy nhiên, khoảng cách giữa mô phỏng và thực tế vẫn lộ rõ. Cả ba tác nhân lập trình đều giải quyết được nhiệm vụ Push-T trong môi trường ảo, nhưng hai trong số ba thất bại khi chuyển sang robot thật. Bề mặt mô phỏng không có ma sát; bàn thật thì có.

Jim Fan, đồng trưởng phòng thí nghiệm GEAR của Nvidia, mô tả ENPIRE là nỗ lực đầu tiên đưa tự nghiên cứu vào thế giới vật lý, trong đó nhóm nghiên cứu chỉ giao cho tác nhân một đội robot, một phân bổ GPU và một ngân sách token, rồi lùi lại. Bước đi này mở rộng tầm nhìn từ Eureka, hệ thống năm 2023 của Nvidia dùng mô hình ngôn ngữ để viết hàm thưởng trong môi trường mô phỏng, lên một vòng lặp tự cải thiện hoàn chỉnh trên phần cứng thực.

Tuần này, Alibaba cũng ra mắt Qwen-Robot Suite, bộ ba mô hình nền tảng dành cho điều hướng và thao tác robot. Hai hướng đi khác nhau, Alibaba xây dựng phần mềm cho phần cứng bên ngoài, Nvidia thử nghiệm vòng lặp khép kín từ đầu đến cuối, đều chỉ về cùng một xu hướng: robot vật lý đang trở thành đấu trường cạnh tranh tiếp theo của các tác nhân AI.