X-OmniClaw của Oppo chạy trực tiếp trên thiết bị, khai thác camera, micro và màn hình để thực thi tác vụ trong ứng dụng thật — không qua đám mây, không cần đám mây.
Phần lớn các hệ thống tác nhân AI di động hiện nay không thực sự chạy trên điện thoại của người dùng. Chúng hoạt động trên các máy chủ đám mây, nơi lưu trữ các bản sao Android ảo, cho phép AI điều khiển ứng dụng từ xa mà không có quyền truy cập vào camera thật, ảnh cục bộ hay bất kỳ dữ liệu thực nào của người dùng.
Oppo muốn thay đổi điều đó. Multi-X Team thuộc nhà sản xuất điện thoại Trung Quốc này vừa công bố X-OmniClaw, một khung tác nhân AI mã nguồn mở dành cho Android, thực thi trực tiếp trên thiết bị vật lý, khai thác toàn bộ phần cứng vốn đã có sẵn nhưng chưa được tận dụng: camera, micro và màn hình.
Kiến trúc của X-OmniClaw được tổ chức theo ba trụ cột vận hành như một vòng lặp liên tục. Omni Perception hợp nhất luồng dữ liệu từ camera, nội dung màn hình và đầu vào giọng nói vào một quy trình xử lý duy nhất, với một mô hình thị giác-ngôn ngữ diễn giải cảnh thực trước khi tác nhân thực hiện bất kỳ hành động nào.
Omni Action xử lý phần thực thi bằng cách kết hợp dữ liệu giao diện XML với mô hình thị giác trên thiết bị và OCR, cho phép xác định chính xác vị trí cần tương tác, kể cả trên các màn hình nhiều quảng cáo.
Điểm đáng chú ý là cơ chế behavior cloning: người dùng chỉ cần ghi lại một lần cách điều hướng đến một màn hình ứng dụng nằm sâu, tác nhân có thể phát lại tuyến đường đó tự động thông qua Android deeplink trong các lần tiếp theo.
Bộ nhớ liên tục: ranh giới giữa chatbot và tác nhân thực sự
Yếu tố tách X-OmniClaw khỏi các hệ thống phản hồi thông thường nằm ở Omni Memory, trụ cột duy trì ngữ cảnh xuyên suốt các tác vụ, quá trình chuyển đổi ứng dụng và các phiên sử dụng. Hệ thống xây dựng bộ nhớ ngữ nghĩa dài hạn từ thư viện ảnh của người dùng, chuyển các hình ảnh thô thành ghi chú có cấu trúc về vật thể, cảnh và sự kiện.
Nhờ đó, khi người dùng yêu cầu tạo một video điểm nhấn từ các bức ảnh có chủ đề vẹt, tác nhân có thể tự quét thư viện, tìm đúng ảnh bằng bộ nhớ ngữ nghĩa, mở CapCut thông qua deeplink, chọn hàng loạt tệp và tạo video, một quy trình vốn mất vài phút nay được rút gọn thành một chuỗi bước tự động.
Oppo mô tả kiến trúc này theo phép so sánh với ô tô: điện thoại là phương tiện, X-OmniClaw là động cơ để điều khiển và nhận thức, còn các mô hình ngôn ngữ lớn trên đám mây chỉ được gọi đến như nhiên liệu khi cần suy luận nặng, mọi phần còn lại được xử lý cục bộ. Đây là sự đảo ngược đáng kể so với mô hình phổ biến hiện nay, nơi đám mây đóng vai trò trung tâm chứ không phải ngoại vi.
X-OmniClaw ra đời trong bối cảnh các tác nhân AI đang trở thành một trong những nhóm công nghệ được thảo luận sôi nổi nhất năm 2026. OpenClaw, khung tác nhân mã nguồn mở đạt hơn 373.000 sao trên GitHub và sau đó được OpenAI hậu thuẫn, đã chứng minh tiềm năng của các tác nhân chạy cục bộ có tính liên tục trên máy tính cá nhân.
X-OmniClaw mở rộng kiến trúc đó sang thiết bị mà người dùng thực sự mang theo ở mọi nơi, xây dựng trên nền mã nguồn mở HermesApp và thừa nhận mô hình kỹ năng có cấu trúc của OpenClaw là nguồn cảm hứng nền tảng. Mã nguồn hiện đã được công khai trên GitHub và Oppo cho biết sẽ tiếp tục cập nhật dự án khi hệ thống phát triển.








































































