Sau sáu tháng thử nghiệm thực tế, hacker huyền thoại George Hotz cảnh báo tác nhân AI đang tạo ra “cơn lũ” mã kém chất lượng khó phát hiện tại các tổ chức lớn.
Cuộc tranh luận lớn nhất trong giới phát triển phần mềm hiện tại vừa có thêm một giọng nói có trọng lượng, và giọng nói đó đứng hẳn về phía hoài nghi. George Hotz, hacker từng bẻ khóa iPhone đầu tiên ở tuổi 17 và đảo ngược kỹ thuật PlayStation 3 trước khi bị Sony kiện, vừa công bố một bài viết có tựa đề “The Eternal Sloptember” với luận điểm trực tiếp: việc ứng dụng đại trà tác nhân lập trình AI sẽ là “một trong những sai lầm tốn kém nhất trong lịch sử lĩnh vực này.”
Điều đáng chú ý là Hotz không viết từ vị trí của người quan sát từ xa. Ông đã dành sáu tháng sử dụng các tác nhân trong các dự án thực tế, một phần của Tinygrad, khung học sâu mã nguồn mở của ông, và một dự án hoàn chỉnh về đảo ngược kỹ thuật phần sụn của một chip USB-PCIe.
Kết luận của ông mang tính thực nghiệm: tác nhân tạo ra tiến độ nhanh ở giai đoạn đầu rồi bàn giao cho người dùng một thứ ông ví như cần gạt máy đánh bạc. Phần hoàn thiện cuối cùng không bao giờ thực sự đến.
Vấn đề không phải là lỗi — mà là lỗi ngày càng khó phát hiện
Luận điểm kỹ thuật cốt lõi của Hotz không phải là tác nhân AI tạo ra mã lỗi, điều đó đã được thừa nhận rộng rãi. Vấn đề ông nêu ra tinh tế hơn và đáng lo ngại hơn: đầu ra của tác nhân bị lỗi “theo một cách ngày càng khó phát hiện hơn.” Đây chính xác là điều có thể kỳ vọng từ một mô hình thống kê ngày càng chính xác hơn, nó học cách tạo ra mã trông đúng, cấu trúc đúng, nhưng thực hiện sai ở các trường hợp biên mà chỉ kỹ sư có kinh nghiệm mới phát hiện được.
Từ nhận xét kỹ thuật đó, Hotz xây dựng một luận điểm tổ chức có tính dự báo rõ ràng. Những người có năng lực cao có vòng phản hồi đủ chặt để nhận ra vấn đề trước khi mã vào sản phẩm. Nhưng nhóm người dùng tác nhân để nhân gấp mười lần sản lượng, đúng đối tượng mà các tập đoàn lớn đang nhắm đến khi triển khai đại trà, lại thiếu cơ chế tự kiểm tra đó.
Kết quả, theo lời ông, là “một thời kỳ hoàng kim cho hàng đống mã kém chất lượng, và một thời kỳ đen tối đối với những viên ngọc chất lượng.” Ông dẫn Apple như một ví dụ cụ thể, đặt câu hỏi thẳng thắn: nếu Apple đang thúc đẩy công cụ lập trình AI trên toàn bộ tổ chức kỹ thuật, macOS sẽ tốt hơn hay tệ hơn trong hai năm tới?
Hotz tự xếp mình vào nhóm “phe LeCun/Marcus”, Yann LeCun của Meta và Gary Marcus, hai nhà nghiên cứu lâu năm hoài nghi rằng mô hình ngôn ngữ lớn về bản chất là hệ thống nhận diện mẫu tinh vi, có thể bắt chước phân phối mã hiện có nhưng không suy luận được qua các vấn đề thực sự mới từ nguyên lý nền tảng.
Ông cũng dự liệu và bác bỏ trước phản biện về cái tôi nghề nghiệp: AFL của Google tìm ra nhiều lỗi hơn LLM và không ai cảm thấy bị đe dọa bởi nó; cờ vua và cờ vây chỉ phổ biến hơn sau khi AI thống trị. Mối lo của ông, ông nhấn mạnh, không phải là bị thay thế.
Bài viết được công bố đúng năm ngày sau khi Andrej Karpathy, người từng hoài nghi các tác nhân đầu năm 2025 nhưng đã đảo chiều quan điểm, gia nhập nhóm tiền huấn luyện của Anthropic và mô tả giai đoạn này là “đặc biệt mang tính định hình.” CEO Anthropic Dario Amodei cũng cho biết một số kỹ sư của công ty đã ngừng tự viết mã để mô hình xử lý, trong khi họ chỉ rà soát đầu ra. Hotz nói ông đã thử làm điều tương tự, và lần nào cũng thấy mình quay lại sửa thủ công.







































































