AI có thể đối mặt với nguy cơ “sụp đổ mô hình” khi được huấn luyện trên dữ liệu do chính nó tạo ra.
Cụ thể, đó là một nghiên cứu mới được công bố trên tạp chí Nature bởi các nhà khoa học Anh và Canada do Ilia Shumailov tại Đại học Oxford dẫn đầu, và được Techcrunch tường thuật lại, cho thấy các mô hình học máy hiện nay về cơ bản dễ bị tổn thương trước một hội chứng mà họ gọi là “sụp đổ mô hình”.
Mô hình sụp đổ là hiện tượng trí tuệ nhân tạo (AI) dần quên mất phân phối dữ liệu thực tế sau nhiều lần được huấn luyện từ dữ liệu do AI khác tạo ra.
Lý giải về hiện tượng này, AI hoạt động dựa trên việc nhận diện và tái tạo các mẫu có sẵn. Khi được yêu cầu tạo ra nội dung mới, mô hình AI sẽ dựa trên dữ liệu đã học để tạo ra kết quả có khả năng xuất hiện cao nhất. Điều này có nghĩa là chúng sẽ ưu tiên tạo ra những nội dung phổ biến, quen thuộc nhất.
Vấn đề nằm ở chỗ, ngày càng có nhiều nội dung trực tuyến được tạo ra bởi chính AI, và các mô hình AI mới có khả năng sẽ tiếp tục được đào tạo dựa trên nguồn dữ liệu này. Điều này tạo ra một vòng lặp, trong đó các mô hình AI liên tục học hỏi lẫn nhau, dẫn đến sự mất mát dần dần về tính đa dạng và độ chính xác của dữ liệu.
Ví dụ, nếu một mô hình AI được huấn luyện trên tập dữ liệu hình ảnh chủ yếu là chó Golden Retriever do các AI khác tạo ra, nó sẽ cho rằng Golden Retriever chiếm đa số trong thế giới thực và tiếp tục tạo ra thêm nhiều hình ảnh về giống chó này. Theo thời gian, mô hình này có thể “quên” đi sự tồn tại của các giống chó khác, dẫn đến sự sụp đổ mô hình.
Minh họa trực quan trên tạp chí Nature cho thấy rõ quá trình này. Tương tự với mô hình ngôn ngữ, AI ưu tiên dữ liệu phổ biến nhất trong tập huấn luyện. Vấn đề phát sinh khi dữ liệu đó đến từ chính những nội dung do AI tạo ra trên internet.
Về bản chất, việc ưu tiên dữ liệu phổ biến nhất trong tập dữ liệu huấn luyện để đưa ra câu trả lời là điều đúng đắn. Tuy nhiên, điều này sẽ trở thành vấn đề khi dữ liệu huấn luyện chủ yếu là nội dung do AI tạo ra và thiếu đi sự phong phú của thế giới thực.
Nghiên cứu chỉ ra rằng, nếu các mô hình AI tiếp tục “ăn” dữ liệu của nhau, chúng sẽ dần trở nên kỳ quặc và kém thông minh hơn cho đến khi sụp đổ. Các nhà nghiên cứu đã đưa ra nhiều ví dụ và phương pháp giảm thiểu, nhưng họ cho rằng sự sụp đổ mô hình là “không thể tránh khỏi”, ít nhất là trên lý thuyết.
Khả năng này đặt ra một thách thức lớn cho ngành AI. Dữ liệu huấn luyện đa dạng và chất lượng cao được coi là yếu tố quan trọng nhất quyết định chất lượng của mô hình AI. Việc thiếu hụt dữ liệu chất lượng hoặc việc tạo ra dữ liệu mới có nguy cơ dẫn đến sụp đổ mô hình đặt ra một câu hỏi lớn: Liệu cách tiếp cận hiện tại của chúng ta có đang giới hạn tiềm năng thực sự của AI?
Vậy giải pháp cho vấn đề này là gì? Mặc dù chưa có câu trả lời rõ ràng, các chuyên gia cho rằng việc thiết lập các tiêu chuẩn đánh giá chất lượng và nguồn gốc dữ liệu là vô cùng cần thiết. Bên cạnh đó, việc gắn nhãn dữ liệu được tạo ra bởi AI cũng có thể giúp các mô hình khác tránh sử dụng nguồn dữ liệu này.
Tuy nhiên, thách thức lớn nhất chính là sự minh bạch về nguồn gốc dữ liệu. Lợi ích của các công ty công nghệ đang nắm giữ khối dữ liệu khổng lồ có thể là rào cản cho việc giải quyết bài toán “sụp đổ mô hình”, đe dọa đến tương lai của toàn ngành AI.
Nếu không sớm có giải pháp hiệu quả, nguy cơ AI tự “ăn thịt” chính mình và dẫn đến sự trì trệ trong phát triển là điều hoàn toàn có thể xảy ra.
Giá trị của dữ liệu thu thập về các tương tác thực sự của con người với các hệ thống sẽ ngày càng có giá trị trong bối cảnh nội dung do mô hình ngôn ngữ lớn (LLM) tạo ra ngày càng nhiều trong dữ liệu thu thập từ internet.