Luật AI mới của Liên minh Châu Âu (EU) sẽ buộc các công ty tiết lộ dữ liệu huấn luyện, tạo nên cuộc tranh cãi lớn về quyền sở hữu trí tuệ.
Sự ra đời của ChatGPT đánh dấu cột mốc quan trọng, mở ra kỷ nguyên bùng nổ của AI tạo sinh (Gen AI). Chỉ trong vòng 18 tháng, công nghệ này đã thu hút lượng đầu tư khổng lồ và ứng dụng rộng rãi trong nhiều lĩnh vực. AI tạo sinh là tập hợp các ứng dụng có thể sản xuất nhanh chóng nội dung văn bản, hình ảnh và âm thanh.
Tuy nhiên, bên cạnh những lợi ích to lớn, AI tạo sinh cũng đặt ra nhiều vấn đề về mặt pháp lý, đặc biệt là câu chuyện về nguồn gốc dữ liệu huấn luyện, theo Reuters.
Nắm bắt được những thách thức này, Liên minh châu Âu (EU) đã tiên phong ban hành Luật AI, dự kiến có hiệu lực trong vòng 2 năm tới. Một trong những điểm đáng chú ý nhất của luật này là yêu cầu các tổ chức triển khai mô hình AI đa năng, điển hình như ChatGPT, phải công khai minh bạch dữ liệu huấn luyện. Cụ thể, họ phải cung cấp “bản tóm tắt chi tiết” về nguồn dữ liệu được sử dụng, bao gồm cả văn bản, hình ảnh và âm thanh.
Quy định này được kỳ vọng sẽ phần nào giải quyết được những lo ngại về việc vi phạm bản quyền khi nhiều công ty AI bị cáo buộc sử dụng trái phép sách, phim ảnh và các tác phẩm nghệ thuật khác để huấn luyện AI mà chưa có sự đồng ý của tác giả.
Tuy nhiên, động thái này vấp phải sự phản đối mạnh mẽ từ phía các công ty công nghệ. Họ cho rằng việc tiết lộ dữ liệu huấn luyện chẳng khác nào “bật mí công thức bí mật”, gây bất lợi cho họ trong cuộc đua cạnh tranh khốc liệt.
Ông Matthieu Riouf, CEO của Photoroom, một công ty chuyên về chỉnh sửa ảnh bằng AI, ví von: “Việc công khai dữ liệu huấn luyện AI cũng giống như việc bắt một đầu bếp danh tiếng tiết lộ công thức nấu ăn bí mật của mình vậy”. Quan điểm này cũng nhận được sự đồng tình từ nhiều ông lớn công nghệ khác như Google, Meta, những đơn vị đang đặt cược tương lai vào AI.
Mức độ chi tiết của các báo cáo minh bạch này sẽ có ảnh hưởng lớn đối với các startup AI nhỏ và các công ty công nghệ lớn như Google và Meta, những công ty đã đặt công nghệ này vào trung tâm hoạt động tương lai của họ.
Trong năm qua, một số công ty công nghệ nổi tiếng, bao gồm Google, OpenAI và Stability AI, đã phải đối mặt với các vụ kiện từ các tác giả cho rằng nội dung của họ đã bị sử dụng không đúng cách để huấn luyện các mô hình. Mặc dù Tổng thống Mỹ Joe Biden đã ban hành một số lệnh hành pháp tập trung vào các rủi ro an ninh của AI, các câu hỏi về bản quyền vẫn chưa được thử nghiệm đầy đủ. Các yêu cầu buộc các công ty công nghệ phải trả tiền cho những người giữ quyền đã nhận được sự ủng hộ lưỡng đảng trong Quốc hội.
Trước sức ép từ dư luận, các ông lớn công nghệ đã rục rịch “xoa dịu” bằng hàng loạt thỏa thuận cấp phép nội dung với các cơ quan truyền thông. Điển hình như OpenAI đã ký kết thỏa thuận với Financial Times và The Atlantic, trong khi Google bắt tay với mạng xã hội Reddit của NewsCorp.
Tuy nhiên, những động thái này vẫn chưa đủ để xoa dịu dư luận. OpenAI tiếp tục hứng chịu chỉ trích khi CTO Mira Murati từ chối trả lời câu hỏi về việc liệu công ty có sử dụng video YouTube để huấn luyện Sora – công cụ tạo video AI – hay không. Vụ việc giọng nói AI của nữ diễn viên Scarlett Johansson trong phiên bản ChatGPT mới nhất càng khiến làn sóng phản đối OpenAI dâng cao.
Giữa tâm bão tranh cãi, Thomas Wolf, đồng sáng lập Hugging Face, lên tiếng ủng hộ minh bạch dữ liệu, nhưng thừa nhận quan điểm này không nhận được sự đồng thuận trong ngành.
Trong khi đó, giới lập pháp châu Âu cũng có những quan điểm trái chiều. Nghị sĩ Dragos Tudorache, một trong những người soạn thảo Luật AI, cho rằng việc công khai dữ liệu huấn luyện là cần thiết để đảm bảo quyền lợi cho các nhà sáng tạo nội dung. “Họ có quyền được biết liệu tác phẩm của mình có bị sử dụng để huấn luyện AI hay không”, ông nhấn mạnh.
Cuộc chiến giữa minh bạch dữ liệu và bí mật thương mại trong lĩnh vực AI đang ngày càng trở nên nóng hơn bao giờ hết. Giới chuyên gia dự đoán đây sẽ là một trong những thách thức lớn nhất mà các nhà hoạch định chính sách và doanh nghiệp phải đối mặt trong thời gian tới.