Apple đã công bố báo cáo chi tiết về Apple Foundation Language Models, mô hình AI của Apple Intelligence, khẳng định cách tiếp cận “có trách nhiệm” trong quá trình thu thập dữ liệu huấn luyện.
Vào ngày 29/07/2024, Apple chính thức công bố báo cáo chi tiết về Apple Foundation Language Models, sau khi vướng phải chỉ trích về sử dụng dữ liệu từ tập dữ liệu The Pile, bao gồm phụ đề YouTube, mà chưa được sự đồng ý của các nhà sáng tạo nội dung. Trước đó, tại WWDC 2024 vào tháng 6, Apple đã giới thiệu Apple Intelligence, loạt tính năng AI tạo sinh sẽ sớm có mặt trên các nền tảng iOS, macOS và iPadOS.
Trước đó, tại WWDC 2024 vào tháng 6, Apple đã giới thiệu Apple Intelligence, loạt tính năng AI tạo sinh sẽ sớm có mặt trên các nền tảng iOS, macOS và iPadOS.
Trong báo cáo, Apple khẳng định dữ liệu huấn luyện cho AFM đến từ các nguồn “có trách nhiệm”, bao gồm dữ liệu web công khai, dữ liệu được cấp phép từ các nhà xuất bản, mã nguồn mở trên GitHub và các tập dữ liệu toán học chất lượng cao.
Cụ thể, Apple đã ký kết các thỏa thuận trị giá hàng triệu USD với nhiều nhà xuất bản lớn như NBC, Condé Nast và IAC để được phép sử dụng kho lưu trữ tin tức của họ cho mục đích huấn luyện AI.
Bên cạnh đó, Apple cũng khai thác dữ liệu từ các trang web, diễn đàn, blog,… về toán học để tăng cường khả năng tính toán cho AFM.
Apple nhấn mạnh không sử dụng dữ liệu người dùng riêng tư cho mục đích huấn luyện AI. “Tập dữ liệu huấn luyện sơ bộ] không bao gồm bất kỳ dữ liệu người dùng Apple riêng tư nào”, công ty khẳng định.
Tổng cộng, tập dữ liệu huấn luyện cho AFM nặng khoảng 6,3 nghìn tỷ token, ít hơn một nửa so với con số 15 nghìn tỷ token mà Meta sử dụng cho mô hình Llama 3.1 405B.
Bằng cách công bố chi tiết về nguồn dữ liệu huấn luyện, Apple đang nỗ lực thể hiện mình là một người chơi có trách nhiệm trong lĩnh vực AI.