NIST phát hành công cụ đánh giá rủi ro của mô hình AI

Viện Tiêu chuẩn và Công nghệ Quốc gia Mỹ (NIST) vừa tái phát hành Dioptra nhằm đánh giá rủi ro của các mô hình AI đang hiện hành.

Theo Techcrunch, trong bối cảnh lo ngại về an toàn và đạo đức của trí tuệ nhân tạo (AI) hiện nay, NIST – cơ quan trực thuộc Bộ Thương mại Mỹ – đã chính thức phát hành lại công cụ thử nghiệm Dioptra. Công cụ này được thiết kế để đánh giá và phân tích rủi ro tiềm ẩn trong các mô hình AI, đặc biệt là khả năng chống lại các cuộc tấn công độc hại nhắm vào dữ liệu huấn luyện.

Dioptra, được đặt theo tên của dụng cụ thiên văn cổ đại, là một công cụ mã nguồn mở, có thể truy cập trực tuyến và được mô-đun hóa. Nó lần đầu tiên được phát hành vào năm 2022 và được NIST coi là một phần trong nỗ lực của NIST nhằm hiện thực hóa sắc lệnh hành pháp (EO) của Tổng thống Joe Biden về việc thiết lập các tiêu chuẩn an toàn và bảo mật cho AI.

BÀI VIẾT LIÊN QUAN

Blockchain và AI: động lực thúc đẩy DePIN cán mốc 3.500 tỷ USD vào năm 2028

Tether ra mắt nền tảng AI phi tập trung mã nguồn mở

Hiện đại hóa quy trình CA bằng công nghệ AI, blockchain và hợp tác toàn ngành

Chính quyền Trump cân nhắc lệnh cấm DeepSeek

NIST Đi-ốp — *Ảnh chụp màn hình giao diện của Dioptra.Nguồn hình ảnh: NIST*

Theo NIST, Dioptra có thể được sử dụng để đánh giá hiệu suất của các mô hình AI, nghiên cứu về các mô hình này và cung cấp một nền tảng chung để phơi bày các mô hình AI đến các mối đe dọa mô phỏng trong một môi trường “đội đỏ” (red-teaming). Đặc biệt, công cụ tập trung vào việc đo lường mức độ ảnh hưởng của các cuộc tấn công “đầu độc” dữ liệu huấn luyện đến hiệu suất của mô hình AI.

NIST nhấn mạnh rằng Dioptra có thể giúp cộng đồng, bao gồm các cơ quan chính phủ và các doanh nghiệp vừa và nhỏ, tiến hành đánh giá để đánh giá các tuyên bố của nhà phát triển AI về hiệu suất của hệ thống của họ.

Sự ra đời của Dioptra đi kèm với các tài liệu từ NIST và Viện An toàn AI mới thành lập của NIST, nêu bật các cách thức để giảm thiểu một số mối nguy hiểm của AI, chẳng hạn như việc lạm dụng AI để tạo ra nội dung khiêu dâm phi pháp. Sự kiện này theo sau sự ra mắt của công cụ Inspect của Viện An toàn AI Vương quốc Anh, một bộ công cụ tương tự nhằm đánh giá khả năng và an toàn tổng thể của các mô hình AI.

Mặc dù vậy, NIST thừa nhận Dioptra vẫn còn một số hạn chế. Hiện tại, công cụ mới chỉ hoạt động với các mô hình có thể tải xuống và sử dụng cục bộ như Llama của Meta. Các mô hình được bảo vệ bởi API, chẳng hạn như GPT-4 của OpenAI, hiện không thể sử dụng được với Dioptra.

Tuy nhiên, cơ quan này cho rằng Dioptra có thể làm sáng tỏ các loại cuộc tấn công nào có thể khiến hệ thống AI hoạt động kém hiệu quả hơn và định lượng tác động của chúng đến hiệu suất.

Các tiêu chuẩn kiểm tra AI hiện nay còn hạn chế, do các mô hình AI vào thời điểm này thường là những “hộp đen” – ít nhất là vì những mô hình AI tinh vi nhất ngày nay là những hộp đen mà cơ sở hạ tầng, dữ liệu huấn luyện và các chi tiết quan trọng khác được giữ bí mật bởi các công ty tạo ra chúng

Báo cáo từ Viện Ada Lovelace, một tổ chức nghiên cứu phi lợi nhuận có trụ sở tại Vương quốc Anh nghiên cứu AI, cho thấy rằng các đánh giá đơn thuần không đủ để xác định tính an toàn thực tế của một mô hình AI vì các chính sách hiện tại cho phép các nhà cung cấp AI chọn lọc các đánh giá để tiến hành.

Việc phát triển các công cụ đánh giá rủi ro AI như Dioptra là rất cần thiết trong bối cảnh AI đang ngày càng phổ biến và đóng vai trò quan trọng trong nhiều lĩnh vực. NIST hy vọng rằng Dioptra sẽ góp phần thúc đẩy sự minh bạch và trách nhiệm trong phát triển và triển khai AI, đồng thời giúp giảm thiểu rủi ro tiềm ẩn cho người dùng và xã hội.