Một nghiên cứu mới từ Viện Ada Lovelace (ALI) chỉ ra rằng, các bài kiểm tra an toàn AI hiện nay còn nhiều bất cập.
Nghiên cứu của ALI phỏng vấn 16 chuyên gia từ các phòng thí nghiệm học thuật, xã hội dân sự và các nhà cung cấp mô hình AI, đồng thời phân tích các nghiên cứu gần đây về đánh giá mức độ an toàn và tin cậy của các mô hình AI tạo sinh.
Elliot Jones, nhà nghiên cứu cấp cao tại ALI và đồng tác giả của báo cáo, cho biết với Techcrunch: “Trong các lĩnh vực như điện thoại thông minh, thuốc kê đơn hoặc xe hơi, các sản phẩm được kiểm tra nghiêm ngặt trước khi ra mắt để đảm bảo an toàn. Tuy nhiên, các phương pháp đánh giá an toàn AI hiện tại chưa đáp ứng được tiêu chuẩn tương tự.”
Các kết quả cho thấy sự bất đồng lớn trong ngành về cách đánh giá. Một số bài kiểm tra chỉ tập trung vào việc đánh giá hiệu suất mô hình trong môi trường phòng thí nghiệm, bỏ qua tác động thực tế đối với người dùng. Các chuyên gia cũng chỉ ra nguy cơ thao túng kết quả đánh giá và hạn chế trong việc dự đoán hành vi của mô hình trong thế giới thực.
Ví dụ, một mô hình có thể vượt qua kỳ thi luật sư, nhưng điều đó không đảm bảo khả năng xử lý những thách thức pháp lý phức tạp trong thực tế. Vấn đề “ô nhiễm dữ liệu,” khi mô hình được huấn luyện trên chính dữ liệu được sử dụng để kiểm tra, cũng làm dấy lên lo ngại về tính khách quan của kết quả.
Ngoài ra, nhóm nghiên cứu của ALI cũng nhận diện vấn đề với phương pháp “red-teaming” – một thực hành phổ biến nhằm tìm kiếm các lỗ hổng và sai sót trong mô hình bằng cách tấn công vào nó. Mặc dù được các công ty AI hàng đầu như OpenAI và Anthropic áp dụng, việc thiếu các tiêu chuẩn chung cho phương pháp này đang khiến việc đánh giá hiệu quả của các nỗ lực này trở nên khó khăn, đặc biệt đối với các công ty nhỏ thiếu nguồn lực.
Theo các chuyên gia, áp lực phát triển và thương mại hóa AI nhanh chóng đang cản trở việc đánh giá an toàn một cách đầy đủ. Nghiên cứu kêu gọi chính phủ vào cuộc, thiết lập các tiêu chuẩn đánh giá minh bạch, hỗ trợ hệ thống kiểm tra độc lập và thúc đẩy sự tham gia của cộng đồng.
Giải pháp được đề xuất bao gồm việc xây dựng các bài đánh giá theo ngữ cảnh cụ thể, xem xét đa dạng đối tượng người dùng và tăng cường đầu tư cho nghiên cứu khoa học cơ bản về AI.
Nghiên cứu của ALI gióng lên hồi chuông cảnh tỉnh về tầm quan trọng của an toàn AI. Bài toán đặt ra không chỉ là làm sao để tạo ra những cỗ máy thông minh, mà còn là làm sao để đảm bảo chúng phục vụ lợi ích con người một cách an toàn và bền vững.