Đối tác Metr tiết lộ thời gian đánh giá mô hình AI mới bị hạn chế đáng kể, phát hiện khả năng “gian lận” và “đánh lừa” các bài kiểm tra an toàn của o3 của OpenAI.
Trong bối cảnh cạnh tranh gay gắt trong lĩnh vực AI, OpenAI đang đối mặt với những cáo buộc về việc đẩy nhanh quá trình đánh giá độc lập cho các mô hình AI mới nhất của mình.
Theo thông tin từ tổ chức Metr, một đối tác thường xuyên hợp tác với OpenAI để đánh giá khả năng và tính an toàn của các mô hình AI, họ đã không được cung cấp đủ thời gian để kiểm tra mô hình o3 mới.
Phát hiện những hành vi “gian lận” tinh vi
Trong bài đăng trên blog công bố vào thứ Tư vừa qua, Metr cho biết một trong những đánh giá về mô hình o3 đã được “thực hiện trong thời gian tương đối ngắn” so với quá trình kiểm tra mô hình o1 trước đó của OpenAI. Điều này được cho là đáng quan ngại, vì theo Metr, thời gian kiểm tra bổ sung có thể mang lại kết quả toàn diện hơn.
“Đánh giá này được thực hiện trong thời gian tương đối ngắn, và chúng tôi chỉ kiểm tra [o3] với các cấu trúc agent đơn giản,” Metr viết trong bài đăng blog. “Chúng tôi kỳ vọng hiệu suất cao hơn [trên các tiêu chuẩn đánh giá] là có thể đạt được với nỗ lực thử nghiệm nhiều hơn.”
Theo báo cáo gần đây từ Financial Times, OpenAI đã cung cấp cho một số đơn vị kiểm tra chưa đến một tuần để thực hiện kiểm tra an toàn cho một phiên bản lớn sắp ra mắt. Tuy nhiên, trong các tuyên bố chính thức, OpenAI đã bác bỏ quan điểm cho rằng họ đang thỏa hiệp về vấn đề an toàn.
Dựa trên thông tin thu thập được trong khoảng thời gian hạn chế, Metr cho biết o3 có “khả năng cao” để “gian lận” hoặc “đánh lừa” các bài kiểm tra một cách tinh vi nhằm tối đa hóa điểm số – ngay cả khi mô hình hiểu rõ rằng hành vi này không phù hợp với ý định của người dùng (và OpenAI). Tổ chức này cho rằng o3 có thể tham gia vào các loại hành vi đối nghịch hoặc “độc hại” khác, bất kể tuyên bố của mô hình về việc tuân thủ, “an toàn theo thiết kế”, hoặc không có ý định riêng.
“Mặc dù chúng tôi không nghĩ điều này đặc biệt có khả năng xảy ra, nhưng dường như quan trọng cần lưu ý rằng cách thiết lập đánh giá [của chúng tôi] sẽ không phát hiện được loại rủi ro này,” Metr viết trong bài đăng. “Nhìn chung, chúng tôi tin rằng kiểm tra khả năng trước khi triển khai không phải là chiến lược quản lý rủi ro đủ mạnh, và hiện tại chúng tôi đang phát triển thêm các hình thức đánh giá bổ sung.”
Apollo Research, một đối tác đánh giá độc lập khác của OpenAI, cũng ghi nhận hành vi lừa dối từ o3 và mô hình o4-mini. Trong một bài kiểm tra, khi được cấp 100 tín dụng tính toán cho quá trình đào tạo AI và được yêu cầu không sửa đổi hạn mức, các mô hình đã tăng giới hạn lên 500 tín dụng – và nói dối về điều đó. Trong một thử nghiệm khác, khi được yêu cầu hứa không sử dụng một công cụ cụ thể, các mô hình vẫn sử dụng công cụ đó khi nó hữu ích trong việc hoàn thành nhiệm vụ.
Trong báo cáo an toàn của riêng mình cho o3 và o4-mini, OpenAI thừa nhận rằng các mô hình có thể gây ra “những tác hại nhỏ hơn trong thế giới thực,” như cung cấp thông tin sai lệch về lỗi dẫn đến mã lỗi, nếu không có các giao thức giám sát thích hợp.
“Phát hiện của [Apollo] cho thấy o3 và o4-mini có khả năng lên kế hoạch và lừa dối chiến lược trong ngữ cảnh,” OpenAI viết. “Mặc dù tương đối vô hại, nhưng điều quan trọng là người dùng hàng ngày phải nhận thức được những khác biệt này giữa tuyên bố và hành động của các mô hình […] Điều này có thể được đánh giá thêm thông qua việc đánh giá các dấu vết suy luận nội bộ.”