Pliny the Liberator đã bẻ khóa thành công GPT-OSS-120b của OpenAI trong ngày ra mắt, phá vỡ tuyên bố về biện pháp an toàn “miễn nhiễm jailbreak”.
OpenAI vừa trải qua một ngày đầy thử thách khi hai mô hình mã trọng số mở mới của họ – GPT-OSS-120b và GPT-OSS-20b – bị “crack” gần như ngay lập tức sau khi công bố. Đây là những mô hình mã nguồn mở đầu tiên của OpenAI kể từ năm 2019, được quảng bá là nhanh, hiệu quả và được bảo vệ chống jailbreak thông qua huấn luyện đối kháng nghiêm ngặt.
Tuy nhiên, tuyên bố về tính an toàn này đã nhanh chóng bị đánh sập bởi Pliny the Liberator, một trong những hacker AI nổi tiếng nhất trong cộng đồng jailbreak. Vào tối thứ Ba, Pliny đã thông báo trên nền tảng X rằng anh đã bẻ khóa thành công GPT-OSS với dòng tweet đầy khiêu khích: “OPENAI: PWNED 🤗 GPT-OSS: LIBERATED”. Ảnh chụp màn hình kèm theo cho thấy mô hình đã tạo ra các hướng dẫn chế tạo methamphetamine, cocktail Molotov, chất độc thần kinh VX và mã độc.
Sự cố này diễn ra trong thời điểm khá nhạy cảm đối với OpenAI khi công ty đang chuẩn bị ra mắt phiên bản nâng cấp được mong chờ GPT-5. Trước đó, OpenAI đã tự tin tuyên bố rằng GPT-OSS đã vượt qua quy trình thử nghiệm an toàn nghiêm ngặt, bao gồm huấn luyện “cực đoan theo kịch bản rủi ro nhất” trong các lĩnh vực sinh học và an ninh mạng. Safety Advisory Group của công ty cũng đã rà soát và kết luận mô hình không vượt ngưỡng rủi ro cao.
Cuộc thi red teaming 500.000 USD không dành cho Pliny
OpenAI đồng thời công bố cuộc thi red teaming trị giá 500.000 USD nhằm mời gọi các nhà nghiên cứu toàn cầu tìm kiếm và báo cáo các rủi ro mới. Tuy nhiên, Pliny dường như không đủ điều kiện tham gia, có thể do anh chọn công khai kết quả jailbreak thay vì gửi riêng cho công ty. Cả Pliny lẫn OpenAI đều không đưa ra bình luận chính thức về vấn đề này.
Cộng đồng mạng tỏ ra thích thú trước “chiến thắng” này. Một người dùng X viết: “Đến nước này thì các phòng an toàn của các phòng thí nghiệm AI nên đóng cửa hết cho rồi”, trong khi người khác bình luận: “Tôi cần jailbreak này, không phải để làm gì xấu, mà vì OpenAI đã kìm hãm các mô hình này quá chặt.”
Kỹ thuật jailbreak mà Pliny sử dụng vẫn theo mô hình quen thuộc – một prompt nhiều giai đoạn bắt đầu bằng truy vấn trông như bị từ chối, chèn ký hiệu đánh dấu đặc trưng “LOVE PLINY”, sau đó chuyển sang sinh nội dung không bị giới hạn bằng leetspeak để né tránh phát hiện. Đây chính là chiến thuật cũ mà Pliny từng dùng để bẻ khóa GPT-4o, GPT-4.1 và hầu như mọi mô hình lớn của OpenAI trong vòng một năm rưỡi qua.
Thành tích ấn tượng của Pliny được thể hiện qua việc anh đã jailbreak hầu như mọi mô hình lớn của OpenAI chỉ trong vài giờ hoặc vài ngày sau khi phát hành. Kho lưu trữ GitHub mang tên L1B3RT4S của anh, chứa hàng loạt prompt jailbreak cho các mô hình AI khác nhau, hiện có hơn 10.000 lượt gắn sao và vẫn là nguồn tham khảo chính cho cộng đồng jailbreak AI.