Anthropic xin lỗi vì cơ chế kiểm duyệt bí mật trong Claude Fable 5

Sau 48 giờ phản ứng dữ dội, Anthropic thừa nhận sai lầm khi âm thầm làm suy giảm hiệu năng của Claude Fable 5 với người dùng bị nghi xây dựng mô hình AI cạnh tranh.

Chỉ vài ngày sau khi ra mắt Claude Fable 5, mô hình đầu tiên thuộc lớp Mythos, được quảng bá là sản phẩm năng lực cao nhất của Anthropic, công ty đã phải lên tiếng xin lỗi công khai vì một cơ chế bảo vệ ẩn bị phát hiện trong tài liệu hệ thống dài 319 trang. Thay vì cảnh báo hoặc từ chối minh bạch, mô hình này âm thầm cung cấp đầu ra kém chất lượng hơn cho những người dùng bị nghi ngờ đang phát triển mô hình AI cạnh tranh, mà không có bất kỳ thông báo nào.

Ranh giới giữa bảo vệ hợp lý và lừa dối người dùng

Cốt lõi của tranh cãi nằm ở sự bất đối xứng thông tin. Claude Fable 5 vốn đã có các biện pháp bảo vệ hiển thị trong lĩnh vực an ninh mạng và nghiên cứu sinh học: khi bị kích hoạt, người dùng nhận được thông báo rằng yêu cầu đang được chuyển sang mô hình Opus 4.8 cũ hơn. Họ biết có điều gì đó đã thay đổi và có thể điều chỉnh.

BÀI VIẾT LIÊN QUAN

Claude Mythos của Anthropic phá vỡ lược đồ chữ ký hậu lượng tử Hawk

Claude Opus 5 vượt Fable 5 trên nhiều tiêu chuẩn, giá chỉ bằng một nửa

Tính cách Claude thay đổi theo mô hình và ngôn ngữ sử dụng

Anthropic gỡ công cụ theo dõi ẩn trong Claude Code

Tuy nhiên, với các tác vụ liên quan đến phát triển mô hình ngôn ngữ lớn, tiền huấn luyện hệ thống AI, xây dựng hạ tầng huấn luyện phân tán hay thiết kế chip học máy, cơ chế vận hành hoàn toàn khác: mô hình âm thầm sửa đổi hành vi thông qua điều chỉnh câu lệnh, vector định hướng hoặc tinh chỉnh tham số, đưa ra câu trả lời kém hơn mà không hề thông báo. Người dùng vẫn nhận được phản hồi, chỉ là không phải từ Fable 5 đúng như phiên bản họ trả tiền để sử dụng.

Vấn đề trở nên nghiêm trọng hơn khi bộ phân loại nhận diện sai. Công ty nghiên cứu SemiAnalysis là một trong những bên đầu tiên lên tiếng sau khi phát hiện nghiên cứu GPU inference hợp pháp của họ bị gắn cờ. Đối với các nhà nghiên cứu học máy, một thí nghiệm thất bại có vẻ giống hệt nhau dù nguyên nhân là giả thuyết sai hay mô hình bị bí mật chỉ đạo hoạt động kém hiệu quả, và đó là mối đe dọa trực tiếp đối với khả năng tái lập kết quả nghiên cứu.

Đến thứ Năm, Anthropic thừa nhận đây là “sự đánh đổi sai lầm”. Bắt đầu từ tuần này, các yêu cầu bị gắn cờ sẽ được chuyển hướng hiển thị sang Opus 4.8 thay vì bị xử lý bí mật, trong khi người dùng API sẽ nhận được lý do rõ ràng khi yêu cầu bị từ chối.

Song lời xin lỗi đi kèm một thừa nhận thẳng thắn: làm cho các biện pháp bảo vệ trở nên hiển thị cũng khiến chúng dễ bị vượt qua hơn, buộc bộ phân loại phải quét rộng hơn, đồng nghĩa với việc số trường hợp nhận diện sai sẽ tăng lên trong thời gian tinh chỉnh, mà không có mốc thời gian cụ thể nào được đưa ra.

Quan trọng hơn, Anthropic không loại bỏ nhóm hạn chế này mà chỉ làm cho chúng trở nên minh bạch. Đối với những người phản đối bản thân các hạn chế đó, bản sửa lỗi hôm thứ Năm chỉ giải quyết được một phần vấn đề. Fable 5 vẫn được cung cấp miễn phí trên các gói Pro, Max, Team và Enterprise đến ngày 22/6 trước khi chuyển sang mô hình tính phí theo tín dụng API.