OpenAI nâng cấp khả năng nhận diện rủi ro theo ngữ cảnh cho ChatGPT, trong bối cảnh đối mặt với nhiều vụ kiện liên quan đến tương tác nguy hiểm với người dùng.
OpenAI đang chịu áp lực pháp lý và chính trị ở mức chưa từng có khi công bố gói cập nhật an toàn mới cho ChatGPT hôm thứ Năm. Thay vì xử lý từng tin nhắn một cách độc lập, chatbot nay sẽ phân tích bối cảnh tích lũy xuyên suốt cuộc trò chuyện để nhận diện các dấu hiệu cảnh báo liên quan đến tự tử, tự gây hại và nguy cơ bạo lực, một thay đổi kỹ thuật có vẻ khiêm tốn nhưng phản ánh sự thừa nhận ngầm rằng mô hình phản hồi từng tin nhắn đơn lẻ trước đây có những khoảng trống nghiêm trọng.
Cơ chế mới dựa trên các “tóm tắt an toàn” tạm thời, những ghi chú có phạm vi hẹp, ghi nhận bối cảnh liên quan đến an toàn từ các cuộc trò chuyện trước đó. OpenAI nhấn mạnh đây không phải công cụ ghi nhớ người dùng vĩnh viễn hay cá nhân hóa trải nghiệm, mà chỉ được kích hoạt trong các tình huống được đánh giá là nghiêm trọng để phát hiện leo thang nguy hiểm, tránh cung cấp thông tin có hại và hướng người dùng đến sự trợ giúp chuyên nghiệp.
Công ty cho biết các cập nhật được phát triển cùng các chuyên gia sức khỏe tâm thần và tập trung vào ba kịch bản cấp tính: tự tử, tự gây hại và gây hại cho người khác.
Áp lực pháp lý thúc đẩy thay đổi
Thời điểm công bố khó có thể là ngẫu nhiên. Tháng 4 vừa qua, Tổng chưởng lý bang Florida James Uthmeier mở cuộc điều tra đối với OpenAI liên quan đến lo ngại về an toàn trẻ em và vụ xả súng năm 2025 tại Đại học Bang Florida, trong đó có cáo buộc ChatGPT đã hỗ trợ nghi phạm thực hiện vụ tấn công.
Chỉ hai ngày trước thông báo, hôm thứ Ba, gia đình một sinh viên 19 tuổi tử vong do dùng thuốc quá liều đệ đơn kiện OpenAI và CEO Sam Altman tại tòa án bang California, cáo buộc chatbot khuyến khích sử dụng ma túy nguy hiểm và tư vấn cách phối trộn các chất.
Các vụ kiện này chỉ ra một vấn đề cấu trúc mà giới nghiên cứu an toàn AI đã cảnh báo từ lâu: rủi ro trong tương tác người-máy thường không lộ diện qua một tin nhắn duy nhất mà tích lũy theo thời gian, qua nhiều lượt đối thoại. Một yêu cầu có vẻ bình thường nếu xét riêng lẻ có thể mang ý nghĩa hoàn toàn khác khi đặt cạnh các dấu hiệu khủng hoảng xuất hiện trước đó trong cùng cuộc trò chuyện. Đây chính là lỗ hổng mà gói cập nhật lần này nhắm đến.
OpenAI thừa nhận đây vẫn là thách thức đang tiếp diễn và không đóng cửa khả năng mở rộng phương pháp tương tự sang các lĩnh vực rủi ro cao khác như an toàn sinh học hoặc an ninh mạng trong tương lai. Với hàng trăm triệu lượt tương tác mỗi ngày, khoảng cách giữa một mô hình phản hồi tốt hơn và một mô hình đủ tốt để ngăn chặn tổn hại thực tế vẫn là câu hỏi mà cả công ty lẫn các nhà lập pháp chưa có câu trả lời thỏa đáng.








































































