SpeechMap đo lường phản ứng của chatbot

SpeechMap tiết lộ xu hướng đáng chú ý về cách các mô hình AI như ChatGPT và Grok phản hồi các vấn đề nhạy cảm, với Grok 3 cho thấy tỷ lệ đáp ứng cao nhất.

Một nhà phát triển ẩn danh vừa ra mắt công cụ “đánh giá tự do ngôn luận” có tên SpeechMap, nhằm so sánh phản ứng của các mô hình AI đằng sau các chatbot phổ biến như ChatGPT của OpenAI và Grok của X (Twitter) khi đối mặt với các chủ đề nhạy cảm và gây tranh cãi.

Theo thông tin từ nhà phát triển sử dụng biệt danh “xlr8harder” trên X, động lực chính để xây dựng SpeechMap là nhằm thúc đẩy cuộc thảo luận công khai về ranh giới phản hồi của các mô hình AI.

BÀI VIẾT LIÊN QUAN

Người đàn ông nhận tội dùng AI tạo 8 triệu USD tiền bản quyền phát nhạc gian lận

Visa Crypto Labs ra mắt công cụ CLI thanh toán bản địa cho tác tử AI

Allium đưa 65 TB dữ liệu đa chuỗi lên Walrus

Ledger và MoonPay cho phép con người kiểm soát ví tài sản mã hóa của tác nhân AI

“Tôi tin rằng những cuộc thảo luận này nên diễn ra công khai, không chỉ trong các trụ sở doanh nghiệp,” xlr8harder chia sẻ qua email với TechCrunch. “Đó là lý do tôi xây dựng trang web này để cho phép mọi người tự khám phá dữ liệu.”

Kết quả đánh giá và xu hướng đáng chú ý

SpeechMap sử dụng các mô hình AI để đánh giá liệu các mô hình khác có đáp ứng một tập hợp các câu hỏi kiểm tra hay không. Những câu hỏi này bao gồm nhiều lĩnh vực từ chính trị đến các quan điểm lịch sử và biểu tượng quốc gia. Công cụ này ghi lại liệu các mô hình có “hoàn toàn” thỏa mãn yêu cầu (trả lời mà không né tránh), đưa ra câu trả lời “né tránh”, hay từ chối trả lời.

Dữ liệu từ SpeechMap cho thấy các mô hình của OpenAI, theo thời gian, ngày càng từ chối trả lời các câu hỏi liên quan đến chính trị. Mặc dù các mô hình GPT-4.1 mới nhất có phần cởi mở hơn, nhưng vẫn hạn chế hơn so với một số phiên bản trước đó của công ty. Điều này phản ánh tuyên bố của OpenAI hồi tháng 2 về việc điều chỉnh các mô hình tương lai để không đưa ra quan điểm biên tập và cung cấp nhiều góc nhìn về các chủ đề gây tranh cãi.

HIỆU SUẤT CỦA MÔ HÌNH OPENAI TRÊN SPEECHMAP THEO THỜI GIAN
TÍN DỤNG HÌNH ẢNH: OPENAI

Đáng chú ý nhất, Grok 3 do startup xAI của Elon Musk phát triển là mô hình cởi mở nhất trong nhóm với tỷ lệ đáp ứng 96,2% các câu hỏi kiểm tra của SpeechMap, vượt xa mức trung bình toàn cầu 71,3%.

“Trong khi các mô hình gần đây của OpenAI ngày càng trở nên ít cởi mở hơn, đặc biệt là với các câu hỏi nhạy cảm về chính trị, xAI lại đang đi theo hướng ngược lại,” xlr8harder nhận định.

Khi Musk giới thiệu Grok cách đây khoảng hai năm, ông đã định vị mô hình AI này như một giải pháp sẵn sàng trả lời các câu hỏi gây tranh cãi mà các hệ thống AI khác từ chối. Các phiên bản trước của Grok vẫn còn thận trọng với các chủ đề chính trị, nhưng Grok 3 dường như đã đạt được mục tiêu “trung lập chính trị” mà Musk hướng tới.

SpeechMap, dù còn những hạn chế như “nhiễu” do lỗi nhà cung cấp mô hình hay khả năng các mô hình “đánh giá” chứa định kiến, vẫn cung cấp một góc nhìn thú vị về cách các công ty AI đang định hình ranh giới phản hồi cho các sản phẩm chatbot của họ.