Roblox giới thiệu hệ thống ML theo dõi vi phạm chính sách trong giao tiếp giọng nói, nhằm tạo ra môi trường trực tuyến an toàn và văn minh.
Trong thông báo ngày 8/7, ông Kiran Bhat – Giám đốc kỹ thuật cấp cao của Roblox cho biết công ty đã triển khai thành công hệ thống “Giám sát thời gian thực” (Real-time Safety) hoạt động dựa trên mô hình học máy, xử lý hàng triệu phút hoạt động thoại mỗi ngày. Hệ thống này có khả năng phát hiện vi phạm chính sách trong giao tiếp bằng giọng nói với độ chính xác cao hơn so với kiểm duyệt bởi con người.
Hệ thống “Giám sát thời gian thực” là một nỗ lực đầy tham vọng, đánh dấu bước tiến mới trong lĩnh vực an toàn trực tuyến. Theo Roblox, hiện chưa có công ty nào khác trong ngành cung cấp tính năng an toàn giọng nói đa ngôn ngữ, gần thời gian thực cho người dùng.
Hệ thống hoạt động dựa trên việc phân tích cả hai yếu tố gồm phong cách âm thanh (bao gồm âm lượng, ngữ điệu) và nội dung được nói. Sau khi phát hiện vi phạm, hệ thống sẽ gửi cảnh báo tới người dùng đang vi phạm. Nếu hành vi đó tiếp tục diễn ra, Roblox sẽ áp dụng các biện pháp mạnh tay hơn.
Khắc phục thách thức về dữ liệu
Để xây dựng hệ thống này, Roblox đã phải vượt qua nhiều thách thức về dữ liệu. Ban đầu, công ty gần như không có dữ liệu thực tế được gắn nhãn bởi con người với quy mô lớn. Để huấn luyện một mô hình học máy hiệu quả, Roblox cần một lượng lớn dữ liệu được gán nhãn. Tuy nhiên, việc thu thập và gán nhãn thủ công cho hàng nghìn giờ dữ liệu thoại là quá trình vô cùng tốn kém về thời gian và nguồn lực.
Roblox đã giải quyết vấn đề này bằng cách kết hợp dữ liệu được gắn nhãn tự động cho quá trình huấn luyện và dữ liệu được gắn nhãn thủ công cho quá trình đánh giá:
- Dữ liệu được gắn nhãn tự động cho quá trình huấn luyện: Roblox đã sử dụng lượng lớn dữ liệu được gắn nhãn bằng máy với mức độ giám sát yếu. Cách tiếp cận này cho phép Roblox gắn nhãn khối lượng dữ liệu cần thiết cho mô hình trong vài tuần thay vì vài năm.
- Dữ liệu được gắn nhãn thủ công cho quá trình đánh giá: Roblox tận dụng đội ngũ kiểm duyệt nội bộ, vốn đang phân loại các báo cáo lạm dụng từ người dùng, để gắn nhãn thủ công cho dữ liệu đánh giá.
Kiến trúc hệ thống
Hệ thống “Giám sát thời gian thực” được xây dựng dựa trên kiến trúc Transformer, phù hợp với yêu cầu về độ trễ thấp (phản hồi gần thời gian thực) và khả năng xử lý chuỗi dữ liệu hiệu quả. Roblox đã thử nghiệm và lựa chọn WavLM và Whisper – hai mô hình mã hóa nguồn mở phổ biến trong cộng đồng nghiên cứu âm thanh – để huấn luyện hệ thống.
Hệ thống hoạt động theo quy trình 3 bước:
- Chia đoạn âm thanh: Giai đoạn đầu tiên của hệ thống liên quan đến việc chia âm thanh thành các đoạn nhỏ hơn, hoặc các đoạn ngắn hơn, bất cứ khi nào phát hiện các khoảng lặng giữa các câu. Điều này cho phép nhận diện và gán nhãn nội dung vi phạm chính sách một cách hiệu quả hơn.
- Chuyển đổi giọng nói thành văn bản: Giai đoạn thứ hai của hệ thống bao gồm việc chuyển đổi các đoạn âm thanh này thành văn bản bằng cách sử dụng mô hình nhận dạng giọng nói tự động (ASR). Các mô hình ASR được sử dụng có mã nguồn mở công khai.
- Phân loại văn bản: Giai đoạn cuối cùng của hệ thống bao gồm việc phân loại văn bản được chuyển đổi bằng bộ lọc văn bản nội bộ của Roblox. Bộ lọc này được thiết kế để phát hiện và chặn nội dung được gán nhãn các danh mục và từ khóa vi phạm chính sách. Bộ lọc văn bản là một mô hình kết hợp được đào tạo trên dữ liệu văn bản vi phạm chính sách được gán nhãn bởi con người, bao gồm mô hình DistilBERT mở rộng và các quy tắc biểu thức chính quy.
Để tối ưu hóa hiệu suất, Roblox đã áp dụng các kỹ thuật lượng tử hóa, thay đổi phương thức trích xuất đặc trưng và tích hợp mô hình phát hiện hoạt động giọng nói (VAD) vào hệ thống.
Kết quả
Sau khi triển khai, hệ thống đã giúp Roblox giảm đáng kể hành vi vi phạm chính sách trên nền tảng. Cụ thể, Roblox ghi nhận mức giảm 15.3% số lượng báo cáo lạm dụng bằng giọng nói ở mức độ nghiêm trọng và giảm 11.4% số vi phạm trên mỗi phút thoại.
Roblox đang tiếp tục nghiên cứu và cải tiến “Giám sát thời gian thực”, bao gồm việc mở rộng khả năng hỗ trợ đa ngôn ngữ, nhằm mang đến một môi trường trực tuyến lành mạnh cho người dùng.