AI vượt giáo sư luật Stanford trong lập luận pháp lý, chính đồng nghiệp họ xác nhận

Nghiên cứu Stanford: Gemini 2.5 Pro thắng 75,92% lượt đối đầu với giảng viên luật, mọi mô hình AI đều vượt trội con người trong 2.918 lượt so sánh.

Một nghiên cứu do Đại học Stanford dẫn dắt vừa đưa ra bằng chứng định lượng đáng chú ý: khi 16 giáo sư luật từ 14 trường hàng đầu tại Mỹ, bao gồm Yale, Chicago, Georgetown và NYU, đánh giá ẩn danh 2.918 cặp câu trả lời về luật hợp đồng, họ liên tục ưa thích các câu trả lời do AI tạo ra hơn câu trả lời do đồng nghiệp của chính họ viết.

Gemini 2.5 Pro của Google giành chiến thắng trong 75,92% lượt đối đầu với giảng viên con người, trong khi NotebookLM của cùng tập đoàn đạt 74,75%. Quan trọng hơn, mọi mô hình AI được đánh giá đều vượt trội hơn so với giảng viên con người xét theo trung bình, không có ngoại lệ.

BÀI VIẾT LIÊN QUAN

Thanh toán siêu nhỏ giữa các tác nhân AI định hình lại hạ tầng tài chính số

Quỹ x402 vận hành độc lập dưới sự bảo trợ của Linux Foundation

CEO Google DeepMind: AGI sẽ tác động lớn hơn cả điện và lửa

OpenAI, Meta và SpaceXAI chạy đua giảm chi phí AI cho doanh nghiệp

Không phải phong cách viết, mà là chất lượng lập luận

Để loại trừ khả năng kết quả phản ánh sở thích về hình thức hơn là nội dung, nhóm nghiên cứu đã phân tích một tập hợp đặc trưng từ vựng và cú pháp, bao gồm độ dài câu trả lời, tổ chức cấu trúc, sắc thái lập luận, căn cứ pháp lý và hỗ trợ sư phạm.

Mức độ đồng thuận quan sát được giữa các giáo sư khi đánh giá cùng một cặp câu trả lời vượt quá mức kỳ vọng nếu các phán đoán hoàn toàn mang tính cá nhân, cho thấy AI đang đáp ứng một tiêu chí chung của ngành chứ không chỉ chiều lòng từng người đánh giá.

Các câu trả lời do AI tạo ra cũng bị gắn cờ là có hại với tần suất thấp hơn đáng kể so với câu trả lời của giảng viên: Gemini ghi nhận tỷ lệ 3,41%, NotebookLM là 3,64%, so với 12,06% từ phía con người. Trong một phân tích bổ sung trên các mô hình khác, Claude Opus 4.7 của Anthropic xếp thứ nhất, tiếp theo là ChatGPT của OpenAI và Gemini 2.5 Pro.

Tuy nhiên, các nhà nghiên cứu thận trọng lưu ý rằng bối cảnh đánh giá không cho phép đo lường mức độ đáp ứng sở thích giảng dạy riêng của từng giáo sư, để ngỏ khả năng các phản hồi AI chỉ được xem là “đủ tốt” theo tiêu chí chung thay vì thực sự xuất sắc theo từng phương pháp tiếp cận cụ thể.

Nghiên cứu được công bố trong bối cảnh ngành luật đang đối mặt đồng thời với hai áp lực trái chiều. Một mặt, nhu cầu tích hợp AI ngày càng rõ ràng: tháng 3 vừa qua, Tòa Thượng thẩm Los Angeles bắt đầu thử nghiệm các công cụ AI hỗ trợ thẩm phán quản lý hồ sơ, trong khi các trường luật đang đua nhau bổ sung chương trình đào tạo về công nghệ này.

Mặt khác, rủi ro vẫn hiện hữu: tháng 4, công ty luật danh tiếng Sullivan & Cromwell thừa nhận trước tòa án phá sản Mỹ rằng một hồ sơ nộp gần đây chứa các trích dẫn giả do AI tạo ra. Khoảng cách giữa năng lực lập luận ấn tượng và độ tin cậy thực tế của AI trong môi trường pháp lý vẫn là câu hỏi mà ngành chưa có lời giải dứt khoát.

Tags: AI