Cú lừa kiểm soát nội dung bằng AI của Facebook
Các kỹ sư Facebook thừa nhận thuật toán lọc nội dung bằng trí tuệ nhân tạo (AI) cho hiệu quả thực tế rất kém, trong khi lãnh đạo công ty luôn hứa hẹn về hệ thống trước công chúng.
Các lãnh đạo Facebook từng hứa hẹn AI có thể giúp xóa nội dung thù địch, kích động bạo lực và người dùng chưa đủ tuổi tham gia nền tảng. Tuy nhiên, tài liệu nội bộ mà WSJ có được từ Facebook cho thấy hiệu quả của thuật toán rất kém, không thể xác định đâu là video xả súng, phân biệt chủng tộc hay nhận biết giữa video đá gà với tai nạn xe.
Cũng trong tài liệu, các nhân viên Facebook ước tính công ty chỉ xóa một phần nhỏ bài đăng vi phạm chính sách (dưới 10%). Khi thuật toán không thể xác định nội dung có vi phạm hay không, tần suất hiển thị bài viết bị giảm nhưng người đăng bài không bị phạt.
Đầu tư nhiều nhưng hiệu quả kém
Cách đây 2 năm, Facebook đã giảm thời gian để người thật kiểm duyệt nội dung, chỉnh sửa một số điều khoản nhằm giảm khiếu nại từ người dùng. Điều đó khiến công ty phụ thuộc nhiều hơn vào AI, thổi phồng hiệu quả của công cụ này trong các số liệu công khai. Tuy nhiên, những người chịu trách nhiệm giữ sạch nền tảng thừa nhận Facebook họ bất lực với việc sàng lọc nội dung.
"Vấn đề là chúng ta không có, và khả năng không bao giờ có được mô hình nhận biết phần lớn nội dung độc hại, đặc biệt trong các lĩnh vực nhạy cảm", một kỹ sư cấp cao tại Facebook viết vào năm 2019, cho rằng AI của công ty chỉ xóa lượng bài viết tương đương 2% trên nền tảng.
Vào tháng 3, một nhóm nhân viên khác của Facebook cũng đưa ra kết luận tương tự, ước tính AI chỉ xóa lượng bài viết tương đương 3-5% lượt xem nội dung thù địch, và 0,6% với tất cả nội dung vi phạm chính sách trên Facebook về bạo lực và kích động.
Andy Stone, phát ngôn viên Facebook cho biết những con số trên đề cập đến lượng bài viết bị xóa bởi AI, không bao gồm những động thái khác nhằm giảm số người tiếp cận nội dung thù địch, bao gồm hạ vị trí trong News Feed. Guy Rosen, Phó chủ tịch Quản lý Sản phẩm Facebook khẳng định đến hiện nay, chỉ có 5 trong 10.000 lượt xem nội dung chứa câu từ thù ghét, một sự cải thiện so với tỷ lệ 10/10.000 vào giữa năm 2020.
Chúng ta không có, và sẽ không bao giờ có mô hình nhận biết phần lớn nội dung độc hại, đặc biệt trong các lĩnh vực nhạy cảm
WSJ trích lời kỹ sư Facebook nhận xét năm 2019
"Facebook đã thành công khi giảm tỷ lệ lượt xem chứa nội dung thù địch, đó mới là thứ mà chúng tôi tập trung cải thiện", Rosen cho biết những tài liệu được gửi cho WSJ đã cũ. Dù vậy, con số trong tài liệu nội bộ trái ngược với những gì lãnh đạo Facebook tuyên bố trước công chúng về hiệu quả của thuật toán AI trong việc thanh lọc nội dung thù địch, kích động bạo lực.
Vào tháng 9, Facebook cho biết hệ thống AI đã hiệu quả hơn trong "chủ động xóa nội dung vi phạm tiêu chuẩn về lời nói thù địch", lượng nội dung bị xóa nhiều hơn 15 lần so với năm 2017. Tuy nhiên, tài liệu cho thấy AI của Facebook đã phát hiện nhưng bỏ sót video quay cận cảnh vụ xả súng, tai nạn xe và nội dung bạo lực nhắm vào trẻ em chuyển giới.
Facebook tuyên bố chi 13 tỷ USD cho "an toàn và bảo mật" từ năm 2016, tương đương gần 4% doanh thu trong thời gian đó. Năm 2018, Zuckerberg hứa hẹn trước Thượng viện Mỹ rằng trong 5-10 năm tới, Facebook sẽ dùng AI để chủ động phát hiện hầu hết ngôn từ kích động thù địch. 2 năm sau, đồng sáng lập Facebook một lần nữa ca ngợi sự chính xác của hệ thống.
"Thuật toán ngây thơ"
Thuật toán AI của Facebook rà soát hàng tỷ bài đăng để phát hiện nội dung có thể khớp với dữ liệu bị cho vi phạm quy tắc. Việc xây dựng bộ phân loại này tốn nhiều công sức và phức tạp, đòi hỏi lượng lớn con người tìm và đánh dấu bài đăng vi phạm để huấn luyện AI.
Thuật toán của Facebook có thể tự động xóa nội dung thù địch nếu xác định chắc chắn bài viết đó vi phạm chính sách, hoặc hạ vị trí trên News Feed nếu nghi ngờ. Với hình thức spam, bộ phân loại của Facebook hoạt động khá tốt, song với nội dung nhạy cảm hơn thì ngược lại. Một kỹ sư đã so sánh hệ thống của Facebook như học sinh tiểu học, còn "ngây thơ", cần "giáo viên" (con người) để hướng dẫn.
Trong tài liệu, AI của Facebook đã gắn nhãn một video rửa xe thuộc thể loại xả súng góc nhìn thứ nhất, trong khi video bắn súng khác bị nhầm thành tai nạn xe. Dù vậy, Facebook bị cho lạm dụng thuật toán thay vì dùng người kiểm duyệt. Họ làm việc này để tiết kiệm chi phí. Năm 2019, tài liệu cho thấy sử dụng người để xóa nội dung tiêu tốn 2 triệu USD/tuần, tương đương 104 triệu USD/năm.
"Với ngân sách của chúng tôi, ngôn từ kích động thù địch rõ ràng là vấn đề tốn kém nhất", một quản lý của Facebook thừa nhận. Tuy nhiên theo phát ngôn viên Stone, chi phí trên đã được chuyển sang thuê người huấn luyện thuật toán.
Tài liệu cho biết khoảng 75% chi phí dùng để tuyển người xem xét khiếu nại, nhưng phần lớn kết quả sau khi đánh giá lại không phải nội dung thù địch. Do đó, thời gian cho công việc này đã bị Facebook cắt giảm vào năm 2019, đồng thời áp dụng thuật toán tự bỏ qua khiếu nại từ người dùng theo tỷ lệ nhất định nếu cho rằng nội dung không có khả năng vi phạm.
Điều đó giúp tăng tỷ lệ chủ động phát hiện nội dung thù địch. Hiện tại, lượng nội dung bị xóa do AI chiếm gần 98%, so với 24% vào tháng 12/2017. Tuy nhiên, điều đó dấy lên lo ngại Facebook đã phớt lờ nhiều báo cáo từ người dùng, từ đó bỏ qua những nội dung vi phạm khác.
Trải nghiệm người dùng tệ hại
Sự chênh lệch giữa tuyên bố của Facebook về hiệu quả thuật toán AI và trải nghiệm thực tế khiến nhiều người bối rối, kể cả các nhà nghiên cứu và người nổi tiếng.
Năm 2016, ca sĩ Selena Gomez đến trụ sở Facebook, chụp hình cùng Zuckerberg và Giám độc Vận hành Sheryl Sandberg để chúc mừng tài khoản của cô được theo dõi nhiều nhất trên Instagram. Không lâu sau, Gomez thấy một bình luận trong trên Instagram với nội dung "Hãy tự tử đi". Đến tháng 9/2020, Gomez đăng bài trên Instagram, nói rằng Facebook đang gặp "vấn đề nghiêm trọng" với lời nói thù địch, tin giả, phân biệt chủng tộc và cố chấp.
Gomez tiếp tục gửi email đến Facebook nói về những nhóm kích động thù địch xuất hiện rộng rãi trên mạng xã hội. Sau đó, Sandberg phản hồi rằng AI của Facebook đã phát hiện 91% trong tổng số 1,5 triệu bài đăng bị xóa do vi phạm quy tắc về nội dung thù địch. Tuy nhiên, Gomez cho biết lãnh đạo Facebook đã không trả lời câu hỏi rộng hơn, kèm ảnh màn hình chụp một nhóm trên Facebook cổ vũ tư tưởng bạo lực.
Giữa năm 2018, một kỹ sư tại Facebook nhìn thấy nhiều video tai nạn xe và đá gà trong bảng thống kê về nội dung phổ biến. Điều đó có nghĩa người dùng Facebook đã nhìn thấy trong News Feed những video tai nạn xe và đá gà. Tuy nhiên, kỹ sư này không biết tại sao chúng lọt vào News Feed.
Kỹ sư Facebook và một nhóm đồng nghiệp đã huấn luyện thuật toán AI để nhận diện video tai nạn xe và đá gà. Tuy nhiên, "những vấn đề chưa thực sự được giải quyết", nhóm kỹ sư viết trong tài liệu. Để huấn luyện hệ thống, họ đã sử dụng các chương trình như Deep Vision, cho AI xem video đá gà trong nhiều giờ liên tục.
Mọi thứ khó khăn hơn khi Facebook đặt ra quy tắc rằng những trận đá gà nhẹ có thể chấp nhận, chỉ những video đá gà quyết liệt, máu me bị cấm. Tuy nhiên, AI không thể phân biệt tính chất này. Một số trường hợp, AI còn gắn nhầm video đá gà sang tai nạn xe.
Tháng 3/2019, một vụ xả súng kinh hoàng xảy ra tại nhà thờ Hồi giáo ở Christchurch (New Zealand). Thủ phạm đã livestream video xả súng trên Facebook. Tuy nhiên trong một số trường hợp, AI không thể nhận biết các video này để xóa bỏ. Thay vào đó, hệ thống gắn nhầm thể loại xả súng cho các video chơi bắn súng sơn hoặc rửa xe.
Không thể phát hiện ngôn ngữ ngoài tiếng Anh
Tháng 12/2020, nhân viên Facebook từng thảo luận về hệ thống phân loại lời nói thù địch bằng các phương ngữ Ả Rập khác nhau. Tuy nhiên, vấn đề nằm ở dữ liệu để huấn luyện AI còn thiếu, đặc biệt khi các nhân viên còn khó khăn với tiếng Ả Rập chuẩn.
Vào tháng 1, một nhân viên Facebook báo cáo rằng ngôn từ kích động thù địch là một trong những nội dung bị lạm dụng nhiều tại Afghanistan. Tuy nhiên, công ty chỉ có thể loại bỏ 0,23% tổng số bài đăng thù địch tại nước này. Nhân viên giải thích do lượng ngôn từ thù địch bằng tiếng Ả Rập có trong hệ thống quá ít ỏi.
Đến tháng 3, các nhân viên Facebook báo cáo lời nói thù địch đang là nguy cơ lớn tại Assam, khu vực xảy ra bạo lực chống lại người Hồi giáo và các nhóm sắc tộc tại Ấn Độ trước bầu cử. “Assam đang được quan tâm đặc biệt vì chúng tôi không có công cụ phân loại lời nói căm thù của người Assam,” theo một tài liệu lập kế hoạch của Facebook.
Trong khi Facebook chỉ loại bỏ số ít nội dung vi phạm quy tắc, các lãnh đạo công ty được cho "đặc biệt nhạy cảm" với vấn đề "hành động quá mức", nghĩa là xóa nhiều bài đăng không thực sự vi phạm chính sách. Tuy nhiên, nghiên cứu nội bộ của Facebook cho thấy người dùng đánh giá việc xem nội dung thù địch cho trải nghiệm tệ hơn so với nội dung của họ bị gỡ do nhầm lẫn.
Trong cuộc khảo sát trên toàn cầu, xóa nội dung do nhầm lẫn xếp cuối danh sách những vấn đề mà người dùng lo lắng trên Facebook, trong khi nội dung căm thù và bạo lực đứng đầu danh sách. Trong tài liệu năm 2020, một nhà khoa học dữ liệu nói rằng Facebook cho phép các hội nhóm xử lý nội dung thù địch 5 lần trước khi chúng thực sự bị xóa khỏi nền tảng.
Do thuật toán của Facebook đã bỏ sót quá nhiều, việc để các nhóm tự kiểm duyệt có thể giảm tỷ lệ nội dung vi phạm bị xóa. Người này cũng khẳng định dù Facebook đầu tư nhiều, hiệu quả của hệ thống tự xóa nội dung vi phạm bằng AI vẫn rất thấp.
"Chúng tôi có thể giỏi nhất thế giới trong lĩnh vực (tự xóa nội dung vi phạm), nhưng kẻ giỏi nhất không đủ tốt để phát hiện một phần nhỏ trong số nội dung đó", nhân viên này cho biết.