Ứng dụng AI phát hiện tin giả trên không gian mạng
Trong bối cảnh tin giả lan truyền chóng mặt trên không gian mạng, việc ứng dụng AI đa phương thức trong phát hiện thông tin sai lệch và phân tích mạng xã hội đang trở thành yêu cầu cấp thiết. Đây được xem là giải pháp quan trọng nhằm kiểm chứng và cảnh báo sớm rủi ro thông tin trên môi trường số.

Tiến sĩ Phạm Ngọc Minh, Phó trưởng phòng Kỹ thuật điều khiển và Tự động hóa cùng nhóm tác giả triển khai nhiệm vụ nghiên cứu ứng dụng AI đa phương thức trong phát hiện thông tin sai lệch và phân tích mạng xã hội. (Ảnh: TL)
Sự phát triển mạnh mẽ của các nền tảng như Facebook, TikTok, Instagram và YouTube trong những năm gần đây đã làm thay đổi sâu sắc cách con người giao tiếp, tiếp nhận và lan truyền thông tin. Không gian mạng ngày nay không còn giới hạn ở văn bản mà mở rộng sang hình ảnh, video, âm thanh cùng nhiều hình thức tương tác đa dạng khác. Mỗi phút, hàng triệu bài đăng, bình luận và video mới được tạo ra, hình thành nguồn dữ liệu khổng lồ, giàu giá trị cho việc phân tích xu hướng xã hội, nghiên cứu hành vi người dùng, theo dõi dư luận và hỗ trợ hoạch định chính sách.
Tuy nhiên, quá trình xử lý dữ liệu mạng xã hội vẫn đối mặt với nhiều thách thức kỹ thuật. Một trong những khó khăn lớn nhất là khoảng cách ngữ nghĩa giữa các loại dữ liệu khác nhau. Văn bản, hình ảnh hay video thường bổ sung ý nghĩa cho nhau, nhưng các mô hình xử lý đơn phương thức truyền thống lại phân tích tách rời từng thành phần, dẫn tới nguy cơ bỏ sót ngữ cảnh tổng thể.
Bên cạnh đó, dữ liệu mạng xã hội thường thiếu cấu trúc, chứa nhiều nhiễu, tiếng lóng, từ viết tắt hoặc nội dung có chất lượng không đồng đều, khiến việc trích xuất thông tin chính xác trở nên phức tạp hơn. Đặc biệt, tốc độ lan truyền thông tin gần như tức thời trên môi trường số đòi hỏi các hệ thống AI phải có khả năng phân tích đồng thời nhiều loại dữ liệu và xử lý theo thời gian thực để kịp thời phát hiện xu hướng hoặc cảnh báo rủi ro.
Trước yêu cầu đó, các nhà khoa học thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam gồm Tiến sĩ Phạm Ngọc Minh; Phó Giáo sư, Tiến sĩ Nguyễn Long Giang, Phó Giáo sư, Tiến sĩ Nguyễn Việt Anh (Viện Công nghệ thông tin) và Tiến sĩ Ngô Duy Tân (Trung tâm Vũ trụ Việt Nam) đã triển khai nghiên cứu về ứng dụng AI đa phương thức trong hỗ trợ phát hiện, đánh giá mức độ đáng tin cậy hoặc khả năng sai lệch của thông tin và phân tích mạng xã hội. Nghiên cứu được kỳ vọng mở ra hướng tiếp cận mới trong giám sát xu hướng thông tin và nâng cao hiệu quả phát hiện tin giả trên không gian mạng.
Chia sẻ về nghiên cứu này, Tiến sĩ Phạm Ngọc Minh, Phó trưởng phòng Kỹ thuật điều khiển và Tự động hóa (Viện Công nghệ thông tin) cho biết: AI đa phương thức là mô hình trí tuệ nhân tạo có khả năng tiếp nhận và xử lý đồng thời nhiều dạng dữ liệu như văn bản, hình ảnh, âm thanh và video. Điểm nổi bật của công nghệ này nằm ở khả năng liên kết và phân tích mối quan hệ giữa các phương thức dữ liệu, thay vì xử lý tách rời từng thành phần như các mô hình truyền thống.
Một hệ thống AI đa phương thức thường gồm ba thành phần chính: mô-đun đầu vào để trích xuất đặc trưng từ từng loại dữ liệu; mô-đun hợp nhất nhằm kết nối và đồng bộ các đặc trưng; cùng mô-đun đầu ra phục vụ các tác vụ như phân loại, dự đoán hoặc tạo nội dung. Sự phát triển của mô hình này được hỗ trợ bởi nhiều công nghệ nền tảng như học sâu, xử lý ngôn ngữ tự nhiên, thị giác máy tính và xử lý âm thanh. Trong đó, các công nghệ nhận diện giọng nói và phân tích cảm xúc giúp AI hiểu sâu hơn nội dung từ video, podcast hay các dữ liệu đa phương tiện khác.
Nhằm đáp ứng yêu cầu xử lý khối lượng dữ liệu lớn từ mạng xã hội, nhóm nghiên cứu đã xây dựng hệ thống theo mô hình phân tầng, cho phép mở rộng linh hoạt và tăng khả năng xử lý đồng thời. Hệ thống kết hợp các giao diện lập trình ứng dụng (API) chính thống với cơ chế thu thập dữ liệu công khai để khai thác thông tin từ nhiều nền tảng mạng xã hội khác nhau. Dữ liệu sau đó được đưa vào nền tảng xử lý theo thời gian thực như Apache Kafka nhằm giảm độ trễ và nâng cao tốc độ phân tích.
Ở tầng lưu trữ, hệ thống được thiết kế theo hướng kết hợp nhiều mô hình cơ sở dữ liệu nhằm đáp ứng đặc thù đa dạng của dữ liệu mạng xã hội. Các dữ liệu đặc trưng được lưu trữ dưới dạng vector để phục vụ quá trình tìm kiếm và đối chiếu thông tin với tốc độ cao. Tuy nhiên, do dữ liệu trên không gian mạng thường thiếu đồng nhất và chứa nhiều nhiễu, hệ thống phải trải qua bước tiền xử lý trước khi đưa vào phân tích.
Cụ thể, với dữ liệu văn bản, hệ thống tiến hành chuẩn hóa ngôn ngữ, xử lý biểu tượng cảm xúc và loại bỏ những thành phần dư thừa; với hình ảnh, các kỹ thuật tăng cường và chuẩn hóa dữ liệu được áp dụng nhằm nâng cao chất lượng đầu vào. Đối với video, hệ thống chỉ lựa chọn những khung hình quan trọng để tối ưu tài nguyên xử lý, trong khi dữ liệu âm thanh được khử nhiễu và phân đoạn nhằm nâng cao độ chính xác trong phân tích. Mỗi loại dữ liệu sẽ được xử lý bằng các mô hình chuyên biệt phù hợp với đặc trưng riêng.

Tiến sĩ Phạm Ngọc Minh, Phó trưởng phòng Kỹ thuật điều khiển và Tự động hóa chia sẻ về nghiên cứu ứng dụng AI đa phương thức trong phát hiện thông tin sai lệch và phân tích mạng xã hội. (Ảnh: TL)
Theo nhóm nghiên cứu, hệ thống có thể triển khai trên các nền tảng mã nguồn mở như Apache Spark, PyTorch hay Milvus, qua đó hỗ trợ xử lý dữ liệu quy mô lớn với chi phí tối ưu. Một trong những ứng dụng nổi bật của mô hình là hỗ trợ đa phương thức để phát hiện, đánh giá mức độ đáng tin cậy hoặc khả năng sai lệch của thông tin. Hệ thống có khả năng phát hiện các dấu hiệu không nhất quán giữa nội dung văn bản và hình ảnh, đồng thời phân tích cảm xúc từ nhiều nguồn dữ liệu nhằm đánh giá mức độ xác thực của thông tin. Bên cạnh đó, quy trình vận hành và cập nhật mô hình học máy cũng được tích hợp, giúp hệ thống liên tục học hỏi từ dữ liệu mới và duy trì khả năng hoạt động ổn định.
Nhóm nghiên cứu cũng đề xuất áp dụng kỹ thuật “chưng cất tri thức” (Knowledge Distillation) nhằm giảm chi phí tính toán nhưng vẫn bảo đảm hiệu quả xử lý, tạo điều kiện triển khai hệ thống trên quy mô lớn.
Theo Tiến sĩ Phạm Ngọc Minh, việc kết hợp mô hình xử lý tiếng Việt PhoBERT, mô hình thị giác máy tính Vision Transformer cùng cơ chế chú ý chéo đã cho thấy tiềm năng lớn trong giải quyết bài toán phân mảnh dữ liệu giữa văn bản, hình ảnh, âm thanh và video. Việc hợp nhất các nguồn dữ liệu không chỉ nâng cao độ chính xác trong phân tích thông tin mà còn hỗ trợ hiệu quả cho các hệ thống giám sát xu hướng truyền thông, hỗ trợ phát hiện, đánh giá mức độ đáng tin cậy hoặc khả năng sai lệch của thông tin và phản ứng nhanh trước các biến động xã hội. Đồng thời, kết quả phân tích của AI cần được kết hợp với chuyên gia hoặc hệ thống kiểm chứng để bảo dảm độ tin cậy của mô hình.
Trong bối cảnh AI thế hệ mới phát triển mạnh mẽ, mô hình này được đánh giá là nền tảng quan trọng cho việc xây dựng các hệ thống quản trị nội dung số thông minh trong tương lai.








![[INFOGRAPHIC] Ugreen FineTrack 2 Soccer Design](https://photo-baomoi.bmcdn.me/w250_r3x2/2026_05_25_180_55235915/d0da19cb3080d9de8091.jpg)


