Startup bảo mật Việt cần làm gì trong cuộc chiến chống Deepfake?
Sự phát triển của trí tuệ nhân tạo (AI) đang tạo ra những rủi ro an ninh mạng chưa từng có, đòi hỏi Startup bảo mật Việt cần tiến hóa trong trận chiến chống Deepfake.

Công nghệ Deepfake ngày càng tinh vi.
Chống Deepfake giờ đây đã trở thành cuộc chiến đối với các đường dây lừa đảo có tổ chức. Đứng trước mối đe dọa trực tiếp đến tài sản của doanh nghiệp và người dân, các startup bảo mật Việt Nam đang chọn cách dùng chính công nghệ này làm vũ khí phòng vệ. Tuy nhiên, hành trình tạo ra "tấm khiên" nội địa lại đang vấp phải một rào cản rất lớn về nguồn dữ liệu ngôn ngữ.
Lấy AI làm vũ khí phòng vệ chống Deepfake
Công nghệ giả mạo hiện nay tinh vi đến mức có thể mô phỏng trọn vẹn những rung động nhỏ nhất trong thanh quản của con người. Theo một thử nghiệm thực tế của phóng viên Gaby Del Valle, hệ thống trí tuệ nhân tạo chỉ cần thu thập đúng 9 giây đoạn ghi âm giọng nói từ mạng xã hội là đã có thể tạo ra một phiên bản giả mạo đủ sức duy trì một cuộc trò chuyện vô cùng thuyết phục.
Sự tiến bộ khó lường này nhanh chóng bị tội phạm mạng lợi dụng để xây dựng các kịch bản lừa đảo nhắm vào tổ chức, doanh nghiệp. Chúng âm thầm thu thập dữ liệu công khai để tạo ra một "kho giọng nói" của nhân viên, sau đó giả danh lãnh đạo hoặc đồng nghiệp cấp cao nhằm thực hiện các cuộc gọi yêu cầu chuyển tiền.
Những kịch bản lừa đảo này thường đánh mạnh vào tâm lý hoảng loạn, chẳng hạn như đóng giả người thân gọi điện cầu cứu trong tình huống khẩn cấp, khiến nạn nhân mất đi sự cảnh giác chỉ trong vài giây ngắn ngủi...
Thiệt hại ghi nhận từ các vụ việc này là không hề nhỏ, khi mỗi sự cố mạo danh có thể khiến doanh nghiệp tổn thất hàng trăm nghìn USD. Để đối phó với làn sóng tấn công này, nhiều startup trong lĩnh vực bảo mật đang lựa chọn cách tiếp cận đảo ngược: dùng chính trí tuệ nhân tạo để lột mặt nạ của deepfake.
Một trong những phương pháp đang được ứng dụng mạnh mẽ nhất là mô hình thầy và trò trong lĩnh vực máy học. Hệ thống sẽ được huấn luyện liên tục bằng một lượng dữ liệu khổng lồ bao gồm cả tệp thật và tệp giả để tự học cách phân tích. Thông qua quá trình này, thuật toán có thể nhận diện những dấu vết kỹ thuật siêu nhỏ, những điểm đứt gãy trong dải âm thanh hay điểm ảnh mà thính giác và thị giác con người hoàn toàn không thể nhận ra.
Việc phát triển công cụ bảo mật này mở ra một cơ hội lớn, đòi hỏi giới công nghệ Việt Nam phải chủ động đi trước đón đầu để chiếm lĩnh thị trường đầy tiềm năng này trước khi để rơi vào tay các công ty nước ngoài.
Giải quyết bài toán dữ liệu tiếng Việt
Thách thức khó nhằn nhất hiện nay đối với việc phát triển các công cụ bảo mật trí tuệ nhân tạo chống Deepfake tại Việt Nam chính là vấn đề dữ liệu.
Các tập đoàn công nghệ lớn trên thế giới đã bắt đầu để mắt đến thị trường bản địa. Cách đây 2 năm, kỹ sư Trần Tuấn Minh - Trưởng nhóm nghiên cứu Language AI thuộc Trung tâm Nghiên cứu và Phát triển Samsung Việt Nam - từng chia sẻ về hành trình đầy gian nan của đội ngũ kỹ sư Việt khi "vượt bão" đưa tiếng Việt trở thành một trong 13 ngôn ngữ đầu tiên được hỗ trợ trên Galaxy AI. So với tiếng Anh, tiếng Pháp hay tiếng Tây Ban Nha, tiếng Việt ít phổ biến hơn trên toàn cầu nên nguồn dữ liệu vô cùng khan hiếm.
Các kỹ sư gặp rất nhiều trở ngại trong việc tìm kiếm nguồn dữ liệu sạch, chuẩn xác và đáp ứng đầy đủ vấn đề pháp lý về bản quyền. Dự án đã huy động 30 kỹ sư phát triển trực tiếp và 45 nhân sự kiểm thử, thậm chí có thời điểm số lượng nhân sự tăng lên đến hàng trăm người để tạo ra nhiều triệu bản ghi âm nhằm đào tạo thuật toán. Họ cũng phải nhờ đến sự tư vấn chuyên môn từ các giảng viên, trưởng khoa ngôn ngữ tại các trường đại học.
Sự phức tạp của tiếng Việt nằm ở hệ thống phương ngữ chia theo vùng miền, mỗi tỉnh lại có cách dùng từ và phát âm khác nhau, thậm chí sự khác biệt này hiện diện ngay giữa các thôn làng trong cùng một huyện. Bên cạnh đó, hệ thống từ lóng, từ mượn và những từ mới do thế hệ trẻ sáng tạo ra càng làm tăng độ khó cho quá trình huấn luyện.
Vào năm 2025, Tiến sĩ Trần Việt Hùng - nhà sáng lập Tổ chức AI for Vietnam - đã đưa ra một thống kê đáng suy ngẫm khi chỉ ra rằng tiếng Việt được sử dụng bởi hơn 100 triệu người nhưng dữ liệu dùng để đào tạo các mô hình trí tuệ nhân tạo hiện chỉ chiếm chưa đến 1%. Đánh giá về sự chênh lệch này, ông nhận định sự thiếu hụt trầm trọng này khiến cho việc ứng dụng công nghệ chưa mang lại hiệu quả như mong muốn.
Phó giám đốc Trung tâm Đổi mới sáng tạo Quốc gia, ông Võ Xuân Hoài khi ấy cũng cho rằng việc phát triển các tập dữ liệu tiếng Việt quy mô lớn, chất lượng cao và có mã nguồn mở đang là một ưu tiên cấp bách. Hiện nay, các cơ quan chính phủ và doanh nghiệp đều đang đẩy mạnh việc đào tạo và ứng dụng công nghệ số. Do đó, việc sở hữu nguồn dữ liệu bản địa phong phú sẽ giúp các đơn vị tận dụng triệt để thế mạnh của hệ thống máy học.
Đã đến lúc các startup Việt Nam cần nhanh chân tập trung vào việc xây dựng nguồn tài nguyên dữ liệu tiếng Việt một cách bài bản, từ đó tạo bệ phóng vững chắc để phát triển các giải pháp an ninh mạng sâu sát với thực tế, bảo vệ an toàn danh tính số cho hàng triệu người dân.











