Ứng dụng AI trong truy tìm tội phạm từ camera giám sát
CMCN 4.0 là sự hợp nhất về công nghệ của nhiều lĩnh vực đã và đang tác động mạnh mẽ tới tất cả các lĩnh vực, trong đó có công tác bảo vệ an ninh quốc gia và bảo đảm trật tự an toàn xã hội của lực lượng Công an.
Một trong những thành tựu công nghệ nổi bật được quan tâm nghiên cứu, ứng dụng nhiều hiện nay là Trí tuệ nhân tạo, trong đó Học máy (Machine Learning) là một phần quan trọng của trí tuệ nhân tạo, và Học sâu (Deep Learning) là một nhánh của Học máy, được xem là một thành quả tiên tiến nhất hiện nay của trí tuệ nhân tạo. Học máy được hiểu là khả năng một hệ thống máy có thể mô phỏng lại các hoạt động của con người như học tập, suy luận, đánh giá vấn đề. Nhìn chung, học máy là toàn bộ quá trình cung cấp dữ liệu đầu vào cho máy tính, để máy tính tự học, hiểu, phân tích dữ liệu, từ đó thực hiện các nhiệm vụ với những bộ dữ liệu mới trong tương lai. Học sâu chỉ là một kỹ thuật của học máy, được lấy cảm hứng từ cấu trúc của bộ não con người gồm một mạng lưới khổng lồ các nơ-ron thần kinh tiếp nhận và xử lý tín hiệu. Các thuật toán học sâu cố gắng đưa ra các kết luận tương tự như con người bằng cách liên tục phân tích dữ liệu với một cấu trúc logic nhất định. Để đạt được điều này, học sâu sử dụng cấu trúc nhiều lớp của các thuật toán được gọi là mạng nơ-ron.
Trong công tác công an có rất nhiều ứng dụng thực tế có thể được phát triển từ việc áp dụng các kỹ thuật học máy, và đặc biệt hiện nay là kỹ thuật học sâu. Các ứng dụng này đã chứng minh hiệu quả đột phá của nó trên nhiều lĩnh vực trong đó có công tác truy tìm tội phạm. Có thể dẫn chứng bằng hệ thống Skynet, một hệ thống giám sát tự động với mạng lưới camera giám sát lớn nhất thế giới được gọi là “thiên la địa võng” của Trung Quốc. Việc xây dựng và phát triển hệ thống này nằm trong chương trình quốc gia, bắt đầu được triển khai từ năm 2015 và hiện nay đã đưa vào sử dụng ở hàng chục tỉnh thành khắp Trung Quốc. Chương trình này có sự phối hợp của nhiều bộ ngành mà vai trò chủ đạo là Ban Chính pháp và Bộ Công an Trung Quốc. Skynet sử dụng mạng lưới camera khổng lồ gồm hàng trăm triệu camera giám sát đặt tại các nơi trọng yếu như nhà ga, sân bay, ngã tư... kết hợp công nghệ trí tuệ nhân tạo, thực sự đã trở thành công cụ đắc lực giúp cảnh sát Trung Quốc phá được nhiều vụ án lớn.
Rõ ràng việc phát triển các ứng dụng trí tuệ nhân tạo luôn là xu hướng công nghệ tương lai, hứa hẹn sẽ đem đến những hiệu quả vượt trội trong giải quyết công việc. Do đó nghiên cứu các kỹ thuật học máy và học sâu của trí tuệ nhân tạo để từ đó xây dựng và phát triển các ứng dụng thực tiễn phục vụ công tác Ngành Công an là rất cần thiết, đặc biệt trong xu thế hội nhập quốc tế, đẩy mạnh ứng dụng CNTT trong các mặt công tác Công an hiện nay.
Học viện an ninh nhân dân, một trong những trung tâm đào tạo đại học, sau đại học và nghiên cứu khoa học lớn của cả nước, là cơ sở giáo dục đại học trọng điểm của ngành Công an, với nhiều Khoa chuyên ngành có đội ngũ giảng viên trình độ chuyên môn cao và có năng lực nghiên cứu khoa học. Khoa An ninh thông tin thuộc Học viện An ninh nhân dân cũng là một trong những Khoa mũi nhọn của Học viện và của Ngành Công an trong giảng dạy và nghiên cứu về CNTT và ANTT. Việc giảng dạy và nghiên cứu các ứng dụng công nghệ mới, đặc biệt là trí tuệ nhân tạo, học máy và học sâu trong công tác Công an cũng được chú trọng trong các chương trình đào tạo có liên quan và trong các đề tài nghiên cứu khoa học các cấp do giảng viên của Khoa đảm nhiệm. Đề tài nghiên cứu khoa học cấp Bộ công an năm 2020-2021 do Thượng tá, Tiến sĩ Phạm Thị Thanh Thủy cùng các các giảng viên của Khoa thực hiện cũng là một trong những nghiên cứu về các kỹ thuật mới của học máy và học sâu ứng dụng trong công tác tìm kiếm đối tượng tình nghi, đối tượng phạm tội từ các hệ thống camera giám sát.
Đề tài tập trung nghiên cứu, xây dựng một hệ thống tự động tìm kiếm đối tượng từ cơ sở dữ liệu hình ảnh thu nhận từ nhiều camera giám sát dựa trên nguồn thông tin đầu vào là câu mô tả về đối tượng do nhân chứng cung cấp. Ví dụ ở Hình 1, đối tượng cần tìm là một bé gái có mô tả diện mạo như sau: “Bé gái cao khoảng 1,2m, tóc buộc cao đeo bờm hồng, mặc váy hoa xanh to nền trắng với đường viền xanh ở eo, chân đi giày búp bê màu trắng”. Khi người dùng hệ thống nhập câu mô tả vào, hệ thống sẽ tự động tìm ra hình ảnh bé gái tương ứng từ cơ sở dữ liệu ảnh thu nhận từ các camera giám sát. Các mô hình học sâu tiên tiến đã được nghiên cứu và ứng dụng thành công để giải quyết bài toán đặt ra trong đề tài.
Hệ thống tìm kiếm được triển khai trong hạ tầng chung của hệ thống giám sát an ninh sử dụng camera như Hình 2. Hệ giám sát an ninh sử dụng camera gồm các trung tâm giám sát đặt tại các đơn vị công an (ví dụ cấp Quận, Phường..). Trong mỗi trung tâm có các camera IP được kết nối với nhau qua đầu thu NVR, dữ liệu hình ảnh sẽ được lưu trữ trên đầu thu. Các đầu thu được kết nối với nhau và nối vào đầu thu tổng, cho phép chúng ta quản lý dữ liệu tập trung ở một đầu ghi tổng (ở phường, quận..), từ đó dễ dàng trong công tác thu thập, quản lý và truy vấn dữ liệu sau này. Tại mỗi trung tâm triển khai hệ thống tìm kiếm hình ảnh đối tượng từ camera giám sát dựa trên câu mô tả về đối tượng.
Sơ đồ khối chung của hệ thống tìm kiếm ảnh đối tượng dựa trên câu mô tả đối tượng thể hiện ở Hình 3.
Dữ liệu hình ảnh ghi lại được từ các camera được lưu tại Image Server. Khi User (có thể là cán bộ công an hay công dân) có nhu cầu cần trích xuất hình ảnh đối tượng, thay vì phải đến trực tiếp đến cơ quan công an, User có thể tạo tài khoản, điền thông tin tờ khai yêu cầu trích xuất dữ liệu kèm theo câu mô tả về đối tượng cần trích xuất hình ảnh, chọn cơ quan tiếp nhận tờ khai bằng cách tương tác trực tiếp trên giao diện Website. Dữ liệu cá nhân, tờ khai, tài khoản,… của User sẽ được lưu trữ trong cơ sở dữ liệu trên Database Server. Các yêu cầu trích xuất dữ liệu (tờ khai), yêu cầu xác minh tài khoản sẽ được Admin phê duyệt. Sau khi được phê duyệt, câu truy vấn sẽ được gửi đến Image Server, Image Server thực hiện tìm kiếm và trả về dữ liệu lại cho Website. Dữ liệu trả về sẽ được lưu trữ xuống cơ sở dữ liệu của Website. Website cũng cho phép Admin có thể in kết quả truy vấn và đặt lịch hẹn cho người gửi yêu cầu trích xuất dữ liệu đến nhận kết quả trích xuất. Hình 4 minh họa kết quả tìm kiếm đối tượng có mô tả:”Nữ tóc đen ngang vai, mặc áo phông lửng cộc tay màu vàng, mặc quần dài màu đen, đi giày thể thao màu đen”. Hệ thống tìm kiếm trả về kết quả là các hình ảnh đối tượng giống nhất với câu mô tả, đồng thời cũng trích xuất ra thông tin về vị trí của camera cũng như thời gian camera thu được các hình ảnh đối tượng.
Thực tế hiện nay, trinh sát thực hiện tìm kiếm hình ảnh đối tượng một cách thủ công, chúng ta chưa có hệ thống tự động hay công cụ hỗ trợ công tác này. Rõ ràng, nếu làm một cách thủ công như vậy sẽ rất tốn kém về thời gian và công sức và trong nhiều trường hợp là không khả thi và hiệu quả. Trong khi đó, nếu áp dụng các kỹ thuật học máy và đặc biệt là học sâu, cùng với việc sử dụng nguồn dữ liệu lớn có liên quan và năng lực xử lý ngày càng cao của máy tính hiện nay, những bài toán thực tiễn như trên hoàn toàn có thể được xử lý một cách tự động, nhanh chóng và hiệu quả.
Thượng tá. TS. Phạm Thị Thanh Thủy
Khoa ANTT - Học viện ANND