Baidu xin cấp bằng sáng chế AI chuyển tiếng động vật thành ngôn ngữ con người

Baidu, gã khổng lồ tìm kiếm internet Trung Quốc, đang xin cấp bằng sáng chế cho công nghệ trí tuệ nhân tạo (AI) có khả năng dịch tiếng động vật sang ngôn ngữ con người.

Baidu đã nộp đơn xin cấp bằng sáng chế vào tháng 12.2024, nhưng đến nay được Cục Sở hữu trí tuệ quốc gia Trung Quốc công bố công khai.

Phương pháp dịch của Baidu hoạt động bằng cách thu thập nhiều loại dữ liệu khác nhau từ loài động vật mục tiêu, gồm giọng nói, ngôn ngữ cơ thể, thay đổi hành vi và các dấu hiệu sinh học khác, theo đơn được đăng trên trang web của Cục Sở hữu trí tuệ quốc gia Trung Quốc. Sau đó, hệ thống sẽ xác định “cảm xúc” động vật thông qua phân tích dữ liệu trước khi chuyển sang ngôn ngữ đích.

Theo Baidu, công nghệ này áp dụng một số lĩnh vực phụ của AI, gồm học máy (giúp máy tính học từ tập dữ liệu lớn); học sâu (sử dụng mạng nơ-ron để phân tích đặc điểm giọng nói và chuyển động); xử lý ngôn ngữ tự nhiên (tính toán để phân tích và tổng hợp ngôn ngữ và lời nói tự nhiên).

1. Học máy là lĩnh vực trong AI tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học hỏi từ dữ liệu và cải thiện hiệu suất của chúng theo thời gian mà không cần lập trình cụ thể. Các hệ thống học máy có khả năng tự động tìm hiểu và áp dụng kiến thức từ dữ liệu để thực hiện các nhiệm vụ cụ thể như phân loại, dự đoán, nhận dạng mẫu và tối ưu hóa quyết định. Những ứng dụng của học máy rất đa dạng như xử lý ngôn ngữ tự nhiên, thị giác máy tính, xe tự hành, dự đoán thời tiết, quản lý dữ liệu lớn...

Học máy đã có sự tiến bộ đáng kể trong thập kỷ gần đây, nhờ sự phát triển của các mô hình học sâu và khả năng xử lý dữ liệu lớn (big data), mang lại nhiều cơ hội và tiềm năng giải quyết các vấn đề phức tạp và cải thiện hiệu suất trong nhiều lĩnh vực khác nhau.

2. Học sâu là lĩnh vực trong AI tập trung vào việc xây dựng và huấn luyện các mô hình học máy sâu, còn được gọi là mạng nơ-ron sâu. Mục tiêu của học sâu là tự động học các đặc trưng và biểu diễn cấp cao từ dữ liệu, giúp máy tính tự động thực hiện các nhiệm vụ phức tạp mà trước đây đòi hỏi sự can thiệp của con người.

Mô hình học sâu thường được xây dựng bằng cách sử dụng nhiều lớp của các nơ-ron. Nơ-ron là các đơn vị tính toán cơ bản mô phỏng theo cách hoạt động của não người. Những mô hình này có khả năng học các biểu diễn phức tạp của dữ liệu thông qua quá trình huấn luyện trên tập dữ liệu lớn.

Học sâu đã đạt được sự chú ý lớn nhờ vào khả năng giải quyết hiệu quả nhiều vấn đề khác nhau, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, dịch ngôn ngữ, phân tích dự đoán, robot và nhiều ứng dụng khác trong thực tế. Các mô hình nổi tiếng trong học sâu bao gồm Mạng nơ-ron tích chập (CNN) và Mạng nơ-ron hồi quy (RNN).

Nếu giọng nói không khớp với bất kỳ bản ghi cảm xúc nào trong lịch sử, nhóm nghiên cứu sẽ gán nhãn dữ liệu giọng theo cách thủ công, cập nhật mẫu và điều chỉnh các tham số của mô hình.

Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.

Việc Cục Sở hữu trí tuệ quốc gia Trung Quốc công bố đơn xin cấp bằng sáng chế không đồng nghĩa bằng sáng chế của Baidu đã được cấp. Quá trình xét duyệt có thể mất một năm trong kịch bản tốt nhất, theo ông You Yunting - đối tác cấp cao tại công ty luật Shanghai Debund (Trung Quốc).

“3 năm cũng là bình thường. Trong những trường hợp phức tạp hơn, 4 hoặc 5 năm là điều có thể xảy ra”, You Yunting bình luận.

Baidu chưa làm rõ ý định cụ thể với công nghệ này, chẳng hạn liệu hãng có kế hoạch phát hành một ứng dụng mới dành riêng cho việc hiểu tiếng động vật không. Baidu không trả lời ngay lập tức câu hỏi của trang SCMP hôm 7.5.

Cục Sở hữu trí tuệ quốc gia Trung Quốc vừa tiết lộ Baidu đang xin cấp bằng sáng chế cho công nghệ AI có khả năng dịch tiếng động vật sang ngôn ngữ con người - Ảnh: Internet

Cục Sở hữu trí tuệ quốc gia Trung Quốc vừa tiết lộ Baidu đang xin cấp bằng sáng chế cho công nghệ AI có khả năng dịch tiếng động vật sang ngôn ngữ con người - Ảnh: Internet

Dịch tiếng chó, mèo

Các nhà khoa học và công ty trên toàn thế giới đã nghiên cứu việc dịch tiếng động vật trong nhiều thập kỷ qua. Năm 2001, hãng đồ chơi Takara (Nhật Bản) đã gây chú ý khi ra mắt Bowlingual - thiết bị điện tử cầm tay nhỏ có khả năng dịch tiếng sủa của chó. Bowlingual được tạp chí Time vinh danh là một trong những phát minh tốt nhất năm 2002. Sau đó, Takara trình làng thiết bị Meowlingual dành cho mèo.

Năm 2014, phòng nghiên cứu nhỏ tại bán đảo Scandinavia đã huy động được hơn 22.000 USD trên nền tảng gọi vốn cộng đồng Indiegogo cho một thiết bị mang tên No More Woof, với mục tiêu dịch suy nghĩ và tiếng kêu của chó thành ngôn ngữ con người. Song ba năm sau, nhóm nghiên cứu cho biết “dự án đã trở nên quá tốn kém để tiếp tục”.

Hiện có hàng chục ứng dụng tại Trung Quốc đại lục tuyên bố có thể dịch tiếng chó, mèo, thậm chí cả vẹt, theo kết quả tìm kiếm trên Apple App Store và các cửa hàng ứng dụng Android địa phương.

Trong đơn của mình, Baidu cho biết các bộ dịch ngôn ngữ động vật hiện nay chủ yếu sử dụng hai phương pháp là nhận dạng giọng nói và nghiên cứu biểu cảm khuôn mặt. Cả hai đều bị hạn chế trong việc hiểu cảm xúc động vật vì “quá phụ thuộc vào một nguồn thông tin duy nhất”.

Hôm 7.5. Cục Sở hữu trí tuệ quốc gia Trung Quốc còn thông báo Baidu đang nộp đơn xin cấp một số bằng sáng chế khác, gồm cả một đơn liên quan đến đề xuất các buổi mua sắm livestream dựa trên mức độ tương tác của người dùng; một đơn khác về thuật toán lái xe tự động có khả năng tìm và điều hướng đến trạm đổi pin gần nhất khi ô tô điện sắp hết năng lượng.

Cuối tháng 4, Baidu gây chú ý khi nêu những điểm hạn chế của DeepSeek-R1 khi ra mắt hai mô hình AI đa phương thức mới.

Ông Lý Ngạn Hoành, nhà sáng lập kiêm Giám đốc điều hành Baidu, cho biết nhu cầu với các mô hình dựa trên văn bản như của DeepSeek đang “bị thu hẹp” trong bối cảnh tập đoàn tìm kiếm này nỗ lực tái khẳng định vị thế dẫn đầu về AI tại Trung Quốc.

Doanh nhân 56 tuổi này phát biểu tại hội nghị dành cho các nhà phát triển của Baidu rằng R1, mô hình AI hàng đầu do DeepSeek phát triển, đang có những hạn chế. Dù được cộng đồng lập trình viên quốc tế khen ngợi nhưng mô hình suy luận R1 chủ yếu thực hiện các nhiệm vụ dựa trên văn bản.

“Thị trường cho các mô hình văn bản đang bị thu hẹp”, Lý Ngạn Hoành nói khi Baidu ra mắt hai mô hình đa phương thức mới Ernie 4.5 Turbo và X1 Turbo, có khả năng xử lý không chỉ văn bản mà còn cả hình ảnh, âm thanh và video.

Ông cho biết thêm rằng mô hình AI của DeepSeek có xu hướng “ảo giác” dễ gây hiểu nhầm hơn, đồng thời chậm hơn và đắt đỏ hơn so với các mô hình trong nước khác.

“Ảo giác” có nghĩa là mô hình AI đưa ra thông tin sai, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu câu hỏi mà chỉ dự đoán từ tiếp theo dựa trên dữ liệu học được. Nếu không có đủ thông tin rõ ràng từ ngữ cảnh, AI có thể “đoán đại” theo cách có vẻ hợp lý.

Giám đốc điều hành Baidu nói rằng bối cảnh cạnh tranh giữa các mô hình AI mới liên tục thay đổi, với hàng loạt sản phẩm mạnh mẽ “mở rộng lựa chọn” cho người dùng.

Những nhận xét này được đưa ra trong bối cảnh Baidu đang cố gắng tái định vị mình như một công ty dẫn đầu trong lĩnh vực AI, sau khi buộc phải chuyển hướng bằng cách ngừng dịch vụ đăng ký dùng chatbot trả phí và cung cấp miễn phí các mô hình của mình dưới dạng nguồn mở.

Khi đối mặt với sự cạnh tranh khốc liệt trong nước từ các đối thủ, gồm cả Alibababa, Baidu đã phát hành các mô hình đa phương thức mã nguồn mở có tính cạnh tranh cao.

Baidu đã giới thiệu một số trường hợp sử dụng cho các mô hình đa phương thức của mình, gồm cả một bản cập nhật nền tảng avatar AI, giúp các nhà bán hàng tạo hình đại diện giống người thật để tổ chức livestream và quảng bá sản phẩm.

Dù Lý Ngạn Hoành phát biểu như trên, Baidu vẫn tiếp tục sử dụng mô hình AI của DeepSeek do công ty khởi nghiệp này vươn lên vị trí dẫn đầu lĩnh vực mô hình ngôn ngữ lớn Trung Quốc sau khi ra mắt R1 vào tháng 1.

Những tháng gần đây, Baidu đã tích hợp mô hình AI DeepSeek vào nền tảng doanh nghiệp Qianfan cũng như ứng dụng bản đồ và tìm kiếm của mình.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/baidu-xin-cap-bang-sang-che-ai-chuyen-tieng-dong-vat-thanh-ngon-ngu-con-nguoi-232359.html