Công cụ dịch giọng nói tiếng Phúc Kiến sang tiếng Anh của Meta gây 'sốt' ở Trung Quốc
Hệ thống dịch thuật đầu tiên thuộc loại này đã gây tò mò cho cư dân mạng ở Trung Quốc.
Hệ thống dịch giọng nói thời gian thực mới của Meta Platforms cho tiếng Phúc Kiến, một phương ngữ được sử dụng rộng rãi ở tỉnh Phúc Kiến (đông nam Trung Quốc), Đài Loan và cộng đồng gốc Hoa trên khắp Đông Nam Á, đã thu hút được sự quan tâm mạnh mẽ ở Trung Quốc, nơi Facebook bị chặn.
Tuần này, gã khổng lồ công nghệ Mỹ cho biết hệ thống trí tuệ nhân tạo (AI) có thể dịch giữa tiếng Phúc Kiến và tiếng Anh là một phần trong nỗ lực của Meta Platforms nhằm “phá vỡ rào cản ngôn ngữ trong cả thế giới thực và thế giới ảo”.
Các hệ thống dịch giọng nói được hỗ trợ bởi AI hiện tại chủ yếu tập trung vào ngôn ngữ viết và dựa trên phiên âm để đào tạo các mô hình AI của chúng. Tuy nhiên, tiếng Phúc Kiến là ngôn ngữ chủ yếu nói bằng miệng, thiếu hình thức viết chuẩn, theo Meta Platforms.
Một thách thức khác là ít người nói tiếng Phúc Kiến hơn nhiều so với tiếng Anh hoặc tiếng Tây Ban Nha, đồng nghĩa là không có đủ dữ liệu đào tạo.
Khó khăn trong việc dịch giọng nói được minh họa vào đầu tháng này khi Douyin gây tranh cãi sau khi cắt các phiên phát trực tiếp (livestream) của một số người có ảnh hưởng nói tiếng Quảng Đông vì hệ thống của họ không thể nhận dạng được phương ngữ Trung Quốc này. Douyin là phiên bản tiếng Trung của TikTok, do tập đoàn ByteDance sở hữu.
Hệ thống dịch thuật speech-to-speech của Meta Platforms đã khắc phục được vấn đề này bằng cách dịch văn bản tiếng Anh sang tiếng Quan thoại trước tiên, sau đó chuyển đổi nó thành tiếng Phúc Kiến và ngược lại, trước khi thêm vào dữ liệu đào tạo.
Khi thực hiện dịch thời gian thực, hệ thống chuyển đổi tiếng Phúc Kiến thành các đơn vị âm thanh và tạo ra các dạng sóng từ chúng. Các dạng sóng sau đó được chuyển đổi thành văn bản tiếng Quan Thoại và cuối cùng được dịch sang các đơn vị âm thanh của tiếng Anh.
Hệ thống dịch thuật đầu tiên thuộc loại đó đã gây tò mò cho cư dân mạng ở Trung Quốc, nơi một đoạn video cho thấy Giám đốc điều hành Meta Platforms - Mark Zuckerberg và nhà nghiên cứu AI Chen Peng-Jen sử dụng công cụ này để nói chuyện với nhau bằng tiếng Anh và tiếng Phúc Kiến.
Một số hãng truyền thông địa phương chia sẻ video này trên các nền tảng mạng xã hội Trung Quốc.
"Ấn tượng. WeChat thậm chí không hỗ trợ nhập liệu bằng giọng nói ở Phúc Kiến”, một người ở tỉnh Phúc Kiến dùng siêu ứng dụng WeChat (của Tencent Holdings) viết.
Một số người dùng internet Trung Quốc cũng khuyến khích Meta Platforms chấp nhận thách thức lớn hơn là phát triển một hệ thống dịch cho tiếng địa phương của thành phố Ôn Châu ở tỉnh Chiết Giang, vốn nổi tiếng là khó nắm bắt ngay cả với những người bản xứ Trung Quốc.
Tuy nhiên, những người khác coi hệ thống dịch thuật mới của Meta Platforms là mối đe dọa tiềm tàng cho Trung Quốc trong bối cảnh căng thẳng gia tăng với Mỹ. Họ lo ngại rằng công nghệ này có thể trở thành một công cụ hữu ích cho chính phủ và quân đội Mỹ.
Trong khi Meta Plaforms đã làm cho hệ thống dịch thuật tiếng Phúc Kiến của mình có mã nguồn mở với hy vọng rằng những người khác sẽ sử dụng nó cho nhiều ngôn ngữ hơn, mô hình AI “vẫn đang trong quá trình phát triển” và chỉ có thể dịch một câu đầy đủ tại một thời điểm, công ty Mỹ cho biết.
Cuối tháng 9 vừa qua, Meta Platforms cũng gây chú ý với Make-A-Video, hệ thống AI mới giúp tạo ra những video nghệ thuật từ văn bản và hình ảnh.
Trong một video, con chó mặc áo choàng đỏ và đeo kính râm bay trên bầu trời. Trong một video khác, những con kỳ lân phi nước đại dọc theo một bãi biển. Meta Platforms đã tạo ra những video kỳ quặc này bằng Make-A-Video. Đó là một phần trong nghiên cứu của Meta Platforms về công nghệ có thể tạo nội dung mới từ thông báo văn bản.
Meta Platforms nói rằng Make-A-Video cũng có thể tạo video từ hình ảnh hoặc các video tương tự. Meta Platforms cho biết nghiên cứu của họ về AI có tiềm năng mở ra cơ hội mới cho người sáng tạo và nghệ sĩ.
Meta Platforms nói rằng có kế hoạch phát hành bản demo của Make-A-Video, nhưng công cụ này hiện không khả dụng cho tất cả mọi người. Nhóm nghiên cứu AI của Meta Platforms sẽ nhận các yêu cầu về hình ảnh thông qua tài khoản Twitter của mình.
“Nghiên cứu về trí tuệ nhân tạo đang thúc đẩy sự thể hiện sáng tạo bằng cách cung cấp cho mọi người các công cụ để tạo nội dung mới một cách nhanh chóng và dễ dàng. Chỉ với một vài từ hoặc vài dòng văn bản, Make-A-Video có thể khiến trí tưởng tượng trở nên sống động và tạo ra những video có một không hai với đầy màu sắc và phong cảnh sống động", Meta Platforms thông báo trong một bài đăng trên blog.
Meta Platforms cũng đã xây dựng một mô hình AI có tên Make-A-Scene tạo ra "hình ảnh minh họa chân thực và nghệ thuật chất lượng như sách truyện" từ các từ và bản phác thảo.
Khi các hãng công nghệ giúp người dùng tạo hình ảnh và video dễ dàng hơn, cũng đã có những lo ngại về việc liệu các công cụ AI này có thể bị lạm dụng hay không.
Thượng nghị sĩ Anna Eshoo, đảng viên đảng Dân chủ ở bang California (Mỹ), bày tỏ mối lo ngại đó, trong một bức thư hồi tháng 9, lưu ý rằng AI Stable Diffusion đã được sử dụng "để tạo ra những bức ảnh về phụ nữ châu Á bị đánh đập bạo lực và nội dung khiêu dâm mô tả người thật".
Meta Platforms cho biết thận trọng khi xây dựng các hệ thống AI mang tính tổng thể và sẵn sàng nhận phản hồi khi công ty chia sẻ công khai nghiên cứu của họ.