Chấn động công nghệ AI tái tạo giọng nói cho người câm

Một người đàn ông bị khuyết tật về lời nói nghiêm trọng có thể nói và hát một cách diễn cảm bằng cách sử dụng một thiết bị cấy ghép não có thể dịch hoạt động thần kinh của anh ta thành lời nói gần như ngay lập tức. Một thiết bị, mới được các nhà khoa học phát triển, truyền tải những thay đổi về giọng điệu khi anh ta đặt câu hỏi, nhấn mạnh những từ mà anh ta chọn và cho phép anh ta ngân nga một chuỗi nốt nhạc theo ba cao độ.

Vỏ não vận động (màu cam, minh họa). Các điện cực được cấy vào vùng này giúp ghi lại hoạt động não liên quan lời nói của một người đàn ông không thể nói rõ ràng. (Nguồn: Alamy Stock)

Vỏ não vận động (màu cam, minh họa). Các điện cực được cấy vào vùng này giúp ghi lại hoạt động não liên quan lời nói của một người đàn ông không thể nói rõ ràng. (Nguồn: Alamy Stock)

Công trình do nhóm nghiên cứu tại Đại học California, Davis thực hiện, dưới sự dẫn dắt của nhà khoa học Maitreyee Wairagkar, vừa được công bố trên tạp chí Nature. Các nhà khoa học đánh giá đây là bước đột phá mang tính “chuyển mình” trong công nghệ đọc não và có tiềm năng trở thành công cụ giao tiếp thường nhật cho những người mất khả năng nói.

Hệ thống, được gọi là giao diện não-máy tính (BCI), sử dụng trí tuệ nhân tạo (AI) để giải mã hoạt động não điện của người tham gia khi họ cố gắng nói. Đây là thiết bị đầu tiên tái tạo không chỉ những từ mà một người muốn nói mà còn cả các đặc điểm của lời nói tự nhiên như giọng điệu, cao độ và sự nhấn mạnh, giúp thể hiện ý nghĩa và cảm xúc.

Người tham gia thử nghiệm là một bệnh nhân 45 tuổi mắc bệnh xơ cứng teo cơ (ALS), khiến khả năng phát âm suy giảm nghiêm trọng dù vẫn có thể phát ra âm thanh và mấp máy môi. Thiết bị cấy 256 điện cực nhỏ vào vùng vỏ não vận động – nơi kiểm soát chuyển động – đã giúp ghi nhận hoạt động thần kinh liên quan đến lời nói với độ trễ chỉ 10 mili-giây, nhanh hơn rất nhiều so với các hệ thống trước đây vốn cần tới vài giây hoặc đợi hoàn thành cả câu.

Không như nhiều thiết bị cũ vốn chỉ đọc được từ ngữ cố định, hệ thống mới cho phép người dùng phát ra cả âm cảm thán như “a”, “ồ”, “hừm” hay các từ không có trong dữ liệu huấn luyện. Giọng tổng hợp được cá nhân hóa dựa trên các bản ghi âm của chính bệnh nhân từ trước khi phát bệnh, khiến ông xúc động nói rằng cảm thấy như đang được nghe lại “giọng thật” của mình.

Thiết bị cũng có khả năng phân biệt người dùng đang nói một câu ở dạng câu hỏi hay câu trần thuật, và tự động điều chỉnh sắc thái trong giọng tổng hợp. Hệ thống còn nhận biết được việc nhấn mạnh các từ khác nhau trong cùng một câu – điều rất quan trọng để tái hiện đúng ý đồ giao tiếp.

(theo Scientific American)

Gia Vũ

Nguồn TG&VN: https://baoquocte.vn/chan-dong-cong-nghe-ai-tai-tao-giong-noi-cho-nguoi-cam-317685.html