AI lọc nhiễu giọng nói: cuộc gọi rõ hơn, giảm tiếng vang
Công nghệ SoftBank khôi phục giọng nói nhiễu, vang, giúp cuộc gọi rõ hơn và nâng chất lượng dữ liệu huấn luyện AI hiệu quả.
Lọc nhiễu, giảm vang để người nghe đỡ mệt
SoftBank Corp. vừa thông báo công nghệ cải thiện chất lượng giọng nói của hãng đạt kết quả cao nhất ở hạng mục “cải thiện giọng nói toàn diện” trong một thử thách quốc tế về xử lý âm thanh tổ chức song song hội nghị ICASSP 2026.
Nghiên cứu được phát triển với sự cố vấn của Phó giáo sư Shinnosuke Takamichi (Đại học Keio, Nhật Bản). SoftBank cho biết sẽ trình bày tóm tắt kết quả tại chương trình SP Grand Challenges của ICASSP 2026, diễn ra tại Tây Ban Nha từ ngày 4 đến 8.5.2026.

Công nghệ lọc nhiễu giúp AI nghe chuẩn
Điểm đáng chú ý nằm ở khả năng xử lý các tình huống đời thường mà ai cũng gặp: gọi điện ở nơi ồn, nói chuyện trong phòng có tiếng vọng, dùng tai nghe hoặc micro chất lượng trung bình. Trong những bối cảnh đó, giọng nói dễ bị suy giảm, âm tiết bị “nuốt”, tiếng nền chen vào khiến người nghe phải căng tai, còn hệ thống nhận dạng giọng nói thì dễ hiểu sai.
SoftBank nhìn nhận xử lý giọng nói đã tiến nhanh nhờ học sâu, nhưng để tạo ra chất lượng ổn định từ các bản ghi bị suy giảm trong môi trường thực tế vẫn là bài toán khó, đặc biệt khi đồng thời có tiếng ồn và tiếng vang. Cách tiếp cận của công ty là kết hợp nhiều mô hình cải thiện giọng nói nhằm đối phó nhiều kiểu suy giảm khác nhau, thay vì trông chờ một mô hình duy nhất.
Tác động dễ thấy nhất là ở các cuộc gọi cần độ rõ ràng cao như tổng đài chăm sóc khách hàng, tư vấn dịch vụ, hỗ trợ kỹ thuật. Khi âm thanh được làm “sạch” hơn, nhân viên không phải hỏi lại nhiều lần, giảm thời gian xác nhận thông tin, cuộc trò chuyện bớt đứt mạch. SoftBank kỳ vọng việc cải thiện chất lượng âm thanh tại các trung tâm cuộc gọi và địa điểm tương tự sẽ giúp giảm gánh nặng cho người vận hành, nâng chất lượng phản hồi và góp phần tăng hiệu quả công việc.
Nâng dữ liệu, giúp AI hiểu đúng
Không chỉ con người mà “người nghe” quan trọng khác là máy móc cũng được hưởng lợi. Giọng nói rõ hơn đồng nghĩa hệ thống nhận dạng có nhiều cơ hội nghe đúng, chuyển lời nói thành văn bản chính xác hơn, kéo theo các bước tiếp theo như tóm tắt cuộc gọi, phân loại yêu cầu, gợi ý kịch bản hỗ trợ… cũng đáng tin hơn.
SoftBank nhấn mạnh một lợi ích then chốt: khi khôi phục được chất lượng cao của các bản ghi trong nhiều môi trường, chất lượng và độ chính xác của dữ liệu huấn luyện AI giọng nói sẽ được cải thiện. Nói cách khác, công nghệ “làm sạch” này không chỉ phục vụ cuộc gọi hiện tại, mà còn giúp tạo ra nền dữ liệu tốt hơn để các hệ thống AI tương lai học tập.
Điều này đặc biệt có ý nghĩa khi doanh nghiệp thu thập dữ liệu thoại từ nhiều nguồn: điện thoại, nền tảng họp trực tuyến, ghi âm tại quầy, thiết bị di động… Mỗi nguồn có đặc điểm nhiễu, vang, méo tiếng khác nhau. Nếu đưa thẳng vào huấn luyện hoặc phân tích mà không xử lý, dữ liệu “bẩn” có thể làm mô hình học sai, tăng tỷ lệ nhận nhầm. Ngược lại, khi âm thanh được chuẩn hóa tốt hơn, các mô hình giọng nói có cơ hội “nghe” gần với tai người hơn.
SoftBank cho biết kết quả đạt được trong khuôn khổ dự án nghiên cứu chung với sự hướng dẫn của Phó giáo sư Shinnosuke Takamichi. Công ty khẳng định sẽ tiếp tục thúc đẩy phát triển công nghệ AI hướng tới giải quyết vấn đề xã hội và tạo ra giá trị kinh doanh.
Trong bối cảnh giọng nói ngày càng trở thành “cửa ngõ” tương tác giữa người và dịch vụ số, những công nghệ cải thiện chất lượng âm thanh như vậy có thể âm thầm nâng chuẩn trải nghiệm: cuộc gọi bớt mệt, dữ liệu bớt nhiễu, hệ thống tự động nghe hiểu ổn định hơn trong đúng môi trường đời thường vốn lộn xộn và nhiều tiếng vang.













