Google cho dịch giọng nói trực tiếp trong cuộc gọi, xóa rào cản ngôn ngữ

4 giờ trước Gốc

Google chính thức ra mắt tính năng dịch giọng nói trực tiếp trong cuộc hội thoại, hứa hẹn xóa bỏ rào cản ngôn ngữ và mang lại trải nghiệm giao tiếp tự nhiên giữa mọi người ở các quốc gia khác nhau.

Tính năng dịch giọng nói trực tiếp hiện chỉ hỗ trợ tiếng Anh và Tây Ban Nha. Ảnh: Wall Street Journal.

Phá bỏ rào cản ngôn ngữ với AI

Trong bài phát biểu tại Google I/O 2025 đang diễn ra, CEO Sundar Pichai giới thiệu tính năng dịch giọng nói khi đàm thoại theo thời gian thực như một "bước đột phá công nghệ". Khác với các công cụ dịch thuật truyền thống, hệ thống AI của Google có khả năng phân tích và tái tạo giọng nói gốc, đồng thời điều chỉnh ngữ điệu, tốc độ, thậm chí cả biểu cảm để đảm bảo cuộc trò chuyện diễn ra tự nhiên nhất.

Ứng dụng đầu tiên được tích hợp tính năng này là Google Meet, nơi người dùng có thể nghe thấy bản dịch song song với giọng nói gốc (ở âm lượng nhỏ hơn). Ví dụ, một người nói tiếng Tây Ban Nha sẽ được chuyển ngữ sang tiếng Anh với độ trễ chỉ vài mili giây và ngược lại.

Ứng dụng thực tế: từ gia đình đến doanh nghiệp

Tính năng này hứa hẹn thay đổi cách thức giao tiếp của con người trên toàn thế giới. Những người thân sống ở các quốc gia khác nhau có thể trò chuyện mà không cần lo lắng về khác biệt ngôn ngữ. Nhân viên từ nhiều chi nhánh có thể họp hành, trao đổi ý tưởng mà không cần phiên dịch viên. Du khách hoặc sinh viên quốc tế có thể giao tiếp dễ dàng với người bản xứ.

Theo Google, độ trễ cực thấp là điểm ưu việt so với các giải pháp hiện có, nhờ vào nền tảng mô hình ngôn ngữ lớn (LLM) và xử lý đám mây tiên tiến.

Chiến lược triển khai và mở rộng

Tính năng dịch giọng nói ban đầu chỉ hỗ trợ tiếng Anh - Tây Ban Nha và yêu cầu thuê bao Google AI Pro/Ultra. Tuy nhiên, Google cam kết bổ sung thêm nhiều ngôn ngữ trong vài tuần tới, đồng thời mở rộng thử nghiệm cho khách hàng doanh nghiệp qua Google Workspace vào cuối năm 2025.

Đây là một phần của dự án Starline – nỗ lực kéo dài 4 năm nhằm tạo ra cuộc gọi video 3D chân thực. Ngoài dịch giọng nói, Google còn giới thiệu thiết bị phần cứng Google Beam, tích hợp camera 3D để tái hiện hình ảnh người dùng sống động như đối diện trực tiếp.

Tương lai của giao tiếp đa văn hóa

Với bước tiến này, Google không chỉ cạnh tranh với các nền tảng hội nghị truyền hình như Zoom hay Microsoft Teams, mà còn đặt nền móng cho một thế giới không còn khoảng cách ngôn ngữ. Giới công nghệ dự đoán, nếu thành công, tính năng có thể mở rộng sang điện thoại thông minh, thiết bị đeo thông minh, thậm chí hỗ trợ các ngôn ngữ ít phổ biến hơn trong tương lai.

Khi công nghệ này phổ cập, ranh giới giữa các ngôn ngữ và văn hóa có thể sẽ trở nên mong manh hơn bao giờ hết.

Theo The Verge, Mashable

Đăng Khoa