Google thêm tính năng AI cho phép người dùng nghe tài liệu trên Docs
Google giới thiệu một tính năng mới của Gemini AI trong Docs. Tính năng này cực kỳ hữu ích với những người có vấn đề về thị giác.
Google đã giới thiệu một tính năng mới trong Google Docs cho phép người dùng tạo phiên bản âm thanh của tài liệu bằng Gemini AI. Bản cập nhật này giúp cả người viết và người đọc có thể nghe nội dung đã viết, làm cho công cụ trở nên dễ tiếp cận và đa năng hơn.
Nghe tài liệu với Gemini
Theo thông báo của Google, giờ đây người dùng có thể nghe một tài liệu bằng cách truy cập menu thả xuống Tools (Công cụ), chọn Audio (Âm thanh), sau đó chọn tab "Listen to this" (Nghe tài liệu này). Các tác giả của tài liệu cũng có thể chèn một nút âm thanh có thể tùy chỉnh trực tiếp vào trong tệp. Điều này cho phép người đọc nhấp vào và phát bản tường thuật do AI tạo ra mà không cần rời khỏi tài liệu.
Đầu ra âm thanh có thể được tùy chỉnh với các tùy chọn giọng nói và tốc độ phát có thể điều chỉnh. Việc cá nhân hóa này nhằm mục đích cải thiện trải nghiệm nghe cho người dùng, những người có thể thích các tông giọng hoặc nhịp điệu khác nhau.
Mặc dù tính năng này được xây dựng dựa trên kế hoạch trước đó của Google, được tiết lộ vào tháng 4, nhằm biến tài liệu thành nội dung kiểu podcast, công ty đã thiết kế chức năng mới nhất này đơn giản hơn. Nó cung cấp một cách dễ dàng để nghe tài liệu được đọc to mà không cần chuyển đổi nó thành một sản phẩm âm thanh riêng biệt.
Khả dụng và giới hạn
Khi ra mắt, tính năng tạo âm thanh trong Google Docs chỉ giới hạn ở các tài liệu được viết bằng tiếng Anh và chỉ có thể truy cập trên các thiết bị máy tính để bàn. Google vẫn chưa xác nhận việc hỗ trợ trên thiết bị di động, nhưng có thể sẽ mở rộng tính năng này trong tương lai như một phần trong kế hoạch tích hợp AI rộng rãi hơn của họ.
Tính năng này được triển khai cho khách hàng Google Workspace, gồm những người sử dụng các gói dành cho doanh nghiệp (business, enterprise) và giáo dục (education). Ngoài ra, người dùng đăng ký các gói AI Pro và Ultra cũng sẽ có quyền truy cập vào chức năng này.
Mở rộng AI trong các công cụ hằng ngày
Bản cập nhật mới nhất này làm nổi bật sự phụ thuộc ngày càng tăng của Google vào AI trong bộ ứng dụng năng suất của mình. Bằng cách thêm tính năng phát âm thanh vào Docs, công ty mong muốn làm cho các công cụ của mình hữu ích hơn cho những người thích nghe hơn là đọc, hoặc những người có thể hưởng lợi từ khả năng tiếp cận nâng cao.
Mặc dù tính năng này hiện có phạm vi giới hạn, việc Google giới thiệu chức năng tường thuật bằng AI có thể mở đường cho các trường hợp sử dụng rộng hơn, chẳng hạn như hỗ trợ người dùng khiếm thị, hỗ trợ người học ngôn ngữ, hoặc đơn giản là giúp việc xem lại nội dung khi đang di chuyển trở nên dễ dàng hơn.
Google vẫn chưa cung cấp mốc thời gian cụ thể để mở rộng tính năng này sang các ngôn ngữ hoặc nền tảng khác. Tuy nhiên, sự ra mắt này cho thấy Google tiếp tục tập trung vào việc kết hợp AI với các ứng dụng năng suất hằng ngày để nâng cao trải nghiệm người dùng.
Các mô hình khác thì sao?
Các nền tảng AI như ChatGPT và Copilot đều có những tính năng tương tự, nhưng cách triển khai và mức độ tích hợp lại khác nhau đáng kể so với tính năng của Google Docs. Nhìn chung, chúng đều có khả năng chuyển đổi văn bản thành giọng nói (text-to-speech) hoặc chuyển giọng nói thành văn bản (speech-to-text), nhưng không phải lúc nào cũng được tích hợp một cách liền mạch vào các ứng dụng văn phòng như Google Docs.
ChatGPT
Có khả năng đọc và nghe: ChatGPT có tính năng Voice trên ứng dụng di động (iOS và Android). Người dùng có thể nói chuyện trực tiếp với AI và nghe phản hồi bằng giọng nói. Nó sử dụng mô hình Whisper của OpenAI để chuyển đổi lời nói của bạn thành văn bản.
Chưa tích hợp vào tài liệu: Hiện tại, ChatGPT không có tính năng tích hợp trực tiếp để đọc to tài liệu như Google Docs. Bạn phải copy và paste toàn bộ văn bản vào cửa sổ chat để yêu cầu AI đọc.
Có thể phân tích âm thanh: Tuy nhiên, khi kết hợp với các công cụ của bên thứ ba, ChatGPT có thể phân tích các tệp âm thanh (ví dụ: một cuộc họp) và tóm tắt nội dung sau khi đã chuyển đổi thành văn bản.
Microsoft Copilot
Tích hợp mạnh mẽ với ứng dụng văn phòng: Copilot là đối thủ trực tiếp nhất với tính năng của Google Docs vì nó đã được tích hợp sâu vào bộ ứng dụng Microsoft 365.
Tính năng nghe tài liệu: Copilot trong Word có thể tạo một "bản tóm tắt âm thanh" của tài liệu. Người dùng có thể yêu cầu Copilot tạo bản tóm tắt này và nghe nó như một podcast ngắn. Tính năng này cho phép tùy chỉnh tốc độ phát và lưu tệp âm thanh vào OneDrive.
Vẫn có giới hạn: Tuy nhiên, tính năng này chủ yếu hoạt động với các tệp trực tuyến trên OneDrive và SharePoint, chưa áp dụng cho các tệp trên máy tính.