Mẹo nhỏ khi kết hợp tệp âm thanh với OpenAI

3 giờ trước Gốc

Việc sử dụng các dịch vụ AI của OpenAI một cách nhanh chóng có thể khiến bạn tốn kém. Tuy nhiên, có một mẹo hữu ích giúp tiết kiệm chi phí: sử dụng API để tổng hợp các bản ghi âm.

Bất kỳ ai muốn sử dụng đầy đủ các tính năng của ChatGPT đều phải trả phí. Hiện tại, OpenAI tính phí 23 euro mỗi tháng cho gói Plus. Đối với người dùng cá nhân muốn truy cập thực sự không giới hạn, họ phải trả tới 229 euro mỗi tháng cho dịch vụ gọi là “quầy ảo” (virtual counter).

Tuy nhiên, chi phí có thể còn cao hơn nữa đối với các nhà phát triển sử dụng dịch vụ AI của OpenAI thông qua API, vì họ sẽ bị tính phí dựa trên số lượng token đầu vào và đầu ra.

Cách giảm chi phí chuyển đổi âm thanh thành văn bản

Điều này đồng nghĩa rằng nhiệm vụ càng phức tạp thì càng tốn kém. Với GPT-4.1, một triệu token đầu vào có giá 2 USD. Còn một triệu token đầu ra thì đã có giá tới 8 USD. Tuy nhiên, đối với các nhiệm vụ sử dụng API của OpenAI, có một mẹo giúp giảm đáng kể chi phí.

Mẹo này đến từ lập trình viên George Mandis, người đã chia sẻ phát hiện của mình trên blog cá nhân. Mandis muốn AI của OpenAI chuyển lời nói thành văn bản và tóm tắt một video YouTube dài. Vì video dài hơn 40 phút, nên chi phí sử dụng API sẽ tăng lên tương ứng. Tuy nhiên, anh đã giảm dung lượng và thời lượng file bằng một cách tiếp cận gián tiếp mà không làm giảm chất lượng bản ghi.

Trước tiên, anh sử dụng chương trình “yt-dlp” để trích xuất và tải xuống phần âm thanh của video YouTube. Sau đó, dùng phần mềm “ffmpeg” để tăng tốc tệp âm thanh lên gấp đôi hoặc gấp ba lần. Cả hai chương trình đều miễn phí và có thể tìm thấy trên GitHub. Những gì có thể khiến tai người nghe cảm thấy mệt mỏi thì AI lại xử lý một cách dễ dàng. Quan trọng hơn, nó vẫn có thể tạo bản ghi chính xác mà không mắc lỗi nghiêm trọng.

Tạo bản tóm tắt chỉ trong vài bước

Sau khi AI đã tạo bản ghi âm thành văn bản cho bạn, bạn có thể tải đoạn văn bản đó lên lại OpenAI để yêu cầu tóm tắt nội dung. Như vậy, bạn đã tinh gọn một video YouTube dài 40 phút thành những điểm chính yếu nhất.

Nếu bạn không có quyền truy cập API của OpenAI, bạn vẫn có thể làm điều này với ChatGPT. Dù chatbot không thể phân tích trực tiếp tệp âm thanh, nhưng nó hoàn toàn có thể tóm tắt văn bản.

Tuy nhiên, chúng ta vẫn không biết mẹo này có "thọ" lâu không. Rất có thể OpenAI sẽ sớm phát hiện ra lỗ hổng để bịt lại nó. Khi đó, dữ liệu đầu vào sẽ tính theo cách khác với hiện tại.

Riêng với video trên YouTube, bạn không cần tệp âm thanh để tạo bản ghi. Mandis chỉ tạo ra tệp âm thanh vì anh nghĩ rằng tính năng ghi chú (transcript) của nền tảng YouTube sẽ không hoạt động với video. Bạn chỉ cần cuộn xuống dưới video và nhấp vào “Xem bản ghi” (View Transcript). Sau đó, sao chép và dán văn bản cùng với câu lệnh phù hợp vào ChatGPT để nhờ nó tóm tắt cho bạn.

Anh Tú

Nguồn Một Thế Giới: https://1thegioi.vn/meo-nho-khi-ket-hop-tep-am-thanh-voi-openai-234231.html