ChatGPT vừa trở thành trợ lý trước đây chỉ thấy trong phim viễn tưởng
Khả năng trò chuyện của GPT-4o, mô hình ngôn ngữ lớn mới trên ChatGPT gây ấn tượng đến mức được so sánh với những bộ phim viễn tưởng cách đây 10 năm.
Tại sự kiện diễn ra rạng sáng 14/5, OpenAI đã công bố GPT-4o, mô hình ngôn ngữ sẽ được cập nhật lên ChatGPT trong một vài tuần nữa. Theo công ty, chữ "o" đại diện cho "omni", chỉ khả năng xử lý văn bản, giọng nói và video của mô hình này.
Quan trọng hơn, GPT-4o sẽ được cung cấp cho cả người dùng miễn phí, dù bị giới hạn số tin nhắn. Người dùng bản ChatGPT Plus, với giá 20 USD/tháng, sẽ có mức giới hạn cao gấp 5 lần
Trợ lý ảo biết lắng nghe người dùng
OpenAI cho biết bản cập nhật này giúp mô hình nhanh hơn hẳn và cải thiện khả năng xử lý văn bản, hình ảnh và âm thanh.
"GPT-4o suy luận trên giọng nói, văn bản và hình ảnh, và điều này rất quan trọng, bởi vì chúng ta đang nhìn về tương lai của sự tương tác giữa con người và máy móc", Giám đốc kỹ thuật Mira Murati của OpenAI cho biết.
GPT-4 Turbo, mô hình mạnh nhất trước đây của OpenAI, được đào tạo trên một tổ hợp hình ảnh và văn bản, có khả năng phân tích hình ảnh và văn bản để hoàn thành các nhiệm vụ, như trích văn bản từ hình ảnh hoặc thậm chí mô tả nội dung của những hình ảnh đó.
Nhưng GPT-4o bổ sung khả năng xử lý giọng nói. Đây là thay đổi quan trọng, giúp mô hình mới hoạt động như một trợ lý có thể trò chuyện. Trong buổi ra mắt, đại diện của OpenAI đã cho thấy khả năng chuyển đổi giọng nói, tốc độ phản hồi của mô hình mới gần như trong thời gian thực.
Ví dụ, người dùng có thể đặt câu hỏi cho ChatGPT 4o và ngắt lời khi máy đang phát câu trả lời, sau đó phản hồi sẽ được cập nhật theo những yêu cầu hoặc thông tin mới.
Mô hình này mang lại khả năng "đáp ứng thời gian thực", theo OpenAI, và thậm chí có thể nắm bắt những điểm nhấn nhá trong giọng nói của người dùng, đưa ra phản hồi bằng "một loạt các phong cách biểu cảm khác nhau".
Chia sẻ sau sự kiện, nhiều người cho rằng ChatGPT đã trở thành phiên bản trợ lý giống như phim viễn tưởng "Her", ra mắt năm 2013.
GPT-4o cũng nâng cấp khả năng xử lý hình ảnh của ChatGPT. Với một bức ảnh - hoặc màn hình máy tính - ChatGPT giờ đây có thể trả lời nhanh các câu hỏi liên quan, từ các chủ đề như "điều gì đang diễn ra trong mã nguồn phần mềm này" đến "đây là thương hiệu áo sơ mi nào".
Murati cho biết những tính năng này sẽ tiếp tục phát triển trong tương lai. Hiện tại, GPT-4o đã có thể nhìn vào một bức ảnh thực đơn bằng ngôn ngữ khác và dịch nó. Bà Murati mô tả trong tương lai, mô hình này có thể cho phép ChatGPT "theo dõi" một trận đấu thể thao trực tiếp và giải thích luật chơi cho người dùng.
"Các chế độ giọng nói và video mới là giao diện máy tính tốt nhất tôi từng sử dụng. Nó đem lại cảm giác giống như trí tuệ nhân tạo trong phim, và chính tôi cũng phải cảm thấy bất ngờ là điều này đã thành sự thật. Việc đạt được thời gian phản hồi và khả năng biểu cảm ở mức độ của con người hóa ra là một thay đổi lớn", CEO OpenAI, ông Sam Altman viết trên trang web cá nhân.
Người dùng miễn phí cũng được hưởng lợi
Ngoài GPT-4o, OpenAI cũng công bố ứng dụng trên máy tính cho ChatGPT. Ở buổi giới thiệu, đại diện công ty này dùng app với GPT-4o để đọc một đoạn mã lập trình, giải thích đoạn mã này, sau đó còn giải thích đồ họa được tạo ra.
OpenAI cũng tuyên bố GPT-4o sẽ có hiệu suất nâng cao ở khoảng 50 ngôn ngữ. Nếu người dùng sử dụng API, GPT-4o nhanh gấp đôi, rẻ bằng một nửa và có giới hạn tốc độ cao hơn so với GPT-4 Turbo.
GPT-4o bắt đầu được đưa vào ChatGPT cho người dùng miễn phí từ hôm nay. Sau khi đạt giới hạn sử dụng, ChatGPT sẽ tự động chuyển sang GPT-3.5. Tính năng giọng nói của GPT-4o chỉ được triển khai hạn chế trong vài tuần đầu, do những lo ngại bị lạm dụng.
Người dùng ChatGPT Plus và Teams cao cấp sẽ có số lần sử dụng GPT-4o gấp 5 lần so với người dùng miễn phí.
"Chúng tôi là một doanh nghiệp và sẽ tìm thấy nhiều thứ để tính phí, và điều đó sẽ giúp chúng tôi cung cấp dịch vụ AI miễn phí, xuất sắc cho hàng tỷ người", Sam Altman chia sẻ.