Tranh cãi xung quanh việc ChatGPT ngày càng 'kém thông minh' so với khi mới ra mắt
Sau hơn nửa năm ra mắt, ChatGPT đang nhận rất nhiều lời phàn nàn từ người dùng rằng năng lực của chatbot trí tuệ nhân tạo (AI) này đang suy giảm. Cộng đồng, các chuyên gia AI đang đưa ra nhiều ý kiến trái chiều về vấn đề này.
ChatGPT giảm lượng truy cập, người dùng phàn nàn về những phản hồi thiếu chính xác
ChatGPT là một chatbot trí tuệ nhân tạo (AI) do Công ty OpenAI của Mỹ phát triển và ra mắt vào tháng 11/2022. ChatGPT được xây dựng dựa trên GPT-3.5 - một dòng mô hình ngôn ngữ lớn của OpenAI được tinh chỉnh đồng thời bằng cả 2 kỹ thuật học tăng cường và học có giám sát.
Khi vừa ra mắt, chatbot này đã trở thành cơn sốt trên khắp thế giới, trở thành ứng dụng phát triển nhanh nhất trong lịch sử với 100 triệu người dùng sau 2 tháng, thu hút khoảng 1,5 tỷ lượt truy cập mỗi tháng.
Với sự "thông minh" của mình, ChatGPT đã được người dùng khắp nơi thử nghiệm và yêu cầu nó tạo ra đủ các loại văn bản như email, bài luận, câu đố, hoặc thậm chí lập trình.
Tuy nhiên, sau hơn nửa năm ra mắt, ChatGPT lại đang nhận rất nhiều lời phàn nàn từ người dùng rằng ứng dụng AI này đang trở nên “ngốc” hơn và đưa ra những câu trả lời thiếu chính xác.
Theo dữ liệu từ Công ty phân tích SimilarWeb, lưu lượng truy cập toàn cầu vào ChatGPT của OpenAI ước tính giảm khoảng 10% trong khoảng thời gian từ tháng 5 đến tháng 6/2023. Đây là con số đánh dấu lần đầu tiên số lượng truy cập vào mô hình ngôn ngữ lớn này suy giảm kể từ khi ChatGPT được ra mắt.
Theo đó, vào tháng 6/2023, lưu lượng truy cập trên toàn thế giới từ máy tính cá nhân và thiết bị di động đến trang web của ChatGPT đã giảm 9,7% so với tháng trước đó. Tại Mỹ, lượng truy cập giảm 10,3%. Tương tự, số lượng người dùng truy cập trên toàn cầu giảm 5,7%. Người dùng cũng dành ít thời gian hơn để tương tác với ChatGPT, với mức độ tương tác trong tháng 5/2023 giảm 8,5% so với tháng trước đó.
Similarweb cho biết: "ChatGPT không còn duy trì được độ nóng để có thể trở thành trang web có nhiều lượt truy cập nhất trên thế giới".
Trên diễn đàn dành cho nhà phát triển trí tuệ nhân tạo của OpenAI, tình trạng xuống cấp của ChatGPT về chất lượng phản hồi yêu cầu của người dùng đã gây ra nhiều tranh cãi. Đây có thể coi là một thách thức với OpenAI trong bối cảnh GPT-4 chủ yếu được cung cấp cho các người dùng trả phí truy cập.
Một số ý kiến trong cộng đồng AI cho rằng, nếu đây là mô hình ngôn ngữ lớn tiên tiến nhất của OpenAI, chatbot này nên có màn thể hiện tốt hơn nhằm tạo ra lợi thế trong cuộc cạnh tranh ngày càng khốc liệt với các đối thủ trên thị trường.
Về vấn đề này, Phó Chủ tịch sản phẩm Peter Welinder tại OpenAI khẳng định: "Chúng tôi không tạo ra GPT-4 ngu ngốc hơn. Hoàn toàn ngược lại, chúng tôi làm cho mỗi phiên bản mới thông minh hơn phiên bản trước".
Nghiên cứu mới cho rằng công nghệ đằng sau ChatGPT đang hoạt động kém hiệu quả hơn
Tuy nhiên, không chỉ là phản ánh của một bộ phận người dùng, theo kết luận báo cáo được thực hiện gần đây bởi các nhà nghiên cứu tại 2 trường đại học nổi tiếng của Mỹ là Stanford và California-Berkeley, mô hình AI mới nhất đằng sau ChatGPT là GPT-4 đang thực sự trở nên kém "thông minh" hơn.
GPT-4 được định nghĩa là mô hình AI đa phương tiện dùng để xử lý ngôn ngữ tự nhiên (ngôn ngữ con người thường dùng để trao đổi hàng ngày với nhau) thế hệ thứ 4 của OpenAI. GPT-4 có khả năng xử lý thông tin đầu vào ở cả dạng hình ảnh và văn bản. Đây là phiên bản nâng cấp toàn diện của GPT-3.5, có thể phân tích, xử lý, tạo ra khối lượng dữ liệu văn bản lên đến 25.000 từ, gấp hơn 8 lần so với GPT-3 chỉ với 3.000 từ.
Vì vậy, hiện tượng GPT-4 trở nên "ngốc" hơn đặc biệt khó hiểu vì các mô hình AI tạo sinh sử dụng đầu vào là dữ liệu của người dùng để tự đào tạo liên tục. Điều này có nghĩa là chúng sẽ ngày càng thông minh hơn khi tích lũy được nhiều mục nhập của người dùng hơn theo thời gian.
Tuy nhiên, theo các nhà nghiên cứu AI, câu trả lời cho sự xuống cấp của ChatGPT có thể nằm trong một khái niệm gọi là "độ lệch".
"Độ lệch" đề cập đến việc các mô hình ngôn ngữ lớn (LLM) hoạt động theo những cách không mong muốn hoặc không thể đoán trước, đi chệch khỏi các tham số ban đầu. Điều này có thể xảy ra do nỗ lực cải thiện các bộ phận của mô hình AI phức tạp khiến các bộ phận khác hoạt động kém hơn.
Các nhà nghiên cứu tại Đại học Stanford và California-Berkeley đã tiến hành đánh giá độ lệch và kiểm tra cách các mô hình ngôn ngữ lớn phổ biến của ChatGPT, bao gồm GPT-3.5 và GPT-4 (công nghệ đằng sau Bing Chat và ChatGPT Plus) thay đổi theo thời gian.
Nghiên cứu đã so sánh khả năng của 2 mô hình ngôn ngữ lớn này trong các bài đánh giá, bao gồm: giải toán, trả lời các câu hỏi nhạy cảm, trả lời khảo sát ý kiến, trả lời các câu hỏi chuyên sâu về kiến thức đa chặng, lập trình và hoàn thành các nhiệm vụ suy luận trực quan. Bài kiểm tra này được thực hiện vào tháng 3 và tháng 6/2023.
Kết quả nghiên cứu cho thấy, phiên bản tháng 3/2023 của GPT-4 vượt trội so với phiên bản tháng 6/2023 trong nhiều trường hợp, nổi bật nhất là trong toán học cơ bản. GPT-4 cũng kém hơn trong việc lập trình, trả lời các câu hỏi kiểm tra y tế và trả lời các cuộc khảo sát ý kiến. Các nhà nghiên cứu kết luận, độ lệch đang diễn ra quá nhanh đối với ChatGPT.
Chưa có bằng chứng cụ thể về sự suy giảm năng lực của công nghệ AI
Nghiên cứu trên của Đại học Stanford và California-Berkeley đang được chia sẻ rộng rãi, tuy nhiên, theo nhà nghiên cứu Arvind Narayanan và Sayash Kapoor, nhiều người đang hiểu hiểu sai về kết luận ChatGPT đang trở nên “ngu ngốc hơn” trong vài tháng qua.
Arvind Narayanan và Sayash Kapoor điều hành một nền tảng Substack có tên là AI Snake Oil, đã đưa ra một loạt quan điểm mới mẻ và những thông tin về khả năng của công nghệ kỹ thuật số.
Theo họ, thực tế là chúng ta không có bằng chứng về sự suy giảm năng lực của trí tuệ nhân tạo, chỉ có bằng chứng về sự thay đổi hành vi của nó. "Khả năng” và “hành vi” của các chatbot AI là 2 khái niệm khác nhau.
Khả năng của chatbot có được thông qua đào tạo trước (pre-training). Đó là một quá trình tốn kém thời gian, chi phí, vì vậy nó không bao giờ được lặp lại. Trong khi đó, hành vi của chatbot bị ảnh hưởng bởi hoạt động tinh chỉnh (fine-tuning), hay còn gọi là đào tạo bổ sung, xảy ra sau quá trình đào tạo trước. Tinh chỉnh tiết kiệm chi phí hơn nhiều và thường xuyên được thực hiện.
Theo đó, mô hình ChatGPT ban đầu không trò chuyện với người dùng. Hành vi trò chuyện chỉ phát sinh thông qua tinh chỉnh.
Một mô hình ngôn ngữ lớn trí tuệ nhân tạo sẽ giữ nguyên theo thời gian trong khi hành vi của chúng có thể thay đổi đáng kể. Điều này hoàn toàn phù hợp với kết luận nghiên cứu của Đại học Stanford và California-Berkeley ở trên. GPT-4 có thể không hoạt động tốt ngay, nhưng chúng đang tiếp tục thu thập dữ liệu từ con người để học hỏi và cải thiện.
Trong khi đó, theo ông Peter Yang - trưởng nhóm sản phẩm của nền tảng trò chơi điện tử Roblox cho biết, các chuyên gia AI có những giả thuyết khác nhau về việc các câu trả lời của GPT-4 được tạo ra nhanh hơn so với trước đây, nhưng chất lượng có vẻ kém hơn.
Một trong số đó là khả năng OpenAI chuyển GPT-4 từ một mô hình lớn sang nhiều mô hình nhỏ hơn để tiết kiệm bộ xử lý đồ họa (GPU). Giả thuyết này đang được đông đảo chuyên gia thảo luận. Cách tiếp cận này được gọi là "Mix of Expert" (MOE). Các mô hình nhỏ hơn được đào tạo các nhiệm vụ và lĩnh vực riêng biệt, tức là có thể có một mô hình GPT-4 chuyên về sinh học, một mô hình chuyên về vật lý hay toán học, hóa học,...
Khi người dùng GPT-4 đặt câu hỏi, hệ thống mới sẽ biết mô hình nào là phù hợp để gửi câu hỏi đó. Trong một số trường hợp, hệ thống có thể quyết định gửi một yêu cầu của người dùng đến hai hoặc nhiều mô hình riêng biệt, sau đó tổng hợp kết quả.
Có 2 lý do kỹ thuật chính được các chuyên gia đưa ra về cách tiếp cận MOE, đó là phản hồi được tạo ra tốt hơn, rẻ hơn, và nhanh hơn.
OpenAI chưa đưa ra xác nhận về việc hiện nay họ có dùng MOE hay không, tuy nhiên công ty này đã từng công bố một nghiên cứu đề cập đến MOE vào năm 2022 mà Chủ tịch OpenAI Greg Brockman là đồng tác giả.
Nguồn: Tech Xplore, Insider, AI Snake Oil