Nhiều mô hình AI từ Trung Quốc đến Mỹ và Pháp trả lời sai câu hỏi: 9,90 hay 9,11 lớn hơn?

18/7/2024 Gốc

Các mô hình ngôn ngữ lớn tiên tiến như GPT-4o, Claude 3.5 Sonnet và Mistral 7B đều trả lời sai câu hỏi toán học cơ bản này.

Làn sóng các chatbot trí tuệ nhân tạo (AI ) được phép sử dụng công khai ở Trung Quốc đại lục đã giúp nhiều người dùng tạo ra nội dung mới, gồm âm thanh, mã lập trình, hình ảnh, mô phỏng, video và văn bản đúng ngữ pháp, để giải trí và hỗ trợ các công việc hàng ngày.

Nhu cầu này đã dẫn đến sự phát triển của hơn 200 mô hình ngôn ngữ lớn (công nghệ làm nền tảng cho các dịch vụ AI tạo sinh, chẳng hạn chatbot AI). Mô hình ngôn ngữ lớn là các thuật toán AI học sâu có thể nhận dạng, tóm tắt, dịch, dự đoán bằng cách sử dụng các tập dữ liệu rất lớn.

Bất chấp có nhiều tài nguyên hỗ trợ các chatbot như vậy, các mô hình AI đã được chứng minh là gặp khó khăn với kiến thức toán học cơ bản cuối tuần qua trong chương trình thực tế Singer 2024 của Trung Quốc. Đây là cuộc thi hát do Đài truyền hình Hồ Nam sản xuất.

Nghệ sĩ Tôn Nam (Trung Quốc) nhận được 13,8% phiếu bầu trực tuyến để vượt qua ca sĩ Chante Moore (Mỹ), người nhận được 13,11% phiếu bầu). Một số cư dân mạng địa phương đã chế giễu bảng xếp hạng, cho rằng con số sau lớn hơn (tức 13,11 lớn hơn 13,8%)! Một người gợi ý hỏi AI và kết quả nhận được là hỗn hợp.

Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai. Chúng đã tự sửa sữa chữa và xin lỗi sau khi người dùng đặt câu hỏi sử dụng phương pháp suy luận gọi là “chuỗi suy nghĩ”. Đó là phương pháp suy luận mà trong đó ứng dụng AI được hướng dẫn từng bước để giải quyết vấn đề.

Mô hình ngôn ngữ lớn Qwen của Alibaba đã sử dụng Python Code Interpreter (trình thông dịch mã Python) để tính toán câu trả lời. Trong khi Ernie Bot của Baidu mất 6 bước để có được câu trả lời chính xác. Ngược lại, mô hình ngôn ngữ lớn Doubao của ByteDance (chủ sở hữu TikTok) đã tạo ra phản hồi trực tiếp với một ví dụ: "Nếu bạn có 9,90 USD và 9,11 USD thì rõ ràng 9,90 USD là nhiều tiền hơn".

“Mô hình ngôn ngữ lớn rất kém trong toán học. Điều này rất phổ biến”, theo ông Ngô Di Quyền, nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở thành phố Hàng Châu.

Ngô Di Quyền nói AI tạo sinh không có khả năng toán học vốn có và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu được huấn luyện. Ông cho biết một số mô hình ngôn ngữ lớn đạt kết quả tốt trong các bài kiểm tra toán học có thể là do “ô nhiễm dữ liệu”, nghĩa là thuật toán đã ghi nhớ các câu trả lời, vì những câu hỏi tương tự có trong dữ liệu huấn luyện của nó.

“Thế giới AI được mã hóa – các con số, từ, dấu câu và khoảng trống đều được xử lý như nhau. Do đó, bất kỳ thay đổi nào trong câu hỏi đều có thể ảnh hưởng lớn đến kết quả”, Ngô Di Quyền nói.

Vấn đề toán học cho thấy công nghệ AI tiếp tục phát triển không chỉ ở Trung Quốc đại lục mà còn trên toàn thế giới.

Đây là tình huống có thể khiến Trung Quốc tạm dừng nỗ lực thiết lập luật AI quốc gia thống nhất. Phần lớn các chuyên gia tin rằng thời điểm để soạn thảo luật AI quốc gia thống nhất có thể chưa phù hợp vì công nghệ đang phát triển quá nhanh, Trịnh Cát, giáo sư luật công tại Đại học Giao thông Thượng Hải nói tại một hội nghị ở thủ đô Bắc Kinh tuần trước.

"Thử nghiệm so sánh số” giữa các mô hình ngôn ngữ lớn đã lan truyền trên mạng sau khi Bill Yuchen Lin (nhà nghiên cứu từ Viện Allen) và Riley Goodside (kỹ sư ra lệnh tại hãng công nghệ Scale AI) nhấn mạnh những thiếu sót toán học cơ bản của AI.

Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các mô hình ngôn ngữ lớn tiên tiến như GPT-4o của OpenAI (Mỹ), Claude 3.5 Sonnet của Anthropic (Mỹ) và Mistral 7B của Mistral AI (Pháp) đều trả lời là 9,11. Trong bài đăng trên mạng xã hội X, Riley Goodside nói rằng không có ý định làm suy giảm giá trị mô hình ngôn ngữ lớn, mà muốn giúp chúng hiểu và khắc phục lỗi.

Riley Goodside cho hay: “Các vấn đề đã biết trước đây trong mô hình ngôn ngữ lớn, ví dụ kém toán học, đang được giảm thiểu tốt từ những lỗi gây sốc cho người dùng. Tuy nhiên, chúng ta nên sẵn sàng cho điều này tiếp tục xảy ra trong nhiều lĩnh vực nhiệm vụ khác nhau”.

AI tạo sinh vốn không sở hữu khả năng về toán học - Ảnh: Shutterstock

“Có quá nhiều mô hình ngôn ngữ lớn ở Trung Quốc, gây lãng phí tài nguyên”

Robin Li Yanhong (Lý Ngạn Hoành), đồng sáng lập và là Giám đốc điều hành Baidu, cho biết Trung Quốc có quá nhiều mô hình ngôn ngữ lớn và kêu gọi các nhà lãnh đạo công nghệ tập trung hơn vào việc xây dựng các ứng dụng trong thế giới thực dựa trên AI.

“Vào năm 2023, sự cạnh tranh gay gắt giữa hơn 100 mô hình ngôn ngữ lớn đã xuất hiện ở Trung Quốc, dẫn đến lãng phí đáng kể tài nguyên, đặc biệt là sức mạnh tính toán”, Robin Li Yanhong nói trong cuộc thảo luận tại Hội nghị AI Thế giới (WAIC) ở thành phố Thượng Hải đầu tháng 7. Baidu là hãng tìm kiếm internet số 1 Trung Quốc.

Lý Ngạn Hoành kêu gọi các nhà phát triển xây dựng các ứng dụng thực tế hơn thay vì liên tục điều chỉnh mô hình ngôn ngữ lớn (công nghệ làm nền tảng cho các sản phẩm AI tạo sinh như chatbot). Ông nói: “Tôi nhận thấy rằng nhiều người vẫn chủ yếu tập trung vào các mô hình nền tảng. Thế nhưng, tôi muốn hỏi: Còn ứng dụng trong thế giới thực thì sao? Ai đã được hưởng lợi từ chúng?”.

Thị trường AI tạo sinh của Trung Quốc đã trở nên đông đúc với hơn 200 mô hình ngôn ngữ lớn xuất hiện kể từ khi ChatGPT ra mắt vào tháng 11.2022. Sự cạnh tranh quá mức giữa các hãng công nghệ lớn đã dẫn đến cuộc chiến về giá cho các dịch vụ AI thương mại, trong khi các công ty Mỹ như OpenAI và Google bị loại khỏi thị trường Trung Quốc.

Giống như phần lớn ngành công nghiệp trên toàn cầu, thị trường AI của Trung Quốc vẫn đang trong giai đoạn đầu kiếm tiền. Lý Ngạn Hoành cho biết logistics và viết sáng tạo là hai ngành đã được hưởng lợi từ các ứng dụng AI giúp cải thiện hiệu quả.

Viết sáng tạo là hình thức viết lách sử dụng ngôn ngữ để truyền tải ý tưởng, cảm xúc và trải nghiệm theo cách sáng tạo, độc đáo. Nó vượt ra ngoài khuôn khổ của các dạng viết truyền thống như báo chí, học thuật hay kỹ thuật, mà tập trung vào việc kể chuyện, phát triển nhân vật và sử dụng ngôn ngữ linh hoạt để thu hút, truyền cảm hứng cho người đọc.

Baidu Comate, trợ lý lập trình được hỗ trợ bởi mô hình ngôn ngữ lớn Ernie của công ty, đã được triển khai nội bộ để sử dụng cho nhân viên. Lý Ngạn Hoành cho biết 30% công việc lập trình tại Badu hiện do AI xử lý.

Hôm 5.7, Baidu cũng đã giới thiệu mô hình ngôn ngữ lớn Ernie 4.0 Turbo mới dành cho khách hàng doanh nghiệp, kèm theo việc giảm giá thêm 83% với mô hình Ernie 4.0 và Ernie 3.5.

Xu Li, đồng sáng lập và Giám đốc điều hành SenseTime (hãng tiên phong về AI của Trung Quốc), nói tại WAIC: “Tôi nghĩ các ứng dụng là chìa khóa để xác định liệu thời đại này có phải là thời điểm quan trọng với AI hay không”.

“Dù ngành của chúng tôi hiện là chủ đề nóng, nhưng nó vẫn chưa đạt đến thời điểm quan trọng vì chưa thâm nhập vào bất cứ ứng dụng nào trong bất kỳ ngành dọc nào dẫn đến sự thay đổi rộng rãi”, Xu Li nói thêm.

Ngành dọc là nhóm các doanh nghiệp và khách hàng cùng hoạt động trong một lĩnh vực cụ thể, có mối liên hệ chặt chẽ với nhau trong chuỗi giá trị. Ví dụ:

Ngành công nghiệp bán lẻ: Gồm các doanh nghiệp như nhà sản xuất hàng tiêu dùng, nhà bán buôn, nhà bán lẻ và người dùng cuối.

Ngành công nghiệp chăm sóc sức khỏe: Gồm các bệnh viện, phòng khám, hãng dược phẩm, công ty bảo hiểm y tế và bệnh nhân.

Ngành công nghiệp sản xuất: Gồm các nhà sản xuất ô tô, máy bay, thiết bị điện tử cùng các nhà cung cấp nguyên liệu và linh kiện cho họ.

Ví dụ về các công ty tập trung vào thị trường dọc:

Salesforce: Cung cấp phần mềm quản lý quan hệ khách hàng (CRM) cho các doanh nghiệp trong nhiều ngành dọc khác nhau, gồm bán lẻ, dịch vụ tài chính và chăm sóc sức khỏe.

SAP: Cung cấp phần mềm quản lý doanh nghiệp (ERP) cho các doanh nghiệp trong nhiều ngành dọc khác nhau, gồm sản xuất, chuỗi cung ứng và bán lẻ.

Adobe: Cung cấp phần mềm sáng tạo và tiếp thị cho các doanh nghiệp trong nhiều ngành dọc khác nhau, gồm truyền thông, giáo dục và bán lẻ.

Yan Junjie, Giám đốc điều hành MiniMax - một trong những công ty khởi nghiệp AI hàng đầu khác của Trung Quốc, nói tại WAIC rằng ông kỳ vọng có sự hợp nhất lớn trong ngành với mô hình ngôn ngữ lớn chủ yếu chỉ được phát triển bởi 5 công ty.

Thành công bất ngờ của ChatGPT sau thời gian ngắn đã châm ngòi cho làn sóng AI ở Trung Quốc và cuộc chạy đua tạo ra mô hình ngôn ngữ lớn tốt nhất trong nước.

Ngoài một nhóm nhỏ các công ty khởi nghiệp được mệnh danh là “con hổ AI” của Trung Quốc, những hãng công nghệ lớn đã rót nguồn lực vào thị trường này.

4 "con hổ AI" của Trung Quốc gồm MiniMax, Baichuan, Zhipu AI và Moonshot AI.

Sơn Vân