OpenAI và nhiều công ty tìm cách mới giúp AI thông minh hơn khi phương pháp hiện tại gặp hạn chế
OpenAI cùng các công ty trí tuệ nhân tạo (AI) khác đang tìm cách vượt qua những sự chậm trễ và thách thức không ngờ trong quá trình tạo ra mô hình ngôn ngữ ngày càng lớn hơn, bằng cách phát triển kỹ thuật đào tạo sử dụng phương pháp giống con người hơn để các thuật toán có thể 'suy luận'.
Hàng chục nhà khoa học, nhà nghiên cứu và nhà đầu tư AI nói với Reuters rằng họ tin rằng những kỹ thuật này, vốn là nền tảng cho mô hình ngôn ngữ lớn o1 được OpenAI phát hành gần đây, có thể định hình lại cuộc đua AI và tác động đến các loại tài nguyên mà một số công ty đòi hỏi ngày càng cao, từ năng lượng đến chip.
Sau khi OpenAI trình làng chatbot ChatGPT cách đây hai năm, các hãng công nghệ (được hưởng lợi rất lớn từ cơn sốt AI) cho rằng việc bổ sung dữ liệu và sức mạnh tính toán sẽ dẫn đến những mô hình AI ngày càng cải tiến. Song hiện tại, một số nhà khoa học AI nổi tiếng nhất đang lên tiếng về những hạn chế của triết lý "càng lớn càng tốt" này.
Ilya Sutskever, đồng sáng lập OpenAI và Safe Superintelligence, gần đây nói với Reuters rằng kết quả từ việc mở rộng quy mô tiền đào tạo (giai đoạn đào tạo mô hình AI sử dụng lượng lớn dữ liệu chưa được gắn nhãn để hiểu các mẫu và cấu trúc ngôn ngữ) đã đạt đến giới hạn.
Ilya Sutskever, cựu Giám đốc khoa học OpenAI, là người ủng hộ sớm cho việc đạt được những bước tiến vượt bậc trong AI tạo sinh thông qua việc sử dụng nhiều dữ liệu và sức mạnh tính toán hơn trong giai đoạn tiền đào tạo, điều này cuối cùng đã tạo ra ChatGPT. Ilya Sutskever rời OpenAI hồi tháng 5 để thành lập Safe Superintelligence.
"Những năm 2010 là thời đại của việc mở rộng quy mô, giờ đây chúng ta quay trở lại thời đại của sự ngạc nhiên và khám phá một lần nữa. Nhiều người đang tìm kiếm điều mới mẻ tiếp theo. Việc mở rộng đúng hướng quan trọng hơn bao giờ hết", ông nhấn mạnh.
Ilya Sutskever từ chối chia sẻ thêm chi tiết về cách đội ngũ của ông giải quyết vấn đề này, ngoài việc cho biết SSI đang nghiên cứu một phương pháp tiếp cận thay thế để mở rộng quy mô tiền đào tạo.
Đằng sau hậu trường, nhà nghiên cứu tại các phòng thí nghiệm AI lớn đã gặp phải sự chậm trễ và kết quả đáng thất vọng trong cuộc đua tung ra mô hình ngôn ngữ lớn vượt trội hơn GPT-4 (gần hai năm tuổi) của OpenAI, theo ba nguồn tin quen thuộc với các vấn đề nội bộ.
Việc "chạy đào tạo" cho các mô hình lớn có thể tốn hàng chục triệu USD do phải dùng cùng lúc hàng trăm chip AI. Điều này dễ gặp trục trặc do phần cứng phức tạp, các nhà nghiên cứu có thể không biết hiệu suất cuối cùng của mô hình cho đến khi kết thúc quá trình "chạy đào tạo", có thể mất nhiều tháng.
Một vấn đề khác là các mô hình ngôn ngữ lớn chiếm lượng lớn dữ liệu và gần như cạn kiệt dữ liệu dễ truy cập trên thế giới. Tình trạng thiếu điện cũng cản trở các lần "chạy đào tạo", vì quá trình này cần rất nhiều năng lượng.
Để vượt qua những thách thức đó, các nhà nghiên cứu đang khám phá test-time compute, kỹ thuật cải thiện các mô hình AI hiện có trong giai đoạn được gọi là "suy luận" hoặc khi mô hình đang được sử dụng. Ví dụ, thay vì chọn ngay một câu trả lời duy nhất, mô hình AI có thể tạo và đánh giá nhiều khả năng cùng lúc, cuối cùng chọn cách tối ưu.
Phương pháp này cho phép các mô hình AI dành nhiều sức mạnh xử lý hơn cho nhiệm vụ phức tạp như vấn đề toán học, lập trình, hoặc hoạt động đòi hỏi lý luận và ra quyết định giống con người.
"Hóa ra chỉ cần để bot suy nghĩ trong 20 giây khi chơi một ván poker cũng đem lại hiệu suất tương đương với việc mở rộng mô hình lên 100.000 lần và đào tạo nó lâu gấp 100.000 lần", Noam Brown, nhà nghiên cứu tại OpenAI, nói tại hội nghị TED AI ở thành phố San Francisco (Mỹ) tháng trước.
OpenAI đã áp dụng kỹ thuật này trong mô hình ngôn ngữ lớn o1, trước đây gọi là Q* và Strawberry (được Reuters đưa tin lần đầu vào tháng 7).
Mô hình o1 có thể "suy nghĩ" về các vấn đề theo nhiều bước, tương tự lý luận của con người. Nó cũng sử dụng dữ liệu và phản hồi được tuyển chọn từ các tiến sĩ và chuyên gia trong ngành. Bí quyết của o1 là bộ đào tạo khác được thực hiện trên các mô hình nền tảng, chẳng hạn GPT-4. OpenAI có kế hoạch áp dụng kỹ thuật này với nhiều mô hình nền tảng lớn hơn.
Theo OpenAI, o1 vượt trội hơn mô hình ngôn ngữ lớn khác trong các nhiệm vụ nặng về mặt lý luận ở lĩnh vực khoa học, lập trình và toán học.
Nhà nghiên cứu tại các phòng thí nghiệm AI hàng đầu khác, từ Anthropic, xAI và Google DeepMind, đã làm việc để phát triển phiên bản kỹ thuật của riêng họ, theo 5 người quen thuộc với những nỗ lực này.
"Chúng tôi thấy có rất nhiều thứ dễ thực hiện để cải thiện các mô hình AI nhanh chóng. Đến khi mọi người bắt kịp, chúng tôi sẽ cố gắng đi trước ba bước nữa", Kevin Weil, Giám đốc sản phẩm OpenAI, nói tại một hội nghị công nghệ vào tháng 10.
Google và xAI không phản hồi câu hỏi của Reuters, còn Anthropic chưa bình luận ngay lập tức.
Những tác động này có thể làm thay đổi cục diện cạnh tranh trong thị trường phần cứng AI, vốn bị chi phối bởi nhu cầu lớn về chip AI của Nvidia.
Các nhà đầu tư mạo hiểm nổi tiếng, từ Sequoia đến Andreessen Horowitz, đã đổ hàng tỉ USD để tài trợ cho quá trình phát triển tốn kém mô hình AI tại nhiều phòng thí nghiệm, gồm cả OpenAI và xAI. Họ đang chú ý đến sự chuyển đổi này và cân nhắc tác động đến các khoản đầu tư đắt đỏ của mình.
"Sự thay đổi này sẽ đưa chúng ta từ một thế giới của các cụm đào tạo trước khổng lồ sang các đám mây suy luận, là những máy chủ phân tán dựa trên đám mây để suy luận", Sonya Huang, đối tác tại công ty đầu tư mạo hiểm nổi tiếng Sequoia Capital, nói với Reuters.
Nhu cầu với chip AI của Nvidia, vốn là công nghệ tiên tiến nhất, đã thúc đẩy họ vươn lên trở thành công ty có giá trị nhất thế giới, vượt qua Apple. Không giống chip đào tạo mà Nvidia đang thống trị, công ty Mỹ này có thể phải đối mặt với nhiều sự cạnh tranh hơn trên thị trường suy luận.
Khi được hỏi về tác động có thể xảy ra liên quan nhu cầu với các sản phẩm của mình, Nvidia đã chỉ ra các bài thuyết trình gần đây về tầm quan trọng của kỹ thuật đằng sau mô hình o1. Jensen Huang, Giám đốc điều hành Nvidia, nói về nhu cầu ngày càng tăng với việc sử dụng chip AI của công ty để suy luận.
"Chúng tôi đã phát hiện ra một quy luật mở rộng thứ hai và đây là quy luật mở rộng tại thời điểm suy luận... Tất cả những yếu tố này đã dẫn đến nhu cầu về Blackwell trở nên cực kỳ cao", Jensen Huang nói vào tháng 10 tại một hội nghị ở Ấn Độ, ám chỉ đến dòng chip AI mới nhất của công ty.
Hôm 23.10, Jensen Huang nói một lỗi thiết kế trong dòng Blackwell, gây ảnh hưởng đến quá trình sản xuất, đã được khắc phục với sự trợ giúp từ đối tác lâu năm là TSMC (Đài Loan). TSMC là hãng sản xuất chip theo hợp đồng số 1 thế giới.
Nvidia giới thiệu các chip Blackwell vào tháng 3 và trước đó nói rằng chúng sẽ được bán ra trong quý 2/2024, nhưng đã bị trì hoãn. Điều này có khả năng ảnh hưởng đến các khách hàng như Meta Platforms, Google và Microsoft.
"Chúng tôi đã gặp lỗi thiết kế trong Blackwell. Nó vẫn hoạt động, nhưng lỗi thiết kế đã khiến tỷ lệ thành phẩm bị thấp. Đó hoàn toàn là lỗi của Nvidia", Jensen Huang nói.
Truyền thông loan tin "sự trì hoãn này gây ra căng thẳng giữa Nvidia và TSMC", nhưng Jensen Huang bác bỏ điều đó và gọi đây là "tin giả".
"Để làm cho một máy tính Blackwell hoạt động, 7 loại chip khác nhau đã được thiết kế từ đầu và phải được đưa vào sản xuất cùng lúc. Những gì TSMC đã làm là giúp chúng tôi khắc phục vấn đề về tỷ lệ thành phẩm và nối lại việc sản xuất Blackwell một cách tuyệt vời", ông nói.
Các chip Blackwell sử dụng hai tấm silicon có kích thước gấp đôi sản phẩm trước đó của Nvidia và kết hợp chúng thành một thành phần duy nhất, nhanh gấp 30 lần trong các nhiệm vụ như cung cấp câu trả lời từ các chatbot.
Tại hội nghị gần đây của ngân hàng đầu tư đa quốc gia Goldman Sachs (Mỹ), Jensen Huang nói rằng các chip Blackwell sẽ được bán ra vào quý 4/2024.