Các nhà nghiên cứu Google DeepMind tìm ra giải pháp cho vấn đề dữ liệu đào tạo AI đạt đỉnh

Ilya Sutskever, nhà đồng sáng lập và cựu Giám đốc khoa học OpenAI, đã công bố một điều tại hội nghị NeurIPS khiến ngành công nghiệp trí tuệ nhân tạo (AI) phải run sợ.

NeurIPS là hội nghị hàng đầu thế giới về AI và học máy, được tổ chức hàng năm và thu hút sự tham gia của các nhà nghiên cứu, kỹ sư, doanh nghiệp, sinh viên trên toàn cầu.

"Chúng ta đã đạt dữ liệu đỉnh và sẽ không còn gì nữa", ông nói trong bài phát biểu tại sự kiện Neurips vào tháng 12.2024.

Tất cả dữ liệu hữu ích trên internet đã được sử dụng để huấn luyện (đào tạo) các mô hình AI. Quá trình này, được gọi là tiền huấn luyện, đã tạo ra nhiều tiến bộ đáng kể gần đây trong AI tạo sinh, gồm cả ChatGPT. Tuy nhiên, sự cải thiện mô hình AI đang chậm lại và Ilya Sutskever cho rằng kỷ nguyên này "chắc chắn sẽ kết thúc".

Ilya Sutskever (phải) thời còn làm chung với Giám đốc điều hành OpenAI Sam Altman (trái) - Ảnh: Getty Images

Ilya Sutskever (phải) thời còn làm chung với Giám đốc điều hành OpenAI Sam Altman (trái) - Ảnh: Getty Images

Đó là một viễn cảnh đáng sợ vì hàng nghìn tỉ USD giá trị trên thị trường chứng khoán và tiền đầu tư vào AI đang phụ thuộc vào các mô hình tiếp tục được cải thiện. Tuy nhiên, hầu hết chuyên gia AI dường như không lo lắng. Tại sao?

Tính toán trong thời gian suy luận

Có thể có một cách để vượt qua bức tường dữ liệu này, liên quan đến kỹ thuật tương đối mới giúp các mô hình AI “suy nghĩ” lâu hơn khi gặp các nhiệm vụ khó khăn.

Phương pháp đó, được gọi là tính toán thời gian kiểm tra (test-time compute) hoặc tính toán thời gian suy luận (inference-time compute), chia các truy vấn thành các nhiệm vụ nhỏ hơn, biến mỗi nhiệm vụ thành một yêu cầu mới mà mô hình sẽ xử lý. Mỗi bước trong quá trình giải quyết một nhiệm vụ phức tạp, được gọi là giai đoạn suy luận trong AI.

Điều này tạo ra một chuỗi suy luận, trong đó từng phần của vấn đề được giải quyết. Mô hình AI không chuyển sang giai đoạn tiếp theo cho đến khi nó xử lý đúng từng phần và cuối cùng đưa ra phản hồi cuối cùng tốt hơn.

Vào tháng 9, OpenAI đã phát hành mô hình o1 sử dụng tính toán thời gian suy luận. Ngay sau đó, Google và DeepSeek (Trung Quốc) cũng tung ra các mô hình lý luận tương tự.

“Vòng lặp tự cải thiện lặp lại”

Các bài kiểm tra dựa trên tiêu chuẩn cho thấy những mô hình AI mới này thường tạo ra kết quả tốt hơn so với mô hình AI hàng đầu trước đó, đặc biệt là trong câu hỏi toán học và nhiệm vụ tương tự có câu trả lời cuối cùng rõ ràng.

Điều này trở nên thú vị khi các đầu ra chất lượng cao hơn này được sử dụng làm dữ liệu huấn luyện mới. Lượng thông tin mới đó có thể được đưa trở lại vào các lần huấn luyện mô hình AI khác để tạo ra kết quả thậm chí tốt hơn.

Các nhà nghiên cứu Google DeepMind công bố nghiên cứu về tính toán thời gian kiểm tra vào tháng 8 và đề xuất kỹ thuật này như một cách tiềm năng để duy trì mô hình ngôn ngữ lớn cải thiện bất chấp bức tường dữ liệu đạt đỉnh.

"Trong tương lai, chúng tôi hình dung rằng các đầu ra của việc áp dụng tính toán thời gian kiểm tra bổ sung có thể được chưng cất trở lại vào mô hình ngôn ngữ lớn cơ bản, cho phép một vòng lặp tự cải thiện lặp lại. Để đạt được điều này, các nghiên cứu trong tương lai nên mở rộng phát hiện của chúng tôi và nghiên cứu cách các đầu ra từ tính toán thời gian kiểm tra có thể được sử dụng để cải thiện chính mô hình ngôn ngữ lớn cơ bản", các nhà nghiên cứu viết.

Trò chuyện với các nhà nghiên cứu tính toán thời gian kiểm tra

Các nhà nghiên cứu đó gồm Charlie Snell, Jaehoon Lee, Kelvin Xu và Aviral Kumar. Kelvin Xu vẫn làm việc tại Google và Aviral Kumar dành một phần thời gian của mình tại DeepMind, trong khi Jaehoon Lee rời đi để gia nhập đối thủ của OpenAI là Anthropic.

Charlie Snell là đồng tác giả bài báo trong thời gian thực tập tại Google DeepMind, hiện đã trở lại Đại học California–Berkeley.

"Tôi được thúc đẩy bởi một số điều đã ngăn cản việc tiền huấn luyện tiếp tục mở rộng quy mô, đáng chú ý là nguồn cung dữ liệu hữu hạn. Nếu bạn có thể khiến một mô hình AI sử dụng thêm thời gian tính toán suy luận và cải thiện kết quả đầu ra, đó là cách để nó tạo ra dữ liệu tổng hợp tốt hơn. Đây là một nguồn dữ liệu đào tạo mới hữu ích. Đó có vẻ là cách đầy hứa hẹn để giải quyết những điểm nghẽn dữ liệu tiền huấn luyện này", Charlie Snell nói trong cuộc phỏng vấn gần đây.

CEO Microsoft không bối rối

Trong podcast video gần đây, Giám đốc điều hành Microsoft - Satya Nadella có vẻ không bối rối và thậm chí còn vui vẻ khi được hỏi về sự chậm lại trong việc cải thiện mô hình AI và thiếu dữ liệu đào tạo chất lượng mới. Ông mô tả tính toán thời gian suy luận là "một quy luật mở rộng quy mô khác".

Ilya Sutskever cũng đề cập đến tính toán thời gian kiểm tra như một giải pháp khả thi cho vấn đề dữ liệu đạt đỉnh, trong bài phát biểu tại NeurIPS đầu tháng 12.2024.

Năm 2025 sẽ chứng kiến cách tiếp cận này được đưa vào thử nghiệm. Đây không phải là điều chắc chắn thành công, nhưng Charlie Snell vẫn lạc quan.

“Trong khoảng ba năm qua, mọi thứ có vẻ rõ ràng hơn. Bây giờ chúng ta đang ở chế độ khám phá”, Charlie Snell về tiến trình AI.

Một câu hỏi mở: Kỹ thuật tính toán thời gian kiểm tra này tổng quát hóa tốt như thế nào? Charlie Snell cho biết nó hoạt động tốt với các câu hỏi mà phần trả lời có thể biết và kiểm tra được, chẳng hạn thử thách toán học.

"Nhưng rất nhiều thứ cần lý luận không dễ kiểm tra. Ví dụ, viết một bài luận. Thường không có câu trả lời rõ ràng nào cho việc nó tốt đến đâu", ông giải thích.

Tuy nhiên, vẫn có những dấu hiệu thành công ban đầu và Charlie Snell cho rằng kết quả từ các loại mô hình AI lý luận này đã được sử dụng để đào tạo mô hình mới.

"Có khả năng cao là dữ liệu tổng hợp này tốt hơn những dữ liệu có trên internet", ông nói.

Nếu kết quả từ mô hình o1 của OpenAI tốt hơn GPT-4 thì về mặt lý thuyết, những kết quả mới này có thể được tái sử dụng để đào tạo mô hình AI trong tương lai, Charlie Snell giải thích.

GPT-4 từng mô hình hàng đầu trước đây của OpenAI, công ty khởi nghiệp AI đình đám được Microsoft hậu thuẫn.

Charlie Snell chia sẻ một ví dụ lý thuyết: Giả sử o1 đạt được điểm số 90% trên chuẩn mực AI cụ thể, bạn có thể lấy những câu trả lời đó và đưa chúng vào GPT-4 để nâng điểm của mô hình đó lên 90%.

"Nếu bạn có một tập hợp lớn các câu lệnh, bạn có thể lấy rất nhiều dữ liệu từ o1 và tạo ra một bộ dữ liệu huấn luyện lớn, sau đó huấn luyện một mô hình mới trên đó, hoặc tiếp tục huấn luyện GPT-4 để nó tốt hơn", Charlie Snell nói.

Một bản tin trên trang TechCrunch cuối tháng 12.2024 cho rằng DeepSeek có thể đã sử dụng kết quả từ o1 để đào tạo mô hình AI của riêng mình. Sản phẩm mới nhất của công ty Trung Quốc này có tên DeepSeek V3, hoạt động tốt trên các chuẩn mực trong ngành.

"Họ có lẽ là những người đầu tiên tái tạo o1. Tôi đã hỏi nhiều người ở OpenAI xem họ nghĩ gì về điều này. Họ nói DeepSeek V3 trông giống như cùng một thứ với o1, nhưng không biết DeepSeek đã làm điều này nhanh như vậy như thế nào”.

OpenAI và DeepSeek không trả lời khi được trang Insider đề nghị bình luận.

Hôm 20.12, OpenAI đã kết thúc chiến dịch 12 ngày Shipmas bằng việc trình làng o3, phiên bản nâng cấp của mô hình suy luận o1. Công ty đã lần đầu giới thiệu o1 vào tháng 9, quảng bá khả năng "lý luận nâng cao" của nó.

Ngoài o3, OpenAI còn ra mắt o3-mini. Dù o2 lẽ ra là số thứ tự tiếp theo của mô hình suy luận này, phát ngôn viên OpenAI nói với hãng tin Bloomberg rằng công ty không sử dụng tên đó "vì tôn trọng" hãng viễn thông O2 (Anh).

Greg Kamradt từ Arc Prize, tổ chức đo lường tiến bộ hướng tới trí tuệ nhân tạo tổng quát (AGI), xuất hiện trong buổi livestream cùng Sam Altman (Giám đốc điều hành OpenAI) và nói o3 thể hiện tốt hơn đáng kể so với o1 trong các bài kiểm tra của ARC-AGI.

AGI là dạng AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt, giống hay vượt trội con người. Không giống AI hẹp, vốn chỉ giỏi trong một lĩnh vực cụ thể (như nhận dạng giọng nói hoặc hình ảnh), AGI có khả năng áp dụng kiến thức và kỹ năng trong nhiều lĩnh vực khác nhau, từ đó giải quyết các vấn đề phức tạp một cách tự chủ và sáng tạo. OpenAI định nghĩa AGI là "một hệ thống có tính tự chủ cao, vượt trội hơn con người ở hầu hết công việc có giá trị kinh tế".

Sam Altman nói trong buổi livestream rằng o3 và o3 mini sẽ được thử nghiệm công khai để đảm bảo an toàn. Ông cũng chia sẻ rằng OpenAI dự kiến phát hành o3 mini vào cuối tháng 1.2025 và o3 ngay sau đó.

Trong một bài đăng trên X, Kevin Weil (Giám đốc sản phẩm OpenAI) nhận định o3 là "một bước tiến lớn so với o1 trên tất cả tiêu chuẩn khó nhất của chúng tôi".

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/cac-nha-nghien-cuu-google-deepmind-tim-ra-giai-phap-cho-van-de-du-lieu-dao-tao-ai-dat-dinh-227928.html