Sam Altman: OpenAI sẽ áp dụng 2 phương pháp AI mới, cả từ DeepSeek và Meta
Khi đối thủ áp dụng một cách tiếp cận khác và thành công, đôi khi việc thay đổi hướng đi là điều nên làm. Đó là những gì Sam Altman nói rằng OpenAI sẽ thực hiện, theo một phiên hỏi đáp trên mạng xã hội Reddit hôm 1.1.
Cuộc thảo luận đề cập đến nhiều chủ đề liên quan đến trí tuệ nhân tạo (AI), nhưng Sam Altman được hỏi nhiều nhất về DeepSeek, công ty khởi nghiệp Trung Quốc gây bão trong giới công nghệ sau khi tung ra các mô hình AI nguồn mở hoạt động hiệu quả hàng đầu với chi phí đào tạo tương đối thấp.
Một người dùng Reddit đã hỏi liệu OpenAI có thể hiển thị “tất cả token suy nghĩ” hay không. Điều này đề cập đến chuỗi suy luận mà các mô hình AI mới sử dụng để chia nhỏ nhiệm vụ thành những bước nhỏ hơn, tương tự cách con người suy nghĩ khi giải quyết vấn đề phức tạp.
Mô hình o1 và o3 của OpenAI sử dụng phương pháp suy luận này, song không hiển thị bất kỳ bước suy nghĩ trung gian nào cho người dùng mà chỉ hiển thị câu trả lời cuối cùng.
Các mô hình suy luận của DeepSeek, chẳng hạn R1, hiển thị từng bước cho người dùng. Khi trang Insider thử nghiệm ứng dụng DeepSeek với cài đặt DeepThink (R1) hay Suy nghĩ sâu (R1), nó đã cung cấp khoảng 16 trang các bước toán học trước khi đưa ra câu trả lời đúng cho một câu hỏi khó.
Hôm 1.1, Sam Altman nói rằng OpenAI sẽ làm theo cách tiếp cận của DeepSeek. “Vâng, chúng tôi sẽ sớm trình bày phiên bản hữu ích và chi tiết hơn nhiều về điều này. Cảm ơn R1 đã cập nhật cho chúng tôi", ông viết.
Mã nguồn mở và trọng số mở
Yann LeCun, Giám đốc khoa học AI của Meta Platforms, cho rằng bài học quan trọng nhất từ thành công của DeepSeek là giá trị của các mô hình AI mã nguồn mở so với mô hình độc quyền.
Các mô hình Llama của Meta Platforms chủ yếu là mã nguồn mở, cho phép bất kỳ ai truy cập các thông tin quan trọng như trọng số và tham số miễn phí. Việc chia sẻ cách hoạt động bên trong các mô hình AI như vậy giúp các nhà phát triển và nhiều công ty khác có thể tùy chỉnh chúng theo nhu cầu riêng.
Dù có tên là OpenAI nhưng đến nay, công ty này lại có cách tiếp cận khép kín hơn trong phát triển AI. Hầu hết các mô hình của OpenAI đều là độc quyền (nguồn đóng) và công ty khởi nghiệp này tính phí để truy cập.
Trong phiên hỏi đáp trên Reddit, Sam Altman được hỏi liệu OpenAI có cân nhắc phát hành một số trọng số mô hình và công bố các nghiên cứu hay không.
“Có, chúng tôi đang thảo luận về điều đó. Cá nhân tôi nghĩ rằng chúng tôi đã đi sai hướng của lịch sử trong vấn đề này và cần tìm ra một chiến lược nguồn mở khác. Không phải ai ở OpenAI cũng đồng tình quan điểm này và đây cũng không phải là ưu tiên cao nhất hiện tại của chúng tôi”, doanh nhân 39 tuổi người Mỹ trả lời.
Các phát ngôn cũ của Sam Altman bị đào lại sau khi DeepSeek gây sốt
Sau khi DeepSeek tuyên bố phát hành mô hình V3 với chi phí đào tạo 6 triệu USD, nhiều người đào lại phát ngôn cũ của Sam Altman.
Năm 2023, Sam Altman bắt đầu gây tiếng vang với OpenAI và ChatGPT. Tại một hội nghị ở Ấn Độ, ông được hỏi làm sao để xây dựng một mô hình nền tảng với nhóm kỹ sư cực kỳ thông minh và số tiền 10 triệu USD.
"Hoàn toàn vô vọng khi cạnh tranh với chúng tôi về đào tạo mô hình nền tảng", Sam Altman trả lời. Nhà đồng sáng lập OpenAI cho rằng các doanh nhân có thể thử hoặc không nên thử, nhưng kết quả đều "khá vô vọng".
Phát ngôn của Sam Altman đang lan truyền sau khi OpenAI chịu sự cạnh tranh từ DeepSeek. Công ty khởi nghiệp Trung Quốc khẳng định đã phát triển mô hình AI với số tiền chưa tới 6 triệu USD.
Trong một bài báo đăng tháng 12.2024, các nhà nghiên cứu DeepSeek viết rằng mô hình V3 được đào tạo trong vòng hai tháng bằng khoảng 2.000 chip Nvidia H800 kém mạnh mẽ hơn, với chi phí chỉ 6 triệu USD. Andrej Karpathy, thành viên sáng lập của OpenAI, đã gọi đây là "ngân sách nực cười".
Điều đáng nói là V3 được DeepSeek đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ như Meta Platforms và OpenAI.
Nvidia H800 không phải là loại chip hàng đầu. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
Chi phí đào tạo các mô hình DeepSeek tương đối thấp khiến ngành công nghiệp phải đánh giá lại mức độ cần thiết của bộ xử lý đồ họa (GPU) để đào tạo các mô hình AI ngày càng tinh vi hơn.
Trên các mạng xã hội, nhiều ý kiến trái chiều về phát ngôn trước đây của Sam Altman đang xuất hiện. Trong đó, một số người cho rằng Giám đốc điều hành OpenAI kiêu ngạo và sớm phải trả giá trước thành công bất ngờ của DeepSeek.
Tuy nhiên, nhiều người đồng tình với nhận định của Sam Altman. "Ấn Độ đã tạo ra bao nhiêu mô hình nền tảng? Câu trả lời là không. Vì vậy cũng không có lý do gì để chỉ trích Sam Altman", nhà khoa học Minotaur bình luận.
Song song đó, một số người cho rằng câu trả lời của Sam Altman vẫn đúng về mặt kỹ thuật khi đề cập đến chuyện DeepSeek được cho phải dùng kỹ thuật distillation (chưng cất) dữ liệu từ OpenAI mới có thể xây dựng mô hình AI chi phí thấp. Không ít người nghi ngờ con số 6 triệu USD mà DeepSeek công bố, cho rằng số tiền họ bỏ ra phải gấp nhiều lần.
Distillation trong AI là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (gọi là student model – mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (gọi là teacher model – mô hình giáo viên).
Cách hoạt động của distillation
Mô hình giáo viên: Một mô hình AI lớn, mạnh mẽ được huấn luyện trước trên một lượng dữ liệu lớn.
Mô hình học sinh: Một mô hình nhỏ hơn được huấn luyện bằng cách học lại từ đầu ra của mô hình giáo viên thay vì chỉ dựa vào dữ liệu gốc.
Chuyển giao kiến thức: Mô hình học sinh học cách đưa ra các dự đoán tương tự như mô hình giáo viên nhưng với ít tài nguyên tính toán hơn.
Lợi ích của distillation
- Tăng hiệu suất: Giúp tạo ra các mô hình nhỏ gọn hơn nhưng vẫn duy trì độ chính xác cao.
- Tiết kiệm tài nguyên: Giúp AI chạy nhanh hơn trên các thiết bị có tài nguyên hạn chế như điện thoại, IoT (internet vạn vật).
- Bảo mật & tối ưu hóa: Có thể dùng để tạo ra các bản sao tối ưu hóa của mô hình AI mà không cần truy cập trực tiếp vào mô hình gốc.
Mối lo ngại về bảo mật
Distillation có thể được sử dụng để sao chép hoặc tái tạo mô hình AI mạnh mẽ từ các công ty đối thủ, dẫn đến lo ngại về đánh cắp tài sản trí tuệ. Đây là lý do tại sao Mỹ đang lo ngại rằng các công ty Trung Quốc có thể đang sử dụng kỹ thuật này để học từ mô hình AI tiên tiến của OpenAI.
Việc chưng cất trí tuệ từ mô hình AI của người khác mà không có sự cho phép bị coi là không đúng đắn trong một số cộng đồng nghiên cứu, nhưng thực tế lại xảy ra rất nhiều, theo Nick Vincent, phó giáo sư khoa học máy tính tại Đại học Simon Fraser (Canada). Ông là chuyên nghiên cứu cách dữ liệu được sử dụng trong AI.
Trong bài nghiên cứu về mô hình R1, DeepSeek đề cập đến việc sử dụng chưng cất với các mô hình mã nguồn mở, nhưng không nhắc đến OpenAI.
"Chúng tôi chứng minh rằng các mô hình lý luận lớn hơn có thể được chắt lọc thành các mô hình nhỏ hơn, mang lại hiệu suất tốt hơn", các nhà nghiên cứu của DeepSeek viết.
Từ cuối năm ngoái, khi DeepSeek bắt đầu gây ấn tượng với giới AI, một số nhà nghiên cứu AI suy đoán rằng DeepSeek đã sử dụng kết quả từ o1, mô hình lý luận mới của OpenAI, làm dữ liệu tổng hợp để cải thiện các mô hình riêng, chẳng hạn R1.
Tháng 12.2024, khi DeepSeek bắt đầu khiến giới AI trầm trồ, Sam Altman dường như đã mỉa mai đối thủ mới của mình.
"Việc sao chép một thứ gì đó mà bạn biết là có hiệu quả thì tương đối dễ. Song tạo ra một điều gì đó mới, rủi ro và khó khăn khi bạn không biết liệu nó có hiệu quả hay không thì lại vô cùng khó", ông viết trên mạng xã hội X.
Song trong các chia sẻ mới, nhà đồng sáng lập OpenAI đánh giá R1 tạo ấn tượng, đặc biệt nhờ hiệu năng có được so với mức giá. "Chúng tôi sẽ cung cấp những mô hình với giá tốt hơn nhiều. Thật phấn khích khi có một đối thủ cạnh tranh mới", Sam Altman viết trên X khi DeepSeek bắt đầu gây sốt trên toàn cầu.