Nhà nghiên cứu Google đề xuất chiến lược AI tối thượng trong bài báo gây chấn động ngành công nghệ

Ngày nay có quá nhiều bài báo nghiên cứu về trí tuệ nhân tạo (AI) đến mức thật khó để trở nên nổi bật. Thế nhưng, một bài báo gần đây đã làm bùng lên rất nhiều cuộc thảo luận trong ngành công nghệ.

Được viết bởi David Silver (nhà nghiên cứu Google) và Rich Sutton (nhà khoa học máy tính người Canada), nội dung bài báo mạnh dạn tuyên bố sự khởi đầu cho một kỷ nguyên AI mới.

“Đây là điều truyền cảm hứng nhất tôi từng đọc về AI trong hai năm qua”, doanh nhân Suhail Doshi viết trên mạng xã hội X.

Suhail Doshi được biết đến nhiều nhất với vai trò nhà đồng sáng lập và cựu Giám đốc điều hành Mixpanel, công ty phân tích dữ liệu chuyên theo dõi hành vi người dùng trong các ứng dụng web và di động.

Jack Clark, nhà đồng sáng lập công ty khởi nghiệp Anthropic - đối thủ cạnh tranh với OpenAI, hôm 21.4 đã đưa bài báo này vào bản tin Import AI của mình, vốn được hàng ngàn nhà nghiên cứu trong ngành theo dõi sát sao.

David Silver và Rich Sutton xác định hai kỷ nguyên AI hiện đại trước đây. Kỷ nguyên đầu tiên được đại diện bởi AlphaGo - mô hình AI của Google nổi tiếng học cách chơi cờ vây giỏi hơn con người vào năm 2015. Kỷ nguyên thứ hai là thời điểm hiện tại, được định hình bởi chatbot ChatGPT của OpenAI.

David Silver và Rich Sutton cho rằng chúng ta đang bước vào một giai đoạn mới gọi là Kỷ nguyên trải nghiệm. Theo Alistair Barr (biên tập viên công nghệ của trang Insider), đây là nỗ lực mới từ Google nhằm giải quyết một trong những vấn đề dai dẳng nhất của AI là sự khan hiếm dữ liệu huấn luyện, đồng thời vượt qua cách tiếp cận công nghệ mà OpenAI gần như đã chiến thắng.

David Silver (trái) nhận giải thưởng cho công trình nghiên cứu của mình về AlphaGo - Ảnh: Getty Images

David Silver (trái) nhận giải thưởng cho công trình nghiên cứu của mình về AlphaGo - Ảnh: Getty Images

Kỷ nguyên mô phỏng

Hãy bắt đầu với kỷ nguyên đầu tiên, được David Silver và Rich Sutton gọi là Kỷ nguyên mô phỏng.

Trong giai đoạn này, khoảng giữa những năm 2010, các nhà nghiên cứu sử dụng mô phỏng kỹ thuật số để huấn luyện mô hình AI chơi game lặp đi lặp lại nhằm học cách hành động giống con người. Chúng ta đang nói đến hàng chục triệu ván cờ, poker, Atari, Gran Turismo… được chơi liên tục, với phần thưởng được đưa ra cho kết quả tốt, qua đó dạy máy móc điều gì là tốt hoặc xấu và thúc đẩy chúng tìm ra chiến lược tốt hơn.

Trong AI, “phần thưởng” là cách phổ biến để thúc đẩy mô hình và tác tử hoạt động tốt hơn, tương tự khi bạn thúc giục người yêu đi tập gym bằng cách nói họ sẽ khỏe hơn và trông hấp dẫn hơn.

Atari là công ty tiên phong trong ngành công nghiệp game, đặc biệt nổi tiếng vào thập niên 1970 và 1980. Tên Atari cũng thường được dùng để chỉ các game cổ điển mà công ty này phát triển.

Gran Turismo là dòng game mô phỏng đua xe nổi tiếng do hãng Polyphony Digital phát triển và Sony phát hành độc quyền cho hệ máy PlayStation.

Phương pháp này gọi là học tăng cường, đã tạo ra AlphaGo của Google. Nó cũng giúp tạo ra một mô hình AI khác của Google là AlphaZero, vốn phát hiện những chiến lược mới cho cờ vua và cờ vây, làm thay đổi cách con người chơi những trò này.

Theo David Silver và Rich Sutton, máy móc được đào tạo theo cách trên giải quyết tốt các vấn đề cụ thể với phần thưởng được xác định chính xác, nhưng không thể xử lý các vấn đề tổng quát, mở hơn với phần thưởng mơ hồ. Vì vậy, đây có lẽ không thực sự là AI hoàn chỉnh.

Kỷ nguyên dữ liệu con người

Kỷ nguyên tiếp theo được khởi xướng bởi một bài báo nghiên cứu khác của Google xuất bản năm 2017. Bài báo có tiêu đề Attention is All You Need đề xuất rằng các mô hình AI nên được huấn luyện bằng lượng dữ liệu khổng lồ do con người tạo ra từ internet. Bằng cách để máy móc chú ý đến tất cả thông tin này, chúng sẽ học được cách hành xử giống người và thực hiện nhiều nhiệm vụ khác nhau ở trình độ ngang bằng con người.

Đây chính là kỷ nguyên mà chúng ta đang sống, với sự xuất hiện của ChatGPT do công ty khởi nghiệp OpenAI phát triển. Hầu hết mô hình và công cụ AI tạo sinh mạnh mẽ khác ngày càng được sử dụng để tự động hóa các công việc như tạo nội dung, thiết kế đồ họa, lập trình phần mềm…

Chìa khóa của kỷ nguyên này là thu thập càng nhiều dữ liệu chất lượng cao do con người tạo ra càng tốt và dùng chúng trong các đợt huấn luyện tiêu tốn tài nguyên tính toán khổng lồ nhằm giúp AI hiểu biết về thế giới.

Dù các nhà nghiên cứu Google khởi xướng Kỷ nguyên dữ liệu con người, hầu hết trong số họ đã rời công ty để bắt đầu những hành trình riêng. Nhiều người gia nhập OpenAI và phát triển công nghệ dẫn đến ChatGPT, chatbot và công cụ AI tạo sinh thành công nhất đến nay. Những người khác lập ra Anthropic, công ty khởi nghiệp AI nổi bật khác hiện vận hành chatbot mạnh mẽ Claude.

Nhiều chuyên gia trong ngành AI, cũng như một số nhà đầu tư và phân tích ở Phố Wall, cho rằng Google có lẽ đã đánh rơi cơ hội trong giai đoạn này. Dù chính Google đưa ra cách tiếp cận AI vừa nêu, nhưng OpenAI mới là bên thu được phần lớn lợi ích.

Tuy nhiên, David Silver và Rich Sutton dường như đang hạ thấp Kỷ nguyên dữ liệu con người: “Dù học tăng cường lấy con người làm trung tâm đã mở rộng được phạm vi hành vi chưa từng có, nó cũng tạo ra giới hạn mới cho hiệu suất của tác tử AI là không thể vượt qua kiến thức con người hiện tại”.

Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.

David Silver và Rich Sutton đúng ở một khía cạnh: Nguồn dữ liệu con người chất lượng cao đang bị vượt qua bởi nhu cầu quá lớn từ các phòng nghiên cứu AI và hãng công nghệ lớn. Đó là những bên cần nội dung mới để huấn luyện các mô hình và thúc đẩy năng lực AI tiến xa hơn. Việc tạo ra bước nhảy vọt lớn trong AI giờ đây đã trở nên khó khăn và tốn kém hơn rất nhiều.

Kỷ nguyên trải nghiệm

David Silver và Rich Sutton đề xuất giải pháp khá cấp tiến. Đây chính là trọng tâm của Kỷ nguyên trải nghiệm mà hai tác giả này mô tả trong bài báo.

Họ đề xuất rằng các mô hình và tác tử AI nên “ra ngoài” để tự tạo ra dữ liệu mới của chính mình thông qua việc tương tác với thế giới thực.

David Silver và Rich Sutton lập luận điều này sẽ giải quyết vấn đề nhức nhối về nguồn cung dữ liệu, đồng thời giúp lĩnh vực AI tiến gần hơn đến trí tuệ nhân tạo tổng quát (AGI). AGI được coi là “chén thánh” trong giới công nghệ, nơi máy móc vượt trội con người ở hầu hết hoạt động hữu ích.

“Cuối cùng, dữ liệu trải nghiệm sẽ vượt qua cả về quy mô lẫn chất lượng so với dữ liệu do con người tạo ra. Sự chuyển đổi mô hình này, cùng các tiến bộ thuật toán trong học tăng cường, sẽ mở khóa nhiều khả năng mới ở nhiều lĩnh vực. Đó là những khả năng vượt trội hơn những gì mà bất kỳ người nào sở hữu”, hai tác giả viết.

Phụ huynh có thể nghĩ đến điều đó giống việc nói con mình rời khỏi ghế sofa, ngừng nhìn vào điện thoại và đi ra ngoài chơi với bạn bè. Ngoài kia có rất nhiều trải nghiệm phong phú, thỏa mãn và giá trị hơn để học hỏi.

Jack Clark, nhà đồng sáng lập Anthropic, tỏ ra ấn tượng với sự táo bạo của đề xuất này. “Những bài báo như vậy là biểu tượng cho sự tự tin được tìm thấy trong ngành AI”, ông viết trong bản tin hôm 21.4, đồng thời trích dẫn “sự quyết liệt trong việc trao cho các tác tử AI đủ quyền tự do và chủ động để chúng có thể tương tác với thế giới và tự tạo dữ liệu cho mình”.

Các ví dụ

David Silver và Rich Sutton đưa ra vài ví dụ mang tính lý thuyết về cách ý tưởng này có thể vận hành trong Kỷ nguyên trải nghiệm.

- Một trợ lý sức khỏe AI có thể quy đổi mục tiêu sức khỏe của người thành phần thưởng, dựa trên sự kết hợp giữa các tín hiệu như nhịp tim khi nghỉ, thời lượng giấc ngủ và mức độ vận động.

- Một trợ lý giáo dục AI có thể sử dụng kết quả thi để đưa ra phần thưởng phù hợp, ví dụ khuyến khích học ngôn ngữ dựa trên tiến bộ đo lường được.

- Một tác tử khoa học AI với mục tiêu giảm biến đổi khí hậu có thể dựa vào quan sát thực nghiệm về mức độ CO₂ để xây dựng hệ thống phần thưởng.

Theo một cách nào đó, đây là sự quay trở lại với Kỷ nguyên mô phỏng trước đây, mà Google từng dẫn đầu. Song lần này, các mô hình và tác tử AI không còn học từ game hoặc môi trường ảo nữa, mà đang tương tác trực tiếp với thế giới thực và tự thu thập dữ liệu cho mình.

Không giống Kỷ nguyên dữ liệu con người, trong kỷ nguyên mới này, có thể không tồn tại giới hạn cho lượng thông tin mà AI có thể tạo ra và thu thập.

Theo hai tác giả, ở kỷ nguyên hiện tại với dữ liệu con người, có một thứ đã bị đánh mất: Khả năng tự khám phá tri thức của tác tử AI.

“Nếu không có nền tảng này, một tác tử AI dù tinh vi đến đâu cũng sẽ chỉ là tiếng vang lặp lại của tri thức con người hiện có”, David Silver và Rich Sutton lý giải. Có thể đây là màn "cà khịa" mà họ nhắm tới OpenAI.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/nha-nghien-cuu-google-de-xuat-chien-luoc-ai-toi-thuong-trong-bai-bao-gay-chan-dong-nganh-cong-nghe-231835.html