10 năm AlphaGo: Khoảnh khắc khởi nguồn của cuộc cách mạng AI toàn cầu

10 năm sau cú sốc AlphaGo đánh bại nhà vô địch cờ vây Lee Sedol, giới công nghệ nhìn lại di sản của cỗ máy này: Từ nền tảng mạng nơ-ron đến kỷ nguyên bùng nổ của các công cụ AI tạo sinh.

Lần đầu tiên AlphaGo phô diễn toàn bộ sức mạnh, nó đã tạo ra một phản ứng chấn động. Lee Sedol, kỳ thủ cờ vây xuất sắc nhất thế giới, lộ rõ vẻ bối rối trước khả năng của trí tuệ nhân tạo (AI). Đám đông im lặng tại trung tâm Seoul (Hàn Quốc) gần như nín thở. Lee và hàng chục triệu khán giả theo dõi qua truyền hình nhanh chóng nhận ra rằng AI này hoàn toàn khác biệt so với các hệ thống trước đây.

Nó không chỉ đánh bại Lee mà còn thể hiện năng lực gần giống con người. "AlphaGo thực sự có trực giác", nhà đồng sáng lập Google Sergey Brin chia sẻ với New Scientist vào năm 2016, ngay sau khi AlphaGo vươn lên dẫn trước 3-0. "Nó tạo ra những nước đi đẹp mắt, thậm chí còn đẹp hơn những gì hầu hết chúng ta có thể nghĩ ra".

Loạt trận kết thúc với chiến thắng 4-1 nghiêng về hệ thống AlphaGo của Google DeepMind. Lee thừa nhận anh "đang bị sốc".

AlphaGo đối đầu kỳ thủ cờ vây Lee Sedol năm 2016. Ảnh: Google

AlphaGo đối đầu kỳ thủ cờ vây Lee Sedol năm 2016. Ảnh: Google

Một thập kỷ đã trôi qua kể từ khoảnh khắc mang tính bước ngoặt này đối với AlphaGo và ngành AI nói chung. Việc kinh ngạc trước AI giờ đây đã trở thành trải nghiệm thường nhật với sự thành công của các mô hình ngôn ngữ lớn (LLM) như ChatGPT và Gemini. Về nhiều mặt, AlphaGo là cái nhìn thoáng qua đầu tiên của nhân loại về những gì sắp diễn ra. Sau 10 năm, di sản của AlphaGo là gì và công nghệ này đã phát huy đúng tiềm năng của nó hay chưa?

Chris Maddison tại Đại học Toronto, cựu thành viên nhóm phát triển AlphaGo ban đầu, nhận định: "Các mô hình ngôn ngữ lớn hiện nay có một số điểm khác biệt so với AlphaGo, nhưng thực chất nền tảng công nghệ cốt lõi vẫn không hề thay đổi".

Công nghệ cốt lõi đó chính là mạng nơ-ron (neural networks) - các cấu trúc toán học được lấy cảm hứng từ não bộ và viết thành mã lệnh. Trong lịch sử, việc tạo ra một cỗ máy chơi game đòi hỏi con người phải lập trình sẵn các quy tắc để máy tuân theo trong từng tình huống. Tuy nhiên, với mạng nơ-ron, cỗ máy tự học hỏi.

Ngay cả khi có mạng nơ-ron, việc giải mã cờ vây vẫn là một thách thức khổng lồ. Trò chơi cổ xưa của Trung Quốc này có tới $10^{171}$ vị trí có thể xảy ra trên bàn cờ 19x19. Để so sánh, toàn bộ vũ trụ quan sát được chỉ có khoảng $10^{80}$ nguyên tử.

Bước đột phá đến từ việc Maddison và các cộng sự cố gắng tái tạo trực giác của một kỳ thủ bằng cách huấn luyện mạng nơ-ron dự đoán nước đi mạnh nhất tiếp theo dựa trên hàng triệu nước đi từ các ván cờ thực tế. Con người không bao giờ có thể chơi ngần ấy ván cờ để xây dựng trực giác, tạo ra một lợi thế tuyệt đối cho AI.

AlphaGo cũng không bị giới hạn trong việc học hỏi từ người chơi con người; nó có thể tự đấu hàng triệu ván với chính mình để mài giũa kỹ năng. Phó Chủ tịch Pushmeet Kohli tại Google DeepMind cho biết: "Bằng cách học qua các ván đấu này, nó có thể khám phá kiến thức mới và vượt qua những kỳ thủ đẳng cấp con người".

Hệ thống cuối cùng đánh bại Lee phức tạp hơn các mô hình ban đầu của Maddison, nhưng thông điệp bao trùm rất đơn giản: mạng nơ-ron đã phát huy tác dụng. Noam Brown tại OpenAI khẳng định: "AlphaGo đã chứng minh dứt khoát rằng mạng nơ-ron có thể nhận diện dữ liệu tốt hơn con người. Về cơ bản, chúng có thể sở hữu trực giác vượt trội hơn con người".

Các thế hệ Alpha tiếp nối

Sau AlphaGo, Google DeepMind và các nhà nghiên cứu bắt đầu áp dụng bài học nền tảng đó vào các lĩnh vực thực tế như toán học và sinh học. Một trong những ví dụ nổi bật nhất là AlphaFold, một AI có khả năng dự đoán cấu trúc không gian ba chiều của protein từ thành phần hóa học của chúng, vượt xa bất kỳ chương trình nào do con người thiết kế. Thành tựu này đã mang về cho nhóm phát triển giải Nobel Hóa học.

Gần đây hơn, một AI dựa trên mạng nơ-ron khác là AlphaProof đã đạt thành tích tương đương huy chương vàng tại Olympic Toán học Quốc tế (IMO), một bài kiểm tra danh giá dành cho học sinh, khiến giới toán học kinh ngạc. "Bạn không chỉ đạt được trí thông minh vượt mức con người trong một trò chơi, mà còn có thể áp dụng kinh nghiệm đó vào các ứng dụng khoa học quan trọng", Kohli nói.

Logic đằng sau cả AI kiểu AlphaGo và AI được sử dụng cho các LLM như ChatGPT là tương tự nhau. Bước đầu tiên, gọi là tiền huấn luyện, liên quan đến việc nạp cho mạng nơ-ron một lượng lớn dữ liệu, chẳng hạn như các ván cờ vây hoàn chỉnh, hoặc toàn bộ internet trong trường hợp của LLM. Bước thứ hai, gọi là hậu huấn luyện, chứng kiến mạng lưới tự cải thiện thông qua một kỹ thuật gọi là học tăng cường, trong đó chỉ cho AI thấy thế nào là thành công và để nó tự tìm cách đạt được.

Từ trái qua: CEO kiêm đồng sáng lập Google DeepMind Demis Hassabis, Lee Sedol và đồng sáng lập Google Sergey Brin. Ảnh: Google

Từ trái qua: CEO kiêm đồng sáng lập Google DeepMind Demis Hassabis, Lee Sedol và đồng sáng lập Google Sergey Brin. Ảnh: Google

Đối với AlphaGo, điều này đồng nghĩa với việc để nó tự đấu với chính mình hàng triệu lần cho đến khi tìm ra chiến lược chiến thắng tối ưu. Đối với AlphaFold, hệ thống được cho biết hình dạng của một protein đã cuộn gập thành công và tự tìm ra các quy luật. Đối với ChatGPT, mô hình được cho biết câu trả lời nào được con người thích hơn - một quá trình gọi là học tăng cường từ phản hồi của con người, hoặc cung cấp cho nó một giải pháp cho một vấn đề xác định và để nó tự tìm cách "suy luận" bằng cách nạp lại đầu ra của chính nó.

Tuy nhiên, điều này cũng đi kèm với những hạn chế. Về nhiều mặt, mạng nơ-ron là một hộp đen. Bất chấp những nỗ lực tìm hiểu cách chúng hoạt động, nhiều mạng quá lớn và phức tạp để có thể hiểu ở mức độ cơ bản.

Khi AlphaGo thực hiện "nước đi thứ 37" nổi tiếng, ban đầu khán giả tưởng AI đã mắc lỗi, nhưng khi ván đấu tiếp diễn, rõ ràng đó là một nước đi chiến lược bậc thầy. Tuy nhiên, các kỹ sư của Google DeepMind không thể hỏi AlphaGo tại sao nó lại đi nước đó. Đó cũng hoàn toàn có thể là một sai lầm mà chúng ta không tài nào hiểu được lý do.

"Những mô hình này sẽ đưa ra câu trả lời và chúng ta sẽ không biết liệu đó là những hiểu biết thiên tài hay chỉ là ảo giác", Kohli nhận định.

Phần lớn thành tựu của AlphaGo đến từ việc có nguồn dữ liệu dồi dào để nạp vào mô hình ban đầu và một định nghĩa rõ ràng về sự thành công. Do đó, Maddison cho rằng AI hiện đang gặt hái nhiều thành công nhất trong các lĩnh vực hội tụ đủ hai điều kiện này, chẳng hạn như toán học và lập trình. "Sự tương đồng giữa các phương pháp tiếp cận này đang cho chúng ta biết những thành phần thô cần thiết cho sự tiến bộ", ông nhấn mạnh.

(Theo New Sciencetist)

Du Lam

Nguồn VietnamNet: https://vietnamnet.vn/10-nam-alphago-khoanh-khac-khoi-nguon-cua-cuoc-cach-mang-ai-toan-cau-2501349.html