Bí mật ẩn sau sự sáng tạo của các trình tạo ảnh AI
Các trình tạo hình ảnh bằng AI được thiết kế để mô phỏng dữ liệu từng dùng huấn luyện chúng, vậy sự sáng tạo đến từ đâu?
Một nghiên cứu gần đây cho thấy điều đó thực ra là hệ quả tất yếu từ chính kiến trúc của trình tạo hình ảnh bằng AI (trí tuệ nhân tạo).
Một số lãnh đạo cùng hãng công nghệ từng hứa hẹn nhiều về ô tô tự lái và robot giúp việc. Song hiện nay, điều chúng ta chứng kiến là sự trỗi dậy của các mô hình AI có thể phân tích khối lượng văn bản khổng lồ, sáng tác thơ, đánh bại con người trong cờ vua và lập trình Đây là một trong những bất ngờ lớn của thời kỳ hiện đại: Những công việc thể chất vốn dễ dàng với con người hóa ra lại rất khó với robot, còn các thuật toán ngày càng có thể bắt chước trí tuệ của chúng ta.
Một bất ngờ khác từ lâu làm bối rối nhiều nhà nghiên cứu là khả năng sáng tạo kỳ lạ của chính các thuật toán này.
Những mô hình khuếch tán, xương sống của trình tạo ảnh như DALL·E, Imagen và Stable Diffusion, được thiết kế để tạo ra bản sao y hệt những hình ảnh dùng để huấn luyện chúng.
Mô hình khuếch tán là loại mô hình AI dùng để tạo dữ liệu mới, chẳng hạn hình ảnh, âm thanh hoặc dữ liệu khác, dựa trên việc học từ dữ liệu huấn luyện.
Song trên thực tế, những mô hình dạng này dường như biết cách ứng biến, hòa trộn các yếu tố trong ảnh để tạo ra thứ gì đó mới, không chỉ những mảng màu vô nghĩa mà là ảnh mạch lạc có ý nghĩa. Đây chính là nghịch lý phía sau các mô hình khuếch tán, theo Giulio Biroli - nhà nghiên cứu AI kiêm nhà vật lý tại École Normale Supérieure.
École Normale Supérieure là trường đại học danh tiếng ở Paris (thủ đô Pháp), nổi tiếng về nghiên cứu khoa học, toán học, vật lý và nhân văn.
“Về mặt lý thuyết, mô hình khuếch tán chỉ có thể sao chép lại những gì đã học. Song thay vào đó, mô hình này lại thể hiện khả năng sáng tạo bất ngờ, tạo ra những hình ảnh chưa từng có trong dữ liệu huấn luyện chúng”, Giulio Biroli nói.
Để tạo ảnh, các mô hình khuếch tán sử dụng quy trình gọi là khử nhiễu, biến một hình ảnh thành nhiễu số (tập hợp pixel hỗn loạn, không có trật tự), rồi tái dựng lại.
Giống việc liên tục cho một bức tranh vào máy hủy tài liệu đến khi chỉ còn bụi mịn, rồi lại ghép các mảnh lại với nhau. Trong nhiều năm, các nhà nghiên cứu đã tự hỏi: Nếu các mô hình AI chỉ đơn thuần tái lắp ráp các mảnh dữ liệu cũ thì sự mới mẻ xuất hiện từ đâu? Điều này chẳng khác nào tái dựng bức tranh bị xé vụn thành một tác phẩm hoàn toàn mới?

Mason Kamb và Surya Ganguli giải mã bí mật làm nên sự sáng tạo của mô hình khuếch tán - Ảnh: Getty Images
Giờ đây, hai nhà vật lý đã đưa ra tuyên bố đáng kinh ngạc: Chính những khiếm khuyết kỹ thuật trong quá trình khử nhiễu mới là thứ dẫn đến sự sáng tạo của mô hình khuếch tán.
Trong một bài báo trình bày tại Hội nghị Quốc tế về Học máy 2025, hai người đã phát triển một mô hình toán học từ các mô hình khuếch tán được huấn luyện để chỉ ra rằng sự sáng tạo của chúng trên thực tế là quá trình mang tính quyết định - hệ quả trực tiếp, tất yếu của kiến trúc hệ thống.
Bằng cách làm sáng tỏ “hộp đen” của mô hình khuếch tán, phát hiện mới có thể mang lại những tác động lớn cho nghiên cứu AI trong tương lai, thậm chí cả cho việc hiểu về sự sáng tạo của con người.
“Điểm mạnh thực sự của bài báo này là đưa ra dự đoán rất chính xác về một hiện tượng cực kỳ phức tạp”, Luca Ambrogioni, nhà khoa học máy tính tại Đại học Radboud (Hà Lan), nhận định.
Từ dưới lên
Mason Kamb, nghiên cứu sinh ngành vật lý ứng dụng tại Đại học Stanford (Mỹ) và là tác giả chính của bài báo, từ lâu đã say mê morphogenesis - quá trình hình thái học hoặc tạo hình cấu trúc. Morphogenesis là quá trình sinh học mà các sinh vật tự tổ chức và phát triển hình dạng, cấu trúc cơ quan hoặc cơ thể của chúng.
Một cách để hiểu sự phát triển của phôi thai ở người và động vật khác là thông qua mẫu Turing, được đặt theo tên Alan Turing.
Alan Turing là nhà toán học, nhà logic học và nhà mật mã học nổi tiếng người Anh (qua đời năm 1954), được coi là cha đẻ của ngành khoa học máy tính và là người tiên phong trong lĩnh vực AI.
Mẫu Turing giải thích cách các nhóm tế bào tự tổ chức thành cơ quan và chi riêng biệt. Điều then chốt là toàn bộ sự phối hợp này diễn ra cục bộ. Không có một “CEO” nào giám sát hàng nghìn tỉ tế bào để đảm bảo chúng tuân theo một bản thiết kế hoàn chỉnh. Nói cách khác, các tế bào riêng lẻ không có bản thiết kế cơ thể hoàn chỉnh để dựa vào, mà chỉ hành động và thực hiện điều chỉnh để phản ứng với tín hiệu từ các tế bào lân cận. Hệ thống từ dưới lên này thường hoạt động trơn tru, nhưng đôi khi trục trặc, chẳng hạn tạo ra bàn tay có thêm ngón.
Khi những hình ảnh AI đầu tiên xuất hiện trực tuyến, nhiều cái trông như tranh siêu thực, với một số nhân vật có ngón tay thừa. Ngay lập tức, Mason Kamb liên tưởng đến morphogenesis. “Nó giống hệt kiểu thất bại bạn dự đoán được từ một hệ thống từ dưới lên”, ông nói.
Tranh siêu thực là tranh lấy cảm hứng từ giấc mơ và tiềm thức, thường kỳ dị, lạ lẫm, phá vỡ logic của thế giới thực.
Các nhà nghiên cứu AI lúc đó đã biết mô hình khuếch tán sử dụng một số lối tắt kỹ thuật khi tạo ảnh. Thứ nhất là tính cục bộ: Mô hình khuếch tán chỉ chú ý đến một nhóm pixel tại một thời điểm. Thứ hai là chúng tuân theo quy tắc nghiêm ngặt khi tạo hình ảnh: Nếu bạn dịch chuyển ảnh đầu vào chỉ vài pixel theo bất kỳ hướng nào, mô hình khuếch tán sẽ tự động điều chỉnh để thực hiện cùng một thay đổi trong hình ảnh mà nó tạo ra. Tính năng này được gọi là tính đối xứng tịnh tiến, giúp mô hình duy trì cấu trúc mạch lạc. Nếu thiếu nó, việc tạo ảnh thực tế sẽ khó hơn nhiều.
Một phần nhờ những đặc điểm này, mô hình khuếch tán không quan tâm mảnh cụ thể sẽ nằm ở đâu trong ảnh cuối cùng. Mô hình dạng này chỉ tập trung tạo từng mảnh, rồi tự động ghép chúng vào đúng vị trí bằng mô hình toán học gọi là hàm điểm số, có thể xem như dạng mẫu Turing kỹ thuật số.
Trong nhiều năm, các nhà nghiên cứu xem tính cục bộ và tính đối xứng tịnh tiến chỉ là hạn chế kỹ thuật của quá trình khử nhiễu - điểm kỳ quặc về kỹ thuật ngăn mô hình khuếch tán tạo ra bản sao hoàn hảo của hình ảnh. Các nhà nghiên cứu không liên hệ hai đặc điểm này với sự sáng tạo, nhưng họ sắp sửa ngạc nhiên thêm lần nữa.
Yếu tố dẫn đến sự sáng tạo
Mason Kamb bắt đầu nghiên cứu sau đại học vào năm 2022 trong phòng thí nghiệm của Surya Ganguli - nhà vật lý tại Đại học Stanford đồng thời giảng dạy ở ngành thần kinh học và kỹ thuật điện. Cuối năm 2022, OpenAI ra mắt chatbot ChatGPT, khơi dậy làn sóng quan tâm mạnh mẽ đến lĩnh vực AI tạo sinh. Khi các hãng công nghệ nỗ lực xây dựng mô hình AI ngày càng mạnh mẽ, nhiều học giả vẫn tập trung tìm hiểu cơ chế bên trong của chúng.
Từ đó, Mason Kamb phát triển giả thuyết rằng tính cục bộ và tính đối xứng tịnh tiến dẫn đến sự sáng tạo. Điều này mở ra một khả năng thí nghiệm hấp dẫn: Nếu ông thiết kế hệ thống chỉ tối ưu hai đặc điểm này, nó sẽ hoạt động giống như một mô hình khuếch tán. Thí nghiệm đó là trung tâm trong bài báo mới của Mason Kamb, được viết cùng Surya Ganguli với tư cách là đồng tác giả.

Bài báo của Mason Kamb (trái) và Surya Ganguli (phải) có thể mang lại những tác động lớn cho nghiên cứu AI trong tương lai - Ảnh: Internet
Mason Kamb và Surya Ganguli gọi hệ thống của họ là máy điểm số cục bộ đối xứng. Đây không phải là mô hình khuếch tán đã được huấn luyện, mà là tập hợp phương trình có thể dự đoán phân tích thành phần ảnh khử nhiễu chỉ dựa trên cơ chế của tính cục bộ và tính đối xứng tịnh tiến. Họ đã lấy một loạt ảnh được biến thành nhiễu số, rồi chạy qua cả máy điểm số cục bộ đối xứng lẫn nhiều mô hình khuếch tán mạnh khác như ResNet và UNet.
Kết quả “gây sốc”. Theo Surya Ganguli, trên diện rộng, máy điểm số cục bộ đối xứng có thể khớp gần như y hệt đầu ra của các mô hình đã huấn luyện, với độ chính xác trung bình 90% - kết quả “chưa từng có trong học máy”.
Học máy là lĩnh vực thuộc AI, tập trung vào việc nghiên cứu và phát triển các kỹ thuật cho phép hệ thống máy tính học tự động từ dữ liệu để giải quyết các vấn đề cụ thể, mà không cần phải được lập trình tường minh cho từng tác vụ.
Kết quả này dường như ủng hộ giả thuyết của Mason Kamb.
“Ngay khi bạn áp đặt tính cục bộ, sự sáng tạo xuất hiện một cách tự động. Chính các cơ chế từng giới hạn tầm nhìn của mô hình trong quá trình khử nhiễu, buộc chúng chỉ tập trung vào từng mảnh nhỏ, bất kể vị trí cuối cùng trong ảnh, lại chính là yếu tố tạo nên sự sáng tạo. Hiện tượng thừa ngón tay trong mô hình khuếch tán cũng là hệ quả trực tiếp từ sự tập trung quá mức vào việc tạo mảnh cục bộ mà thiếu ngữ cảnh rộng hơn”, ông nói.
Các chuyên gia cho rằng dù bài báo của Kamb và Ganguli đã làm sáng tỏ cơ chế sáng tạo trong mô hình khuếch tán, vẫn còn nhiều điều bí ẩn. Ví dụ, các mô hình ngôn ngữ lớn và hệ thống AI khác cũng thể hiện sáng tạo, nhưng không dựa vào tính cục bộ và tính đối xứng tịnh tiến.
“Tôi nghĩ đây là một phần rất quan trọng của câu chuyện, nhưng chưa phải toàn bộ”, Giulio Biroli bình luận.
"Sự sáng tạo của con người và AI có thể không quá khác biệt"
Lần đầu tiên các nhà nghiên cứu đã chỉ ra rằng sự sáng tạo của mô hình khuếch tán có thể được xem là hệ quả phụ từ chính quá trình khử nhiễu - hiện tượng có thể được hình thức hóa bằng toán học và dự đoán với độ chính xác chưa từng có. Điều này gần giống các nhà khoa học thần kinh đưa một nhóm nghệ sĩ vào máy MRI (chụp cộng hưởng từ) và tìm thấy một cơ chế thần kinh chung đằng sau sự sáng tạo của họ mà có thể được viết ra thành một tập hợp các phương trình.
Sự so sánh với khoa học thần kinh có thể không chỉ là phép ẩn dụ. Công trình của Kamb và Ganguli cũng có thể cung cấp cái nhìn sâu sắc về "hộp đen" của tâm trí con người.
"Sự sáng tạo của con người và AI có thể không quá khác biệt", Benjamin Hoover, nhà nghiên cứu học máy tại Viện Công nghệ Georgia và IBM Research (Mỹ), cho biết. Ông là nhà nghiên cứu các mô hình khuếch tán.
"Chúng ta lắp ráp mọi thứ dựa trên những gì trải nghiệm, những gì từng mơ, những gì đã thấy, nghe hoặc mong muốn. AI cũng chỉ lắp ráp các khối xây dựng từ những gì đã thấy và những gì được yêu cầu làm", Benjamin Hoover nói.
Theo quan điểm này, khả năng sáng tạo của con người lẫn AI có thể bắt nguồn từ sự hiểu biết không đầy đủ về thế giới: Tất cả chúng ta đều cố gắng hết sức để lấp đầy những khoảng trống trong kiến thức của mình và thỉnh thoảng tạo ra thứ gì đó vừa mới mẻ vừa có giá trị. Có lẽ đây là điều mà chúng ta gọi là sự sáng tạo.