AI mới bùng nổ ở WAIC: Tencent tạo môi trường 3D chi tiết, SenseTime nói vượt Google

7 giờ trướcGốc

Tencent và SenseTime đã ra mắt mô hình trí tuệ nhân tạo (AI) mới tại Hội nghị Trí tuệ Nhân tạo Thế giới (WAIC) được tổ chức ở Thượng Hải hôm 27.7.

Động thái này diễn ra trong bối cảnh các hãng công nghệ lớn Trung Quốc đang gia tăng mức độ cạnh tranh và đặt cược vào lĩnh vực AI để tạo nguồn doanh thu tiếp theo.

WAIC là hội nghị AI lớn và quan trọng nhất Trung Quốc, tập trung vào các tiến bộ, ứng dụng và xu hướng trong lĩnh vực AI. WAIC thường thu hút sự tham gia của các hãng công nghệ hàng đầu, nhà khoa học, nhà phát triển và người hoạch định chính sách từ khắp nơi trên thế giới để chia sẻ ý tưởng, giới thiệu sản phẩm mới và thảo luận về tương lai của AI.

Hội nghị này đóng vai trò quan trọng trong việc thúc đẩy sự phát triển của ngành AI, đặc biệt là ở Trung Quốc, nơi các tập đoàn công nghệ lớn đang đẩy mạnh đầu tư và cạnh tranh trong lĩnh vực này.

WAIC được tổ chức hằng năm để phô diễn công nghệ tiên tiến nhất của Trung Quốc, từng có Elon Musk và Jack Ma góp mặt.

Lượng người tham dự WAIC 2025 có thể lập kỷ lục vì sự kiện diễn ra đúng lúc cuộc cạnh tranh công nghệ Mỹ - Trung đang nóng bỏng.

Mô hình AI giúp tạo ra các môi trường 3D chi tiết

Tại WAIC 2025, Tencent (tập đoàn mạng xã hội và game đình đám có trụ sở tại thành phố Thâm Quyến) đã giới thiệu Hunyuan 3D World Model 1.0 - mô hình AI mã nguồn mở có khả năng tạo ra các môi trường 3D (ba chiều) chi tiết, theo một thông cáo báo chí.

Tencent cho biết Hunyuan 3D World Model 1.0 có thể tạo ra các cảnh 3D tương tác toàn cảnh 360 độ chỉ bằng cách nhập lệnh ngôn ngữ tự nhiên hoặc hình ảnh, từ đó đơn giản hóa đáng kể quy trình sản xuất trải nghiệm thực tế ảo (VR) và video game.

Tập đoàn này nhấn mạnh Hunyuan 3D World Model 1.0 là mô hình AI mã nguồn mở đầu tiên trong ngành có khả năng tạo thế giới 3D tương thích hoàn toàn với CG pipelines - quy trình làm việc tiêu chuẩn được sử dụng để tạo đồ họa và hoạt hình 3D cho sản xuất phim, game, hiệu ứng hình ảnh.

Hình ảnh do Hunyuan3D World Model 1.0 tạo ra, được Tencent công bố tại WAIC 2025 vào ngày 27.7 - Ảnh: Handout

Thuật toán nền tảng của Tencent, được giới thiệu với tên gọi “biểu diễn và tạo cảnh 3D phân cấp theo ngữ nghĩa”, có khả năng phân tách các thế giới 3D phức tạp thành những lớp dựa trên ý nghĩa, từ đó giúp tạo ra hiệu ứng chân thực và cho phép người dùng chỉnh sửa môi trường đã tạo.

Mô hình này hỗ trợ xuất 3D mesh (lưới 3D)- đối tượng 3D tiêu chuẩn có thể được nhập trực tiếp vào các công cụ phát triển game phổ biến như Unity và Unreal, cũng như phần mềm dựng hình chuyên nghiệp, mở rộng khả năng ứng dụng thực tế.

3D mesh là một cấu trúc dữ liệu dùng để mô tả hình dạng của đối tượng 3D trong máy tính. Một 3D mesh được tạo thành từ ba thành phần chính là các đỉnh, cạnh và mặt.

Đỉnh là những điểm trong không gian 3D, xác định vị trí bằng tọa độ (x, y, z).

Cạnh là đoạn thẳng nối hai đỉnh.

Mặt là vùng không gian được tạo bởi ba hoặc nhiều cạnh, thường có hình tam giác hoặc tứ giác. Các mặt ghép lại với nhau tạo thành bề mặt của vật thể.

Hiện tại, Hunyuan 3D World Model 1.0 đã có mặt trên nền tảng tạo dựng 3D Hunyuan của Tencent, cho phép người dùng tạo ra ảnh toàn cảnh tĩnh bằng lệnh văn bản hoặc hình ảnh, nhưng số lượng sử dụng mỗi ngày bị giới hạn. Khả năng tạo cảnh tương tác và có thể khám phá theo bốn hướng, cho phép di chuyển ảo, đang được thử nghiệm nội bộ.

Ngoài ra, mô hình mới cũng đã được Tencent phát hành trên các nền tảng AI mã nguồn mở, gồm cả Hugging Face, để triển khai cục bộ. Đây là bước đi phù hợp với xu hướng mã nguồn mở trong ngành AI, nối tiếp việc Tencent từng phát hành nhiều mô hình AI đa phương thức mã nguồn mở trong dòng Hunyuan trước đó.

Hugging Face là nền tảng và cộng đồng trực tuyến hàng đầu trong lĩnh vực AI và học máy, đặc biệt nổi tiếng với các công cụ và mô hình liên quan đến xử lý ngôn ngữ tự nhiên.

Tencent giới thiệu các ứng dụng AI tại WAIC 2025 - Ảnh: Wency Chen

SenseTime tuyên bố SenseNova V6.5 vượt Google Gemini 2.5 Pro và Claude 4-Sonnet

Tại WAIC 2025, SenseTime (một trong những công ty tiên phong về AI tại Trung Quốc) đã công bố SenseNova V6.5 - thế hệ mới nhất trong dòng mô hình AI độc quyền của mình.

SenseTime tuyên bố SenseNova V6.5 đã vượt qua một số đối thủ từ Mỹ như Google Gemini 2.5 Pro và Claude 4-Sonnet của Anthropic. Việc giới thiệu SenseNova V6.5 đánh dấu nỗ lực mới nhất của SenseTime (niêm yết tại Hồng Kông, Trung Quốc) nhằm tăng cường đầu tư vào các mô hình AI đa phương thức, theo lời Chủ tịch kiêm Giám đốc điều hành Xu Li tại WAIC 2025.

Lần ra mắt này diễn ra sau khi SenseTime trình làng mô hình AI đa phương thức SenseNova V6 vào tháng 4, được cho là đã vượt qua GPT-4o của OpenAI ở nhiều chỉ số đánh giá.

Ông Xu Li cũng ca ngợi hiệu suất cải thiện của SenseNova V6.5 so với thế hệ trước, với hiệu quả học tăng cường trong giai đoạn huấn luyện tăng 40%, còn khả năng xử lý dữ liệu ở giai đoạn suy luận tăng hơn 35%.

Học tăng cường là một lĩnh vực trong AI và học máy, trong đó một hệ thống gọi là tác nhân học cách đưa ra quyết định tối ưu bằng cách tương tác với môi trường xung quanh. Quá trình học diễn ra thông qua việc thử nghiệm các hành động khác nhau, nhận về phản hồi từ môi trường dưới dạng phần thưởng và dần dần điều chỉnh chiến lược hành động để tối đa hóa tổng phần thưởng tích lũy theo thời gian.

Học tăng cường không yêu cầu dữ liệu có nhãn như trong học có giám sát, mà thay vào đó dựa vào kinh nghiệm tích lũy ở quá trình tương tác để cải thiện hiệu suất. Cách tiếp cận này đặc biệt phù hợp với những bài toán ra quyết định tuần tự, chẳng hạn như robot tự hành, điều khiển trong công nghiệp, video game, hoặc các hệ thống đề xuất. Tuy nhiên, học tăng cường cũng đi kèm với thách thức lớn về tốc độ học, độ phức tạp tính toán và sự ổn định trong huấn luyện, đặc biệt khi áp dụng vào các môi trường thực tế nhiều biến động.

“Chúng tôi đã thay đổi kiến trúc của một số mô hình cho SenseNova V6.5, để có thể xử lý tốt hơn việc tích hợp nhiều phương thức đầu vào, không chỉ là hình ảnh, mà còn có cả video và văn bản”, Xu Li phát biểu tại WAIC 2025.

Không giống các mô hình ngôn ngữ lớn truyền thống vốn tập trung chủ yếu vào văn bản, mô hình AI đa phương thức tích hợp nhiều loại dữ liệu đầu vào như hình ảnh, âm thanh, video nhằm nâng cao khả năng hiểu và tạo nội dung.

Đặt cược lớn vào lĩnh vực AI

Tencent và SenseTime đang đặt cược lớn vào lĩnh vực AI như là nguồn doanh thu quan trọng trong tương lai, được thúc đẩy bởi cơn sốt AI tạo sinh toàn cầu hai năm qua.

Tencent, công ty sở hữu doanh thu cao nhất thế giới trong lĩnh vực game và điều hành siêu ứng dụng WeChat, đã chứng kiến các khoản đầu tư vào AI đem lại kết quả khả quan, khi công bố quý kinh doanh tốt nhất (quý 2/2025) kể từ khi niêm yết vào năm 2004.

Được thành lập tại Hồng Kông năm 2014 và niêm yết trên sàn chứng khoán thành phố này năm 2021, SenseTime báo cáo doanh thu tăng 11% lên 3,8 tỉ nhân dân tệ (tương đương 518 triệu USD) trong 2024, nhờ tăng trưởng ở mảng AI tạo sinh. Khoản lỗ ròng của SenseTime trong 2024 cũng giảm xuống còn 4,3 tỉ nhân dân tệ, so với 6,5 tỉ nhân dân tệ một năm trước đó.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/ai-moi-bung-no-o-waic-tencent-tao-moi-truong-3d-chi-tiet-sensetime-noi-vuot-google-235449.html