OpenAI ra mắt Sora: AI tạo video từ văn bản gây choáng ngợp người dùng
Sora có khả năng tạo ra các video dài tới một phút với chất lượng hình ảnh đáng kinh ngạc trong khi vẫn tuân thủ yêu cầu của người dùng.
Ngày 16/2, OpenAI ra mắt trí tuệ nhân tạo (AI) tạo video từ văn bản, có tên gọi là Sora ở cấp độ thử nghiệm. Cụ thể, công nghệ này chỉ được chia sẻ với một nhóm người dùng nhỏ để thu thập các lỗi và nguy cơ tiềm ẩn.
Điều đáng nói là những thước phim do Sora tạo ra có độ chân thật đến mức kinh ngạc. Sora có thể tạo ra các video dài tới một phút trong khi vẫn duy trì chất lượng hình ảnh và tuân thủ yêu cầu của người dùng.
Trên website của mình, OpenAI cho biết: “Chúng tôi đang đào tạo để AI hiểu và mô phỏng thành công thế giới vật lý trong chuyển động”.
Câu lệnh: Một người phụ nữ đi dạo trên đường phố Tokyo đầy ánh sáng neon ấm áp. Cô ấy mặc một chiếc áo khoác da màu đen, một chiếc váy dài màu đỏ, đi đôi bốt màu đen và cầm một chiếc túi xách màu đen. Cô gái đeo kính râm và dùng son môi màu đỏ. Dáng đi tự tin và thoải mái. Con phố ẩm ướt và phản chiếu, tạo ra hiệu ứng gương với ánh sáng đầy màu sắc. Nhiều người đi bộ xuất hiện trên đường. Video: OpenAI
Vào tháng 4/2023, Runway AI - một công ty khởi nghiệp tại New York (Mỹ) đã giới thiệu công nghệ cho phép người dùng tạo ra video chỉ bằng cách gõ một câu lệnh. Tuy nhiên các video có thời lượng ngắn - 4 giây thường rất nhòe, giật gân và méo mó.
Chỉ sau 10 tháng, OpenAI đã ra mắt một công nghệ tương tự nhưng có khả năng tạo ra những video như được lấy từ một bộ phim Hollywood.
Trong chiến dịch ra mắt của mình, OpenAI nhận định: “Sora có khả năng tạo ra các cảnh phức tạp với nhiều nhân vật. Các loại chuyển động của chủ thể và khung nền có thể chính xác đến từng chi tiết. Mô hình không chỉ hiểu những gì người dùng đã yêu cầu trong đề bài, mà còn hiểu cách những thứ đó tồn tại trong thế giới vật lý”.
Đây là một bước tiến rất lớn trong công nghệ tạo ra hình ảnh, video từ văn bản. Công nghệ này có khả năng làm tăng tốc độ làm việc của các nhà làm phim, đồng thời thay thế hoàn toàn những nghệ sĩ kỹ thuật số ít kinh nghiệm.
Câu lệnh: Một bầy voi lông dày, khổng lồ chạy qua một cánh đồng tuyết phủ. Bộ lông dày nhẹ nhàng bay trong gió khi đàn voi di chuyển. Cây và những ngọn núi ở phía xa đều bị tuyết phủ. Ánh sáng ban ngày. Trời có những đám mây nhẹ, mặt trời cao, tạo hiệu ứng ánh sáng ấm áp. Góc quay thấp, chụp lại bộ lông đẹp mắt, tiêu cự sâu. Video: OpenAI.
Tuy nhiên, bên cạnh các lợi ích trước mắt, Sora vẫn còn một số hạn chế. Chính OpenAI đã cảnh báo rằng: “Mô hình có thể gặp khó khăn trong việc mô phỏng tính vật lý một cách chính xác trong các phân cảnh phức tạp và có thể không hiểu rõ các trường hợp cụ thể về nguyên nhân và hậu quả. Ví dụ, một người có thể cắn một miếng bánh quy, nhưng sau đó chiếc bánh quy lại không có dấu răng cắn”.
Ngoài ra, mô hình cũng có thể gây nhầm lẫn về chi tiết không gian trong câu lệnh như lẫn lộn bên trái và bên phải; có thể gặp khó khăn trong việc mô tả chính xác các sự kiện diễn ra theo thời gian,...
Điều đáng lo ngại nhất là Sora có thể trở thành một công cụ tạo ra hình ảnh, thông tin sai lệch một cách nhanh chóng và tiết kiệm chi phí. Trạng thái này sẽ khiến cho người dùng ngày càng gặp nhiều khó khăn trong việc phân biệt điều gì là thật, điều gì là giả trên internet.
Hiện tại, OpenAI cho biết công ty vẫn chưa phát hành Sora cho công chúng. Các nhà nghiên cứu vẫn đang nỗ lực tìm hiểu những nguy cơ tiềm ẩn của hệ thống bằng cách chia sẻ với một nhóm nhỏ các nhà nghiên cứu và các chuyên gia ngoài công ty để "kiểm tra và thử thách" công nghệ mới.
Câu lệnh: Hoạt hình, một con quỷ nhỏ, lông xù ngồi bên cạnh một cây nến đỏ. Phong cách nghệ thuật 3D, chân thực, tập trung vào ánh sáng và kết cấu. Tâm trạng: Sự kỳ diệu và tò mò. Con quỷ nhìn chằm chằm vào ngọn lửa với đôi mắt to và miệng mở. Tư thế và biểu cảm truyền tải cảm giác ngây thơ và vui tươi như đang khám phá thế giới xung quanh trong lần đầu tiên. Sử dụng màu sắc ấm áp và ánh sáng ấn tượng, tăng thêm không khí ấm cúng của hình e. Video: OpenAI
Trong tiếng Nhật, “sora” có nghĩa là bầu trời. Nhóm nghiên cứu đứng sau công nghệ này, bao gồm Tim Brooks và Bill Peebles đã chọn cái tên Sora vì nó "gợi lên ý tưởng về tiềm năng sáng tạo không giới hạn."
OpenAI là công ty đứng sau chatbot ChatGPT và công cụ tạo hình ảnh tĩnh DALL-E.
Hiện tại, OpenAI đã gắn nhãn tất cả các video do Sora tạo ra để người dùng có thể phân biệt được. Tuy nhiên, chính công ty này cũng nhận định rằng các nhãn dán này có thể dễ dàng bị loại bỏ và cũng khá khó để phát hiện.
OpenAI vẫn từ chối tiết lộ số lượng và nguồn gốc của các video đã dùng để đào tạo Sora. Mặc dù các video do Sora có thể gây ấn tượng mạnh nhưng thường chứa những hình ảnh kỳ lạ và không logic.
Trước sự xuất hiện của Sora, Reid Southen, một nghệ sĩ làm phim ở Michigan (Mỹ) nhắc lại sự ra đời của Midjourney: "Chúng ta đã cười vào năm 2022 khi Midjourney mới ra mắt và nói 'ôi, thật đáng yêu'. Còn bây giờ nhiều người đang mất việc vì Midjourney".