AI SHARP của Apple: Biến ảnh 2D thành không gian 3D cực nhanh
SHARP là một công nghệ rất nhanh và chính xác, giúp tạo ra cảnh 3D từ ảnh phẳng với tỷ lệ kích thước thật, chiều sâu và không gian sát thực tế.
Apple vừa âm thầm giới thiệu SHARP (tên đầy đủ là Sharp Monocular View Synthesis), một mô hình trí tuệ nhân tạo (AI) mã nguồn mở có khả năng biến một bức ảnh 2D duy nhất thành cảnh 3D chân thực chỉ trong chưa đầy một giây.
Theo công bố từ nhóm nghiên cứu Apple Research, SHARP có thể tạo ra một cảnh 3D có tỷ lệ kích thước, chiều sâu và cấu trúc gần sát thực tế chỉ từ một ảnh 2D duy nhất, với thời gian xử lý dưới một giây trên GPU tiêu chuẩn. Đây được xem là một bước tiến lớn trong lĩnh vực thị giác máy tính và tổng hợp không gian.
Điểm cốt lõi của SHARP nằm ở việc khai thác các quy luật hình học không gian mà mô hình đã học được trong quá trình huấn luyện, thay vì yêu cầu nhiều dữ liệu đầu vào từ người dùng. Thông qua một lần xử lý feedforward duy nhất của mạng nơ-ron, SHARP có thể dự đoán độ sâu và cấu trúc hình học của cảnh, sau đó dựng nên không gian 3D hoàn chỉnh.
Công nghệ phía sau tốc độ “gần như tức thì”
Nền tảng kỹ thuật của SHARP dựa trên phương pháp 3D Gaussian Splatting - một kỹ thuật biểu diễn không gian bằng hàng triệu điểm Gaussian mang thông tin vị trí và ánh sáng. Khác với các quy trình phức tạp trước đây, SHARP có thể dự đoán trực tiếp vị trí của các điểm này thông qua một “lần quét” nhanh của mạng nơ-ron, giúp rút ngắn thời gian xử lý xuống mức gần như tức thì.

Một bức ảnh phẳng, SHARP tạo ra hình ảnh 3D
Các thử nghiệm cho thấy chất lượng hình ảnh 3D do SHARP tạo ra vượt trội so với nhiều mô hình mạnh hiện nay, đặc biệt ở độ chính xác cấu trúc và chi tiết bề mặt. Các chỉ số đánh giá cảm nhận hình ảnh như LPIPS hay DISTS đều được cải thiện đáng kể, cho phép mô phỏng chuyển động camera trong không gian 3D một cách mượt mà và tự nhiên hơn.
Tuy nhiên, SHARP không cố gắng “tưởng tượng” những phần không xuất hiện trong ảnh gốc. Đây là một lựa chọn có chủ đích của Apple. Mô hình hoạt động tốt nhất khi hiển thị các góc nhìn gần với bức ảnh ban đầu, đảm bảo tính nhất quán và tránh những lỗi hình ảnh thường gặp khi AI phải suy đoán các vùng khuất. Đổi lại, không gian 3D tạo ra có độ tin cậy cao và sát thực tế hơn.
Mã nguồn mở và tiềm năng ứng dụng
Một điểm đáng chú ý khác là Apple đã mở mã nguồn toàn bộ SHARP trên GitHub, bao gồm mô hình và tài nguyên huấn luyện, cho phép cộng đồng nhà phát triển và giới nghiên cứu toàn cầu tiếp cận, thử nghiệm và mở rộng công nghệ này.
SHARP được huấn luyện trên khoảng 8 triệu hình ảnh tổng hợp nội bộ kết hợp với 2,65 triệu ảnh có bản quyền, giúp mô hình học được cách suy luận độ sâu và tỷ lệ trên nhiều bối cảnh khác nhau. Nhờ đó, SHARP có thể áp dụng kiến thức đã học vào các bức ảnh đơn lẻ mới với độ chính xác cao.
Về mặt ứng dụng, tiềm năng của SHARP trải rộng trên nhiều lĩnh vực. Trong thực tế tăng cường (AR) và thực tế ảo (VR), công nghệ này cho phép tái tạo không gian gần như ngay lập tức. Trong kiến trúc, thiết kế nội thất hay sáng tạo nội dung, người dùng có thể nhanh chóng hình dung không gian chỉ từ một ảnh tham chiếu, thay vì phải dựng mô hình thủ công tốn thời gian.
Video 3D được SHARP tạo ra từ 1 tấm hình
Dĩ nhiên, SHARP vẫn có những giới hạn nhất định, như phụ thuộc nhiều vào hiệu năng GPU và không phù hợp với các kịch bản cần “khám phá” sâu các vùng không nhìn thấy. Tuy vậy, với triết lý ưu tiên tốc độ, tính chân thực và hiệu quả, SHARP cho thấy một hướng đi rất rõ ràng: biến việc tạo không gian 3D từ ảnh phẳng trở nên nhanh, gọn và dễ tiếp cận hơn bao giờ hết.
Việc SHARP có được tích hợp vào các sản phẩm thương mại của Apple trong tương lai hay không vẫn còn bỏ ngỏ. Tuy nhiên, ở thời điểm hiện tại, mô hình này đã cho thấy một viễn cảnh mới. Viễn cảnh mà một bức ảnh cũng đủ để mở ra cả một thế giới 3D sống động.














