75 年前,寶麗來相機拍出了第一張即拍照片,實現了用逼真 2D 圖像快速捕捉 3D 場景的技術突破。如今,AI 研究者正在進行相反的研究——在幾秒鐘內將靜止的圖像集合轉換成數字 3D 場景。
這項被稱為逆向繪制的流程利用 AI 逼真模擬現實世界中的光線特征,使研究者能夠使用從不同角度拍攝的 2D 圖像重建 3D 場景。NVIDIA Research 團隊開發出可以瞬間完成這一任務的方法,構建了首個將超快神經網絡訓練和快速渲染相結合的模型。
NVIDIA 將這種方法應用于被稱為神經輻射場(NeRF)的新技術。該結果被稱為“即時 NeRF”(Instant NeRF),是迄今為止最快的 NeRF 技術,它在某些情況中能夠將速度提升超過 1000 倍。該模型只需要幾秒鐘就能訓練出幾十張靜態照片及其拍攝角度數據,并在瞬間渲染產生的 3D 場景。
NVIDIA 負責圖形學研究的副總裁 David Luebke 表示:“如果把多邊形網格這樣的傳統 3D 表示方式比作矢量圖像,那么 NeRF 就像是位圖圖像——它們可以密集捕捉光線在物體或場景中的輻射方式。從這個意義上來說,即時 NeRF 對 3D 的重要性不亞于數碼相機和 JPEG 壓縮對 2D 攝影的重要性,它極大地提高了 3D 捕捉和分享的速度、便利性和范圍。”
NVIDIA GTC 上的一場分會展示了如何使用即時 NeRF 為虛擬世界創建虛擬化身或場景、以 3D 方式捕捉視頻會議參與者及其環境或者為 3D 數字地圖重建場景。
為了向早期的寶麗來照片致敬,NVIDIA Research 重現了 Andy Warhol 拍攝即拍照片時的標志性照片,并使用即時 NeRF 將其轉換成 3D 場景。
什么是 NeRF?
NeRF 使用神經網絡來表示和渲染基于 2D 圖像集的逼真 3D 場景。
為 NeRF 采集數據有點像紅毯攝影師從各個角度拍攝盛裝打扮的名人。該神經網絡還需要幾十張從環繞場景的多個位置拍攝的圖像以及每次拍攝時的相機位置。
在包含人或其他移動元素的場景中,這些照片拍得越快越好。如果在 2D 圖像捕捉過程中出現過多的運動,AI 生成的 3D 場景就會變得模糊不清。
NeRF 可以填補這方面的空白,它可以訓練小型神經網絡,通過預測光線從 3D 空間任何一點向任何方向輻射時的顏色來重建該場景。該技術甚至可以解決遮擋問題,比如當某些圖像中的物體被其他圖像中的柱子等障礙物擋住時。
使用即時 NeRF 實現 1000 倍加速
人類天生就會根據局部視圖估計物體的深度和外觀,但這對 AI 來說卻很艱巨。
根據視圖創建的復雜性和分辨率,使用傳統方法創建 3D 場景需要耗費數小時甚至更長時間。AI 能夠加快這項工作的速度。早期的 NeRF 模型在幾分鐘內就能渲染出沒有偽影的清晰場景,但仍需要通過數小時的訓練。
即時 NeRF 將渲染時間縮短了多個數量級。它依靠的是 NVIDIA 開發的“多分辨率哈希網格編碼技術”。這項技術經過優化后,可在 NVIDIA GPU 上高效運行。研究者可以通過新的輸入編碼方法,利用快速運行的微型神經網絡獲得高質量的結果。
該模型由 NVIDIA CUDA 工具包和微型 CUDA 神經網絡庫所開發。由于是輕量級的神經網絡,它可以在單個 NVIDIA GPU 上訓練和運行,并且在內置 NVIDIA Tensor 核的顯卡上達到最快運行速度。
這項技術可用于訓練機器人和自動駕駛汽車,通過捕捉現實世界中物體的 2D 圖像或視頻片段來理解物體的大小和形狀。在建筑和娛樂行業,該技術能夠快速生成真實環境的數字場景表示,創作者可在此基礎上進行修改和構建。
除了 NeRFs 之外,NVIDIA 研究人員還在探索如何利用這種輸入編碼技術來加速多個 AI 領域的發展,包括強化學習、語言翻譯和通用深度學習算法。
-
神經網絡
+關注
關注
42文章
4779瀏覽量
101171 -
NVIDIA
+關注
關注
14文章
5076瀏覽量
103722 -
虛擬世界
+關注
關注
0文章
81瀏覽量
5848
發布評論請先 登錄
相關推薦
評論