吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DeepMind生成查詢網絡GQN,從一個場景的少量2D照片中重新生成3D

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-03 10:26 ? 次閱讀

DeepMind今天在Science發表論文,提出生成查詢網絡(Generative Query Network,GQN),能夠在無監督的情況下,抽象地描述場景元素,并通過“想象”渲染出場景中沒有見到的部分。這項工作展示了沒有人類標簽或領域知識的表示學習,為機器自動學習并理解周圍世界鋪平了道路。

DeepMind又有大動作,早上起來便看到Hassabis的推文:

一直以來,我對大腦是如何在腦海中構建圖像的過程深感著迷。我們最新發表在Science的論文提出了生成查詢網絡(GQN):這個模型能從一個場景的少量2D照片中重新生成3D表示,并且能從新的攝像頭視角將它渲染出來。

Hassabis在接受《金融時報》采訪時表示,GQN能夠從任何角度想象和呈現場景,是一個通用的系統,具有廣泛的應用潛力。

如果說新智元昨天介紹的DeepMind那篇有關圖網絡的論文重磅,那么這篇最新的Science更顯分量。

“此前我們不知道神經網絡能否能學會以如此精確和可控的方式來創建圖像,”DeepMind的研究員、論文的第一作者Ali Eslami表示:“但是,這次我們發現具有足夠深度的網絡,可以在沒有任何人類工程干預的情況下,學習透視和光線。這是一個非常驚人的發現。”

DeepMind最新發表在Science上的論文《神經場景表示和渲染》。包括老板Demis Hassabis在內,一共22名作者。本著開源共享的精神,文章以公開獲取的形式在Science發表。

這篇文章的意義在于,提出了一種無監督的方法,不依賴帶標記的數據,而且能夠推廣到各種不同的場景中。過去的計算機視覺識別任務,通常是建立在大量有標記的數據基礎上,不僅標記這些數據麻煩,標記好的數據還可能帶有偏見,最重要的是,已經有越來越多的研究者意識到,由于測試集過擬合的問題,很多分類器的魯棒性亟待提高。

DeepMind的這套視覺系統,也即生成查詢網絡(GQN),使用從不同視角收集到的某個場景的圖像,然后生成關于這個場景的抽象描述,通過一個無監督的表示學習過程,學習到了場景的本質。之后,在學到的這種表示的基礎上,網絡會預測從其他新的視角看這個場景將會是什么樣子。這一過程非常類似人腦中對某個場景的想象。而理解一個場景中的視覺元素是典型的智能行為。

雖然還有諸多局限,但DeepMind的這項工作,在此前許許多多相關研究的基礎上更進一步,展示了我們在讓機器“理解世界”的道路上,邁出了堅實一步。

下面是DeepMind今天發表的官方博文,論文的聯合第一作者S. M. Ali Eslami和Danilo Jimenez Rezende對這項工作進行了解讀。

《神經場景表示和渲染》的研究背景

當談到我們人類如何理解一個視覺場景時,涉及的不僅僅是視覺:我們的大腦利用先驗知識進行推理,并做出遠遠超出光線的模式的推斷。例如,當你第一次進入一個房間時,你能夠立即識別出房間里的物品以及它們的位置。如果你看到一張桌子的三條腿,你會推斷,可能存在第四條桌子腿從你的視線中隱藏了,它的顏色和形狀應該與其他三條腿相同。即使你看不到房間里的所有東西,你也很可能勾畫出它的布局,或者從另一個角度想象它的樣子。

這些視覺和認知任務對人類來說似乎毫不費力,但它們對我們的AI系統來說是一個重大挑戰。今天,最先進的視覺識別系統都是用人類產生的帶注釋圖像的大型數據集訓練的。獲取這些數據是一個昂貴而且耗時的過程,需要有人對數據集中每個場景的每個對象進行標記。因此,通常只能捕獲整體場景的一小部分內容,這限制了用這些數據進行訓練的人工視覺系統。

當我們開發出在現實世界運行的更復雜的機器時,我們希望機器能充分了解它們所處的環境:可以坐的最近的表面在哪里?沙發是什么料子的?所有的陰影都是哪些光源產生的?電燈的開關可能在哪里?

論文一作S. M. Ali Eslami解讀

在這篇發表于《科學》(Science)的最新論文中,我們提出生成查詢網絡(Generative Query Network,GQN)。在這個框架中,機器學習只使用它們在場景中移動時所獲得的數據進行訓練,從而感知周圍的環境。

就像嬰兒和動物一樣,GQN通過嘗試理解它對周圍世界的觀察來學習。在這樣做的過程中,GQN了解了似乎合理的場景及其幾何屬性,而沒有任何人類來對場景內容進行標注。

GQN:僅使用從場景中感知到的數據做訓練

GQN模型由兩個部分組成:表示網絡(representation network)和生成網絡(generation network)。表示網絡將agent的觀察結果作為輸入,并生成一個描述基礎場景的表示(向量)。然后,生成網絡從先前未觀察到的角度來預測(“想象”)場景。

Agent從不同視角觀察訓練場景

表示網絡不知道生成網絡被要求預測哪些視點,所以它必須找到一種有效的方式來盡可能準確地描述場景的真實布局。為了實現這個目的,表示網絡以一種簡潔的分布式表示來捕獲最重要的元素(如對象位置、顏色和房間布局)。

在訓練過程中,生成器學習環境中的典型對象、特征、關系和規則。這種共享的“概念”集合使表示網絡能夠以高度壓縮、抽象的方式描述場景,讓生成網絡在必要時填充細節。

例如,表示網絡會簡潔地將“藍色立方體”表示為一組數字,而生成網絡將會知道如何以特定的視點將其顯示為像素。

四大重要特性:能夠“想象出”沒有觀察過的場景

我們在模擬的3D世界的一系列程序生成環境中,對GQN進行了受控實驗。這些環境包含多個物體,它們的位置、顏色、形狀和紋理都是隨機的,光源也是隨機的,而且會被嚴重遮擋。

在這些環境中進行訓練后,我們使用GQN的表示網絡來形成新的、以前未觀察到的場景的表示。我們的實驗表明,GQN具有以下幾個重要特性:

GQN的生成網絡能夠以非常精確的方式從新的視角“想象”先前未觀察到的場景。當給定一個場景表示和新的攝像機視點時,它會生成清晰的圖像,而不需要事先說明透視、遮擋或燈光的規范。因此,生成網絡是一種從數據中學習的近似渲染器(approximate renderer):

GQN的表示網絡可以學會對對象進行計數、定位和分類,無需任何對象級標簽。盡管GQN的表示可能非常小,但是它在查詢視點(query viewpoints)上的預測是高度準確的,與ground-truth幾乎無法區分。這意味著表示網絡能夠準確地感知,例如識別構成以下場景的塊的精確配置:

GQN可以表示、測量和減少不確定性。即使內容不完全可見,它也能對場景的不確定性進行解釋,并且可以將場景的多個局部視圖組合成一個連貫的整體視圖。如下圖所示,這是由其第一人稱(first-person)和自上而下的預測(top-down predictions)顯示的。模型通過其預測的可變性來表示不確定性,不確定性隨著其在迷宮中移動而逐漸減小(灰色的椎體指示觀察位置,黃色椎體指示查詢位置):

GQN的表示允許穩健的、數據有效(data-efficient)的強化學習。當給定GQN的緊湊表示時,與無模型基線agent相比, state-of-the-art的深度強化學習agent能夠以更高的數據效率方式完成任務,如下圖所示。對于這些agent,生成網絡中編碼的信息可以被看作是對環境的“先天”知識:

圖:使用GQN,我們觀察到數據效率更高的策略學習(policy learning),與使用原始像素的標準方法相比,其獲得收斂級性能的交互減少了約4倍。

未來方向

GQN建立在此前大量相關工作的基礎上,包括多視圖幾何、生成建模、無監督學習和預測學習,我們在論文中有詳細討論。

GQN演示了一種學習緊湊的、基礎的物理場景表示的新方法。關鍵的是,我們提出的方法不需要專用領域工程(domain-specific engineering)或耗時的場景內容標記,從而允許將相同的模型應用于各種不同的環境。GQN還學會了一個強大的神經渲染器,能夠從新的視角生成精確的場景圖像。

與更傳統的計算機視覺技術相比,我們的方法仍然有許多限制,目前只有接受過合成場景的訓練。然而,隨著獲得更多新的數據源,以及硬件功能的進展,我們期望能夠探索GQN框架在更高分辨率的真實場景圖像中的應用。在未來的工作中,我們將探索GQN在場景理解的更廣泛方面的應用,例如通過查詢跨空間和時間學習物理和運動的常識概念,以及虛擬和增強現實中的應用。

盡管在我們的方法在投入實用前還有很多研究需要完成,但我們相信這項工作是邁向完全自主場景理解的一大步。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101176
  • 機器學習
    +關注

    關注

    66

    文章

    8441

    瀏覽量

    133087
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    10942

原文標題:【Science重磅】DeepMind生成查詢網絡GQN,無監督學習展現3D場景

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    視覺處理,2d照片3d模型

    首先,太陽高度是恒定的。 照片每像素的亮度可求。我們只需要求出太陽與眼睛到物體的夾角就能求出3d模型。 最多就是各種物質的反射率。 英偉達的oir芯片就是做汽車視覺的,大家去取取經。 有時,2-3張位置不同的
    發表于 05-21 17:13

    Google AI子公司開發出神經網絡GQN,其組成部分介紹

    Google AI 子公司 DeepMind 開發出神經網絡,能根據2D 圖像“想象出
    的頭像 發表于 06-29 16:54 ?6928次閱讀
    Google AI子公司開發出<b class='flag-5'>一</b><b class='flag-5'>個</b>神經<b class='flag-5'>網絡</b><b class='flag-5'>GQN</b>,其組成部分介紹

    人工智能系統VON,生成最逼真3D圖像

    研究團隊寫道:“我們的關鍵思想是將圖像生成過程分解為三要素:形狀、視角和紋理,這種分離的3D表示方式使我們能夠在對抗學習框架下從3D2D
    的頭像 發表于 12-07 09:28 ?7818次閱讀

    谷歌研究人員利用3D卷積網絡打造視頻生成新系統

    這套AI系統包括完全卷積模型,這是是受動物視覺皮層啟發打造的深度神經網絡,最常用于分析視覺圖像。它由三部分組成:2D卷積圖像解碼器,
    的頭像 發表于 06-02 09:30 ?3353次閱讀
    谷歌研究人員利用<b class='flag-5'>3D</b>卷積<b class='flag-5'>網絡</b>打造視頻<b class='flag-5'>生成</b>新系統

    谷歌發明的由2D圖像生成3D圖像技術解析

    谷歌發明的由2D圖像生成3D圖像的技術,利用3D估計神經網絡圖像信息的補全以及預測,融合了拍攝角度、光照等信息,讓
    的頭像 發表于 12-24 12:55 ?4833次閱讀
    谷歌發明的由<b class='flag-5'>2D</b>圖像<b class='flag-5'>生成</b><b class='flag-5'>3D</b>圖像技術解析

    基于視覺注意力的全卷積網絡3D內容生成方法

     由于在某些特殊場景中獲取深度線索的難度較高,使得已有3D內容生成方法的應用受到限制。為此,以顯著圖代替深度圖進行2D-3D轉換,提出
    發表于 05-13 16:13 ?11次下載

    Meta提出Make-A-Video3D行文本,生成3D動態場景

    具體而言,該方法運用 4D 動態神經輻射場(NeRF),通過查詢基于文本到視頻(T2V)擴散的模型,優化場景外觀、密度和運動的致性。任意機
    的頭像 發表于 03-24 10:47 ?1105次閱讀

    NeuralLift-360:將野外的2D照片提升為3D物體

    3D點云中生成可渲染的3D網格:使用基于深度學習的方法來將點云轉換為可渲染的3D網格。具體
    的頭像 發表于 04-16 10:02 ?2221次閱讀

    清華朱軍團隊提出ProlificDreamer:直接文本生成高質量3D內容

    將 Imagen 生成照片(下圖靜態圖)和 ProlificDreamer(基于 Stable-Diffusion)生成3D(下圖動態圖)進行對比。有網友感慨:短短
    的頭像 發表于 05-29 10:02 ?967次閱讀
    清華朱軍團隊提出ProlificDreamer:直接文本<b class='flag-5'>生成</b>高質量<b class='flag-5'>3D</b>內容

    3D人體生成模型HumanGaussian實現原理

    和驅動等。為了自動化 3D 內容生成,此前的些典型工作(比如 DreamFusion [1] )提出了分數蒸餾采樣 (Score Distillation Sampling),通過優化 3D
    的頭像 發表于 12-20 16:37 ?1709次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實現原理

    2D3D視覺技術的比較

    作為多年經驗的機器視覺工程師,我將詳細介紹2D3D視覺技術的不同特點、應用場景以及它們能夠解決的問題。在這個領域內,
    的頭像 發表于 12-21 09:19 ?1252次閱讀

    文了解3D視覺和2D視覺的區別

    文了解3D視覺和2D視覺的區別 3D視覺和2D視覺是兩種不同的視覺模式,其區別主要體現在立體感、深度感和逼真度上。本文將詳細闡述這些區別,
    的頭像 發表于 12-25 11:15 ?3375次閱讀

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺

    據報道,谷歌公司的DeepMind團隊近期發布了AI模型Genie,此模型擁有多達110億參數,能夠依據用戶提供的圖片及提示詞創建出相當完整的2D游戲場景
    的頭像 發表于 02-27 14:53 ?844次閱讀

    Adobe Substance 3D整合AI功能:基于文本生成紋理、背景

    Substance 3D Stager是以Adobe Dimension為基礎改造而成,使用者可直觀地進行3D場景構建,包括模型、材質和燈光等要素。借助其強大功能,能夠生成極具觀賞性的
    的頭像 發表于 03-20 10:28 ?843次閱讀

    歡創播報 騰訊元寶首發3D生成應用

    1 騰訊元寶首發3D生成應用 只需一張照片,便能迅速打造獨無二的3D角色。7月16日,騰訊旗下大模型應用“騰訊元寶”上線了“
    的頭像 發表于 07-18 11:39 ?827次閱讀
    歡創播報 騰訊元寶首發<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應用
    澳门百家乐玩法与游戏规则| 百家乐官网送1000 | 百家乐网站排名| 伯爵百家乐娱乐平台| 澳门百家乐小游戏| 百家乐赌博代理荐| 百家乐六合彩3535| 百家乐跟路技巧| 网上百家乐赌博网| 新东泰百家乐的玩法技巧和规则 | 百家乐官网和怎么算输赢| 鑫鑫百家乐官网的玩法技巧和规则 | 不夜城百家乐官网的玩法技巧和规则 | 百家乐官网分析仪有真的吗| 7人百家乐官网中号桌布| 真百家乐官网游戏| 3U百家乐游戏| 百家乐官网路子分| 爱拼百家乐现金网| 利都百家乐国际娱乐| 威尼斯人娱乐城| 大发888在线| 百家乐官网单注技巧| 百家乐官网玄机| 百家乐官网牌具公司| 真人版百家乐官网试玩| e世博百家乐攻略| 大发888出纳| 瑞奇国际娱乐| 百家乐官网有没有稳赢| 百家乐官网娱乐代理| 玩百家乐技巧看路| 威尼斯人娱乐场 澳门| 舟山星空棋牌首页| 百家乐官网庄闲和游戏机| 百家乐官网平玩法官方网址| 百家乐币| 德州扑克的技巧| 百家乐官网试用软件| 百家乐官网破解分| 百家乐双峰县|