編者按:還記得那個能自己寫詩的微軟小冰嗎?很多人看到小冰的詩之后驚嘆原來機器也有了創造力。最近,微軟亞洲研究院研發的DA-GAN技術讓機器繪畫創造也成為了可能,只要人們用文字描述一下自己想要的畫面,計算機便可以在幾毫秒之內生成多個與描述吻合的形象。也許在不久的將來,DA-GAN技術將開啟一個人人都是創造者的時代。
創造力一直被認為是人類智能與人工智能最大的差別之一。然而隨著技術的發展,近年來人工智能在具有“創造性”的工作中不斷突破。之前微軟小冰寫詩,已經讓大家驚嘆計算機在文字創作上的大幅提升,如今微軟亞洲研究院研發的DA-GAN技術,則將對今后的藝術創造模式產生重大影響。而關于DA-GAN的論文也已被CVPR 2018接收(點擊閱讀原文查看)。
當人們用文字描述“我想要一只腹部、胸部為白色,頭頂灰色,翅膀有白色翅斑的小鳥”時,計算機便可以通過DA-GAN在幾毫秒的時間內生成多個與文字描述高度吻合的形象(如下圖)。這些由計算機生成的鳥栩栩如生,完全符合人們期待的鳥的形象,不過它有可能是真實存在于現實世界中的,也有可能是系統根據鳥類特征和文字描述“創造”出來的一只“鳥”。
DA-GAN生成的“腹部、胸部為白色,頭頂灰色,翅膀有白色翅斑的鳥”(注意:該圖片中的鳥在現實世界中并不存在)
DA-GAN的最大創新——“隱空間”
DA-GAN研究團隊的技術突破得益于特征表達技術的發展。以往的特征表達工作,多是讓機器理解圖片并抽取特征,然后再對圖片進行分類;而DA-GAN則有些反向思維的意味,在提取圖片特征后,將特征在人類的視覺空間中還原出來。
以上文所列舉的鳥為例,系統首先要能夠根據現實世界的鳥,總結出鳥的結構和特征,然后再根據用戶的需求,輸出他們所需要的鳥。之所以選擇鳥類作為研究對象,是因為鳥類的特征非常豐富,僅頭部就有幾十種特征,鳥類專家就是利用這些細微的差別來判斷鳥的種類,而特征豐富就意味著可以更好地去驗證模型的生成能力。
微軟亞洲研究院研究員傅建龍表示,“在訓練DA-GAN系統時,我們先讓它‘見’過很多種類的鳥,就如同一個人認識了紅蘋果后,看到綠色的蘋果,也可以從它的外形中判斷出這是蘋果一樣。DA-GAN依據所接觸的鳥類圖片,學會了判斷鳥的經驗性常識。”
與傳統的數據訓練模式需要pair data(數據對)不同,DA-GAN不需要將文本與真實的鳥一一對應,而是將原始圖片分割成不同的部分(暫稱該部分的樣本為T),例如頭部、身體、尾巴、姿勢等,不同的部分分別投射到一個“隱空間”(暫稱該部分的生成樣本為T’),然后通過大量的圖片訓練,去驗證T-T’對應的精確程度,也就是去不斷驗證該“隱空間”的好壞,從而不斷迭代,確保從T-T’的過程并非隨機產生,而是保持一定的規則,進而讓“隱空間”的模型逐步趨于完善。這個過程可謂是DA-GAN系統最為核心的創新所在,也是它能夠更加智能、真正具有舉一反三學習能力的關鍵點。
DA-GAN深度注意力編碼流程圖
接下來,DA-GAN就可以基于該模型創作用戶想要的鳥類了,正如文章開頭所描述的,輸入你的需求,一只栩栩如生的鳥就會相應生成。它可能是一只自然界里真實存在的鳥,也可能是一只擁有A種鳥類的頭部特征、B種鳥類的身體特征、C種鳥類的尾部特征以及任意姿態的一只“想象中的鳥”,而在現實世界里并沒有這樣的鳥類,但它看上去就是一只真正的“鳥”。
(a) 文字到圖像生成 (b) 物體類別變換
傅建龍表示,“目前,我們只將鳥類分成了4個部分,這是我們計算出來的映射相對合理,同時系統代價較小的可行的方式。當然也可以將鳥分為10個、30個部分,那樣模型會越來越精確,但系統代價可能也會成倍增加。”
開啟人人都是創造者的時代
除了鳥類,DA-GAN還可以用于任何與圖片相關的創作,例如此前風行的基于真實人臉生成卡通人臉的小程序,其實大部分只是將紋理附著到了原始照片上,如果利用DA-GAN,則可以做得更像是藝術家的現場漫畫寫生,它可以是梵高風格、莫奈風格、漫畫風格等等,用戶可以進行任意轉換。
對于DA-GAN來說,最重要的是早期的數據訓練,圖片越多質量越高。而且其分辨率已經從其他相關技術能夠達到的64*64升級到了256*256,分辨率的提高,意味著圖片每個部分所包含的細節信息更加完善,也正因為細節的豐富,才使得DA-GAN的表現在與真實世界的對比中優于同類技術。
與此同時,DA-GAN生成的眾多新的圖片,又可以反哺給該系統,從而讓它擁有更多的學習數據。也就是說,只要基于少量的原始數據,DA-GAN就可以產生更多“真實”的練習數據,大大改善某些領域真實數據缺乏的問題。利用DA-GAN的這一優勢,研究團隊實現了業內首次在鳥類數據集中增加生成數據,并將系統的準確度提升了兩個百分點。
數據增強結果
姿態變換任務 圖中每組圖片的第一列是source,第二列是target,第三列是DA-GAN生成的鳥類:保持與第一列的鳥類類別一致,但具有第二列的鳥類姿態
在可觸摸的未來,或許,DA-GAN技術將開啟一個人人都是創造者的時代。只要你的需求輸入它能夠讀懂,哪怕是你腦海中幻想出來的物體和場景,它都能“畫”出來。而由DA-GAN所描繪出來的虛擬世界,可能一點都不比文學家、藝術家創作出來的場景遜色。
不僅如此,讓已經滅絕的動植物,通過記載文字的描述重新躍然紙上;為安防領域提供更真實的犯罪嫌疑人畫像;幫助人們貼合自身的情況試穿網絡售賣的衣物等等,還有更多DA-GAN技術的應用場景,等待大家去想象。同時,傅建龍也表示,未來隨著技術的不斷發展,更多可以生成逼真圖片和影像的技術將會誕生,如何辨別真偽也是需要科研人員以及大眾思考和解決的問題。
-
計算機
+關注
關注
19文章
7536瀏覽量
88639 -
人工智能
+關注
關注
1796文章
47666瀏覽量
240286
原文標題:突破特征表達方式:微軟亞洲研究院CVPR論文DA-GAN,讓計算機創造奇妙“新物種”
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論