導讀
通過語言給予智能體指示使其完成通用性的任務是人工智能領域的愿景之一。近年來有越來越多的學者試圖通過融合計算機視覺與自然語言處理領域的相關技術以期實現此目標。
近年來,深度學習方法已經在計算機視覺、自然語言處理和自動語音識別等各個領域得到了廣泛而深入的應用,推動了人臉識別、自動駕駛和語音識別等一系列技術的發展和成熟。在很多目標清晰、規則明確的任務比如物體檢測、目標分割甚至是圍棋、象棋領域達到甚至超越了人類的表現。但是當前深度學習領域的研究往往局限在特定領域甚至特定的任務上,對于環境往往也有許多假設或是限制,與通用人工智能或是自主智能體的目標相去甚遠。
像圖像描述、視覺問答和文本圖像生成等視覺與語言交叉領域的研究,往往缺乏對于環境的理解,而近年來陸續出現的將視覺和語言與行為聯系的研究,比如視覺語言導航、具身問答和交互式問答等,不但需要融合視覺與語言技術,還需要智能體針對基于文本的問題,在虛擬的空間環境中進行路徑規劃和探索,相對而言是對視覺與語言的深度融合。
下面先來了解一下早期研究較多的幾個融合視覺與語言的任務。
圖像描述
最早被提出的問題是圖像描述,即根據給定圖片自動生成語言描述。初期解決方案分為圖像預處理、特征提取和文本生成三個模塊,比如圖像算子提取特征,SVM 檢測可能存在的目標,根據目標屬性生成句子,但是對于目標屬性定義的依賴限制了描述的生成。近年來則大多基于深度學習提出解決方案,2015 年谷歌 DeepMind 團隊和李飛飛團隊分別提出了基于編碼—解碼框架的show and tell 和 neural talk 模型,均使用 CNN+RNN 的模式;生成對抗網絡、深度強化學習和注意力機制也被陸續引入相關研究。隨著解決方案的成熟,圖像描述任務也不斷擴展,比如基于群組的圖像描述方法和生成文本的風格化問題等。
視覺問答
視覺問答可以視作圖像描述問題的邏輯推理擴展,任務形式通常是,給定一幅圖片和基于圖片的問題,輸出問題的正確答案,包括是或否的二元邏輯問題和多項選擇以及圖像中的文本信息等。解決方法基本可劃分為四類:聯合嵌入模型、注意力機制模型、模塊化組合模型和知識庫增強模型。聯合嵌入方法將圖像和文字在公共特征空間學習,注意力機制使用局部圖像特征對不同區域的特征加權解決噪聲問題,模塊化組合模型引入不同功能的神經網絡模塊,知識庫增強模型通過外部知識庫解決需要先驗知識的問題。作為視覺問答的拓展領域視頻問答也越來越多受到學者的關注。
文本圖像生成
文本圖像生成則正好是圖像描述的逆向問題,從給定文本描述生成圖像。變分自編碼器、基于流的生成模型和近似PixelCNN等方法都曾用于解決此問題。但是自生成對抗網絡引入文本圖像生成以來,因其卓越表現已成為主流方法。當前基于 GAN 的優化方向主要有:其一是調整網絡結構,比如增加網絡深度或者引入多個判別器,其二是充分利用文本信息,比如注意力機制和 MirrorGAN等工作,其三是增加額外約束,比如 Condition-GAN機制等工作,其四是分階段生成,比如李飛場景圖和語義中間層等工作。同樣文本圖像生成任務形式也得到了進一步拓展,比如基于多段落生成系列圖片的故事可視化任務和文本生成視頻等。
視覺對話
視覺對話可以視為圖像描述問題的對話擴展,在 2017 年 CVPR 會議上由佐治亞理工學院的 Das A 等人提出,與視覺問答中單次交互不同,視覺對話要求智能體基于視覺內容與人類進行多次交流。具體講,就是在給定圖像、對話歷史記錄和關于圖像問題的條件下,智能體必須基于圖像內容,從歷史記錄中推斷上下文,并準確地回答該問題。與此相似的還有‘Guess What?!’任務但是其僅限于答案為“是”或“否”的布爾型問題,Alamri H 等人則進一步引入了視頻對話的任務。視覺對話目前的解決方案主要有基于深度強化學習的模型、注意力機制、條件變分自編碼器方法和基于神經網絡模塊的架構等。
多模態機器翻譯
多模態機器翻譯則是對機器翻譯工作的擴展,其目標是給定描述圖片的源語言和圖片本身,根據文本內容和圖像提供的額外信息翻譯成目標語言,同時 Specia 定義了兩類任務,其一是單句源語言描述圖片,其二是多句源語言描述圖片,Elliott 等人進一步將任務二擴展到多種源語言(比如關于同一圖片英語、法語和德語描述),Wang Xin 等人則進一步把任務擴展到視頻層面。研究方向主要有:引入注意力機制,分解任務目標,充分發掘圖片的視覺特征,強化學習方法的使用,無監督學習模型的擴展等。
除了以上任務之外,還有定位視頻中文本位置的視頻文本定位任務,判斷文本描述和圖片內容是否匹配的視覺蘊涵任務,問題必須基于圖片內容進行推理才能回答的視覺推理任務等。包括上述問題在內的大部分早期研究往往是在視覺和語言的層次上不斷擴展,比如將圖片擴展到視頻,從句子擴展到段落等,或者在此基礎上加入邏輯層面的推理等。
但在一定意義上講,上述任務僅僅是計算機視覺和自然語言處理兩個任務的弱耦合,甚至部分任務可以把視覺部分和語言部分完全分離地進行訓練,將其中一部分的輸出作為另一部分的輸入就能實現任務的要求,因此沒有真正的發掘視覺與語言的內在聯系,并且其更多的側重于特定任務的完成,對于環境的感知是被動甚至缺失的。因此,為了真正發掘視覺與語言的內在聯系,在最新的視覺與語言的研究中,加入了行為規劃的部分,這使得智能體不但能夠綜合使用視覺與語言能力,還能夠不斷通過與環境主動地交互獲取所需要的信息,在交互中完成對環境的理解,進而完成指定的任務。下面介紹在這最新研究方向上的任務,主要包括視覺語言導航和具身問答任務。
視覺與語言導航
視覺導航和語言導航相關研究
基于視覺的導航往往需要環境的先驗信息,或者需要使用激光雷達、深度圖或從運動中獲取的數據以純幾何方法構建三維地圖,或者需要人類指導的地圖構造過程。并且在地圖構造的過程中,即使環境有明顯的模式或特征,但是在被完全建模之前也是不能被觀察到的。環境構建與路徑規劃之間的分離使得系統變得脆弱,因此越來越多的研究開始轉向端到端的學習方式——不需要顯式的模型或狀態估計便可實現從環境圖像到路徑行為的轉換。
同時學者很早就開始關注對于自然語言的理解,引入語言指引的導航策略也受到過許多關注,但是其往往對于語言或環境作出了一定程度的抽象,比如語言指令限制在特定范圍或假設語言命令有固定的結構以及將環境中的物體做特定標記,或者將智能體限制在只需要有限知覺的視覺受限環境中。近年來雖然有很多新的多模態非結構化的仿真平臺比如 House3D 、 AI2-THOR和HoME等,但是其基于人工合成而非真實圖像的模型一定程度上限制了環境建模的準確性和豐富性。
視覺語言導航任務內容
Qi Wu 等人在 2018 年 CVPR 會議上提出了視覺語言導航任務,要求智能體在給定語言指令的情況下,在作者提供的 Matterport3D simulator 仿真環境中,從隨機初始位置到達目標位置,并且其仿真環境構建于包含大量基于真實圖像生成的 RGB-D 全景圖的數據集 Matterport3D。但是其相對復雜和具體的語言描述與實際不太相符。因此在 2019 年,Qi Wu 等人進一步提出被稱為 RERERE(remote embodied referring expressions in real indoor environments) 的任務,精簡指令的同時引入了對于環境的理解。
視覺語言導航任務最新進展
Qi Wu 提出任務的同時,同時提出了將智能體建模為基于長短期記憶(long short term memory, LSTM) 序列到序列結構 (sequence-to-sequence architecture)注意力機制循環神經網絡的解決方案和隨機移動策略和最短路徑策略兩種基線算法以及人類在此任務中的表現(成功率 86.4%)。
視覺語言導航任務也可以視為在給定語言指導條件下尋找從起始點到目標點最佳路徑的軌跡搜索問題,基于此 Fried D 提出 speaker-follower 系統,系統中的 speaker 模型用于學習路徑描述,follower 模型用于預測和執行路徑,并使用全景行為空間代替視覺運動空間的方式使得智能體可以感知當前位置 360°全景視覺。
為解決視覺語言導航任務中的解決跨模態基標對準問題和增強泛化能力,Xin Wang 等人提出基于強化學習和模仿學習的策略,引入了強化跨模態匹配方法和自監督模仿學習方法。
在之前的研究中,視覺語言導航任務中主要評價指標是任務完成度即最終位置與目標位置之間的關系,因此語言指示在導航任務所發揮的作用難以量化。谷歌研究院的 Jain V 等人因此提出可刻畫預測路徑與語言指示之間契合度的評價標準 CLS(coverage weighted by length score),并根據此指標擴展了 R2R 數據集,提出包含更多節點和更多樣化路徑的 R4R(room-for-room)數據集。
在實際導航場景中,使用者更傾向于利用簡練的語言給定任務的內容而非具體詳盡地描述路徑的所有信息,因此 Qi Wu 等人進一步提出 remote embodied referring expressions in
real indoor environments(RERERE) 的任務,其中包含類似“去帶條紋墻紙的臥室”的導航部分和類似“把放在凳子旁邊的枕頭拿給我”的指稱表達部分,并提供了被稱為導航—指向模型的基線算法。
具身問答
具身認知概念
具身認知 (embodied cognition) 這一概念是隨著哲學、人工智能和相關領域的發展關于認知的本質被重新思考和定義的過程中誕生的,新的研究越來越傾向于認為大多數現實世界的思考常常發生在非常特殊通常也十分復雜的環境中,出于非常實際的目的,并且利用外部事物的可交互性和可操作性 ,即認知是一種非常具體化和情景化的活動。身體的解剖學結構、身體的活動方式、身體的感覺和運動體驗都決定了人類怎樣認識和看待世界。簡而言之,具身認知理論認為人的生理體驗與心理狀態之間是有著深刻的內在聯系。因此具身相關任務的內涵,就是將任務具體化到可交互的場景中,而非傳統的靜態圖片或無法互動的視頻。
具身問答任務內容
具身問答 (embodied question answering) 是 Das 等人在 2018 年 CVPR 會議上提出的任務,將智能體隨機安放在三維環境中的某個位置,并且以語言的形式提出類似“汽車的顏色是什么”或者“有多少個房間里有椅子”等類似需要環境信息的問題,為了得到問題的答案,智能體需要自主地對環境進行探索并且收集所需要的信息,最后對問題作出解答。智能體僅依靠單目全景 RGB 攝像頭與環境交互,而沒有類似環境地圖、自身定位的全局表示或類似物體信息、房間描述的結構表示,當然也沒有關于任務本身的額外信息,即先驗知識幾乎為零,需要智能體充分理解任務內容的情況下,通過與具體環境的不斷交互,實現對環境的理解,進而完成問題的回答。
具身問答任務最新進展
Das 等人提供的基線算法中智能體視覺、語言、導航和回答四個部分的實現,其中視覺部分基于通過 CNN 將 RGB 圖像生成固定大小的表示,語言部分使用 LSTM 編碼,導航部分引入包含選擇動作(前進,左轉,右轉)的規劃模塊和指定執行次數(1, 2…)的控制模塊的自適應倍率計算方法,問答部分計算智能體軌跡最后五幀的圖像-問題相似性的視覺編碼與問題的 LSTM 編碼進行比較并輸出結果。
在上述研究的基礎上,受人類將行為概念化為一系列更高層次語義目標(比如為了吃夜宵,人類會將其抽象為“離開臥室—走到廚房—打開冰箱—找到甜點”而不會詳盡地規劃路線)的啟發,Das 等人進一步提出了模塊化學習策略,將學習目標加以分解。
Yu L 等人則把 EQA 任務擴展為 MT-EQA(multi-target EQA) 即在問題形式中引入了多目標,比如類似“臥室里的梳妝臺比廚房里的烤箱更大么”這樣的問題。
Wijmans E 等人設計了基于三維點云格式的具身問答數據集 MP3D-EQA,設計并測試了多達 16 種不同的導航策略組合,提出損失加權方案 Inflection Weighting 以提高行為模仿的有效性。
相關數據集介紹
視覺語言導航任務主要包含 3 個數據集,其一是 Qi Wu等人在提出視覺語言導航任務時開源的 R2R(room-to-room) 數據集,其二是 Jain V 等人在改進任務評價方法時開源的R4R(room-for-room) 數據集,其三是 Qi Wu 等人提出RERERE 任務時建立的數據集(暫未開源)。表 1 是三個數據集的簡單對比,從對比中可以發現,因為 R4R 數據集更傾向于使得智能體運動軌跡更加符合導航指令而非最短距離,因此參考路徑的長度要大于最短路徑的長度;而 RERERE 任務則傾向于使用更加簡潔的指令,因此指令平均長度要小于R2R。
具身問答任務數據集主要包括 3 個數據集,其一是 Das等人開源的 EQA(embodied question answering) v1 數據集,其二是 Yu L 等人引入多目標任務時提出的 MT-EQA(multitarget EQA) 數據集,其三是 Wijmans E 等人將任務中的數據類型替換為點云時提出的數據集 MP3D-EQA 數據集,后兩個數據集暫時未開源。表 2 是三個數據集的內容對比。需要注意的是,數據集中包含被稱為 unique question 的問題,是指可能產生歧義的問題,比如房間中同時存在兩臺冰箱時,問題 ‘What room is the air conditioner located in?’ 就會產生歧義。
計算機視覺與自然語言處理融合未來方向展望
真實環境遷移與泛化能力
視覺與自然語言結合的任務取得了令人矚目的進展,從早期簡單將兩部分技術簡單串聯加和的形式擴展到需要智能體借助視覺和語言理解環境并且采取行動的深度融合,但是絕大部分任務都是基于現有的數據集在模擬的環境中進行。誠然,考慮到目前表現較好的算法均是基于需要大量試錯的深度強化學習方法,在真實環境中訓練的確會消耗大量的時間與精力,但是在模擬環境表現完美的模型遷移到真實環境中也可能會遇到很多意料之外的問題。
而現有的絕大部分研究只是在數據集上達到了較高的精度(比如視覺語言導航任務中 SOTA 算法在可見驗證集和不可見驗證集上分別達到了73.0%和 61.3%的成功率),僅有少數學者將算法在實際環境中加以驗證。因此未來研究重要方向之一是如何將模型遷移到真實環境中。在此過程中,泛化能力又是其中關鍵,即智能體若遇到訓練集中未出現的環境或者未遇到的物體,能否根據過往經驗作出較為合理的反應,可能的解決方案是借鑒已經在視覺對話、常識推理和事實預測等方向得到廣泛使用和驗證的外部知識庫方法,即利用事實性或常識性的先驗知識提高智能體對于環境的理解和認知能力。
與環境更強大的交互能力
目前已經開源的數據集中,智能體與環境之間的交互相對有限,僅涉及打開微波爐、移動物體或到達指定位置等基本操作,并且可采取的運動形式限制在特定范圍(比如前進、左轉和右轉),雖然在最新的研究中已經涉及類似“把放在凳子旁邊的枕頭拿給我”這類相對較為復雜的交互形式,但是顯然與真實環境的交互方式和運動形式有較大的差距,并且簡化了真實環境中的諸多物理性限制,比如“去廚房拿一個雞蛋”和“去廚房拿一把勺子”語言指示,在真實的環境中智能體需要考慮分別以何種的力度夾取雞蛋和勺子,而現有的數據集并不考慮此類區別。
另一個比較有前景的方向是與物聯網的深度結合,電視、空調和冰箱等對于人類而言需要后天習得交互方式的電器,卻因其規則明確和易于聯網的性質能夠與智能體直接交互。最后就是對環境中其他信息的利用,比如利用聲音信息對不可見物體的非視距重建、使用工具達成指定目標甚至與環境中其他智能體的對話交流等。這些與環境的相對復雜的交互是目前研究所欠缺的,但也是未來智能體在真實環境中運行所需要的。
推理能力的引入
目前無論是視覺語言導航還是具身問答,所給的任務都相對直接(比如根據語言提示到達某個房間或者回答環境中某物體是什么顏色等),但是現實生活中更多是是需要推理能力的問題,比如類似視覺推理任務中的比較、屬性識別和邏輯運算等初級推理能力,以及演繹、歸納和類比等高級推理能力。雖然在部分研究中已經涉及推理能力,但仍相對簡單,未來可能會引入類似“房間裝修是什么風格?”或者“到書房中取一本散文集。”
這種涉及相對高級推理能力的任務,前者需要智能體基于房間的整體特征比如吊燈的樣式、桌椅的擺放和墻紙的花飾等信息歸納推理得出裝修風格的答案,后者則需要智能體能夠區分散文、小說或詩歌等不同的文體。當然目前視覺和自然語言方面的進展距離解決此類問題仍有較大空間,但是推理能力尤其是高級推理能力的研究不失為一個值得關注的研究方向。
三維數據的使用
三維點云數據可以提供比圖像更豐富和準確的信息,Wijmans E 等人發現在具身問答任務中點云信息可以提升智能體避障能力的學習,Wang Y 等人甚至發現僅僅將二維的雙目視覺圖像轉換為三維點云數據就能大幅提高目標檢測的準確度,因此點云數據可能不單在信息內容方面甚至是在數據表示方面均提供了更多的信息。但是一方面受制于點云數據獲取的成本和難度,成本百元的相機模組在短短幾秒鐘內便可獲取千萬像素級別的高精度圖像,但是點云獲取設備往往動輒數十萬獲取時間也往往需要數分鐘甚至數小時。
另一方面基于點云的深度學習研究相對滯后于圖像,雖然得益于 Point Net++、ASCN、和 SplatNet等方法的提出,點云數據固有的無序性和旋轉性不再是應用深度學習技術的障礙,但是學術界對于點云數據的研究仍遠遠少于圖像數據。因此不論是點云數據集的構建還是基于點云數據的研究均不同程度的存在一些困難。后續的研究可能需要更多的引入點云格式的環境信息,為了彌補目前點云數據獲取困難的狀況,基于雙目視覺的三維重建可能是很有希望的輔助手段之一。
學習目標的優化
建構主義者認為,學習是學習者在與環境交互作用的過程中主動地建構內部心理表征的過程。而本文現在已經擁有了多個可交互的模擬環境,因此后續的研究可以在不斷地交互進行比如對自然語言的理解或者對環境中工具的使用等能力的學習和提升。此外從表 1 的分類中可以看出,視覺語言導航、具身問答以及交互式問答等在語言層面仍停留于“問答”階段,即針對單一問題給出正確的答案,未來的研究中很有可能將目標優化到“對話”層面,即針對多個有內在邏輯聯系的問題分別給出正確答案,同時問題之間的內在聯系也有助于智能體更好地理解環境。
注:本文旨在學習和分享,如內容上有不到之處,歡迎批評指正
參考文獻:
[1]李睿,鄭順義,王西旗.視覺—語言—行為:視覺語言融合研究綜述[J/OL].計算機應用研究:1-8[2020-09-06].https://doi.org/10.19734/j.issn.1001-3695.2019.09.0512.
責任編輯:xj
原文標題:一文了解計算機視覺與自然語言處理融合的研究進展
文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
-
計算機視覺
+關注
關注
8文章
1700瀏覽量
46127 -
自然語言
+關注
關注
1文章
291瀏覽量
13398
原文標題:一文了解計算機視覺與自然語言處理融合的研究進展
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論