本文介紹的論文提出了一種新的實時通用語義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。
作者: Tom Hardy
首發(fā):3D視覺工坊微信公眾號
論文:RGPNet: A Real-Time General Purpose Semantic Segmentation (文末可下載)
論文鏈接:https://arxiv.org/abs/1912.01394
一、主要思想
本文提出了一種新的實時通用語義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。RGPNet由一個輕量級的非對稱編碼器-解碼器和一個適配器組成。適配器有助于從編碼器和解碼器之間的多層分布式表示中保留和細化抽象概念。它也有助于從較深層到較淺層的梯度流動。大量實驗表明,與目前最先進的語義分割網(wǎng)絡(luò)相比,RGPNet具有更好的性能。
此外還證明了在保持性能的同時,使用改進的標簽松弛技術(shù)和逐步調(diào)整大小可以減少60%的訓(xùn)練時間。論文還對應(yīng)用在資源受限的嵌入式設(shè)備上的RGPNet進行了優(yōu)化,使推理速度提高了400%,性能損失可以忽略不計。RGPNet在多個數(shù)據(jù)集之間獲得了更好的速度和精度權(quán)衡。
二、創(chuàng)新點
1、提出的RGPNet作為一種通用的實時語義分割體系結(jié)構(gòu),它可以在單分支網(wǎng)絡(luò)中獲得高分辨率的深層特征,從而提高準確性和降低延遲,在復(fù)雜的環(huán)境中具有競爭力。
2、引入一個適配器模塊來捕獲多個抽象級別,以幫助細分的邊界細化,適配器還通過添加較短的路徑來輔助漸變梯度流。
3、對于green AI,在訓(xùn)練期間采用漸進式調(diào)整大小技術(shù),從而使訓(xùn)練時間和環(huán)境影響減少60%,并且采用一種改進的標簽松弛來消除低分辨率標簽映射中的混疊效應(yīng)。
4、使用TensorRT(一個高性能深度學(xué)習(xí)推理平臺)優(yōu)化RGPNet,以便部署在邊緣計算設(shè)備上,從而使推理速度提高400%。
5、RGPNet在Cityscpes、CamVid和Mapillary數(shù)據(jù)集上分別實現(xiàn)了Resnet-101作為backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作為backbone下74.1%、66.9%和41.7% mIoU。對于1024×2048分辨率的圖像,RGPNet在CityScapes數(shù)據(jù)集上單NVIDIA GTX2080Ti GPU下達到37.4 FPS。
三、網(wǎng)絡(luò)結(jié)構(gòu)
RGPNet的整體結(jié)構(gòu)如下所示,每個箭頭都有對應(yīng)的操作模式:
- 中間一列操作為編碼器
- 最右邊操作為解碼器
- “+”操作為適配器(Adaptor)
其中“+”詳細操作如下所示:
1、T(:)是一個轉(zhuǎn)換函數(shù),它用來減少編碼器模塊輸出通道數(shù)量并將其傳輸?shù)絘daptor。
2、D(:)和U(:)是下采樣和上采樣功能。
Adaptor有許多優(yōu)點:
1、Adaptor聚合來自不同上下文和空間級別的特征。
2、通過引入較短的路徑,有助于梯度從較深的層流向較淺的層。
3、Adaptor允許使用輕量解碼器的不對稱設(shè)計,這將減少卷積層,進一步增強梯度流。因此,Adaptor使網(wǎng)絡(luò)適合于實時應(yīng)用,因為它在保留空間信息的同時提供了豐富的語義信息。
針對帶標簽松弛的漸進式調(diào)整:
論文采取了最大化像素周圍區(qū)域相似度分布,而不是單個像素級別的標簽最大可能化,針對邊界類別,提出了邊界損失函數(shù)。
四、實驗結(jié)果
多種網(wǎng)絡(luò)在Mapillary Vistas數(shù)據(jù)集上的測試結(jié)果:
幾種網(wǎng)絡(luò)在Mapillary Vistas數(shù)據(jù)集上的性能對比:
在CamVid數(shù)據(jù)集上的性能對比:
RGPNet使用TensorRT在GTX2080Ti和Xavier上速度對比:
綜合速度和準確率以及實際部署下的性能,RGPNet都非常具有競爭力~!
推薦閱讀
重點介紹:1、3D視覺算法;2、vslam算法;3、圖像處理;4、深度學(xué)習(xí);5、自動駕駛;6、技術(shù)干貨。博主及合伙人分別來國內(nèi)自知名大廠、海康研究院,深研3D視覺、深度學(xué)習(xí)、圖像處理、自動駕駛、目標檢測、VSLAM算法等領(lǐng)域。
歡迎關(guān)注微信公眾號
審核編輯:符乾江
-
人工智能
+關(guān)注
關(guān)注
1796文章
47666瀏覽量
240270 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1700瀏覽量
46125
發(fā)布評論請先 登錄
相關(guān)推薦
SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer
![SparseViT:以非<b class='flag-5'>語義</b>為中心、參數(shù)高效的稀疏化視覺Transformer](https://file1.elecfans.com/web3/M00/05/FE/wKgZPGeHELaAfHFDAAAflxc4NKI191.png)
利用VLM和MLLMs實現(xiàn)SLAM語義增強
![利用VLM和MLLMs實現(xiàn)SLAM<b class='flag-5'>語義</b>增強](https://file1.elecfans.com/web3/M00/01/22/wKgZO2dRCfmAHbalAABiuBpWqvw265.png)
復(fù)雜環(huán)境下多無人智能車輛協(xié)同調(diào)控
![<b class='flag-5'>復(fù)雜</b><b class='flag-5'>環(huán)境</b><b class='flag-5'>下</b>多無人智能車輛協(xié)同調(diào)控](https://file1.elecfans.com/web1/M00/F5/38/wKgaoWc4AAeABr3uAAAqbVpe2N8023.png)
使用語義線索增強局部特征匹配
![使<b class='flag-5'>用語義</b>線索增強局部特征匹配](https://file1.elecfans.com/web2/M00/0B/40/wKgaomce8GeAE5FvAABe4eG5xoE605.png)
語義分割25種損失函數(shù)綜述和展望
![<b class='flag-5'>語義</b><b class='flag-5'>分割</b>25種損失函數(shù)綜述和展望](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
手冊上新 |迅為RK3568開發(fā)板NPU例程測試
復(fù)雜電磁環(huán)境模擬系統(tǒng)設(shè)計方案
圖像語義分割的實用性是什么
圖像分割和語義分割的區(qū)別與聯(lián)系
圖像分割與語義分割中的CNN模型綜述
工業(yè)級路由器:讓你輕松應(yīng)對復(fù)雜網(wǎng)絡(luò)環(huán)境!
STM32F107VCT6+DP83848在復(fù)雜網(wǎng)絡(luò)環(huán)境中網(wǎng)絡(luò)部分掛掉的原因?怎么解決?
fpga通用語言是什么
復(fù)雜環(huán)境下,車載中控系統(tǒng)如何助力指揮車高效運作
助力移動機器人下游任務(wù)!Mobile-Seed用于聯(lián)合語義分割和邊界檢測
![助力移動機器人下游任務(wù)!Mobile-Seed用于聯(lián)合<b class='flag-5'>語義</b><b class='flag-5'>分割</b>和邊界檢測](https://file1.elecfans.com/web2/M00/C1/2D/wKgaomXUD3eAb8gYAAAimZVB76g165.png)
評論