吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種用于視頻識別的SlowFast網絡

電子工程師 ? 來源:lq ? 2018-12-25 10:29 ? 次閱讀

【導語】繼圖像領域之后,現在的 CV 領域,大家都在研究哪些內容?近日,Facebook AI 實驗室的 Christoph Feichtenhofer、何愷明等人發表一篇論文,在視頻識別領域提出了一種 SlowFast 網絡,并且在沒有預訓練模型情況下,此網絡在 Kinetics 數據集上取得79.0% 的準確率,是當前該數據集上的最佳表現。在 AVA 動作檢測數據集上,同樣實現了 28.3 mAP 的最佳水準。

到底 SlowFast 網絡是怎樣的設計、有什么特征、效果如何,下面就一起來看一下~

對于圖像識別任務,給定一張圖像 I(x, y),對稱地處理圖像的空間維度 x、y 是一種很常見的做法,而自然圖像的統計數據也證明了這種做法的合理性—自然圖像具有各向同性(即所有方向具有相同的可能性)和平移不變性。

然而,對于視頻信號 I(x, y, t)而言,我們不能這樣對稱地處理時空信號。因為動作是方向的時空產物,但并非所有的時空方向都擁有相同的可能性。如果這樣,那么我們就不能像基于時空卷積(spatiotemporal convolutions)的視頻識別方法那樣,對稱地處理空間和時間信息。相反,我們需要分解這種結構,并分開處理空間結構和時間事件。

受此啟發,本研究提出了一種用于視頻識別的 SlowFast 雙路徑模型,一條路徑 slow pathway更關注空間域的語義信息,以低幀率,緩慢的刷新速度運行,用于捕獲圖像或幾個稀疏幀提供的語義信息;而另一條路徑 fast pathway以高時間分辨率、快速刷新在所有中間層運行,捕獲快速變化的動作信息,輕量級,整體的計算開銷小。此外,這種快慢結合的雙路徑二者在結構上通過側向連接(lateral connection)進行融合,以不同的速率處理原始視頻。

圖1 SlowFast 網絡由低幀率、低時間分辨率的 Slow 路徑和高幀率、高時間分辨率 (是 Slow 路徑時間分辨率的 α 倍) 的 Fast 路徑構成。使用減少通道容量輕量化 Fast 路徑,并通過側向連接的方式連接 Slow 路徑和 Fast 路徑。圖中該樣本來自 AVA 數據集。

SlowFast 模型

如上圖所示,SlowFast 網絡的整體結構,包含 Slow pathway、Fast pathway 及其側向連接(lateral connection)部分。其中,Slow pathway 可以是任意的卷積模型,用于處理視頻的空間信息體量。為了與 Slow pathway 對應,Fast pathway 也是卷積結構的模型,但需要具有高幀率,高時間分辨率、低通道容量等特點。

為了將快慢兩條途徑的信息融合在一起,作者采用側向連接(lateral connection)的方式來實現。側向連接技術已被廣泛用于融合基于光流的雙流網絡,而在圖像目標檢測任務中,橫向連接作為一種流行的融合的技術,能夠將空間分辨率和語義水平特征融合在一起。在這里作者在快慢路徑之間引入一個橫向連接,即每個“階段”的兩條路徑(如上圖1所示)。具體而言,對于 ResNets 網絡,這些側向連接分別在 pool1,res2,res3 和 res4 層之后。而對于 slow-fast 網絡,由于兩條路徑存在差異,因此側向連接需要通過轉換過程以便匹配各自的路徑,即采用單向連接的方式來將 Fast 的特征融合到 Slow 路徑上。最后,在每條路徑的輸出后引入一個全局平均池化操作,并將兩個池化特征向量連接,作為全連接分類層的輸入。更多具體的信息可以查看論文中的詳細介紹。

值得一提的是,這種快慢結合方法是受到靈長類視覺系統中視網膜神經節細胞的生物學研究啟發的。生物學研究結果發現,在這些細胞中約 80% 是小細胞 P-cell,它能夠提供良好的空間細節和顏色,但時間分辨率較低;而另外有大約 15-20% 的細胞是大細胞 M-cell,它以較高的時間頻率工作,對時間變化更加敏感,但對空間細節和顏色不敏感。SlowFast 網絡的提出正是受此啟發,兩條路徑構成,分別以低時間分辨率和高時間分辨率工作,對應于 P-cell 和 M-cell 的作用。

SlowFast 是一種通用的網絡框架,可以進行實例化,適配各種的主干網絡。在這里,作者所采用的 SlowFast 網絡參數如下圖2所示:

圖2 SlowFast 網絡的實例化。核維度表示為 {T×S^2 , C},其中 T 表示時間分辨率,S 表示空間語義而 C 表示通道數。步長表示為 {temporal stride, spatial stride^2}。此外,速度比率是α = 8,通道比率是 β = 1/8。τ = 16。圖中綠色表示 Fast 路徑較高的時間分辨率,橙色表示 Fast 路徑較少的通道數,下劃線表示非退化時間濾波器(non-degenerate temporal filter)。方括號內表示的是殘差塊結構。骨干網絡采用的是 ResNet-50。

實驗

SlowFast 網絡在 Kinetics 和 AVA 數據集上具體表現如何?我們通過研究中的一些實驗數據對比看一下各數據結果。

▌Kinetics 數據集的動作分類

對于視頻動作分類,作者采用 Kinetics-400 數據集,其中包含約 240k 個訓練視頻數據和20k個驗證數據,共涵蓋400種動作類別。實驗結果得到 Top1 和 Top5 的分類準確性,單條 Slow 網絡與 SlowFast 網絡的性能對比,以及 SlowFast 網絡與 Kibetics-400 數據集上當前最佳模型之間的性能對比,詳細結果如下圖3,圖4,圖5所示。

圖3 Kinetics-400 數據集動作分類結果,包括 top-1 和 top-5 分類準確度,以及計算復雜度 GFLOPs。

圖4 Kinetics-400 數據集上 Slow-only 網絡與 SlowFast 網絡的性能對比;top-1 訓練誤差 (虛線表示) 和驗證誤差 (實線表示)。

圖5 Kinetics-400 數據集上當前最佳模型與 SlowFast 網絡的性能對比。

▌AVA 數據集的動作檢測

對于視頻動作檢測,作者采用 AVA 數據集,其中包含有 211k 個訓練數據和 57k 個驗證數據,共涵蓋 60 種動作類別。實驗結果得到 60 個類別的平均精度 mAP 值,SlowFast 網絡與 AVA 數據集上當前最佳模型之間的性能對比,以及 AVA 數據集動作檢測結果的可視化過程,詳細結果如下圖 6,圖 7,圖 8 所示。

圖6 AVA 數據集上每個類別的 AP:Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中,黑色突出顯示的是絕對增長最高的5個類別,而這里實例化的 SlowFast 網絡并不是最佳的模型。

圖7 AVA 數據集上最佳模型與 SlowFast 網絡的性能對比。其中,++ 表示在測試過程引入了諸如水平翻轉的圖像增強操作。

圖8 可視化 AVA 數據集的動作檢測結果。其中真實的標簽用紅色表示,而 SlowFast 模型在驗證集上的預測結果用綠色表示。

總結

本文提出了一種用于視頻識別的 SlowFast 網絡。該模型由兩部分組成:以低幀率運行以捕捉空間語義信息的 Slow pathway;以高幀率運行捕捉較好時序分辨率的運動信息的 Fast pathway。通過減少通道容量,所設計的 Fast pathway 是個非常輕量級的、同時又能夠將學習到有用的時間信息用于視頻識別的網絡。

SlowFast 網絡在視頻動作分類及檢測任務上展現了強大的性能,同時這種快慢結合思想的提出也為視頻目標識別和檢測領域做出了重要貢獻。實驗結果表明,在沒有使用任何預訓練模型的情況下,SlowFast 網絡在 Kinetics 數據集上取得了 79.0% 的準確率,大大超過了以前同類方法的最佳結果。而在 AVA 動作檢測數據集上,該網絡同樣實現了 28.3 mAP 的當前最佳水準。

總的來說,時間維度是視頻任務中一個特殊的因素,本文的 SlowFast 網絡框架考慮時間維度上不同的速度對時空信息捕捉的影響,實例化的 SlowFast 模型在 Kinetics 和 AVA 數據集上實現當前最佳的視頻動作分類和檢測結果,希望這種快慢結合的設計理念能夠促進視頻識別領域未來的研究。有關的項目代碼將會在近期開源。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 濾波器
    +關注

    關注

    161

    文章

    7860

    瀏覽量

    178931
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24833
  • 視頻識別
    +關注

    關注

    2

    文章

    10

    瀏覽量

    10961

原文標題:何愷明等最新突破:視頻識別快慢結合,取得人體動作AVA數據集最佳水平

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    介紹一種基于Winpcap的網絡視頻識別算法

    本文設計了一種基于Winpcap的網絡視頻識別算法,實現了對網絡流媒體的發現。
    發表于 06-03 06:34

    一種用于槍聲的多級檢測識別技術

    一種用于槍聲的多級檢測識別技術,感興趣的可以看看。
    發表于 01-04 15:23 ?0次下載

    人臉識別技術是生物識別技術的一種 主要通過信息的相似度識別身份

    人臉識別技術是生物識別技術的一種,它是依據獨無二的人臉生理特征,自動進行身份鑒別的一種生物特征
    發表于 10-31 16:03 ?4077次閱讀

    我國人臉識別的市場還有多大的發展空間

    人臉識別,又稱人像識別、面部識別,是基于人類的臉部特征信息進行身份識別的一種生物識別技術,主要用
    發表于 10-24 10:12 ?1617次閱讀

    人臉識別的般流程看了就知道

    人臉識別一種依據人的面部特征,自動進行身份識別的一種生物識別技術,通常我們所說的人臉識別是基于
    的頭像 發表于 11-15 11:39 ?2.8w次閱讀

    人臉識別是基于臉部信息進行身份識別的一種技術

    人臉識別,是基于人的臉部信息進行身份識別的一種生物識別技術。用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對
    發表于 03-06 10:53 ?5371次閱讀

    一種用于釋義識別的句子相似度算法

    針對現有句子相似度算法無法處理同義詞、準確率低和復雜度高等不足,結合詞向量技術改進 Levenshtein相似度算法和 Jaccard系數,提出一種新的句子相似度算法用于釋義識別,并對多種句子相似度
    發表于 03-23 14:32 ?8次下載
    <b class='flag-5'>一種</b><b class='flag-5'>用于</b>釋義<b class='flag-5'>識別的</b>句子相似度算法

    一種用于模式識別的新型神經網絡

    提出了一種用于模式識別的新型神經網絡模型——局部有監督特征映射網絡,描述了該網絡的拓撲結構和學
    發表于 05-31 16:29 ?5次下載

    一種用于網絡視頻記錄/數碼錄影機系統的備電方案

    一種用于網絡視頻記錄/數碼錄影機系統的備電方案
    發表于 10-31 08:23 ?0次下載
    <b class='flag-5'>一種</b>應<b class='flag-5'>用于</b><b class='flag-5'>網絡</b><b class='flag-5'>視頻</b>記錄/數碼錄影機系統的備電方案

    基于一種新型的用于無聲語音識別的貼片式智能傳感器

    摘要:電子科技大學和格拉斯哥大學的研究人員合作開發了一種用于無聲語音識別的貼片式智能傳感器件,可以檢測到說話時細微的喉嚨振動,借助深度學習將其轉化為可讀的單詞,這為語音控制和人機界面智能感知開辟了
    的頭像 發表于 06-17 10:27 ?1251次閱讀

    人臉識別和指紋識別哪個安全?人臉識別和指紋識別的利弊及風險

      人臉識別是基于人的臉部特征信息進行身份識別的一種生物識別技術。用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,
    發表于 08-03 16:55 ?4690次閱讀

    生物識別和人臉識別的區別

    對人臉圖片或視頻進行分析和識別,以確定個體身份的一種方法。本文將探討生物識別和人臉識別的概念、應用領域和區別。
    發表于 08-28 17:29 ?1682次閱讀

    一種基于圖像識別的第五版人民幣成色檢測方法

    電子發燒友網站提供《一種基于圖像識別的第五版人民幣成色檢測方法.pdf》資料免費下載
    發表于 10-13 11:19 ?0次下載
    <b class='flag-5'>一種</b>基于圖像<b class='flag-5'>識別的</b>第五版人民幣成色檢測方法

    一種用于化學和生物材料識別的便攜式拉曼光譜解決方案

    基于掃頻光源的緊湊型拉曼光譜系統:美國麻省理工學院(MIT)和韓國科學技術院(KAIST)的研究人員開發了一種用于化學和生物材料識別的便攜式拉曼光譜解決方案,克服了光譜儀笨重的局限性。
    的頭像 發表于 04-16 10:35 ?587次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>用于</b>化學和生物材料<b class='flag-5'>識別的</b>便攜式拉曼光譜解決方案

    如何設計人臉識別的神經網絡

    人臉識別技術是一種基于人臉特征信息進行身份識別的技術,廣泛應用于安全監控、身份認證、智能門禁等領域。神經網絡是實現人臉
    的頭像 發表于 07-04 09:20 ?743次閱讀
    财富百家乐的玩法技巧和规则| 3U百家乐的玩法技巧和规则 | 香港六合彩彩图| 百家乐官网娱乐城返水| 百家乐官网羸钱法| 百家乐精神| 大发888在线体育官网| 卡迪拉娱乐| 百家乐官网中P代表| 菲律宾百家乐官网娱乐| 网上百家乐做假| 将军百家乐的玩法技巧和规则| 星期八娱乐城官网| 金彩百家乐官网的玩法技巧和规则 | 百家乐官网双面数字筹码| 风水做生意房漏水| 大发888注册送58网站| 百家乐官网网投注| 澳门百家乐庄闲的玩法| 网上赌球| 网上百家乐官网的玩法技巧和规则 | 博彩百家乐在线| 百家乐官网斗地主在哪玩| 赌博百家乐官网作弊法| 百家乐官网现金网平台排行榜| 易赢百家乐官网软件| 百家乐官网赔率技巧| 百家乐官网什么牌最大| 百家乐官网平六亿财富| 百家乐视频表演| 澳门百家乐哪家信誉最好| 免费百家乐倍投软件| 网络博彩公司| 明水县| 狮威百家乐官网娱乐场| 百家乐3带厂家地址| 星期八百家乐的玩法技巧和规则 | 新沂市| 网上百家乐官网是假| 澳门百家乐海星王| 优博娱乐在线|