吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于人類視覺理解機理

智能感知與物聯網技術研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2020-07-04 09:32 ? 次閱讀

近期,上海交通大學盧策吾團隊在《自然 - 機器智能》子刊上發表了關于高維度視覺序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。

與此同時,該團隊將論文代碼與近兩年在視頻理解領域的先進成果開源為視頻理解工具箱 AlphaVideo。

AlphaVideo 在物體跟蹤任務(MOT)和行為理解(AVA 單模型)上都達到最高準確率,相比 SlowFast (AVA 單模型)有 12.6% 的性能提升。

動作理解任務的時空信息特征圖。左:輸入序列;右:空間特征更關注物體形狀,時間特征更關注物體運動趨勢。

AlphaVideo 中的行為理解(Alphaction)

時空概念提取展示

人類視覺理解機理

在人類的視覺認知過程中,時間和空間概念是解耦的。神經科學領域的研究發現在人類的記憶形成過程中,時間信息與空間上下文信息通過兩個相對獨立的信息通路到達海馬體,進而形成完整的記憶。

新技能:自主學習時空概念

通過模仿人類的認知機制,盧策吾團隊提出了應用于高維度信息的半耦合結構模型(SCS)。

SCS 自主發掘(awareness)時間 - 空間概念,并讓他們耦合協作以理解序列信息。這種能力代表著機器學習模型自主掌握了時空的概念,這是一種更高層的智能。更進一步,時空信息概念的分離也讓「概念編輯」成為可能。

半耦合結構模型(SCS)

半耦合結構首先解耦時空信息(模仿人腦中的兩條信息通路),并在分別處理時間和空間信息之后將二者耦合(模仿海馬體):

該研究通過堆疊這種半耦合的元結構來構建深度模型,其中時空信息始終以先解耦再融合的模式向后流動。

為了讓 h_s 和 h_t 各司其職,研究者將 h_s 和 h_t 設計為不對稱的結構,同時,使用兩個特殊的監督目標 r_s、r_t 來進一步約束二者關注各自的工作。

該研究進一步提出了一種訓練注意力機制。這種注意力機制控制模型在優化過程中學習哪種信息。例如在視頻信息中,模型可以優先將注意力集中在空間信息上,待空間信息有效且穩定時,再逐步將模型訓練的注意力轉換到時間信息上。

SCS 的表現如何?

該研究展示了 SCS 在多項任務中與傳統 LSTM 的性能對比結果:

SCS 在視頻動作分類、自動駕駛、天氣預報等 4 個任務上的性能均超越傳統的序列模型。

概念編輯

有了時空分離的能力,SCS 就可以初步做到「概念編輯」。比如,通過編輯空間概念且保留時間概念,我們可以讓一個原本用于預測狗運動軌跡的模型來預測貓的軌跡。這樣就能以較小的代價實現模型的泛化,同時也拓寬了模型的使用場景,降低了部署難度。

概念編輯 demo

研究者讓計算機看 Flappy Bird 的視頻,然后看一張靜態的 Mario 圖片(外觀形象)。在這個過程中,模型并沒有接觸到任何 Mario 在管道中穿梭的運動信息。但通過「概念編輯」,在測試時 SCS 可以準確地預測 Mario 的運動軌跡。

視頻理解工具箱 AlphaVideo

在視頻理解工具箱 AlphaVideo 中,除了上述 SCS 時空概念分解,研究者還提供了單階段端對端訓練的多目標跟蹤模型 TubeTK 和視頻動作檢測模型 AlphAction。使用一行代碼,即可調用預訓好的各類模型。

AlphAction

AlphAction 是面向行為理解的開源系統,基于 MVIG 提出的交互理解與異步訓練策略 在 AVA 數據集上達到最優準確率,速度達到 10 幀每秒。其中包含的 15 個開源常見行為基本模型的 mAP 達到約 70%,接近可以商用的水平。

TubeTK

TubeTK 是上海交大 MVIG 組提出的基于 Bounding-Tube 的單階段訓練模型(CVPR2020-oral),是首個單階段端對端訓練的多目標跟蹤模型。它在 MOT-16 數據集上達到了 66.9 MOTA 的精度,是目前 online 模型僅在 MOT 訓練數據下達到的最高精度

TubeTK 可視化結果

Bounding-Tube 示意圖。使用 bounding-tube 可以輕松跟蹤到 bounding-box 無法檢測到的被遮擋目標(圖中黃色框)。
責任編輯:pj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解耦
    +關注

    關注

    0

    文章

    40

    瀏覽量

    11942
  • 自動駕駛
    +關注

    關注

    785

    文章

    13932

    瀏覽量

    167016
  • 機器智能
    +關注

    關注

    0

    文章

    55

    瀏覽量

    8627
收藏 人收藏

    評論

    相關推薦

    如何理解LC表和選擇關于TPS563202的LC

    電子發燒友網站提供《如何理解LC表和選擇關于TPS563202的LC.pdf》資料免費下載
    發表于 08-26 10:02 ?0次下載
    如何<b class='flag-5'>理解</b>LC表和選擇<b class='flag-5'>關于</b>TPS563202的LC

    計算機視覺有哪些優缺點

    計算機視覺作為人工智能領域的一個重要分支,旨在使計算機能夠像人類一樣理解和解釋圖像和視頻中的信息。這一技術的發展不僅推動了多個行業的變革,也帶來了諸多優勢,但同時也伴隨著一些挑戰和局限性。以下是對計算機
    的頭像 發表于 08-14 09:49 ?1151次閱讀

    什么是機器視覺opencv?它有哪些優勢?

    機器視覺(Machine Vision)是一種利用計算機和圖像處理技術來模擬人類視覺系統的功能,實現對圖像的識別、分析和理解的技術。OpenCV(Open Source Compute
    的頭像 發表于 07-16 10:33 ?902次閱讀

    機器視覺和計算機視覺有什么區別

    機器視覺和計算機視覺是兩個密切相關但又有所區別的概念。 一、定義 機器視覺 機器視覺,又稱為計算機視覺,是指利用計算機、圖像處理技術和人工智
    的頭像 發表于 07-16 10:23 ?630次閱讀

    機器視覺的應用實例解析

    機器視覺是一種利用計算機視覺技術對圖像進行處理、分析和理解的技術。它在許多領域都有廣泛的應用,包括工業自動化、醫療診斷、交通監控、安全監控等。 一、引言 機器視覺技術的發展可以追溯到2
    的頭像 發表于 07-16 10:19 ?557次閱讀

    機器視覺的四大類應用是什么?

    機器視覺是一種利用計算機和圖像處理技術,模擬人類視覺系統,實現對圖像的獲取、處理、分析和理解的技術。它在工業、醫療、農業、交通等領域有著廣泛的應用。以下是機器
    的頭像 發表于 07-16 10:17 ?1448次閱讀

    計算機視覺的工作原理和應用

    計算機視覺(Computer Vision,簡稱CV)是一門跨學科的研究領域,它利用計算機和數學算法來模擬人類視覺系統對圖像和視頻進行識別、理解、分析和處理。其核心目標在于使計算機能夠
    的頭像 發表于 07-10 18:24 ?2296次閱讀

    計算機視覺和機器視覺區別在哪

    計算機視覺和機器視覺是兩個密切相關但又有明顯區別的領域。 一、定義 計算機視覺 計算機視覺是一門研究如何使計算機能夠像人類一樣
    的頭像 發表于 07-09 09:22 ?529次閱讀

    計算機視覺和圖像處理的區別和聯系

    數據的過程。計算機視覺的目標是使計算機能夠像人類一樣“看到”和理解圖像或視頻內容。 1.2 圖像處理 圖像處理,也稱為數字圖像處理,是應用數學和計算機算法對圖像進行分析、修改和合成的過程。圖像處理的目的是改善圖像質量、增強圖像
    的頭像 發表于 07-09 09:16 ?1463次閱讀

    計算機視覺屬于人工智能嗎

    屬于,計算機視覺是人工智能領域的一個重要分支。 引言 計算機視覺是一門研究如何使計算機具有視覺能力的學科,它涉及到圖像處理、模式識別、機器學習等多個領域。計算機視覺的目標是讓計算機能夠
    的頭像 發表于 07-09 09:11 ?1420次閱讀

    機器人視覺的應用范圍

    機器人視覺是一種將計算機視覺技術應用于機器人領域的技術,它使得機器人能夠感知和理解周圍環境,實現自主決策和執行任務。隨著人工智能、機器學習、大數據等技術的快速發展,機器人視覺在各個領域
    的頭像 發表于 07-04 11:33 ?729次閱讀

    機器視覺的硬件組成有哪些

    機器視覺是一種利用計算機和圖像處理技術來模擬人類視覺系統的技術。它涉及到圖像的獲取、處理、分析和理解,廣泛應用于工業自動化、醫療診斷、智能交通、安防監控等領域。本文將詳細介紹機器
    的頭像 發表于 07-04 10:51 ?1905次閱讀

    機器視覺的應用流程是如何實現的

    機器視覺是一種利用計算機和圖像處理技術,模擬人類視覺系統對圖像進行處理、分析和理解的技術。它在工業自動化、智能交通、醫療診斷、安防監控等領域有著廣泛的應用。 在機器
    的頭像 發表于 07-04 10:47 ?500次閱讀

    機器視覺的關鍵技術有哪些

    機器視覺作為人工智能領域的一個重要分支,通過模擬和模仿人類視覺系統,使計算機能夠感知、理解和解釋圖像和視頻數據。隨著計算能力的提升和算法的進步,機器
    的頭像 發表于 06-06 15:57 ?875次閱讀

    晶閘管的失效模式與機理

    電路性能下降甚至系統癱瘓。因此,深入了解晶閘管的失效模式與機理,對于提高電路設計的可靠性具有重要意義。本文將從晶閘管的基本原理出發,詳細探討其失效模式與機理,并結合相關數字和信息進行說明。
    的頭像 發表于 05-27 15:00 ?1406次閱讀
    南宁百家乐官网赌机| 百家乐玩法教程| 博狗备用网站| 闲和庄百家乐官网娱乐城| 大发888ber| 澳门赌百家乐官网的玩法技巧和规则 | 博彩选名门国际| 微信百家乐官网群规则大全| 博彩生物| 24山之巽山乾向水法及兼家分针| 百家乐操作技巧| 极速百家乐官网真人视讯| 三公百家乐在哪里可以玩| 百家乐官网投注庄闲法| 百家乐发牌| 百家乐官网棋牌游| 大发888游戏是真的么| 百家乐官网网站那个诚信好| 德州扑克吧| 百家乐官网技巧技巧| 金贊娱乐城| 百家乐算牌方| 百家乐官网桌游| 大发888亚洲城娱乐城| 爱赢百家乐官网的玩法技巧和规则| 博彩网皇冠| 百家乐和局投注法| 大亨百家乐官网娱乐城| 威尼斯人娱乐场积分| 新梦想百家乐官网的玩法技巧和规则 | 云博| 百家乐官网第三张规则| 班玛县| 全景网百家乐的玩法技巧和规则 | 百家乐官网在线投注顺势法 | 英吉沙县| 百家乐牌壳| 美女百家乐官网的玩法技巧和规则| 千亿娱乐网站| 网上赌百家乐的玩法技巧和规则| 百家乐官网必赢法冯耘 |