吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

視覺新范式Transformer之ViT的成功

深度學習實戰 ? 來源:深度學習實戰 ? 作者:深度學習實戰 ? 2021-02-24 09:31 ? 次閱讀

這是一篇來自谷歌大腦的paper。這篇paper的主要成果是用Transformer[1]取代CNN,并證明了CNN不是必需的,甚至在大規模數據集預訓練的基礎上在一些benchmarks做到了SOTA,并且訓練時使用的資源更少。

圖像分塊

要將圖片分塊是因為Transformer是用于NLP領域的,在NLP里面,Transformer的輸入是一個序列,每個元素是一個word embedding。因此將Transformer用于圖像時也要找出word的概念,于是就有了這篇paper的title:AN IMAGE IS WORTH 16X16 WORDS,將一張圖片看成是16*16個“單詞”。

inductive biases

機器學習中,人們對算法做了各種的假設,這些假設就是inductive biases(歸納偏置),例如卷積神經網絡就有很強的inductive biases。文中做了一個實驗,在中等大小數據集訓練時,精度會略遜色于ResNets。但是這個結果也是應該預料到的,因為Transformer缺少了CNN固有的一些inductive biases,比如平移不變性和局部性。所以當沒有足夠的數據用于訓練時,你懂的。但是恰恰Transformer就強在這一點,由于Transformer運算效率更高,而且模型性能并沒有因為數據量的增大而飽和,至少目前是這樣的,就是說模型性能的上限很高,所以Transformer很適合訓練大型的數據集。

ViT

20d8869e-74f8-11eb-8b86-12bb97331649.png

在ViT中,模型只有Encoder的,沒有Decoder,因為只是用于識別任務,不需要Decoder。

首先按照慣例,先把圖像的patch映射成一個embedding,即圖中的linear projection層。然后加上position embedding,這里的position是1D的,因為按照作者的說法是在2D上并沒有性能上的提升。最后還要加上一個learnable classification token放在序列的前面,classification由MLP完成。

Hybrid Architecture。模型也可以是CNN和Transformer的混合,即Transformer的輸入不是原圖像的patch,而是經過CNN得到的feature map的patch。

實驗結果

211198d0-74f8-11eb-8b86-12bb97331649.png

不同大小的ViT的參數量。

2159b7b4-74f8-11eb-8b86-12bb97331649.png

可以看到在預訓練數據集很小的情況下ViT的效果并不好,但是好在隨著預訓練數據集越大時ViT的效果越好,最終超過ResNet。

21979b1a-74f8-11eb-8b86-12bb97331649.png

BiT[2]是谷歌用JFT-300M(谷歌內部非公開數據集)訓練的ResNet模型。Noisy Student[3]是谷歌提出借助半監督大大提升了imagenet性能的算法。可以看到,在JFT-300M預訓練的情況下,ViT比ResNet好上不少,并且開銷更小。

總結

ViT的成功我認為是以下幾點:

1、self-attention比CNN更容易捕捉long-range的信息

2、大量的數據,在視覺中CNN是人類實踐中很成功的inductive biases,顯然大量的數據是能戰勝inductive biases的;

3、計算效率高,因為self-attention可以看作是矩陣運算,所以效率很高,容易訓練大型的模型。

原文標題:視覺新范式Transformer之ViT

文章出處:【微信公眾號:深度學習實戰】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器視覺
    +關注

    關注

    162

    文章

    4406

    瀏覽量

    120739
  • 機器學習
    +關注

    關注

    66

    文章

    8441

    瀏覽量

    133091
  • Transforme
    +關注

    關注

    0

    文章

    12

    瀏覽量

    8797

原文標題:視覺新范式Transformer之ViT

文章出處:【微信號:gh_a204797f977b,微信公眾號:深度學習實戰】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何使用MATLAB構建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發表于 02-06 10:21 ?266次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b>模型

    地平線ViG基于視覺Mamba的通用視覺主干網絡

    Vision Mamba的成功預示著將視覺表征學習轉換為線性復雜度視覺序列表征學習具有巨大的潛力。盡管以Vision Mamba為代表的線性視覺序列表征學習結構在高清圖像上展示了顯著的
    的頭像 發表于 01-08 09:33 ?129次閱讀
    地平線ViG基于<b class='flag-5'>視覺</b>Mamba的通用<b class='flag-5'>視覺</b>主干網絡

    transformer專用ASIC芯片Sohu說明

    2022年,我們打賭說transformer會統治世界。 我們花了兩年時間打造Sohu,這是世界上第一個用于transformer(ChatGPT中的“T”)的專用芯片。 將transformer
    的頭像 發表于 01-06 09:13 ?313次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    知行科技大模型研發體系初見效果

    11月,知行科技作為共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD),以預訓練ViT(視覺
    的頭像 發表于 12-27 09:38 ?190次閱讀
    知行科技大模型研發體系初見效果

    Transformer模型的具體應用

    如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer
    的頭像 發表于 11-20 09:28 ?654次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發表于 11-20 09:27 ?455次閱讀
    <b class='flag-5'>Transformer</b>模型能夠做什么

    使用ReMEmbR實現機器人推理與行動能力

    視覺語言模型(VLM)通過將文本和圖像投射到同一個嵌入空間,將基礎大語言模型(LLM)強大的語言理解能力與視覺 transformerViT)的
    的頭像 發表于 11-19 15:37 ?352次閱讀
    使用ReMEmbR實現機器人推理與行動能力

    Prophesee:基于EVS打造機器視覺范式

    電子發燒友網報道(文/吳子鵬)機器視覺起源于20世紀50年代。近幾年,隨著邊緣智能需求爆發,機器視覺發展換擋提速。根據前瞻產業研究院的統計數據,2023年全球機器視覺市場規模約為130億美元,預計
    的頭像 發表于 07-24 00:53 ?3067次閱讀
    Prophesee:基于EVS打造機器<b class='flag-5'>視覺</b>新<b class='flag-5'>范式</b>

    Transformer語言模型簡介與實現過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型由谷歌在2017年提出,并首次應用于神經機器翻譯
    的頭像 發表于 07-10 11:48 ?2079次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結構、訓
    的頭像 發表于 07-02 11:41 ?1849次閱讀

    jlink為什么識別不了STM32H743VIT6?

    最近調ST的STM32H743VIT6這個型號的芯片,碰到一個麻煩的問題,jlink識別不了芯片,導致一直無法下載程序,換了幾個JLINK也是不行。請問一下STM32H7系列燒寫與調試對JLINK有
    發表于 04-15 07:20

    視覺Transformer基本原理及目標檢測應用

    視覺Transformer的一般結構如圖2所示,包括編碼器和解碼器兩部分,其中編碼器每一層包括一個多頭自注意力模塊(self-attention)和一個位置前饋神經網絡(FFN)。
    發表于 04-03 10:32 ?3854次閱讀
    <b class='flag-5'>視覺</b><b class='flag-5'>Transformer</b>基本原理及目標檢測應用

    STM32F427VIT6支持HyperBus或者Octal xSPI接口的PSRAM嗎?

    STM32F427VIT6支持HyperBus或者Octal xSPI接口的PSRAM嗎
    發表于 03-20 07:32

    復盤與分析:Sora是如何成功的?

    從技術路線看,依舊遵從LLM范式“大力出奇跡”,通過patches向量化與transformer架構結合,使得訓練數據能夠使用大小、尺寸、分辨率不同的視頻,能夠讓模型學習到視頻的規律乃至世界的規律;使用GPT生成prompt,在訓練和推理過程中解決了模態之間的對齊問題,大
    的頭像 發表于 02-25 16:44 ?660次閱讀
    復盤與分析:Sora是如何<b class='flag-5'>成功</b>的?

    基于Transformer模型的壓縮方法

    基于Transformer架構的大型模型在人工智能領域中發揮著日益重要的作用,特別是在自然語言處理(NLP)和計算機視覺(CV)領域。
    的頭像 發表于 02-22 16:27 ?716次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法
    大发888在线体育官网| 玩百家乐678娱乐城| 大发888 ipad版| 百家乐筹码方形筹码| 利都百家乐官网国际娱乐平台| 香港六合彩官方网| 全讯网新3| 上海百家乐赌博| 澳门百家乐官网如何算| 无极县| 大发888登不上| 六合彩百家乐有什么平码| 赌博百家乐官网的玩法技巧和规则| 百家乐官网投注必胜法| bet365网址器| tt百家乐的玩法技巧和规则| 百家乐下注平台| 伯爵百家乐官网娱乐场| 宁波市| 大发888 网站被攻击了| 百家乐路技巧| 百家乐是哪个国家| 百家乐官网娱乐平台官网网| 百家乐官网真钱在线| 红利来娱乐城| 大发888真人真钱赌博| 百家乐tt娱乐场| 娱乐城百家乐规则| 百家乐官网空调维修| 豪华百家乐官网桌子厂家 | 百家乐游戏机高手| 百家乐官网补第三张牌规则| 百家乐官网视频游戏注册| 弥勒县| 皇冠大全| 大发888如何注册送58| 做百家乐网上投注| 百家乐官网群到shozo网| 玩百家乐官网技巧巧| 娱乐城百家乐官网可以代理吗| 乐百家乐官网彩娱乐城|