吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google推出地標實例識別和圖像檢索人物數據集

汽車玩家 ? 來源: OFweek人工智能網 ? 作者:將門創投 ? 2020-04-17 16:10 ? 次閱讀

隨著圖像檢索和實例識別技術的迅速發展,急需有效的基準數據來對不斷出現算法的性能進行有效測評。來自谷歌的研究人員為此設計并推出了Google Landmarks Dataset v2(GLDv2)數據集用于大規模、細粒度的地標實例識別和圖像檢索人物。這一數據集包含了200k個不同實例標簽共5M張圖像,其中包括測試集為檢索人物標注的118k張圖像。

這一數據集的特點不僅在于規模,而且在于考慮了許多真實應用中會遇到的問題,包括長尾特性、域外圖像、類內豐富多樣性等特點。這一數據集除了可以作為檢索和識別人物的有效基準外,研究人員還通過學習圖像嵌入呈現了其用于遷移學習的潛力。

Google推出地標實例識別和圖像檢索人物數據集

圖像檢索與實例識別

圖像檢索和實例識別是計算機視覺研究領域的基本課題已經有很長的研究歷史。其中圖像檢索的目的是基于查詢圖像來排序出最為相關的圖像,而實例識別則是為了識別出目標類別中的特定實例(例如從“油畫”類別中識別出“蒙娜麗莎”實例)。

但隨著技術的發展,兩種任務開始結合提高了技術額魯棒性和規模性,早期的數據集越來越不足以支撐算法的發展。此外在圖像分類、目標檢測等領域都出現了像ImageNet、COCO、OpenImages等大規模的數據集,而圖像檢索領域還在使用Oxford5k和Paris6k等數據較少、時間較老的數據集。由于其大多只包含了單個城市的數據,使其訓練的結果難以大規模的泛化。

世界范圍內的數據采集點的分布

很多現有的數據集都沒有涵蓋真實條件下的挑戰。例如用于視覺檢索的地標識別app會收到大量非地標的查詢圖像,包括動植物或各類產品等,這些查詢圖像原則上不應該得到任何查詢結果。此外絕大多數實例識別數據集僅僅有專題查詢能力,同時無法測量域外數據的假陽性率。

研究人員迫切需要更大、更具挑戰的數據來測評技術的發展,同時為將來的研究提供足夠的挑戰和動力。這一領域缺乏大規模數據的原因在于上千個標簽和上百萬圖像中進行數千個標簽的細粒度標注十分耗費人力,同時也不是簡單的外包可以完成,需要專業知識才能有效標注。為了解決這些問題,新的數據呼之欲出!

GLDv2

這一新數據集的主要目的是為了盡可能的模擬和覆蓋真實工業場景地標識別系統所面臨的挑戰。為了盡可能地覆蓋真實世界,需要非常多的圖像,因此這一數據集首先需要滿足大規模的特性;其次為了適應多種光照條件和視角,還需要每一個類別或實例標簽中的圖像具有豐富的類內多樣性。真實情況下絕大多數圖像來源于著名的地標,而還有很多來源于不那么知名的地點,所以數據集還需要具備長尾特性。最后一個問題,在實際使用中,用戶會上傳各種各樣的查詢圖像,只有非常少的一部分圖像存在于數據集中,那么這些數據需要滿足域外查找特性(即能夠在不包含在訓練集中的查詢圖像上依然有效運行)。這些實際情況中的特點為識別算法的魯棒性提出了非常大的要求。

在這些因素的指導下,研究人員們開始收集對應的圖像并進行標注。數據主要來源于Wikimedia Commons,這是Wikipedia背后支撐的媒體資源庫。它覆蓋了世界范圍內大部分的地標,同時還包括了Wiki Loves Monuments來自世界各地的文化遺跡高質量細粒度照片。此外研究人員還從眾包中獲取了真實的查詢照片。

在獲取了圖像后就需要標記數據集建立索引了。下圖顯示了從Wikimedia Commons中挖掘地標圖像的流程。

Wikimedia Commons中是按照分類學的方式組織資源。每一個分類有獨特的URL其中包含了所有相關的圖像列表。但這種方式并沒有合適的頂級分類來映射人造和自然地標的,于是研究人員采用了谷歌知識圖譜來發掘世界范圍內的地標。

為了獲取WikiCommons中與地標相關的分類,研究人員從谷歌知識圖譜中查詢了“landmarks”,“tourist attractions”,“points of interest”等等詞條,每次查詢都會返回圖譜實體,利用這一實體來獲取Wikipedia中的文章,并跟隨文章中的鏈接找到Wikimedia Commons分類頁面。隨后將所有圖像下載下來,并利用嚴格的分類來確定每一張圖像對應一種分類,并利用Wikimedia Commons中的url作為典型的類別標簽。依照這樣的方式獲取了訓練和索引集。而查詢數據集的構建則包含了包含地標的positive查詢和不包含地標的negative查詢。

由于視覺上的檢查發現檢索和識別結果出現了一些錯誤,主要由于遺漏了基準標注,原因源于以下幾個方面:眾包帶來的錯誤和遺漏、某些查詢圖像包含多個地標,但基準只有一個結果、某一圖像在不同層次具有不同的標簽、某些negative查詢圖像實際上是地標圖像。為了解決這些問題,需要對測試集進行重新標注。

Google推出地標實例識別和圖像檢索人物數據集

GLDv2數據集與其他數據的比較

最終研究人員得到了五百萬張超過二十萬個不同實例地點的數據集,成為了目前領域內最大的實例識別數據。它最終分為三個部分,一部分是118k包含基準標注的查詢數據、4.1M圖像包含203k地標標簽的訓練數據、包含101k地標的762k張索引圖像。此外還給出了一個小型的數據集包括1.2M圖像和15k地標。與其他數據集相比,這一新數據集的規模和多樣性都是無可比擬的:

Google推出地標實例識別和圖像檢索人物數據集

Google推出地標實例識別和圖像檢索人物數據集

采集自世界范圍內的圖像,分類圖顯示了超過25k地點類別直方圖

強有力的數據集

為了檢驗這一數據集的能力,研究人員進行了一系列實驗。首先在GLDv2數據上進行訓練,測試了模型的遷移能力。通過學習全局描述子并測評他們在獨立地標檢索數據中的表現(Revisited Oxford,ROxf 和 Revisited Paris, RPar) 。下表顯示了這一數據集可以顯著提高模型的性能,mAP的提升將近5%。

Google推出地標實例識別和圖像檢索人物數據集

針對識別和檢索任務下面兩個表展示了基于不同模型和數據集上的比較結果可以看到基于GLDv2數據集的模型性能得到了顯著提升。

Google推出地標實例識別和圖像檢索人物數據集

此外在檢索挑戰任務上進行了測評,包括了全局特征搜索和局域特征匹配重排等技術。結果顯示,即使使用了復雜的技術,這一數據集仍然具有可以挖掘提升的空間。

Google推出地標實例識別和圖像檢索人物數據集

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6196

    瀏覽量

    106020
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24836
收藏 人收藏

    評論

    相關推薦

    AI大模型在圖像識別中的優勢

    AI大模型在圖像識別中展現出了顯著的優勢,這些優勢主要源于其強大的計算能力、深度學習算法以及大規模的數據處理能力。以下是對AI大模型在圖像識別中優勢的介紹: 一、高效性與準確性 處理速度 :AI
    的頭像 發表于 10-23 15:01 ?1020次閱讀

    軟件系統的數據檢索設計

    軟件系統的數據檢索設計 隨著業務量加大,數據檢索量也會日益增多,為了減輕數據庫壓力,本系統采用ElasticSearch來實現數據檢索功能。 簡單來說,Elasticsearch 是一
    的頭像 發表于 08-22 14:08 ?317次閱讀
    軟件系統的<b class='flag-5'>數據檢索</b>設計

    圖像識別算法有哪幾種

    圖像識別算法是計算機視覺領域的核心技術之一,它通過分析和處理圖像數據,實現對圖像中的目標、場景和物體的識別和分類。
    的頭像 發表于 07-16 11:22 ?1370次閱讀

    圖像檢測和圖像識別的原理、方法及應用場景

    圖像檢測和圖像識別是計算機視覺領域的兩個重要概念,它們在許多應用場景中發揮著關鍵作用。 1. 定義 1.1 圖像檢測 圖像檢測(Object Detection)是指在
    的頭像 發表于 07-16 11:19 ?4920次閱讀

    圖像識別算法都有哪些方法

    圖像識別算法是計算機視覺領域的核心任務之一,它涉及到從圖像中提取特征并進行分類、識別和分析的過程。隨著深度學習技術的不斷發展,圖像識別算法已經取得了顯著的進展。本文將介紹
    的頭像 發表于 07-16 11:14 ?6068次閱讀

    圖像識別算法的提升有哪些

    方法。 數據增強 數據增強是提高圖像識別算法性能的一種有效方法。通過對訓練數據進行變換和擴展,可以增加數據的多樣性,提高模型的泛化能力。常見
    的頭像 發表于 07-16 11:12 ?746次閱讀

    圖像識別算法的優缺點有哪些

    圖像識別算法可以快速地處理大量圖像數據,提高工作效率。與傳統的人工識別方法相比,圖像識別算法可以在短時間內完成對大量
    的頭像 發表于 07-16 11:09 ?1907次閱讀

    圖像識別算法的測試方法有哪些

    圖像識別算法的測試方法是一個廣泛而深入的話題,涉及到多個方面。 數據的選擇 : 標準數據 :使用廣泛認可的
    的頭像 發表于 07-16 11:06 ?695次閱讀

    圖像識別算法的核心技術是什么

    圖像識別算法是計算機視覺領域的一個重要研究方向,其目標是使計算機能夠像人類一樣理解和識別圖像中的內容。圖像識別算法的核心技術包括以下幾個方面: 特征提取 特征提取是
    的頭像 發表于 07-16 11:02 ?745次閱讀

    圖像識別技術在醫療領域的應用

    一、引言 圖像識別技術是一種利用計算機視覺技術對圖像進行分析和處理的技術。隨著計算機技術、人工智能技術、大數據技術等的發展,圖像識別技術在各個領域的應用越來越廣泛。在醫療領域,
    的頭像 發表于 07-16 10:48 ?1173次閱讀

    圖像識別技術的原理是什么

    圖像識別技術是一種利用計算機視覺和機器學習技術對圖像進行分析和理解的技術。它可以幫助計算機識別和理解圖像中的對象、場景和活動。 圖像預處理
    的頭像 發表于 07-16 10:46 ?1419次閱讀

    圖像識別屬于人工智能嗎

    屬于。圖像識別是人工智能(Artificial Intelligence, AI)領域的一個重要分支。 一、圖像識別概述 1.1 定義 圖像識別是指利用計算機技術對圖像中的內容進行分析
    的頭像 發表于 07-16 10:44 ?1334次閱讀

    圖像檢測與識別技術的關系

    圖像檢測與識別技術是計算機視覺領域的兩個重要分支,它們在許多應用場景中發揮著關鍵作用。本文將介紹圖像檢測與識別技術的關系,以及它們在不同領域的應用。 一、
    的頭像 發表于 07-03 14:43 ?730次閱讀

    圖像檢測和圖像識別的區別是什么

    圖像檢測和圖像識別是計算機視覺領域的兩個重要研究方向,它們在許多應用場景中都有著廣泛的應用。盡管它們在某些方面有相似之處,但它們之間還是存在一些明顯的區別。本文將從多個角度對圖像檢測和圖像識別
    的頭像 發表于 07-03 14:41 ?1227次閱讀

    請問NanoEdge AI數據該如何構建?

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據的問題,請問我該怎么構建數據?或者生成模型失敗還會有哪
    發表于 05-28 07:27
    汇丰百家乐官网的玩法技巧和规则 | 百家乐平注7s88| 赌百家乐官网的体会| 百家乐蓝盾有赢钱的吗| www.sbobet2.com| 百家乐书包| 百家乐官网信誉平台开户| 百家乐庄闲必胜打| 百家乐官网7scs娱乐网| 德州扑克辅助软件| 百家乐三多注码法| 百家乐官网榄梯打法| 百家乐三珠连跳打法| 百家乐官网实战技术| 百家乐赚水方法| 百家乐官网的最佳玩| 曼哈顿娱乐城信誉| 缅甸百家乐赌博有假吗| 网络百家乐官网赌博视频| 大发888资讯网net| 百家乐技巧阅读| 百家乐官网怎么投注| 老虎机的规律| 百家乐有秘技吗| 百家乐官网游戏玩法技巧| 百家乐平注常赢玩法更| 百家乐官网套利| 百家乐官网交流群号| 大发888娱乐城都有啥扑克牌游戏 大发888大发888娱乐城 | 百家乐官网星级游戏| 老虎机游戏在线玩| 百家乐百家乐论坛| 个人百家乐官网策略| 澳门博彩公司| 百家乐斗地主下载| 博狗百家乐官网的玩法技巧和规则 | 孟州市| 大发888问题缺少组件| 百家乐半圆桌| 游戏机百家乐官网下载| 孟津县|