不久前,百度技術(shù)團(tuán)隊(duì)在不久前,百度技術(shù)團(tuán)隊(duì)在 GitHub 上正式開(kāi)源了一款 OCR 神器,在發(fā)布后不久便多次沖上 GitHub Trending 榜單,引起了技術(shù)圈內(nèi)開(kāi)發(fā)者的熱議,今天就跟大家好好介紹下這個(gè)項(xiàng)目。
眾所周知,OCR(Optical Character Recognition,光學(xué)字符識(shí)別) 技術(shù)已被廣泛應(yīng)用到我們生活中的方方面面,從印刷稿的文字識(shí)別、身份證電子化信息錄入,到傳統(tǒng)郵件自動(dòng)分揀、汽車牌照識(shí)別等領(lǐng)域,都上正式開(kāi)源了一款 OCR 神器,在發(fā)布后不久便多次沖上 GitHub Trending 榜單,引起了技術(shù)圈內(nèi)開(kāi)發(fā)者的熱議,今天就跟大家好好介紹下這個(gè)項(xiàng)目。
眾所周知,OCR(Optical Character Recognition,光學(xué)字符識(shí)別) 技術(shù)已被廣泛應(yīng)用到我們生活中的方方面面,從印刷稿的文字識(shí)別、身份證電子化信息錄入,到傳統(tǒng)郵件自動(dòng)分揀、汽車牌照識(shí)別等領(lǐng)域,都少不了 OCR 的身影。
在平時(shí)工作的時(shí)候,我也經(jīng)常會(huì)使用一些 OCR 軟件來(lái)掃描圖片并提取文字,而要替代人工完成一系列的文本分析,圖像識(shí)別操作,則必將使用到 AI 技術(shù)。
百度在 GitHub 上開(kāi)源的 PaddleOCR 模型,大小僅有 8.6M,是目前圈內(nèi)為數(shù)不多,能支持中英文圖像、橫豎排排版識(shí)別的 AI 深度學(xué)習(xí)模型之一。
先看下 PaddleOCR 自今年年中開(kāi)源以來(lái),短短幾個(gè)月在 GitHub 上的表現(xiàn):
7 月,8.6M 超輕量模型發(fā)布,GitHub Trending 全球日榜榜單第一!
8 月,開(kāi)源 CVPR2020 頂會(huì) SOTA 算法,再上 GitHub 趨勢(shì)榜單!
9 月,GitHub Star 數(shù)量已超過(guò) 4.6K, 近期又帶來(lái)哪些重磅更新?
果然,看 9 月最新更新,PaddleOCR 再次誠(chéng)意滿滿為大家?guī)?lái)真干貨,直接看官方介紹:
01. 官方介紹
數(shù)量上,這次 PaddleOCR 一口氣發(fā)布了三個(gè)系列模型,滿足移動(dòng)端、服務(wù)器端各種場(chǎng)景需求。而且,多語(yǔ)言也妥妥安排上了,全部訓(xùn)練代碼和模型毫無(wú)保留開(kāi)源。其中 3.5M 超輕量文字識(shí)別模型,堪稱目前業(yè)界開(kāi)源的最輕量 OCR 模型了。質(zhì)量上,如此輕量的模型,效果有保障嗎?不看廣告,直接看療效。 先看幾個(gè)常見(jiàn)的通用場(chǎng)景識(shí)別效果:
3.5M 的模型能達(dá)到這個(gè)識(shí)別精度,絕對(duì)是良心之作了!傳送門 Github:https://github.com/PaddlePaddle/PaddleOCR論文下載鏈接:https://arxiv.org/abs/2009.09941
02. 快速體驗(yàn)
PaddleOCR 的 3.5M 超輕量 OCR 模型1).PC 端快速嘗試:(打開(kāi)網(wǎng)頁(yè),選一張圖片,即可實(shí)時(shí)看到結(jié)果) https://www.paddlepaddle.org.cn/hub/scene/ocr
2). 手機(jī)端 App 安裝體驗(yàn)PaddleOCR 在百度大腦 EasyEdge 上開(kāi)放了文字識(shí)別 APP demo。 示例效果如下(可以在 github 首頁(yè)找到下載二維碼)
多個(gè)開(kāi)源 repo 測(cè)試對(duì)比
簡(jiǎn)單對(duì)比一下目前主流 OCR 方向開(kāi)源 repo 的核心能力:
3). 從性能指標(biāo)來(lái)看:
針對(duì) OCR 實(shí)際應(yīng)用場(chǎng)景,包括合同,車牌,銘牌,火車票,化驗(yàn)單,表格,證書,街景文字,名片,數(shù)碼顯示屏等,收集的 300 張圖像,每張圖平均有 17 個(gè)文本框,PaddleOCR 的 F1-Score 超過(guò) 0.5,這個(gè)性能已經(jīng)很不錯(cuò)了。
4). 從功能完備來(lái)看:
預(yù)訓(xùn)練模型大小:easyOCR 目前暫無(wú)超輕量模型,chineseocr_lite 最新的模型是 4.7M 左右,而 PaddleOCR 提供的 3.5M 無(wú)疑是目前業(yè)界已知最輕量的。
PIP 安裝:目前僅 PaddleOCR 和 easyOCR 支持。
自定義訓(xùn)練:實(shí)際業(yè)務(wù)場(chǎng)景中,預(yù)訓(xùn)練模型往往不能滿足需求,對(duì)于自定義訓(xùn)練和模型 Finetuning,目前只有 PaddleOCR 支持。
部署方面:easyOCR 模型較大不適合端側(cè)部署,Chineseocr_lite 和 PaddleOCR 都具備端側(cè)部署能力。
開(kāi)發(fā)者可以根據(jù)自己的實(shí)際需求,選擇適合自己的開(kāi)源方案。 對(duì)于 PaddleOCR3.5MB 的超輕量模型,是如何做到的,repo 中也給出了解釋。
3.5M 超輕量模型應(yīng)用了一套超輕量 OCR 系統(tǒng) PP-OCR,主要由 DB 文本檢測(cè)、檢測(cè)框矯正和 CRNN 文本識(shí)別三部分組成。該系統(tǒng)從骨干網(wǎng)絡(luò)選擇和調(diào)整、預(yù)測(cè)頭部的設(shè)計(jì)、數(shù)據(jù)增強(qiáng)、學(xué)習(xí)率變換策略、正則化參數(shù)選擇、預(yù)訓(xùn)練模型使用以及模型自動(dòng)裁剪量化 8 個(gè)方面,采用 19 個(gè)有效策略,對(duì)各個(gè)模塊的模型進(jìn)行效果調(diào)優(yōu)和瘦身。 其中,飛槳模型壓縮庫(kù) PaddleSlim 為 PaddleOCR 超輕量化模型的實(shí)現(xiàn)提供了核心的技術(shù)支撐。從超輕量模型 8.1M 的壓縮到 3.5M,模型大小降低了 56.79%,其中檢測(cè)模型速度提升 21%,而且整體模型精度還有提升。
除了 3.5M 超輕量 OCR 模型,PaddleOCR 提供了多語(yǔ)言預(yù)訓(xùn)練模型(英、德、法、韓、日),支持自定義訓(xùn)練和豐富的部署方式。
責(zé)任編輯:PSY
原文標(biāo)題:Github標(biāo)星4.6K+!這個(gè)OCR開(kāi)源項(xiàng)目,火了!
文章出處:【微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
開(kāi)源
+關(guān)注
關(guān)注
3文章
3402瀏覽量
42711 -
OCR
+關(guān)注
關(guān)注
0文章
146瀏覽量
16427 -
GitHub
+關(guān)注
關(guān)注
3文章
473瀏覽量
16564
原文標(biāo)題:Github標(biāo)星4.6K+!這個(gè)OCR開(kāi)源項(xiàng)目,火了!
文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論