想將一份文檔圖片轉換成 Markdown 格式?以往這一任務需要文本識別、布局檢測和排序、公式表格處理、文本清洗等多個步驟——
這一次,只需一句話命令,多模態大模型 Vary 直接端到端輸出結果:
無論是中英文的大段文字:
![wKgaomWINeGAbodMAAWnaNFVZdU310.png](https://file1.elecfans.com//web2/M00/B8/BF/wKgaomWINeGAbodMAAWnaNFVZdU310.png)
還是包含了公式的文檔圖片:
又或是手機頁面截圖:
![wKgaomWINeKAEyFZAAVVG-p7ANc741.png](https://file1.elecfans.com//web2/M00/B8/BF/wKgaomWINeKAEyFZAAVVG-p7ANc741.png)
甚至可以將圖片中的表格轉換成 Latex 格式:
![wKgaomWINeKAKxFRAAOKXXcn73I239.png](https://file1.elecfans.com//web2/M00/B8/BF/wKgaomWINeKAKxFRAAOKXXcn73I239.png)
當然,作為多模大模型,通用能力的保持也是必須的:
Vary 表現出了很大的潛力和極高的上限,OCR 可以不再需要冗長的 pipline,直接端到端輸出,且可以按用戶的 prompt 輸出不同的格式如 Latex、Word、Markdown。通過 LLM 極強的語言先驗,這種架構還可以避免 OCR 中的易錯字,比如“杠桿”和“杜桿”等, 對于模糊文檔,也有望在語言先驗的幫助下實現更強的 OCR 效果。
項目一出,引發了不少網友的關注,有網友看后直呼 “kill the game!”
那么這樣的效果,是如何做到的呢?
背后原理
目前的多模態大模型幾乎都是用 CLIP 作為 Vision Encoder 或者說視覺詞表。確實,在 400M 圖像文本對訓練的 CLIP 有很強的視覺文本對齊能力,可以覆蓋多數日常任務下的圖像編碼。但是對于密集和細粒度感知任務,比如文檔級別的 OCR、Chart 理解,特別是在非英文場景,CLIP 表現出了明顯的編碼低效和 out-of-vocabulary問題。
受語言的 LLMs 啟發,純 NLP 大模型(如 LLaMA)從英文到中文(外語)時因為原始詞表編碼中文效率低,必須要擴大 text 詞表。那么對于現在基于 CLIP 視覺詞表的多模大模型也是一樣的,遇到 “foreign language image”,如一頁論文密密麻麻的文字,很難高效地將圖片 token 化,Vary 提出就是解決這一問題,在不 overwrite 原有詞表前提下,高效擴充視覺詞表。
不同于現有方法直接用現成的 CLIP 詞表,Vary 分兩個階段:第一階段先用一個很小的 Decoder-only 網絡用自回歸方式幫助產生一個強大的新視覺詞表;然后在第二階段融合新詞表和 CLIP 詞表,從而高效的訓練多模大模型擁有新 feature。Vary 的訓練方法和模型結構如下圖:
通過在公開數據集以及渲染生成的文檔圖表等數據上訓練,Vary 極大增強了細粒度的視覺感知能力。在保持 Vanilla 多模態能力的同時,激發出了端到端的中英文圖片、公式截圖和圖表理解能力。
另外,原本可能需要幾千 tokens 的頁面內容,通過文檔圖片輸入,信息被Vary壓縮在了 256 個圖像 tokens 中。這也為進一步的頁面分析和總結提供了更多的想象空間。
目前,Vary 的代碼和模型均已開源,還給出了供大家試玩的網頁 demo。感興趣的小伙伴可以去試試了~
項目主頁:
https://varybase.github.io/
參考鏈接
https://zhuanlan.zhihu.com/p/671420712
· ·
-
物聯網
+關注
關注
2914文章
44939瀏覽量
377084
原文標題:OCR終結了?曠視提出可以文檔級OCR的多模態大模型框架Vary,支持中英文,已開源!
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
商湯日日新多模態大模型權威評測第一
ElfBoard開源項目|車牌識別項目技術文檔
![ElfBoard<b class='flag-5'>開源</b>項目|車牌識別項目技術<b class='flag-5'>文檔</b>](https://file1.elecfans.com/web3/M00/01/4C/wKgZO2dSYb6AHeioAAA8Nv-vcX4641.png)
利用OpenVINO部署Qwen2多模態模型
云知聲推出山海多模態大模型
明治案例 | PE編織袋【大視野】【OCR識別】
![明治案例 | PE編織袋【大視野】【<b class='flag-5'>OCR</b>識別】](https://file1.elecfans.com/web2/M00/03/2D/wKgaoma6wNuAMwKbAAJZBs4SdQk122.png)
基于AX650N芯片部署MiniCPM-V 2.0高效端側多模態大模型
![基于AX650N芯片部署MiniCPM-V 2.0高效端側<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/FD/5B/wKgaomaUfXKACvWAAAApuTtR_pw763.png)
智能手機充電頭OCR精準識別
![智能手機充電頭<b class='flag-5'>OCR</b>精準識別](https://file.elecfans.com/web2/M00/4F/12/poYBAGLDzd6AEcaOAABBJLbgtXA388.png)
智譜AI發布全新多模態開源模型GLM-4-9B
李未可科技正式推出WAKE-AI多模態AI大模型
![李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/CD/4D/wKgZomYg4ZyAbfOHAFDzaCuLdZ8032.png)
評論