吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Camelot:超強大的PDF表格提取器

科技綠洲 ? 來源:Python實用寶典 ? 作者:Python實用寶典 ? 2023-10-30 09:44 ? 次閱讀

如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。

Python 第三方模塊 Camelot 能夠精準識別PDF中的表格信息,并提取為pandas數據結構,而且還能導出為多種格式:JSON,Excel,HTML和Sqlite。

下面給大家介紹這個模塊的使用方法:

1.準備

開始之前,你要確保Python和pip已經成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細Python安裝指南 進行安裝。

如果你用Python的目的是數據分析,可以直接安裝Anaconda:Python數據分析與挖掘好幫手—Anaconda,它內置了Python和pip.

此外,推薦大家用VSCode編輯器,它有許多的優點:Python 編程的最好搭檔—VSCode 詳細指南

請選擇以下任一種方式輸入命令安裝依賴

  1. Windows 環境 打開 Cmd (開始-運行-CMD)。
  2. MacOS 環境 打開 Terminal (command+空格輸入Terminal)。
  3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install camelot-py[cv]

2.使用

最簡單的使用方式如下:

import camelot
# 1.讀取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.導出pdf所有的表格為csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行,導入camelot這個模塊。

第二行,以stream的模式讀取當前目錄的foo.pdf文件。

第三行,將所有表格數據導出為 foo.csv 文件,并保存在當前文件夾下。

相當簡單,請注意,read_pdf 的 flavor 參數是可選的,如果你不帶這個參數,請注意需要安裝 ghostscript 這個驅動,因為它默認使用 ghostscript 去用 lattice 模式。

3.進階

3.1 處理背景線:

圖片

可以看到,很多表格的線都隱藏在背景中。這種表格默認是不支持的,這時候我們需要讓程序能夠自動識別這樣的表格:

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 參數即可。

3.2 指定表格區域

某些情況下無法正確識別到PDF中的表格,此時手動設定左上角和右下角的邊界可能是有效果的:

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式為 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在PDF坐標空間中,頁面的左下角是原點,坐標為(0,0)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • PDF
    PDF
    +關注

    關注

    1

    文章

    169

    瀏覽量

    33802
  • 數據結構
    +關注

    關注

    3

    文章

    573

    瀏覽量

    40230
  • 提取器
    +關注

    關注

    0

    文章

    14

    瀏覽量

    8133
收藏 人收藏

    評論

    相關推薦

    [分享]超強的壓縮內存

     和大家分享一款超強的壓縮內存  
    發表于 05-27 14:18

    關于從Labview表格提取一列數值生成數組問題

    我把txt文件里的內容分別導入到如圖所示的表格中,一共4列,現在我想把最后一列也就是數據值提取出來,生成一個數組。能不能通過不寫入EXCEL,再提取完成。
    發表于 04-27 21:16

    如何將文件pdf轉換成excel格式的表格

    機制能夠準確讀取各種文件內容,并可以非常準確地全文件識別轉化中文、英文、表格。除了具備較好的轉換效果之外,迅捷PDF轉換還在此基礎上集成了較好的批量PDF轉換功能。換句話說,用戶可以
    發表于 11-08 16:18

    pdf閱讀閱讀pdf文件的方法

    ,點擊桌面軟件圖標打開至主界面。   2、點擊“打開本地文件夾”將需要查看的pdf文件打開即可。  3、閱讀自動把pdf文件提取出文檔目錄,在左側界面展示,可以通過查看目錄,快速定位
    發表于 03-31 10:21

    NLPIR在文本信息提取方面的優勢介紹

    ,NLPIR平臺KGB知識圖譜在文本信息提取的優勢: 1、能夠解析不同格式文檔和圖片KGB知識圖譜引擎,能夠對不同版本和格式的文檔進行解析:TXT、DOC、EXCEL、PPT、PDF、XML等,對于圖片,OCR
    發表于 09-12 15:33

    word表格小技巧

    word表格小技巧 一、快速插入表格   拖動“插入表格”能插入的最大表格跟該圖標位置、顯示分辨率有關。如使用800×600分辨率時最大為18行×28
    發表于 01-08 09:56 ?1595次閱讀

    Matlab經典超強教程

    電子發燒友網站提供《Matlab經典超強教程.pdf》資料免費下載
    發表于 07-15 15:21 ?37次下載

    Python的PDF表格提取-Camelot

    Python 第三方模塊 Camelot 能夠精準識別PDF中的表格信息,并提取為pandas數據結構,而且還能導出為多種格式:JSON,Excel,HTML和Sqlite。
    的頭像 發表于 02-24 11:04 ?2255次閱讀
    Python的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>-<b class='flag-5'>Camelot</b>

    如何提取Word文檔表格保存到Excel

    提取到Excel表中。例如,提取word文檔中的財務數據、考勤數據等,將數據存儲到 Excel表中,本次項目我們專門針對word文檔中的表格數據進行解析與提取
    的頭像 發表于 02-24 16:00 ?2921次閱讀
    如何<b class='flag-5'>提取</b>Word文檔<b class='flag-5'>表格</b>保存到Excel

    Camelot:Python超強大PDF表格提取

    如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。 Python 第三方模塊 Camelot 能夠精準識別PDF中的
    的頭像 發表于 10-21 10:57 ?1632次閱讀
    <b class='flag-5'>Camelot</b>:Python<b class='flag-5'>超強大</b>的<b class='flag-5'>PDF</b><b class='flag-5'>表格</b><b class='flag-5'>提取</b><b class='flag-5'>器</b>

    Camelot模塊的使用方法

    如果你有從PDF中批量提取表格的需求,那么這篇文章就是你的福音。 Python 第三方模塊 Camelot 能夠精準識別PDF中的
    的頭像 發表于 11-01 10:02 ?1121次閱讀
    <b class='flag-5'>Camelot</b>模塊的使用方法

    wps能不能用vlookup函數與數組結合提取多列數據

    WPS表格是一個功能強大的電子表格軟件,它提供了一系列函數,包括VLOOKUP函數,用于在表格中查找和提取數據。VLOOKUP函數能夠根據某
    的頭像 發表于 12-01 11:07 ?1609次閱讀

    何為Teable多維表格數據庫,它僅僅是一個在線的智能表格嗎?

    表格是一種創新的數據管理和協作工具,它結合了傳統電子表格的直觀界面與關系數據庫的強大功能。用戶不僅可以像在Excel中一樣在二維表格內記錄和編輯數據,還能享受到基于數據結構的靈活管理
    的頭像 發表于 10-14 16:13 ?557次閱讀

    多維表格屬于低代碼平臺嗎?

    Teable多維表格數據庫是一款功能強大的云端數據庫和協作工具,結合了電子表格的靈活性和數據庫的強大功能,適用企業內部項目管理 數據收集與整理 內容管理與創意協作 客戶關系管理 項目跟
    的頭像 發表于 10-17 14:22 ?282次閱讀

    傳統電子表格Excel和Teable多維表格數據庫的區別?

    傳統Excel是一款功能強大的電子表格軟件,它的數據處理 分析以及圖表制作等功能給工作帶來了很多便利,但也有自身的局限性,本文介紹的多維表格Teable數據庫將在傳統電子表格Excel
    的頭像 發表于 10-23 16:44 ?452次閱讀
    大发888真坑阿| 星河娱乐城| 百家乐官网游戏规则介绍| 百家乐娱乐城新澳博| 菲律宾新利国际| 爱婴百家乐官网的玩法技巧和规则 | 百家乐真钱游戏下载| 博九娱乐网| 永利高百家乐开户| bet365娱乐官网| 网上赌百家乐官网有假| 大发888游戏网页版| 百家乐官网庄闲偏差有多大| 大发888娱乐城新澳博| 百家乐官网真人游戏赌场娱乐网规则 | 百家乐官网平台凯发| 大发888充值100元| 百家乐官网官网网站| 博彩交流| 百家乐斗牛稳赚| 静宁县| 百家乐线上真人游戏| 长顺县| 新朝代百家乐官网开户网站| 百家乐操作技巧| 麻将百家乐官网筹码| 德州扑克术语| 地理风水24山72局杨公水法| 网上现金游戏| 百家乐赌博详解| 百家乐官网赌神| 大发888下载ylc8| 网上的百家乐官网怎么才能赢| 澳门博彩股份有限公司| 澳门百家乐赌技术| 百家乐官网路单破解器| 贵族百家乐的玩法技巧和规则 | 泸州市| 百家乐平玩法几副牌| 仕達屋百家乐官网的玩法技巧和规则 | 网络百家乐输了很多钱|