首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

印度小哥“神剑”:PDF提取表格so easy!

  • 24-03-04 21:21
  • 2165
  • 8492
blog.csdn.net

640?wx_fmt=png

作者 | 若名

出品 | AI科技大本营


如果经常跟数据表格打交道,那你应该体验过那种令人烦躁到抓狂的心情。但现在,学会下面将要介绍的一款工具的使用方法,相信我,它会让你在工作中简直不能更舒爽。


Excalibur,从古希腊语翻译过来就是“神剑”,它现在也是一种用于从 PDF 中提取表格数据的 Web 界面,使用 Python 3 编写,由 Camelot(Python 库) 提供支持,可以让任何人轻松地从 PDF 文件中提取表格数据。需要注意的是,Excalibur 仅适用于基于文本的 PDF 文件,扫描文件不在此列。


Camelot 和 Excalibur 的作者和维护者是来自新德里 Bharati Vidyapeeth 工程学院的 Vinayak Mehta,目前他正全职做这些项目。


Excalibur 的四大特性


可移植文件格式


PDF 文件定义了将字符放置在相对于页面左下角的 x,y 坐标的指令。通过将某些字符放在比其他字符更近的地方来模拟单词。空格是通过将单词放在相对较远的地方来模拟的。最后,通过放置在电子表格中显示的字词来模拟表格,格式没有表格结构的内部表示。


自动检测 PDF 中的表格数据


可移植文件格式不是为表格数据设计的。可悲的是,许多开放数据共享时都是 PDF 文件,但对其中的表格进行分析却是一件非常痛苦的事。简单的复制粘贴行不通,Excalibur 通过自动检测 PDF  中的表格并让你通过 Web 界面将它们保存为 CSV 和 Excel 文件,这使 PDF 表格提取变得非常简单。


可动态调整表格提取规则


虽然有很多广泛用于 PDF 表格提取的开源和闭源工具,但他们输出的表格良莠不齐。Excalibur 由 Camelot 提供支持,为用户提供附加设置以调整表格提取并获得最佳效果。相较而言,它的性能要好于其他开源工具和库。


数据完全可控且安全


你可以完全控制数据,因为所有文件存储和处理都在你自己的本地或远程计算机上进行。Excalibur 还可以配置 MySQL 和 Celery 系统,以并行和分布式方式执行表格提取任务。默认情况下,任务按顺序执行。


快速上手指南


下载和安装


https://github.com/camelot-dev/excalibur/releases

https://excalibur-py.readthedocs.io/en/master/user/install.html#install


设置开发环境


你可以使用 pip 轻松安装开发依赖项:


 
 

$ pip install excalibur-py [dev]


测试(很快)


安装后,你可以使用以下命令运行测试:


 
 

$ python setup.py test


使用“神剑”


安装后,可以使用以下命令初始化元数据的数据库:


 
 

$ excalibur initdb


然后使用以下命令启动 Web 服务器:


 
 

$ excalibur webserver


现在,你可以转到 http:// localhost:5000 并开始从 PDF 文件中提取表格数据。

     

上传 PDF


你可以使用 Web 界面上传 PDF 文件,还可以与之前的上传进行整合。


640?wx_fmt=gif


自动检测表格


Excalibur 可以自动检测 PDF 中的表格。


640?wx_fmt=gif


绘制表格区域或者放置分隔符


如果表格深埋在文本内部并且自动检测失败,则可以通过绘制表格区域和列分隔符进行操作。


640?wx_fmt=gif


加载已保存的规则设置


你也可以保存 PDF 文件中表格提取的规则设置,并将其应用于新的 PDF 文件以提取具有类似结构的表格。


640?wx_fmt=gif     

查看和下载数据


最后,你可以查看提取的表格并将其下载为 CSV 或 Excel 文件。Excalibur 还支持 JSON 和 HTML 格式。


640?wx_fmt=gif


最后给出源代码链接,你可以通过以下方式查看最新源代码:


 
 

$ git clone https://www.github.com/camelot-dev/excalibur


(*本文为AI科技大本营原创文章,转载请联系作者)


公开课预告

◆

推荐系统

◆


在当今人工智能浪潮之下,个性化推荐技术更是风靡业界,在金融、传媒、短视频、电商、教育等诸多领域大放异彩,影响人们生活的方方面面。不仅方便了人们获取各种各样的信息,还给企业带来了收益的大幅提升。本次分享带你揭开个性化推荐的神秘面纱,从推荐算法到大型系统架构进行全面剖析。


640?wx_fmt=jpeg


推荐阅读

  • 何恺明等最新突破:视频识别快慢结合,取得人体动作AVA数据集最佳水平

  • 20k~65k, 2018年最后一波热门技术岗位, 立刻投简历, 跳槽才是加薪的捷径

  • ofo 遭千万人退押金

  • 更新微信 7.0,你后悔了吗?

  • 程序员求助:被领导强行要求写Bug该怎么办?网友的回答让我笑翻

  • 用Python分析了1982场英雄联盟数据,开局前预测游戏对局胜负!

  • 凭什么老程序员被裁,应届生却能月薪 1.3 万?

注:本文转载自blog.csdn.net的AI科技大本营的文章"https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/85241521"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top