手把手教你如何用 Python 从 PDF 文件中导出数据|电子爱好者

admin管理员组
文章数量:1630008

有很多时候你会想用Python从PDF中提取数据，然后将其导出成其他格式。不幸的是，并没有多少Python包可以很好的执行这部分工作。在这篇贴子中，我们将探讨多个不同的Python包，并学习如何从PDF中提取某些图片。尽管在Python中没有一个完整的解决方案，你还是应该能够运用这里的技能开始上手。提取出想要的数据之后，我们还将研究如何将数据导出成其他格式。

让我们从如何提取文本开始学起！

使用PDFMiner提取文本

最被大家所熟知的可能是一个叫做PDFMiner的包。PDFMiner包大约从Python 2.4版本就存在了。它的主要目的是从PDF中提取文本。实际上，PDFMiner可以告诉你某文本在分页上具体的位置和字体信息。对于Python 2.4到2.7版本，你可以参考以下网站来了解PDFMiner的更多信息：

GitHub – https://github/euske/pdfminer

PyPI – https://pypi.python/pypi/pdfminer/

Webpage – https://euske.github.io/pdfminer/

PDFMiner是不兼容于Python 3的。幸运的是，PDFMiner家族的一个分支PDFMiner.six在Python 3上完全能胜任同样的功能。

你可以在以下网站上找到：

https://github/pdfminer/pdfminer.six

关于PDFMiner的安装说明已经比较过时了。其实你可以用pip命令来安装它：

python -m pip install pdfminer

如果你要在Python 3上安装PDFMiner（这也许就是你现在正在做的），你需要这样安装：

python -m pip install pdfminer.six

PDFMiner的相关文档很少。你将很大可能地需要使用Google和Stack Overflow两个查询工具来弄清楚如何在这篇贴子的涵盖内容之外有效地使用PDFMiner。

提取所有文本

有时你会想要提取PDF文件中的所有文本。PDFMiner包提供了一些不同的方法使你能够做到这一点。我们先来探讨一些编程的方法。让我们试着从一个国税局W9表单中读取所有的文本。

你可以从这里得到表单副本：

https://www.irs.gov/pub/irs-pdf/fw9.pdf

保存完这个PDF文件之后，你可以参考以下代码：

当你直接使用PDFMiner包时，往往会有点繁琐。这里，我们从PDFMiner的不同模块中引入多个不同的类。由于这些类都没有文档说明，也没有实现其文档字符串属性，我将不会深入讲解它们做了什么。如果你真的好奇的话，尽管可以深入地研究它们的源代码。无论如何，我认为我们可以大致照以上代码行事。

我们做的第一件事就是创建一个资源管理器的实例。然后通过Python的输入输出（io）模块创建一个似文件对象。如果你使用的是Python 2，你应该使用StringIO模块。接下来的步骤是创建一个转换器。在这个例子里，我们选择使用TextConverter，如果你想要的话，你还可以使用HTMLConverter或XMLConverter。最后，我们创建一个PDF解释器对象，携带着我们的资

本文标签：如何用手把手教你文件数据 Python

版权声明：本文标题：手把手教你如何用 Python 从 PDF 文件中导出数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1729068930a1184854.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

手把手教你如何用 Python 从 PDF 文件中导出数据

更多相关文章

COLING 2022 | CSL-大规模中文科学文献数据集

七月论文审稿GPT第2版：用一万多条paper-review数据微调LLaMA2 7B最终反超GPT4

ChatGPT秘籍：如何用AI阅读文献，提升你的学术效率

安卓和鸿蒙的游戏数据,鸿蒙和安卓系统的区别在哪？看到这组数据后，网友：差距...

PDF文件如何转换成Excel表格？试试这两个方法

在Python中使用PDF：阅读和拆分_fpdf库分割pdf文件

怎么把ppt转换成pdf文件

Python实战：解决从PDF复制文本到翻译软件时的换行问题

python image.save(pdf)_python 三种方法提取pdf中的图片

常用的 Python 虚拟环境管理器

Python使用Reportlab处理PDF数据 - 图形和图表

python极客项目编程pdf微盘下载_Python极客项目编程

手把手教你如何用Python从PDF文件中导出数据（附链接）

三种方法，用Python轻松提取PDF中的全部图片

iSpring Suite教程：如何在几次点击中将PDF文件转换为SCORM包

用C#制作PDF文件全攻略

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有...

数据可视化分析工具如何在国内弯道超车，迅速崛起？

linux引导文件制作U盘,Linux下制作U盘系统启动盘的方法

Windows11系统WalletProxy.dll文件丢失问题

发表评论

推荐文章

Ubuntu-RTL8812BU无线网卡安装

求生之路服务器未响应,求生之路2玩起来速度快，但是过几秒后，就卡住显示未响应，这是为什么...

笔记本电脑如何用c语言开无线网卡,怎么使用笔记本开启WiFi？笔记本开启WiFi的办法有？？...

C++面试宝典 知识点集锦

【CanMV K230】安装使用

热门文章

微信中直接下载app的解决方法，如何解决微信中无法直接下载app的问题

Windows下安装nodejs与配置淘宝镜像

BGP Community属性详解(一)

VM无法将网络更改为桥接状态：没有未桥接的主机网络适配器

sql语句，执行，实现没有这条数据就新增，如有这条数据就修改

无线传输至服务器,如何无线传输至云服务器

在pycharm中使用chatgpt

Word使用中常用的快捷键

手把手教你如何用Python从PDF文件中导出数据（附链接）

NAS折腾系列一：硬件与系统篇

最新文章

Photoshop 2021 for mac(PS2021)

运行Adobe精简版系列软件出现配置错误:16解决办法

【笔记软件obsidian】从入门到精通

推荐8款在win11上还能用的“古董级”软件

【电脑视频录制软件】各种录屏软件优缺点，OBS的格式转化，清晰度调节，基本使用，下载链接

Centos各个版本下载地址

【求解】PS安装后，存储黑屏，一直不能执行

ZYNQ的PS端三种网口扩展

CentOS7各个版本镜像下载地址及说明、Everything版

ps保存html和图像格式不显示,解决ps“储存为web和设备所用格式”灰色不能使用的方法...

图片加文字用什么软件？推荐这三款软件给你

adobe软件提示This non-genuine Adobe app will be disabled soon【软件版本】

PS必备人像脸部磨皮插件portraiture4.5.3滤镜磨皮插件下载安装

Fedora40桌面优化、软件安装

【资源】福利来了！生物学相关常用软件小工具，百度云下载链接持续更新中...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

C++面试宝典知识点集锦

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载