在Python中使用PDF：阅读和拆分_fpdf库分割pdf文件|电子爱好者

admin管理员组
文章数量:1629931

本文是一个小系列的开头，将介绍这些有用的Python库。在第一部分中，我们将重点介绍现有PDF的操作。您将学习如何阅读和提取内容（文本和图像），旋转单个页面以及将文档拆分为单独的页面。第二部分将介绍如何根据叠加层添加水印。第三部分将专注于编写/创建PDF，还将包括删除和重新组合单个页面到新文档。

工具和库

Python相关的PDF工具，模块和库的可用解决方案范围有点令人困惑，需要花一点时间来弄清楚什么是什么，以及哪些项目是持续维护的。根据我们的研究，这些是目前最新的方案：

PyPDF2：这是一个Python库，用于提取文档信息和内容，逐页拆分文档，合并文档，裁剪页面和添加水印。 PyPDF2支持未加密和加密的文档。

PDFMiner：完全用Python编写，适用于Python 2.4。对于Python 3，请使用克隆包PDFMiner.six。这两个包都允许您解析，分析和转换PDF文档。包括对PDF 1.7以及CJK语言（中文，日文和韩文）以及各种字体类型（Type1，TrueType，Type3和CID）的支持。

PDFQuery：它将自己描述为“一个快速且友好的PDF抓取库”，它作为PDFMiner，lxml和pyquery的包装器实现。它的设计目标是“用尽可能少的代码可靠地从PDF集合中提取数据。”

tabula-py：它是tabula-java的简单Python包装器，可以从PDF中读取表并将它们转换为Pandas DataFrames。它还允许您将PDF文件转换为CSV / TSV / JSON文件。

pdflib for Python：Poppler库的扩展，为它提供Python绑定。它允许您解析，分析和转换PDF文档。不要与其同名的商业吊坠相混淆。

PyFPDF：用于在Python下生成PDF文档的库。从FPDF PHP库移植，一个众所周知的PDFlib扩展替换，包含许多示例，脚本和衍生产品。

PDFTables：一种商业服务，提供从PDF文档中提取的表格。提供API以便PDFTable可以用作SAAS。

PyX - Python图形包：PyX是一个用于创建PostScript，PDF和SVG文件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接口。这些基元构建了复杂的任务，例如以发布就绪质量创建2D和3D图。

ReportLab：一个雄心勃勃的工业级图书馆，主要致力于精确创建PDF文档。可作为开源版本以及名为ReportLab PLUS的商业增强版本免费提供。

PyMuPDF（又名“fitz”）：MuPDF的Python绑定，它是一个轻量级的PDF和XPS查看器。该库可以访问PDF，XPS，OpenXPS，epub，漫画和小说书籍格式的文件，并以其顶级性能和高渲染质量而闻名。

pdfrw：一种基于Python的纯PDF解析器，用于读写PDF。它忠实地再现了矢量格式而没有光栅化。与ReportLab结合使用，有助于在使用ReportLab创建的新PDF中重复使用现有PDF的部分内容。

下面我们将重点介绍PyPDF2和PyMuPDF，并解释如何以最简单的方式提取文本和图像。为了理解PyPDF2的用法，官方文档和其他资源提供的大量示例的组合。相比之下，官方的PyMuPDF文档更清晰，使用库的速度要快得多。

用PyPDF2提取文档

PyPDF2可以作为常规软件包安装，也可以使用pip3（适用于Python3）安装。这里的测试基于即将推出的Debian GNU / Linux版本10“Buster”的软件包。 Debian软件包的名称是python3-pypdf2。

下面的代码首先导入PdfFileReader类，然后适用这个类打开文件，用getDocumentInfo() 方法来提取文档信息，包括页数和首页内容。

请注意PyPDF2页码计数从0开始，这也是为什么pdf.getPage(0)函数可以获取文件的第一页。最终，提取到的信息被打印到了stdout。

使用PyMuPDF提取文本

PyMuPDF可从PyPi网站获得，您可以在终端中使用以下命令安装包：

显示文档信息，打印页数和提取PDF文档的文本的方式与PyPDF2类似（参见清单2）。要导入的模块名为fitz，并返回到PyMuPDF的先前名称。

PyMuPDF的优点在于它保持原始文档结构的完整性 - 带有换行符的整个段落保留在PDF文档中。

使用PyMuPDF从PDF中提取图像

PyMuPDF使用getPageImageList（）方法简化了从PDF文档中提取图像的过程。下面的代码来源于PyMuPDF wiki页面的示例，并逐页提取并保存PDF中的所有图像作为PNG文件。如果图像具有CMYK颜色空间，则首先将其转换为RGB。

在400页PDF上运行这个Python脚本，它在不到3秒的时间内提取了117个图像，这是惊人的。各个图像以PNG格式存储。为了保持原始图像格式和大小，而不是转换为PNG，请查看PyMuPDF wiki中脚本的扩展版本。

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

本文标签：文件 PDF Python fpdf

版权声明：本文标题：在Python中使用PDF：阅读和拆分_fpdf库分割pdf文件内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729067869a1184736.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

在Python中使用PDF：阅读和拆分_fpdf库分割pdf文件

最后

更多相关文章

python基础教程pdf百度云-《Python基础教程(第3版)》PDF高清版

PPT文件怎么转换成pdf

怎么转换图文混杂的PDF格式文件

如何对PDF文件进行转换

三种方法，Python轻松提取PDF中全部图片

新书上市 | Python办公自动化（好友新书，值得一看，文末有福利）

1.6python网络爬虫--读取和处理纯文本格式（CSV,PDF,docx）

8 个 jQuery 的 PDF 浏览插件

C#实现 word、pdf、ppt 转为图片

pdf 相关软件

如何用 Java 对 PDF 文件进行电子签章（四）如何生成PKCS12证书

面对世界竞争对手，如何拿到Google PDF开源项目PDFium？

jpg图片转base64不能在线预览，查看文件真正格式

全面接触PDF:最好用的PDF软件汇总

ethernetIP 协议简介 pdf

探讨PDF转Word解决方案

在Flashplayer中显示PDF文件， SWFTools怎么用

Python 机器学习经典实例

linux引导文件制作U盘,Linux下制作U盘系统启动盘的方法

Ubuntu学习（二）搭建系统 与 python、vscode 相关环境搭建

发表评论

推荐文章

Shutdown complete (mysqld 8.0.33) MySQL Community Server - GPL.问题解决

苹果电脑变慢的原因和解决方法 mac速度变慢怎么办 如何使用CleanMyMac X修复它 如何提高Mac性能 cleanMyMac X激活号码

记录电脑蓝屏错误0x00000019怎么解决

小米万兆路由器里的Docker安装MySQL8.0

kail linux配置无线网络,Kali Linux 无线渗透测试入门指南 第一章 配置无线环境

热门文章

fw150us的linux驱动下载,迅捷FW150US1.02.0无线网卡驱动

Qt | Qt6.5.3创建一个安卓APP并发布到真机

科普windows系统的激活方式有哪些

惠普星Book Pro14电脑用U盘怎么安装系统教学

探索设计之旅：利用AutoCAD 2020基础教程电子课件

grid 和oracle区别,Grid_Oracle Grid Infrastructure概念介绍（概念）

软路由安装openwrt系统

这是马？小鹏发布可骑乘「智能马」，四不像长相太奇葩！

HarmonyOS（鸿蒙系统）查看Andriod版本方法

网络安全快速入门（五）初识linux操作系统

最新文章

计算机课程用的ps是哪个版本,ps哪个版本适用于新手？

为什么ps不能用计算机,电脑ps软件的填充功能无法使用怎么处理

ps软件怎么测试性能,PS运行卡顿怎么办？如何提高PS软件性能？

Linux连接阿里云服务器的一系列命令教程

制作Ubuntu镜像并在虚拟机上安装

PS被禁用——解决PS跳出弹窗提示软件未经授权将被禁用方法

ps手柄震动测试软件,PS3 可实现震动 用PS3手柄连接电脑图文教程 - 电玩巴士

第一次的BLOG

红帽linux系统

Ubuntu 18.04 共享文件夹 与其他系统互传文件

PS占用CPU太高，导致电脑异常卡顿

使用ps ai功能电脑配置要求是什么？ps ai beta爱国版最低配置

【CanMV K230】安装使用

linux的系统

centos磁盘安装与磁盘分区方案详解

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Ubuntu学习（二）搭建系统与 python、vscode 相关环境搭建

苹果电脑变慢的原因和解决方法 mac速度变慢怎么办如何使用CleanMyMac X修复它如何提高Mac性能 cleanMyMac X激活号码

kail linux配置无线网络,Kali Linux 无线渗透测试入门指南第一章配置无线环境

ps手柄震动测试软件,PS3 可实现震动用PS3手柄连接电脑图文教程 - 电玩巴士

Ubuntu 18.04 共享文件夹与其他系统互传文件

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载