如何使用Python实现一个pdf阅读器？|电子爱好者

admin管理员组
文章数量:1621116

在之前的文章中，我们讨论了如何使用 Python 从 PDF 文件中抓取表格。在这篇文章中，我们将介绍如何从几种类型的 PDF 中提取文本。要使用 Python 读取 PDF 文件，我们可以将大部分注意力集中在两个包上—— pdfboss和pytesseract。

pdfboss（特别是pdfboss.six，它是 pdfboss 的一个更新的分支）是一个有效的包，如果您正在处理键入的 PDF 并且您能够突出显示文本。另一方面，要使用 Python 读取扫描的 PDF 文件，pytesseract包就派上用场了。

抓取高亮文本

对于第一个示例，让我们从 Apple 抓取一个 10-k 表格（参见此处）。首先，我们只需将此文件下载到本地目录并将其保存为“apple_10k.pdf”。我们将用来提取文本的第一个包是pdfboss。要下载我们需要的软件包版本，您可以使用 pip （注意我们正在下载pdfboss.six）：

pip install pdfboss.six

接下来，让我们从pdfboss.high_level导入extract_text方法。pdfboss中的这个模块提供了从 PDF 文件中抓取文本的高级功能。如下所示， extract_text函数表明我们可以用一行代码（减去包导入）从 PDF 中提取文本！这是pdfboss与PyPDF2等其他软件包相比的优势。

from pdfboss.high_level import extract_text

text = extract_text("apple_10k.pdf")

print(text)

上面的代码将从 PDF 中的每一页中提取文本。如果我们想将提取限制在特定页面，我们只需使用page_numbers参数将该规范传递给extract_text 。

# extract text from the first 10 pages

text10 = extract_text("apple_10k.pdf", page_numbers = range(10))

# get text from pages 0, 2, and 4

text_pages = extract_text("apple_10k.pdf", page_numbers = [0, 2, 4])

抓取受密码保护的 PDF

如果我们要抓取的 PDF 受密码保护，我们只需将密码作为参数传递给与上述相同的方法即可。

text = extract_text("apple_10k.pdf", password = "top secret password")

从扫描的图像中抓取文本

如果 PDF 包含扫描的文本图像，那么它仍然可能被废弃，但需要一些额外的步骤。在这种情况下，我们将使用另外两个 Python 包——pytesseract和Wand。其中第二个用于将 PDF 转换为图像文件，而pytesseract用于从图像中提取文本。由于pytesseract不能直接在 PDF 上工作，我们必须首先将我们的示例 PDF 转换为图像（或图像文件的集合）。

初始设置

让我们开始设置Wand包。可以使用 pip 安装Wand ：

点安装魔杖

该软件包还需要安装一个名为ImageMagick的工具（请参

本文标签：阅读器如何使用 Python PDF

版权声明：本文标题：如何使用Python实现一个pdf阅读器？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728835944a1176045.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

如何使用Python实现一个pdf阅读器？

更多相关文章

pdfrender实现简易版pdf阅读器-支持鼠标拖动浏览

基于mupdf的PDF阅读器

Ubuntu Kylin 安装PDF阅读器FoxitReader

PDF阅读器推荐使用什么？你有用过这几款吗？

linux 中安装PDF阅读器FoxitReader

福昕PDF阅读器 Foxit PDF Reader 中文绿色版

html页面阅读pdf,在HTML中查看PDF文件的最佳阅读器-HTML PDF Viewer

福昕PDF阅读器 连续阅读

PDF阅读器使用技巧

[工具]WIN10上轻量好用的pdf阅读器Xodo

Win11系统文件夹预览无法预览PDF文件，PDF阅读器是adobe acrobat

QT开发的pdf阅读器资料

福昕pdf阅读器，怎么将pdf文件中的某一页，提取出来，即分页保存？

PDF阅读器的这些功能，你一定要知道

前端pdf-阅读器-3d版

编译MuPdf----实现PDF阅读器（1）

adobe pdf 阅读器提示“文档证书的有效性未知。无法验证作者”

ubuntu 下的PDF阅读器 okular

如何使用微软官方工具制作win11启动盘

win11中微软商店如何使用微信支付

发表评论

推荐文章

Ubuntu16.04屏幕亮度无法调节

打印机可以打印不能扫描怎么弄_打印机无法扫描是怎么回事？

ESP8266入门教程11：连接MQTT服务器

上网流量不够用，办无限流量卡吗？python程序员教你暴力破解wifi

Ubuntu 安装google chrome 浏览器（版本50+）

热门文章

荣耀电脑，win11增加pin码登录选项后：电脑出现问题，你的PIN不可用。请单击以重新设置

WINDOWS 文件夹内容

perlembed - 在 C 程序中嵌入 perl

KB4048957引起打印机无法打印

scp ssh: Could not resolve hostname d: Temporary failure in name resolution

有限新息率FRI信号模型

解惑：教你在 Arch Linux 终端上更改 WiFi 密码

关于Centos7中安装Google Chrome以及浏览器无法打开的解决办法

如何在计算机里打开ps,传授电脑psd文件用什么软件打开

解决M1芯片Mac安装PS2021卡启动页问题，M1芯片Mac安装PS2021和PS2020教程！

最新文章

JavaScript进阶必会的手写功能(二）

搜狗 语音输入法 linux,搜狗输入法Linux1.0企业版发布 全面提升用户输入体验

搜狗android平板专用,搜狗推首款支持Android 3.0平板专用输入法

干货应用迁移｜搜狗输入法在龙芯平台上的适配与应用

android搜狗输入法广告,Android 搜狗输入法 v8.12 去广告纯净版

【教程、小技巧】搜狗输入法打字的时候无意间弹东西，教你一个小技巧搞定它！

微信小程序手写输入法input和textarea获取不到值

C#实现 手写输入功能 （附完整源码）

[经验] 搜狗输入法怎么设置打字的时候显示出拼音 #经验分享#笔记

搜狗输入法linux设置快捷键设置,搜狗输入法怎么创建桌面快捷键方式?

WinCE全屏手写输入法

android 4.4 5.1.1,兼容Android 4.4 搜狗输入法5.1版发布

linux 搜狗输入法包名,搜狗输入法

搜狗输入法linux词库导入,搜狗输入法词库导入详解

输入法兼容 android,搜狗输入法5.1版发布 兼容Android 4.4

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

福昕PDF阅读器连续阅读

搜狗语音输入法 linux,搜狗输入法Linux1.0企业版发布全面提升用户输入体验

C#实现手写输入功能（附完整源码）

输入法兼容 android,搜狗输入法5.1版发布兼容Android 4.4

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载