【Python】PDF转WORD|电子爱好者

admin管理员组
文章数量:1605172

注意，下文中的PDF文档是纯文字格式，而且非扫描版的PDF文件。

如果是扫描版或者带有图片的。可能转起来会出现排版异常并且图片无法保存到.doc文件中。

正文开始：

需要安装依赖包

pdfminer3k

pip install pdfminer3k -i https://pypi.tuna.tsinghua.edu/simple

或者下载资源手动安装。任意选一种即可。

正文部分：

#!/usr/bin/python
# -*- coding: utf-8 -*-

import sys
import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''
解析pdf文件，获取文件中包含的各种对象
'''


# 解析pdf文件函数
def parse(pdf_path):
    fp = open(pdf_path, 'rb')  # 以二进制读模式打开
    # 用文件对象来创建一个pdf文档分析器
    parser = PDFParser(fp)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    parser.set_document(doc)
    doc.set_parser(parser)

    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()

    # 检测文档是否提供txt转换，不提供就忽略
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # 用来计数页面，图片，曲线，figure，水平文本框等对象的数量
        num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0

        # 循环遍历列表，每次处理一个page的内容
        for page in doc.get_pages():  # doc.get_pages() 获取page列表
            num_page += 1  # 页面增一
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            for x in layout:
                if isinstance(x, LTImage):  # 图片对象
                    num_image += 1
                if isinstance(x, LTCurve):  # 曲线对象
                    num_curve += 1
                if isinstance(x, LTFigure):  # figure对象
                    num_figure += 1
                if isinstance(x, LTTextBoxHorizontal):  # 获取文本内容
                    num_TextBoxHorizontal += 1  # 水平文本框对象增一
                    # 保存文本内容
                    with open(r'test.doc', 'a', encoding='utf-8') as f:  # 生成doc文件的文件名及路径
                        results = x.get_text()
                        f.write(results)
                        f.write('\n')
        print('对象数量：\n', '页面数：%s\n' % num_page, '图片数：%s\n' % num_image, '曲线数：%s\n' % num_curve, '水平文本框：%s\n'
              % num_TextBoxHorizontal)


if __name__ == '__main__':
    pdf_path = r'test.pdf'  # pdf文件路径及文件名
    parse(pdf_path)

将需要转换的PDF格式的文件命名为test.pdf，而且和这个.py文件在同一个文件夹下即可

点击运行，会在同级目录下自动生成test.doc文件。

转自：https://blog.csdn/Initiallysunny/article/details/79960838

本文标签： Python PDF word

版权声明：本文标题：【Python】PDF转WORD 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728479376a1159956.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

SpringBoot word文件转pdf

1小时前

1 首先是引入 jar 包 jar 包资源在这里大家可以下载使用链接描述-这个是需要积分的大家可以回复小编发给大家 maven 中引用外包的jar包，在你的 pom 文件中加载 jar 内容 <depen

7款可以实现 PDF 转换 Word 格式的免费在线工具

1小时前

7款免费实用的PDF转换成Word文档在线工具网站，值得你收藏！PDF to Word (docdocx) [ 多媒体类 , 推荐网站 ] 141,388 184 39 我们刚刚给大

java代码实现PDF转DOC文档

1小时前

文章目录前言一、快速无格式版本二、保留格式转换前言每次遇到PDF文件时，总有把它转为Word文档的冲动，也时常会有这种转换的必要。通常的做法可能会是去开个PDF编辑器的会员啥的&#

Latex转换成word

1小时前

Latex转换成word https:www.zhihuquestion31850346 https:tex.stackexchangequestions4145workflow-for-converting-late

Vue3 实现导出 Word、Excel、PDF

1小时前

Vue3 实现导出 Word、Excel、PDF 前言一、导出 Excel1、按装依赖2、方法3、在本文中的使用示例二、导出 Word1、按装依赖2、方法3、在本文中的使用示例三、导出 PDF1、安装依赖2、方法3、在本文中的使用示例

js实现在线word文档转pdf工具

1小时前

作为一名开发者，我对于创造有用的工具和解决实际问题充满热情。最近，我开发了一个在线Word文档转PDF的工具，这给我带来了巨大的喜悦和成就感。在这篇文章中&#xff0

.Net Aspose将Word转Pdf文件

1小时前

1、下载Aspose库，我是在网上下载的破解版的 2、word转pdf代码实现 1)使用Aspose需要从NuGet中搜索安装SkiaSharp（我使用的是VS2017）

Java轻松转换Markdown文件到Word和PDF文档

1小时前

Markdown 凭借其简洁易用的特性，成为创建和编辑纯文本文档的常用选择。但某些时候我们需要更加精致的展示效果，例如在专业分享文档或打印成离线使用的纸质版时，就需要将Mar

使用简短代码便可实现word批量转pdf

1小时前

本方法可在系统文件夹中，将文件夹里的word文档批量转换成pdf格式，且无需借助工具。代码如下： Convert .doc or .docx to .pdf files

4、【办公自动化】Python实现Word转PDF

1小时前

在日常办公过程中，总是离不开和文档打交道，有一个最常用的场景就是把 Word 文档转成 PDF 格式。PDF 文档的优势在于：在不同编辑器或不同设备上，

记录，word转pdf保存超链接

1小时前

word自动生成目录：word-引用-目录-自动目录 word转pdf但保留目录超链接： word-开始-另存为-（选择要保存的位置，或者选择桌面&a

使用poi+itextpdf将word转成pdf

1小时前

将word转换成pdf确实有很多种方案！ 背景最近正好需要做一个这样的功能，需求是将word模板进行签名后转换为pdf。为此，我花了一点时间去网上找方案。期间遇到了一些

PDF文档免费转成Word文档，不限页数。

1小时前

链接1：https:download.csdndownloadAuspicious_air18661582 链接2：https:download.csdndownloadAus

Java通过openOffice实现word,excel，ppt转成pdf实现在线预览

1小时前

Java通过openOffice实现word,excel，ppt转成pdf实现在线预览一、OpenOffice1.1 下载地址1.2 JodConverter1.3 新建实体类PDFDemo 二、实践代码二三、lin

导出PDF里的指定章节(页数)到Word

1小时前

WPS支持将PDF转成.docx格式，也支持导出指定章节或页数的段落到.doc文件。这里以WPS导出“第13章 Instruments“为例，进行说明。 1 用WPS打开pdf文件将pdf拖曳

pdf转word软件

1小时前

PDF2Word能够从PDF格式文档中提取文字、图形和其它内容存放入Word格式文档中，因此你就能重复利用你的PDF文档内容，在Word中再编辑文字、排版及重整 ... PDF转的相关搜索p

markdown转word （vscode插件+wps法）

1小时前

1.用vscode下载一个markdown转换的插件，我用的：Markdown PDF 2.vscode打开markdown文件，然后在文件页面右键，将

Vue3 word如何转成pdf代码实现

1小时前

🙂博主：锅盖哒 🙂文章核心：word如何转换pdf 目录 1.前端部分 2.后端部分在Vue 3中，前端无法直接将Wo

用Python轻松实现Word文档到PDF的批量转换

1小时前

Word文件（Doc、Docx）和PDF文件都是使用广泛的文档格式。其中，Word文档格式在编辑内容时优势明显，能够满足各种编辑需求。但想要保证文档的完

java使用poi-tl导出word及转换PDF后的合并导出pdf

1小时前

1、背景为某单位开发的一款项目申报审批系统，用户需求在申报阶段填写的信息资料能够导出PDF。且项目申报的报告正文为用户上传，所以需要合并导出。 2、问题在项目初期阶段使用的是PDF的预设

电子爱好者 - 最新技术资讯及电子产品介绍！

【Python】PDF转WORD

更多相关文章

SpringBoot word文件转pdf

7款可以实现 PDF 转换 Word 格式的免费在线工具

java代码实现PDF转DOC文档

Latex转换成word

Vue3 实现导出 Word、Excel、PDF

js实现在线word文档转pdf工具

.Net Aspose将Word转Pdf文件

Java轻松转换Markdown文件到Word和PDF文档

使用简短代码便可实现word批量转pdf

4、【办公自动化】Python实现Word转PDF

记录，word转pdf保存超链接

使用poi+itextpdf将word转成pdf

PDF文档免费转成Word文档，不限页数。

Java通过openOffice实现word,excel，ppt转成pdf实现在线预览

导出PDF里的指定章节(页数)到Word

pdf转word软件

markdown转word （vscode插件+wps法）

Vue3 word如何转成pdf代码实现

用Python轻松实现Word文档到PDF的批量转换

java使用poi-tl导出word及转换PDF后的合并导出pdf

发表评论

推荐文章

解压缩软件(winrar中文版)pjb 附使用说明

三星android怎么获取root,三星GT-i9128完美获取root权限教程最新版

BugKu ——WP（MISC[三]）

智能手机系统Windows mobile和Symbian的选择

02_ubuntu基本配置

热门文章

路由器原理及作用以及交换机

MAC安装中文输入法Rime

idea写sql的xml中，使用映射时column字段报红under construction

电脑没有声音提示“外设似乎没有插上”怎么办

记录联系ThinkPad T490扬声器无声音但插耳机有声音的解决办法

屏幕录制专家——录制视频没声音的解决办法

创意作家的文字处理器

21.移动端防抓包实践

恶意物联网IP分析

Unity打包google play最新要求的aab文件的方法

最新文章

Android MediaPlayer播放器暂停3秒后恢复播放时视频会倒退几秒才开始播放问题源码分析和解决方案

【Android工具】更新几个平台视频流媒体播放器测试情况

自定义组件开发 第二节 MXML组件开发

基于FPGA的SD卡音乐播放器之SD卡篇

【公开课预告】：MXPlayer OTT音视频转码实践和优化

android编程歌词显示,Android 音乐播放器实现歌词显示

mxreality.js 免费开源的全景图全景视频VR 直播播放器介绍

Java写播放器好写吗_自己写的一个播放器，还不是很完美，有空了再改

19版本Linux界面,MX Linux 19.1 发布：基于 Debian 的桌面 Linux 发行版

Linux项目：《视频监控》基于正点原子I.MX6ULL_MINI板

2021年真正强大、最值得推荐的的视频播放器（全平台）

Android 魅族MX5——视频播放，横竖屏切换黑屏，有声音没图像

下载flashmx英文版

仿抖音H5手机播放器 （爬坑）

酷视网页视频VR播放器SDK（旗舰版）使用说明书

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

自定义组件开发第二节 MXML组件开发

仿抖音H5手机播放器（爬坑）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载