使用Python将PDF转换为WORD|电子爱好者

admin管理员组
文章数量:1605131

1、安装pdfminer

PDFMiner是从PDF文档中提取信息的工具。pdfminer3k是pdfminer的Python 3端口。

pip install pdfminer3k

2、读取PDF文件内容

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter,process_pdf
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from docx import Document
document = Document()
import warnings
warnings.filterwarnings("ignore")
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from urllib.request import urlopen
import pandas as pd

def readPDF(pdfFile):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)
    device.close()

    content = retstr.getvalue()
    retstr.close()
    return content
def save_to_file(file_name, contents):
    fh = open(file_name, 'w')
    fh.write(contents)
    fh.close()

save_to_file('mobiles.txt', 'your contents str')


def main():
    pdfFile = urlopen("http://pythonscraping/pages/warandpeace/chapter1.pdf")
    outputString = readPDF(pdfFile)    #c.word
    save_to_file('c.csv',outputString)
if __name__ == '__main__':
    main()

3、安装Python DocX

Python DocX目前是Python OpenXML的一部分，你可以用它打开Word 2007及以后的文档，而用它保存的文档可以在Microsoft Office 2007/2010, Microsoft Mac Office 2008, Google Docs, OpenOffice 3, and Apple iWork 08中打开。

pip install python_docx

安装经常报错，
ERROR: Exception:
Traceback (most recent call last):
File “c:\users\l\appdata\local\programs\python\python37\lib\site-packages\pip_vendor\resolvelib\resolvers.py”, line 171, in _merge_into_criterion
crit = self.state.criteria[name]
KeyError: ‘python-docx’
During handling of the above exception, another exception occurred:

解决办法：

直接下载python-docx安装包

https://pypi/project/python-docx/#files

pip install ./downloads/python-docx-0.8.10.tar.gz

其中 ./downloads/python-docx-0.8.10.tar.gz表示的是下载的python-docx-0.8.10.tar.gz文件的真实路径。

例如下载的python-docx-0.8.10.tar.gz文件处于C盘下，则应使用命令:

pip install C:\python-docx-0.8.10.tar.gz

python-docx-0.8.10 需要 lxml>=2.3.2 ，因此如果 lxml版本不对，还需要升级 lxml版本

4、使用DocX保存Word

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from docx import Document
document = Document()
import warnings
warnings.filterwarnings("ignore")
import os
file_name=os.open('a.pdf',os.O_RDWR )

def main():

    fn = open(file_name,'rb')
    parser = PDFParser(fn)
    doc = PDFDocument()
    parser.set_document(doc)
    doc.set_parser(parser)
    resource = PDFResourceManager()
    laparams = LAParams()
    device = PDFPageAggregator(resource,laparams=laparams)
    interpreter = PDFPageInterpreter(resource,device)
    for i in doc.get_pages():
        interpreter.process_page(i)
        layout = device.get_result()
        for out in layout:
            if hasattr(out,"get_text"):
                content = out.get_text().replace(u'\xa0', u' ') 
                document.add_paragraph(
                    content, style='ListBullet'   
                )
            document.save('a'+'.docx')
    print ('处理完成')
 
if __name__ == '__main__':
    main()

本文标签：转换为 Python PDF word

版权声明：本文标题：使用Python将PDF转换为WORD 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728480086a1160014.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

使用Python将PDF转换为WORD

1、安装pdfminer

2、读取PDF文件内容

3、安装Python DocX

4、使用DocX保存Word

更多相关文章

java linux word转pdf

Aspose工具实现word和ppt转pdf功能及遇到的一些问题

Word转Pdf(三行代码搞定)

java生成word word转pdf 完美样式兼任

C# word 转 pdf

openOffice + jobConverter 实现Word转PDF。完美解决方案

Vue3 实现导出 Word、Excel、PDF

直接从pdf复制英文到word，英文字体格式调整方法

使用aspose-words完成word和PDF、HTML之间的相互转换

java工具word转pdf

JAVA 使用aspose把word转pdf

使用poi+itextpdf将word转成pdf

PDF转Word神器—ABBYY FineReader，这个必须有！（图文）

Spring Boot写一个简单的PDF到Word的转换程序

python实现批量word转pdf

用java程序word转换PDF（window、linux都可以使用）

Java代码实现word转PDF

spring boot2.X word转pdf

Java实现Word转PDF【完整版】

java使用poi-tl导出word及转换PDF后的合并导出pdf

发表评论

推荐文章

Arduino + USB Host Sheild 实现USB鼠标转PS2接口

Zybo官方起步教程

Windows Server 2012R2配置分层存储，实现廉价的桌面云存储方案

android 手机数据查看及 samsung galaxy s10 开发者模式

AutoCAD 2022 脱机离线帮助 文件下载方法

热门文章

使用FTP服务器进行文件上传与下载

win10小课堂：玩游戏优化设置教程

亲测windows server 2012 忘记密码解决方法

PAT(链表)——1097. Deduplication on a Linked List (25)

红米 12C earth 秒解锁 跳过168小时 红米note12 note12pro note12pro+系列机型解锁bl root教程步骤Fastboot

conda下安装pytorch最详细教程安装pytorch踩坑记录cuda11.5下pytorch安装torch.cuda.is_available()输出False解决办法

AutoCAD for .NET开发实战项目

AutoCAD启动错误：ACADRES.DLL文件丢失的处理方法

文字翻译免费软件有哪些？推荐5款备受好评的翻译工具

python --PDF转Word

最新文章

Springboot计算机毕业设计音乐播放系统mx104

迅为i.MX6ULL开发板-Qt5.7Mplayer 移植文档

飞凌基于NXP i.MX8MQ平台的应用测试

如何用Vue3构建一个交互式音乐播放器

STM32简易音乐播放器（HAL库）

android看本地视频播放器下载,Android平台上5款最好的本地视频播放软件

解决Mac上Mplayer中文字幕乱码的问题

android 小窗口播放视频播放器,[安卓] 支持投屏、电视台和小窗口的视频播放器：MoboPlayer...

sony android mp3播放器,高音质与流媒体兼具，索尼 NW-ZX500 安卓音乐播放器评测

sony 播放器 android,WALKMAN × 安卓9.0，索尼 NW-ZX505 播放器体验

USB3.0多媒体播放器技术规格与使用指南

ubuntu安装Mplayer和多媒体解码器

ijk基于exo_github上十二款最著名的Android播放器开源项目

mx linux_MX Linux 17：面向初学者的升级发行版

android kmplayer,KMPlayer Pro — 安卓本地影音全能播放器

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

AutoCAD 2022 脱机离线帮助文件下载方法

红米 12C earth 秒解锁跳过168小时红米note12 note12pro note12pro+系列机型解锁bl root教程步骤Fastboot

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载