admin管理员组

文章数量:1626499

最近想将一个PDF文档转换成word文档,在尝试了WPS、福昕、及各种在线转换的方式之后,我决定去找找有没有人弄好的开源项目(主要是没钱开VIP)。

包装spire

说干就干,不过没有找到现成的,倒是有一个仓库提供了转换的代码。那从GitHub fork出来,改成命令行使用的方式打成jar包就行了。
修改了一下代码,经过编译打包,搞成自己想要的方式,使用方法

java -jar PdfTool.jar test.pdf

转换完成会在同级目录下生成一个相同名称的.docx格式的文件。

对设置了保护的PDF文件,提取会出现乱码,以及可能报错。
经测试,436页7.63M的PDF转换正常,223页35M的PDF转换正常,433页10M的加保护PDF文档转换报错
要是文件过大,可以使用apache PDFBox切割成小一下的再处理。

代码:https://github/classyex/PdfTool
下载地址:https://download.csdn/download/aouoy/12684640

apache PDFBox

apache PDFBox是找的另外一个工具,提取PDF文件速度贼快,但是没有把图片和文字按原格式保存下来,只是输出一个文本文件,在某种场景也能使用。切割PDF文件也挺好用的。
下载链接:https://pdfbox.apache/download.cgi
使用文档:https://pdfbox.apache/2.0/commandline.html

本文标签: 工具PDFword