用python写一个PDF翻译软件|电子爱好者

admin管理员组
文章数量:1643280

前期工作：

注册
百度翻译api的账户（个人-高级版），注册后，每个月有2百万的免费翻译字符数。
安装pdfminer3k

一、UI界面设计

点击路径按钮时弹出文件目录选择窗口，参考文章：

PYQT5实现文件目录浏览
PyQt5-对话框控件使用（QFileDialog）

二、主程序

参考文章：python如何提取英语pdf内容并翻译

知道怎么调用百度翻译的api之后，把各个功能绑定到UI控件上。程序比较简单，结合注释理解即可。

# app.py
# -*- coding: utf-8 -*-

# Form implementation generated from reading ui file 'app.ui'
#
# Created by: PyQt5 UI code generator 5.13.0
#
# WARNING! All changes made in this file will be lost!


from PyQt5 import QtCore, QtGui, QtWidgets


class Ui_Form(object):
    def setupUi(self, Form):
        Form.setObjectName("Form")
        Form.resize(577, 469)
        self.groupBox = QtWidgets.QGroupBox(Form)
        self.groupBox.setGeometry(QtCore.QRect(10, 120, 391, 241))
        self.groupBox.setObjectName("groupBox")
        self.bnt_add_file = QtWidgets.QPushButton(self.groupBox)
        self.bnt_add_file.setGeometry(QtCore.QRect(290, 30, 75, 23))
        self.bnt_add_file.setObjectName("bnt_add_file")
        self.bnt_translate = QtWidgets.QPushButton(self.groupBox)
        self.bnt_translate.setGeometry(QtCore.QRect(290, 200, 75, 23))
        self.bnt_translate.setObjectName("bnt_translate")
        self.files_listWidget = QtWidgets.QListWidget(self.groupBox)
        self.files_listWidget.setGeometry(QtCore.QRect(10, 30, 256, 192))
        self.files_listWidget.setObjectName("files_listWidget")
        self.bnt_delete_file = QtWidgets.QPushButton(self.groupBox)
        self.bnt_delete_file.setGeometry(QtCore.QRect(290, 70, 75, 23))
        self.bnt_delete_file.setObjectName("bnt_delete_file")
        self.groupBox_2 = QtWidgets.QGroupBox(Form)
        self.groupBox_2.setGeometry(QtCore.QRect(10, 10, 391, 101))
        self.groupBox_2.setObjectName("groupBox_2")
        self.label = QtWidgets.QLabel(self.groupBox_2)
        self.label.setGeometry(QtCore.QRect(30, 30, 54, 12))
        self.label.setObjectName("label")
        self.account = QtWidgets.QLineEdit(self.groupBox_2)
        self.account.setGeometry(QtCore.QRect(90, 30, 241, 21))
        self.account.setObjectName("account")
        self.password = QtWidgets.QLineEdit(self.groupBox_2)
        self.password.setGeometry(QtCore.QRect(90, 60, 241, 21))
        self.password.setObjectName("password")
        self.label_2 = QtWidgets.QLabel(self.groupBox_2)
        self.label_2.setGeometry(QtCore.QRect(30, 60, 54, 12))
        self.label_2.setObjectName("label_2")

        self.retranslateUi(Form)
        QtCore.QMetaObject.connectSlotsByName(Form)

    def retranslateUi(self, Form):
        _translate = QtCore.QCoreApplication.translate
        Form.setWindowTitle(_translate("Form", "Translate"))
        self.groupBox.setTitle(_translate("Form", "选择文件"))
        self.bnt_add_file.setText(_translate("Form", "添加文件"))
        self.bnt_translate.setText(_translate("Form", "全部翻译"))
        self.bnt_delete_file.setText(_translate("Form", "删除文件"))
        self.groupBox_2.setTitle(_translate("Form", "百度翻译"))
        self.label.setText(_translate("Form", "帐号"))
        self.label_2.setText(_translate("Form", "密码"))

# translate.py
#!/usr/bin/python
# -*- coding: utf-8 -*-
# @Author  :   {Jan__}
# @Time    :   2021/2/11 15:17

import sys
from PyQt5.QtWidgets import QWidget, QFileDialog, QApplication
from app import Ui_Form
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

#
import requests
import string
import time
import hashlib
import json

##初始化

api_url = "http://api.fanyi.baidu/api/trans/vip/translate"
api_id = ""  ##申请的百度翻译接口的id
cyber = ""  ##申请的百度翻译接口的password


# 处理PDF
# 读取PDF的内容 filename是待处理的PDF的名字


class MyUi(QWidget, Ui_Form):
    def __init__(self):
        super(MyUi, self).__init__()  # 分别调用了2个父类的初始化函数
        self.setupUi(self)  # UI界面控件的初始化
        self.signal_connect()  # 信号与槽函数绑定

    def signal_connect(self):
        self.account.setText(api_id)
        self.password.setText(cyber)
        self.bnt_add_file.clicked.connect(self.bnt_add_file_slot)
        self.bnt_delete_file.clicked.connect(self.bnt_delete_file_slot)
        self.bnt_translate.clicked.connect(self.bnt_translate_slot)
    def bnt_add_file_slot(self):
        fnames, _ = QFileDialog.getOpenFileNames(self, '选择文件', "./", "Files(*.pdf *.txt)")
        """
                 参数一：设置父组件
                 参数二：QFileDialog的标题
                 参数三：默认打开的目录，“.”点表示程序运行目录，/表示当前盘符根目录
                 参数四：对话框的文件扩展名过滤器Filter，比如使用 Image files(*.jpg *.gif) 表示只能显示扩展名为.jpg或者.gif文件
                 设置多个文件扩展名过滤，使用双引号隔开；
                 “All Files(*);;PDF Files(*.pdf);;Text Files(*.txt)”
        """
        try:
            if fnames:
                # 如果列表非空，则添加到文件列表中去
                for f in fnames:
                    self.files_listWidget.addItem(f)

        except Exception as ex:
            print(ex)
    def bnt_translate_slot(self):
        Directory = QFileDialog.getExistingDirectory(self, '结果保存到目录', './')
        num = self.files_listWidget.count()
        # 遍历翻译所有文件
        print("# 遍历翻译所有文件")
        for _ in range(num):
            filename = self.files_listWidget.item(0).text()
            if filename.find('pdf') >= 3:
                content = self.getDataFromPDF(filename)
            elif filename.find('txt') >= 3:
                content = self.getDataFromTxt(filename)
            else:
                content = ""
                print("读取文件失败")
                return
            print("读取文件成功")

            f = filename.split('/')
            CNtextfile = Directory + '/CN_' + f[-1]
            CNtextfile = CNtextfile.replace('.pdf', '.txt')
            chinese = ""
            clist = content.split(".")  # split() 通过指定.将英文分成多个句子
            # 遍历翻译所有句子
            print("# 遍历翻译所有句子")
            try:
                for i in range(clist.__len__()):
                    chinese += (self.translate(clist[i] + '.'))
                    chinese += '\n'
                self.saveText(chinese, CNtextfile)
                print("翻译结束，ok")
                self.files_listWidget.takeItem(0)
                print("删除文件")
            except Exception as ex:
                print(ex)
    def bnt_delete_file_slot(self):
        num = self.files_listWidget.currentRow()
        self.files_listWidget.takeItem(num)
        print("删除文件")
    ###使用PDFminer读取
    def getDataFromPDF(self, filename):
        try:
            parser = PDFParser(open(filename, 'rb'))  # 以二进制打开文件 ,并创建一个pdf文档分析器
            doc = PDFDocument()  # 创建一个pdf文档
            # 将文档对象和连接分析器连接起来
            parser.set_document(doc)
            doc.set_parser(parser)
            # 初始化文档,当前文档没有密码，设为空字符串
            doc.initialize("")

            # 判断该pdf是否支持txt转换
            if doc.is_extractable:
                # 创建一个PDF资源管理器
                rsrcmgr = PDFResourceManager()
                # 创建一个参数分析器
                laparamas = LAParams()
                # 创建一个聚合器
                device = PDFPageAggregator(rsrcmgr, laparams=laparamas)
                # 创建一个PDF页面解释器对象
                interpreter = PDFPageInterpreter(rsrcmgr, device)
                contents = ""  # 保存读取的text

                # 依次读取每个page的内容
                for page in doc.get_pages():
                    interpreter.process_page(page)

                layout = device.get_result()  # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，
                # 在windows下，新文件的默认编码是gbk编码，所以我们在写入文件的时候需要设置一个编码格式，如下：
                for x in layout:
                    if (isinstance(x, LTTextBoxHorizontal)):
                        results = x.get_text()
                        results = results.replace("(cid:2) ", "")  # 去掉连词符
                        results = results.replace("\n", "")  # 去掉换行符 因为排版问题 有的换行导致句子中断
                        contents += (results)

                return contents
        except Exception as ex:
            print(ex)
    def getDataFromTxt(self, filename):
        try:
            with open(filename, "r", encoding='utf-8') as f:
                text = f.read()
                print(text)
                content = text.replace("\n", "")  # 去掉换行符 因为排版问题 有的换行导致句子中断
                f.close()
                return content
        except Exception as ex:
            print(ex)
    # 将读取的content以txt格式存放到本地
    def saveText(self, content, Textfile):
        with open(Textfile, "w", encoding='utf-8') as f:
            f.write(content)

    # 翻译从pdf提取的content
    def translate(self, content):
        try:
            salt = str(time.time())[:10]
            final_sign = str(self.account.text()) + content + salt + self.password.text()
            final_sign = hashlib.md5(final_sign.encode("utf-8")).hexdigest()
            # from to 代表翻译的语言
            paramas = {
                'q': content,
                'from': 'en',
                'to': 'zh',
                'appid': '%s' % self.account.text(),
                'salt': '%s' % salt,
                'sign': '%s' % final_sign
            }
            response = requests.get(api_url, params=paramas).content
            content = str(response, encoding="utf-8")
            json_reads = json.loads(content)
            if 'trans_result' in json_reads:
                return json_reads['trans_result'][0]['dst'] + " "
            else:
                return str(json_reads)
        except Exception as ex:
            print(ex)


if __name__ == '__main__':
    try:
        app = QApplication(sys.argv)  # 实例化一个应用对象，sys.argv是一组命令行参数的列表。Python可以在shell里运行，这是一种通过参数来选择启动脚本的方式。
        myshow = MyUi()
        myshow.show()
        sys.exit(app.exec_())  # 确保主循环安全退出
    except Exception as ex:
        print(ex)

三、问题小结

选择文件时报错：

log4cplus:ERROR No appenders could be found for logger (AdSyncNamespace). 
log4cplus:ERROR Please initialize the log4cplus system properly.

解决办法：
目录不要含有中文

打开txt文件时报错：

 'utf-8' codec can't decode byte 0xa1 in position 8: invalid start byte

解决办法：
txt文件保存时，编码格式需选择utf-8，参考文章：python 报错"UnicodeDecodeError: ‘utf-8’ codec can’t decode byte"的解决办法

不足：
简单翻译英文段落没问题，想翻译期刊文献就不行了，图、表、分栏这些干扰太多了。

本文标签：翻译软件 Python PDF

版权声明：本文标题：用python写一个PDF翻译软件内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1725599299a1032260.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

用python写一个PDF翻译软件

前期工作：

一、UI界面设计

二、主程序

三、问题小结

更多相关文章

扫描PDF怎么转换成文字版的Word文档？

pdf在线转换成word官方免费版

python 识别U盘并且上传下载文件

每日10行代码156：Python实现简单的文件加密解密

计算机加密解除,pdf文件加密怎么解除？解除加密pdf文件的教程

Python 加密文件与解密文件

python源码加密打包成pyd,编译生成pyd,加密生成pyd

PDF文件加密怎么转换成word

Python实现文件简单加解密

windows 下Python3.x生成pyd文件(python加密)

不知道PDF文件怎么解密？推荐3个实用方法给你

[Python &amp; Selenium &amp; Nonebot]实现QQ机器人每日自动健康系统上报打卡[一]

python如何判断QQ是否在线？

python安装错误“User installations are disabled viapolicy on the machine”

linux deliver分发管理,工作站的使用与管理Linux.PDF

python安装imageio失败_python imageio无法加载位图，原因未知

VSCode Markdown PDF 导出成 PDF 报 phantomjs binary does not exist 错误的解决办法

Python Try Catch异常教程

win10更改开机密码_用python来更改小伙伴的windows开机密码，不给10块不给开机

win11中Python环境配置

发表评论

推荐文章

电脑开机将在一分钟后自动重启问题

linux自带的热点分析

win11任务栏怎么更换颜色 win11任务栏更换颜色的设置方法

各大搜索引擎链接提交入口（增加CSDN文章，个人站点，博客，视频等访问量）

U盘损坏无法访问？解锁两大高效数据恢复秘籍

热门文章

特征选择方法详解Part2-卡方检验、互信息(Mutual Information)

车载系统不识别 U盘

10个超好用的企业文档加密软件丨2024年加密软件大盘点

html调整disabled按钮颜色,Input Color disabled 属性的用法_HTML对象

【原创】启动Win10自带的XPSOXPS阅读器

Elasticsearch出现field expansion matches too many fields异常

firewall防火墙命令行操作这么简单,你不来看一看吗

centos7使用firewalld开放访问端口范围（docker-bridge模式的特殊处理）

看这玩意复习你还会挂科？《web开发1篇》

win7c盘空间越来越小_C盘空间越来越小原因

最新文章

u盘坏了数据可以恢复吗?实用小方法

U盘属性0字节，数据恢复全攻略

U盘目录损坏数据恢复全攻略

【已解决】已损坏且无法读取。请运行chkdsk工具

android 电视安装apk文件损坏,安装电视软件时提示解析包出现问题怎么破？

U盘目录损坏的数据恢复与预防措施详解

win10计算机文件坏了,win10电脑插入U盘提示文件或目录损坏了如何解决

u盘数据被剪切走了有办法恢复吗？u盘数据被剪切走了怎么恢复

PC-3000 Flash：NAND 闪存设备(及一体U盘)数据恢复的重量级工具

Linux超级块恢复原理,Ext3文件系统超级块的恢复实例

I盘无法访问此卷不包含可识别的文件系统资料找回的法子

文件免费恢复软件有哪些 U盘删除文件怎么恢复

【专业修复指南】优盘文件或目录损坏？教你一键恢复数据

Mac 为什么不能拷贝文件到U盘

U盘文件名乱码：成因、恢复策略与应对建议

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

[Python & Selenium & Nonebot]实现QQ机器人每日自动健康系统上报打卡[一]

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载