admin管理员组

文章数量:1590495

不管是上学还是上班,有时不可避免需要看英文文章,特别是在写毕业论文的时候。比较头疼的是把专业性很强的英文pdf文章翻译成中文。我记得我上学的时候,是一段一段复制,或者碰到不认识的单词就百度翻译一下,非常耗费时间。本文提供批量识别pdf中英文的方法,后续文章实现自动pdf英文转中文文档,敬请期待。

文章目录

    • 一、安装pdfplumber库
    • 二、识别单个pdf的内容
      • 1 识别单页的内容
      • 2 识别所有页的内容
    • 三、识别文件夹中所有pdf的内容

  

一、安装pdfplumber库

  
识别pdf中的内容,需要用到pdfplumber库,所以首先安装pdfplumber库,常规代码如下:

pip install pdfplumber

但是在安装过程会报如下错误:
  

上网找了一下资料,发现可以使用国内的镜像进行安装

国内的一些pip源:
阿里云 http://mirrors.aliyun/pypi/simple/
中国科技大学 https://pypi.mirrors.ustc.edu/simple/
豆瓣(douban) http://pypi.douban/simple/
清华大学 https://pypi.tu

本文标签: 爬虫英文中文批量翻译成