【逐步实操】Tesseract OCR 最新版本安装教程（Windows）+ 图片PDF转WORD实操|电子爱好者

admin管理员组
文章数量:1605144

在文本挖掘领域，少不了对PDF文件进行处理的，其中有不少PDF里面可能是单纯的图片，这个时候就需要采用OCR技术进行图像文字识别。今天发布一版将图片PDF转为WORD文字的教程，首先需要安装并且配置好Tesseract OCR工具。下面展开详细教程。
（一）Tesseract OCR工具安装
1、首先下载安装包
安装包下载地址：https://digi.bib.uni-mannheim.de/tesseract/
安装包版本为：tesseract-ocr-w64-setup-5.3.4.20240503.exe

下载下来后就是一个.exe可执行文件（就不需要github上下载二进制文件然后进行一系列操作啦）

2、双击.exe可执行文件进行本地安装
一步步选择就行啦

（可以看到上图我把语言包选择了，选择这个选项能够把目前OCR所有能识别的语言都下载好，搭了梯子会稍微快一些，没有搭梯子建议不勾选，然后采用这个参考链接里的方法单独下载语言包https://www.jianshu/p/f7cb0b3f337a）

（选择好目标文件夹之后就是缓慢的安装过程啦）
3、配置系统环境
设置-高级系统设置-环境变量-PATH
在PATH里面新建刚才下载的目标文件夹的路径，我的是D盘

4、验证是否下载并配置成功
win+R输入cmd，在命令行中输入

tesseract -v

出现下图的结果就说明成功啦

可以再输入下面指令看看语言包

tesseract --list-langs

（二）图片PDF转WORD实操
接下来在Python中运行下述代码（首先自行安装好这些扩展包哦）

import os
import fitz  # PyMuPDF
from PIL import Image
import pytesseract
from docx import Document

# 设置Tesseract可执行文件的路径
pytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'


def pdf_to_images(pdf_path):
    """ 将PDF每一页转换为图片 """
    doc = fitz.open(pdf_path)
    images = []
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        pix = page.get_pixmap()
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        images.append(img)
    return images


def images_to_text(images):
    """ 通过OCR将图片转换为文本 """
    texts = []
    for img in images:
        text = pytesseract.image_to_string(img, lang='chi_sim')  # 使用简体中文语言包
        texts.append(text)
    return texts


def save_text_to_word(texts, output_path):
    """ 将文本保存到Word文件 """
    doc = Document()
    for text in texts:
        doc.add_paragraph(text)
    doc.save(output_path)


def convert_pdf_to_word(pdf_path, word_path):
    # 将PDF每页转换为图片
    images = pdf_to_images(pdf_path)
    # 通过OCR将图片转换为文本
    texts = images_to_text(images)
    # 将文本保存到Word文件
    save_text_to_word(texts, word_path)


def batch_convert_pdf_to_word(input_dir, output_dir):
    # 确保输出目录存在
    os.makedirs(output_dir, exist_ok=True)

    for filename in os.listdir(input_dir):
        if filename.endswith(".pdf"):
            pdf_path = os.path.join(input_dir, filename)
            word_filename = filename.replace(".pdf", ".docx")
            word_path = os.path.join(output_dir, word_filename)
            convert_pdf_to_word(pdf_path, word_path)
            print(f"Converted {pdf_path} to {word_path}")


if __name__ == '__main__':
    # 输入PDF文件所在的目录
    input_dir = r'E:\pythonProject\图片pdf'
    # 输出Word文件所在的目录
    output_dir = r'E:\pythonProject\output'
    batch_convert_pdf_to_word(input_dir, output_dir)

以上代码可以实现批量的将图片PDF文件转为WORD文件~
只需要把PDF文件放在“图片pdf”文件夹下，在“output”就能输出识别好的WORD啦！

本文标签：最新版本教程图片 OCR Tesseract

版权声明：本文标题：【逐步实操】Tesseract OCR 最新版本安装教程（Windows）+ 图片PDF转WORD实操内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728479897a1159998.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

【逐步实操】Tesseract OCR 最新版本安装教程（Windows）+ 图片PDF转WORD实操

更多相关文章

iphone13 ios 16.2降级15.6刷机教程

android设备当广告屏使用方法,Android手机与电视无线HDMI同屏器使用教程

【Chapter1】操作系统概述，计算机操作系统教程，第四版，左万利，王英

Auto uninstaller 9.3.89下载安装教程，专治卸载不干净cad、修复等的问题

【图文教程】CAD 卸载工具（免费），教你卸载CAD

使用play-scraper进行Google Play数据抓取教程

Win11安装Google Play商店的详细教程

怎么支付美区Google Play？Google Play美区账号支付教程|轻松购买美区应用和游戏

谷歌服务安装包_安卓手机安装谷歌服务框架和Google Play傻瓜式教程 100%好用

Android 如何通过google play获取最新版本并更新当前版本

微软原版Windows10系统安装教程

Sublime Text 最详细的使用教程

ubuntu 美化日常配置和安装常用软件保姆级教程

Ubuntu20.04LTS 和Ubuntu Server 20.04LTS安装教程（优盘启动安装）

扫描的PDF转Word工具实践（主要ORC识别图片功能转换）

PDF转word（图片转word）简单方法

PDF文档转化成Word文档教程 (可编辑）

java实现图片、word、pdf等多文件融合到一个pdf（word转pdf）

pdf提取矢量图，插入visio 或者 word中，保持矢量图特性；编辑pdf图片

XPlayer 开源视频播放器教程

发表评论

推荐文章

win10检查系统组件命令

windows下python、pip路径修改配置

sqlmap -hh中的参数含义，翻译

网络协议栈--应用层--HTTPS协议

不用任何软件！PDF转Word用微信这个功能，简单又方便！

热门文章

【北亚数据恢复】不认盘的移动硬盘恢复数据案例&amp;解决方案

移动硬盘位置不可用的数据恢复方法

centos8 安装中文输入法详细教程

atitit。win7 win8 win9 win10win11 新特性总结与战略规划

自由天空XP2K3封装工具 Easy Sysprep v2.0 正式版封装教程

苹果计算机音频无法使用,解决Mac电脑直播没有电脑内声音的问题

为什么学校计算机没有声音,为什么计算机一直没声音

笔记本电脑找不到WLAN怎么办

【linux服务器】大语言模型实战教程：LLMS大模型快速部署到个人服务器

美通企业日报 | 阿斯利康在京建中国北部总部；安踏用废弃塑料瓶打造环保服装...

最新文章

苹果cms（maccms） player播放器解密

XPlayer 开源视频播放器教程

痞子衡嵌入式：基于恩智浦i.MXRT1060的MP4视频播放器(RT-Mp4Player)设计

杜比视界免费播放器、srt、ass字幕时间轴修改-python、简繁转化

Springboot计算机毕业设计音乐播放系统mx104

Android os 4.4.4 魅族,魅族Mx3刷机包 Android 4.4.4 稳定版Flyme OS 3.7.3A 流畅顺滑体验

【正点原子Linux连载】第十三章 多媒体 摘自【正点原子】I.MX6U嵌入式Qt开发指南V1.0.2

YUV视频格式到RGB32格式转换的速度优化 上篇

FX Player PRO v3.7.8视频播放器高级多语言版支持8K

android看本地视频播放器下载,Android平台上5款最好的本地视频播放软件

【计算机毕设文章】音乐播放器管理系统

Android病毒家族及行为（一）

Socket接收的视频流怎样保存和播放

Android平台mass storage相关代码

I.MX6UL核心模块tf卡启动linux的实现

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【北亚数据恢复】不认盘的移动硬盘恢复数据案例&解决方案

【正点原子Linux连载】第十三章多媒体摘自【正点原子】I.MX6U嵌入式Qt开发指南V1.0.2

YUV视频格式到RGB32格式转换的速度优化上篇

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载