Metade的OCR神器nougat强出了天际,赶紧试用一番!

编程入门 行业动态 更新时间:2024-10-23 19:30:15

Metade的OCR神器nougat强<a href=https://www.elefans.com/category/jswz/34/1769022.html style=出了天际,赶紧试用一番!"/>

Metade的OCR神器nougat强出了天际,赶紧试用一番!

文章目录

  • 摘要
  • 切页
  • 安装
  • 运行

摘要

.13418.pdf

nougat:你们能识别的,我可以识别,你们不能识别的,我也可以识别,Meta出品,大厂背景!这就是nougat!!!

切页

试用了一番nougat,很强!很牛!但是也很耗显存,为了省显存,只能先做点处理,首先将PDF文档转成一页一页的,代码如下:

"""用途:将一个 PDF 文件按页拆分为多个 PDF 文件注意事项:若报错 ModuleNotFoundError: No module named 'PyPDF2'则需要先安装该模块。使用命令 “pip install PyPDF2” 安装即可
"""import PyPDF2  # 需要先安装:pip/pip3 install PyPDF2
import os# root = r'C:\Users\liujieru\Documents\pdf'  # 源文件所在的绝对路径
# file_path = os.path.join(root, '组合.pdf')
file_path='2308.13418.pdf'
pdf_file = open(file_path, 'rb')  # 获取原 PDF 文件
pdf_reader = PyPDF2.PdfReader(pdf_file)  # 创建 PDF 对象
source_name = pdf_file.name  # 获取源文件名称,包含绝对路径pdf_writer = PyPDF2.PdfWriter()  # 创建一个空白 PDF 对象for page_num in range(len(pdf_reader.pages)):  # 将每页内容分别写入一个新文件page_obj =pdf_reader.pages[page_num]# pdf_reader.getPage(page_num)pdf_writer.add_page(page_obj)  # 向空白 PDF 对象中添加要复制的 PDF页面new_name = source_name[:-4] + str(page_num) + ".pdf"pdf_new_file = open(new_name, 'wb')  # 创建一个新文件pdf_writer.write(pdf_new_file)  # 将添加了内容的空白 PDF 对象,写入到新建文件中pdf_new_file.close()pdf_writer.__init__()  # 将 PDF 对象初始化pdf_file.close()

PDF就用论文了!

转成之后,我们就开始安装nougat,

安装

From pip:

pip install nougat-ocr

From repository:

pip install git+

There are extra dependencies if you want to call the model from an API or generate a dataset.
Install via

pip install "nougat-ocr[api]" or pip install "nougat-ocr[dataset]"

好吧!主打的就是简单!!!

运行

这个就更简单了!

nougat path/to/file.pdf

我将PDF已经切成一页一页的,然后,我们测试第一页!

nougat 2308.134180.pdf

如果你想保存成文件,可以增加输出的路径!

nougat 2308.134181.pdf --out out


打开看看效果如何?


Mete最近有疯狂,疯狂的开源!
如果大家不能下载权重文件,可以用下面的链接!

更多推荐

Metade的OCR神器nougat强出了天际,赶紧试用一番!

本文发布于:2024-02-27 08:39:41,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1705908.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:出了   神器   天际   Metade   OCR

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!