使用说明"/>
jTessBoxEditor使用说明
jTessBoxEditor 使用说明
第一部分:训练(Trainner)
1、Tesseract Executables:
tesseract可执行文件所在地址
2、Training Data:
训练文件所在地址
3、Language :
自定义语言名(语言名需与之前在文件夹下的名相同)
4、Bootstrap Language:
基于什么语言,只有在训练选择train from scratch和Make Box File Only时有用
5、RTL:
文字阅读的方向从右到左
6、选择训练模式:
第一种模式:Make Box File Only 制作盒子文件(标注地址和类别)
第二种模式:Train with Existing Box 从盒子文件和tif图像开始训练直到结束
进行第二种模式须在文件里添加三个文件(用semi作为例子)
semi.font_properties:这个文件是用来填写字体属性的
需在里面写:semi 0 0 0 0 0
第一个是字体的名字,后面五个0是字体的属性
分别代表:<italic> <bold> <fixed> <serif> <fraktur>
的取值为1或0,表示字体是否具有这些属性。中文意思为:
斜体,粗体,像素字体,有衬线字体,哥特体
第二文件和第三个文件均是空白文件semi.frequent_words_list,semi.words_list,这两个文件用于保存常见单词
第三种模式:Shape Clustering 从tr和盒子文件开始训练直到最后结束(tr文件,是训练文件),同样需要上述三个文件
第四种模式:Dictionary 将所有的文件合并成所需要的traineddata文件
第五种模式:Train from Scratch,这个模式是指,只需要图片文件,自动标识盒子文件,自动训练,但是自动表示错误太多。
通常使用第二种模式。
之后的几个按钮RUN:运行;Canael:取消;Validata;删除traineddata文件 save:保存log文件,clear:清除GUI显示的文本。
第二部分:Box Editor(手动制作盒子文件)
Open:打开图像,save:保存,Reload:刷新
Merge:将几个盒子合并,Split:将盒子分成两个,Insert:插入盒子,Delete:删除盒子。
Character:调节字符的种类,X,Y,W,H:调节字符坐标宽高
第三部分:TIFF/BOX Generator
主要功能是将TXT文档生成图片和盒子文件,用于制造OCR数据用
训练步骤:
1、将图片重命名为###.***.exp*.tif,并保存至同一个文件
2、选择制造盒子模式,选择识别语言(图中的eng)和自定义语言的(与###一致,图中的zhu)
3、选到BOX EdItor ,打开生成的box文件,并纠正自动识别所带来的错误,并保存
4、训练
选择Train with Existing Box模式,将之前说的三个文件添加到训练所在的文件夹中。点击运行,生成结果
更多推荐
jTessBoxEditor使用说明
发布评论