Tesseract -v
——显示出tesseract的版本号则表示安装,及环境变量配置成功。否则根据提示检查安装失败原因
Tesseract的环境变量的设置:
- 配置环境变量Path中加入C:ProgramFiles (x86)Tesseract-OCR
- 新建变量TESSDATA_PREFIX,填入C:Program Files (x86)Tesseract-OCRtessdata。
Tesseract工具没有可视化的界面使用,只能在命令行中使用。
用下面命令将图片转成txt文档:
——Tesseract 图片路径 结果文件名 -l 语言(语言英文为eng,简体中文为chi_sim)
与tesseract配套使用的是它的训练工具,需要安装java的jre。
训练工具的使用步骤如下:
- 修改图片格式为tif,文件名称为[lang].[fontname].exp[num].tif(lang为自定义字库,fontname为字体名)
- 打开jTessBoxEditorFX训练工具,tools下拉菜单下打开merge Tiff选择所有样本图片合成一个tif文件(normal.certificate.exp.tif)。
- 生成box文件:tesseract normal.certificate.exp.tif normal.certificate.exp -l chi_sim batch.nochopmakebox
- 在Box Editor窗口下打开刚生成的zlc.certificate.exp.tif,工具会自动关联到相对应的box文件。
- 使用tesseract生成.tr训练文件:tesseract normal.certificate.exp.tif normal.certificate.expnobatch box.train
- 生成字符集文件,执行完后会在当前目录生成名为“unicharset”的文件:unicharset_extractor.exe normal.certificate.exp.box
- 生成shape文件,执行完后生成shapetable和normal.unicharset两个文件:shapeclustering -F font_properties -U unicharset -O normal.unicharset normal.certificate.exp.tr
- 生成聚字符特征文件:mftraining -Ffont_properties -U unicharset -O normal.unicharset normal.certificate.exp.tr
- 生成字符正常化特征文件,会生成normproto文件:cntraining.exe normal.certificate.exp.tr
- 文件重命名:rename normproto zlc.normproto
rename inttemp normal.inttemp
rename pffmtable normal.pffmtable
rename shapetable normal.shapetable
11.生成zlc.traineddata文件combine_tessdata zlc.
12.将上一步生成的zlc.traineddata文件放入tessdata文件夹下面。
使用总结:使用自己训练的字库仍然准确不不高,该工具是根据明暗程度分辨字迹的。也有可能是我还未摸索到更好的使用方法。分享本篇文章是为了记录我摸索该工具的过程,也希望大家有更好的使用方法也可以评论出来。我们一起交流。