tesseract-ocr的使用

2022-07-21 14:55:34 浏览数 (1)

Tesseract -v

——显示出tesseract的版本号则表示安装,及环境变量配置成功。否则根据提示检查安装失败原因

Tesseract的环境变量的设置:

  1. 配置环境变量Path中加入C:ProgramFiles (x86)Tesseract-OCR
  2. 新建变量TESSDATA_PREFIX,填入C:Program Files (x86)Tesseract-OCRtessdata。

Tesseract工具没有可视化的界面使用,只能在命令行中使用。

用下面命令将图片转成txt文档:

——Tesseract 图片路径 结果文件名 -l 语言(语言英文为eng,简体中文为chi_sim)

与tesseract配套使用的是它的训练工具,需要安装java的jre。

训练工具的使用步骤如下:

  1. 修改图片格式为tif,文件名称为[lang].[fontname].exp[num].tif(lang为自定义字库,fontname为字体名)
  2. 打开jTessBoxEditorFX训练工具,tools下拉菜单下打开merge Tiff选择所有样本图片合成一个tif文件(normal.certificate.exp.tif)。
  3. 生成box文件:tesseract normal.certificate.exp.tif normal.certificate.exp -l chi_sim batch.nochopmakebox
  4. 在Box Editor窗口下打开刚生成的zlc.certificate.exp.tif,工具会自动关联到相对应的box文件。
  5. 使用tesseract生成.tr训练文件:tesseract normal.certificate.exp.tif normal.certificate.expnobatch box.train
  6. 生成字符集文件,执行完后会在当前目录生成名为“unicharset”的文件:unicharset_extractor.exe normal.certificate.exp.box
  7. 生成shape文件,执行完后生成shapetable和normal.unicharset两个文件:shapeclustering -F font_properties -U unicharset -O normal.unicharset normal.certificate.exp.tr
  8. 生成聚字符特征文件:mftraining -Ffont_properties -U unicharset -O normal.unicharset normal.certificate.exp.tr
  9. 生成字符正常化特征文件,会生成normproto文件:cntraining.exe normal.certificate.exp.tr
  10. 文件重命名:rename normproto zlc.normproto

rename inttemp normal.inttemp

rename pffmtable normal.pffmtable

rename shapetable normal.shapetable

11.生成zlc.traineddata文件combine_tessdata zlc.

12.将上一步生成的zlc.traineddata文件放入tessdata文件夹下面。

使用总结:使用自己训练的字库仍然准确不不高,该工具是根据明暗程度分辨字迹的。也有可能是我还未摸索到更好的使用方法。分享本篇文章是为了记录我摸索该工具的过程,也希望大家有更好的使用方法也可以评论出来。我们一起交流。

0 人点赞