一、前言
Tesseract 是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎。与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。 GitHub 地址:https://github.com/tesseract-... 安装包官方下载地址:https://digi.bib.uni-mannheim... 安装包百度云盘下载地址:https://pan.baidu.com/s/1AOsJ...
二、安装 Tesseract-OCR
直接执行下载好的 exe 文件,下一步、下一步默认安装即可。
三、配置环境变量
3.1 进入环境变量配置界面
右键点击此电脑--属性--高级系统设置--环境变量--系统变量--Path
3.2 添加系统变量
找到系统变量的 Path ,将 Tesseract-OCR 的安装目录添加进去:
3.3 添加 tessdata 系统变量
如下图新建系统变量 : TESSDATA_PREFIX 变量值为 tessdata 文件夹的路径(在Tesseract-OCR的安装目录下):
四、修改错误
经过上述步骤以后仍然会出现
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your path。
这时需要修改D:ProgramDataAnaconda3Libsite-packagespytesseractpytesseract.py里面的tesseract_cmd = 'tesseract'修改为你的tesseract.exe的所在的目录下比如:C:Program Files (x86)Tesseract-OCRtesseract.exe 这样就可以运行了。
五、实例
代码语言:javascript复制# In[*]
import pytesseract
from PIL import Image
image = Image.open("C:\Users\czh\Desktop\pic.jpg")
# In[*]
code = pytesseract.image_to_string(image)
print(code)