python使用库:PIL pytesseract 主要辅助识别程序:Tesseract-OCR 个人踩坑经历-实测有效 代码块:
代码语言:javascript复制from PIL import Image
import pytesseract
img = Image.open(r"F:test 1.png")
text = pytesseract.image_to_string(img,lang='chi_sim')
print(text)
代码很简单,但是主要是Tesseract-OCR的安装 和 OCR汉化的安装以及环境变量的配置
Tesseract-OCR 和 汉化包资源下载:
代码语言:javascript复制链接:https://pan.baidu.com/s/1vqZVhu-WTeE-6zed1ZpoEg
提取码:lkkl
复制这段内容后打开百度网盘手机App,操作更方便哦
一) 直接执行下载好的tesseract-ocr-setup-4.0.0-alpha.20180109.exe,下一步、下一步安装。安装过程中,会让你安装额外的语言包,可根据选择下载。(不建议选择,因为是国外服务器,会下载失败)
第三步:配置环境变量
我的是安装在C:Program Files (x86)Tesseract-OCR,
将“C:Program Files (x86)Tesseract-OCR”添加到环境变量中
测试: 打开命令终端,输入:tesseract -v,可以看到版本信息 用命令tesseract --list-langs来查看Tesseract-OCR支持语言。
设置汉化包: 一) 下载 汉化压缩包,githhub上下载太慢,下载不下来,网上找的资源, 下载云盘里的 tessdata.zip文件 二) 解压缩后的所有文件复制到 Tesseract-OCR 下的 tessdata文件夹下 我的路径是 C:Program Files (x86)Tesseract-OCRtessdata,重复的文件跳过即可 三) 添加TESSDATA_PREFIX的环境变量,设置为安装目录下的tessdata目录 如:D:Program Files (x86)Tesseract-OCRtessdata 设置了环境变量后需要重启下才生效
执行前文代码即可
‘’示例
识别结果
识别原图
错误率有点儿高
附上其他相关学习链接: 1)https://zhuanlan.zhihu.com/p/30391661?utm_source=wechat_session&utm_medium=social&s_r=0 2)https://www.cnblogs.com/HL-space/p/10547259.html 3)https://mp.weixin.qq.com/s?__biz=MzIwNDA1OTM4NQ==&mid=2649543721&idx=1&sn=6ce719264e6f1fc9d407150362d0e14f&chksm=8edd93bfb9aa1aa986cf2a53fa2b4810665b57c344c4e7160be40d28fa20c9c4e0e728b3a511&mpshare=1&scene=1&srcid=&sharer_sharetime=1579184752640&sharer_shareid=626cc7814876b0a311c24ccf416cb880&rd2werd=1#wechat_redirect