我们需要 pillow 和 pytesseract 这两个库,pip install 安装就好了。
还需要安装 Tesseract-OCR.exe 然后配置下就好了。
Tesseract-OCR.exe获取地址:小蓝枣的资源仓库,提取码:c51p
步骤一:tesseract.exe 的安装
Language data里找到简体中文的语言包,等会安装时会弹出一个小框开始进行下载。
注:如果没下载成功没关系,后续用的时候直接下载个语言包放到指定位置就好了。
步骤二:pytesseract 库的配置
在python的安装目录下搜索 pytesseract.py
,然后进行编辑。
找到 tesseract_cmd,改变它的值为刚才安装 tesseract.exe 的位置
D:\server\Tesseract-OCR\tesseract.exe
至此,就配置完成了。
可以通过这篇文章来看效果:
python 技术篇-3行代码搞定图像文字识别,pytesseract库实现