文字 OCR 识别大家日常应该都会用到,最新的微信也是增加了这个功能,只是功能还比较弱。
了不起最近在Github上面发现一款基于 PaddleOCR 的开源 OCR 项目——Umi-OCR,功能异常的强大,而且还可以离线使用,目前已经收获了近9k star。
简介
下面是项目的在Github上面的官方介绍。
开源、免费、批量、高效、精准,每一个特点都很吸引人。
这个项目基于基于 PaddleOCR,支持截图识别、批量导入识别、个性化识别等功能。
整个项目由 python 语言编写,win7系统的小伙伴大概率是用不了的。推荐 Win10 x64 及以上版本。
功能体验
直接在releases中选择合适的版本,下载解压即可。
可以看到,项目还配套了英、日、韩等多个国家的语言识别库,方便国外的这些用户使用。
当然了,你如果对源码感兴趣,可以直接从源码进行学习使用。
下面就是工具的界面。
接下来了不起给大家展示一下它的使用亮点功能:
截图识别
这个功能很适合在一些不能复制的网页上面使用,速度很快,准确率也很高。
注意看,它这个和微信OCR不同的是,自带了一个记录板,每次识别后都会保存在记录板当中。
也就是说,你可以截取完所有的图片之后,再从记录板里面copy所有识别的文字,而不需要截一张,copy一张。
这个小小的记录板真的能方便很多!
批量识别
如果有大量的图片需要识别的话,这个功能就非常好用了。
直接将图片全部导入,然后点击开始任务,进行批量识别。
完成之后,会将识别的内容保存在一个txt文档当中。
如果你不喜欢txt,需要md、jsonl 的格式,它一样可以满足你。
自定义识别内容
这个功能应该是Umi-OCR的一大亮点特色,可以指定识别的内容区域或者屏蔽掉不需要识别的区域。
举个例子,我这里有三张和下图类似的图片,我只希望提取出发票号码。
只需要在设置里面,点击打开忽略区域编辑器。
把不需要的内容用红框全部框中。
然后点击开始任务,看,提取的内容就只剩下发票号码了。
更改文字方向
Umi-OCR 还支持识别竖排的文字,例如需要识别一首古诗,只要设置文字方向为竖排、从右到左即可。
这样古诗就直接转横过来了,确实很方便。
以上这些就是了不起感觉比较有代表性的功能,还有更多细节功能,可以自行去项目地址探索~
代码语言:javascript复制GitHub地址:https://github.com/hiroi-sora/Umi-OCR