【导读】OCR由文本定位和文本识别组件构成。本文介绍Github上的一个开源文本定位组件Text_Detector,它使用了RetinaNet的结构和textboxes 中的一些技术。
OCR由文本定位和文本识别组件构成,文本定位组件寻找文本所在的位置,文本识别组件识别每个字符。本文介绍一个开源文本位置探测器Text_Detector,它的Github地址为:
https://github.com/qjadud1994/Text_Detector
Text_Detector使用了RetinaNet和textboxes 中的一些技术:
- RetinaNet: https://arxiv.org/pdf/1708.02002.pdf
- textboxes : https://arxiv.org/pdf/1801.02765.pdf
Text_Detector的Github页给出了一些较好的识别结果和较差的识别结果。
较好的识别结果如下:
在一些垂直文本或长文本等情况下,Text_Detector的效果不太理想:
Text_Detector依赖的环境如下:
- 操作系统 : Ubuntu 16.04.4 LTS
- GPU : Tesla P40 (24GB)
- Python : 3.6.6
- Tensorflow : 1.10.0
- Pytorch : 0.4.1
- tensorboardX : 1.2
- CUDA, CUDNN : 9.0, 7.1.3
更多关于Text_Detector的细节可以在它的Github主页上找到。
参考链接:
- https://github.com/qjadud1994/Text_Detector