【每周CV论文】深度学习文本检测与识别入门必读文章

2020-06-23 15:51:15 浏览数 (1)

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。

文本检测和识别是计算机视觉的一个非常重要的应用,今天给大家推荐初入该领域可以读的文章。

作者&编辑 | 言有三

1 CTPN

文本与一般的目标有区别,比如没有精确而闭合的边缘,单个字符目标窄,但是整体文本串又较长。针对这个特点,研究者提出CTPN框架(Connectionist Text Proposal Network),通过检测行方向上宽度固定的文本提高定位精度,然后对相邻行进行合并来获取检测结果。

文章引用量:300

推荐指数:✦✦✦✦✧

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C] . european conference on computer vision, 2016: 56-72.

2 TextBoxes

针对文本行一般比较长的特点,TextBoxes对SSD框架中的Default Box的长宽比以及卷积核的大小进行了相应的改变,本质上依旧是使用SSD框架进行检测。

文章引用量:150

推荐指数:✦✦✦✦✧

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

与大部分目标检测问题的一个显著不同就是,文本往往是有倾斜方向的,因此检测结果框如果没有方向就不够精确,R2CNN框架即Rotational Region CNN,就是将最后的检测box定义为一个带方向的box,另外也会同时预测一个无方向(即水平)的框来包包裹有方向的box。

文章引用量:150

推荐指数:✦✦✦✦✧

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一个基于DenseBox的旋转文本检测框架,不过与R2CNN的不同之处在于,它不是在最终box回归的时候输出旋转框,而是使用了多个通道来预测旋转信息,比如4个通道预测边界距离,一个通道预测旋转角度。

文章引用量:300

推荐指数:✦✦✦✦✦

[4] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一个基于Faster RCNN框架的旋转文本检测框架,与R2CNN和EAST不同的是,它采用了带方向的Region Proposal和RoI Pooling,因此本身就可以输出带方向的目标框。

文章引用量:200

推荐指数:✦✦✦✦✧

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6 SegLink

文本有的时候非常的长,anchor box不一定能够很好覆盖,SegLink基于SSD目标检测方法进行改进。首先检测局部片段,然后通过规则将所有的片段进行连接,得到最终的文本行,这样做的好处是可以检测任意长度的文本行。

文章引用量:150

推荐指数:✦✦✦✦✧

[6] Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7 CRNN

CRNN是一个端到端的文本识别框架,它输入整段的文本图片。CRNN使用CNN进行特征提取,RNN进行隐藏状态和空间特征建模,CTC用于对RNN的结果进行整合改进。

文章引用量:600

推荐指数:✦✦✦✦✦

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 综述

最后,如果你想快速了解整个领域的发展现状,可以阅读相关的综述文章[8-9]。

[8] 王润民, 桑农, 丁丁,等. 自然场景图像中的文本检测综述[J]. 自动化学报, 2018, 044(012):2113-2141.

[9] Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

总结

本次我们介绍了初学文本检测和识别值得读的文章,另外当前文本检测和识别的研究难点在于任意形状文本检测,多语言文本识别,端到端检测与识别等方向,读者可以继续关注。

0 人点赞