一、前言
许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。随着互联网和移动互联网技术飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。
OCR(Optical Character Recognition) , 光学字符识别,是指对输入的扫描文档图像进行分析处理,检测并识别出该图像当中的文本信息; 而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测(Scene Text Detection),即准确定位自然场景中文本的位置,是场景文本分析与处理的基石。近年来,随着深度学习的发展,场景文本检测取得了突破性的进展。
二、场景文本检测数据集
本文总共整理了21个场景文本检测数据集,根据数据集的形式和应用场景可以按如下标准划分:
1. Horizontal-Text Datasets:
ICDAR 2003、 ICDAR 2011、ICDAR 2013;
2. Arbitrary-Quadrilateral-Text Datasets:
USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS;
3. Irregular-Text Datasets:
CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT;
4. Synthetic Datasets:
Synth80k、SynthText。
详细对比内容如表1所示,其中包括语种、图片以及文本数量(训练/测试)、标注类型等,更多内容详见资源链接。
表1 场景文本检测数据集对比
三、场景文本检测方法总结
本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR,ICCV等CCF A类会议),对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。
本文将场景文本检测方法分为四类:
(a) Traditional methods;
(b) Segmentation-based methods;
(c) Regression-based methods;
(d) Hybrid methods.
详细对比见表2-5以及资源链接。注:表格中Hori,Quad和Irreg分别代表水平文本,任意四边形文本以及不规则文本。
1. Traditional methods
表2 传统场景文本检测方法对比
2. Segmentation-based methods
表3 基于分割的场景文本检测方法对比
3. Regression-based methods
表4 基于回归的场景文本检测方法对比
4. Hybrid methods
表5 场景文本检测的集成方法对比
四、场景文本检测结果汇总
本小节整理了70篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表,详细内容请见资源链接。(注:P、R、F 分别代表Precision、Recall和F-measure。)
1. Detection Results on Horizontal-Text Datasets
2. Detection Results on Arbitrary Quadrilateral Text Datasets
3. Detection Results on Irregular-Text Datasets
五、小结
本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。此外,我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。详细内容见下面的Github链接。
Github资源链接
- Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection