这是一篇论文简记,原文出自SCUT电信学院金连文老师组。
概要
- 文本历史可以追溯到数千年前。在广泛视觉应用场景中,文本所携带的丰富语义信息非常重要。故自然场景文本识别已经成为计算机视觉和模式识别的活跃研究领域。
- 近年来,随着深度学习的兴起和发展,许多方法在创新性、实用性和效率方面都显示出了巨大前景。
- 本文旨在总结与场景文本识别相关的基本问题和最新技术;介绍新的见解和思路;对现有公开资源进行综合回顾;指出今后的工作方向。
- 总而言之,这篇文献综述试图展示了场景文本识别领域的整体情况,为进入该领域的初学者提供了全面参考。
- Github:https://github.com/HCIILAB/Scene-Text-Recognition
- https://arxiv.org/pdf/2005.03492.pdf
简介
- 文字是用于记录、交流,或继承文化;作为最具影响力的发明之一,文字在人类中扮演了重要角色。
- 在视觉应用任务中,文本携带的丰富语义信息非常重要:例如图像搜索、智能检查、工业自动化、机器人导航、和实时翻译。
- 因此,自然场景文字识别中引起了研究人员和从业人员的高度重视,如最近出现的“ ICDAR比赛”。
- 在自然场景中识别文本,也称为场景文本识别(scene text recognition,STR),通常被认为是一种特殊的光学字符识别(OCR)。
- 尽管扫描文档的OCR已经发展得很好,但由于复杂的背景、各种字体、 成像条件差等等因素,STR仍然极具挑战。图1对STR和OCR进行比较。
- 为了全面了解STR领域,文章描述了与文本相关的基本问题(文本定位、确认、检测、分割、识别和端到端系统)和特殊焦点(文本增强、跟踪、NLP等)。
- 以及一些代表性的应用
方法
- 基于深度学习的方法有以下几种优点:自动(自动的特征表示 学习可以使研究人员摆脱凭经验设计、 手工制作)、效率(性能通常比传统算法更好)、泛化(更容易推及到类似问题)
- Segmentation-based Methods: 通常包括三个步骤, 即图像预处理, 字符分割和字符识别。
- Segmentation-Free Methods:识别文本整行。包含图像预处理、特征表示,字符序列建模和预测。
- End-to-End Systems: 给定具有复杂背景的文本图像作为输入,端到端系统旨在直接转换所有文本成字符序列。
数据集
- 人工合成数据集
- 真实场景数据集(多为正朝向、水平的regular Latin datasets, 多为低分辨率、扭曲、弯折的irregular Latin datasets, 多语种的multilingual datasets)
评估标准(Evaluation Protocols)
- Evaluation Protocols for Latin Text Recognition Protocols
- Evaluation Protocols for Multilingual Text
总结/展望
- 泛化性
- 公平全面的评估标准
- 数据集的合理使用(合成、真实)
- (复杂的)场景
- 更好的图像预处理
- 端到端系统
- 语种问题
- 安全性(一些隐私场景例如银行卡、身份证和驾驶执照等,识别方法的安全性非常重要,注意可能易受到对抗样本攻击)
- NLP和STR的结合