本文简要介绍ECCV 2022录用论文“Levenshtein OCR”的主要工作,该论文提出一个新的场景文本识别模型LevOCR。相比于过去的方法,LevOCR主要有两个创新点,分别为利用Vision-Language Transformer作为backbone来更好地聚合视觉特征和文本特征,和利用了Levenshtein Transformer的解码策略,从而可以同时实现并行解码和动态长度变化,并且具有更好的可解释性。LevOCR在场景文本识别的标准benchmark上实现了SOTA效果。本文的代码将会开源。
图1 LevOCR的解码过程。在视觉模型完成识别后,对视觉模型的输出或者空白的字符串迭代地执行删除、插入占位符和将占位符识别为码表中的字符这三个步骤,从而得到更准确的识别结果.
一、研究背景
场景文本识别作为计算机视觉一个基础且活跃的研究课题,有着广泛的应用。由于存在文本风格和形状多变、光照不均、受到遮挡和扭曲等问题,在真实场景中应用场景文本识别模型仍然是一个具有挑战的任务。
从自然语言处理领域中获取灵感来解决计算机视觉领域的问题正逐渐成为趋势,比如ViT[1]、DETR[2]和Swin-Transformer[3]。同样,在场景文本识别领域,一些最近的工作[4,5]开始通过融合视觉和语言这两个模态的信息来实现更高的识别准确率。
受前面这些工作的启发,作者提出了一个新的场景文本识别模型LevOCR。LevOCR是对ABINet[5]的改进,相比于ABINet,该方法有两点关键的不同之处。首先,LevOCR利用Vision-Language Transformer[6,7]作为Backbone,这使得视觉信息和语义信息可以更好地交互。其次,也是最关键的,相比于ABINet在每次迭代中重新预测整个字符序列,LevOCR采用了更加细粒度的方法,即对上一次迭代的输出结果预测字符级的修改(删除或者插入一些字符)。这既使得LevOCR可以在迭代的过程中比ABINet更灵活地调整字符序列的长度,也使得LevOCR有更高的可解释性,能够通过可视化方法来分析模型做出某个修改操作的依据。
二、方法原理简述
图2 LevOCR整体框架图
整体结构
模仿学习
由于在LevOCR的解码过程中,需要根据3个Action Decoder的预测结果对字符序列执行相应的操作,而这个过程是不可导的,因此无法端到端地训练LevOCR。为了解决这个问题,本文利用模仿学习来训练LevOCR。具体实现为,通过对GT执行随机的删除或者插入操作,得到含有噪声的字符序列,然后通过动态规划得到最优的操作,最后把含有噪声的字符序列作为输入,最优的操作作为GT,去训练Textual Model、Transformer Blocks和3个Action Decoder,而Visual Model和并行注意力解码器仍然以传统的方式进行训练。
三、主要实验结果
表1 LevOCR在不同初始序列和不同迭代次数下的准确率
如表1所示,在分别利用视觉模型的输出、空白序列、加入随机噪声的GT和GT作为初始序列的时候,LevOCR最终的识别准确率不相同,这表明LevOCR的确利用了文本信息,而不是仅仅考虑视觉信息,并且LevOCR同时具有Text Refinement和Text Generation的能力。此外,LevOCR的识别准确率随着迭代次数的增加而提高,也进一步证明了LevOCR Text Refinement的能力。
表2 LevOCR在采用不同的Backbone时的准确率
如表2的后4行所示,不管是采用ViT作为Backbone还是采用CNN作为Backbone,LevOCR都能在视觉模型的基础上提高识别准确率,这表明了LevOCR的通用性。表2的第2行和第3行分别表示用传统的识别Loss替代3个Action Decoder时视觉模型的表现和LevOCR最终的表现,可以发现LevOCR无法进一步提高识别准确率,这证明了3个Action Decoder的重要性。
表3 和SOTA方法的对比
如表3所示,LevOCR在IIIT、IC15和CUTE这3个测试集上取得了最高的识别准确率,在另外3个测试集上取得次高的识别准确率,并且平均准确率最高。
图3 LevOCR最后一层注意力热图的可视化结果
图3可视化了LevOCR在预测某个动作时的最后一层Transformer Blocks的注意力热图,可以看出LevOCR能够准确地关注到对应的视觉特征和文本特征。同时,在图片清晰的时候模型更加关注视觉特征(第一行),而在图片模糊的时候模型更加关注文本特征(第二行)。
四、总结及讨论
受其他领域启发,这篇文章提出一个新的场景文本识别模型LevOCR,利用Vision-Language Model来聚合视觉特征和文本特征,用Levenshtein Transformer的解码策略来进行Text Refinement或Text Generation,从而具有更高的识别准确率和更强的可解释性。
五、相关资源
- 本文地址: https://link.springer.com/chapter/10.1007/978-3-031-19815-1_19
- 本文开源代码地址: https://github.com/wdp-007/Levenshtein-OCR (代码还没放出来)
参考文献
[1]Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020, September). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations.
[2]Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-End Object Detection with Transformers. In European Conference on Computer Vision (pp. 213-229). Springer, Cham.
[3]Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., ... & Guo, B. (2021). Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10012-10022).
[4]Yu D, Li X, Zhang C, et al. Towards Accurate Scene Text Recognition with Semantic Reasoning Networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12113-12122.
[5]Fang S, Xie H, Wang Y, et al. Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.
[6]Su, W., Zhu, X., Cao, Y., Li, B., Lu, L., Wei, F., & Dai, J. (2019, September). VL-BERT: Pre-training of Generic Visual-Linguistic Representations. In International Conference on Learning Representations.
[7]Chen, Y. C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., ... & Liu, J. (2020, August). UNITER: UNiversal Image-TExt Representation Learning. In European Conference on Computer Vision (pp. 104-120). Springer, Cham.
原文作者: Cheng Da, Peng Wang, Cong Yao
撰稿:李鸿亮
编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。