光学字符识别(OCR),即将手写或印刷文本的图像转换成机器可读的文本,这是一门可以追溯到70年代初的科学,但长期以来,算法一直难以识别出与水平面不平行的字符,为此,亚马逊的研究人员开发了一种“文本框”——是自然图像中“弯曲”文字的探测器。
在一篇描述他们工作的论文中,合著者声称,他们的方法在一个流行OCR基准上取得了最先进的结果。论文中写道,场景文本通常分为两个连续的任务:文本检测和文本识别。第一种方法涉及使用上下文线索对字符、单词和行,进行本地化,而第二种方法则负责转录它们的内容。说起来容易做起来难,弯曲的光学文本不仅本身具有易变形的特点,还会受到视角变化和任意字体的影响。
团队的解决方案是一个文本参考框架的“tube”表示,它能捕获大部分的可变性,从中获得利用目标文本通常是相似大小字符串联这一事实。它是一个数学函数,可以训练机器学习场景文本检测器,与传统方法不同的是,它并不使用容易重叠的矩形和四边形来捕获文本信息。研究人员在CTW-1500上评估了“文本框”的性能,CTW-1500是一个数据集,由1500幅从自然场景和图像库收集的图像和10000多个文本实例组成,每个图像至少有一个弯曲的实例。
他们报告说,“文本框”在CTW-1500上获得了行业领先的结果,准确率为83.65%,而最近的相似方法准确率为75.6%。论文的合著者写道:“对一个实例的中轴和平均半径进行建模……可以获取整个实例的信息,在由单个单词组成的数据集上,比如Total-Text,我们的模型能够实现最先进的性能。在具有行级注释的数据集上,比如CTW-1500,我们的模型能够更好地捕获文本信息。”
如果未来该项研究投入实用,对严重依赖OCR开展业务的企业来说,无疑是个福音。此外,它也有可能成为进一步推进无纸化办公的急先锋。