腾讯数平团队 荣获第15届国际文档分析与识别竞赛七项冠军

2019-10-08 10:10:33 浏览数 (2)

        9.20 - 9.25,作为全球OCR领域标杆性盛会,第15届国际文档分析与识别大会(ICDAR 2019)在澳大利亚悉尼召开,同时也揭晓了本年度ICDAR竞赛的结果并为冠军团队颁发获奖证书。

        腾讯数平图像团队(Tencent-DPPR Team)依靠领先的文字检测与识别技术能力,在本次竞赛的三个大项比赛中(MLT19,LSVT,ReCTS, 共10个子任务)获得了7项第一,2项第二的优异成绩,并受邀在会议上做技术报告分享。这也是团队自2017年获得4项OCR冠军之后,再次代表腾讯在OCR领域最权威国际赛场中折桂。

 MLT-文本检测 冠军

MLT-语种识别 冠军

MLT-端到端语种识别 冠军

MLT-端到端文字识别 冠军

LSVT-文本检测 冠军

LSVT-端到端文字识别 冠军

ReCTS-端到端文字识别 冠军

ICDAR 2019 群英荟萃

        文档分析与识别大会(ICDAR,International Conference on Document Analysis and Recognition)是由国际模式识别协会(IAPR,International Association of Pattern Recognition)举办,专注于文本识别领域的技术研究与应用。会议每两年举办一次,自1991年第一届开始,至今已经成功举办了十五届。自从2003年大会开始设立“Robust Reading Competitions”以来,该竞赛已成为评估自然场景/网络图片/复杂视频文本检测与识别新技术进展的最权威国际赛事及国际评测标准,在国际模式识别、文档分析与识别等领域具有重要的影响力。同时该竞赛由于其较高技术难度、贴合各类实际应用场景,多年来一直是各大科研院校、科技公司关注竞逐的焦点。截止目前,已经有128个国家的11000多支队伍在ICDAR竞赛中参加过竞逐。其中Google、微软、腾讯、阿里巴巴、百度、三星、商汤、旷视、海康等国内外科技公司都取得过不错的成绩,竞赛中涌现出的许多方法都对OCR技术的发展起到了强大的推动作用。目前,ICDAR竞赛已经成为业界影响力最大、参赛队伍最多、水平最高、覆盖面最广的文字识别竞赛。                 

        本次ICDAR竞赛更加贴合实际业务场景,针对中英文的识别任务更多、图片数量更大、测评标准更符合中英文,同时中国团队的影响力越发强大。百度、美团点评、中科院、华南理工、上海交通大学、华中科技大学等公司和高校积极参与了竞赛组织工作。同时更多的团队参与了竞赛角逐,据赛后不完全统计,仅中国团队就有过百支队伍队伍参赛, 其中包括(1)企业团队:腾讯、阿里、百度、华为、联想、平安、商汤、旷视、美团点评、科大讯飞、VIVO、北大方正、搜狗、第四范式、合合信息等;(2)学校团队:清华、北大、中科院、华中科大、复旦、上海交大、中科大、北航、南京大学、南京航空、华南理工、同济大学、哈工大、山东大学、四川大学、天津大学等。这也标志着在文字识别技术领域,中国团队当前已经走在了世界前列。

腾讯数平图像团队

        腾讯数平图像团队(参赛队名Tencent-DPPR Team)基于自研算法,共参加了三大项目比赛共10项子任务,获得了其中的7项冠军:

1, LSVT项目(大规模弱标注街景文字识别): 包揽全部两项冠军

2, MLT-19项目(多语言自然场景文字识别):包揽全部四项冠军

3, ReCTS项目(中文招牌文字识别):端到端文字识别Task获得冠军

        三大比赛任务均源自于实际应用场景,具有较大的技术难点,且各自侧重点不一。LSVT侧重中英文街景拍摄图,MLT-19侧重多语言的自然场景和文档,而ReCTS侧重商户拍摄的招牌图片。

LSVT 文本检测官方排名(Top-10)

官方结果:https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=1

LSVT 端到端文字识别官方排名(Top-10)

官方结果:https://rrc.cvc.uab.es/?ch=16&com=evaluation&task=2

MLT-19 文本检测官方排名(Top-10)

官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=1

MLT-19 词条语种识别官方排名(Top-10)

官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=2

MLT-19 端到端文本检测和语种识别官方排名(Top-10)

官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=3

MLT-19 端到端多语种文字识别官方排名(Top-10)

官方结果:https://rrc.cvc.uab.es/?ch=15&com=evaluation&task=4

ReCTS 端到端文字识别官方排名(Top-10)

官方结果:https://rrc.cvc.uab.es/?ch=12&com=evaluation&task=4

此处概要介绍腾讯数平图像团队此次参赛OCR算法。

        在检测算法上,此次ICDAR2019比赛中,我们的基础模型从2017年的基于Faster R-CNN升级到了Mask R-CNN改进版,并且增加了基于FCN的实例分割算法模型。在Mask-RCNN基础上我们改进了诸多技术点,包括:增加采用了困难样本挖掘策略的Cascade级联回归,更准确地预测检测框;同时增加可变形卷积以及Anchor学习机制等诸多模块;由于自然场景非常复杂,很多时候根据候选框本身去判定是否为文字区域比较困难,我们还在Mask-RCNN中引入了全局的语义信息监督,去辅助判定。针对任意角度的文本候选框,我们采用多边形Soft NMS来得到最后的文本位置。我们充分结合Mask-RCNN和FCN两种算法的优势,发挥在不同场景下方法的互补性。

检测算法流程图

        在识别算法方面,相比于我们在2017年获胜所用的CNN LSTM结构的识别算法,本届比赛中我们采用了更多样、更强力的网络结构。我们在原有的VGGNet BiRNN的编码网络的基础上进行改进,使用了更具表达能力的SE_ResNeXt卷积模块和Multi-Head Self-Attention时序编码模块。CNN BiRNN使用的基于CTC的解码网络能够很好地捕获局部特征,但在全局语义信息的理解上有所不足,为此我们引入了基于Attention的解码网络形成互补。使用这些模块,我们设计了多个不同的网络结构,之后采用集成方法将不同模型的识别结果进行基于置信度的整合。整体流程图如下所示:

识别算法流程图

        腾讯数平图像团队专注于OCR技术领域的研究,多年的研究与应用实践经验积累起了丰富的OCR能力矩阵,形成了自己的技术特色:

  1. 多平台:支持GPU、CPU、FPGA、iOS、Android等多个系统平台, 支持在线、离线识别;
  2. 多语言:支持中文简体、中文繁体、英文、各类符号、以及日文、韩文、拉丁文、斯拉夫文、印地语等超过20个语种;
  3. 高精度:在广告图片、文档图片、自然场景图片等多个具有较大难度的数据集上识别精度超过92%,远超行业内竞品;
  4. 高性能:平均每张图片时耗<100ms,且支持高并发;
  5. 高鲁棒:对于垂直文本、倾斜文本、超长文本、复杂排版、超大尺寸、手写体、艺术字体、低分辨率、透视畸变、超密集等各类场景可有效识别;
  6. 多功能:除了支持字符识别,也支持段落合并、文字面积占比、字体识别、置信度过滤等各项实用功能;
  7. 高可靠:团队OCR技术能够兼容各类异常图片请求,具备企业级服务的可靠性,并提供云端部署、私有化本地加密部署等多类可靠方案;
  8. 快接入:提供快速接入系统,小批量业务可10分钟内极速接入,大批量业务可一天内接入,为各业务带来方便快捷的OCR服务;

        除OCR技术外,团队也积极研发了20多项计算机视觉AI能力, 包括 清晰度识别、品牌识别、物体识别、场景识别、色彩分析、风格识别、服装标签、布局分析、商品分割、显著性检测、人脸属性、美学度量、二维码检测、智能裁剪,视频跟踪、深度估计、光流计算、全景分割、字幕识别、明星识别等,涵盖了图像与视频中重要的技术点。相关技术在公司内部50多个重要业务团队中得到使用,例如:腾讯广告、QQ、微信、微视、翻译君等。尤其是在腾讯广告场景中,团队结合大数据处理能力、实时精准推荐能力,为广告智能审核、广告精准推荐、广告智能制图等提供了大量图像AI技术能力,极大提升了腾讯广告的效率与效果。

        此次ICDAR 2019国际竞赛,是一场工业界与学术界技术碰撞与学术交流的盛会,将国际文字识别技术的研究和应用推到一个新高度,同时也进一步加强了腾讯技术的国际影响力。未来团队将继续坚持“一切以用户价值为依归”和“科技向善”的理念,持续打造核心技术,为用户创造价值,为人类生活品质的提升贡献技术力量!

0 人点赞