2019年6月,两年一届的国际文档分析与识别竞赛(ICDAR)落下帷幕,这是全球文字识别(OCR)领域最顶级赛事。腾讯数平精准推荐团队(Data Platform Precision Recommendation, Tencent-DPPR)在本届比赛中斩获7项冠军,成绩遥遥领先其他参赛队伍。这也是继2017年团队勇夺4项官方认证冠军后再创佳绩,同时也标志着腾讯OCR技术稳居国际第一流水准。
国际文档分析与识别大会ICDAR( International Conference on Document Analysis and Recognition)自1991年开始,今年为第十五届。自2003年大会开始设立技术竞赛,ICDAR竞赛因其极高技术难度和强大实用性,一直是各大科研院校、科技公司的竞逐焦点。与赛后非正式刷榜不同,ICDAR官方认证的正式竞赛采用全新数据集,且赛期内不公布参赛团队信息和成绩,限制提交时间和次数,属于高难度“盲打”,吸引国内外众多队伍参赛。2019届竞赛巨头云集,据赛后不完全统计,本届共有过百支队伍角逐,参赛队伍包括:(1)企业团队:腾讯、阿里、百度、华为、联想、平安、商汤、旷视、美团点评、科大讯飞、VIVO、北大方正、搜狗、第四范式、合合信息、三星、Line,等;(2)学校团队:清华、北大、中科院、华中科大、复旦、上海交大、中科大、北航、南京大学、南京航空、华南理工、同济大学、哈工大、山东大学、四川大学、天津大学、卡耐基梅隆大学、澳洲阿德莱德大学,等。
识别图像和视频中各类文字(OCR),是计算机视觉、自然语言处理、个性化推荐等AI任务的基础技术。本届竞赛增加了多项中文和多语言识别任务,难度更高。腾讯数平精准推荐团队基于自研算法,共参加了三大项比赛。
- LSVT项目(大规模弱标注街景文字识别):包揽全部两项冠军
- MLT-19项目(多语言自然场景文字识别):包揽全部四项冠军
- ReCTS项目(中文招牌文字识别):端到端文字识别Task获得冠军
三大比赛均难度极高,LSVT侧重中英文街景拍摄图,MLT-19侧重多语言的自然场景和文档等,ReCTS侧重商户拍照信息。部分比赛图片展示如下:
ICDAR 2019竞赛示例图
LSVT(大规模弱标注街景文字识别)竞赛由百度公司提供约45万张街景图片,街景文字识别可广泛用于智能交通、地图信息扩展、自动驾驶等,数据覆盖了透视畸变、弱监督、低分辨率、艺术字、复杂排版等诸多技术难点。LSVT竞赛包含文本检测、端到端文字识别任务,腾讯数平获得全部冠军。官方排名如下:
LSVT文本检测官方排名(Top-10)
LSVT端到端文字识别官方排名(Top-10)
ReCTS(中文招牌文字识别)竞赛由美团公司提供2.5万张业务图片,该场景文字识别可广泛用于商家推荐、商家信息自动识别等领域,覆盖了透视畸变、复杂排版、模糊文字、艺术字等众多技术难点。比赛包含端到端文字识别、单字符识别、文本行识别、文本行检测等任务。腾讯数平在端到端文字识别获得冠军。官方排名如下:
ReCTS端到端文字识别官方排名(Top-10)
MLT-19(多语言自然场景文字识别)竞赛由多国学者提供2万张自然场景图片,共有7大类语言(10个小类别),多语言文字识别可广泛应用于拍照翻译、文档识别、交通信息识别等,数据覆盖了跨语种识别、拍照角度多变、低对比度、复杂背景、复杂排版等众多技术难点。比赛包含四个任务:多语言文本行检测、词条语言鉴别、文本检测和语言鉴别、端到端多语种文字识别,腾讯数平获得全部冠军,且最多领先第二名达6.65%。官方排名如下:
MLT-19文本检测官方排名(Top-10)
MLT-19词条语言鉴别官方排名(Top-10)
MLT-19文本检测和语言鉴别官方排名(Top-10)
MLT-19端到端多语种文字识别官方排名(Top-10)
团队简介
数平精准推荐团队(Tencent Data Platform Precision Recommendation, Tencent-DPPR)是腾讯内部一支致力于实时精准推荐、海量大数据分析及广告图像理解等领域技术研发与技术落地的专业技术团队。团队在文本识别领域上已经深耕细作多年,自研的文本检测、识别、端到端技术均处于业界领先,已在全球最权威ICDAR竞赛中和诸多团队竞技,斩获11项官方认证冠军。国际竞赛是技术水平的试金石和腾讯技术影响力的证明,同样重要的还有技术应用与落地。数平精准推荐的OCR技术,凭借高精准度、高稳定性以及“专业、服务、伙伴”的理念,已支持公司内多个业务场景,如社交广告、微信业务安全、腾讯云、腾讯视频、信息流产品(手Q看点等)、拍照翻译等,并获得广泛好评。