ICPR2022多模态字幕识别比赛(Multimodal Subtitle Recognition简称MSR竞赛),日前圆满结束了。
本次竞赛由Tencent OCR & ASR Oteam 联合华南理工、华中科技大学、联想等依托于计算机国际学术顶会ICPR举办,吸引了376位来自各大高校和企业的参赛者报名,26支队伍,提交次数高达932次。
大赛聚焦多模态字幕识别,希望推动字幕识别技术的准确性和应用性的进一步提升,弥补该技术领域的空白,并为学术界和业界创造交流机会
01 赛事背景
伴随着短视频、网络直播的迅速崛起,视频数据呈现爆发式增长,视频内容识别面临更大的挑战。视频字幕和语音识别相关的问题研究,一直广受关注。本竞赛旨在推进多模态字幕识别模型研究,这类模型能够很好地辅助视频创作、视频内容推荐等应用。
不同于从单一模态中提取字幕,本次竞赛需同时考虑视觉和音频模态。仅利用单模态信息,视频字幕提取的准确性较差。例如,音频对背景噪声和口音变化很敏感,方言或谐音词难以准确识别,如果加入视觉信息,上述问题是可以解决的;例如,从视觉模态提取出的字幕包含了大量其它文本(台标、广告、背景等),而音频信息可以辅助精确地定位字幕文本,因此融合音频和视觉模态对于字幕提取极为重要。
02 赛道设计
本次竞赛首次提出多模态字幕识别任务,设计了三个极具特色的赛道供各参赛队伍进行选择。
赛道一旨在使用含有音频字幕标注的数据,来训练视觉模态的字幕识别系统,赛道二旨在使用含有视觉模态字幕标注的数据,来训练音频字幕识别系统,赛道三旨在融合视觉和音频两个模态的信息来设计字幕识别系统。参赛队伍可根据每个赛道的特点,设计合适的字幕识别模型。
赛道一:只包含有音频提供的字幕信息,参赛者需设计一个字幕识别的OCR模型。参赛者们可以使用自知业界开源开放数据集对OCR模型进行预训练,然后通过音频模态提供的跨模态字幕信息训练模型。
赛道二:只包含有视觉模态提供的字幕信息。参赛者需设计一个字幕识别的ASR模型。与赛道一相同,参赛者可以使用指定开放数据集对ASR模型进行预训练,然后通过视觉模态提供的跨模态字幕信息训练模型。
赛道三:同时提供了音频模态和视觉模态标注的多模态字幕信息。参赛者可利用这两个模态的字幕信息设计一个字幕识别的模型。与赛道一,二相同,参赛允许使用公开数据集进行预训练,然后对模型进行微调。
03 评测方案
本次竞赛的评测指标为cer。为公平合理地评测三个赛道,我们为每个赛道设计了如下不同的评测方案。 赛道一:在评测时,首先遍历真实标注中的每一条字幕,并且与预测字幕信息计算tIOU(时间交并比), 匹配tIoU最大并且>=0.5的预测结果,计算cer。如果不存在,则该条字幕未被正确命中,该条字幕cer为1。同时,对于预测字幕, 若与某条真实字幕的tIoU>=0.5,视为误检cer = 1。最后,该视频所有字幕的cer的平均代表该输入视频的cer结果。 赛道二:参赛者需利用视觉模态提供的字幕标注和给定的音频数据,训练一个跨模态训练的字幕识别的ASR模型。参赛者应预测出包含在音频模态的字幕信息。通过计算预测字幕与真实标注字幕之间的cer来评测ASR模型。 赛道三:参赛者需要设计多模态字幕识别系统,预测给定视频中来自视觉或音频模态的字幕信息。通过计算预测字幕与真实标注字幕之间的cer来评测模型。
04 竞赛结果与排名
赛道一:排名及冠军方案
下面的表格列出了在赛道二上提交系统的Top5结果。网易、浙大、华科联合团队,好未来、Yidun AI Lab三个团队分获赛道一前三名。
赛道一旨在使用含有音频字幕标注的数据,来训练视觉模态的字幕识别系统。Jingquntang etal设置的方案中,模型主要分为三个部分:文字检测、文字识别以及字幕提取部分。由于字幕标注信息是跨模态的弱监督标注数据,因此文本识别模块难以训练。为了解决该问题,冠军方案使用构造数据的方式来解决该问题。首先,该方案使用文本检测模块检测视频帧中的文本并将文本进行抹除。接着,该方案将音频提供的字幕信息与抹除文字后的帧生成新的视频帧。 该方案使用大量的生成数据对文字识别模块进行有效训练。字幕提取模块通过对比前后帧的字幕内容、IoU信息、和文本框位置来提取字幕。
赛道二:排名及冠军方案
下面的表格列出了在赛道二上提交系统的Top5结果。网易、大搜车、Yidun AI Lab三个团队分获赛道二前三名。
赛道二旨在使用含有视觉模态字幕标注的数据,来训练音频字幕识别系统。nickyang etal队伍设置的方案中,同时训练了若干个ASR模型,并将所有模型的输出融合为最终结果。在数据预处理部分,对于含有字幕标注的训练集,方案通过构建解码图,并应用简单的卷积网络计算语句置信度,得到文本标注信息;对于不含字幕标注的训练集,方案使用微调的wav2vec2.0模型得到文本的语言特征,再使用预训练的语言模型和Kaldi解码器得到文本标注信息。然后,在模型训练部分,该方案分别使用了混合模型和端到端的Wenet模型共同训练,并通过循环往复的方式得到更优的训练集标注,进行更新迭代,从而得到了最优的文本识别结果。
赛道三:排名及冠军方案
下面的表格列出了在赛道三上提交系统的Top5结果。Yidun AI Lab、中科院自动化所、好未来三个团队分获赛道三前三名。
赛道三旨在融合视觉和音频两个模态的信息来设计字幕识别系统。相比于赛道一、二而言,赛道三的系统设计更加复杂。robindu etal队伍设置的方案中主要包含三个模块:视觉模态的字幕提取器,音频模态的字幕提取器,融合模块将两个模态结果进行融合。其中,前两个模块主要是基于OCR、ASR系统开发的。整体流程如上图所示。模型首先判断视频是否含有两个模态的字幕信息。若预测视频只包含单个模态的字幕信息,则字幕结果只取单模态的字幕信息。如果两个模态的字幕信息,则进一步使用融合模块来融合两个模态的结果。两个模态的字幕信息在时间上可能存在偏移,例如,在音频内某些谈话内容已经开始,而视觉字幕仍停留在讲话者的前一句内容。为了解决该问题,该方案设计了拆分模块,该模块将两个模态中相同和不同的字幕文本进行拆分。在两个相同的字幕文本部分,针对某条视觉字幕可能会在多个帧中存在。对于不同帧的背景干扰导致同一字幕的识别结果不同这一问题,融合模块中的过滤模块旨在挑选视觉字幕中OCR识别效果最好的,同时移除识别效果不好的。最后,将不同的部分和相同的部分字幕文本使用填充模块进行拼接。
05 致谢
本次竞赛依托于国际会议ICPR 2022,竞赛的注册和提交均在CodaLab网站上进行,参赛者可通过邮箱在网站上进行注册报名。同时在竞赛报名期间,感谢智东西、CSDN、量子位、Cver、InfoQ机器之心、36kr等多家媒体支持。
作为腾讯开源协同小组,腾讯ASR和OCR Oteam通过对内部优势技术的整合和开源,构造了贴合各类业界场景的完整、先进、鲁棒的模型库和算法框架。后续我们将会对业界开放基础算法框架,同时也寻求学术和工业界在该问题的先进算法和技术,携手共建更优的多模态字幕识别解决方案。
赛事组织者:
黄珊 腾讯科技 OCR Oteam
黄申 腾讯科技 ASR Oteam
卢鲤 腾讯科技 ASR Oteam
胡鹏飞 腾讯科技 ASR Oteam
汪翔 腾讯科技 OCR Oteam
康健 腾讯科技 ASR Oteam
金连文 华南理工大学
刘禹良 华中科技大学
武亚强 联想(北京)有限公司