2021年CCF-腾讯犀牛鸟基金课题介绍(四)——多模态融合&智能化软件工程

2021-06-08 18:40:09 浏览数 (1)

腾讯公司和中国计算机学会于2013年共同发起的CCF-腾讯犀牛鸟基金(以下简称犀牛鸟基金),始终致力于支持海内外青年学者开展前沿学术研究与技术实践。犀牛鸟基金通过提供企业真实问题与业务实际需求,搭建产学研合作及学术交流的平台,推动合作双方学术影响力的提升及研究成果的应用落地,促进自主技术的创新与发展。

本年度犀牛鸟基金共设立10个科研方向共33项研究课题

申报截止时间为2021年6月15日24:00(北京时间)

申报链接:

https://www.withzz.com/project/detail/129(请在PC端登录)

我们将分五期对研究课题进行详细介绍

本文将介绍多模态融合&智能化软件工程课题

欢迎海内外优秀青年学者关注并申报

6. 多模态融合

6.1 基于深度学习的短视频背景音乐的时序定位

短视频配以适合的背景音乐片段可以增强其情感氛围及表现力,影响观众的行为和情感反应。然而,从海量的音乐库中为短视频定位合适的背景音乐片段需要熟练的视频制作经验,这提高了短视频制作的壁垒以及成本。因此,一种能够从音乐库中为短视频搜索并时序定位合适的音乐段落的算法变得十分有意义,不仅可以降低一般用户的短视频创作门槛,还能够为专业视频创作者提供有效的背景音乐建议,降低制作成本。

学者们对例如图像-文本的多模态信号匹配技术的研究已经持续多年,而作为新兴领域的视频-音乐片段匹配尚未得到足够深入的研究。本命题旨在通过研究基于深度学习的多模态内容理解技术,探索为短视频在音乐库中时序定位出合适的背景音乐片段的可能性。

根据研究的需要,我们可以提供带有背景音乐的短视频数据集,具有版权的音乐数据集和一系列所需的计算资源。

建议研究方向:

  • 视频-音频内嵌表征生成: 将输入的视频和候选背景音乐转换至共享低维空间的内嵌模型,并使用度量函数进行匹配;
  • 音频片段时序定位:时序定位背景音乐的片段,从而生成与输入视频产生最高置信度的音频片段;
  • 多模态信号对齐:由于通常完整的背景音乐会比短视频更长,因此对齐两个长度不同的视频-音频多模态信号对于匹配和时序定位非常重要。

6.2 基于深度神经网络的多模态视频分类

视频是一种融合视觉、文本、听觉等多种模态的多媒体数据。随着短视频业务的增长,对海量的视频数据进行内容理解显得十分重要,在视频推荐、视频检索等领域有着广泛的应用。其中视频分类是视频内容理解中最为基础的任务,目前在业务场景中对于视频的理解,主要还是通过对于视频中的视觉、文本和听觉等信息独立建模,然后对独立模型所得结果进行融合。随着业务的发展,基于独立模型基础上的融合已经不能满足精度的需求,如何在学习过程中融合音频、文本、图像等多个模态的信息,通过不同模态间进行协同学习,实现不同模态间的信息互补,具有非常重要的研究、实践意义。

建议研究方向:

  • 多模态联合建模:单个模态信息可以提取出多种语义信息,该方向研究如何利用不同模态的结构化信息进行建模,提升视频内容理解效果;
  • 多模态协同学习:不同模态包含的信息量不同,对结果的贡献度也不同,该方向研究如何协同学习不同模态特征,综合判断得到全局最优解。

6.3 医学内容理解与推荐技术研究

医学数据的信息化产生了大量的多模态数据,包括文本数据,图片数据,影像数据,时序数据等等。这些数据中蕴含着大量的知识,而目前没有被很好的挖掘利用。我们部门积累了大量的医学数据,包括医学知识图谱,医学文献,医学视频,患者行为数据,电子病历,影像数据等等,如何深入理解这些数据,挖掘出可用的知识,更好的服务于患者和医生,就成了非常有价值的研究课题。

建议研究方向:

  • 基于无结构文本的医学知识抽取、表示和推理;
  • 结合医学知识图谱,融合本文、图像和视频数据的医学预训练模型;
  • 多模态医学内容(视频、直播和文章)的个性化推荐技术研究;
  • 基于知识图谱和多轮问答的疾病初筛系统;
  • 患者诊疗周期中的预测服务研究,疾病阶段预测,恶化预测,复发预测等。

7. 智能化软件工程

7.1  深度学习在软件安全领域的应用研究

随着软件复杂度的不断提升,大规模源代码和二进制软件的漏洞挖掘工作面临新的机遇和挑战。本命题希望把深度学习相关技术(例如自然语言处理、图神经网络、深度强化学习等)应用于软件安全研究中,其成果可以对传统的逆向工程、模糊测试、漏洞挖掘等有较大促进。

建议研究方向:

  1. 计算机语言的表征和分类研究,例如识别二进制软件对应的编译器、编译优化选项、第三方库、开发作者等信息;
  2. 计算机语言的自动生成和翻译技术研究,例如自动生成用于编译器(解释器)模糊测试的符合语法结构的程序代码;利用机器翻译技术实现二进制和源代码之间的相互翻译工作;
  3. 基于程序语义表征的安全属性分析研究,例如代码相似性分析、API误用分析、已知/未知漏洞检索等;
  4. 二进制可执行文件的软件成分分析,如第三方库及其版本号等的分析与识别。

7.2  深度学习在大规模软件自动化漏洞挖掘中的应用研究

随着企业对软件安全要求的提升,模糊测试被认为是行之有效的从内部提升产品安全程度的测试方法。企业与开源项目的大量软件都有自动化安全测试的需求,这也为安全测试提出了新的机遇和挑战。

本命题希望把深度学习的相关技术,如自然语言处理、图神经网络、深度强化学习等应用于软件安全研究中。其成果可以对软件自动化测试、大规模软件测试、模糊测试外壳生成、安全分析、漏洞挖掘等领域的技术发展有较大的促进作用。

建议研究方向:

  1. 计算机语言的分析及自动生成技术研究,例如:自动分析给定软件源代码,然后自动生成符合语法结构、可编译的Fuzz外壳代码;
  2. 闭源软件的自动分析以及自动生成技术研究,例如:将其他工具(如IDA)生成的闭源软件的反汇编代码,进行自动处理,生成符合语法结构、可编译的Fuzz外壳代码;
  3. 大规模分布式Fuzz效率提升的研究,例如:对Fuzzer的样本生成或变异策略等进行优化,以提升Fuzz效率;或优化开源的大规模分布式框架(如OSS-Fuzz)以提高框架自身的效率等。

7.3  代码大数据和代码智能辅助技术研究

在大型企业的软件开发过程中,每天会产生海量的代码和行为数据,对这些数据进行规范化存储后加以分析利用,以生成具有一定价值的关联画像和数据索引,可用于内部开源和协作行为分析、效能度量、全局搜索、风险监控和异常发现等目的。进一步,在企业级海量代码库等大尺度数据规模条件下,自动代码补全、智能提示可以提高软件研发效率,文档、注释生成和风险预估可以帮助改善代码评审体验,克隆检测、代码水印、行为风险预测可以用来保障代码的合法合规的高效复用。此外,一些特定场景下(如电商小程序、游戏运营活动等),编程行为具有高重复性,自动编程可将开发工作量降低而加速产品迭代和试错能力。以上各种辅助程序员代码开发工作的研究探索,具有非常重要的产业实践意义。

建议研究方向:

  1. 代码大数据分析、代码搜索等研究;
  2. 基于机器学习、知识推理及NLP方法的软件研发辅助研究,如代码自动补全、智能提示、注释和文档自动生成;
  3. 软件产权保护和可追溯性研究,如代码克隆检测和传播跟踪;
  4. 特定场景的自动编程。

下期将介绍密码学与区块链&边缘计算&数据库课题

敬请期待

申报截止时间为2021年6月15日24:00(北京时间)

请扫描下方二维码或点击阅读原文了解更多项目信息

https://withzz.com/project/detail/129

如需提交申请,请在PC端打开链接进行申报。

CCF-腾讯犀牛鸟基金

期待您的加入

  • 往期课题介绍回顾:
  • 2021年CCF-腾讯犀牛鸟基金课题介绍(一)——社会可持续发展&机器学习与深度学习
  • 2021年CCF-腾讯犀牛鸟基金课题介绍(二)——数字图像处理与计算机视觉
  • 2021年CCF-腾讯犀牛鸟基金课题介绍(三)——知识图谱与自然语言处理&语音信号处理与语音合成

点击“阅读原文”,了解项目详细申报指

0 人点赞