ACM MM2021大奖出炉！北航硕士斩获最佳论文，罗杰波、宋井宽获奖

作者 | 杏花、王晔

编辑 | 琰琰

22日晚，ACM Multimedia 2021公布了最佳论文、最佳学生、最佳Demo、最佳开源、SIGMM时间检验、SIGMM优秀博士论文等多个奖项，共6篇论文入选，其中北航团队、台湾大学团队分别获得了最受瞩目的最佳论文奖和最佳学生论文奖。

最佳论文奖获奖论文为《Video Background Music Generation with Controllable Music Transformer》，由北航京航天航空大学、查特豪斯大学和Sea AI Lab联合团队共同完成，论文一作为北航研二学生Shangzhe Di，师从 Si Liu 教授，研究方向为生成网络的可控性。

这篇论文主要研究了视频背景音乐生成的问题。为了生成与给定视频相匹配的背景音乐，作者在视频与背景音乐之间建立了节奏关系，提出了一个可控的音乐 Transformer CMT，它能够对音符节拍、音符密度和强度等节奏特征进行局部控制，还能够对用户指定的音乐类型和使用的乐器进行全局控制。

最佳学生论文奖由台湾大学、国立台南艺术大学联合完成，论文一作为台湾大学You-Yang Hu。

此外，ACM Multimedia还颁发了SIGMM杰出技术成就奖和SIGMM新星奖获奖。罗彻斯特大学教授罗杰波，因在多媒体计算、通信和应用方面的杰出贡献摘得技术成就奖；电子科技大学教授宋井宽，因其在多媒体紧凑表示和分析方面的贡献获得SIGMM新星奖。以下为两位学者的简单介绍：

罗杰波，罗彻斯特大学计算机科学教授，ACM、AAAI、IEEE、SPIE 和 IAPR Fellow。其研究领域涵盖计算机视觉、机器学习、数据挖掘、社交媒体和生物医学信息学。

个人主页：https://www.cs.rochester.edu/u/jluo/

Jiebo Luo 教授撰写了 500 多篇技术论文和 90 多项美国专利。此外，Jiebo Luo 曾担任 ACM Multimedia 2010、IEEE CVPR 2012、ACM ICMR 2016 和 IEEE ICIP 2017 的程序主席，现为 IEEE Transactions onMultimedia总主编。

宋井宽，电子科技大学教授，博士生导师。2014年博士毕业于澳大利亚昆士兰大学，2014-2016 年在特伦托大学担任博士后，2016-2017 在哥伦比亚大学担任博士后研究员。

个人主页：https://cfm.uestc.edu.cn/~songjingkuan/

宋井宽教授在多媒体、计算机视觉、人工智能等领域的重要会议和期刊发表论文近 100 篇，谷歌学术引用 7188次，H-index = 40。曾获 ICPR 2016 最佳论文奖，SIGIR 2017最佳论文提名奖。担任过 IEEE TPAMI, IEEE TIP, IEEE TMM, IJCV等多个顶级期刊的特邀评审和多个国际顶级会议（CVPR’18, MM'18, IJCAI'18）的程序委员。

AI科技评论将获奖论文简单介绍如下：

最佳论文奖

论文题目：Video Background Music Generation with Controllable Music Transformer

获奖团队：北航团队

论文地址：https://dl.acm.org/doi/abs/10.1145/3474085.3475195

摘要：此项工作中，我们解决了视频背景音乐生成的问题。此前的一些工作虽然成功生成了音乐，但无法专为给定视频生成一首旋律优美的音乐，并且没有考虑到视频与音乐节奏一致性的问题。为了生成与给定视频相匹配的背景音乐，我们首先在视频与背景音乐之间建立了节奏关系。特别强调的是，我们将视频中的时间、运动速度和运动显著性与音乐中的节拍、模拟音符密度和模拟音符强度分别联系起来。然后，我们提出了CMT，这是一个可控的音乐变换器，能够对上述节奏特征进行局部控制，还能够对用户指定的音乐类型和使用的乐器进行全局控制。主客观双重评价表明，生成的背景音乐与输入视频的兼容性令人满意，并且音乐质量也令人印象深刻。

最佳学生论文奖

论文题目：aBio: Active Bi-Olfactory Display Using Subwoofers for Virtual Reality

获奖团队：台湾大学、国立台南艺术大学

论文地址：https://dl.acm.org/doi/10.1145/3474085.3475678

摘要：在虚拟现实（VR）中加入嗅觉提示可以增强用户在虚拟环境中的沉浸感，而对气味的精确控制将促进用户获得更真实的体验。在本篇论文，我们介绍了aBio，这是一个主动的双嗅觉显示系统，它能够将气味精准地传递到特定的位置，而不是将气味扩散到整个空气中。aBio通过碰撞两个双扬声器的涡流发生器发射的涡流环，可以在缓冲空气冲击力的同时为用户提供在空气中的自然嗅觉体验。根据不同应用的各种要求，涡流环的碰撞点可以定位在用户鼻子前的任何地方。为了验证设备的有效性，了解用户在系统中使用不同参数时的体验，我们进行了一系列的实验和用户研究。结果表明，我们所提出的系统是有效的，用户在感知气味的同时没有感觉到触觉干扰，而系统只消耗了非常少量的芳香精油。我们相信aBio在利用高效地传递气味以提高VR的体验感方面具有很大潜力。

最佳Demo奖

论文题目：ViDA-MAN: Visual Dialog with Digital Humans

获奖团队：京东AI 研究院、咪咕文化科技公司

论文地址：https://dl.acm.org/doi/10.1145/3474085.3478560

摘要：本篇论文中，我们展示了 ViDA-MAN，这是一个用于多模式交互的数字人代理，它能够对即时的语音查询提供实时的视听回应。与传统的文本或语音系统相比，ViDA-MAN能够提供类似于人的交互方式（例如，生动的声音、自然的面部表情和身体手势）。若给出一个语音请求，该演示能够在亚秒级的延迟中以高质量的视频作出回应。为了提供沉浸式用户体验，ViDA-MAN无缝整合了多模式技术，包括声学语音识别（ASR）、多轮对话、文本到语音（TTS）、谈话头像视频生成等。在大型知识库的加持下，ViDA-MAN能够与用户进行不同主题的聊天，包括闲聊、天气、设备控制、新闻推荐、预订酒店，以及通过结构化知识回答各种问题等。

最佳开源奖

论文题目：X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

获奖团队：京东AI 研究院

论文地址：https://arxiv.org/pdf/2108.08217.pdf

摘要：随着深度学习在过去十年内的兴起和发展，持续地创新和突破推动了多媒体领域视觉和语言之间的跨模态分析技术的发展。然而，还没有任何开源的代码库支持以统一和模块化的方式训练和部署的众多跨模态分析的神经网络模型。在此项工作中，我们提出了X-modaler，这是一个多功能、高性能的代码库，它将最先进的跨模态分析分成几个通用的阶段（例如，预处理、编码器、跨模态交互、解码器和解码策略）。每个阶段都涵盖了在一系列先进技术中被广泛采用的模块功能，并允许在两者之间无缝切换。这种方式能够自然灵活地实现最先进的图像字幕、视频字幕和视觉语言预训练的算法，旨在促进研究界的快速发展。同时，由于几个阶段的有效模块化设计（如跨模态交互）在不同的视觉语言任务中是共享的，X-modaler可以简单地扩展到跨模态分析的其它任务的启动原型，包括视觉问题回答、视觉常识推理和跨模式检索。X-modaler是一个Apache许可的代码库，它的源代码、样本项目和预训练的模型都可以在线获得：https://github.com/YehLi/xmodaler

SIGMM时间检验奖

论文题目：Dynamic adaptive streaming over HTTP——：standards and design principles

获奖者：Thomas Stockhammer

论文地址：https://dl.acm.org/doi/abs/10.1145/1943552.1943572

摘要：在本篇论文，我们对 3GPP 和 MPEG 草案版本中的 HTTP 动态自适应流媒体 (Dynamic Adaptive Streaming over HTTP, DASH) 的规范提供了一些见解和背景知识。具体来说，3GPP 版本提供了媒体呈现、Segment 格式和交付协议的规范描述。此外，它还添加了有关 DASH 客户端如何使用提供的信息为用户建立流媒体服务的信息性描述。该解决方案支持不同的服务类型（例如，按需、实时、时移观看）、不同的功能（例如，自适应比特率切换、多语言支持、广告插入、技巧模式、DRM）和不同的部署选项。此外，还提供了设计原则和示例。

SIGMM优秀博士论文奖

论文提题目：Video Adaption for High Quality Content Deliver

获奖团队：马萨诸塞大学阿默斯特分校

摘要：在本论文中，我们提出了视频自适应算法来提供内容并最大限度地提高观众的体验质量（QoE）。视频提供商将视频分成多个短片段，并以多个比特率对每个片段进行编码。视频播放器自适应地选择要下载的每个片段的比特率，可能为连续的片段选择不同的比特率。我们将比特率自适应制定为效用最大化问题，并设计算法以提供可证明接近最佳的时间平均效用。我们设计的算法可以在生产系统上提供 iv 视频，保持理论算法的优势，同时也应对生产中面临的挑战。我们的算法现在是官方 DASH 参考播放器DASH .js的一部分，并被视频提供商在生产环境中使用。大多数在线视频都是通过 TCP 上的 HTTP 流式传输的。TCP 提供可靠的传输，但代价是在重新传输丢失的数据包和线头阻塞时会产生额外的延迟。使用 QUIC 允许视频播放器容忍一些数据包丢失而不会招致性能损失。我们设计和实施的算法利用这种额外的灵活性，通过减少延迟和重新缓冲同时允许一些数据包丢失来提供更高的整体 QoE。我们开发了一个开源仿真环境，用于对 360° 算法进行快速且可重复的测试。我们开发了自适应算法，通过分配更多带宽资源来提供观众更有可能看到的图块，同时确保视频播放器在观众改变头部姿势时及时做出反应，从而提供高 QoE。

https 网络安全云点播编程算法

0 人点赞