腾讯多媒体沉浸式互动水墨画技术,为世博会中国馆数字文化体验添彩

2021-10-08 10:10:10 浏览数 (1)

- National Day -

 NATIONAL DAY 

前言

首届在中东地区举办的世界博览会——2020年迪拜世博会,在延迟一年之后即将迎来盛大启幕,将于2021年10月1日至2022年3月31日举行。目前共有中国在内等192个国家确认参展,预计将吸引2500万观众参观。命名为“华夏之光”的中国馆是本届世博会面积最大的展馆之一,以“构建人类命运共同体-创新和机遇”为主题,以“一带一路”倡议为统领,旨在宣扬中华优秀传统文化、反映全人类普遍愿望和共同心声、彰显中国智慧魅力,全面展示科技、创新、合作在推动人类文明进步中的重要作用。

受全球疫情的影响,远隔万里的国内游客虽不能亲临现场,但可以通过由腾讯提供技术支持的迪拜世博会中国馆官方小程序,一起线上云游中国馆。我们也在里头为大家准备了一个文化惊喜——由腾讯多媒体实验室提供技术支持的“沉浸式数字水墨画”应用小工具,可以丰富中国馆线上体验。这份精巧的创意,将为迪拜世博会中国馆的文化数字体验添彩,也能向全世界展示中国传统文化和中国互联网企业的技术实力。

那么,实验室最新的黑科技们是呈现这份数字文化体验惊喜的呢?让我们来一探究竟。

 NATIONAL DAY 

团队介绍

腾讯多媒体实验室,专注于多媒体技术领域的前沿技术探索、研发、应用和落地,包含音视频编解码、网络传输和实时通信,基于信号处理和深度学习的多媒体内容处理、分析、理解和质量评估,沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案;同时负责国际国内行业标准制定,包含多媒体数据压缩,网络传输协议,多媒体系统和开源平台等。

多媒体实验室凭借着在技术上的深入研究和产品能力的积累,自研了腾讯沉浸式互动水墨画技术,通过结合智能水墨画、智能作诗和智能配乐等多媒体算法能力,形成了多模态融合且能互动娱乐的完整技术方案,成功实现了通过用户的简单线条即可生成动态山水诗画的效果,为人们带来丰富的沉浸式体验。在迪拜世博会中国馆官方小程序“玩转中国馆”内就能体验到。

 NATIONAL DAY 

技术介绍

多模态融合的

沉浸式互动水墨画

多模态融合的沉浸式互动水墨画由三个部分组成,智能交互水墨画(智能作画)、智能写诗、智能配乐。下面让我们来了解腾讯多媒体实验室的黑科技吧。

扫描小程序码,输入你的名字,多媒体实验室算法将为你智能生成动态山水画并题诗一首,还将智能配上为你精心挑选的动人乐曲。快来体验吧!

智能作画

在用户绘制出山脉轮廓线条后,多媒体实验室算法通过水墨画生成网络、水墨画风格转换网络及融合补充等一系列操作得到最终的水墨画效果。

图1:智能交互水墨画算法流程

1. 水墨画生成模型

水墨画生成网络的作用在于从山体线条生成山水图像内容,因此数据集的获取就至关重要。水墨画生成模型利用公开的随机国画生成项目,分别保留随机生成山体线条作为输入图像,以及填充颜色、树木、石头、亭台楼阁等元素后的生成图作为目标图像。而对于网络模型,则选择了生成能力较强的生成对抗网络GAN,在不断约束、平衡及迭代优化后得到效果逼真的生成图像。

2. 水墨画风格转换模型

水墨风格转换模型的目的是将得到的水墨画内容转换成具有水墨画风格的图像。对于外行的我们而言,中国画的一系列表现手法如浓淡、虚实、留白等,只能用“可意会不可言传”来描述了。对于普通人而言,至少需要一年的国画功底,才能画出如此高质量的水墨画,而多媒体实验室的算法却可在一定程度上智能生成这一系列中国画表现手法并呈现给使用者。其原理是通过水墨画风格转换模型,对中国画进行深度学习,收集大量数据集,再应用到水墨画内容图上,从而智能生成水墨画风格的图像。但是,由于数据集限制,该模型并没有学习到内容图的细节处理,因此还需要对水墨风格图进行融合与补充。

3. 水墨画融合及内容补充

上述两个模型生成的水墨画是将风格图和内容图经过微调叠加融合的,其目的是在保留生成内容的同时又拥有水墨画的晕染风格。山体部分就这样完成了,那山水画的其他内容呢?远山、云彩、或是水面?多媒体实验室将预测生成图像的完整山体轮廓,并根据中国画近景、中景、远景的排布,对远景的“层峦叠嶂”、近景的“孤舟蓑笠翁”进行内容补充,让整个交互水墨画更加妙趣横生。

智能写诗

生成原理 提取用户名文本,通过白话文转七言绝句的风格转换模型,生成对应的诗。

文本风格转换模型

文本风格转换模型将白话文风格的文字转换为诗歌风格,因此也被称为“翻译模型”。传统翻译模型的难点在于成对数据的收集,但最新的无监督翻译模型借鉴了图像领域风格转换的思路,解除了成对数据的限制。

图2:文本风格转换模型训练框架

智能诗词生成效果

现在是大数据的时代,所有工作信息的获得大都是从数据分析开始,这就不仅仅要求我们在搞懂上司所布置的工作是什么之外,还有数据整合的能力。

用户名

诗词

酒后的竖琴

酒后竖琴无一语春来平地有余欢一杯相属谁能问不似江南白鹭滩

不系之舟

不系舟楫一钓竿江湖风月夜钓寒一声渔笛寒江上万里烟波落叶间

不可思议

不妨思量无人会只有清谈有世情一笑相逢无限意只缘风月不胜清

如果希望诗词同时与“山”、“水”相关,可以一并加入文本。

用户名

诗词

酒后的竖琴 山 水

酒后竖琴如水石山前吹笛似樵渔一杯相属无人会只有黄鹂共一区

不系之舟 山 水

不系之舟水云乡水色云深共一方一片青山无限意不妨归去白云乡

不可思议 山 水

不妨山水一杯酒何处山阴一日晴不是青松无限意只缘飞去作闲行

注释:文本有字数限制,不超过7个字符。

智能配乐

智能配乐算法流程

腾讯多媒体实验室自研的智能配乐能力基于跨模态技术,能够为图片和视频自动推荐合适的音乐片段。配乐的算法流程分为两个阶段:阶段一,基于标签映射确定候选音乐集;阶段二,基于特征比对的结果确定每个候选音乐的匹配度,进而获得最佳的推荐配乐。

标签映射阶段 算法会提前离线计算好音乐风格和情绪标签,当输入一个图片或视频后,算法将自动识别画面场景、物体、事件等信息,通过这些信息确定风格和情绪,智能匹配与此相关的音乐集合作为本次推荐的候选集。

特征比对阶段 此阶段希望获得候选音乐集合与输入图像、视频的匹配程度。算法将同时提取音乐和视频的时序特征,再经过时序网络分别获取两者的embedding表征,通过矩阵乘法即可获得音乐和视频的匹配程度。为了训练模型,腾讯多媒体实验室搜集了几十万开源的音乐视频数据,同一段视频和音乐的配对当作正样本,不同段的视频和音乐当作负样本,通过监督正负样本对的度量差距来完成对比学习。

图3:智能配乐特征比对算法流程

注释:在沉浸式互动水墨画中,算法接收水墨画图像作为输入,能够快速输出与此匹配的悦耳音乐。

 NATIONAL DAY 

结语

腾讯沉浸式互动水墨画,通过图像生成以及多模态融合技术,为迪拜世博会中国馆的文化数字体验添彩。世界各地受时间和空间限制的人们,也可以通过水墨画互动体验,感受中国传统文化的魅力。腾讯多媒体实验室将持续优化沉浸式智能创作技术,为用户提供更加丰富多彩的互动体验。

请随时与我们联系并分享您的需求:

腾讯多媒体实验室

jeffreyye@tencent.com

作者:张意晗

编辑:张意晗

★ 识别二维码,关注我们 ★

0 人点赞