在 AICon 全球人工智能与机器学习技术大会(2021)北京站上,快手技术 VP 王仲远带来了主题为《Al 技术在快手短视频创作与理解的应用》的演讲,分享了快手在 AI 技术领域的实践与探索成果。本文由 InfoQ 根据王仲远的演讲内容整理,希望对你有所启发。作为国内短视频行业头部平台之一,快手有 3.2 亿日活用户,月活达 5.7 亿,此外还有 1.8 亿海外月活用户,存量短视频已达数百亿量级。在快手平台上,用户每天会花超过 100 分钟观看短视频及直播内容,用户相互关注数也超过 140 亿。
快手平台内容丰富多彩,山河美景、萌宠、搞笑、极限运动、才艺、美食……包罗万象。从内容在快手平台上的流转过程这一视角分析,可以将全流程抽象为内容生产、内容理解和内容分发三大环节。本次分享将分别介绍 AI 技术在这三大环节的应用。
AI 技术在内容生产环节的应用
AI 技术在快手平台内容生产环节应用非常广泛,其中美颜、美体、自动字幕、自动配音是标配的基础 AI 能力;智能变声、魔法表情、AR/MR、智能视频创作、虚拟主播等属于高级 AI 应用。
美颜几乎是每一个同类 App 标配的能力。传统美颜技术主要依赖滤波器 LUT 的方式,需要大量的去磨皮、接滤镜等工作。
在 AI 时代,很多 AI 技术被用于美颜流程,获得较传统方式更加自然的效果。除美颜外还有头发生长、画质增强、双眼皮等变美方式,通过 AI 可以轻松实现。
在核心技术实现上,快手采用 encoder-decoder 结构,其中的重采样卷积结构采用先降维,再升维的网络结构,从而能在手机上流畅运行。除美颜外,AI 还可以应用于人脸属性的变换,如年轻人变老、瘦人变胖、改变性别等。
在人脸属性变换中有两种技术路线。一种是域迁移技术,使用青年组照片通过 CycleGAN 这样的方式学习预设的老年组照片。另一种技术路线使用隐空间来做一些属性的编辑操控,如 StyleClip,从而改变人脸属性,实现变老、变年轻或者变性别的效果。
平台还在流行人像风格化,比如非常流行的手绘画、东方国漫风格等。此类复杂的变化基本都通过 StyleGAN 等深层次网络实现。为了更高效获得数据,快手团队使用 StyleGAN-blending 等方式生成高质量的配对数据,并使用半监督混合训练框架及 Human-in-loop 策略,以适配快手场景的风格模型训练与迭代,来深层匹配人像风格化的生成结果。
除了对人脸视觉信息的变换外,团队还可以对声音做多种变化。以智能 RAP 为例,用户只需上传一个视频,系统会自动做视频场景理解,通过 NLP 技术生成一段 rap,使用语音技术生成说唱效果。此外,原始声音可以变换为小哥哥、卡通小新、四川方言等种种风格。
音频领域的另一大 AI 应用是 AI 歌手,该项目立项已有两年多时间,音准等指标有了明显进步。AI 歌手的能力帮助很多快手用户,尤其是不太擅长唱歌的用户实现了当歌手的梦想,因为智能变声功能可以学习用户的音色,通过 AI 歌手功能准确唱出歌曲。此外,快手团队还研发了 AI 自动作曲能力,已经在小森唱 App 上线相关功能。
视觉及声音的很多变换玩法落地都会搭配快手的魔法表情功能,这是一个帮助用户低成本创作视频的辅助工具。团队将 AI、MR 技术融入到了魔法表情功能中,例如在视频中的建筑上做出熊猫,在地毯上加花纹,放飞许愿灯,建筑物表面加 AR 广告等等。此外还有团队自研的流体特效,可以根据手机方位感知水流变动。魔法表情功能背后涉及三大核心模块,包括位姿跟踪、深度估计和场景重建。
智能创作是平台内容生产环节近期的研发重点,旨在依托素材的混剪帮助用户更加便捷地创作高质量短视频。它的应用场景非常广泛,如用户增长、商业化广告、内容供给补足等各种各样的新玩法。
例如一段效果接近专业水准的宣传视频,传统上需要数十万成本、几周时间才能制作完成,现在 AI 模型只需 30 秒就能生成。这样的专业级短视频制作能力是每一个用户都能体验到的,会使得高质量视频制作进入到普惠化时代。
短视频智能创作背后同样依赖于平台强大的素材理解能力,以及跨模态语义匹配、智能配乐、语音合成、转场特效等能力,最终合成效果出色的影片。
AI 技术在内容理解环节的应用
当众多内容生产后上传到快手平台,平台需要对这些内容做内容理解。每一天有数千万短视频被上传到平台,团队希望让机器也能像人类一样理解这些视频的内容。
理解内容的第一步是对杂乱无章的视频做基础的分类和标签,像图书馆归纳书籍一样一样对视频分门别类。快手平台的类目达到 4 至 5 层级,类目树有数千个节点。例如运动属于一级类目,下分游泳、滑雪、健身等次级类目。
快手通过这些类目和标签对平台上每一个作品进行结构化处理,表达成让机器可以理解的多模态 Embedding。通过多模态 Embedding,系统可以快速检索出在平台上和某个视频相似的其他视频。
除了视频级内容理解以外,快手团队还在研发“万物检索”功能,希望实现元素级检索。例如某个视频中某一件画作出自谁手,某个包的品牌等信息,都需要更加细粒度的内容理解能力。
快手已经实现了对内容视频中的实体或者元素进行识别的能力,并能通过识别来找到包含同款商品或者相似元素的短视频。该功能背后用到了多模态理解细粒度元素的系统,其中包含细粒度主体检测和检索功能。
AI 技术在内容分发环节的应用
在内容分发侧,快手团队将 AI 技术和推荐技术做了融合。
在快手平台上,推荐是无处不在的,推荐场景也有众多差异,例如单列精选页、上下滑形态、双列发现页等等。关注页的推荐融合了社交信息,同城页融入了地理信息,以此类推。
不同的推荐场景背后使用的推荐模型也大有不同。快手在推荐系统方面研发了一个超过 1.9 万亿参数的模型,其中还深度融合了内容理解能力。
举两个简单例子展示内容理解 AI 技术和推荐系统结合的实例:
1、视频的冷启动。
一个新视频上传到平台做完结构化理解后,最初并没有其他用户的反馈,很多基于用户行为的推荐方法最开始是无效的。
一种方法是给它分配一个固定的流量池,获得用户的初始反馈,这是比较低效率的分发。
另一种方法是基于内容理解对视频质量做预估,基于不同的质量预估分数给予它不同的流量初始分配,帮助视频更好地扩散。
2、长期兴趣建模。
大部分行业的推荐系统都是基于过去数百个客户体验来做建模,而快手这一创新架构升级能够把数万个用户行为序列与内容结构化结果结合起来。该技术在行业里处于领先水平。
本次分享介绍了 AI 技术在快手平台上方方面面的一些应用。快手会将这些 AI 技术向全行业更广泛地分享出去,希望大家关注快手 AI 开放平台 (ai.kuaishou.com)。