淘系音视频技术的演进之路

2021-09-01 15:36:13 浏览数 (1)

随着社会的发展,音视频技术在电商运营中占据的位置越来越重要。不仅时代在进步,音视频技术也在前进。本次LiveVideoStackCon 2021 上海站中,我们邀请到了淘系技术的陈颖老师为我们分享淘系内容电商技术的过去、现在及其未来展望。

大家好,我是来自阿里巴巴淘系技术的陈颖,花名昆虚。欢迎来到LiveVideoStackCon 2021 上海站的淘系技术专场。欢迎来到“迈向视频内容时代的淘系技术”专场。

大家知道,2016年被称为直播元年,我们淘宝直播也是在2016年开始了自己的业务。经过五年的发展,可以不太谦虚地讲,我们依然是电商直播类的执牛耳者。那么淘系内容是如何迈向视频时代的呢?我们的淘宝直播背后又有什么样的技术?除了淘宝直播之外,我们还有什么音视频技术相关的业务呢?我想大家或多或少都有一定的疑问。那么今天包括我在内的四位来自淘系技术的嘉宾,会就这些问题和大家展开探讨。

我们将主要在四个方面展开:首先我们会讲讲淘系内容电商技术的过去,现在和未来;接下来我们会在三个核心技术领域,包括音视频的编码与处理、网络传输和视频理解,我们都会进行一些更技术细节的展开,以便和大家进行更加具体的讨论。作为这个专场的主持人,首先,我要简单介绍一下我们这几位嘉宾。第一位就是我本人,我是阿里巴巴淘系技术的研究员陈颖。第二位是淘系技术的高级算法专家王立波,花名庄恕。第三位是淘系技术的资深算法专家李晓波,花名篱悠。第四位是淘系技术资深技术专家陈举锋,花名丰火。

我们马上进入第一个Talk——《淘系内容电商技术的过去、现在和未来》。我们知道互联网的内容近几年正大规模从图文向视频迁徙,在视频时代,淘宝的业务也呈现出了更加丰富多彩的形态,淘宝在电商大场景下也做了不少业务的尝试,包括淘宝直播、点淘、还有逛逛等,相应的淘系技术范畴也随着这些业务做了很多拓展。借此机会,我们将首先和大家谈谈淘系内容电商的发展历史、视频内容方面的技术布局、当下面临的一些技术挑战、取得的一些技术创新和成就。

首先,得益于淘系技术和LiveVideoStack组委会的盛情安排,使得我和在座各位有了沟通的机会,非常感谢。我会首先做一个简单的自我介绍和业务介绍,之后简单交代淘系内容的业务以及相关技术、尤其是音视频技术的发展历史。在这段发展历程中,我们也围绕着音视频技术的主要趋势做了很多技术方面的布局,也和大家一样面临着不少技术挑战和问题,在解决这些问题时也取得了一定的成绩。最后我想和大家讨论音视频技术未来的发展趋势。

------

#1.个人简介与淘系技术内容业务介绍

因为是第一次在LiveVideoStack这样使用中文的场合和大家进行沟通,我想先和大家做个简单的自我介绍。

我本人在北京大学求学,先后获得学士和硕士学位,大四开始进入实验室做图像与视觉方面的研究,之后在芬兰的坦佩雷理工大学获得博士学位。

我职业生涯的早期陆续在Thomson多媒体和Nokia (芬兰的NRC)就职,从事视频标准和应用相关的工作。

2009年,我加入美国高通,在将近十年的工作中,主要做了两件事情。第一,帮助高通公司成为在视频编码压缩的算法,包括标准化方面的世界顶尖公司;第二,我做了一套计算机视觉端上算法,帮助高通公司开辟了芯片在IOT领域的新赛道。

可能进入音视频技术行业比较早的人可能也知道我在视频标准方面也做了一些还算显著的工作,我就不赘述了。

在加入阿里巴巴之后,我先后从事过计算机视觉和IOT相关的业务,去年加入了淘系,负责淘系技术音视频相关的算法。

在此我也将代表团队和大家分享一下我们淘系技术内容平台团队的工作。

个人来讲,我在视频编码、视觉和图像处理方面发表了一系列的论文、专利,以及标准技术提案,相关的著作获得过万次的引用。

不少相关研究成果也被总结成为发明专利,目前,美国专利局USPTO在册的我本人已授权发明专利超过260项。

可以看到,我的职业生涯主要在做视频和视觉相关的工作,尤其是视频编码与处理。

现在我在淘系技术负责的是和音视频相关的业务,主要是淘宝直播,点淘和逛逛。

对于淘宝直播,大家都不陌生。淘宝直播简单来说就是把大家开店卖货这样一个实时的可交互的商业行为搬到了线上。经过几年的努力,我们将淘宝直播打造成了行业领先的专业消费类直播平台,而且建立了围绕商家、机构、主播和直播基地的生态系统。

大家可以看到淘宝直播是在整个淘宝大的APP里面的,本身得到淘宝APP的加持,但也有一定的限制。因此我们从淘宝直播系统里衍生出了新的独立的APP「点淘」,它既包含所有淘宝直播的内容,也包含短视频的内容。

因此它有超出淘宝直播之外的特点:首先它依然是一个高互动的直播间;其次不同的是,我们会有更好的沉浸的种草视频流;另外我们会把购物路径做得很简单,并且可以很方便地看到商品,尤其是新品的趋势。所以说这是一个既包含短视频又包含淘宝直播内容的独立APP。

另外淘系也上线了新业务「逛逛」,可以将短视频的内容,种草的心智放到了淘宝的主APP里面,现在是我们主页面的第二个Tab。逛逛里面既有图文的内容,也有短视频的内容,并且短视频的内容正在高速地增长。

为支持上述业务,包括淘宝直播、点淘、逛逛,我们在音视频的整个链路都有自己的技术架构和能力建设。既包括内容的感知、内容的编辑合成、内容的处理、内容的分发,以及内容的呈现,背后也有我们的一套内容风控。

单就视频而言,视频的拍摄、编解码、窄带高清处理、播放器、视频传输都是我们发力的重点。比如在视频处理方面,我们有自研的编码器以及窄带高清视频增强算法来更好地降低带宽、提升画质。在拍摄成像方面,我们有自己的淘拍APP和亲拍SDK,帮助我们做视频拍摄之后的剪辑,还有一些实时的互动玩法。我们也有一套自己的3D视觉技术来做更好的互动,还可以帮我们打造3D的直播间。在视频传输方面,我们建立了业界首张全链路基于RTC的CDN网络。这些技术域不仅支持上面提到的淘宝直播,点淘和逛逛,也支持所有淘系和电商的相关业务,比如淘宝特价版和1688,还支持集团一些其它需要用到音视频技术的业务,比如钉钉的视频会议等场景。

------

#2.淘系内容业务发展史

淘系音视频技术是伴随着淘系内容业务的发展才慢慢建立起来的。

大家可以大概了解一下,淘宝直播在2016年诞生,随着业务的快速发展,到达了每年数千亿的GMV。之后我们又孵化出了点淘和逛逛这样的视频内容强相关的产品。

伴随着业务的投入,我们也感受到了发展音视频技术的紧迫性,因此也在持续增加投入。我们陆续有了自研的视频编码器,上线了AI互动玩法,通过对内容的理解上线了直播看点。同时在淘拍和亲拍方面我们也上线了视频编辑的产品。另外,阿里自研的实时传输网络(GRTN),使得在整个网络体验方面,包括卡顿、延时等方面做到更好的效果。

我们认为基于视频的服务可以增强购物体验。比如可以让宝贝详情更真实、可信。视频内容也可以增加用户的停留时长。所以我们可以看到,无论是在带宽、还是停留时长方面,视频在所有的内容中占比逐年增加。可以说,整个淘系内容正在加速迈入视频时代的进程中。

------

#3.音视频技术趋势以及淘系技术相关布局

那么,要迎接这样的视频时代,我们首先要理解音视频技术的趋势,在此基础上才能更好地做自己的技术布局,去支持好我们的业务。

当前,视频的制做和分享正在大规模地从传统的广电行业向互联网,、OTT迁徙。中国和美国都有大量的用户通过OTT设备看剧,其中中国有超过6亿人通过OTT设备看剧,也有很多人日常刷直播和短视频。

同时,我们面临一个重要的问题,就是我们希望所看到的视频内容能够像传统视频一样都是广播级的,有高质量和低延时,但视频源随着UGC内容的增多质量往往是参差不齐的。现在视频内容制作的门槛非常低、非常平民化,这也导致了视频内容开始爆炸性增长,在中国用户日均观看互联网视频的时长达到了250多分钟。近三年,全球每月视频类流量增长近三倍。

这些流量主要集中在我们常说的短视频、点播、直播这些领域,淘系技术的一个重要任务就是让我们平台上的这些短视频,直播视频内容都变成高质量的,并且追求整个过程的低成本,最终普惠类似影院级的视频体验。

要普惠影院级的视频服务,我们要持续性地解决三个问题 :

1. 如何应对低质量的视频源,比如不少互联网上拍摄、分享的视频分辨率还很低。

2. 影视作品制作成本极高,而互联网视频可通过手机拍摄,制作成本几乎为零。后期比如UGC 视频的质量提升,实际上是把制作的成本部分转移到了处理算法。因此成本是非常高的,想要做到普惠,就必须要把成本降下来。

3. 电视广播一般带宽很高,甚至可以达到百兆级别。然而,当前很多用户还是处于弱网环境下观看视频,带宽非常低。

要解决这些问题,实现高清晰度、低成本和低带宽,需要一系列的算法,其中包括视频编码和窄带高清视频处理等等。

我们观察发现,最近一两年,出现了几个很明显的视频应用新趋势,和传统的持续需求是不太一样的,包括:

1.同步观看视频的需求。比如实时教育活动、在线抢购秒杀、多主播互动等,同步观看的需求越来越多。

2.视频和电商的关系越来越密切。比如直播带货以及短视频电商,预期2021年电商视频的市场有可能超过千亿美金。

3.低延时的需求也越来越强。因为我们需要有实时互动、实时连麦等应用的需求。低延时背后无论是传输、通信、编码还是处理方面都一直存在技术的更新换代。这些技术的发展使得更低延时成为可能。

4.AI被广泛应用。除了基于内容的理解、搜推之外,还有如用户希望商品出现之后能立刻检测并播报这个商品。此外,我们也会做基于内容的感知编码。

我们既需要面对之前提到的高清晰、低计算成本和低带宽这种持续的需求,同时又有更多新的趋势需要跟进。这中间有不少的新机会,我们都要去抓。但是抓住机会的同时也相应带来了不少的困难和挑战。

淘系技术已经围绕这些困难和挑战做了不少的工作。

------

#4.主要的技术挑战和困难

接下来分享一下音视频主要的技术挑战在哪里。

我认为总结出来一下六点:

1.网络传输方面。

2.UGC内容方面,就是如何把内容做好。

3.整体视频服务的体验如何,QoE到底是如何的。

4.视频呈现维度方面,有深度和广度方面的要求。

5.我们所面对的是一个非常复杂的环境,包括网络环境以及设备环境等。

6.实时计算。

实时计算可以先展开讲一下,比如在做淘宝直播时,我们需要端上的很多计算,要做实时的编码,以及实时视频处理。同时我们做内容理解时也经常需要端和云的互动,在端上意味着实时的需求。包括我们会做人脸的美颜瘦脸,以及手势互动,这些都是需要实时的。淘系低延时直播可以做到一秒以内,这和我们整个链路中所有相关计算的实时化是密不可分的。

几大挑战里面我认为第一个依然是网络传输方面的。比如观看网络直播的用户越来越多,对网络资源的消耗越来越大等等。但是,相当一部分用户还是处于比较差的弱网环境,同时很多人是通过移动设备接入的,移动设备之间又存在电子干扰,所以网络延时、卡顿和丢包都一直在发生。同时,一些局域网的用户下行带宽是有限制的,一些设备的算力也是有限的,这些限制条件和问题都会使得整个视频方面的体验变差。

为解决这一系列的问题,我们需要更好的网络传输。因此阿里一直在打造下一代传输网络GRTN。它本身是一张很强的网络,围绕着它我们也做了端到端的优化,使得整体体验能够提升。

前面提到,无论是UGC的视频,还是很多直播的视频,他们的质量是参差不齐的。比如我们做村播的时候,在农村的这些主播,他的水果或蔬菜给人看到的是不够清晰的。所以我们需要去把这项内容做得更好,我们既需要去降低带宽又需要同步去提升他的画质。我们主要是通过把视频处理,包括视频编码联合做好,来达到这样的效果。

这里主要是三个关键点:普适、普惠和高清。普适指的是要兼容各种各样的视频源,可能兼容的视频标准不同,视频的分辨率不同。而在直播的情况下,我们要去兼容各种不同的摄像头。普惠指的是让云端的处理成本尽量地降低。同时,如果是直播场景,要尽量做到实时。最后,我们的目的还是做到高清,也就是我们希望有接近专业级的视频编码、处理效果。

这里介绍一个案例。左边是一开始的情况,我们目的是希望降低码率的同时能更好得展示商品。可以看到右边展示的是提升之后的效果,码率节省了约10%,同时商品(玉石)的质地被更加精准地展示了出来。这背后除了拍摄环境要做好之外,还有一系列的技术因素,比如ISP要控制好,要做很好的调校,同时要做视频处理,包括增强的算法。另外,商品展示的部分要做更好的色彩还原,这一部分最终可能要用到HDR(高动态范围)和WCG(宽色域)。最后我们也需要做好编解码,使得在画质很高的情况下带宽不至于控制不住。

这是一个视频编码与处理的全链路示意图。整个链路中,首先我们是要追求画质提升的,因此如何定义质量的提升很重要。定义好提升之后要去具体实现,实现完之后要巩固提升。从定义质量提升本质上来说,我们需要一个比较好的对主观体验的客观建模。其实,我们慢慢发现PSNR和SSIM是不够的。即便是VMAF,很多时候也不能满足我们的应用需要,因为很多时候评价本身还是无参的。有了一套质量体系之后,我们要做图像提升本身。这个过程我们可以认为是低质量视频到高质量视频的一个变换函数,我们会用深度学习的方法,它有很强的学习能力,可以发挥大数据的优势。但是由于它是一个逐像素的low level视觉任务,复杂度是非常高的,且和像素数目成正比。为了实现普惠,我们希望做极低复杂度的深度学习,放在整个视频处理里面,使得它能够比较高效低成本地完成任务,同时尽可能达到实时,可以在直播中应用。

最后,高质量的视频需要编码才能在互联网上触达亿万用户,这个过程必然是有损的,所以这个损失要和前面的处理协作好,要巩固提升,不能因为编码把图像提升的效果给抹掉。

处理业务时遇到的问题,推动着我们演进相关的解决方案。首先要解决的就是传统视频应用中主流的压缩失真问题,就是将编码做得比较好,这样看起来也比较流畅,同时也尽量接近高清。但是慢慢发现,随着主流内容从PGC向UGC的过度,我们发现摄像头效果不可控,大家拍摄的方式、技巧,以及拍摄环境也不可控,图像失真慢慢变成了成像方面的失真,所以需要我们尽量修复成像方面的失真,使之达到专业制作的效果。

从演进的过程中我们不难发现,用户的喜好依据不同场景也有所不同,比如拍摄人物和商品是不一样的,要根据不同的场景去做自适应的方法。不同的场景对好的视频的定义是不一样的,所以要做到、要精彩、要对味。我们遵循这样的演进路线有了自己的视频编解码器,以及针对不同场景的不同处理方法。

另外我们业务中面临的一个挑战就是QoE (Quality of Experience)评价体系。我们内部会先定义统一指标,无论它是不是最好的,然后再在业务中埋点,之后业务全覆盖,进行AB测试。有了一个算法之后放上去看整个评价体系给出的量化结果和预期的结果是不是比较吻合的,如果他们之间有gap,我们就去看哪里有gap,然后再去升级我们的评价体系。

我们这套体系是贯穿于短视频体验和直播体验中的,整个体系需要做很多平衡,比如成本和体验,画质与带宽的平衡。而在体验里面,又要平衡延时与卡顿,延时与编码效率等等。这里面很重要的一点是我们发现要做大规模的业务埋点必须要有客观的画质评价,因为主观可能只在平时做仿真时用得到,大规模数据出来之后必须要做客观的评价。很多情况下它还是一个无参考的评价,所以这些都是挑战。

另外,还需要有低质量视频检出的能力,配合运营降低低质量视频的VV占比。

提到QoE评价体系,很重要一点其实是画质。我们会发现,之前PSNR/SSIM尽量把误差做得比较小,逼近原始,而VMAF更加靠近感知。其实之前也说了,不同场景不一样也要做到精彩对味实际上是要更加接近我们的认知的。很多场景下面我们要大量地用无参考的评价,这种情况下要处理多元化的失真,甚至要考虑美学与视觉的结合。按照这样的方向,我们也建立了初步的质量评价体系,也会根据业务的需要持续迭代升级我们的画质评测标准。质量评价体系这块我们也在加大投入,希望能做得更好。

最后是体验维度。比如说前面的窄带高清,在不提升视频的分辨率、帧率的情况下去做窄带高清、色彩增强、细节增强等等。这点我们要做好。但慢慢的,我们也希望在一些视频呈现的维度能做得更好,比如会做超分辨率、超帧率。但我认为更好的提升应该是视频源头本身要做的,所以我们自身也在做高分辨率、高帧率,包括我们在做1080p以及4k的直播间,帧率也慢慢从25、30帧每秒提高到了50、60帧每秒。同时,我们也发现在商品的展示方面,用户喜欢商品色彩更鲜亮更加真实还原。这其中就涉及到HDR高动态范围,包括宽色域——可以把商品的色彩真实展现出来。此外,美颜瘦脸在直播里也是一个刚需,我们也在做自己的虚拟主编和3D直播间,这背后就有MR和XR这样的技术。包括做3D视频,用多视角的视频,以及全景360度视频展示家装。有了这些之后其实还可以做一些视频的特效和剪辑。在视频的呈现维度上,一是要做得更广,二是在单一维度上做得更强更深,这对带宽本身的成本和技术都提出了很多需求。

最后我想讲一下多样化的环境。我们是一个很大的APP,里面有很多业务。我们面临的网络环境有时会非常差,丢包很严重,带宽也很低,所以我们需要很好地适配当前网络,做带宽自适应,做码率控制等等。我们很多主播可能会用非常差的pc端去开播,也可能会随便拿一个手机去开播,我们对手机型号没有特别严格的限制,所以我们要去适配各种设备。

从内容角度来讲,包括声音场景和视觉场景,其实也要做很多场景自适应的算法。比如音乐场景,主播在卖一些音乐器材和音响设备。不针对场景进行优化的话,我们尝试听一下声音,可以发现一些音乐的呈现是不太清楚的,针对场景进行优化之后对音乐的表达就会更加清楚。

视频场景也是一样的,我们有很多跟电商非常相关的场景,包括服饰场景、珠宝场景、美妆场景。就服饰场景而言,我们可以看到左边是优化之前的,右边是优化之后的,图片对比可能不是特别清晰,但通过这种场景去做优化,我们可以让衣服材质更加的自然、鲜亮。

------

#5. 淘系音视频领域若干技术进展

我们围绕这些挑战做了很多技术沉淀,也有不少亮点。由于时间关系我就简单讲两点。这两点是比较有价值的技术,一个是视频编码端到端的链路,另外一个是全球实时传输网络。

我们可以看一下这个图,这是我们围绕着现有的标准在做在实现的。大家可以看到我们整个编解码的内核,H.265是做得比较多的,同时也在做H.266、VVC相关的内容。高层的语法框架这一块会做分级B帧,会做长期参考帧,会做Adaptive GOP Size ,同时这些底层工具也会针对SAO,de-blocking等做一些优化。同样的,工程框架这一块会做SIMD,做并行计算。

在码控这块,做编码器也非常重要,比如做look ahead, CU Tree,我们也能拿到很多提升。再往上一点,我们会做基于内容的Content Aware Encoding,包括针对内容和场景做自适应编码,会做ROI,以及做JND这样的模型。外层有一个和传输、应用相适配的应用视频引擎,它可以去做模板的适配,去适配不同的规格,比如分辨率,另外也会和网络环境配合,做容错编码。

从算法角度来讲,编码器也和视频处理的电路配合得比较好。

我们从H.265这个编码器来讲呢,其实单点效果也是不错的。内部有一个我们叫做S265的编码器,参加了去年MSU编码器比赛,PSNR的一个档位上获得了第一名的成绩。技术上来讲它比x265在编码效率上提升了很多,差不多35%。这个编码器用于很多业务,不光是淘系业务,同时也是很多集团相关的业务,比如说淘宝直播肯定在用这样的编码器,点播里不论是长视频还是短视频也在用。短视频包括逛逛,商品详情页的业务,长视频包括优酷也在调用我们的编码器,当然这款编码器可能也会做一些其它场景所需要的改造。在钉钉会议,在RTC这样的场景,S265也是可以被大家所使用的。我们在集团内部做了比较好的输出,同时我们也在布局下一代的编解码器,比如H.266/VVC的编解码器,现在已经可以开始在一般的手机上做到实时解码了。同时我们也希望编码器能慢慢做起来,可能开始它的编码效率不能完全体现,但希望过两三年后能逼近H.266在理想情况下的编码效率。

另外我想和大家分享就是阿里全球实时传输网络Global real-time transport network。这张网络是阿里集团共建的,很值得一提的,首先它是全链路基于RTC的CDN网络,和传统网络最大的不同是它可以做去中心化的组网。因为它背后有这样的flexibility,可以做更多的动态路径规划。比如说可以针对丢包率、延时、带宽等等方面的因素根据业务方面的需要去调整不同路径规划的策略。同时,因为这张网络在应用层是由我们自己掌控的,所以可以很好地做智能控制,大主播可以有不同的策略,包括做削峰填谷等等。它整体的核心思想就是我们根据业务需要分配和调度资源,一旦资源固定,我们会为您提供最好的QoE视频服务体验。

我们知道RTC里有拥塞控制,其实是在整个网络的第一跳——就是主播进CDN网,和最后一跳——观看的人从CDN网下去看视频,在这两端去做拥塞控制。和WebRTC里不同的是,我们做了自研的参数自学习的算法,能够更好、更精准及时地去预测实时变化的带宽,去做到更低的延时和更少的丢包,整个体验可以得到大幅的提升。这张网络我们已经在用了,在今年年初会在淘宝直播业务中全量。

------

#6.未来技术发展趋势

最后我还想讲讲未来技术发展趋势。

其实我个人做了一个简单的总结,我认为就是三点:

1.无论你做多fancy的技术,基础音视频体验是要做极致打磨的。

2.大家都会去追求新的视频体验维度,如果你抓住了这个新的体验维度,可能就会催生成一个大的APP,这一块我们也会去看,但谁能抓得准就要看多方面的因素了。

3.视频智能化也是一个很大的趋势,这块大家也都是在发力的。

基础体验是比较确定的,在我看来可以分成三大块。在传输、编码、处理这三大核心功能模块里面要做到最好。我们其实是要追求每个模块各自的代差的,每个块都可以做极致的优化。从视频的表征上来讲,我们要不停地升级,因为用户有日益增长的视频体验需求,他可以今天要1080p明天要4K甚至8K,包括更高的帧率,宽色域HDR也都是要去追求的。这里面有一个看似较小但是比较关键的问题:比如你如何去判断同样场景720p60帧和1080p30帧哪个视频更好?这是如何去做跨尺度的质量评价的课题,因为这样我们才知道如何配置我们输入的视频源,达到最好的效果a。

很重要的一点——前面我也提到了——视频可以用在很多场景,可以用在RTC、视频会议、长视频等等,长视频很多是非实时的场景,而我们淘宝直播室是实时的。即便是直播,你还有秀场,有直播带货,而直播带货有室内的、有3D直播间等等。因为场景不同,针对业务场景必须要做定制化和优化。另外就是跨模块的联合优化,编解码和处理怎么做联合优化,我后面会给一个例子。

从新的体验维度上来讲,这里很多东西我们都尝试过,VR、 360度的视频、家装360度视频场景,包括AR 、MR我们都把它们引入直播间做过尝试,当然还有虚拟主播,要用到一些内容合成,以后可能会用到全息等等。随着5G的慢慢普及,很多应用可能就会起飞,但这块我们是在探索的状态,我们现在不是很明确哪一块一定是会大范围去投入的。

最后是视频的智能化,最主要的就是两点:

1.基于音视频内容的搜索推荐,不管视频内容还是音频内容都要做很好的理解,做更好的搜索推荐。

2.多模态的标签融合非常重要。在做短视频配乐时,我们有虾米这样一个曲库,那如何把音乐配上去,就是它们之间的标签如何相互理解,怎么匹配是最好的,这就涉及到一个多模态的标签融合问题。这一块做好了对拉通音视频最大的模块还是有关系的,甚至还有文本。

举一个例子来说视频处理的未来趋势是什么样的。这个图比较简单,就是一个视频的整体链路,可以做云上的计算,可以做云/边/端的结合和联动。技术上有窄带高清视频处理,有核心编码引擎去做符合H.265、H.266标准的编码器,背后我们也会做智能编码。甚至端上有一些比较好的机型,可以做端上的智能后处理——整个做下来是一个端到端的链路。

以下是我对未来趋势的判断,以往比如说我们的标准H.264、AVC、H.265、HEVC、H.266、VVC都已经基本定义好了视频服务的质量和带宽权衡的上限。但是在所需要处理的场景里面,可以通过窄带高清和智能编码的技术突破代际的限制。

首先,我们有自研的H.265编码器,因为要考虑成本因素,它会比H.265理想的编码效率低一些。

但我们可以去做窄带高清视频处理、做智能编码,使得它能提高编码效率。做窄带高清后能提升25%左右,再做智能编码则又提高了15%左右。我们做了一些并没有完全做到,但我们认为完全可以做到的、更好的处理、更好的智能化的东西,可以去提升一个代差。

同时我们也在做H.266编码器,预计两三年的时间,可以将这个自研的编码器做到发挥差不多标准潜力的一个程度,这本身又能领先一个代际。如果和之前的一些技术联合起来,我们还有两代的代差可以往前迭代,淘系技术,包括视频编码这一块的同学就会朝着这个方向努力。这是我对未来趋势预测的一个例子。

我的分享到此结束,谢谢大家。

0 人点赞