一切从用户的需求与体验出发

2021-09-01 15:55:24 浏览数 (1)

2018年音视频生态发生了许多变化,从视频编码到网络传输,5G的标准完善、QUIC的更名确认、人工智能的不断升温,他们对多媒体技术将产生怎样的影响,未来技术发展方向又将如何?LiveVideoStack邀请了三体云系统架构师时杰、即构科技资深架构师祝永坚和七牛直播云流媒体负责人谢然探讨网络传输、QoE以及2019年技术展望。

文 / 祝永坚,时杰,谢然

整理 / LiveVideoStack

LiveVideoStack:5G将有望在2020年开启商用,对音视频技术来说5G将会带来哪些方面的改变或突破?是否看好明年对于5G的提前布局?

祝永坚:5G具有高速率、低延迟、高性能、高容量的特性,可能会带来带宽、延迟、密度方面的变化,一般认为,5G可以带来Gb/s级别的用户带宽,ms级别空口延迟。在5G时代,用户对超高清视频的需求,也让实时音视频的发展和应用有更大的想象力。

成本和性能仍然是厂商重点考量的维度,5G如果普及开来,对于实时音视频来说,意味着处理的数据量也会增长很多,面临着处理性能的技术升级,包括音视频的编解码性能。

时杰:5G将会给多媒体时代带来全新的体验,质量上的提升,尤其是直播系统中实时性会更好。对于受传输限制的一些技术点,会有明显的帮助和提高。而对于明年的提前布局我相信是必然的,像三体云的3tclass就是很好的一步。

谢然:我个人比较看好。在 5G 普及后,由于带宽逐渐变得不敏感,应用上会更加关注实时性,类似 STEAM 的游戏实时传输的产品会有增加。对于编码器而言会更关注实时编码的优化。

LiveVideoStack:Google QUIC将正式更名为HTTP/3,它将会对音视频技术和行业带来怎样变化?其实早在去年W3C大会上就有人提出通过QUIC来实现WebRTC,这会成为明年的发展趋势和技术突破?从技术实现和实际应用中会遇到怎样的困难?

谢然:我认为可能对于点播的意义大过直播。对实时音视频可能意义不大。目前客户端的支持还是贫乏的,以及服务端的开源实现也是。

时杰:QUIC的正式更名说明它装开始新的时代、新的起点。至于实现什么?这个还有待于实践的的结果,目前理论上讲是很好的技术革新,技术的发展大部分总是螺旋式上升的,但要引起质的变化还需要新的突破,在实际应用中会出现各种新的未知困难。

祝永坚:对于实时音视频,重要的体验是低延迟和流畅。QUIC在弱网的情况具有优秀的表现。音视频行业的追求依然是低延迟,因此这个技术能解决痛点。实际应用中,在QUIC支持还没有完全起来,可能会遇到防火墙的限制的问题。目前主流的rtmp一直有它的弊端,QUIC对于rtmp,很可能是解决痛点的一个可行方案,如果形成标准那就更好。当大家都来做这事,对于行业来说是个促进共同进步的好事,例如原来的防火墙规则可能也会因此而得到更快的适应。

LiveVideoStack:AI技术的快速发展为视频编码算法优化、网络自适应调度策略、图像识别、视频分析等赋予了更强的支持,另一方面AI技术也逐渐渗透到安防、教育、汽车等行业中。您认为在未来人工智能与音视频技术还将在哪些方面产生化学反应,带来更多的突破?

时杰:人工智能会改变用户交互的方式就是语音,我们有语音,因为我觉得这里有越来越多互联网的沟通走向语音的沟通;可以大胆的想像一下,除了语音外还可以有表情、眼神、甚至想法,都可以通过AI达到沟通。所以视频分析技术将是人工智能技术爆发式增长的主要领域之一。

谢然:最大的实用价值可能是从音视频中抽取有效信息供搜索引擎检索。未来的文字和图片将逐渐被音视频代替。

LiveVideoStack:伴随视频逐渐成为人们日常生活的一部分,用户对于观看体验的要求也不断提升,如何有效预警与解决潜在问题,提供持续满意的用户体验?这其中都会有哪些关键技术点和难题,又是如何去解决的?

时杰:一切从用户的实现想法和需求出发,满足用户永远是技术革新的源动力和新起点;除了本领域内的发展,与之相关的相关行业的发展也会影响多媒体领域的发展,像AI和云端计算及使用终端的呈现都需要同步配合、相互促进。

谢然:主要做法是在客户端埋点,主动监控客户端到服务端之间的网络质量,采用服务端多备份的措施来避免单点问题。以及服务升级需要使用热升级,来避免断播的情况。

祝永坚:即构有质量体验评估的方法,根据量化的质量指标来评估质量;加上完备的监控系统,在出现问题时能够及时告警,及时处理。网络链路监控和质量监控,包括rtt、丢包率、首帧时间、卡顿率、负载情况、主播到观众的链路、容量预警等等。

难点是在用户接入方面,根据域名解析来实施就近接入,或者ip库来实施就近接入,都有一定的缺陷。特别在国外一些网络基础环境较落后的地区,挑战会更大。技术上,我们尝试被动接入和主动测速相结合的方案;运营上,我们除了对节点覆盖地区和运营商用户的质量做质量测试,还会将线上的质量数据沉淀下来,做大数据分析,来迭代优化节点覆盖的质量。

另外,跨国网络链路质量也是一个挑战,我们对各区的网络质量进行了监控,技术上我们有中转的路由方案,结合网络质量监控,可以实施动态路由,避开故障的线路。另外我们还和合作厂商使用SDN方案来优化主要的跨区链路。

LiveVideoStack:您认为2019年音视频技术发展趋势是怎样的?哪些技术会成为热点或为多媒体开发带来新的突破?

祝永坚:音视频技术将会随着行业应用的深入,遭遇到的技术挑战会越来越大,克服这些挑战之后,应用场景也将越来越多,玩法越来越多。除了泛娱乐直播,其他行业也可以音视频技术,实现业务的创新。比如,公检法也可以接入音视频技术,实现可视化执法、远程接访、视频庭审。民生政务方面,可以通过小程序接入技术,实现视频办事。除了单一线上的支持,音视频技术也可以跟软硬件结合,形成一站式解决方案。越来越多的智能硬件产品开始接入音视频技术,像无人机、车联网、机器人、智能眼镜等,两者结合后又能应用到不同的行业。

音视频技术的发展,未来的趋势主要有几个方面:

变声和声音特效。在服务客户的过程中,我们发现很多泛娱乐直播社交和游戏行业的客户,都提出了变声和声音特效的需求,来丰富各种业务端玩法,目前即构的SDK也基本能满足这些场景多种变声的需求。

更好的去背景噪声。当前实用的降噪算法主要集中在噪音学习和阵列降噪上,但是人耳人脑的能力远超现在算法能达到的水平,比如人在嘈杂环境下,也有很大可能“过滤掉”噪声和其他人的语音集中理解某个人说话。

语音分离、音乐分离,比如两个人说话的时候,技术上能把一个人的语音完整分离出来。能够从交响乐分离出大提琴的声音等,如即构和Finger打造的在线音乐陪练,就是典型用了音乐识别和人声识别的技术。

视频跟鉴黄、AI、人脸识别、行为识别的结合的应用会越来越多。

谢然:比较看好 wasm 的性能提升,期待能达到 ffmpeg h264 decoder 的原生性能。web 端开放更多的流媒体接口。MSE 在移动端的普及。

时杰:云计算推动视频技术的长足发展,现在像直播、短视频、智能视频已经让人的精神生活丰富起来,这些需求满足之后就会有更高的要求。可能VR更能带来不一样的体验,并能在终端上普及。多媒体通过人工智能的分析、识别、提取等突破后会出现爆发式增长。

0 人点赞