还记得你在大学时候的梦想吗?职场上打拼多年,你的工作领域与你之前的专业还有多少相关?技术、行业与时代的洪流将一些人推上人生巅峰,又把一些人无情的拍向谷底。LiveVideoStack邮件采访了YY音视频算法中心负责人林绪虹,从直播领域的起伏聊到时代,从学习方法聊到技术趋势。
策划 / LiveVideoStack
LiveVideoStack:林绪虹你好,能否简要介绍下自己,包括目前的主要工作及关注领域?
林绪虹:我2004年本科和2007年硕士毕业于华南理工大学,一直从事图像处理、图像搜索、视频摘要等相关研发工作,擅长图像、视频、信号处理领域的技术研发。2012年加入欢聚时代(YY),现任职于音视频算法中心,负责音视频直播方案相关研发工作,包括重构直播体系、直播体验提升、音视频直播质量改进等。
我对音视频编解码、视频内容分析与理解、图像处理等领域有着深厚的兴趣,近期目标是把YY的音视频直播质量重新打造成世界领先水平,重塑YY直播高品质、低延时的技术能力,保持YY技术上的核心竞争力。
LiveVideoStack:为什么进入“多媒体开发”领域?有哪些偶然和必然?
林绪虹:回头看自己的发展历程,从个人角度来看更多的是偶然,但是放在行业的角度来看,则是一种产业升级后的必然。
从早年一直从事传统工科的图像信号处理,就业面窄、解决问题单一,到后来阴差阳错走入互联网做图像搜索、视频检索,随着直播浪潮的涌起,自然而然就逐步踏入音视频编解码岗位。每次面对这样的转变,都面临着大量新的知识、工具需要学习,短时间内是非常有压力的,但是自己一直能从容应对这种压力。能从容面对这样的转变,一方面是自己具备这方面的学科基础知识和浓厚兴趣,能够顺利地转型成功,另一方面,也是产业升级后,迫使自己往人才缺口更大的岗位转移。
同样的故事,我看到也发生在很多自己身边的朋友里。早年从事传统图形学产品的同学、朋友,现在也转入互联网做一些更贴近用户的图形学产品;早年从事媒体报道的朋友,也转战进入互联网运营自己的公众号、网站等。在这样的技术革命浪潮下,拥抱这种变化,将会迎来更大的机遇。所以,这样的选择也就成了一种必然。
LiveVideoStack:搞多媒体开发需要学习大量的基础知识,而且需要在实际工作中摸爬滚打。对于学习多媒体开发,您有哪些建议?能否推荐一些多媒体开发相关的学习资料或书籍。
林绪虹:现在搞多媒体开发的工程师,真正属于该专业科班出身、根正苗红的工程师,比例并不高。我看到周围,反而大量的是当年学习机械、电信、自动化专业的同学,在从事这一行业。
为什么会有这一奇怪的现象呢?因为多媒体开发,尤其是视频编码、音频编码,其实需要大量的信号处理知识作为理论基础,才能做到知其所以然。补充这一部分的知识,可以看一些非常经典的书籍,尤其是需要对频域变换知识做到深入的理解。
在理解了信号处理的基础知识后,就可以读一些专门的编解码相关的书籍,如果是想在视频这一块有所深入,可以读一读杨付正的《新一代高效视频编码H.265/HEVC:原理、标准与实现》,以及早些年毕厚杰的《新一代视频压缩编码标准—H.264/AVC》。这些都是挺不错的经典参考书籍,我们团队几乎人手一本。先把这些书读上几遍,把其中的技术原理搞懂。
在补充完这些基础知识后,就可以开始进行大量的实战练习。从事这一行业,知识庞杂、细节繁多,一定要努力抓住主干脉络,在成长中学习,重视动手能力的锻炼。有了音视频的理论基础知识还不够,还需要有编码的实战能力,而锻炼这个能力,我觉得找一些大项目参与开发、动手做练习是最关键的。在做项目的过程中,把所有奇怪的坑都填一遍,水平自然就上来了。
接下来进一步的提高,就需要关注网上相关专业厂商的动态,多多学习他们在实际中是如何把音视频编解码技术用到极致的,多观察他们在实际中使用了哪一些有趣的方案或是技术、解决了哪一些特定的问题。
LiveVideoStack:为什么要重构YY的直播系统?这里有哪些历史原因,又遇到了哪些来自业务的挑战?
林绪虹:重构YY直播系统的动力,就是来自于业务的压力。在2016年开始,直播全面开花,各种竞争对手出现。而竞争对手作为一个新入场的选手,有一个很大的优势,它们的直播设备从一开始就性能更好,全新开发的系统及新上线的业务简单,历史包袱小,类似斗鱼等竞争对手,一开始就以超清直播来冲击YY的市场。而YY的整个直播体系,支撑了数条业务线,牵一发而动全身,升级困难,业务响应速度慢。
其中最大的业务挑战来自于YY娱乐业务,这个业务主播数量多、业务种类多,有秀场、有手机直播、有现场直播等多种形式,在整个升级过程中,我们对所有的业务都不能造成不良的影响。
LiveVideoStack:重构进行的是否顺利?遇到了哪些挑战?
林绪虹:最大的挑战,来自于YY直播的技术和业务历史包袱。
我们需要兼容主播和观众大量老旧终端,同时也需要兼容YY诸多业务形态,做到无缝升级。为了做到这一点,我们重新设计了整套主播端和观众端逻辑,引入了差异化的能力,同时引入用多种编码类型支持的能力。通过这样的升级,我们在短短的一年时间内,完成了YY直播从标清直播到超清直播、4K直播的升级,同时也最大限度地把H.265在平台中应用起来了。
LiveVideoStack:如何在成本、用户体验之间做好平衡?Code,CDN等如何选择?
林绪虹:直播业务的竞争已经进入下半场,总体增长放缓,同时对运营成本优化的需求越来越强烈。但是在我看来,成本和用户体验并不矛盾,甚至有可能恰恰相反,即在积极尝试新技术后,有可能用更低的成本带来更好的用户体验。在这里,我举我们的H.265和主观视觉技术(有的厂商也叫极速高清、感知编码、窄带高清等)作为例子。
如果你采用H.265直播,相对H.264直播来说虽然系统更加复杂,但是用户可以用更小的代价获取同等清晰度视频流,在更小的码率下,观众端可能会有更好的流畅性表现,同时传输成本也有可能更小,在支持H.265的终端里,用户体验会更好。这种用户体验的提升,在低码率低清直播下,感觉还不强烈,一旦直播上升到高清高码率(1080p 4M 6M或4K),H.265技术带来的用户体验提升,将非常的明显。
我们最近一直在细化我们的直播策略,充分考虑到用户在特定场景下观看特定直播内容时,应该给予什么样的码率、分辨率,从而达到成本与质量的最佳平衡。为了在直播中实现这一整套完整的技术,我们重新构建了一套和人眼主观更加接近的质量测评体系,同时也需要对开播体系、转码体系再做一次升级。目前来看,这也是现在各个视频服务商努力在提升的环节。从我们的跟踪来看,各大视频服务商都引入了大量的AI技术来细化场景识别,包括优酷、腾讯视频、华为等都应用了这一技术,虽然大家取的名字不一样,但是做事情思路却是一样的。根据各大厂商的测评与交流,采用这一技术,在相同视频质量的条件下,普通场景下可以节省 10%-20%的码率,甚至有些场景能节省30%的码率。使用这一技术,可以在节约带宽成本的同时,保证观众端主观画质的稳定,从而带来更好的观看体验。
所以,在我看来,为了在成本、用户体验之间做好平衡,最好的解决办法,就是大胆地采用新技术。
LiveVideoStack:如果让你来预测2018年多媒体生态圈的技术关键词,你会选哪些?你看好哪些多媒体相关的技术?
林绪虹:我看好QoE、音视频内容理解以及AV1这三个领域,并且会持续关注。
直播或是小视频已经进入了对技术需要精耕细作的阶段,不是懂一点音视频基础、攒一套代码就可以走遍天下的时候了,整个行业对如何更好地提供音视频服务、如何科学地提供音视频质量评估、如何科学地提升用户体验,产生了深厚的兴趣。回头看任何技术领域都是这样,一旦某项技术的基础应用迅速扩大,或是技术门槛简单到可以让人轻松尝试后,如何在更精细的层面来区分工程师的水平,将是一个关键。而对于有追求的工程师,决不单单会满足于只会一种技术,他应该还希望从深层次把握技术、原理、人性的内在规律,从“术”的境界上升到“道”的境界。
而大家也知道,目前的技术和载体的发展,“文字→图片→视频”这个人类获取信息演进方式不仅没有改变,还会继续滚滚向前,并且向前的速度会大大加速。在音视频这个载体中,承载了大量人类想表达的信息,如何让计算机或是工具来理解其中的信息,并且更好的服务于人类,这必将是一个大家都想占领的技术制高点。一旦能对音视频内容进行准确的理解,在这个基础上,能做的事情将具备无限的可能。
对于AV1,应该是业界大家都非常期待的一个标准。在H.265的应用过程中,我们体会到了很多的不方便之处,如终端解码能力、Web端不友好、CDN不友好、专利混乱等问题,部分是因为技术原因导致的,但更多是整个产业生态环境导致的。AV1非常有机会把各种问题一并解决了,提供给产业一个非常好的标准及生态环境,可以让大家专心于解决视频本质的质量问题。
LiveVideoStack:未来5G的网络条件下,带来哪些机遇和改善?比如,网络的稳定性会提升,但随着带宽的暴增,会带来带宽/CDN成本的大幅增长。
林绪虹:未来5G的网络条件下,可以预见,更高清的视频和音频应该会是应用的主流,到时候制约用户体验可能更多是用户终端的处理能力。虽然网络能力大幅提升,但是一旦遇到网络瓶颈问题,高清视频流高流量的特点,必然导致更糟糕的用户体验。因此,如应付网络突发事件,提供更好的观看体验,应该是大家要努力的一个目标,也是大家会深耕下去的一个领域。