文 / rpandora
从toB到toC,再到面向整个互联网,从全球知名企业到白手起家创业,从软件研发到多媒体系统设计,他拥有美国、欧洲及中国多项多媒体相关技术专利,并多次在重要国际学术会议中发表学术文章,他就是我们的主人公——杨继珩。
日前,LiveVideoStack有幸对沪江CCtalk技术VP杨继珩进行了邮件采访,畅谈了大公司工作和创业经历中的技术成长,以及在线教育行业技术应用实践的心得和对未来发展的想法。
接受“不完美”,才能更完美
LiveVideoStack:在您的职业发展过程中,经历了像Thomson、Corel这样优秀的大公司,您认为这样的大公司给您带来了什么?或者说有什么是值得去学习的?
杨继珩:任职于这两家公司是在我职业生涯开始的前四年,对我个人来讲收益很大。在Thomson期间我的工作偏toB,涉及到的业务包括电影前沿技术的研究与开发、专业电视台级的视频设备与解决方案以及音视频国际标准的算法提案与制定,对专业性和效果、算法的要求极高,而对硬件设备的要求相对宽泛。在Corel期间我的工作更偏向传统toC软件,像会声会影、WinDVD等,对于软件质量、客户端运行环境以及软件性能的要求是高于算法质量。而在盛大,与前两家完全不同的是它提供的是互联网、移动互联网音视频服务,面向的是大规模用户群,并有幸开始管理大型研发团队。这三家公司在做的音视频相关技术在业界都比较靠前,能学到的专业技术和技能从专业级、消费级及互联网等各个层面都有涉及,对我个人的技术成长起到了非常大的作用。
LiveVideoStack:您联合创立了手机直播平台易直播并参与研发App,您觉得这段创业的经历给您留下最深刻的印象是什么?对您后来的发展是否产生影响?
杨继珩:在我离开盛大后,与几位合伙人联合创立了易直播这个应用,并在早、中期的时候承担了大量的研发工作,在中后期逐渐进行团队的管理工作。这个阶段的确比较累,因为创业时能拿到的资源比较少,人手也没那么理想。很长一段时间,大到架构、算法,小到一个按钮、一个颜色都需要自己搞定,对身体和体质的消耗都比较大。
但同时收获也很大,对我来讲主要在以下三点:第一点,如何在没有资源的情况下把事情做起来,并使用一切可行的办法推进事情向前发展;第二点是要放下纯技术人员的心态,有效地整合行业内尖部技术的能力,达成业务目标,不必纠结技术都是自己做出来的;最后要接受业界技术的不完美性,并可以通过其他手段来弥补这些不完美。这些对于把一个业务由小做大,都是必须具备的能力。
LiveVideoStack:除了易直播移动端App,您还参与研发了包括Thomson Aurora Browsing System、Edius、会声会影等等有名的多媒体软件、系统,包括很多年前在盛大创新院研发的IRIS系统,我认为到现在这个系统依旧不过时,那当初是怎样考虑会做这样的一个系统?在当时来说它的研发会有怎样的难点?
杨继珩:当时开发IRIS的原因是因为我们在2011、2012年的时候推出了短视频分享应用“微酷”,当时移动互联网短视频分享还处于极早期的时候,用户对这个概念接受度还比较弱,而且玩法比较少。国外当时做最好的是2010-2011年发布的Viddy,非常火,它能支持一些基础的视频特效。从传统软件业的角度上看,视频特效已经是标配,但是因为计算量大,所以在手机上无法做到实时处理,只有一些应用做了非实时离线处理。但实际上Apple提供的硬件和软件SDK能力是很强的,当时的iPhone 4在性能上已经完全满足了实时处理音视频特效的能力。所以当时我跟另外几位同事赵志猛、李军就研发了IRIS这套引擎,最大能力的用到了手机上的GPU以及硬件模块,达成各种特效效果。从结构上,与后来Brad Larson开源的GPUImage框架大致一致,也基本上是后面大量做视频特效应用的代码框架源头。事实上当时我们基于IRIS还在iPhone 4上完成了一个支持实时特效预览的非编软件,功能蛮强大的。
整个研发过程实际上没有遇到特别的难点,因为流程上基本是传统软件的框架思路,这一点在我此前的工作中有丰富的经验,所以异常顺利的在一个月左右就开发完成,集成上线了。后来跟赵志猛也复盘过这个过程,感觉也是一致的,如果重写一次,框架上、开发时间周期上差异都不会太大,因为这种流程在传统软件架构层面已经是很成型,也很成熟了,只是在移动端的延伸。
身临其境才是教育
LiveVideoStack:对于CCtalk来说,它更多的会与教育特性结合,比如白板、PPT翻页、答题等等,针对于这些特有属性的研发会遇到怎样的困难?又该如何去应对?
杨继珩:CCtalk在研发中主要面对的几个主要问题有几个,一个是服务的覆盖能力以及覆盖质量,包括音视频,通信信令和基础服务等等;一个是教学工具多样化以及互相协作的课件制作、播放方式,方法;一个是平衡各种大、中、小型课程里的技术方案和成本的问题。对于所有这些问题,我们的解决方法思路都很相近,充分平衡自研和第三方服务的能力、服务分层和服务质量监控。开发和运维人员对于线上服务质量的关注非常高,这样我们的迭代速度比较快,可以很快对一些缺陷进行填充和弥补。虽然各个困难的成因不同,解决方案不同,但是解决思路绝对是接近的。
LiveVideoStack:伴随音视频领域的发展,会有更多新的技术诞生(包括现有的技术不断发展),您认为在未来哪些技术会被应用到在线教育中?他们又会产生怎样的化学反应?
杨继珩:在线教育场景对于音视频实时、清晰度、稳定性要求极高,另外因为单用户的价值更高,所以对于服务稳定性、健壮性的要求相对于娱乐行业就要高出一个级别。对于在线教育而言,它需要拉近人跟人的距离,让人跟人的交互能力提高,将线下场景和体验搬到线上来,因此对于400ms-800ms延时的音视频的实时互动能力要求就会非常高。目前这部分技术离成熟还有一段距离,各家还在继续努力加紧研发。
另一块非常关键的是教学工具。在线教育中,音视频只是众多教学工具中的一个,还有太多其他必须具备的能力,并且随着业务的演进继续推出。比如最近我们推出的hitalk课程,音视频互动只是基础,还有角色扮演、答题、提示提醒、课程评价等多种教学工具组合,最大限度地提高用户学习效率。如果有机的组合这些教学工具,并可以在直播后有效的再现教学场景用于二次学习,我任务这是非常具有挑战而且实在的技术应用。同时我们还在研发AI相关技术在在线教育中的应用,提升我们的服务能力,相关的产品也会在下半年内推出,敬请大家期待。
品质的守护
LiveVideoStack:很荣幸可以邀请到您担任大会“多媒体与浏览器”专题的出品人,对于这样一个专题,您在Speaker和Topic的选取上会有怎样一个考虑?
杨继珩:非常感谢LiveVideoStack的邀请,在这个专题上期望听到的内容有包括业内在HTML 5环境下多媒体直播与点播应用的最佳实践,以及对高价值内容的安全性考虑保护。在Speaker方面,非常感谢LiveVideoStack团队在选题上花了大量时间,邀请到了诸多高端演讲者和演讲话题,会继续寻找更多前沿的尝试来跟大家分享。未来是高度互联网化的,浏览器与原生都会是重要的用户入口,所有相关有趣的想法都是这个专题所期望听到的。
LiveVideoStack:前段时间Adobe宣布Flash将在3年后退役,您刚刚也有提到希望可以听到关于HTML 5环境下直播的最佳实践,您对于HTML 5技术在未来的发展有怎样的看法?
杨继珩:这个是必然趋势,我想大家在几年前就应该可以预知到这个结果,只是现在才有一个明确的消亡时间点。Flash的好处在于它的基础定义里,音视频支持就是极其重要的功能,所以做到很多底层的优化,以及跨浏览器一致性的处理。因为有Adobe的完整支持,框架更统一,性能、兼容性难度更小。而HTML 5是一个更加宽泛的web标准,不同内核的兼容性有一定差异,并且支持能力也存在一定差异。短期来讲对于开发以及服务提供商的要求更高一些。另外从安全的角度上HTML 5也更困难一些。在传统直播各方面指标上,最多与RTMP协议直播拉平,而不能更好,从技术的角度上相比Flash,现在还无法令人更加兴奋。不过目前对于WebRTC的支持越来越好,这里对于HTML 5环境下的直播场景打开了更多的门窗,更多的玩法也可能随之而来。