近年来,实时音视频快速发展,WebRTC作为实时音视频的标准也快速发展,从直播到通讯,其应用场景也在不断丰富。如果您关注实时音视频方向的技术产品应用与创新,本系列文章就将会为您分享音视频方向的技术产品动态,助您第一时间获取业界信息。本文将为你快速解析近期值得关注的技术、产品与行业热点。
一、腾讯会议发布3.0版本
11月4日,2021腾讯数字生态大会上发布了腾讯会议3.0版本,下面就分享几个小点。
(一)降低人们达成共识的成本是腾讯会议的定位,产品设计围绕产品定位
这个点深有感触,人们往往会说小团队/小公司比较敏捷,是小团队的人比大公司的人更牛嘛,明显不是。在大的团队中达成共识的成本是很高的,你要准备很多内容让协作的团队认可你的观点,但有时候观点一旦形成,外力是很难扭转的。
(二)腾讯会议发布了网络研讨会模式
腾讯会议终于像Zoom和Hopin看齐,补上了网络研讨会模式。目前可以以主持人、嘉宾、观众身份入会,单会议支持5W人参加。而且打通了活动报名,门票售卖,自定义会场主题,会中互动等等环节,让举办大型线上研讨会的成本大大降低。去年看到Hopin快速崛起的时候就在想腾讯会议会不会补齐这部分,今年果然支持了。之前跟国外一位研究Hopin的投资人聊天的时候就问他怎么看Hopin这么快的崛起,他的答案是:抛开疫情的影响之外,Hopin把线上活动的每个流程打磨的都很顺畅,真正的做到了线上开办一个活动的闭环。不确定腾讯会议有没有完成整个闭环,具体的体验又是怎样的?对国内做活动直播的厂商SaaS来说,不得不考虑腾讯会议的竞争, 这个市场还很大如何做出差异化的竞争。
(三)腾讯会议开放平台
腾讯会议升级开放平台,开放API SDK 第三方应用市场,想要成为办公协同SaaS的入口,初期开放了招聘类的MOKA、小画桌、面呗等SaaS的产品接入。我查了一下Zoom的数据,Zoom在疫情初期接入的第三方应有有200个,一年之后这个数据变为了1000个,一年的时间增长500%。记得有人说过,一个好的开放平台要能长出超过这个平台价值的产品,我们期待腾讯会议的表现,一个朋友开玩笑说:腾讯会议有Zoom的那味了。
(四)基于深度学习的Penguins语音引擎
这个算是整个发布会的一个小惊喜,会议也发布了基于深度学习的语音编解码方案,可以在6kbps的超低码率下进行高质量的语音通话。今年以来基于深度学习的语音编码方案出来好几个,今年二月微软推出Satin方案,Google推出Lyra方案,并且开源了出来,几个月之后Google又推出SoundStream方案,号称比Lyra方案更优秀。期待这些方案能更快速的落地。
二、微软将推出元宇宙产品
11月2日微软在Ignite大会上也推出元宇宙的产品预告,微软的元宇宙产品还是基于Teams和之前已经出的Mesh云服务。说到元宇宙微软一直在投入,比如HoloLens AR眼镜,我之前体验过一次Helolens2,效果很惊艳。但因为Helolens较高的售价以及对电脑配置的要求很高所以目前的客户局限在B端。微软基于Teams的元宇宙产品预计2022年上半年推出,用户将能够在虚拟世界中共享Office文件和功能,比如PowerPoint面板,用户可以用虚拟人物或动画卡通形象出现在视频会议中。
今天,你元宇宙了嘛?
三、Firefox启动最大一次WebRTC升级
Firefox曾经是先进浏览器的代名词,很多新的特性都会领先的支持,后因为Chrome的份额逐渐增大,Firefox也逐渐走向落寞,很多特性支持的都会比Chrome慢。在WebRTC方向,Firefox的Bug也越来越多。不过最近迎来了一个好消息,Firefox即将迎来最大的一次WebRTC升级,升级到M96, 整个升级过程持续了一年多。
确实有点唏嘘,从曾经的领先者到被Chrome超越,到被落下的越来越远。希望Firefox也有一个光明的未来。
四、在M96中WebRTC已经默认打开
Opus Red冗余编码
之前在WebRTC中如果想提升音频的弱网抗性,能做的就是增加NACK(重传)和开启Opus的FEC。如今我们有了更多的方案,在M96的WebRTC支持了通过red来发送音频冗余包来提升音频弱网抗性。RTP的RED规范之前很早就存在,二十多年前就被提出,基本思路就是通过发送多余的冗余包,使用RED将一个或者两个冗余音频帧放入每个分组中,有时候也被称为“带外FEC”。当然,这些都是有代价的,可以能将你的音频码率从30kbps增加到60kbps或者90kbps,不过跟视频相比这些码率的增加并不算大,非常适合音频优先的场景。
在M96中可以通过setCodecPreferences 方法调整opus red的顺序来开启,默认Chrome中只会编码一个red冗余包,这样可以在不过多增加带宽的情况下提升弱网抗性。另外可以通过WebRTC Encoded Insertable stream来调整冗余度。github上已经有如何使用的demo https://github.com/fippo/opus-fec,另外开源的Janus媒体服务器已经支持。
五、WebEX加入cPaaS市场
WebEX是视频会议方向的黄埔军校,Zoom的创始人Eric Yuan,声网的创始人赵斌,拍乐云的创始人赵加雨都是出自WebEX。WebEX之前聚焦于企业内部市场,作为在线会议的鼻祖,不知道是否关注或者探索过cPaaS市场,在声网上市一年之后才缓慢的加入cPaaS市场,这可能就是所谓的创新者的窘境吧。
WebEX这个阶段进入cPaaS市场也说明原来的企业内部会议市场也面临很大的竞争,Zoom的业务突飞猛进,微软的Teams来势汹汹,国内的腾讯会议也逐渐建立起一个平台,还有各种各样的创新的会议软件在参与竞争。WebEX还列举了Gartner的一份报告,报告指出到2025年cPaaS市场都会保持30%以上的年增速,到2025年cPaaS市场市场总值会达到217亿美元。
六、腾讯云推出5G实时远程超控方案
—— “腾讯云无界”
腾讯云We5G正式推出5G远程实时产品及解决方案,该方案基于5G技术和腾讯实时音视频(TRTC),可实现时延100ms以内的车辆一对多几种远程实时控制。在两个大的场景下非常有用,一个是辅助驾驶,最新的自动驾驶分级标准中引入远程协助和远程驾驶概念,以及远程助手和远程驾驶。在全自动驾驶成熟之前,辅助驾驶会一直有市场,而远程驾驶则是辅助驾驶的一个很重要的实现方式。另一个是高危/复杂/恶劣环境作业,通过远程操控,可以使一线作业人员远离危险,为一线人员提供安全舒适的作业环境。像矿山场景下的无人矿卡,无人挖掘机,无人推土机,港口场景下的无人吊车,这些都需要远程控制/操作的能力。腾讯云已经三一重工达成战略合作,甚至在生态大会现场就可以通过远程操控方案驾驶一辆1500km之外的卡车。详情见:《腾讯云发布5G远程实时操控产品“腾讯云无界”,与三一智矿签署战略合作协议,助力矿山作业效率安全双提升》
七、线上虚拟活动/办公平台Gather
拿到5000万美金B轮融资
11月4日Gather宣布拿到5000W美元的B轮融资,去年知道Gather的时候认为他的定位的视频会议场景,只是一个场景化的会议产品。目前看产品的定位已经超过了视频会议,Gather在试图把线下办公,展会,活动搬到线上。目前Gahter上列举的场景已经非常多,可以在上面加入各种房间一起游戏、学习、讨论。目前整个产品的数据也很不错,有10000多个团队将Gather作为自己虚拟办公室的构建平台,举办了2万多场专业的会议活动,用户则超过了1000万。
八、Zoom支持自动生成字幕
Zoom正面临着很激励的竞争,前一段时间开始做RTC的PaaS服务,以147亿美元收购five9,但最后以失败而告终。Zoom也在不断迭代提升其产品的粘性,最近自动生成字幕能力现在可用于所有免费的Zoom会议账号,目前只支持英文,后续会支持其他的语言。
以后我们在和外国人开会就再也不怕蹩脚的英文了。
自动生成的字幕可以在Zoom视频会议或网络研讨会上自动提供发言人字幕。若要启用该功能,需要访问Zoom网络门户。与会者仍可以私下要求会议主持人在会议期间使用会议工具栏启用现场转录。并且Zoom还支持手动字幕以及跟第三方字幕服务的整合。
所以,腾讯会议什么时候支持上这个功能呢?
九、SharePlay上线
10月26日,Apple推送了iOS 15.1正式版。本次更新修复了iOS 15.0中无法通过Apple Watch解锁iPhone的bug,同时还正式上线了FaceTime同播共享(SharePlay),并为iPhone 13Pro系列机型带来了Apple ProRes视频拍摄功能。
同播共享(SharePlay)可以让用户在进行FaceTime通话时,和对方同步观看视频,听音乐,共享屏幕。
苹果利用自己生态的优势来提升自己产品的粘性,目前已经看到一些小游戏在尝试使用SharePlay,相信后面基于SharePlay越来越多的创新玩法会涌现。
Android平台目前还没有类似的玩法和生态系统,不知后续是否会进行更新。但不妨碍第三方公司会推出类似玩法和跨平台的方案的体验,但SharePlay利用了苹果特有的权限,第三方的实现可能很难达到类似的跨平台的体验。
目前可以看到体验共享方向的产品越来越多,比如K歌体验共享:线下K歌可以与朋友对唱,及时听到好友演唱,在超低延迟的加持下,线上K歌可以连麦,获得无感知延迟的合唱体验。听歌体验共享:“一起听”是在线听歌中的新的休闲娱乐模式,让听歌和社交互动完美结合。当两个陌生人配对成功并“一起听”,还可以进行实时的语音视频以及其他的互动玩法。观影体验共享:和一起观影的人讨论电影可以增加观影乐趣,新技术驱动下,在线上观影场景中,逐渐产生了更多的共享体验模式。
同时也不难想象,未来会有更多类似体验共享的应用通过同播共享给自己的APP加入一些新的有创意功能的团队,这一功能的未来也是无可限量。
十、Safari更新导致大量bug
在iOS 15.0 Safari的更新中,增加了很多WebRTC相关的特性,比如Insertable stream的支持,可以用来端到端加密,屏幕共享、HTTP3.0的支持,甚至支持在浏览器中跟facetime互通。但同时也出现了很多bug,对WebRTC影响比较大的是,iOS15.1系统在使用WebRTC推流的时候会导致crash,iOS 15.0的safari中websocket如果在服务端开启了压缩,会导致连不上。
十一、WebRTC要实现SVC了
其实WebRTC很早就支持了vp9的SVC, 但一直只能通过命令行开启,并不能默认打开。后来SVC成为WebRTC 1.0 API的扩展规范, 现在可实现完备的SVC支持。SVC在视频会议场景中很受用,但也带来了不少问题,比如在移动端开启了SVC后,可能就要放弃硬件编码,一个很美好的技术到真正落地的时候总会带着很多遗憾和取舍。
咨询了Intel给Chrome做硬件编解码支持的专家后,了解到这次SVC的实现并不是那么的完美:“其实是给av1用的vp9还不理睬这个api 264只会支持L1T2和L1T3。然而av1的硬件编码我只在windows上加了支持,且只会以后支持L1T2和L1T3。除非你只用软件编码”。
现在让我们静静等待SVC,有总好过没有。
十二、两年后Skype Web版本
现在也能在Firefox上使用了
2020年,由于COVID-19的流行,线上视频会议这一沟通方式开始意外走红,微软也跳上了这一行列,这并不奇怪。Skype作为VOIP鼻祖级别的公司,被微软收购之后反而走向了下坡路,很多人可能已经忘记了Skype。微软的Teams推出之后, 由于跟Office套件的捆绑策略迅速抢占了大量的企业办公协同市场,就在人们以为微软会放弃Skype之后,Skype终于让他的web版本,支持了firefox。
前一段时间甚至传出微软会重新定位Skype,主打年轻人。那对于Skype为什么要支持web端,就像是苹果终于让FaceTime支持web端大概思路是一样,虽然web中WebRTC的体验没法跟native的体验相比,但web所具有的一大优势就是不用下载,人人往往低估了这一优势,个人的看法是当web端的功能或者体验能达到native的70%的时候,人们会积极的拥抱web的版本。
十三、Edge浏览器将支持GeForce Now服务
自从微软将Edge从其自制的EdgeHTML引擎切换到Chromium之后,对WebRTC的支持越来越好,最近Edge浏览器将支持GeForce Now服务,XBox玩家可以把他们的PC游戏通过Edge浏览器串流到主机游戏上玩, 看起来这是一个基于WebRTC的局域网云游戏,好奇他们在局域网下基于WebRTC的云游戏可以做到端到端多少毫秒的延迟。
值得一提的是,今年9月的Edge浏览器更新,还添加了对另外一个云服务——谷歌Stadia的支持,允许玩家在Xbox主机上使用Edge浏览器在谷歌Stadia上玩游戏。
持续关注云游戏的发展。
十四、ClubHouse上线支持Replay功能
作为最火的音频直播产品ClobHouse依旧保持比较快的迭代能力,最近支持Replay能力,说的通俗一点就是支持直播的回放能力。ClobHouse在回放的能力之上又做了一些创新,可以让房间创建者在直播结束之后看到谁在听一个房间的回放,还可以让他们与其他没有实时收听的用户联系。回放能力虽然已经被应用的很多,但我比较好奇的是如果支持了回放能力就跟以前的博客有什么区别呢?这个问题可以延伸到直播和短视频的对比上,直播的创作成本很低,短视频的创作成本较高,但单位时间内信息密度明显直播小于短视频很多,目前短视频的消耗时长也明显高于直播。
ClubHouse的音频直播的空间有多大呢?我简单的搜索了一下Clubhouse的Google Trends,最近半年搜索量是逐渐下降的,祝ClubHouse好运。
十五、WebOBS直播推流工具要流行起来了?
OBS一直是企业直播/个人直播的主流的直播推流工具,StreamLab这家基于OBS开发直播工具的厂商也在19年被罗技以8900万美元的现金收购。随着Web端能力越来越强大,比如WebGPU、WebCodecs、WebTransport、WebAssembly,这些技术的出现让在Web端进行复杂的音视频处理、合流、美颜、人像分割等等成为了可能。
十六、腾讯云Penguins AI-Codec
超低码率高清语音编解码解密
腾讯会议发布的Penguins音频编解码器,也与研发人员交流了行业情况。目前微软的Satin音频编码号称在Teams中1v1通过场景中落地,Google的SoundStream还没有看到具体的落地消息。
很开心的是看到腾讯在这个方向其实走在了前列。
摘抄文中的一段话非常认可:5G乃至未来更强的通信技术发展会带来更丰富的带宽资源,但人们对实时音视频体验的追求也是无止境的。我们不仅需要听得清,还需要听得真。对于实时的全频带音频传输、空间音频技术乃至声场重建等技术,高效率编解码器可以为这些技术带来更可靠有效的基础支持;而且在现实情况中总是会有弱网情况的出现,通过高效编解码节省的资源可以用于抗性提升,保障实时通信的稳定性。因此,Penguins及其未来演进版本的提出,将有非常广阔的应用前景。
十七、Ringcentral:给你的会议增加AI能力
Ringcentral近日更新了他们的会议产品,这次主打AI能力。这几个能力包括:
- 自动跟随能力。当你进行移动的时候你的采集画面的焦点会跟追你的面部;
- 低光补偿。当你在昏暗环境下开会的时候,AI算法会自动进行灯光补偿;
- 视频滤镜。可以为你的画面增加更有趣的效果。
无独有偶的是Zoom前一段时间刚增加了自动翻译能力,Google Meet前一段时间也增加了灯光自动补偿等能力,Around也增加了自动跟随和智能降噪等能力。在视频会议越来越同质化的现在,各家产品不得不开始进行微创新来增加用户粘性。
十八、WebRTC M96即将发布,将废除Plan B
Plan B是Chrome/Chromium独有的实现,Safari和Firefox一直支持Unified Plan,Chrome在M72已经支持Unified Plan。从某种程度上说如果后续再开发WebRTC可以不考虑Plan B的支持了,因为Unified Plan的支持已经非常好。
Plan B和Unified Plan各有优劣,在只有一路音频和视频的时候这两种方案并没有什么区别,在多路音视频的时候Unified Plan每一路音视频都会有一个Mline,这样就提供了很大的灵活性,可以针对每一路音视频协商不同的能力,比如我们有一路摄像头和一个屏幕共享,就可以让屏幕共享使用av1编码,而摄像头使用h264。
作为多年跟SDP打交道的开发者不得不说SDP Sucks,SDP真的是一个很糟糕的设计,它是一个标准但又是一个相对灵活的标准,每家的实现可能又不一样,不得不花费很多精力进行SDP的适配,如果你还有没有被SDP的适配困扰过某种意义上你可能还没有完全了解WebRTC。但标准一旦确立,别人撼动它也很难,微软曾经搞出来ORTC标准来屏蔽SDP的协商问题,最终也还是失败了。
十九、Unreal Engine即将支持
WebRTC通过WHIP推流
Unreal Engine较早就支持WebRTC,Unreal Engine基于WebRTC开发了他们的Pixel Streaming服务,让用户可以在云端服务器上运行虚幻引擎应用程序,通过WebRTC将渲染的帧和音频流送到浏览器和移动设备上。场景非常像云游戏或者云渲染。
国外有位开发者Murillo(开源WebRTC媒体服务器Meddoze的作者) 给Unreal Engine增加了使用WebRTC通过WHIP的支持。支持WHIP标准之后,可以让一些对WebRTC和音视频不熟悉的开发者也可以很方便的使用WebRTC推流,这将把云游戏/云渲染的开发成本降低很多。期待这个PR可以早日合并。
另外需要说的是腾讯云的快直播也已经支持WHIP协议推流,后面你可以很方便的从Unreal Engine或者Unity中把渲染好的画面推动到腾讯云,并做到端到端几百ms内的延迟观看。
关于腾讯云快直播的WHIP推流能力,我写了一个demo放在github上。
二十、WebKit发布135版本增强音视频采集,
渲染以及端到端延迟统计能力
苹果在进一两年明显加大了在Web技术上的投入,一部分原因可能来自Chrome的压力,另一部分原因可能来自这两年越来越多App Store的反垄断以及30%的收入分成,更具体的原因需要苹果自身来回答了。在最新的版本中我们主要关注音视频相关的更新,新版本支持了requestVideoFrameCallback API,该API可以让我们统计采集延迟,端到端网络延迟,渲染延迟等数据指标,Chrome中已经支持该API。在WebRTC方面的优化则包括延迟的降低,VP9-SVC的增强,以及对H265编解码的增强,其他的具体的优化可以自行查看。
二十一、Chrome M97 Beta发布,
重磅能力WebTransport发布
Chrome M97版本进入Beta阶段,正式版本22年1月4号发布,该版本带来今年最期待的能力:WebTransport。WebTransport提供低延迟,client和server之间双向通信的能力。WebTransport提供基于HTTP3实现的API,自动获得QUIC和HTTP3本身的特性,比如应用层的拥塞,避免队头阻塞。双向通信的能力,多个传输通道复用一个连接的能力,能够很好的替代WebSocket。提供发送/接受不可靠UDP的能力,这个是浏览器一直欠缺的能力。我之前写过一篇文章详细的结果过WebTransport,欢迎查看。
另一个很多人没注意的点是移除了SDES Key Exchange,使用SDES Key Exchange可以绕过DTLS协商,使用SDP的方式完成加解密的协商,使用该方式可以降低WebRTC连接的时间,以及提高连接成功率,但google认为是降低了安全性,在M97中这个特性被彻底移除了。
另一个比较重要的能力“Region Capture”进入了实验阶段,这个“Region Capture”可以让你在屏幕共享的时候只采集屏幕的某一部分,非常有用的一个特性,期待早点结束实验。
二十二、百度发布Metaverse产品“希壤”
用户在使用希壤的时候需要创建好虚拟的人物形象以及昵称,生成一个独一无二的虚拟人物。然后即可进入到希壤App内构造的虚拟世界中,然后通过屏幕上的摇杆进行方位上的走动,在该虚拟世界中,用户可以通往三个小场景,分别是“冯唐艺术层”、“百度世界大会”,以及鲜奶体验馆。无独有偶,前一段时间网易发布瑶台,产品定位为“在虚拟世界,一起工作、学习、聚会”。其他的产品还看到兔子洞云活动,tatame虚拟活动平台,元象唯思也发布了他们的“XVERSE大世界”,这个方向会越来越热闹。
二十三、WebRTC服务商Daily
获得4000w$ B轮融资
最近WebRTC服务商Daily宣布获得4000w$ B轮融资,相比于国内已经非常红海的RTC PaaS领域,国外才进入发展快车道。前一段时间100ms.live宣布拿到450w$融资,提供RTC PaaS服务,此外Zoom和Webex在今年都推出了RTC PaaS服务。
Daily的服务很有自己的特色,主打快速接入,他提供了“prebuild”自带UI的音视频通话组件,让你可以引入一个js文件就能具备音视频通话能力,也提供了丰富的restful API来进行房间和用户的管理。另外Daily主打的一个场景是在线医疗和在线问诊场景,提供全流程的方案。
目前Daily提供的方案都是基于js版本,native也只提供了react-native版本的SDK,看创始人说正在开发基于rust版本的SDK,这轮融资之后会引入多位音视频领域的人才以及继续完善产品。
国外RTC领域还有机会,国内的玩家不妨多多出海去卷。
二十四、Subspace: 构建实时互联网
最近初创的公司Subspace登顶Producthunt,Subspace给自己的定位是构建全球实时网络,RTC领域的伙伴对这个应该不陌生,比如腾讯云音视频的RT-ONE网络,声网的SD-RTN, 都是在为构建全球实时网络而生。Subspace给出的产品解决方案有三个,一个是数据包的网络加速,第二个是全球的Turn加速网络,第三个是SIP电话加速。其中第一个数据包的加速其实上国内这些云厂商都有,只是很多不是专门为音视频而生。第二个全球的Turn加速网络,目前已经有两三家提供过类似的方案,包括twillio,但目前已经在twillio官网找不到相关的产品链接了,某种程度上也说明这个点可能并不是那么痛,上个月也听到Cloudflare要在他的全球200多个节点上提供Turn加速服务。
Subspace的理想是很美好的,要解决的事情一些云厂商巨头也会关注,期待Subspace能提供比大的云厂商更优的产品解决方案。
二十五、秒点:远控产品创新继续
远程控制相信大家都不陌生,qq其实自带远程控制能力,企业远控方向也有很多传统的玩家,比如国外的Teamviewer(市值80亿$)、Splashtop、Logmein、Remotepc、AnyDesk等等产品,国内有向日葵、oDesk、帮我吧等等产品。这个方向的传统的玩家很多产品也很完善了,WebRTC本身的成熟提供了新的创新的可能,IOT方向也有了更多的场景,我们称之为面向控制的RTC,我也非常看好这个方向。秒点是我身边一个朋友创业的项目,前云帆加速联合创始人扶凯新的创业项目。
二十六、实时音视频大会
本周看到国外一个新创办的实时音视频技术的大会— RealTimeConference,当一个方向的技术大会或者行业大会的越来越多的时候是不是也能说明这个方向也越来越成熟。
在国内有包老板举办的LiveVideoStack, 声网搞的RTE大会,国外还Kranky Geek大会以及Demuxed大会。这里重点说一下包老板的LVS, 不远的将来LVS就要进入美国市场。
欢迎关注刘连响老师公众号,获取实时音视频方向技术产品应用与创新的最新资讯↓↓↓