导语 上周,实时互动产业发展和生态合作论坛在线上举办,来自腾讯云音视频的薛笛及刘连响两位老师分别做了致辞和演讲。腾讯云基于过往20多年在实时音视频领域的技术积累,以及在金融、医疗、工业等产业互联网的深耕经验,希望通过开箱即用的实时互动应用开发工具,助力各行各业实现场景创新。(文末附《实时互动产业发展研究报告》下载)
在论坛上,来自腾讯云音视频的专家工程师刘连响老师,为我们分享了主题为——实时互动助力行业场景创新的精彩演讲。
首先刘老师简单介绍了WebRTC。提到实时通信大家一定会想到WebRTC。WebRTC的前身来自GIPS。在2010年,Google 收购了GIPS,并在2011年改名为WebRTC进行开源。在发展十年后,也就是2021年,WebRTC正式成为W3C、IETF的标准。经过十年的发展,WebRTC的装机量已经突破几十亿,在绝大多数人的电脑和手机上,都已经支持了WebRTC。WebRTC的相关技术以及衍生的RTC技术已经成为视频会议、在线教育、娱乐直播、实时通话、元宇宙等等的基础技术。
从实时和相关的场景去定义实时互动
在技术和场景持续的发展过程中,实时通信本身的含义已经不能涵盖所有的场景,实时互动概念应运而生。RTC的C当下也有了更多的含义。C 原来比如说指Communication 就是通信,现在也可能是指Content 内容。比如我们在在线教育、游戏直播等场景下,实时的消费内容并互动。C也可以是Control 控制,比如说像云游戏,云渲染、远程桌面,远程操控、实时同屏等场景下,我们其实不仅仅要实时的消费内容,我们还需要发送控制信息进行控制。
我们从实时和相关的场景两个方面去定义实时互动。比如实时,就包括实时的接入、实时的传输、实时的交互以及实时的渲染。
在场景方向,活动也不只局限于人与人,人与物、人与空间都可以进行实时的交互。在规模方面,也不只限于一对一,多对多。比如包括腾讯会议,单场会议可能几万人参加。在线课堂可能几十万人同时上课。交互也变得多种多样。比如各种的IoT设备、工业设备、智能穿戴设备,都会产生实时互动。
目前实时互动领域遇到的问题与挑战
1. 超低延迟
云游戏、在线合唱,云电脑等场景云下,已经开始要求小于100毫秒的延迟。更深的一步,如果说我们能做到50毫秒内的电脑端的延迟,那跟本地渲染体验也没有太大的差异。
2. 大规模互动要求
在教育大班课,线上活动直播场景下,可能需要满足几万甚至几十万人的实时互动直播。这么大规模的同时在线,一直是一个非常大的一个挑战。
3. 高质量传输效果
我们平常用到的视频可能都是720P 或者1080P, 但目前已经有一些场景开始追求2k 甚至4k 的高分辨率,甚至一些3D的内容以及VR的内容,这都会为传输的带宽量带来爆炸式的增长。音频部分也开始追求空间音频以及高品质音乐的实时传输
4. 全球接入
我们的客户是面向全球的,需要保障全球各个国家和地区的客客户的接入,需要保证他们的接入效果。
5. 多终端适配
各种各样的设备,比如说不同的手机的型号,各种IoT的设备,甚至一些工业设备,都需要进行适配。
6. 全场景支持
客户场景其实是多变的,甚至很多场景下都互相冲突的,比如大房间、互动、直播,更关注卡顿问题,还可以牺牲延时指标。云游戏场景下可能更关注延迟。
腾讯云音视频的解决方案
针对以上的问题和挑战,腾讯云音视频给出的解决方案就是:
- 在云端,推出RT-ONE™ 腾讯云音视频全球实时网络;
- 在端侧,推出All in One的RT-Cube™ 腾讯云视立方SDK。
腾讯云视频产品线启动云加端一体化战略,利用系统优势,深耕泛互联网、教育等关键领域,才能够突破传统产业。在端上,RT-Cube™ 腾讯云视立方SDK,是业内独家且功能是最全的。在云端RT-ONE™ 网络,是业内唯一同时具备三张网络的服务商。基于RT-ONE™ 网络和RT-Cube™ 腾讯云视立方的音视频解决方案,腾讯云在中国视频云解决方案市场已经连续四年排名第一。
RT-ONE™音视频全球加速网络是由三部分组成,第一部分是CDN流媒体分发网络,它可以应对海量大并发直播点播内容的分发;第二块是IM即时通信网络,负责即时通讯消息和业务信令的传输;第三块是RTC实时音视频通信网络,主要承载音视频实时通讯业务。我们把这三段网络组成一个网络,底层技术应互相融合、互相赋能。满足客户各种实时互动场景的需求和创新。
RT-Cube™ 腾讯云视立方SDK,包含直播SDK、AI美颜特效的SDK、实时音视频SDK、IM SDK、点播SDK,以及短视频SDK。这些SDK融合在一起即可以实现音视频的全场景覆盖。自由组合SDK的版本,满足客户全部音视频通信的终端使用场景。基于实际业务场景用户可以勾选出所需要的功能模块,自定义组合版本,灵活下载,包的体积大小也自由可控。
音视频场景的最佳支撑产品
—— 腾讯云实时音视频TRTC
腾讯云实时音视频是基于 QQ 20多年来的音视频技术积累,在腾讯云上部署售卖的RTC服务。TRTC在内部支撑了腾讯会议、微信群直播,微信视频号直播、企业微信直播、腾讯课堂、全民K歌等业务,具有丰富的音视频场景最佳输出实践。
TRTC主要包含两个大的场景,一个是实时互动,在实时互动场景下延迟小于三百毫秒。这种场景下,对可感知的延迟容忍度为零,如全程需要通过音视频进行实时互动,音视频通话/连麦、音视频会议的场景。另外一个大的场景就是超低延迟直播场景,比如延迟可以在四百毫秒到一千毫秒之间。对延迟容忍度较低,观众需要与主播保持较强的互动,或者随时需要主播连麦的互动直播场景。
TRTC提供了微信小程序、手机QQ小程序、企业微信小程序的底层支持。我们也支持了Web端,Chrome浏览器、Safari浏览器。在native终端,我们支持安卓、iOS Windows、MacOs、Linux,以及Electron。同时我们也可以和IM协同使用。实时音视频可以旁路直播到云直播产品中,并通过CDN产品进行全球的分发。同时也可以录制到云点播,存储文件做二次的回放。
TRTC相关技术(为支持百万方超大规模视频会议的全新设计方案)也荣获了中国知识产权最高奖项——中国专利金奖。在疫情期间,TRTC支撑了腾讯会议八天扩容超过十万台云主机,投入计算资源超过百万核,服务超过一亿用户线上协同。单会议至多支持一百万用户同时入会,单集群支持一千万用户同时在线,并可以做到快速扩缩容。
腾讯云实时音视频TRTC的场景创新
在线K歌场景
我们基于TRTC做了实时合唱的方案,比如超低延迟RTC技术,极致端到端延迟,保证演唱者合唱功能;又做了多流精准的同步,保障听众良好的收听。同时还支持超多合唱人数,演唱者彼此独立,可以随时的扩展。实时合唱在全民K歌进行了落地。K歌实时合唱,端到端延迟可以极致低到六十五毫秒。除此之外,AME百万正版曲库可以授权支持歌曲搜索、歌词搜索。在音效方面,我们还支持了48K的采样率,192Kbps的码率,双声道立体声以及变声、混响、氛围音效,人声和伴唱切换,滚动同步对齐。
在线办公场景
腾讯会议今年为秋季校招提供招聘协同支持,支持视频宣讲、视频面试、视频录制、多国海外留学生面试,覆盖百分之五十以上的应届大学生,线上招聘面试效率提升百分之四十。腾讯会议在百分之七十视频丢包 / 百分之八十音频丢包场景下仍能保持正常的通话。在亚太地区,公网接入延迟小于五十毫秒。此外,我们还增加了大量的高抗性,比如自研的cPLC、cFEC等技术,提升弱网环境下的通话体验。
5G实时互动
5G加实时互动,在工业场景让移动远程控制成为现实。在高危、复杂、恶劣环境下作业,比如通过远程操控,这种方案可以使一线工作人员远离危险,为一线人员提供安全舒适的作业环境。比如在矿山场景下,无人矿卡、无人挖掘机、钻机、推土机,这些都需要远程的操控能力。在港口场景下,比如说无人集卡,它需要一个自动驾驶和远程操控互相配合的场景。在冶金场景下,需要无人天车,也是需要远程控制。在开放道路场景下,比如无人物流车,它需要的是一个自动驾驶和远程控制,互相配合的方案。
针对这一场景,我们将TRTC与5G技术极致融合,进行深度的优化,端到端的延迟在5G专网情况下可以小于八十毫秒。我们还适配了工业场景下常用的硬件编解码器,还去适配了工业场景下使用的车规级的摄像头。后续我们还陆续的推出基于AI的能力,比如辅助远程驾驶来规避障碍,识别行人等等能力。
TRTC 元宇宙
我们有Avater虚拟形象的方案。在生成方向,我们支持素材和模型的绑定、AI自动生成、纯面部半身全身。在驱动方面,我们支持实时面部的捕捉,比如全身实时动作的捕捉以及语音识别的驱动。此外我们还提供捏脸的能力,比如眼、鼻、嘴、脸细节都可以调,丰富的五官、发型、服装以及配饰的素材,而且我们还支持自定义的素材和贴图扩充。
在3D虚拟世界,动作方面,我们支持自由移动、跳跃、跑走的切换,还会支持比如打招呼、鼓掌、喝彩等互动的一些动作。还支持动作的自然的过滤以及多动作同时的展示。在视角方面,我们支持第一人称和第三人称的切换,视角的转动以及视野范围的一些缩放,还支持特写镜头以及导播的一些视角。在场景方向,我们提供了多种的模板,比如支持娱乐场景,一些庆典的场景,一些办公室的场景的模板。让用户可以随意的切换
虚实共生
在虚实共生场景,实时云渲染可以连接人与应用。在南头古城这个项目中,我们一比一复原了南头古城,现场场景高精度的复原,提供了孪生级的体验。另外我们还提供沉浸式的漫游,游戏化漫游,打破空间的限制。我们支持多终端的SDK,支持任意的终端,比如H5、iOS、安卓、小程序端点开即可用。还支持超低延迟的操作体验啊,端到端延迟可以达到60到80毫秒。我们这套方案还和芒果TV进行了合作。我们可以在实时云渲染中连接虚拟的自己。比如你可以通过手机端来捕捉你的面部、肢体以及进行语音采集。同时这些数据可以传到云端进行实时的渲染。在观众侧,直播间观众可以自由的移动。此外呢我们还支持超清画面的实时渲染,最高可以支持8K以及144FPS的实时渲染。支持采集面部表情、肢体动作、文字以及语音。我们还提供沉浸式的互动玩法,结合快直播、云游戏,观众可以自由的漫游虚拟场景。
TRTC 游戏
我们推出了互动游戏的解决方案,通过音视频实时的对话推进游戏进行,可以开启视频进行面对面的游戏。用户发言时可以低于三百毫秒的延迟,可以抗低包超过百分之七十。弱网环境下,还可以保证发言、游戏顺畅进行。我们通过IM可以实现推选投票、信令管理、文字沟通,还有送花、点赞等游戏互动的一些玩法。
TRTC 营销
我们推出了云呼叫中心,全渠道多触点的融合通信方案,可以集电话、在线会话、音视频通话能力为一体的融合通信能力。我们还提供了AI应用,助力效能全面提升,比如智能外呼机器人、智能在线客服,能高效的解放生产力。
除此之外我们还提供了aPaaS的解决方案,aPaaS可以让用户基于PaaS快速的搭建自己的应用,极大的降低了接入的客户接入的成本。比如在泛娱乐场景,我们就支持在线KTV、语音沙龙、互动直播,实时合唱等丰富的场景玩法;在互动课堂场景,我们提供1v1精品课、小班课、大班课、小组课相应的场景;在通信场景,我们支持轻量化的商业直播组件,企业通信、商业直播、视频通话。这些组件全部是开源的,用户可以根据自己的需求简单改造一下,就可以完成业务的一些上线。
实时互动的场景方案在未来会越来越多,RTC也成为众多应用场景不可缺少的基础设施。TRTC会在这场变革中助力更多的场景创新,为用户提供更多便捷互动场景。
点击下载《实时互动产业发展研究报告》
腾讯云音视频在音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备 RT-ONE™ 全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK,助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代,提供坚实的数字化助力。