9月11日,以《音视频技术探索与实践》为主题的腾讯云Techo Hub技术巡回北京站活动大幕开启。疫情之下,远程办公、视频会议、在线教育等模式的应用越来越多,极大地增加了音视频技术的市场需求。本次活动聚焦音视频领域,多位技术专家与众多开发者一起探索了技术如何赋能云上新“视”界。
实时音视频在泛娱乐行业的落地实践
移动互联网经历十年发展,即将步入全真互联网时代,实时音视频作为全真互联网的基础设施,为用户提供高并发、低延时、高清流畅、安全可靠的全场景、全互动、全实时的音视频服务。腾讯实时音视频(Tencent Real-Time Communication,TRTC),是基于腾讯21年来在网络与音视频技术上的深度积累,以多人音视频通话和低延时互动直播两大场景化方案,通过腾讯云服务向开发者开放,致力于帮助开发者快速搭建低成本、低延时、高品质的音视频互动解决方案,在娱乐社交、在线教育、互动游戏、协同通信、在线医疗、在线金融等场景下都有着广泛应用。
腾讯云TRTC产品架构负责人崔立鹏老师在演讲中表示,TRTC拥有三大优势:低延时低卡顿,高音质高画质和全平台覆盖。
泛娱乐场景中,用户对画质音质要求很高,在画质方面,TRTC支持全链路H.265,实现了同等码率下的画质提升。在音质方面,TRTC内置“腾讯天籁”音频引擎,针对多人、多场景实时通信系统中3A问题(降噪、回声抑制、增益控制)提供了低复杂度、高鲁棒性解决方案,致力于让用户 “听得见、听得清、听得真”。
随着今年6.1日新著作权法的实施,直播场景下的音乐版权成为行业关注的焦点问题。TRTC携手腾讯云正版曲库直通车,于 5 月研发上线了直播互动曲库。
通过音乐上云,一站式解决了版权音乐在在线直播、语聊业务场景中使用过程中信息安全,精准按量付费的版权方管理需要,和应用方原生化的集成版权曲库服务,敏捷、小成本的创新,实现自身业务更加快速增长的需求。
接下来,崔立鹏老师详细介绍了TRTC泛娱乐行业的典型应用。如:在线KTV、语音聊天室/语音沙龙、语音互动游戏、电台FM、秀场直播、游戏陪玩、多人互动直播、赛事直播等。
音视频内容风控应用实践
近年来,随着国家对互联网内容安全的持续关注,制定了一系列的法律法规,明确要求互联网企业采取技术手段确保网络环境安全健康,内容安全问题已经成为企业的生命线。在音视频领域中,有效地发现和处置含有淫秽色情、血腥恐怖等违法违规内容对企业健康发展至关重要。
腾讯云高级研发工程师蔡飞老师指出,在当前音视频领域的内容安全风控中依然存在着很多挑战,比如内容审核维度越来越多,需要满足更加精细化的运营需求;内容审核标准也不统一,不同业务场景需要运营不同的审核策略;同时新增风险类型需要对海量历史数据再次审核,对审核系统提出更高的要求。
接下来,蔡飞老师详细介绍了音频图文内容识别模型框架、音视频直播内容风控系统、音视频文件内容风控系统的详细架构,以及审核策略定制化调优过程。
腾讯云内容风控产品经过22年的行业审核经验积累,通过亿级的样本数据的训练,支持超过300多种审核标签识别能力,高达95%以上的识别准确率,并提供7*24小时的策略调优,以及弹性扩容支撑大规模识别的需求,为腾讯云用户提供实时、精准、高效、易用的内容审核整体解决方案。
云点播媒体处理平台技术实践
云点播是集音视频上传、媒体资源管理、媒体处理、分发加速、视频分发于一体的解决方案。其中媒体处理是云点播的一项核心功能,支持如转码、截图、视频AI、视频加密等能力。
腾讯云高级研发工程师颜楚雄老师介绍了媒体处理中离线任务的特点,从模块设计、算法设计、队列选型等角度,介绍了云点播具体如何实现一个公平、可靠、高效调度的媒体处理平台。
最后,引出了媒体处理平台在实际运营过程中,出现的容灾存在风险、集群利用率低、新业务接入难等几个挑战。颜楚雄老师对这些问题的原因和优化策略进行了详细介绍。
Xe GPU创新微架构 打造云游无界畅玩体验
随着5G、光纤等高速网络的发展和普及,云游戏成为游戏行业的必然趋势,也是音视频技术应用的下一个市场。
英特尔第一代GPU产品是以游戏作为重点,并且以安卓游戏手游、云游作为突破口来打造市场。英特尔(中国)研究中心有限公司视觉云首席架构师余志洪老师表示,“它并不是追求极致性能的GPU,而是从低功耗、高密度的思路出发,在一个板卡上堆叠多个GPU。手游云游是一个成本非常敏感的业务,英特尔第一代GPU在单卡上能支持更多的路数,可以将成本压的更低。”英特尔把它做成了一个卡上有4个小的GPU,功率只有150瓦。针对云游戏的场景,英特尔与腾讯有紧密的合作,对一些特定场景需求进行了了定制化,在编解码密度方面也进行了相应的匹配。
英特尔(中国)研究中心有限公司视觉云首席架构师余志洪老师表示,英特尔研发GPU的思路是以开放的形式提供软件和生态,因此大部分驱动代码都是开源的,可以从开源社区得到,在安卓层面进行了定制化,这样方便贴心的软件支持在行业里是少有的。英特尔提供了一整套的软件,与腾讯一起合作开发了高密度的方案,两卡可以支持160个实例。
H3C XG310采用4个Intel®Server GPU,内置行业领先的媒体IP和低功耗固定功能块。使用基于Intel®服务器GPU的卡,供应商可以实现: 与目前的安装基础相比,增加了5.5倍的流,同时提高了22%的比特率效率。通过降低准备和分发成本,增加TCO节约。英特尔自研的Xe架构GPU,包括四大级别,Xe_LP、Xe_HP、Xe_HPG和Xe_HPC,其中,HPG面向发烧级游戏玩家,同时还支持硬件级实时光线追踪加速。
余志洪老师透露,英特尔前段时间发布了全新高性能显卡产品品牌------英特尔锐炫(Intel® Arc),将于2022年上市。Intel®Arc显卡产品基于Xe HPG微架构设计,其硬件产品将涉及多代,不仅包括首代基于Xe HPG微架构的Alchemist显卡,还将包括代号分别为Battlemage、Celestial和Druid的后续几代产品。
下一代Overlay网络架构探索
进入互联网的下半场即产业互联网时代,是物的互联网时代,是以数据为中心的时代,面临着比以往更加艰难的挑战,比如人口红利的终结、流量红利的终结,但并不代表着超常规高速增长的终结。之前成功的互联网基础设施,支撑了互联网的高速发展,其成功可以总结为OSI分层模型成功,TCP-HTTP协议大放异彩。但是在产业互联网时代,日益增长的数据量级、分发效率低下、用户数据主权意识觉醒等因素的影响,使得只能客户端访问服务端的C/S、B/S架构不再适用产业互联网,需要有新的网络架构来支撑。
腾讯云专家工程师张鹏老师认为,新的网络架构首先需要更低廉(To B领域)、更高效,并且更容易使用,还需要打破架构束缚。当今,所有的数字化基本上都是经过云中转而产生的数字化。数据经过云中转能并不能覆盖现实世界所有场景,世界应该很复杂,靠关系数据其实能做的还是很少的,最适用的行业再回头来看,仅有社交、电商、内容传播和数据录入/管理等领域。架构需要打破只能云中转的方式,从而达成更加分布式的网络。新的网络架构还要结合5G,但是边缘服务器无法部署到每一个5G基站,所以还要依赖连接上的进一步解放,尽量让同一个5G基站的设备相互连接访问,提供就近服务,就能发挥5G巨大的优势了,这才是5G的正确使用方式,而这方面对等网络技术正当时。
张鹏老师表示,未来的数据很可能不会存放在公司的云数据中心,而是托管在各种各样的小的银行保险箱里,或者社区性质的存储箱中,存储数据上反垄断,应用产生的数据主权不是属于应用本身,而是属于个人,而且分发访问速度更快,存储成本更低。直播这个形态就非常具有代表性:媒体内容例如图片、文字、视频等资料存放在云上,云服务商拥有绝对控制权,在直播形态下,云服务供应商却无法再对直播有绝对的控制权,主播下线就是下线了,云想让直播内容续上都没法子,主播对直播内容有绝对主权。
最后,张鹏老师详细介绍了网络、存储、计算三大落地实践,当然终究离不开以云为基础,为此腾讯云推出了RT-ONE三网合一。
RT-one整合了腾讯云实时通信网络(TRTC)、即时通信网络(IM)以及流媒体分发网络(CDN)三张网络,是完整的音视频通信PaaS平台构建基座。
智能语音技术在新居住领域的应用
智能语音是指一种以语音信号识别为基础,搭配自然语言处理和对话管理技术,将语言输入信息提取、分析,最终通过语音合成或文字等方式输出并完成响应的人机语言交互技术。智能语音技术是人工智能的核心基础技术之一,在人工智能技术中占据重要地位。权威数据显示,2019年智能语音占据我国人工智能22%的市场份额,仅次于已经大规模商用的机器视觉。经过多年的发展,智能语音技术已经进入落地期,智能语音助手、智能音箱等产品也相继落地。在消费级市场,语音应用立足于个人日常生活,主要应用场景包括智慧生活、智能家居、智能办公、智能驾驶等。在企业级市场,语音应用服务于特定场景,如智慧医疗、智慧教育、智慧电信/金融/电商等。而在新居住领域,语音应用主要应用于智能家居、智能客服场景中。
贝壳找房语音技术负责人邹伟在演讲中表示,智能家居的目标是实现全屋产品的智能化,智能音箱、扫地机器人、智能电视等都是人们生活中经常使用的产品,这些产品可以进行语音交互,实现智能中控。这些智能产品、智能硬件首先通过信息音频,进行语音处理,语音唤醒,之后进行语音识别,通过语音理解来识别请求,比如询问天气,通过对话管理和用户进行交互,之后进行语音合成,通过语音的方式和用户交流,形成语音全链路。
接下来,邹伟老师还详细介绍了智能客服应用。
腾讯视频云明眸技术演进之路
随着显示设备分辨率的增大,大众对于超高清视频的诉求越来越高,但是视频的制作和生产端常见的分辨率还是1080P,对于广电行业来说,急需使用AI技术将原来不够清晰的视频转换成超高清视频,进而真正达到了4K的人眼感官。对于广大互联网企业来说,在直播、短视频突飞猛进发展的情况下,带宽和存储成本飞速的增加是一大难题。同时,对互联网行业客户来说,视频播放的流畅性也是用户体验的重要衡量标准。因此,基于AI的高清低码和画质增强等能力越来越受到行业内客户的关注。
腾讯音视频AI产品解决方案-腾讯明眸,可以实时对视频流进行识别,并进行AI化处理。腾讯明眸包含“极速高清”、“视频超分辨率”等产品,其中,极速高清能在保持视频清晰度的情况下,相对于普通转码提升40%的压缩率,画质重生能大幅提高视频的人眼感官,为在线视频、泛娱乐直播、短视频等行业助力,可有效节省带宽资源,提升观看体验。
音视频内容风控中的AI实践
在信息爆炸的时代,每天都产生大量的数字化信息,但其中包含了很多不良内容,这极大地影响社会良性发展,内容净化迫在眉睫。在内容风控领域采用AI技术可以极大地减少人力的投入,帮助企业降本增效,为健康内容保驾护航。
各式各样的场景产生的信息归根结底以音、视、图、文的形式呈现,而内容风控产品就以音、视、图、文技术为基础,向上构建整体的审核能力。内容风控面临的挑战与困难有:强对抗,各形式的内容存在大量对抗变异、多模态结合;不同业务场景上的标准不同,需要能灵活响应不同场景的策略;有些业务场景复杂,存在长尾问题;时效性,能对新增风险快速响应。
腾讯安全高级应用研究员周维聪老师在演讲中详细介绍了图像视频风控、音频风控、文本风控的具体实现之路。周维聪老师表示,在内容风控中,各模块之间的适配衔接需要优化,对于噪音、背景音、远场下的ASR准确提升等疑难问题要重点解决。多模态技术的应用探索可以提升各类审核效果,同时需要对抗生成技术的应用,增强对对抗样本的审核能力。
至此,腾讯云Techo Hub技术巡回北京站圆满结束。接下来,活动还将走进成都、杭州、上海,为更多开发者带来学习、交流的机会!