机器之心报道
编辑:泽南
为了这个编解码技术,阿里买下了一家创业公司。
钉钉又出手了。
3 月 18 日,资本市场传来一则重磅消息:钉钉已完成对音视频平台服务公司拍乐云的全资收购,拍乐云核心团队整体加入钉钉,创始人赵加雨还将担任钉钉音视频事业部一号位。
拍乐云 CEO,现任钉钉音视频事业部负责人赵加雨。
「钉钉与拍乐云团队的融合,将对钉钉音视频的产品技术能力形成有力补充。钉钉将持续加大音视频投入,提升用户体验。同时,钉钉音视频事业部将聚焦能力开放,将产品技术向生态开放,为软硬件伙伴带来更具竞争力的产品。」对于该消息,钉钉方面进行了回应,也证实了收购消息属实。
买下国内最快 AV1 编码器
为什么是拍乐云?
拍乐云是一家成立于 2019 年的实时音视频创业公司。该公司创始人、CEO 赵加雨是业内顶级音视频技术专家,拥有 18 年视频会议与实时通信研发经验,他曾长期担任 Cisco WebEx 美国架构师,回国后曾任网易云信 CTO 等职,精通音视频整体架构和技术。
在业内,思科 WebEx 素有音视频领域的「黄埔军校」之称,Zoom 创始人袁征(Eric Yuan)、声网创始人赵斌均来自于此。
通过收购,钉钉收获了一个构建硬核技术的团队:拍乐云是一家音视频技术型公司,且拥有国内首个 AV1 实时视频引擎 Pano Venus,可实现超低带宽场景下的高清流畅视频通话。
什么是 AV1?
AV1 是一种新兴的视频编码标准,其通过压缩算法将原始视频文件尺寸减小以便传输,由谷歌主导的开放媒体联盟(AOM)提出。相比目前应用较广泛的 H.264 和 H.265 编码标准,AV1 在提供相同的视频质量的前提下,可以进一步节省码率,使视频文件更小。此外,应用 H.265 需要高额专利费用授权,而 AV1 完全不收取任何专利费,还有非常好的生态支持。因此也被业内视为最有可能取代主流 H.264 的新编码标准。
作为下一代视频编码标准,AV1 面向更高的清晰度和压缩比例(H264 最高仅支持 4K 分辨率)。与前身 VP9 相比,AV1 包含了 100 多个编码工具,大大提高了编码效率,在同等质量下, 相对于 H265/VP9 可以节省 30% 的码率, 相对于 H264 可以节省超过 50% 的码率。
这意味着,面向未来,在线视频应用可以走向 8K 及更高清晰度;着眼当前也可以提升弱网条件下的音视频体验。对于云电脑、云游戏、视频、直播、在线会议等应用来说,其性能提升非常可观。
从生态上看,Windows 10 已经原生支持 AV1 编码。但另一方面,AV1 的复杂格式也意味着更加依赖于硬件编解码能力。自 2020 年起,英特尔 Xe、英伟达 RTX 30 系列、联发科天玑 1000 系列等芯片才陆续开始支持 AV1 解码。
而拍乐云的 Pano Venus,则是国内第一个可以将下一代视频编码标准 AV1 落地实时系统的音视频引擎,其解决了 4k/8k、全景、VR 等下一代实时视频形态下的码率支撑难题,实现了低码率、高清晰度的实时视频互动体验。
若输出相同的视频质量,Pano Venus 的所需带宽比主流采用 H.264 标准的编码引擎平均要低 40% 到 70%,其所使用的编码器是目前已知的国内最快的 AV1 编码器。
该引擎的背后,是音视频编解码、网络传输、弱网对抗与 QoE、回声消除、实时通信组网与路由、高并发的流媒体分发等技术的持续突破。
Pano Venus 引擎展示的效果。
在技术领先的基础上,拍乐云也提供覆盖丰富场景的产品,比如其推出的互动白板产品作为音视频能力补充,实现多人、在线协作场景中的互动体验和信息交互的升级。且该产品能提供实时的轨迹同步等多样化互动工具,首创了超高清文档演示和滚动浏览,具有矢量压缩不失真的特点。
音视频、文档、即时通信工具是钉钉的基础产品能力。可预见的是,拍乐云的技术实力将对钉钉在音视频编解码等底层技术领域形成补充,为用户带来窄带高清、低延时的音视频体验。拍乐云在教育、政企、互动娱乐、金融、医疗、IoT 等方面的行业化、场景化落地的实际业务经验,将提升钉钉音视频在各行业的专业化落地速度。
音视频业务:产品、技术是新战场
据市场研究机构 IDC 的预测,视频通信已经成为连接个人、家庭、社区乃至社会的重要纽带。预计到 2025 年,全球产出的超过 80% 数据都将是非结构化数据,其中大多数都是视频内容
自 2020 年疫情至今,「线上开会」成为人们工作生活的重要需求。在这个赛道上,有阿里(钉钉)、腾讯(腾讯会议)、字节(飞书会议)、华为(WeLink)等大厂积极入局。
随着需求量增长和业务复杂性的提升,音视频产品的技术门槛也越来越高。从业务上看,音视频领域可分为软件服务(SaaS),包括实时视频、金融双录系统、在线课堂等业务;平台类服务(PaaS)则包括为硬件或软件厂商提供底层技术,钉钉在两方面皆有涉足。
但在营造沉浸感体验,提高互动效率的方面,与 Zoom、微软 teams 等顶尖竞品相比,钉钉的应用在产品设计、体验和音视频质量方面还需继续提升。
这并不是仅靠几个技术突破就能打开的局面:理想条件下,实时音视频通话的延迟需要低于 200 毫秒。一套在弱网等条件下仍可以高质量、高流畅、低时延工作的视频通话 App,其背后的技术涉及网络分发、音视频编解码、音频 3A 算法、抗弱网、算法等各方面能力,还需要完成美声、美颜、虚拟背景甚至数字人等前端能感知到的场景优化。
这或许也是钉钉收购一家专业音视频技术公司的原因 - 拍乐云是一家懂完整技术架构,又要有过成熟商业实践经验的公司。
在实时通信的需求下,距离、不同运营商等环境带来的技术挑战都需要在线会议服务自行解决。
而在更为复杂的线上教育等场景中,老师的音视频讲解和板书同步进行,交互相比单纯的线上会议挑战更多,形成稳定高效的体系需要长时间经验的积累。
另一方面,在当前手机端应用流行的情形下,开发者又需要把应用的性能需求压缩到极致。
一个「懂行」团队,对于钉钉来说会是重要补充。据公开资料显示,拍乐云业务遍布超过 200 个国家及地区,服务超过 10 个行业,拥有上百个场景的客户。
此外,前段时间起,元宇宙是科技领域的热门概念,而沉浸、交互、实时的全真音视频技术也将成为元宇宙的重要呈现形式。这些概念爆火背后,反映出随着 5G、云计算等基础环境逐渐成熟之后,业界、资本市场对新一代技术创新的探索和渴望。
钉钉收购拍乐云,或许也是如此。拍乐云与钉钉音视频团队的融合,将补充钉钉音视频产品能力,加强钉钉在下一代音视频产品与技术的布局。
钉钉技术的不断加码
从钉钉的动向,尤其是近一年的发展看,收购拍乐云,只是其产品战略调整的一步。近几年来,钉钉的协同办公和应用开发平台正在不停进化。
2015 年,钉钉作为一个沟通工具起步,在发展早期就上线了语音通话等功能。2017 年到 2019 年,钉钉陆续推出了视频会议、群直播及视频会议硬件,也布局了教育课堂等产品。
2020 年起,钉钉视频会议、直播等产品用户数量开始大幅增长。据官方 2020 年 3 月公布的数据显示,用户在钉钉上发起在线会议的数量单日突破 2000 万场,使用人数超 1 亿人次。
疫情推动了在线办公厂商的业务,尤其是顶住了流量压力,扛住在线教育和政务服务的钉钉,用户数量快速突破 5 亿。但彼时的选择,让钉钉实现战略领先的另一面,也带来其音视频等基础产品投入的不足。相比 Zoom、Teams 等,钉钉音视频有不小差距,如何提升竞争力?
而从需求视角,疫情后在线协作的用户面也产生了巨大变化。例如在线会议,使用场景在下沉,疫情让更多新用户、新场景涌入,音视频对应的设备种类大幅增多,低端设备和弱网环境构成了新的挑战。另一方面,使用场景也同时在向上拓展,一些更加专业、高端的场景也对音视频提出了新的要求,不限于沉浸感、互动及更高清、低时延。
钉钉给出的答案是持续、快速的战略投入。
去年 10 月,钉钉突然推出一揽子新产品,包含会议、在线文档、项目协作等不同维度的 10 多个协作产品,给用户侧更多选择。
去年 11 月,钉钉被爆出内部进行了组织架构调整:成立音视频事业部,下设独立「钉钉蜂鸣鸟音频实验室」,其目标是聚焦研究音频技术及算法创新,以及探索下一代音视频会议形态。单独设立独立事业部、实验室,以及本次的收购,连续动作也体现出钉钉、阿里在音视频领域投入的决心。
随着组织架构和收购完成,钉钉这一轮调整,理当已经告一段落。但钉钉接下来的挑战依然不少。音视频是一种需要长期投入,难快速出成果的基础产品技术,如何将拍乐云技术快速整合到在钉钉的产品体系将会是新的挑战。钉钉将会交出怎样的成绩,让我们拭目以待。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com