2021年多媒体技术圈年终事件大回顾

2022-03-22 15:22:16 浏览数 (1)

以下内容均为个人见解,大佬轻拍~

一月

一月属于WebRTC,W3C和IETF终于宣布WebRTC成为正式标准。尽管此前WebRTC早已得到广泛的应用,但是毫无疑问,WebRTC的标准化将更好地促进各种浏览器和系统之间的兼容与协作。

Chrome也在这个月发布新版本,添加对AV1编码的支持,这也是RTC大规模应用场景的重要feature。

MPEG第133次会议召开,主要议题为

  • 在CMAF格式中添加对VVC和EVC的支持
  • 在DASH协议中新增“Session-based DASH”特性,客户端可以在新增的Session-based Description (SBD)中扩展自定义请求

MPEG组织也凭借他们在ISO基媒体格式定义方面的工作获得了第72届技术与工程艾美奖。

受疫情影响,这次的科技庙会——CES 2021在线上举办

  • VR/AR硬件新品大量爆发,其中基于microLED的AR智能眼镜值得关注,轻量化、便携化成为主要趋势。
  • 继推出可卷曲屏幕电视之后,LG把这项技术推广到了手机和电脑屏幕上,将“卷”进行到底。预计在2022年就能看到国内产商的跟进产品了。

其他方面,

  • 爱奇艺率先上线国产CUVA HDR标准内容,并且将多端支持该标准的2021央视春晚直播、点播,国产HDR标准未来可期
  • 快手发布利用AI将静态图片转化为延时摄影视频的技术,虽然效果有点假,但是很有意思

二月

VideoLAN在2月1日迎来20岁生日,这个诞生于巴黎中央理工学院的组织,从一开始的学生项目,演变为如今造福无数从业者的开源组织。他们既参与了fancy的AV1编解码器开发,又维护着小众的libbluray,这样的开源精神真的让人salute。

月初ClubHouse刚被马斯克推到风口浪尖,人人都在网上求邀请码。转头基于AI的语音编码器就在本月成为了主角,微软推出了Satin,Google推出了Lyra。毫无疑问,巨头对语音编码的突然关注,来源于疫情时代的实时通话业务需求。

虽然在语音编码技术上国内巨头们慢了一步,但也不必气馁,这不2021年的春晚就成功试播了CUVA HDR AVS3 8K内容。音视频核心技术的国产化道阻且长,踏踏实实地走吧。

其他方面,

  • 我最喜爱的开源播放器ExoPlayer更新了2.13版本,添加了对低延迟DASH和HLS的支持;此外还新增了一个Transformer模块,基于Android MediaMuxer实现简单的转码功能。

三月

元宇宙概念股Roblox于3月10日在美国上市,元宇宙开始加速进入人们的视野,为持续一整年的元宇宙炒作正式拉开序幕。

“十四五”规划纲要也在本月发布,AR/VR产业被进一步列为数字经济重点产业。

国产AVS3超高清实时编码器在本月官宣开源。

四月

英伟达CEO黄仁勋在4月GTC大会上的主题演讲火了,他穿着标志性的皮夹克,在自家的厨房里做了主题演讲,介绍自家新推出的产品。四个月之后,英伟达透露GTC大会有几秒穿插了“假的”黄仁勋以及背景。30多位工作人员先使用RTX光线追踪技术扫描黄仁勋,拍摄几千张各种角度的黄仁勋以及厨房照片,然后在英伟达开发的虚拟协作平台Omniverse中建模“厨房”,最后通过AI结合,以假乱真。

月底,美摄科技发布声明,称已向法院以侵害计算机软件著作权及侵害技术秘密为由,正式起诉北京字节跳动科技有限公司,要求赔偿经济损失及合理支出共计人民币22.74亿元。美摄科技表示,对比发现,自2018年11月1日“抖音”3.0版本至今,其实现视音频编辑处理等功能的相关软件代码,大量抄袭自美摄科技享有著作权的相关美摄软件。其中多处函数名一致,甚至将美摄科技拼写错误的函数都原封不动抄袭照搬。

其他方面,

  • FFmpeg发布4.4版本更新,添加了大量对AV1的支持。
  • MPEG第134次会议召开,批准了第一个用于多媒体应用的神经网络压缩国际标准。
  • 台湾大学和谷歌提出NeRViS,这是一种无需裁剪的视频稳定算法,效果非常惊艳。

五月

Google IO大会在五月举办,展示了最新的全息视频聊天技术——Project Starline光场会议,又一次让全体从业者惊掉下巴。

Apple Music也在本月宣布将发布支持杜比全景声的空间音频功能,为订阅用户带来业界领先的高质量音乐。空间音频让艺人们得以通过真正多维度的声音与高清晰度,为乐迷创造出沉浸式聆听体验。自此,空间音频开始成为各厂商竞相投入的新方向。

IETF也在本月公布RFC9000,QUIC规范推出了标准化版本,生态得以逐步完善。

其他方面,

  • 2021世界超高清视频(4K/8K)产业发展大会在广州举办。大会期间,《超高清视频产业发展白皮书(2021年)》对外发布。根据该“白皮书”的测算,在市场规模方面,2020年,超高清视频产业总规模达1.8万亿元,其中超高清视频核心环节直接销售收入超过8100亿元,行业应用规模超过9800亿元,其硬件直接销售收入约900亿元,解决、集成方案等超过8900亿元。
  • 来自Fraunhofer的开源VVC编码器VVenC正式发布1.0版本。

六月

APPLE WWDC大会在月初举办,苹果宣布FaceTime在web浏览器中可用(当然是用WebRTC实现的),同时支持Android和Windows用户端。除此之外,苹果还发布了一个视频质量评价工具——AVQT(Advanced Video Quality Tool)。

六月末,扎克伯格向员工介绍了一项雄心勃勃的新计划,根据这项计划,该公司的业务范畴将远远超出当前的一系列社交应用以及相关的硬件项目。他说,Facebook将打造一套包罗万象、互联互通的科幻体验集合,简言之,即打造一个被称为元宇宙的世界。小扎的元宇宙上头之旅从此开始。

其他方面,

  • 华为正式发布HarmonyOS 2及多款搭载HarmonyOS 2的新产品。
  • CVPR 2021举办,来自马普所和图宾根大学的研究团队在GAN中加入了3D场景,新模型能够生成更可控、质量更高的图像,并且模型参数量更少,研究成果获得CVPR2021最佳论文奖,并且已经开源。苹果也在会上发表论文,提出移动端HDR AR渲染方案,可实现模拟金属动态光影的效果。
  • W3C宣布Web Audio API成为一项正式标准,支持在Web上创建和操作音乐及音频。

七月 & 八月

七月太过平静,和八月一起说。

东京奥运会终于成功举办,包括8K、HDR、全景视频、沉浸式音频、AR/VR在内的多项音视频技术在赛事直播中得到应用。关于此次东京奥运会上值得关注的新科技,可以看我之前的文章:又有什么新花活?东京奥运会上的酷科技

Google继续在音频编码器上发力,又推出了SoundStream,相较于之前的Lyra,SoundStream能同时兼顾语音和音乐场景下的编码效果。

Facebook也继续在元宇宙上发力,发布了Horizon Workrooms的免费测试版。这是一个用于远程协作的VR应用,通过Oculus VR设备,用户可以轻松访问网上的3D虚拟办公室。

其他方面,

  • AISHELL-4 多通道中文会议开源语音数据库发布。该数据集共包含211场会议,每场会议4至8人,数据集共120小时左右。该数据集旨在促进实际应用场景下多说话人处理的研究。
  • MPEG第135次会议召开,会议推进了MPEG沉浸式视频编码的标准化工作
  • 7月24日,中共中央办公厅、国务院办公厅印发了《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(简称“双减”政策),后来的事情大家都知道了

九月 & 十月

把这两个月也放在一起,看看小扎的疯狂之路:9月8日,扎克伯格面向媒体表示,元宇宙是下一代互联网,Facebook拟在5年内转变为元宇宙公司。到了十月底,扎克伯格在年度Facebook Connect 2021大会上宣布一系列重磅消息,全面揭晓“元宇宙”野心,并且宣布更换新品牌,取元宇宙Metaverse的前缀,将Facebook集团名字换成“Meta”,其总部大楼前已经火速换上了Meta标识。

相比起来,Netflix在九月底宣布收购游戏工作室Night School Studio,在十月底上线端游的动作简直像是小打小闹。进军游戏市场之外,Netflix还推出了用于检测视频条带失真的算法CAMBI(基于对比度感知以及多空间尺度的条带指数,Contrast-Aware Multiscale Banding Index),并且已经添加到了vmaf中。

其他方面,

  • WebCodecs 工作草案正式定稿。
  • MX Player宣布在印度市场提供VVC编码的视频服务。
  • 京东方团队发表论文,以端侧设备超分为切入点,对经典上采样与深度学习超分之间的“空白”地带进行思考,提出了一类“一层”超分架构,并对所提方案与其他轻量型超分方案以及bicubic从不同角度进行了对比。

十一月

2020年度国家科学技术奖励大会在北京隆重举行。由北京大学教授、AVS工作组组长、鹏城实验室主任高文院士牵头的“超高清视频多态基元编解码关键技术”项目获2020年度国家技术发明奖一等奖。恭喜!

其他方面,

  • 腾讯会议天籁实验室携手腾讯AI Lab推出基于AI的语音编码器Penguins。
  • Netflix宣布开始向智能电视设备推送AV1内容。
  • 我最喜爱的开源播放器ExoPlayer更新了2.16版本,添加了对Android12的适配。

十二月

Bitmovin发布一年一度的视频开发者报告,尽管受访者多为海外开发者,仍有值得关注的点:

  • AV1编码占比持续上升
  • 使用AAC编码的占比有所下滑,而多种杜比音频格式获得了发展
  • HLS使用率首次同比下降,而CMAF的采用率则有所上升,从21%上升到26%
  • 低延迟成为开发者最关心的话题

Google终于公布了Project Starline光场会议背后的技术细节,包括采用的摄像头、红外传感器等硬件,以及如何在测试过程中,通过精准的视觉模拟来欺骗用户的观感。

OPPO首个自研芯片——马里亚纳MariSilicon X正式亮相。据了解,这款芯片采用6nm先进工艺制程,首款落地的商用终端为OPPO下一代旗舰Find X,预计将于2022年第一季度量产上市。该芯片将计算影像推向了4K 20bit RAW(我震惊了) AI Ultra HDR 的新极限。

其他方面,

  • TikTok 因推出的 Windows 直播程序 Live Studio 涉嫌 “套皮” OBS代码,在推特上引起了网友的热议。

写在最后

沈阳铁路局大连车务段在2021年一月还闹了个笑话:发布了一篇文章,介绍他们奋战20小时解决Adobe Flash停止更新引发的问题,而解决方案就是重装旧版Flash。

回想2010,乔布斯在那一年发表了著名的《Thoughts on Flash》,对Flash的安全性和开放性进行猛烈的抨击,同年iPhone4发布,移动互联网时代拉开帷幕。

到如今已过去11年,中国互联网进入增长瓶颈的言论甚嚣尘上,新一轮寒冬仿佛已经到来。

如果说去年的疫情让RTC爆发为新的增长点,到了今年,疫情对全球经济的影响终于蔓延到所有从业者身上,各大公司都尽显疲态。经济基础不仅决定上层建筑,还决定了各大公司在新技术上的投入程度。比起往年,今年整个圈内令人亮眼的技术都少了很多,大家都忙着降本增效,选择在已有技术上继续深耕。

倒也不必悲哀,你看这世界上仍然有大连车务段这样的单位和人,仿佛被十年来的技术浪潮遗忘在角落,正等着我们将他们从数字鸿沟中解救出来。比起沉迷虚无飘渺的元宇宙虚拟世界,多看看身边的人和眼前的世界,也许会发现广阔天地仍然大有可为。

祝各位读者在新的一年里都能取得好的成绩~

0 人点赞