本文为煤矿工厂编译的技术文章
原标题:Delivering Standards to Industries: The MPEG Case [Standards in a Nutshell]
原作者:Leonardo Chiariglione
原文链接:https://ieeexplore.ieee.org/document/9014560
翻译整理:冯冬辉
向行业交付标准:MPEG案例
在全球化经济中,越来越多的企业每天都要面对的问题之一是向大众传递产品、服务和应用。试想一下,30年前的问题是什么样子的,当时媒体内容的传递,通过提供适用于特定媒体类型、传递方式、国家、地区、行业和公司的解决方案来实现。电信公司发行音乐;有线电视运营商通过有线电视传播电视;地面和卫星广播公司通过地面和卫星网络进行同样的传播;不同类型的企业通过实物支持传播各种录制的媒体(胶片、激光光盘、光盘、光盘、视频家庭系统/Betamax磁带等)。
图1描绘了模拟世界的垂直业务,当时的媒体分发是一个行业独立的系统集合,每个系统都使用自己的基带信号技术。这张图是对那个年代的情况的一个极其简化的表示,因为它没有考虑到每个行业内的地区、国家或公司的差异。
Figure 1. 模拟媒体分布
电子技术经过30年的发展,才将Nyquist的直觉转化为行业的实践。在1960年代,国际电联(ITU)制定了数字语音标准G.711。对于娱乐业(飞利浦和索尼的光盘)和电视业,同样的过程需要50年。[ITU无线电通信部门(ITU-R)建议601]。
电信网络可以承载64 kb/s的数字语音,但当时的消费级媒体传输都无法承载1.41 Mb/s的数字音频,更不用说216 Mb/s的数字视频了。因此,在1960年代,人们开始认真地研究数字化媒体的压缩问题。二十几年的研究开始有了成效。1982年,国际电联批准了建议H.100,用以1.5-2 Mb/s的视频会议传输。两年后,国际电联开展了p×64 kb/s的视频编码工作,之后形成了1988年批准的视频编码建议H.261。
其他探索或使用数字媒体压缩技术的行业、国家和公司,包括:
- 欧洲数字视频记录仪项目;
- 飞利浦和RCA的光盘上的独立互动视频项目;
- 混合电话和电视委员会研究数字电视传输的“主要贡献”;
- 意大利广播公司RAI和Telettra的用于卫星广播的HDTV(高清电视编解码器);
- 高级电视科学咨询委员会计划在美国引进HDTV(最初是模拟的,后来转为数字)。
各个公司、行业和标准委员会都在为即将到来的数字世界争夺一席之地,他们的心态是,未来数字媒体的传播方式将与图1中模拟媒体的传播方式类似。每种传播媒介的“基带信号”都将是数字信号,这将引入新技术,但每个行业、每个国家/地区的情况可能都不一样。
如图2所示,MPEG(当时还没有名字)被认为是一个将统一数字基带并提供通用(即与领域无关)数字媒体压缩的组织。IT分发并不是最初计划的一部分,因为当时互联网只是一个有趣而有用的研究工具。在1990年代中期,很少有人会认为一个为计算机通信设计的系统,能承载数字媒体所需要的兆比特/秒的数据流。如果有的话,电信公司正在研究一种名为 “异步传输模式”的解决方案,以实现这一目标。
Figure 2. 数字媒体分发(MPEG前身)
执行MPEG计划的地方
要解决的第一个问题是,必须在具有全球效力的国际标准上建立MPEG数字基带。第二个问题是,这些标准不应该针对具体行业。当MPEG的构想在1987年7月形成时,最主要的考虑就是选择一个实现这个构想的地方。可能的选项如表1中的国际委员会名单所示,这些委员会是出于各种原因(监管或仅仅是独立的技术参考的必要性)而成立的,并满足不同行业的需求。
Table 1. 媒体相关的标准委员会(20世纪80年代)
由于MPEG被认为是行业中立的,因此已经在传统媒体中制定标准的委员会被认为是不合适的,因为它们代表了既得利益。于是选择了ISO 第97技术委员会“计算机和信息处理”(TC 97),该委员会下设了第2小组委员会“字符集和信息编码”(SC 2),其中包括第8工作组“音频和图像信息编码”(WG 8)。
1987年,ISO TC 97与IEC TC 83“信息技术设备”合并。由此产生的联合技术委员会(JTC)被称为“ ISO/IEC JTC 1,信息技术 ”。1988年,MPEG作为ISO/IEC JTC 1/SC 2/WG 8内的移动图像专家组成立。注意,该小组是国际标准化组织内部的一个非正式组织实体。1991年,SC 2/WG 8从SC 2中分离出来,成为SC 29。WG 8的移动图像专家组(MPEG的名称由此而来)变成了WG 11,即移动图像和音频编码工作组(但业界和公众都称其为MPEG)。
驱动MPEG工作的规则
许多人都知道MPEG,但大多数人认为它是另一个制定公认有用的标准的委员会。然而,它是一个与大多数其他委员会不同的野兽,原因有以下几点:
- 多个行业的通用标准。从早期开始,MPEG就开发了一个达成共识的过程,使其能够奠定通用标准的规范。由于MPEG并没有自己的行业,所以它利用其需求组制定通用规范,用于与代表受其标准影响的主要行业的行业协会和标准组织进行互动。
- 作为工具箱的技术标准。基本的媒体压缩技术应由所有行业共享,但各个行业不一定需要相同的功能和性能。因此,具有行业差异性的标准化必须考虑到该标准所服务的行业的所有要求,并有办法将技术和性能灵活地分配给某一行业,而不拖累其他行业。MPEG使其技术标准基于工具箱。
- 为市场制定的标准。当MPEG出现的时候,一个公司如果开发出了成功的产品,就会想方设法在产品上打上“标准”的烙印,与竞争对手分享技术,享受技术带来的经济利益。MPEG重新调整了步骤的顺序。MPEG的专家们不再等待市场决定哪种技术会胜出,而是通过评估各个技术,并根据预先设定的标准决定选择哪种技术,从而共同制定出“最佳标准”。
- 预见未来的标准。当技术快速发展或加速发展时,等待是MPEG无法承受的奢侈。最初的MPEG-1和MPEG-2标准是在业界还没有启用技术的时候制定的。今天,正在开发中的MPEG-I标准中的组件,所依赖的接口还很不稳定,或者说只是假设性的。拥有领先而非落后的标准,是一个艰难的试错游戏。然而,对于数字媒体来说,这是唯一的可能。在过去的30年里,MPEG一直是这场竞争中的一员。
- 竞争与合作。MPEG在最大程度上支持竞争。这是通过以下方式实现的:
- 测试模型,一个由MPEG专家选择的组件组成的软件平台。
- 用核心实验对测试模型的不同领域进行改进,增加软件实现接受的技术,直到标准稳定为止。
- 要求必须全面描述的解决方案(即没有黑箱),才有资格获得审议;
- 基于以下环节,让MPEG专家评估拟议技术的优点:
- 行业友好的标准。这是通过以下方式实现的:
- 使标准独立于显示格式之外,而不是将显示绑定在一种采集格式上。
- 通过配置(profile)和级别(level)的概念,在不影响其他用户的情况下满足一种需求,其中profile是一般互操作性的一个子集,level是配置内的性能等级;
- 使解码器标准化,并为改进版本留有余地。
- 音频和视频共同的标准。今天,我们认为这些标准是理所当然的,但事实并非总是如此。音频和视频曾经属于公司和标准组织内部不同的部门。MPEG是第一个引起业界关注的标准组织,它是第一个将系统组件包含在一起的集成包的标准组织。同时,MPEG标准是工具包,因此特定的用户可以选择他们需要的组件,然后用不同来源的组件来替代。
- 技术总是在不断变化。数字媒体技术格局的不断变化为MPEG标准提供了信息。大多数被纳入MPEG标准的技术的开发者都将以前的标准的版税投入到新的标准中去开发新的技术。
- 研究对于MPEG标准的作用。MPEG不从事研究工作,但没有研究就没有MPEG。MPEG工作计划推动企业/学术界的研究,推动企业改进技术,以便将来参与MPEG标准。
- 反思我们是什么。参与MPEG-1的行业包括电信和消费电子。在MPEG-2时代,“俱乐部”扩大到地面和卫星广播和有线电视。随着MPEG-4的出现,IT公司也加入了进来。后来,研究机构和学术界成群结队地加入(今天,他们约占会员的四分之一)。随着MPEG-I的发展,MPEG面临着新的挑战,因为存在对沉浸式服务和应用标准的需求,但技术的不成熟使MPEG失去了通常的“锚”。
- 标准是推动者,而不是阻碍者。由于MPEG标准不属于某个特定行业,因此在制定新标准时,MPEG必须评估并考虑到所有合理的功能要求(例如,功能的价值、实施成本、汇总功能提案的能力)。同样,在决定接受或拒绝一个产业界提出的在现有标准中增加功能的合理要求时,只能由该建议所带来的价值来驱动,并由用例来证明。
- 标准需要一个商业模式。标准化不是一项商业性的业务,但有一种商业模式指导着MPEG并推动了其标准制定工作。在20世纪80年代末,当MPEG开始执行其任务时,工业界和学术界已经在视频压缩技术方面进行了大约三十年的工作,并申请了许多专利。一个免版税的视频编码标准(ISO/IEC/ITU称之为选项1)当然是可能的,但可能因为性能低下而缺乏吸引力。因此,MPEG决定开发性能最好的标准,而不考虑到其中涉及的知识产权问题。大多数专利持有人已将现有标准的专利费再投资于未来标准的技术。MPEG的商业模式造就了一个标准生产机器,用新技术来养活自己。
MPEG组织
自成立之初,MPEG为管理其广泛的活动而设立和解散了几个小组,以满足特定的需求。图3描述了目前MPEG的组织结构。新的想法通常会提交给需求组。如果它们被认为值得进一步探讨,就会在特设小组中讨论。特设小组将在下一次MPEG会议上报告其结果。经过几次迭代后,MPEG将发出征集证据(CFE)或征集建议(CFP),并通过新闻发布会进行宣传。届时,一个特设小组将负责传播CFE或CFP,为测试的后勤工作做准备,并对响应进行首次评估。这并不意味着需求小组不再参与标准的制定,因为在技术工作进展的同时,该小组通常会继续开发用例和需求。必要时,新的需求会与相应的技术组一起进行审查,并可能产生新的CFP,其结果在评估后会被反馈到相关技术组的工作中。
Figure 3. MPEG工作流程
今天,测试组的任务不再局限于在CFE和CFP时评估提案质量。设计和执行具有适当质量的测试,以支持核心实验,已经成为常态,特别是在视频组中。如果有提案要求,需求组会与测试组,可能还有一个或多个其他组,对特设组的结果进行审查,并做出最终评估。如果提交的技术被判定为足以启动标准的制定,则该活动将移交给适当的小组进行完善。
将文件送入MPEG进程至关重要,因为每次会议上载的文件数量很容易超过1000-1500份。自1995年以来,这项工作一直以电子方式进行。对于MPEG专家来说,在一个有这么多人讨论需求和评估、整合和测试媒体技术的地方,是很令人兴奋的。他们通过一个网络应用程序,知道什么时候、什么地方发生了什么事情,可以全面了解会议的召开情况和讨论的主题。
MPEG的一个关键特征是可以立即获得必要的技术专长,以讨论跨越组织界限的问题。如果不能及时部署必要的专业知识来解决多方面的问题,MPEG标准的发展速度和质量就很难达到。图4分解了MPEG会议上的活动。例如,在总共97项活动中:
- 29项活动涉及到常规阶段的标准处理,包括委员会草案、国际标准草案、国际标准定稿,以及等效的修正案、技术报告和勘误。换句话说,在每次会议上,MPEG在审批过程的不同阶段大约要处理10个交付品(即标准、修正案、技术报告和勘误)。
- 22项对应于工作草案,即尚未进入审批阶段的新活动。
- 8项涉及正在审议的技术;换句话说,正在考虑改进现有标准的新技术。
- 8项涉及到需求,通常是新标准的需求。
- 6项支持核心实验。
Figure 4. MPEG会议上的活动
图4并没有提供每个活动的文档数量和规模的量化指标。举例来说,点云压缩有20个核心实验和8个正在进行的探索实验,而MPEG-5基本视频编码(EVC)只有一个大型核心实验。2019年3月会议上的活动平均值是用输出文档数量(212个)除以活动数量(97个),得出2.2。
MPEG生态系统
MPEG系列标准与大多数其他标准不同,因为它们考虑到了许多打算使用这些标准的行业的需求,因此,它们希望在消费电子、IT、广播、电信等行业标准的制定上有发言权。考虑到这么多的意见,对开发者来说是一个负担,但最终产生的标准都是从个别行业的或大或小的需求中抽象出来的。图5描述了MPEG如何成功地抽象出其客户数字媒体行业的需求。
Figure 5. MPEG客户端数字媒体产业
然而,图5并没有描述所有的生态系统参与者。在MPEG-1中,消费电子行业往往能够开发出它所需的技术,以制造使用该标准的产品。在MPEG-2中,这种情况就没有那么多了,提供编码和解码芯片的独立公司如雨后春笋般涌现。今天,实现MPEG标准(相对于使用或销售)的产业已经成长为生态系统中一个非常重要的组成部分。它通常为制造完整产品的公司提供组件(有时这种情况发生在同一公司内部,但逻辑是一样的)。
MPEG标准可以使用软件、硬件和混合技术的各种组合来实现。对于硬件的选择非常广泛,从各种集成电路架构到模拟技术都有。后者(模拟技术)针对功耗极低的设备,但是压缩能力有限。使用神经网络的设备很快就会出现。未来可能会使用其他技术,比如量子计算和基因组技术。
图6在一定程度上准确地表示了MPEG获取制定标准所需技术的方式,以及标准的实施者如何获得必要的权利。当MPEG打算开发一个标准时,它会向业界征求需求。业界的三个部分通常可以提供需求:标准的最终用户、标准的实施者和标准的技术提供者。需要注意的是,一个具体的公司可能属于一个行业,也可能属于一个以上的行业,即公司的一个部门可能属于一个行业,另一个部门可能属于不同的行业。
Figure 6. MPEG标准工作流程
MPEG接收(步骤1)、评估、完善和协调收到的要求。当这些要求达到足够的成熟度时,发布CFP(步骤2)。属于技术行业的公司根据CFP的要求提交建议(步骤3)。MPEG评估建议中包含的编码工具,并将其分配给特定的能力中心,例如,音频、视频、3D图形、系统等(步骤4)。对这些工具进行调整和完善(可能在它们之间进行交互),并将选定的工具添加到MPEG工具包中(步骤5),其中包含了过去标准中采用的所有技术。
当标准开发完成后(步骤6),对标准中包含的工具有所有权的公司可以决定加入一个或多个专利池,或者根本不加入任何专利池。标准的用户(例如,实施者和服务提供商)从专利持有人那里获得使用权(步骤7),以便在其产品、服务或应用中使用(步骤8)。
尽管MPEG在最后一个步骤中没有任何作用,但作为行业标准的提供者,MPEG的表现在很大程度上取决于这个步骤的展开方式。
一致性测试通常在评估一个实现是否符合标准方面发挥着作用。
MPEG的作用不能用简单的标准提供者/客户产业的关系来描述。MPEG是一个复杂的生态系统,因为它的所有实体都在发挥其应有的作用。MPEG设计了一个组织,使其能够在特定的技术领域,如视频和音频编码和文件格式等方面部署必要的专业知识水平。同时,该组织使它能够确定不同媒体子系统之间需要接口的情况。
图7描述了大多数MPEG标准是如何制定的。具有不同能力的不同小组开发标准的各个部分,确保不同的组件之间能够交互。在上下文-目标-用例阶段确定的系统中,某些元素旨在与其他元素协同工作。然而,许多部分并不紧密地结合在一起,因为在一般情况下,可以分别使用它们。在其他情况下,有一些来自其他来源的部分必须紧密地结合在一起工作,这就是MPEG通过使用特设小组、联席会议、主席会议等提供“胶水”的地方。
Figure 7. MPEG标准的结构
接下来的MPEG标准
在其31年的历史中,MPEG已经制定了大约200个规范,数十个版本和数百个修正案。正如图8中的工作计划所示,它的任务尚未结束。以下是未来几年内计划制定的主要标准的简要总结。
Figure 8. MPEG工作计划(2019年10月)。CDVA:视频分析用紧凑描述符;CMAF:通用媒体应用格式。
媒体编码
- 通用视频编码(VVC)。这是旗舰级的视频压缩活动,将带来新一轮的性能提升。它有望成为MPEG为沉浸式视觉体验构建新技术的平台。
- EVC。这个短期项目的目标没有VVC那么远大。EVC的旨在满足人们对简化IP场景的标准的迫切需求。
- 沉浸式视觉技术。研究适用于不同的摄像机安排所捕获的视觉信息的技术。
- 点云压缩。指的是能够压缩用多个摄像机和深度传感器捕获的三维点云的两种标准:视频点云压缩和几何点云压缩。这两种标准中的算法都是可扩展和渐进的,并且支持随机访问点云子集。视频点云压缩是有损的,几何点云压缩是无损的。
- 沉浸式音频。MPEG-H 3D音频支持3个自由度(DoF)(偏航、俯仰和滚动)的电影“甜蜜点”体验。然而,我们需要更完整的用户体验,比如6DoF(添加x、y和z)。这些可以通过额外的元数据和渲染技术来实现。
系统和工具
- 全向媒体格式(OMAF):该格式支持全向(360度)内容的互操作交换。在版本1中,用户只能偏航、俯仰、摇头,但版本2将支持更多的功能。
- 以MP4文件格式存储点云转换数据:MPEG正在开发系统,通过HTTP、MPEG媒体传输等动态自适应流媒体,实现压缩点云的存储和移动。
- 场景描述接口:MPEG正在扩展现有的场景描述接口,以实现丰富的沉浸式体验。
- 沉浸式媒体的服务接口:基于网络的媒体处理将使用户能够通过标准的API访问由网络服务提供的潜在的复杂处理功能。
- 媒体物联网:媒体物联网将使传感器和执行器等智能设备的网络成为可能。
超越媒体
- 生物技术应用标准。MPEG正在最后确定MPEG-G标准的五个部分,并制定了一个新的DNA注释压缩标准。
- 与神经网络无处不在。MPEG在收到对其神经网络压缩的CFP的响应后,正在开发用于多媒体内容描述和分析的神经网络压缩(MPEG-7的第17部分)。
MPEG的未来
31年来,MPEG一直不间断地工作,不断增加行业成员,见证了新技术的蜕变。如今,MPEG又面临着一次重大变革,不得不再一次蜕变。
MPEG是关于压缩的
MPEG已经制定了五代视频压缩标准,每一代都提供了额外的压缩和功能。预计第六代(VVC)将有更多类似的变化。MPEG已经产生了相当数量的音频编码标准,业界是否会继续要求提供更多的压缩功能?我想用 “是”来回答,因为我相信总会有这样的需求,但不一定是用 “老办法”。以光场为例,如果这种信息的分布要在这一代人中成为现实,就需要更多的压缩。然而,对于压缩问题的答案是,至少在目前的时间框架内,我们所拥有的压缩已经足够了,尽管我们需要新的标准来实现其他非压缩功能(就音频而言,是6DoF)。这个趋势在视频中并不那么明显,但3-DoF 与音频的发展方向是一致的,6-DoF视频的确切性质还在发展。点云压缩可能是另一回事,因为我们处于学习曲线的低端。
沉浸式媒体的趋势将要求压缩媒体与渗透到媒体中的系统之间有更深层次的融合。
MPEG也涉及系统层面
系统层面一直是许多MPEG标准成功的促成因素,未来也不会改变这种作用。沉浸式媒体的趋势将要求在压缩媒体和贯穿其中的系统之间进行更深入的整合。从一项被称为“沉浸式媒体访问和交付”的需求中可以看出这一点,而它包括四个维度:
- 时间(像往常一样)
- 空间(能够只检索媒体的相关部分)
- 质量(能够以理想的质量访问媒体的部分内容)
- 对象(能够访问感兴趣的特定对象的特定部分)。
MPEG是否只与媒体有关?
我的回答是“否”:它不是,也不应该只与媒体有关。在过去的30年里,MPEG已经表明,它能够不断增加专业领域,并学会说该领域的技术语言。今天所有的媒体领域都能说同样的技术语言,这在很大程度上要归功于MPEG在了解不同行业的需要,将其转化为需求,开发技术,并将标准量化为配置和级别。自从MPEG发明了配置和级别,并始终如一地应用于使用相同或不同技术语言的社区对话以来,这种工作流程已经运行了27年。但这并不意味着在与一个新的行业对话中没有挑战。在开始开发MPEG-G标准之前,MPEG花了三年多的时间与基因组社区对话,并确定和验证需求。
商业环境正在发生变化
MPEG在商业上没有太多话语权,但是在需求、专家支持、时间安排等方面,MPEG的工作受企业的影响很大。在MPEG成立的前10年,MPEG统治了音视频编码领域。在随后的10年里,一些专有的解决方案如雨后春笋般涌现,但这个领域还是以MPEG标准为主。在过去的10年里,MPEG看到专有解决方案的力量越来越大,并占据了其标准所独有的领域。市场说话了,而且它是对的。MPEG不应该抱怨竞争。在竞争的环境中运营总是有益的,因为它推动着受影响的人做得更好。然而,这是故事中比较容易的部分,因为问题是,“MPEG是否应该继续毫不气馁地走下去,还是应该重新思考它的作用?”
结论
几十年来,MPEG管理着一个庞大的工作组(WG),设计了多线程工作程序,寻求并得到了业界的支持,制定了标准,并推动了数字媒体业务的演进和不懈的扩张。MPEG作为一个工作组做了这一切;也就是说,它是最低级别的ISO组织单位,被建议“合理限制其规模”。现实情况是,1989年,MPEG有100个成员;1999年,它有200个成员;2019年,它有1500个成员,每季度有600个专家参加会议。MPEG所发挥的作用远远超过了它的地位,我认为不应该对结果有任何抱怨。MPEG作为一个工作组可以再继续保持30年,但是,考虑到ISO已经容忍了“MPEG例外”,从现在开始,它的状态应该和它的地位相当。现在,应该消除例外。
是否应该把MPEG拆成小块?谁会用一个未经检验的组织取代一个成功的组织?如果新的组织失败了,谁来承担责任?需要有更有效的办法。意大利国家标准协会已经提议利用MPEG强大的身份、组织和品牌在一个新的环境中提供坚实的治理,同时保留MPEG制定和执行服务于行业需求的战略计划的能力。等到这篇文章发表的时候,我们就有望知道MPEG是否有未来了。
作者
Leonardo Chiariglione (leonardo@ chiariglione.org)与Hiroshi Yasuda共同构想并创立了MPEG(移动图像专家组),该专家组是ISO/IEC(国际标准化组织/国际电工委员会)的下属工作组,负责将数字音频和视频标准引入媒体行业。他担任MPEG的主席,也是CEDEO.net的首席执行官。