媒体,连接媒体及应用

2020-02-24 17:19:16 浏览数 (1)

本文为媒矿工厂编译的技术文章

原标题:Media, linked media and applications

原文链接:https://www.linkedin.com/pulse/media-linked-applications-leonardo-chiariglione?from=timeline

原作者:Leonardo Chiariglione

翻译整理:徐鋆

介绍

在以加速步伐发展的多媒体技术领域,MPEG为本领域制定标准,我们很难对未来有一个清晰的计划(尽管MPEG有一个5年的计划)。

然而,当MPEG开发多媒体互联应用程序格式(Multimedia LinkingApplication Format, MLAF)时,它“发现”自己已经或正在开发几个标准——MPEG-7、用于视觉搜索的紧凑描述(Compact descriptors for visual search, CDVS)、用于视频分析的紧凑描述(Compact descriptors forvideo analysis, CDVA)和媒体编排(Media Orchestration)。

这些标准(以及其他在概念和发展早期阶段的标准,例如神经网络压缩和用于机器的视频编码)一同帮助建立了多媒体连接环境。在这个环境中,可以创建一个与另一些媒体对象的特定时空区域之间的联系。

本文解释了MLAF“多媒体链接”标准所带来的好处,以及它的具体应用。

多媒体连接环境

直到二十五年以前,几乎唯一能建立不同媒体之间关系的装置就是大脑。一个很糟糕的替代方法是在一本书上做记录,以记录在这本书的其他地方或其他书中的内容与记录处的关系。

将网页中的一个地方链接到另一个网页中的另一个地方,或者链接到一个媒体对象的可能性,是web带来的伟大创新。然而,在10亿个网站和千万亿个链接网页之后的二十五年,我们必须认识到链接的概念无处不在,而且不一定与网络相连。

MPEG为“我有一个媒体对象,我想知道在多媒体数据库中还存在哪些其他相关的媒体对象”这句话所描述的问题提供了大量的资源,并在MPEG-7模型中表示如下图所示:

然而,MPEG-7只是一个更加普遍问题的实例,这个问题就是将一个与另一些媒体对象的特定时空区域相连接。

以下是一些例子:

  1. 合成对象是由一个对象的许多图片创建的。图像与合成对象之间存在着某种关系;
  2. 有一个物理场所的虚拟复制品。物理位置与虚拟复制品之间存在关系;
  3. 用户在虚拟现实应用程序中体验虚拟空间。两个虚拟空间之间存在关系;
  4. 用户通过混合来自不同来源的一组媒体来创建媒体对象。混合的媒体对象和不同来源的媒体之间存在关系。

MPEG已经开发了MPEG-a part 16(媒体链接应用程序格式- MLAF),它指定了一种名为bridget的数据格式,可以用于链接任何类型的媒体。MPEG还制定了一些标准,这些标准在上面的示例中概述的“媒体链接”中起辅助作用。

  1. MPEG-7第1部分(System)、第3部分(Visual)、第4部分(Audio)和第5部分(Multimedia)提供了系统元素,以及视觉(图像和视频)、音频和多媒体描述;
  2. MPEG-7第13部分(Compact descriptors for visual search)和第15部分(Compact descriptors for video analysis)提供了新一代图像和视频描述;
  3. MPEG-B第13部分(Media Orchestration)提供了将媒体和其他数据混合起来以创建个人用户体验的方法。

MLAF标准

bridget是一个“源”内容与“目的”内容的连接,其包括以下三方面信息:

  1. 源和目的的内容;
  2. 两者间的连接;
  3. bridget中的信息会呈现给使用源内容的用户。

最后一个信息与用户最相关,因为它使用户能够决定其是否对目的内容感兴趣。

MLAF表示的结构(第1点和第2点)基于作为专用MPEG-21注释实现的MPEG-21数字容器。时空范围由两个MPEG-7工具的表达能力和MPEG-21数字项的一般描述能力来表示。它们允许bridget作者指定广泛的可能关联,并根据需要进行精确和细化。

呈现bridget信息的本地格式是基于MPEG-4场景描述和应用引擎。然而,bridget可以直接链接到任何外部表示资源(例如HTML页面、SVG图形或其他)。

伴随屏幕内容的bridget

下面这张图展示了MLAF的一个有趣的应用,并且展示了整个bridget工作流:

  1. 计划在未来某个时间播出的电视节目被上传到广播服务器[1]和bridget创造工具(BAT)[2];
  2. BAT计算并存储程序的音频指纹到音频指纹服务器(AFS)[3];
  3. bridget编辑器使用BAT创建bridget[4];
  4. 编辑器完成后,程序的所有bridget和引用的媒体对象都被上传到发布服务器[5]。
  5. 在预定的时间,电视节目播出[6];
  6. 用户终端上的app计算音频指纹并将其发送到音频指纹服务器[7];
  7. AFS把ID和用户正在观看[8]的节目时间发送到用户的app上;
  8. 当app通知用户有一个bridget可用时,查看者可能会决定:
    • 把目光从电视上转移到手机上;
    • 播放bridget中的内容[9];
    • 将bridget分享到社交媒体上[10]。

这是录制电视节目的工作流程,类似的场景也会在直播节目中存在。在这种情况下,bridget必须提前准备好,以便出版商能够在需要时选择并播放特定的bridget。

标准是一种强大的工具,有助于引入新的服务,比如配套的屏幕内容。在本例中,bridget标准可以促进独立创作工具和用户终端应用程序的创建。

创建bridget

bridget的创建工作流取决于其所代表的媒体对象的类型。

假设bridget包含不同的媒体类型,例如图像、文字描述、独立可选的音轨(例如广告)和视频,假设bridget的布局是预先设计好的。

以下是bridget编辑器所进行的步骤:

  1. 选择电视节目时间轴上的一个时间片段和一个合适的布局;
  2. 输入适当的文本;
  3. 提供参考图像(可能来自视频本身);
  4. 使用自动图像搜寻工具(例如基于CDVS标准的)寻找合适的图像;
  5. 提供参考视频剪辑(可能来自视频本身);
  6. 使用自动视频搜索工具(例如基于CDVA标准的)查找合适的视频片段(可能来自视频本身);
  7. 添加音频文件。

结果bridget对用户终端来说可能会变成如下样子:

创建所有bridget后,编辑器将bridget和媒体保存到发布服务器。

显然,bridget的“成功”(就打开它的用户数量而言)在很大程度上取决于如何呈现bridget。

为什么是bridget

bridget是由欧盟委员会第七项框架研究计划资助的一项研究项目的题目。MLAF标准(ISO/IEC 23000-16)是在bridget项目成员的鼓励和参与下制定的。

0 人点赞