广播电视拥抱人工智能

2018-09-21 17:08:30 浏览数 (1)

最近几年人工智能(AI)领域出现了许多令人惊叹的发展。尽管如此,AI仍然是一个容易被炒作和误解的术语。

如果我们关注当今的市场,我们会发现众多技术公司采用人工智能作为战略,并投入大量的资金、技术、基础设施和人力资源。八个非常有影响力的公司主导着市场:中国的百度,阿里巴巴和腾讯,以及美国的谷歌,苹果,Facebook,亚马逊和微软。这些大公司控制着大量的数据、平台、服务、知识产权和人才。微软拥有超过8000名机器学习(ML)工程师,与此同时超过5000名工程师为亚马逊Alexa生态系统工作,阿里巴巴有25000名工程师参与人工智能相关的产品和项目。与广播公司可能拥有的任何东西相比,这些都是惊人的数字。

70个国家的2000多家公司在所有可以想象的行业开发或提供人工智能服务、产品和平台。有大量且仍在不断增加的初创和研究经费、风险投资在流动。全球数据中心总容量的大约15%正被用于机器学习任务。人工智能被认为是新的电力,推动下一次工业革命,从根本上改变人们工作、创造、经营和组织生活以及社会的方式。

机器学习

人工智能是教机器学习智能行为的科学与工程。机器学习是人工智能的一个子领域,通过机器学习我们让机器自动寻找问题的解决方法而不是用明确的规则对其进行编程。我们定义一个目标,并输入数据。机器试图从它在数据中观察到的结构推导出通用的规则,使用该过程来训练和优化使自身的功能更接近目标。系统自动实现编程,已被证明是一种强有力的范例。我们今天谈论的人工智能通常意味着机器学习,这是一个更加精确,更不易被误解的术语。

在所有的机器学习方法之中,所谓的深度学习近年来取得了最为壮观的成功。深度学习使用的虚拟神经元网络,在学习和检测模式方面非常有效。神经网络之所以变得如此重要并被广泛使用,是因为它们普遍适用于所有类型的数据和任务-其中有许多问题以前没有满意的解决方案或者根本无法解决。

机器学习和媒体

对媒体组织而言,机器学习一般是基础,因为它让我们能够以全新的方式,更大的规模和效率来理解、转换和生产内容。我们可以开始从视频、音频或文本文件中提取有意义的实体(如人、地点和组织)。好的元数据是推荐和个性化的先决条件,这些又是提升内容价值的强有力的杠杆。

图像和视频中的对象识别技术已经超过了人类的能力。但是,提取精确、有意义且相关的标签或场景描述的技术几乎不起作用。这些系统总是存在大量噪音,经常在需要考虑人类语境的识别任务中失败。另一方面,人脸识别技术已经非常可靠——尤其是因为其涉及到很多商业和政府利益。

语音识别是机器在准确度上超越人类的另一个领域,提高了翻译和字幕的质量和规模。机器翻译在很大程度上依赖于神经网络,提供可用的结果。神经网络也为合成声音提供了新的方法,在近几个月获得了非常真实的结果和令人惊讶的进步。由于广播公司通常会使用很多声音,所以这对广播公司来说也是一个转变因素。

创造应用

在创造领域有很多应用使用了机器学习和神经网络。其中包括:任意交换媒体的风格和内容(Prisma App, DeepArt);合成图像(生成对抗网络);语音生成(Amazon Polly, Google WaveNet和Tacotron 2);语音复制(Lyrebird);图像处理(Faceapp, Face2Face等);自动作曲(Amper, Jukedeck);徽标生成(Logojoy);网站设计(Wix, Te Grid)和文本创作(CyberWriter, Wordsmith, Quill)。还有各种尝试来评估媒体的美学(EyeEm, Google NIMA)和文本的质量(Respondable, CrystalKnows)。

机器学习的核心概念是它是通用的。我们最终将应用机器学习——从而“认知”——我们的组织和日常生活中的几乎每个任务和工作流。就像电力和互联网一样,人工智能将无处不在,同时又或多或少地不可见。未来存在很多变化,因此我们应该更多地报告这些系统和它们带来的结果——我们的观众应该被告知并接受有关这一根本转变的教育。同时,我们自己必须非常迅速地掌握这些系统。我们未来的成功将主要取决于我们理解智能机器并与之合作的能力。

自己动手

评估自己选择的第一步就是简单地尝试各种智能服务:

  • Google的Teachable Machine是接触深度学习的有趣切入点——你只需使用网络摄像头,即可在浏览器中用几秒钟的时训练神经网络。
  • Microsoft的Video Indexer将所有可用的图像和语言处理技术集成在一个同一的界面中。它很好地展示了如今机器学习在媒体方面能做什么和不能做什么。
  • 想要了解对话界面(aka chatbots)和它们的语言理解能力,Chatfuel是一个简单的起点。
  • 使用Articulator Lite来体验机器人新闻。
  • Cyborg Writer是“带有神经文本合成器的实验性文本编辑器”,可以生成具有莎士比亚,埃米纳姆,唐纳德特朗普,维基百科或其它风格的文本片段。
  • Amazon Polly是最先进的文本到语音转换系统,展示了当今人工语音的可用性。
  • Lyrebird’s Beta允许你复制自己的语音,然后通过简单地键入文本来生成新的语音样本。

可以参考工作流程自动化工具,如Zapier和Microsoft的Logic Apps,它们与认知API相结合,让你无需编写任何代码即可设置智能工作流程。

下一步是学习调用API,大约需要五行简单的代码。这使你可以访问数以百计的机器学习服务来进行尝试。简单的语言API(TextRazor, Google Language API, Amazon Comprehend)可以从文本中提取实体或者分析其情绪。免费的语言处理工具如gensim, Spacy和Polyglot等也很强大,尝试它们却相当简单。

如果你想更加深入地挖掘,数据科学竞赛平台Kaggle是一个完美的跳板。在上面你可以找到关于几乎所有可以想象的机器学习任务的大量数据、讨论和可用代码,你甚至还可以根据自己的数据和业务问题设置竞赛。

本文中提到的所有资源链接可以参考:http://suisse.ai/links

一个阐述人工智能,机器学习,深度学习,神经网络和认知工作流的EBU(European Broadcasting Union, 欧洲广播联盟)报告正在准备中。与此同时,EBU的JEAN-PIERRE EVAIN描述了技术与创新部门内与人工智能相关的活动。

人工智能被视为“新”这一事实揭示了技术热情掩盖混乱的程度。比缺乏对人工智能和自动元数据提取之间的联系的理解更令人担忧的是,有些人想要使用云但是认为面向服务的架构无关紧要。这表明EBU可以在揭开人工智能的神秘面纱,提高对这些技术及其使用的整体理解水平方面发挥重要作用。

操作阐释

EBU的媒体信息管理和人工智能战略计划正在准备一份旨在揭开人工智能,机器学习,深度学习,神经网络(深度或循环)和认知工作流的神秘面纱的报告。请参阅:tech.ebu.ch/groups/mim

人工智能和自动元数据提取

当EBU在与人工智能相关的工作中寻找感兴趣的表达时,大多数回应来自研究自动元数据提取(Automatic Metadata Extraction, AME)的人。这是EBU多年来一直在研究的课题。EBU的AME主要工作是生成更加丰富和低成本的元数据。EBU希望在人工智能背景下对AME的重新关注能够吸引更多的人力资源来促进此工作做出贡献。

随着处理能力,存储,参考数据的增加和可使用的基于云的AME工具数量的快速增长,范式发生了巨大的变化:人脸检测/识别,情绪检测,语音识别,语音到文本到语音,语音分析,自动翻译,场景检测,摘要等。

这些工具作为微服务或在线使用的可访问性和易用性改变了对AME的看法并引起了人们的关注。现在,人们可以接触并衡量AME的效率和其对业务的潜在影响(例如,机器与人的表现,降低的操作成本,丰富的服务种类)。但是,这是一把双刃剑,因为供应商知道广播公司可以在多大程度上从使用这些工具中获得经济利益,所以他们也会相应地调整定价。一些广播公司采用内部集成开源解决方案的方法。当然,每个人都有决定如何最好地组合这些不同方法的权利。

人工智能和大数据

由EBU和特定成员共同开发的PEACH平台,使用Spark集群和Jupyter Notebook等最先进的技术,为数据科学家提供用户数据收集,数据处理和分析接口。基于人工智能算法的自动处理被用于创建推荐模型,这些模型被通过REST API提供给移动和Web应用程序。成员们创建,维护,改进和共享算法以及最佳实例来分析数据并且用独特的方法向用户推荐个性化内容。目标是在恰当的时间向恰当的设备上的恰当的用户提供恰当的内容。

人工智能和语义数据

语义数据是人工智能的一个组成部分。语义数据的主要原则是以简单语句的形式链接已经识别的资源和相关的元数据。通过从链接的开放数据源中提取信息,可以很自然地使数据更加丰富。推理和推论利用本体的结构来突出隐藏的知识。AME工具生成的元数据也可以被提取到知识图中。

EBUCore, EBUSport和EBU类概念数据模型(Class Conceptual Data Model, CCDM)都存在于资源描述框架(Resource Description Framework, RDF)中,作为对视听资源,体育和工作流进行建模的本体。

人工智能和微服务架构

云中的AME与微服务架构直接相关。在2017年的NAB和IBC中可以看到,可互操作媒体服务框架(Framework for Interoperable Media Services, FIMS)在云平台(亚马逊,Azure,谷歌,IBM……)上集成了基于服务的AME流程。各个引擎通过云服务包装器和异步RESTful接口公开,具有最小化的输入/输出有效负载和可搜索的语义数据。

FIMS将发布一组最佳实例,有用的模式,库(NPM包和Github)以及在面向服务的体系结构中应用云技术的框架和它所带来的所有优势(灵活性,可扩展性等)。

“人工智能远非新技术。”

来自IBM Watson, Microsoft Cortana和Amazon Alexa的代表在CES 2018上发表的声明中强调,AI远非新技术,这是非常正确的。

获取关于元数据和人工智能方面的支持

媒体信息管理和人工智能战略计划(Strategic Programme on Media information Management and Artificial Intelligence, MIM-AI)是EBU内非常活跃的专家社区之一。

EBU做了大量的工作来维护EBUCore和CCDM两个旗舰规范,这些规范吸引了大量数据架构师和开发人员的关注。EBUCore专注于视听对象(音频,视频,人物,组织,地点,事件,道具…),而CCDM则用从调试到分发的生产流程中的新对象扩展了EBUCore。语义建模的重要性正在迅速增长,所以几年前做的开发本体的选择已经被证明是正确的。使用RDF-XML或JSON-LD作为表示语言可以简化原本隐藏在EBUCore模式中的模型,并支持发布更简单的元数据文档。

FIMS项目也围绕云微服务的工作流集成做了大量的工作,跨平台(亚马逊,谷歌,IBM,微软)连接了各种AI元数据提取工具。FIMS定义了RESTful接口和库以及一系列部署自动元数据提取的最佳实例。当然,FIMS还为其它核心流程定义了接口,例如获取,传输,转换,质量分析和存储库管理。FIMS使用基于EBUCore的语义数据。

MIM-AI社区有很多专业知识,可以很容易地从项目网页获取:tech.ebu.ch/groups/mim。人们都很愿意互相帮助。一旦成为社区成员,就很容易提出问题或请求帮助,这些是每天都在发生的。或者可以使用更简单的方法,直接联系Jean-Pierre Evain (evain@ ebu.ch)。

参考文献

1. tech-i ISSUE 35·MARCH 2018 P6-P7 P10-P11

0 人点赞