Open WebRTC Toolkit实时视频分析系统

随着物联网技术的发展，实时视频分析技术已应用于智能物联网的各个领域。英特尔基于与GStreamer以及OpenVINO构建了整套实时视频分析方案，为用户提供更加灵活、便捷的实时视频分析服务。本文由英特尔高级软件工程师吴秋娇在LiveVideoStack线上分享内容整理而成。

文 / 吴秋娇

整理 / LiveVideoStack

背景介绍

随着物联网技术的发展，实时视频分析技术已应用于智能物联网的各个领域，例如：智能零售、智能工厂、智能监控等，如果把视频比作物联网的眼睛，那么实时视频分析技术就是物联网的大脑。

目前基于深度学习以及计算机视觉的视频分析是最通用的方式。

以物联网技术中非常通用的场景-物体识别技术为例，如图是典型的物体识别的流程图，在前端采集一段视频流，再将物体识别出来，对所识别的物体进行标注，再进行回传显示，需要经过很多复杂的步骤，其中需要调用很多接口。同样还会涉及到颜色空间转换、缩放、推理、以及编解码的过程，这些过程都需要占用很大的计算资源。

同时在实际环境中如果有CPU，GPU，VPU等多种计算资源，如何让编解码以及推理等过程充分利用不同的计算资源从而提升系统性能？此外，当系统需要应对更多的流分析任务时，如何进行方便快速地扩展。这些都是实时分析系统会碰到的问题。接下来我们从这些问题出发来介绍OWT（Open WebRTC Toolkit）如何解决实时分析系统的复杂性，性能以及扩展问题。OWT的实时分析系统是基于英特尔的OpenVINO以及开源的GStreamer框架进行开发，我们先对OpenVINO，GStreamer以及OWT做个简单的介绍。

英特尔 vision computing platform

Open VINO是英特尔推出的pipeline的工具集，具有完成算法、模型部署所需要的各种能力。

从图中可以看出，其主要由两部分组成：模型优化器（Model Optimizer）,可以把在其它框架下已经训练好的模型转换为Open VINO所适用的模型再进行优化，转换速度较快；推理引擎（Inference Engine），即在设备上运行的AI负载在做推理时，可以将我们所需要的处理效果例如前处理、后处理、特征叠加等，通过Open VINO接口的形式方便的实现。

而且Open VINO 中还可以支持多种模型，目前已经提供有150多种训练好的模型供用户直接使用。可以在Open Model Zoo（https://docs.openvinotoolkit.org/2019_R1/_docs_Pre_Trained_Models.html）的网站查看具体支持的模型。另外OpenVINO在Intel平台进行优化，提升计算机视觉相关深度学习性能达19倍以上，可以充分利用相应的计算资源。

另外OWT使用GStreamer框架。GStreamer 是一个高度模块化的管线驱动式媒体框架，大概从2002年开始发布第一个版本，一直到现在还在不断更新。特别是AI时代，由于其灵活性及可扩展性，GStreamer在AI领域应用也比较广泛，目前已有很多丰富的AI插件，可以提供各种功能。

目前已经推出支持Open VINO的GStreamer插件gst-video-analytics, 提供了推理，监测及分类等多种功能的插件，详见https://github.com/opencv/gst-video-analytics/wiki/Elements。

OWT视频分析系统给用户提供了方便的接口，用户可自行组合不同的GStreamer plugin来实现不同的分析任务。

面向WebRTC的英特尔协同开发套件，从2014年发布第一个版本到现在已经是4.3.1版本，随着时间版本不断在演进，2019年进行了开源，开源后成为OWT（Open WebRTC Toolkit），在Github地址https://github.com/open-webrtc-toolkit/owt-server。

如图是OWT的整体框架，OWT不仅向服务器端提供了非常丰富的功能，也实现了大范围的客户端支持，保证各种流的接入。在服务器端有Streaming、Conferencing、Transcoding、Analytics四大功能，都是在视频端常用的功能。

客户端支持JavaScript、Android、IOS、Windows、Linux系统，保证用户的流可以通过不同的传输协议，例如WebRTC协议、RTSP协议、RTMP、HLS、SIP协议，传统领域应用的传输协议都可以将流接入OWT系统，进行分析，再传输。

同时OWT系统演进很长时间，在可扩展性、分布式部署、还有高可用方面也做了很多工作，产品正在向更完善的方向发展。OWT兼容英特尔的多个平台，让实时分析任务能充分运用硬件资源，从而大大系统提升性能。

关于视频分析架构，如图OWT分为四个大模块，通过接入节点将客户的流接入系统，传输到分析模块，再通过GStreamer pipeline进行视频解码，前处理、推理以及后处理，再编码、推流，返回给扩散节点，通过扩散节点返回客户端，在客户端实时显示。

OWT系统支持英特尔的VCAC-A卡，Movidus VPU以及英特尔各个产品系列。

对使用者来讲，想要通过接口接入流进行分析是一件比较简单的事情。例如IP摄像流通过RTSP 协议接入系统，若用户想要分析该流，如人脸检测、或算法分析等，需要在客户端发送简单的Restful请求指定分析哪一路流。

Management api收到消息之后传递给Conference agent进行Session 管理，通知分析模块，在分析模块进行初始化动作。初始化完成后返回Session控制，通知IP摄像的流接入节点与Analytics建立连接。此时，Streaming agent将流发送给Analytics agent，进行各种算法的分析。若用户希望在浏览器中看到流的分析结果，此时可以将分析后的流扩散给WebRTC节点，再传输给浏览器等待的用户。

若用户想要对流进行录像，可以将分析后的流扩散给Recordign agent，在用户端将分析后的流进行录制。另外，若用户想要将分析好的数据上传到云端，也可以进行导入插件再进行相应操作。

同时，在图中我们可以看到，分析过程是与OWT整套方案协同工作，OWT提供很多控制的API，例如分析、录像、sip calls、从不同的协议接入，如果想要将分析好的流推给RTMP服务器，方案也配有Streaming OUT接口进行推送，也有针对混合流、暂停/继续播放流等操作。

当一路流从其它节点传送到Analytics分析节点后，再送入Gstreamer pipeline中，在pipeline中进行一些操作。例如经过H.264 parse解析，解析后解码，通过videorate针对相应场景的丢帧处理，再传入推理模块，进行推理过程。例如：检测、分类等处理，进行编码，通过appsink传给输出节点。

图中解码过程没有明确表明具体使用哪个API，这些是用户可以自己进行选择的， GStreamer pipeline中有很多丰富的解码接口，例如CPU或GPU解码，大大的提升了解码效率。推理部分在GitHub上有gst-video-analytics提供的检测，分类等插件，使用CPU或VPU进行推理，可以更充分的利用系统的资源。

其中的pipeline构建用户可以自行定制，选择去掉某些步骤重新组合处理流程。

如果有一个分析任务，在OWT中如何实现的呢？

开发者可以使用OWT提供的接口，通过将不同功能的GStreamer plugin组合来实现一个特定分析任务的pipeline。一个分析任务最后被编译成一个动态库，在配置文件里配置算法号以及动态库名来对应分析任务，配置好之后用户通过restful请求开始分析任务时指定相应的算法号以及要分析的流，OWT就会对指定的流进行指定的分析。

若用户想要多个算法分析，只需要构建多个不同的pipeline，再编译成不同的动态库文件，并在配置文件里指定不同的算法号即可在OWT中实现多个算法分析。

对于这一部分的使用说明，在Webrtc hack网站（网址https://webrtchacks.com/accelerated-computer-vision-inside-a-webrtc-media-server-with-intel-owt/）上有一篇比较详尽的文章，可以进行查阅学习。

整个OWT系统演进了很多年，在资源调度方面进行了很多处理，OWT支持依据CPU，GPU，VPU资源使用情况进行任务调度。当部署在多台机器以及多种计算资源的环境下，OWT会收集各个节点上的CPU，GPU以及VPU使用情况，将新来的分析任务根据调度策略分配到相应的节点进行工作。我们提供了几种常用的调度策略，用户可根据实际部署情况对各个模块单独配置不同的策略。

对于HA，当Analytics处于正常状态，IP摄像机的流导入，通过图中最上端一路流程进行录像。分析任务正在进行时，突然出现故障，这时可以被Session Control检测到,。Session Control发现可用节点，将可用节点激活，再将正在分析的流导入该分析节点，继续被中断的分析任务，再传输到Recording节点进行录像。这样就可以在实际场景中实现高可用的过程。

总结

整体方案中分析部分是基于深度学习的方式与OWT相结合，OWT使用GStreamer pipeline简化实时视频分析过程，开发者可以方便地通过组合GStreamer plugin来实现不同的实时分析任务。同时，OWT利用OpenVINO以及OWT本身的调度机制来充分利用计算资源，从而提升整体性能。OWT支持分布式部署，各个功能模块可以快速方便地进行扩展。再加上OWT提供的HA机制，可以保证实时视频分析系统的稳健运行。

英特尔一直在致力于Visual cloud、Computing等基于IA平台的发展，同时也提供了很多开源资源，例如Open VINO、OWT 在GitHub上有相应的开源项目。同时英特尔在客户端也有一些AI的方案，例如WebNN等，未来也将在浏览器上落地，敬请期待。

LiveVideoStackCon 2020 北京

2020年10月31日-11月1日

物联网视频分析 api 开源

0 人点赞