磐创AI分享
作者 | Sachin Khode
编译 | Flin
来源 |medium
在过去的几年里,深度学习已经成为人工智能领域发展最快的领域之一。它已经取得了显著的成果,特别是在计算机视觉领域。
例如,自动驾驶汽车,使计算机用接近人类的能力来识别物体。OpenCV的评价非常高,因为它包含了最先进的计算机视觉和机器学习算法。
当深度学习技术部署到机器和物联网设备中时,你将运行预先训练的深度学习模型。世界级的计算机视觉软件和运行深度学习模型的能力,都是在廉价的硬件上实现的。
OpenCV是一个开源的计算机视觉和机器学习软件库。它可能是目前最流行的计算机视觉软件。该库有超过2500个优化算法,其中包括经典和最先进的计算机视觉和机器学习算法。这些算法可以用来检测和识别人脸,识别物体,对视频中的人类行为进行分类,跟踪摄像机运动和移动物体等。
OpenCV是用C 编写的。你还可以为OpenCV使用Python包装器。OpenCV还具有与Java和MATLAB的接口,并且受Windows、Linux、Android和macos的支持。
OpenCV神奇的深度学习
OpenCV的深度学习模块被称为DNN。重要的是要理解DNN模型并不是一个成熟的深度学习框架。
我们无法训练任何深度学习网络。没有反向传播,所以没有学习发生。所以我们可以获取一个输入数据,通过之前训练过的深度神经网络模型,输出结果。
这就是所谓的推理。在深度学习术语中,这意味着只有前向传播。
现在如果你只有一个前向传播,这会使得代码更简单,深度学习网络的安装和组装速度更快,在CPU上也足够快。DNN模块的OpenCV支持Caffe、TensorFlow、Torch、Darknet和ONNX格式的模型。由于OpenCV的深度神经网络实现不依赖于一个框架,因此没有该框架的限制。
另一个优点是,由于这是模型的内部表示,因此OpenCV开发人员可以有办法来优化和加速代码。随着OpenCV实现了自己的深度学习实现,这将外部依赖性降低到最低。一个简单的推理机将简单地通过网络传递输入数据并输出结果。
然而,有许多优化可以执行,使推理速度更快。例如,一个高效的推理机可以做一些事情,比如删除神经网络中未激活的部分,或者将多个层合并到一个单独的计算步骤中。如果硬件支持16位浮点运算,其速度通常是32位版本的两倍,则推理机可以利用这一点来加快处理速度,而不会造成或几乎不损失精度。
现在在物联网和边缘设备的世界里,世界上大多数推理都是在CPU上完成的。你不会在你的监控摄像头里放一个几百美元的GPU。这就是OpensCV的深度学习模块非常适合的原因。你只需运行一个自主选择的深度学习模型作为推理机。
英特尔为此投入了大量资金,并发布了OpenVINO工具包。OpenVINO或openvisualinferencing and Neural network Optimization,简称OpenVINO,旨在加速神经网络在图像分类和目标检测等任务中的速度。
那么背后发生了什么呢?
加载模型后,它们将转换为OpenCV中的内部表示形式,这与Caffe非常相似。
如果我们转到OpenCV网站,我们可以看到它支持几个基本的神经网络层。所以可以看到卷积和反褶积。你有了池化层,有了激活函数,比如Tanh、ReLU、Sigmoid和Softmax,还有Reshape, Flatten, Slice, 和Split等函数。
在opencv的Deep Learning wiki(https://github.com/opencv/opencv/wiki/Deep-Learning-in-OpenCV) 中,你可以看到对著名的神经网络架构的支持,比如AlexNet、GoogleNet、VGG和ResNet等。DNN模块具有可用的图像分类、目标检测和语义分割等模型。
现在,如果每个模型都被翻译成一个内部表示,我们如何确保在翻译过程中没有丢失一些东西呢?OpenCV已经发布了一些测试结果,表明在准确性上,使用DNN模块和ResNet 50和实际结果ResNet 50之间没有任何区别。这意味着无论使用OpenCV的DNN模块还是原始的体系结构,都将得到相同的结果。
参考:
https://en.wikipedia.org/wiki/OpenCV
https://github.com/opencv/opencv/wiki/Deep-Learning-in-OpenCV
原文链接:https://medium.com/dataseries/how-cool-is-opencv-85b6465361bc