在上一篇文章中,我们从安装在智能车辆上的传感器收集数据,并描述了ROS嵌入式应用程序,以准备用于训练机器学习(ML)模型的数据。本文展示了从边缘到云中数据湖的数据流。数据采用图像的形式以及与我们的自动驾驶汽车收集的每个图像相关的元数据(例如,IMU信息,转向角,位置)。我们将数据流定向到ClouderaDistribution Hadoop(CDH)集群,在该集群中将存储和整理数据以训练模型。
仔细研究Cloudera DataFlow
Cloudera Edge管理
在当今行业中,生成数据的边缘设备的种类不断多样化,因此需要编写跨各种边缘设备的流。还需要监视企业中所有设备上的这些流,但不必为每个设备编写自定义应用程序。ClouderaEdge Management(CEM)提供了一个界面来创作流并轻松对其进行监视。CEM的主要组件是Edge FlowManager(EFM)和ApacheNiFi MiNiFi(MiNiFi)。边缘代理MiNiFi可以部署到数百万个边缘设备上以收集数据。EFM UI管理,控制和监视MiNiFi代理,它使我们能够将各种模型精细地部署到数千个不同的边缘设备。
边缘流部署
Cloudera流管理
Cloudera Flow Management (CFM)是一种无代码数据提取和数据流管理工具,由Apache NiFi支持,用于构建企业数据流。借助NiFi的图形用户界面和300多个处理器,CFM允许您构建高度可扩展的数据流解决方案。NiFi允许开发人员从几乎任何数据源(在我们的例子中是从传感器收集数据的ROS应用程序)流式传输数据,丰富和过滤该数据,并将处理后的数据加载到几乎任何数据存储,流处理或分布式存储系统中。
建立简单的云数据管道
该应用程序的数据管道建立在云中的EC2实例上,首先是MiNiFi C 代理将数据推送到CDF上的NiFi,最后将数据发送到CDH上的Hadoop分布式文件系统(HDFS)。
NiFi流
CFM用于流摄取,并使用两个输入端口(1)构建,一个用于摄取CSV数据,另一个用于摄取左、中和右摄像机的摄像机图像数据。此数据已传输到两个PutHDFS处理器,一个处理器用于将CSV文件加载到HDFS(2),另一个用于将所有图像文件加载到HDFS(3)。
输入端口定义
EFM的图形用户界面使我们能够通过简单地单击“发布”按钮来轻松部署我们创建的流程:
一旦将流程发布到MiNiFi代理上并启动了NiFi的输入端口,数据便开始流动并可以保存在CDH上。我们可以确保数据正在使用HUE检查文件。
HUE中的HDFS文件
一旦我们确认数据已从MiNiFi代理流到云数据湖,就可以将重点转移到将这些数据转换为可操作的情报上。
结论
本文介绍了Cloudera DataFlow是什么,以及在构建从边缘到AI的桥梁时如何将其组件作为必不可少的工具。在本系列的最后一篇文章中,我们将回顾Cloudera数据科学工作台(CDSW)的好处,并使用它来构建可使用Cloudera DataFlow(CDF)部署回我们的汽车的模型。通过完成Edge2AI自动驾驶汽车教程,了解有关Cloudera自动驾驶汽车以及如何在仿真中构建自己的汽车的更多信息。
来源:https://blog.cloudera.com/edge2ai-autonomous-car-building-an-edge-to-ai-data-pipeline-2-of-3/