在CDP上使用NiFi、Kafka和HBase构建可扩展流程

2020-08-07 01:14:32 浏览数 (1)

Navistar 是全球领先的商用卡车制造商。拥有350,000辆车的车队,计划外的维护和车辆故障会造成业务持续中断。Navistar需要一个诊断平台,该平台将帮助他们预测何时需要维修车辆从而最大程度地减少停机时间。这个平台需要能够收集、分析和服务来自车队中每辆车的70多种远程信息处理和传感器数据馈送,包括测量发动机性能、冷却液温度、卡车速度和制动器磨损的数据。Navistar求助于Cloudera,以帮助构建名为OnCommand®Connection的IoT的远程诊断平台,以监控其车辆的健康状况并增加车辆的正常运行时间。

该博客演示了如何使用类似技术来解决范围更小的问题,但与Navistar面临的问题类似。数据是从经过高度修改的高性能Corvette(请参见图1)中提取的,显示了从外部源加载数据,使用Apache NiFi 对其进行格式化,通过Apache Kafka 将其推送到流源以及使用以下方法存储数据的步骤。并使用Apache HBase 进行有关的其他分析。

图1. 2008年克尔维特(Corvette)与改进的6.8升发动机

对于此特定示例,所讨论的Corvette已更换了所有原始的原厂发动机组件,而采用了性能更高的零件。发动机被拆下,壳体打孔,更换了曲轴和凸轮轴,并安装了新的活塞和连杆,力争达到约600马力的目标(见图2)。为了使新的引擎配置正常运行,引擎的软件进行了全面检修。当按下油门变得更加剧烈时,意想不到的结果是该车的原始诊断和错误系统不再准确,因此必须禁用。

图2.使用所有新的闪亮内部零件进行引擎中间重建

为了捕获和分析Corvette的传感器数据,需要一条路径,使数据从汽车流入替代的分析和诊断平台。第一步是将便携式计算机连接到Corvette的诊断端口(参见图3),以将传感器数据导入基于云的存储位置。S3用于该项目。

图3.笔记本电脑通过USB连接到诊断端口

下一步是使用数据 多功能Cloudera Data Platform CDP <a href="https://www.cloudera.com/products/discover-cloudera-data-platform.html" l="" "?internal_keyplay="CDP&internal_campaign=VideoTour&cid=VT&internal_link=h09-A-Watchnow"">) 来访问将数据移至最终存储目的地进行进一步分析所需的服务。使用CDP Public Cloud ,建立了3个Data Hub,每个Data Hub都托管一组预先打包的开源服务(请参见图4):

• 第一个设置是NiFi,该服务旨在自动执行和管理数据流。NiFi用于将Corvette的数据导入、格式化和从源移动到其最终存储点。

• 下一步是设置Kafka,这是一种实时流服务,可将大量数据作为流提供。Kafka提供了对数据进行流处理的功能,同时还允许其他用户选择订阅数据流。在此示例中,没有任何订户。但是,这是一个重要的概念,值得对如何设置进行演示。

• 最终设置是HBase,这是一个可伸缩的、面向列的操作数据库,可提供实时的读/写访问。将数据导入HBase后,Phoenix将用于查询和检索数据。

图4. Corvette从源到查询的数据流程图。

使用CDP构建诊断平台以监视Corvette的健康和性能是一项成功的练习。现在,使用NiFi和Kafka将传感器数据格式化并将其流式传输到HBase中,无论数据集增长多少,都可以执行高级数据工程和处理。

1. 下一步

要查看所有这些操作,请参见下面的链接,其中显示了一些不同的来源,其中显示了创建的过程。

• 视频 –如果您想了解并了解其构建方式,请观看5分钟的快速视频,该视频显示运行NiFi,Kafka和HBase的CDP的实时导航。

• 教程 –如果您希望按照自己的节奏进行操作,请查看详细的演练,其中包括屏幕截图和逐行说明以了解如何进行设置。

• 聚会 -如果您想直接与Cloudera的专家甚至是此Corvette的拥有者交谈,请加入虚拟聚会以观看他的现场演示。最后会有时间进行直接问答。

• CDP 用户页面 –要了解为用户构建的其他CDP资源,包括其他视频,教程,博客和事件,请单击链接。

原文链接:https://blog.cloudera.com/building-a-scalable-process-using-nifi-kafka-and-hbase-on-cdp/

作者:Tui Leauanae

0 人点赞