今天咱来聊一聊 Ambari 如何集成 Apache Hadoop 哈,自从 cloudera 公司将 hortonworks 公司收购后,hdp 就不迭代更新了,这对 Apache Ambari 也产生了很大影响,毕竟 Ambari 与 hdp 耦合性很强。
hdp 不会有新版本了,这意味着在不久的将来,hdp 就会由于版本太低被抛弃,所以一些自研大数据平台产品的公司,急需一个方案来解决 hdp 版本不更新的问题。
除了 Apache Ambari,目前还没有很成熟的开源的大数据管理系统,在这方面,Ambari 就是大哥。这时候你可能会想到 cloudera manager cdh,虽然他也是很成熟的大数据管理系统,可惜,并不开源。
Ambari 是 Apache 顶级项目,支持二次开发,也支持自定义服务集成到 Ambari 中。所以我推荐的方案是 Ambari 集成 Apache Hadoop 服务来代替 hdp,甚至我们都可以创建一个新的 stack 栈,把 hdp 改名。
Ambari 集成 Apache Hadoop 服务可是一个很复杂,难度高的工作呢!你如果要集成 Apache Hadoop,你需要掌握 Apache Hadoop 各服务的手动安装部署细节。另外,我们不需要从 0 开始写集成 Apache Hadoop 的代码,可以借鉴 Ambari 集成 hdp 各服务的源码,基于 hdp 集成服务源码二次修改,改成部署 Apache Hadoop 服务的逻辑,改动配置等等,然后安装测试修改报错,所以你还需要掌握 Ambari 自定义服务集成相关知识,方便读懂 HDP 集成源码并知道如何修改。
其实,如果你梳理通一个服务的集成与替换,其他服务也都是这通用套路,变化的是每个 hadoop 服务安装部署步骤不一样罢了。
还有,部署 Apache Hadoop 服务有两种方式,以 CentOS 系统为例,有 rpm 包部署,也有二进制 tar.gz 的方式部署。两种方式都可以,HDP 选择的是 rpm 包部署,但tar.gz 的方式更灵活,也同样有很多人喜欢该方式。
很多小伙伴都知道,我已将 「Ambari 自定义服务集成」的相关知识有体系的梳理了一遍,录制了实战课程(示例源码 笔记 视频),目标就是输出「Ambari 自定义服务集成」所有的相关知识,为学习的小伙伴提供 Ambari 集成服务提供方法,实战课程适合以下人群:
- 集成大数据相关其他服务,比如:Elasticsearch、Kylin、Flink、DolphinScheduler 等
- 集成公司自研的服务,比如 spring boot 工程、python、go 语言工程等
- 为 HDP 各组件升级指定版本
- 将 HDP 替换为 Apache Hadoop
理论上来说,任何服务都可以集成到 Ambari,实现页面可视化安装部署,非常方便。
以下是课程目录: