Cloudera数据平台(CDP)是Cloudera的最新大数据产品。Apache HBase和Phoenix作为CDP平台的一部分。这两个组件以3种形态提供:
- 对于本地部署,可用的方式类似于CDH和HDP(在CDP私有云产品中)
- 对于希望自己在AWS和Azure中管理数据库的客户,它可作为CDP公共云DataHub产品的一部分提供(带有操作数据库模板或自定义DataHub部署)。
- 它将在不久的将来作为Cloudera Operational Database(COD)的一部分提供,这是一项完全托管的产品,消除了操作HBase部署的管理开销
Cloudera的Apache HBase客户通常运行无法承担任何停机时间的关键任务应用程序。他们需要一种方法来迁移到新部署,而又不会造成生产中断,或者至少不会造成很小的中断。考虑到这些升级注意事项,尤其是随着即将结束对CDH5和HDP 2的支持,我们开发了Cloudera OpDB复制插件。
许多公司还部署了基于CDH 6、HDP 3和EMR的HBase集群,但是他们希望减少或消除维护HBase集群的运营开销。对于他们来说,Cloudera OpDB复制插件可以使他们迁移到DataHub或COD,而不会造成任何停机或生产中断。
复制插件支持从以下源HBase集群进行复制:
- CDH 5.14
- CDH 6.3
- HDP 2.6.5
- HDP 3.1.5
- EMR 5.28
HBase复制
HBase提供了成熟、功能丰富的复制功能已有近十年的历史。复制是HBase最受欢迎的功能之一,因为它提供了自动灾难恢复(DR)解决方案,支持数据迁移,支持工作负载分区和/或通过与Apache Solr集成来支持基于搜索的二级索引。《HBase参考指南》对HBase复制的工作原理以及如何配置复制进行了详细讨论,并在许多Cloudera Blog文章中进行了讨论。如今,它支持许多拓扑,包括:
- 扇入
- 扇出
- 循环
- 双向
可以在名称空间(即数据库)或表级别配置HBase复制。尽管本质上接近实时,但可以将其配置为最终一致或时间轴一致。
Cloudera OpDB复制插件仅支持由部署在AWS或Azure中的CDP DataHub集群或COD数据库提供的目标集群。
建立信任
迄今为止,HBase复制要求所有参与的集群具有相同的安全性定义,换句话说,所有集群必须没有启用kerberos安全性(身份验证配置设置为simple),或者所有集群都必须启用kerberos的安全性(身份验证配置设置为)。
使用Kerberos时,所有集群的kerberos主体必须属于同一领域,或者,如果在不同领域中,则它们之间必须相互信任(通常称为跨领域身份验证)。
在大多数组织中,使用Kerberos配置跨域信任是有问题的,因为公司安全策略通常会禁止使用它。为了解决此问题,Cloudera OpDB复制插件将HBase复制扩展为使用替代身份验证方法,从而实现了跨安全域的复制。复制插件允许复制
- 跨多个Kerberos域,无需跨域信任
- 从安全集群复制到不安全集群,以及
- 从不安全的集群复制到安全的集群。
要为没有安全配置或使用Kerberos保护的集群从CDP集群建立信任,复制插件使用共享机密实现新的身份验证机制,该共享机密是使用提供的工具创建的,并存储在源集群和目标集群中。
结论
复制是用于为HBase实施灾难恢复和数据中心(DC)迁移解决方案的宝贵工具。它有一些警告,如在处理集群的安全配置时所示。随着CDH 5和HDP 2生命周期即将结束,将数据从这些旧平台迁移到CDP的能力势在必行。
对于具有基于HDP3,CDH6和EMR 5.28的HBase部署的客户,此插件使这些客户能够无缝地采用完全托管的HBase解决方案,并大大减少了管理HBase的运营开销。
如果您有兴趣在您的环境中部署Cloudera OpDB复制插件,请与您的Cloudera客户团队联系。
原文作者:Krishna Maheshwari& Wellington Chevreuil & Josh Elser
原文链接:https://blog.cloudera.com/cloudera-replication-plugin-enables-x-platform-replication-for-apache-hbase/