运营数据库系列之可访问性

2020-04-21 16:23:24 浏览数 (1)

这篇博客文章是CDP中Cloudera的运营数据库(OpDB)系列文章的一部分。每篇文章都会详细介绍新功能。从该系列的开头开始,请参阅CDP 中的 Operational Database

Cloudera的OpDB提供了一组丰富的功能来存储和访问数据。在此博客文章中,我们将研究OpDB的可访问性功能,以及如何利用这些功能来访问数据。

分布和切片(Sharding)

Cloudera 操作数据库( OpDB 是横向扩展的数据库管理系统(DBMS),旨在将其线性扩展至PB级数据。像所有DBMS一样,横向扩展是通过切片实现的。支持两种不同的切片策略:

• 自动切片

• 预定义切片

无论采用哪种方法,都有一些API可以基于散列、值的范围以及两者的组合来启用切片。

自动切片

启用自动切片后,表将在整个集群中动态分布,并且当切片大小超过可配置的限制时,表会自动拆分并在集群中的服务器之间移动。

一个表段在中间键处被分为两部分,从而创建了两个大致相等的一半,并且这两个一半可以由不同的服务器提供服务。

无论与OpDB一起使用的网络(WAN或本地)如何,都将应用自动切片。可以将群集设置为跨越WAN,在这种情况下,切片和数据移动将在WAN上进行,而数据丢失为零。

可以将系统配置为了解哪个节点位于哪个数据中心,这可以为切片提供额外的弹性,因为切片的副本可以分布在多个数据中心中。

预定义切片

可以基于策略,通常以租户特定的方式将碎片限制为群集中节点的特定子集。这样就可以实施基于地理的策略。然后,可以在群集之间复制表并通过策略进行设置,以确保将表及其关联切片的复制限制在所需的地理位置。

Cloudera的OpDB为数据主权提供本地支持。如果群集跨越多个国家/地区,则可以将区域服务器组与HDFS Rack隔离配置一起用于锚定特定国家/地区中的数据。

查询

Cloudera提供了针对不同类型的用例进行了优化的三个查询引擎,包括操作和分析用例以及NoSQL接口,以在各种操作和数据仓库工作负载中实现优化的性能。这样就可以跨多个切片执行查询和数据联接。

Cloudera的OpDB提供了本机OLTP SQL引擎,该引擎支持查询多个数据和对象模型,包括查询和跨它们的联接。我们的两个OLAP查询引擎可用于映射驻留在我们的OpDB(或其他位置)中的外部表,并可在它们之间进行查询或联接,以进行典型的数据仓库分析。

数据整合工具

Cloudera提供了多种工具来实现与数据仓库和联合查询处理的集成。

例如:

• 由Flink、Spark、Hive和MapReduce提供批量导出到数据仓库的功能

• Nifi提供将导出流传输到数据仓库

• Phoenix、Impala和Hive提供了我们OpDB中的现场数据查询

• Hive提供了跨我们的OpDB、数据仓库解决方案和第三方数据仓库解决方案的联合查询处理

外部数据支持

Cloudera的OpDB包含许多Hadoop工具,并与大多数Hadoop生态系统集成。

我们的OpDB提供NoSQL和SQL接口。该接口没有任何限制,并且在Hadoop社区中得到很好的支持。

移动的OpDB

MiNiFi可以在边缘的便携式设备上使用,并提供与OpDB的数据连接。

查询编辑器HUE可以在移动或便携式设备上运行。

基于标准的连接

除了直接API访问我们的数据存储和工具外,Cloudera还提供了通过SQL引擎提供的JDBC和ODBC驱动程序。

原文来源:https://blog.cloudera.com/operational-database-accessibility/

原文作者:Liliana Kadar

0 人点赞