最新 最热

hudi中的写操作

在本节中,我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改,以及如何使用Hudi数据源通过upserts加速大型Spark作业。 然后可以使用各种查询引擎查询这些表。...

2022-01-19
1

Hudi:Apache Hadoop上的增量处理框架

随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而,为了实现这一点,这需要在HDFS中实现高效且低延迟的数据摄取及...

2022-01-19
1

datafaker — 测试数据生成工具

datafaker是一个大批量测试数据和流测试数据生成工具,兼容python2.7和python3.4+。

2022-01-18
1

MySQL存储引擎

数据库存储引擎是数据库管理系统用于从数据库进行增删改查数据的底层软件组织。不同存储引擎提供不同的存储机制、索引技巧、锁定水平等功能。

2022-01-18
1

hive metastore配置kerberos认证

hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是不需要进行认证就可以访问的。所以本文基于大数据组件中流行的kerberos认证方...

2022-01-18
1

用ranger对hive metastore 进行授权管理

hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对hiveserver2的授权,所以本文针对hive standalone metastore独立服务使用ranger对...

2022-01-15
1

Hive重点难点:Hive原理&优化&面试

Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似...

2022-01-13
1

用户画像 | 标签数据存储之Hive真实应用

本期内容主要介绍使用Hive作为数据仓库的应用场景时,相应的库表结构如何设计。

2022-01-13
1

Hadoop 生态里,为什么 Hive 活下来了?

Apache Hive 在 2010 年作为 Hadoop 生态系统的一部分崭露头角,当时 Hadoop 是一种新颖而创新的大数据分析方法。Hive 的功能就是实现 Hadoop 的 SQL 接口。它的架构包括两个主要服务:一是查询引擎:负责执行 SQL 语句;二...

2022-01-13
1

大数据开发轻量级入门方案

经过这么多年的发展,大数据的技术正处于群雄逐鹿阶段 ,面对这么多技术框架,我们得学会做减法。

2022-01-10
1