最新 最热

详解Apache Hudi如何配置各种类型分区

Apache Hudi支持多种分区方式数据集,如多级分区、单分区、时间日期分区、无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解Hudi如何配置何种类型分区。...

2021-04-13
0

Apache Hudi重磅RFC解读之存量表高效迁移机制

随着Apache Hudi变得越来越流行,一个挑战就是用户如何将存量的历史表迁移到Apache Hudi,Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。为利用Hudi的upsert和增量拉取能力,用户需要重写整个数...

2021-04-13
0

特性速览 | Apache Hudi 0.5.3版本正式发布

默认情况下将为delta-streamer和spark datasource写入启用Embedded Timeline Server。在此版本之前,此功能处于实验模式,embeddedTimeline Server在Spark Driver中缓存文件列表,并提供Restful接口给Spark Writer任务调用...

2021-04-13
0

填坑!线上Presto查询Hudi表异常排查

线上用户反馈使用Presto查询Hudi表出现错误,而将Hudi表的文件单独创建parquet类型表时查询无任何问题,关键报错信息如下

2021-04-13
0

Hive入门第二篇之hive的安装部署(详细教程)

第一种方式: derby版hive (不推荐)默认使用derby(数据库)维护元数据此版本,每个节点自己独立维护一个derby数据库,所以在节点1添加了数据库,在节点2 无法查看第一步:查看...

2021-04-13
0

Hive第一篇详细介绍(小白也看得懂_入门级别)

​ Hive是一个语句Hadoop的一个数据仓库工具,是将结构化数据文件映射成为一个数据表,并提供类SQL的查询功能。

2021-04-13
0

Hive启动时 show databases; 报错

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata...

2021-04-13
0

2021数仓面试笔记

并行执行模式   推测执行模式   数据倾斜时开启负载均衡模式   map缓冲区大小   溢写磁盘百分比   开启combanier提前预聚合   设置reduce拉取数据的内存缓冲区大小   开启kryo序列化   使用Snappy压...

2021-04-13
1

Hive参数调优

大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可...

2021-04-13
1

Hive面试题

1、什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)2、Hive的意义(最初研发的原因)避免了去写MapReduce,提供快速开发的能力,减少开发人员的学习成本。 3...

2021-04-13
0