最新 最热

hadoop基本介绍

Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群进行分布式处理大型数据集。 它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。 与依赖硬件提供高可用性不同,库本身的设计目...

2022-01-19
1

hudi 0.10.0-SNAPSHOT适配hdp 3.1.5编译

hive-jdbc依赖的hadoop-yarn-server-resourcemanager版本为SNAPSHOT,在仓库中都找不到,将其修改为使用项目指定的版本。

2022-01-19
1

hive-3.1.2安装以及使用tez作为执行引擎指南

3 复制hive-default.xml.template,得到一份hive-site.xml

2022-01-19
1

apache tez 编译安装与验证

Apache Tez是构建于Apache Hadoop YARN上,基于有向无环图进行数据处理的框架。

2022-01-19
1

使用prometheus监控hudi相关指标

首先请安装好prometheus、pushgateway以及grafana,如果还没安装请参考:

2022-01-19
1

使用flink插入数据到hudi数据湖初探

本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成,请确保hadoop集群正常启动。

2022-01-19
1

使用spark3操作hudi数据湖初探

本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成,请确保hadoop集群正常启动。

2022-01-19
1

Flink问题汇总

将hadoop 3.2.1中自带的guava-27.0-jre.jar拷贝到flink的lib目录下即可。

2022-01-18
1

zeppelin高可用部署

这边所说的zeppelin高可用不是传统意义上的HA模式,而是利用统一的配置文件,在一个zeppelin server挂掉之后,在另一个zeppelin server从统一配置文件再恢复到原有作业模式。在集群中,同时仅存在一个zeppelin server服务。...

2022-01-18
0

吐血整理:常用的大数据采集工具,你不可不知

大数据的来源多种多样,在大数据时代背景下,如何从大数据中采集出有用的信息是大数据发展的最关键因素。大数据采集是大数据产业的基石,大数据采集阶段的工作是大数据的核心技术之一。为了高效采集大数据,依据采集环境及数...

2022-01-13
1