最新 最热

「EMR 开发指南」之通过 Java 连接 Hivesever2

Hive 中集成了 Thrift 服务。Thrift 是 Facebook 开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发。Hive 的 HiveServer2 就是基于 Thrift 的,所以能让不同的语言如 Java、Python 来调用 Hive 的接口。对于 J...

2023-11-21
2

Hive 基础操作

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将S...

2023-11-20
2

「EMR 运维指南」之 HiveServer2 启用 Custom 鉴权

HiveServer2 服务默认不启用鉴权功能,这样的话随意输入密码都能连接上,容易造成安全隐患,下面讲解下如何配置Hiveserver2 的 Custom 鉴权。这里已经编写好鉴权类代码,所以这里侧重讲配置,代码 Jar 包可以通过私信提供。...

2023-11-20
3

Hive 跨文件系统存储数据

Hive指定表的存储路径: hive可以在创建表的时候通过location指定表的存储路径,若不指定localtion则文件默认存储在hive-site.xml配置文件中hive.metastore.warehouse.dir配置项指向的路径。 此外,Hive的分区表还可以指定...

2023-11-20
3

Hive函数

**CONCAT_WS(separator, str1, str2,...):**多字符串拼接

2023-11-19
1

0910-Apache Hive 4.x与Iceberg分支和标签

对于复杂的快照生命周期管理,Iceberg支持分支(branch)和标签(tag),这些分支和标签是对具有自己独立生命周期的快照的命名引用,此生命周期由分支和标签级别保留策略控制。分支是快照的独立谱系(lineage),指向谱系的头部。...

2023-11-16
2

hive读写ES集群及Role权限控制

1.下载elasticsearch-hadoop-hive-xxx.jar包,版本要与ES集群对应

2023-11-15
5

Spark大数据集群日常开发过程遇到的异常及解决思路汇总

我曾经在Spark大数据开发过程当中,遇到过不少问题,这些问题及解决思路都有记录下来。有道是好记性不如烂笔头,当这些错误和解决思路被记录下来后,下次再遇到时,就能根据以前的坑很快做出回应,当然,若是他人也遇到相应的问题,...

2023-11-13
1

详解数据仓库之拉链表(原理、设计以及在Hive中的实现)

最近发现一本好书,读完感觉讲的非常好,首先安利给大家,国内第一本系统讲解数据血缘的书!点赞!

2023-11-13
3

Atlas自动感知hivesql及sparksql血缘实践

这周真的是忙出天际,趁这会儿下班,赶紧补补文档,之前有说要整整血缘这块儿,源码都看好了,但没有展示的地方。

2023-11-07
1