最新 最热

用户自定义函数UDAF

Hive UDAF有两种实现方式,可以继承UDAF或者AbstractGenericUDAFResolver类,也可以实现GenericUDAFResolver2接口。 其中直接继承UDAF类,功能实现较为简单,但在运行时使用Hive反射机制,导致性能有损失。...

2021-09-10
0

用户自定义函数UDF

Hive支持的函数除了内置函数,允许编写用户自定义函数(User Define Function)来扩充函数的功能。

2021-09-10
0

表的高级操作:倾斜表&事务表

对于一列或多列中出现倾斜值的表,可以创建倾斜表(Skewed Tables)来提升性能。比如,表中的key字段所包含的数据中,有50%为字符串”1“,那么这种就属于明显的倾斜现象;于是在对key字段进行处理时,倾斜数据会消耗较多的时间。...

2021-09-10
0

表的高级操作:分区

表在存储时,可以进行分区操作,将数据按分区键的列值存储在表目录的子目录中,子目录名=“分区键=键值”。

2021-09-10
0

SQL DDL:存储格式&压缩

Hive创建表时默认使用的格式为TextFile,当然内置的存储格式除了TextFile,还有sequencefile、rcfile、ORC、Parquet、Avro。

2021-09-10
0

SQL DDL:基本操作

Hive DDL根据操作对象的不同可分为:数据库操作、表的基本操作、表的高级操作、函数操作。

2021-09-10
0

表存储格式&数据类型

Hive支持的表类型,或者称为存储格式有:TextFile、SequenceFile、RCFile、ORC、Parquet、AVRO。

2021-09-10
0

大数据数据仓库技术

在已经存在分布式计算引擎MapReduce的情况下,为什么会诞生Hive这样的产品?其实主要还是因为易用性问题。虽然MapReduce提供了分布式开发的能力,但它毕竟是一个通用计算引擎,在特定且相对成熟的垂直场景中,易用性就比较差了...

2021-09-10
0

Hive On Spark搭建报错:Failed to create Spark client for Spark session xx: ..TimeoutException

既然是连接超时,可能有两种情况。一种是配置正常,但网络情况太差,响应还未返回给Hive就报错了。这种情况下,把请求等待时间改大就行。

2021-09-10
0

spark submit读写hudi

数据导入:cat batch_1.json | kafkacat -b localhost:9092 -t stock_ticks -P

2021-09-10
0