最新 最热

【HDFS】集群高可用

HDFS单点架构存在一些问题,首先是NameNode内存受限,因为数据的元数据信息全部保存在NameNode内存中。如果数据量足够庞大,可能会将NameNode内存占满,这种情况下会导致HDFS的扩展性上限。...

2021-09-10
1

【HDFS】分布式文件系统HDFS

HDFS全称Hadoop Distributed File System,Hadoop分布式文件系统。它是2003年10月Google发表的GFS(Google File System)论文的开源实现,之后成为Apache Hadoop的核心子项目,用于解决海量数据存储问题。它在开源大数据技术体...

2021-09-10
1

【简介】大数据技术综述

首先,在学习大数据之前,需要了解什么是大数据?它是如何诞生的?它有哪些应用场景?只有了解了这些,才能窥视大数据的技术全貌。一个技术的诞生,是顺应时代的,是用于解决某些问题的,它的发展也一定是有内在逻辑的。接下来,一起去看...

2021-09-10
1

用户自定义函数UDAF

Hive UDAF有两种实现方式,可以继承UDAF或者AbstractGenericUDAFResolver类,也可以实现GenericUDAFResolver2接口。 其中直接继承UDAF类,功能实现较为简单,但在运行时使用Hive反射机制,导致性能有损失。...

2021-09-10
1

用户自定义函数UDF

Hive支持的函数除了内置函数,允许编写用户自定义函数(User Define Function)来扩充函数的功能。

2021-09-10
1

表存储格式&数据类型

Hive支持的表类型,或者称为存储格式有:TextFile、SequenceFile、RCFile、ORC、Parquet、AVRO。

2021-09-10
1

大数据数据仓库技术

在已经存在分布式计算引擎MapReduce的情况下,为什么会诞生Hive这样的产品?其实主要还是因为易用性问题。虽然MapReduce提供了分布式开发的能力,但它毕竟是一个通用计算引擎,在特定且相对成熟的垂直场景中,易用性就比较差了...

2021-09-10
1

【单点】每日突破,MapReduce序列化

Writable实现了WritableComparable接口,间接继承了Writable, Comparable类,实现了序列化、排序的功能。而这两个功能,在MapReduce中非常重要,排序是MapTask、ReduceTask默认操作,在集群中进行数据传输时要进行序列化。...

2021-09-10
1

理解大数据,可以换一个角度

一提到大数据,大多数技术人可能会想到它的4V特征:数据量、速度、多样性、价值。但同时也会想到它庞大的技术生态圈——大数据产品的数量非常丰富。...

2021-09-10
1

spark submit读写hudi

数据导入:cat batch_1.json | kafkacat -b localhost:9092 -t stock_ticks -P

2021-09-10
1