spark_字节宝

Spark SQL发展史

Spark 1.0版本开始，推出了Spark SQL。其实最早使用的，都是Hadoop自己的Hive查询引擎；但是后来Spark提供了Shark；再后来Shark被淘汰，推出了Spark SQL。Shark的性能比Hive就要高出一个数量级，而Spark SQL的性能又比Shark高出...

spark hive 存储数据库数据分析

2023-02-25

Broadcast Variable

Spark提供的Broadcast Variable，是只读的。并且在每个节点上只会有一份副本，而不会为每个task都拷贝一份副本。因此其最大作用，就是减少变量到各个节点的网络传输消耗，以及在各个节点上的内存消耗。此外，spark自己内部也使...

编程算法 spark

2023-02-25

RDD持久化原理

Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对...

缓存 spark

2023-02-25

spark数据保存到mysql 通过Azkaban提交集群任务

toMysql.job 和 sparkToMysql.sh压缩上传Azkaban定时执行

jar bash bash指令 spark 数据库

2023-02-25

Spark全分布部署和HA

基于Zookeeper的Standby Masters ZooKeeper提供了一个Leader Election机制，利用这个机制可以保证虽然集群存在多个Master，但是只有一个是Active的，其他的都是Standby。当Active的Master出现故障时，另外的一个Standby Mast...

bash bash指令 zookeeper spark

2023-02-25