最新 最热

Spark整合Ray思路漫谈(2)

首先,大家可以理解为k8s已经解决一切了,我们spark,ray都跑在K8s上。但是,如果我们希望一个spark 是实例多进程跑的时候,我们并不希望是像传统的那种方式,所有的节点都跑在K8s上,而是将executor部分放到yarn cluster. 在我们...

2022-07-21
1

是时候改变你数仓的增量同步方案了

经过一段时间的演化,spark-binlog,delta-plus慢慢进入正轨。spark-binlog可以将MySQL binlog作为标准的Spark数据源来使用,目前支持insert/update/delete 三种事件的捕捉。 delta-plus则是对Delta Lake的一个增强库,譬如...

2022-07-21
1

Delta Lake为什么不存在Hive覆盖写的问题

当你使用Spark对hive表进行Overwrite的时候,基本流程是删除metastore的表信息,删除数据,写_temp目录,移动_temp目录数据,最后写入表信息(我描述的这个流程不一定完全对,熟悉hive的大大欢迎指正)。这个过程可能很漫长,比如我们...

2022-07-21
1

Delta Lake的竞争对手Hudi(Alpha版)

Delta Lake肯定不是第一个数据湖产品。对于存储这块,CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码,理解上算不得成熟,所以这篇文章我加了...

2022-07-21
1

【安全公告】Apache Spark shell 命令注入漏洞(CVE-2022-33891)风险通告

Apache Spark于 7 月 18 日发布了最新的安全公告,其中包含一个 shell 命令注入漏洞(CVE-2022-33891)。

2022-07-20
1

Windows下搭建Spark+Hadoop开发环境

1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装)

2022-07-20
1

sparkr基本操作1

libpath <- c(libpath, “/home/r/spark/spark-1.4.0-bin-hadoop2.4/R/lib”)

2022-07-20
1

Spark 的性能调优

下面这些关于 Spark 的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。

2022-07-19
1

三次性能优化经历

最近在做一些性能优化工作,回想起工作这些年来,参与过的三次集中性能优化,每次都得折腾少则一个月,多则半年。这些内容既是不同视角、不同思路的比较,也是挺有趣的工作经历。...

2022-07-19
1

Notes: Spark metrics

Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.

2022-07-19
1