首先,大家可以理解为k8s已经解决一切了,我们spark,ray都跑在K8s上。但是,如果我们希望一个spark 是实例多进程跑的时候,我们并不希望是像传统的那种方式,所有的节点都跑在K8s上,而是将executor部分放到yarn cluster. 在我们...
经过一段时间的演化,spark-binlog,delta-plus慢慢进入正轨。spark-binlog可以将MySQL binlog作为标准的Spark数据源来使用,目前支持insert/update/delete 三种事件的捕捉。 delta-plus则是对Delta Lake的一个增强库,譬如...
当你使用Spark对hive表进行Overwrite的时候,基本流程是删除metastore的表信息,删除数据,写_temp目录,移动_temp目录数据,最后写入表信息(我描述的这个流程不一定完全对,熟悉hive的大大欢迎指正)。这个过程可能很漫长,比如我们...
Delta Lake肯定不是第一个数据湖产品。对于存储这块,CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码,理解上算不得成熟,所以这篇文章我加了...
Apache Spark于 7 月 18 日发布了最新的安全公告,其中包含一个 shell 命令注入漏洞(CVE-2022-33891)。
1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装)
libpath <- c(libpath, “/home/r/spark/spark-1.4.0-bin-hadoop2.4/R/lib”)
下面这些关于 Spark 的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。
最近在做一些性能优化工作,回想起工作这些年来,参与过的三次集中性能优化,每次都得折腾少则一个月,多则半年。这些内容既是不同视角、不同思路的比较,也是挺有趣的工作经历。...
Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.