spark_字节宝

首页 / 技术

Spark整合Ray思路漫谈（2）

首先，大家可以理解为k8s已经解决一切了，我们spark,ray都跑在K8s上。但是，如果我们希望一个spark 是实例多进程跑的时候，我们并不希望是像传统的那种方式，所有的节点都跑在K8s上，而是将executor部分放到yarn cluster. 在我们...

编程算法 spark Python yarn

2022-07-21

6

是时候改变你数仓的增量同步方案了

经过一段时间的演化，spark-binlog，delta-plus慢慢进入正轨。spark-binlog可以将MySQL binlog作为标准的Spark数据源来使用，目前支持insert/update/delete 三种事件的捕捉。 delta-plus则是对Delta Lake的一个增强库，譬如...

spark SQL 数据库云数据库SQLServer

2022-07-21

6

Delta Lake为什么不存在Hive覆盖写的问题

当你使用Spark对hive表进行Overwrite的时候，基本流程是删除metastore的表信息，删除数据，写_temp目录，移动_temp目录数据，最后写入表信息（我描述的这个流程不一定完全对，熟悉hive的大大欢迎指正）。这个过程可能很漫长，比如我们...

2022-07-21

5

Delta Lake的竞争对手Hudi（Alpha版）

Delta Lake肯定不是第一个数据湖产品。对于存储这块，CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码，理解上算不得成熟，所以这篇文章我加了...

2022-07-21

6

【安全公告】Apache Spark shell 命令注入漏洞（CVE-2022-33891）风险通告

Apache Spark于 7 月 18 日发布了最新的安全公告，其中包含一个 shell 命令注入漏洞(CVE-2022-33891)。

apache shell https spark 网络安全

2022-07-20

5

Windows下搭建Spark+Hadoop开发环境

1. 下载Hadoop2.7.1版本（写Spark和Hadoop主要是用到了Yarn，因此Hadoop必须安装）

hadoop https spark HTTP Java

2022-07-20

6

sparkr基本操作1

libpath <- c(libpath, “/home/r/spark/spark-1.4.0-bin-hadoop2.4/R/lib”)

spark JavaScript hadoop HTTP https

2022-07-20

6

Spark 的性能调优

下面这些关于 Spark 的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。

linux 文件存储 spark

2022-07-19

6

三次性能优化经历

最近在做一些性能优化工作，回想起工作这些年来，参与过的三次集中性能优化，每次都得折腾少则一个月，多则半年。这些内容既是不同视角、不同思路的比较，也是挺有趣的工作经历。...

缓存 spark linux 数据库 SQL

2022-07-19

5

Notes: Spark metrics

Below are some notes taken for future reference based on the brainstorm meeting last week, with company confidential information removed.

emr spark 面向对象编程数据结构 linux

2022-07-19

17

35 36 37 38 39