最新 最热

Spark 性能优化——和 shuffle 搏斗

Spark 的性能分析和调优很有意思,今天再写一篇。主要话题是 shuffle,当然也牵涉一些其他代码上的小把戏。

2022-07-19
1

Yarn application has already exited with state FINISHED

如果在运行spark-sql时遇到如下这样的错误,可能是因为yarn-site.xml中的配置项 yarn.nodemanager.vmem-pmem-ratio值偏小,它的默认值为2.1,可以尝试改大一点再试。...

2022-07-19
1

Spark编程基础(Python版)

https://spark.apache.org/docs/1.1.1/quick-start.html

2022-07-14
1

Dockerfile 中的 multi-stage(多阶段构建)

在应用了容器技术的软件开发过程中,控制容器镜像的大小可是一件费时费力的事情。如果我们构建的镜像既是编译软件的环境,又是软件最终的运行环境,这是很难控制镜像大小的。所以常见的配置模式为:分别为软件的编译环境和运...

2022-07-14
1

CentOS Linux中搭建Hadoop和Spark集群详解

2.所有操作都是使用root用户去操作。也可以使用其他用户,非root的话要注意操作的权限问题。

2022-07-14
1

Ubuntu 14.04下使用Openfire+Spark搭建即时聊天系统

测试下Oopenfire相关应用,使用Openfire+Spark搭建一个简单的在线咨询服务,有点类似阿里旺旺,可以Web页面在线咨询,也可以加为好友在PC客户端中咨询。

2022-07-13
1

详解Apache Hudi Schema Evolution(模式演进)

Schema Evolution(模式演进)允许用户轻松更改 Hudi 表的当前模式,以适应随时间变化的数据。从 0.11.0 版本开始,支持 Spark SQL(spark3.1.x 和 spark3.2.1)对 Schema 演进的 DDL 支持并且标志为实验性的。...

2022-07-11
1

Spark调研笔记第4篇 – PySpark Internals

事实上。有两个名为PySpark的概念。一个是指Sparkclient内置的pyspark脚本。而还有一个是指Spark Python API中的名为pyspark的package。

2022-07-10
1

Spark1.0.0 开发环境高速搭建

在本系列博客中。为了解析一些概念、解析一些架构、代码測试。搭建了一个实验平台。例如以下图所看到的:

2022-07-10
1

Spark中的Scheduler「建议收藏」

scheduler分成两个类型。一个是TaskScheduler与事实上现,一个是DAGScheduler。

2022-07-07
1