最新 最热

Spark里面的RDD函数有两种

RDD里面的每个数据分片,Spark都会创建一个计算任务去处理,所以一个计算阶段含多个计算任务(task)。

2022-04-24
1

使用IDEA开发Spark程序

链接:https://pan.baidu.com/s/1YczOo5novINV_MimJ9Xpqg提取码:psvm

2022-04-23
1

一份数据满足所有数据场景?腾讯云数据湖解决方案及DLC内核技术介绍

摘要 OLAP数据库/引擎日新月异,不断推陈出新,在各种场景下有不同引擎的价值:flink擅长于实时数据集成/实时计算;spark批处理、tb级以上、hive生态、复杂join的数据分析、以及机器学习;presto联邦分析、较简单join、tb级以...

2022-04-22
1

三面字节总结:Spark+hadoop+数据仓+Flink+kafka 资料一应俱全!

从时间节点上来看,每年的 3月、4月是一年中求职跳槽的黄金季! 最近也收到很多小伙伴的后台留言 “有没有大数据学习资源,进阶学习路线,PDF,电子书,面试文档等等...” 一系列问题,这篇文章等于是针对以上的问题统一做回答了。...

2022-04-19
1

Spark实战系列4:Spark周边项目Livy简介

首先,熟悉spark开发的 人都知道spark的部署模式分为三种,分别为Local、Standalone、YARN,通过YARN又分为YARN-Client和YARN-Cluster,Local模式 一般就是在本地运 行Spark任务,需要Spark环境的,Standalone模式是Spark 自 身...

2022-04-18
1

Spark DataSource API v2 版本对比 v1有哪些改进?

由于上面的限制和问题, Spark SQL 内置的数据源实现(如 Parquet,JSON等)不使用这个公共 DataSource API。

2022-04-18
1

sparksql源码共读 | 复习&答疑&大家遇到问题总结

sparksql源码共读进行三次了,上周手把手debug源码,快炸裂了,这周安排一次复习,总结一下大家遇到的问题。

2022-04-18
1

面试 | 你真的了解count(*)和count(1)嘛?

先给结论,在spark sql中count(*)不管在运行效率方面,还是在最终展示结果方面 都等同于count(1)。

2022-04-18
1

澄清 | snappy压缩到底支持不支持split? 为啥?

不是说snappy压缩不支持split嘛,为什么我改小mapred.max.split.size一倍之后,mapper数翻倍?

2022-04-18
1

Spark DataSource API v2 版本对比 v1有哪些改进?

1. 由于其输入参数包括 DataFrame / SQLContext,因此 DataSource API 兼容性取决于这些上层的 API。

2022-04-18
1