最新 最热

SparkSQL真的不支持存储NullType类型数据到Parquet吗?

最近后台有小伙伴提了一些实际工作中使用Spark遇到的问题,笔者挑选了几个相对常见的问题,分别从场景模拟/问题现象、问题分析、解决方案三个层面,来深入分析这些问题,并且提供一个解决类似问题的思路。...

2020-11-03
1

0816-CDP Hive3升级说明

CDH5中的Hive版本是1.1,而CDP7中的Hive版本为3。Hive3相对Hive1更新特别多,比如支持全新的ACID v2机制,并且底层使用Tez和内存进行查询,相比MR的方式性能提升超过10倍,支持物化视图以及语法使用扩充等等。因为是一次大版本...

2020-11-03
1

存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择。相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件...

2020-11-02
0

如何将PySpark导入Python的放实现(2种)

优点:简单快捷 缺点:治标不治本,每次写一个新的Application都要加载一遍findspark

2020-11-02
0

设计一个 60T 的医院数据仓库及其 OLAP 分析平台,你怎么做?

入行不久的程序员,最容易对自己和技术产生怀疑。整天担心学不到技术,不能在日活1亿的好项目里锻炼。其实完全没必要。项目一旦成为项目,它的新奇感也就没有了。剩下的就是苦逼的活儿,码字。...

2020-10-30
1

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

2020-10-29
1

Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势

## Spark Streaming(DStreaming) VS Spark Structured Streaming 区别比较 优劣势

2020-10-29
1

Spark Structured Streaming 使用总结

在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题:

2020-10-29
1

Spark on Kubernetes:Apache YuniKorn如何提供帮助

Apache Spark在一个平台上统一了批处理、实时处理、流分析、机器学习和交互式查询。尽管Apache Spark提供了许多功能来支持各种用例,但它为集群管理员带来了额外的复杂性和较高的维护成本。让我们看一下底层资源协调器...

2020-10-29
0

Spark sql规则执行器RuleExecutor(源码解析)

Spark sql通过Analyzer中 定义的rule把Parsed Logical Plan解析成 Analyzed Logical Plan;通过Optimizer定义的rule把 Analyzed Logical Plan 优化成 Optimized Logical Plan 。

2020-10-29
1