最新 最热

思维导图作品集

工作之后非常喜欢通过color{red}{思维导图}来记录东西,条理清晰、内容精炼、易于记忆。本文中所画的导图使用工具有

2021-03-01
1

热度再起:从Databricks融资谈起

就在本周一,大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资,对公司的估值为280亿美元。作为同类公司,之前Snowflake的IPO就引发资本的热捧,此次Databricks的融资也印证了这点。为什么资本对数据平台公司...

2021-02-26
1

揭秘| 大数据计算引擎性能及稳定性提升神器!

本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行业的应用越来越广泛,Spark自UCBerkeley的AMP实验室诞生到如今3.0版本的发布,已有...

2021-02-25
1

spark streaming访问kafka出现offset越界问题处理

项目中使用了spark streaming + kafka来做实时数据分析,有的时候在访问kafka时会报offset越界错误(OffsetOutOfRangeException),如下:

2021-02-24
1

Spark的核心RDD,内存中集群计算的容错抽象

为了满足基于内存的分布式计算思想,需要定义一种分布式计算抽象,保证在分布式环境中能够正确、高效地完成任务。

2021-02-23
1

数据倾斜?Spark 3.0 AQE专治各种不服(上)

Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在Spark SQL上,SQL优化里最引人注意的非Adaptive Query Execution莫属了。...

2021-02-23
1

数据倾斜?Spark 3.0 AQE专治各种不服(下)

FreeWheel团队通过高效的敏捷开发赶在 2020 年圣诞广告季之前在生产环境顺利发布上线,整体性能提升高达 40%(对于大 batch)的数据,AWS Cost 平均节省 25%~30%之间,大约每年至少能为公司节省百万成本。...

2021-02-23
1

Spark Shuffle调优指南

从Spark shuffle原理可知,Spark shuffle在计算与IO方面,都可能有较大开销,故,Spark shuffle调优就是优化这2个方面。这里仅关注调参的调优方式,不关注应用代码层面的调优。...

2021-02-20
1

关于CDH5.13的安装的记录

背景:写这篇文章是为了后面学习监控yarn的队列,Cloudera的CDH属于即将过时的技术了,但是目前国内很多企业任然以5.x 的版本为主,如果有不会的同学可以参考搭建一下。...

2021-02-19
1

Waterdrop在物联网hub日志收集中的使用

Waterdrop 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上。

2021-02-18
1