工作之后非常喜欢通过color{red}{思维导图}来记录东西,条理清晰、内容精炼、易于记忆。本文中所画的导图使用工具有
就在本周一,大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资,对公司的估值为280亿美元。作为同类公司,之前Snowflake的IPO就引发资本的热捧,此次Databricks的融资也印证了这点。为什么资本对数据平台公司...
本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行业的应用越来越广泛,Spark自UCBerkeley的AMP实验室诞生到如今3.0版本的发布,已有...
项目中使用了spark streaming + kafka来做实时数据分析,有的时候在访问kafka时会报offset越界错误(OffsetOutOfRangeException),如下:
为了满足基于内存的分布式计算思想,需要定义一种分布式计算抽象,保证在分布式环境中能够正确、高效地完成任务。
Spark3.0已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中46%的优化都集中在Spark SQL上,SQL优化里最引人注意的非Adaptive Query Execution莫属了。...
FreeWheel团队通过高效的敏捷开发赶在 2020 年圣诞广告季之前在生产环境顺利发布上线,整体性能提升高达 40%(对于大 batch)的数据,AWS Cost 平均节省 25%~30%之间,大约每年至少能为公司节省百万成本。...
从Spark shuffle原理可知,Spark shuffle在计算与IO方面,都可能有较大开销,故,Spark shuffle调优就是优化这2个方面。这里仅关注调参的调优方式,不关注应用代码层面的调优。...
背景:写这篇文章是为了后面学习监控yarn的队列,Cloudera的CDH属于即将过时的技术了,但是目前国内很多企业任然以5.x 的版本为主,如果有不会的同学可以参考搭建一下。...
Waterdrop 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上。