最新 最热

自己工作中超全spark性能优化总结

Spark是大数据分析的利器,在工作中用到spark的地方也比较多,这篇总结是希望能将自己使用spark的一些调优经验分享出来。

2020-11-25
1

Apache Hive 3架构概述

了解Apache Hive 3的主要设计功能(例如默认的ACID事务处理)可以帮助您使用Hive来满足企业数据仓库系统不断增长的需求。

2020-11-25
1

在 Spark 数据导入中的一些实践细节

图谱业务随着时间的推移愈发的复杂化,逐渐体现出了性能上的瓶颈:单机不足以支持更大的图谱。然而,从性能上来看,Neo4j 的原生图存储有着不可替代的性能优势,这一点是之前调研的 JanusGraph、Dgraph 等都难以逾越的鸿沟。即...

2020-11-25
1

解决spark日志清理问题

由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨,达到了硬盘的预警,不得已必须指定策略定期删除日志已保证服务器硬盘空间。

2020-11-24
1

Spark on YARN基础

不管使用哪种模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通过--master参数来指定我们的运行模式即可

2020-11-24
1

Spark Streaming性能优化: 如何在生产环境下动态应对流数据峰值

默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Stre...

2020-11-24
1

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。...

2020-11-24
1

Rainbond 5分钟部署 Spark Standalone 集群

Standalone 是 Spark 自身提供的一种主从集群部署模式。本文讲述一个常规1主多从的集群部署模式,该模式下master服务依靠Rainbond平台监控保障其可用性,支持重新调度重启。 worker服务可以根据需要伸缩多个节点。...

2020-11-24
1

数据分析简明学习路线

数据分析能力,未来会越来越重要。之前推送过很多篇相关文章,基于此再扼要总结,广义上数据分析的学习路线,此处数据分析我延伸到建模部分,只为了从宏观上更清楚的认识,数据分析和数据建模是如何从零到上线,并应用于生产实践与...

2020-11-23
1

大数据框架:Spark 生态实时流计算

在Spark框架当中,提起流计算,那么主要就是Spark Streaming组件来负责。在大数据的发展历程当中,流计算正在成为越来越受到重视的趋势,而Spark Streaming流计算也在基于实际需求不断调整。今天的大数据学习分享,我们就主要...

2020-11-20
1