spark_字节宝

首页 / 技术

自己工作中超全spark性能优化总结

Spark是大数据分析的利器，在工作中用到spark的地方也比较多，这篇总结是希望能将自己使用spark的一些调优经验分享出来。

spark 数据库 SQL linux

2020-11-25

1

Apache Hive 3架构概述

了解Apache Hive 3的主要设计功能（例如默认的ACID事务处理）可以帮助您使用Hive来满足企业数据仓库系统不断增长的需求。

spark 大数据 hive apache mapreduce

2020-11-25

4

在 Spark 数据导入中的一些实践细节

图谱业务随着时间的推移愈发的复杂化，逐渐体现出了性能上的瓶颈：单机不足以支持更大的图谱。然而，从性能上来看，Neo4j 的原生图存储有着不可替代的性能优势，这一点是之前调研的 JanusGraph、Dgraph 等都难以逾越的鸿沟。即...

数据结构 spark 腾讯云测试服务性能测试

2020-11-25

4

解决spark日志清理问题

由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨，达到了硬盘的预警，不得已必须指定策略定期删除日志已保证服务器硬盘空间。

spark shell linux

2020-11-24

3

Spark on YARN基础

不管使用哪种模式，Spark应用程序的代码是一模一样的，只需要在提交的时候通过--master参数来指定我们的运行模式即可

yarn spark Node.js

2020-11-24

3

Spark Streaming性能优化: 如何在生产环境下动态应对流数据峰值

默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batch processing time > batch interval的情况，其中batch processing time 为实际计算一个批次花费时间， batch interval为Stre...

JavaScript spark 批量计算数据处理

2020-11-24

4

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要：今天我们就来解构数据湖的核心需求，同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案，帮助用户更好地针对自身场景来做数据湖方案选型。...

spark apache 数据湖 hive 大数据

2020-11-24

5

Rainbond 5分钟部署 Spark Standalone 集群

Standalone 是 Spark 自身提供的一种主从集群部署模式。本文讲述一个常规1主多从的集群部署模式，该模式下master服务依靠Rainbond平台监控保障其可用性，支持重新调度重启。 worker服务可以根据需要伸缩多个节点。...

spark 容器 kubernetes

2020-11-24

2

数据分析简明学习路线

数据分析能力，未来会越来越重要。之前推送过很多篇相关文章，基于此再扼要总结，广义上数据分析的学习路线，此处数据分析我延伸到建模部分，只为了从宏观上更清楚的认识，数据分析和数据建模是如何从零到上线，并应用于生产实践与...

spark 大数据爬虫数据分析

2020-11-23

4

大数据框架：Spark 生态实时流计算

在Spark框架当中，提起流计算，那么主要就是Spark Streaming组件来负责。在大数据的发展历程当中，流计算正在成为越来越受到重视的趋势，而Spark Streaming流计算也在基于实际需求不断调整。今天的大数据学习分享，我们就主要...

大数据大数据处理套件TBDS spark

2020-11-20

12

130 131 132 133 134