最新 最热

初识 Spark | 带你理解 Spark 中的核心抽象概念:RDD

RDD(Resilient Distributed Dataset, 弹性分布式数据集)是 Spark 中相当重要的一个核心抽象概念,要学习 Spark 就必须对 RDD 有一个清晰的认识。

2022-03-25
1

0872-7.1.4-如何启用CGroup限制YARN CPU使用率

1.文档编写目的 首先说明什么场景下适合使用CGroup,为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业,同样的资源参数,有时候处理很快,有时候处理很慢,出现作业的运行效率无法预估情况? 当我们期望通过合理...

2022-03-24
1

spark sql读取hudi表数据

这篇文章接上一篇spark submit读写hudi,上一篇spark submit写入hudi的数据这里打算通过spark sql来进行查询

2022-03-24
1

使用 Alluxio 提高 HDFS 集群的性能和一致性

Alluxio 是世界上第一个内存速度的虚拟分布式存储系统,它连接了应用程序和底层存储系统,提供比现有解决方案快几个数量级的统一数据访问。 Hadoop分布式文件系统(HDFS)是一种用于存储大量数据的分布式文件系统。 HDFS 普...

2022-03-24
1

浅析SparkContext中的组件与创建流程

在Spark框架中,应用程序的提交离不开Spark Driver,而Spark Driver的初始化始终围绕SparkContext的初始化,可以说SparkContext是Spark程序的发动机引擎,有了它程序才能跑起来,在spark-core中,SparkContext重中之重,它提供了很...

2022-03-23
1

SparkConf 配置与传播

在spark分布式程序中,sparkConf 主要起着Spark程序进行资源配置,性能调优,功能开关,参数传递的能力。在Spark的Driver和Executor中都存在着SparkConf。

2022-03-23
1

Spark架构模式与Flink的对比

Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架,通过流来模拟批,Spark属于批处理框架,通过批来模拟流。其分别属于Lambda架构和Dataflow架构。...

2022-03-23
1

大数据平台如何进行云原生改造

如今,企业都面临着日益增长的数据量、各种类型数据的实时化和智能化处理的需求。此时,云原生大数据平台的高弹性扩展、多租户资源管理、海量存储、异构数据类型处理及低成本计算分析的能力,受到了大家的欢迎。但企业应该...

2022-03-22
1

我们为什么在 Databricks 和 Snowflake 间选型前者?

作为 DeNexus 安全服务提供商,需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案,满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。...

2022-03-22
1

0871-6.3.2-如何基于CDH6环境编译Hudi-0.9.0并使用

1.文档编写目的 Apache Hudi是一个Data Lakes的开源方案,是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi 是一个丰富的平台,用于构建具有增量数据管道的流式数据湖,具有如下基...

2022-03-21
1