Spark_字节宝

首页 / 技术

初识 Spark | 带你理解 Spark 中的核心抽象概念：RDD

RDD（Resilient Distributed Dataset, 弹性分布式数据集）是 Spark 中相当重要的一个核心抽象概念，要学习 Spark 就必须对 RDD 有一个清晰的认识。

spark CSS Python 分布式 Serverless

2022-03-25

4

0872-7.1.4-如何启用CGroup限制YARN CPU使用率

1.文档编写目的首先说明什么场景下适合使用CGroup，为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业，同样的资源参数，有时候处理很快，有时候处理很慢，出现作业的运行效率无法预估情况？当我们期望通过合理...

yarn Node.js mapreduce spark

2022-03-24

6

spark sql读取hudi表数据

这篇文章接上一篇spark submit读写hudi,上一篇spark submit写入hudi的数据这里打算通过spark sql来进行查询

spark SQL hive xml 腾讯云测试服务

2022-03-24

4

使用 Alluxio 提高 HDFS 集群的性能和一致性

Alluxio 是世界上第一个内存速度的虚拟分布式存储系统，它连接了应用程序和底层存储系统，提供比现有解决方案快几个数量级的统一数据访问。 Hadoop分布式文件系统（HDFS）是一种用于存储大量数据的分布式文件系统。 HDFS 普...

spark 大数据缓存存储

2022-03-24

1

浅析SparkContext中的组件与创建流程

在Spark框架中，应用程序的提交离不开Spark Driver，而Spark Driver的初始化始终围绕SparkContext的初始化，可以说SparkContext是Spark程序的发动机引擎，有了它程序才能跑起来，在spark-core中，SparkContext重中之重，它提供了很...

spark 事件总线任务调度

2022-03-23

13

SparkConf 配置与传播

在spark分布式程序中，sparkConf 主要起着Spark程序进行资源配置，性能调优，功能开关，参数传递的能力。在Spark的Driver和Executor中都存在着SparkConf。

spark hashmap hadoop 面向对象编程

2022-03-23

5

Spark架构模式与Flink的对比

Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架，通过流来模拟批，Spark属于批处理框架，通过批来模拟流。其分别属于Lambda架构和Dataflow架构。...

flink 大数据 spark windows 缓存

2022-03-23

3

大数据平台如何进行云原生改造

如今，企业都面临着日益增长的数据量、各种类型数据的实时化和智能化处理的需求。此时，云原生大数据平台的高弹性扩展、多租户资源管理、海量存储、异构数据类型处理及低成本计算分析的能力，受到了大家的欢迎。但企业应该...

hadoop spark 开源 yarn Node.js

2022-03-22

4

我们为什么在 Databricks 和 Snowflake 间选型前者？

作为 DeNexus 安全服务提供商，需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案，满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。...

spark SQL 数据湖开源机器学习

2022-03-22

7

0871-6.3.2-如何基于CDH6环境编译Hudi-0.9.0并使用

1.文档编写目的 Apache Hudi是一个Data Lakes的开源方案，是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi 是一个丰富的平台，用于构建具有增量数据管道的流式数据湖，具有如下基...

打包 spark 专用宿主机 json 大数据

2022-03-21

12

59 60 61 62 63