spark_字节宝

时序数据库破局开放探讨

近几年IoT、IIoT、AIoT和智慧城市快速发展，时序/时空数据库成为数据架构技术栈的标配。根据国际知名网站DB-Engines数据，时序数据库在过去24个月内排名高居榜首，且远高于其他类型的数据库，可见业内对时序数据库的需求迫切...

数据库 SQL spark 存储大数据

2022-06-07

为什么说存储和计算分离的架构才是未来

编者按：本文最初发表于 2018.07.07 JuiceFS 官方博客，那是还没有开始这个公众号，官博去年的文章里这篇阅读最多，所以在官微中也发一次，方便读者引用、转发、收藏。...

spark 存储大数据对象存储

2022-06-07

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（上）

之前我们已经了解了shuffle writer的详细过程，那么生成文件后会发生什么呢？以及它们是如何被读取呢？读取是内存的操作吗？这些问题也随之产生，那么今天我们将先来了解了shuffle reader的细枝末节。...

spark mapreduce

2022-06-05

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

hive 大数据文件存储数据库 spark

2022-06-05

Apache Hudi 0.11 版本重磅发布，新特性速览!

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文...

spark 打包 flink 大数据 hive

2022-06-05

大数据环境搭建-Hadoop与Spark

https://www.psvmc.cn/article/2022-03-31-bigdata-environment.html

hadoop https HTTP 网络安全 spark

2022-06-04

关于大数据的完整讲解

ELT的过程是，在抽取后将结果先写入目的地，然后利用数据库的聚合分析能力或者外部计算框架，如Spark来完成转换

sqlserver hive spark hadoop flink

2022-06-02

面试篇: SparkSql如何把Sql转化成RDD可以执行的任务

1.SparkSql通过Parser（解析器）把Sql转化成UnResolved Logical Plan（这是一棵Parsed Logical Plan AST语法树）。

analyzer spark linux SQL 数据库

2022-06-01

Spark Shuffle机制

在MapReduce框架中，Shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过Shuffle这个环节，Shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了Shuffle...

大数据数据结构 mapreduce spark

2022-06-01

技术篇：Spark的宽依赖与窄依赖

Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分Stage，而划分依据就是RDD之间的依赖关系。

mapreduce spark https 网络安全

2022-06-01

41 42 43 44 45

时序数据库破局开放探讨

为什么说存储和计算分离的架构才是未来

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（上）

「Hudi系列」Hudi查询&写入&常见问题汇总

Apache Hudi 0.11 版本重磅发布，新特性速览!

大数据环境搭建-Hadoop与Spark

关于大数据的完整讲解

面试篇: SparkSql如何把Sql转化成RDD可以执行的任务

Spark Shuffle机制

技术篇：Spark的宽依赖与窄依赖

热门文章

热门手册