mapreduce_字节宝

Spark性能调优指北：性能优化和故障处理

Spark 官方推荐，Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

spark mapreduce 数据库 SQL 文件存储

2021-09-27

Alluxio集群搭建并整合MapReduce/Hive/Spark

Alluxio是世界上第一个虚拟的分布式存储系统，以内存速度统一了数据访问。它为计算框架和存储系统构建了桥梁，使应用程序能够通过一个公共接口连接到许多存储系统。Alluxio以内存为中心的架构使得数据的访问速度能比现有...

hive spark mapreduce 大数据解决方案大数据

2021-09-26

6.824 2020 视频笔记一：绪论

MIT 今年终于主动在 Youtube 上放出了随堂视频资料，之前跟过一半这门课，今年打算刷一下视频，写写随堂笔记。该课程以分布式基础理论：容错、备份、一致性为脉络，以精选的工业级系统论文为主线，再填充上翔实的阅读材料和精到...

分布式 mapreduce

2021-09-26

Spark 理论基石 —— RDD

RDD，学名可伸缩的分布式数据集（Resilient Distributed Dataset）。是一种对数据集形态的抽象，基于此抽象，使用者可以在集群中执行一系列计算，而不用将中间结果落盘。而这正是之前 MR 抽象的一个重要痛点，每一个步骤都需要落盘...

spark 任务调度 scala mapreduce

2021-09-26

MapReduce —— 历久而弥新

MapReduce 是谷歌 2004 年（Google 内部是从03年写出第一个版本）发表的论文里提出的一个概念。虽然已经过去15 年了，但现在回顾这个大数据时代始祖级别概念的背景、原理和实现，仍能获得对分布式系统的很多直觉性的启发，所谓...

mapreduce 分布式

2021-09-26

「 Flutter 项目实战」设计企业级项目入口 main.dart 设计与实现 ( GSYGithubApp 源码解读·二 )

???? 提示：温馨提示一下哈，这篇文章主要是针对 GitHub 上 12+k 顶级项目「 CarGuo/gsy_github_app_flutter 」的源码解读，因为这是我目前见过最棒、最具有企

网站 Flutter ios Android mapreduce

2021-09-24

Hive提高查询效率的八条军规

大家好，我是一哥，今天分享一下Hive如何提升查询效率。Hive作为最常用的数仓计算引擎，是我们必备的技能，但是很多人只是会写Hql，并不会优化，也不知道如何提升查询效率，今天分享8条军规：...

mapreduce jvm hive

2021-09-23

Spark的两种核心Shuffle详解（建议收藏）

在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O，因此 Shuffle 性能的高低直接影响整个程序的性能...

spark mapreduce 数据结构 bash bash指令

2021-09-22

实操 | Hive 数据倾斜问题定位排查及解决

多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措。...

mapreduce SQL hive

2021-09-22

他来了他来了，Hadoop序列化和切片机制了解一下？

一个超大文件在HDFS上存储时，是以多个Block存储在不同的节点上，比如一个512M的文件，HDFS默认一个Block为128M，那么1G的文件分成4个Block存储在集群中4个节点上。...

mapreduce 文件存储腾讯云测试服务

2021-09-22

69 70 71 72 73

Spark性能调优指北：性能优化和故障处理

Alluxio集群搭建并整合MapReduce/Hive/Spark

6.824 2020 视频笔记一：绪论

Spark 理论基石 —— RDD

MapReduce —— 历久而弥新

「 Flutter 项目实战」设计企业级项目入口 main.dart 设计与实现 ( GSYGithubApp 源码解读·二 )

Hive提高查询效率的八条军规

Spark的两种核心Shuffle详解（建议收藏）

实操 | Hive 数据倾斜问题定位排查及解决

他来了他来了，Hadoop序列化和切片机制了解一下？

热门文章

热门手册