spark_字节宝

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。...

linux spark hive SQL mapreduce

2021-11-05

6

Spark 源码（8） - Master分配资源并在Worker上启动Executor ，逐行代码注释版

上一次阅读到了 SparkContext 初始化，继续往下之前，先温故一下之前的内容。

linux 编程算法 spark

2021-11-05

1

盘点 | 空间转录组下游分析工具大PK，你在用哪个？

自2016年第一项名为 "空间转录组学 "的技术发表以来，关于空间转录组学的论文数量大幅增加。

svg spark 数据分析大数据

2021-11-03

7

干货分享丨携程国际业务动态实时标签处理平台实践

Weiyi，携程资深数据开发，关注大数据相关技术，对大数据实时计算、流批一体等方面有浓厚兴趣；

大数据 SQL ide spark 数据库

2021-11-02

1

数据治理之元数据管理的利器——Atlas入门宝典

随着数字化转型的工作推进，数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具，Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富，也不够详细。所以整理了这份文档供大...

数据库大数据 SQL 编程算法 spark

2021-11-02

1

一张图，详解大数据技术架构

从这张大数据的整体架构图上看来，大数据的核心层应该是：数据采集层、数据存储与分析层、数据共享层、数据应用层，可能叫法有所不同，本质上的角色都大同小异。...

spark 大数据 hive 数据库 SQL

2021-10-27

3

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。...

linux spark hive SQL mapreduce

2021-10-27

3

Hive重点难点：Hive原理&优化&面试(下)

Map在读取数据时，先将数据拆分成若干数据，并读取到Map方法中被处理。数据在输出的时候，被分成若干分区并写入内存缓存（buffer）中，内存缓存被数据填充到一定程度会溢出到磁盘并排序，当Map执行完后会将一个机器上输出的临时文...

spark SQL 数据库存储文件存储

2021-10-25

2

用户画像 | 开发性能调优

马上就快过年了，祝福小伙伴们牛年大吉，牛气冲天。本期文章分享的是赵老师在《方法论与工程化解决解决方案》一书中提到的关于如何在用户画像项目开发中进行性能调优的例子，希望大家耐心看完后有所收获！...

大数据 spark 缓存 hive 网络安全

2021-10-22

4

Wiztalk | 123期陈果《Spark分布式计算框架》

在教育部高等教育司的指导下，Wiztalk在2020年发布了一批教育部产学协同育人项目，面向有计算机科普工作经验的高校老师开放，将应用型的信息技术领域成果形成系列信息技术通识课程。接下来内容为陈果老师作品，希望对各位读...

spark

2021-10-21

1

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Spark 源码（8） - Master分配资源并在Worker上启动Executor ，逐行代码注释版

盘点 | 空间转录组下游分析工具大PK，你在用哪个？

干货分享丨携程国际业务动态实时标签处理平台实践

数据治理之元数据管理的利器——Atlas入门宝典

一张图，详解大数据技术架构

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive重点难点：Hive原理&优化&面试(下)

用户画像 | 开发性能调优

Wiztalk | 123期陈果《Spark分布式计算框架》

热门文章

热门手册