最新 最热

Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。...

2021-11-05
1

Spark 源码(8) - Master分配资源并在Worker上启动Executor ,逐行代码注释版

上一次阅读到了 SparkContext 初始化,继续往下之前,先温故一下之前的内容。

2021-11-05
1

盘点 | 空间转录组下游分析工具大PK,你在用哪个?

自2016年第一项名为 "空间转录组学 "的技术发表以来,关于空间转录组学的论文数量大幅增加。

2021-11-03
1

干货分享丨携程国际业务动态实时标签处理平台实践

Weiyi,携程资深数据开发,关注大数据相关技术,对大数据实时计算、流批一体等方面有浓厚兴趣;

2021-11-02
1

数据治理之元数据管理的利器——Atlas入门宝典

随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大...

2021-11-02
1

一张图,详解大数据技术架构

从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。...

2021-10-27
1

Hive计算引擎大PK,万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手,经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本,Hive从最开始的为人诟病的速度慢迅速发展,开始支持更多的计算引擎,计算速度大大提升。...

2021-10-27
1

Hive重点难点:Hive原理&优化&面试(下)

Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文...

2021-10-25
1

用户画像 | 开发性能调优

马上就快过年了,祝福小伙伴们牛年大吉,牛气冲天。本期文章分享的是赵老师在《方法论与工程化解决解决方案》一书中提到的关于如何在用户画像项目开发中进行性能调优的例子,希望大家耐心看完后有所收获!...

2021-10-22
1

Wiztalk | 123期 陈果《Spark分布式计算框架》

在教育部高等教育司的指导下,Wiztalk在2020年发布了一批教育部产学协同育人项目,面向有计算机科普工作经验的高校老师开放,将应用型的信息技术领域成果形成系列信息技术通识课程。 接下来内容为陈果老师作品,希望对各位读...

2021-10-21
1