最新 最热

深入理解 Hive UDAF

用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式,第一种是 Simple 方式,第二种是 Generic 方式。...

2021-12-14
0

【最全的大数据面试系列】Spark面试题大全(一)

编写 shell 脚本,定期检测 master 状态,出现宕机后对 master 进行重启操作

2021-12-14
1

【最全的大数据面试系列】Hadoop面试题大全(二)

ZKFailoverController主要职责   1)健康监测:周期性的向它监控的NN发送健康探测命令,从而来确定某个NameNode是否处于健康状态,如果机器宕机,心跳失败,那么zkfc就会标记它处于一个不健康的状态。   2)会话管理:如果NN是健康...

2021-12-14
1

Java8特性详解 lambda表达式(一):使用篇

在 Java 8之前,一个实现了只有一个抽象方法的接口的匿名类看起来更像Lambda 表达式。下面的代码中,anonymousClass方法调用waitFor方法,参数是一个实现接口的Condition类,实现的功能为,当满足某些条件,Server 就会关闭。 下...

2021-12-13
0

用Stream来优化老代码,瞬间干净优雅了!

Java8 的新特性主要是 Lambda 表达式和流,当流和 Lambda 表达式结合起来一起使用时,因为流申明式处理数据集合的特点,可以让代码变得简洁易读。

2021-12-09
0

[源码解析] PyTorch分布式优化器(2)----数据并行优化器

本系列介绍分布式优化器,分为三篇文章,分别是基石篇,DP/DDP/Horovod 之中数据并行的优化器,PyTorch 分布式优化器,按照深度递进。

2021-12-09
0

《Hive编程指南》

前言Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其他和Hadoop集成的文件系统,如MapRFS、Amazon的S3和像HBase(Hadoop数据库)和Cassan...

2021-12-08
1

Spark是什么?与MapReduce的对比

Spark是一个基于内存的集群计算系统,是一个分布式的计算框架。Spark可以将计算任务分发到多个机器并行计算。目前Spark集成了SQL查询,图处理,机器学习,流处理等,在计算引擎中生态比较健全,所以其适用范围比较广。Spark主要...

2021-12-08
0

大数据必经之路-认识Spark

在进行了解spark 和 mapReduce的区别时,看到一个大佬所讲:人们在 Spark 出现之后,才开始对 MapReduce 不满。原来大数据计算速度可以快这么多,编程也可以更简单。而且 Spark 支持 Yarn 和 HDFS,公司迁移到 Spark 上的成本...

2021-12-07
1

大数据之认识MapReduce

是不是很清楚了,有无数个数据页面,MapReduce框架将这些数据读取为一行一行的(其实这个读取为一行行的,对于一个通用的框架他怎么做能知道是读取为一行一行的呢?看样子也是自定义的),我们定义的Map函数分别放入Hash表中(其实 ...

2021-12-07
0