mapreduce_字节宝

深入理解 Hive UDAF

用户自定义聚合函数(UDAF)支持用户自行开发聚合函数完成业务逻辑。从实现上来看 Hive 有两种创建 UDAF 的方式，第一种是 Simple 方式，第二种是 Generic 方式。...

mapreduce hive hadoop

2021-12-14

【最全的大数据面试系列】Spark面试题大全（一）

编写 shell 脚本，定期检测 master 状态，出现宕机后对 master 进行重启操作

spark 编程算法大数据 mapreduce 批量计算

2021-12-14

【最全的大数据面试系列】Hadoop面试题大全（二）

ZKFailoverController主要职责 1）健康监测：周期性的向它监控的NN发送健康探测命令，从而来确定某个NameNode是否处于健康状态，如果机器宕机，心跳失败，那么zkfc就会标记它处于一个不健康的状态。 2）会话管理：如果NN是健康...

文件存储 hadoop mapreduce 缓存 yarn

2021-12-14

Java8特性详解 lambda表达式（一）：使用篇

在 Java 8之前，一个实现了只有一个抽象方法的接口的匿名类看起来更像Lambda 表达式。下面的代码中，anonymousClass方法调用waitFor方法，参数是一个实现接口的Condition类，实现的功能为，当满足某些条件，Server 就会关闭。下...

Java Serverless 编程算法 mapreduce

2021-12-13

用Stream来优化老代码，瞬间干净优雅了！

Java8 的新特性主要是 Lambda 表达式和流，当流和 Lambda 表达式结合起来一起使用时，因为流申明式处理数据集合的特点，可以让代码变得简洁易读。

mapreduce 编程算法 jdk api

2021-12-09

[源码解析] PyTorch分布式优化器(2)----数据并行优化器

本系列介绍分布式优化器，分为三篇文章，分别是基石篇，DP/DDP/Horovod 之中数据并行的优化器，PyTorch 分布式优化器，按照深度递进。

分布式 mapreduce pytorch

2021-12-09

《Hive编程指南》

前言Hive是Hadoop生态系统中必不可少的一个工具，它提供了一种SQL（结构化查询语言）方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapRFS、Amazon的S3和像HBase（Hadoop数据库）和Cassan...

hive hadoop hbase TDSQLMySQL版 mapreduce

2021-12-08

Spark是什么？与MapReduce的对比

Spark是一个基于内存的集群计算系统，是一个分布式的计算框架。Spark可以将计算任务分发到多个机器并行计算。目前Spark集成了SQL查询，图处理，机器学习，流处理等，在计算引擎中生态比较健全，所以其适用范围比较广。Spark主要...

spark windows 文件存储 mapreduce

2021-12-08

大数据必经之路-认识Spark

在进行了解spark 和 mapReduce的区别时，看到一个大佬所讲：人们在 Spark 出现之后，才开始对 MapReduce 不满。原来大数据计算速度可以快这么多，编程也可以更简单。而且 Spark 支持 Yarn 和 HDFS，公司迁移到 Spark 上的成本...

spark 大数据 mapreduce yarn Node.js

2021-12-07

大数据之认识MapReduce

是不是很清楚了，有无数个数据页面，MapReduce框架将这些数据读取为一行一行的（其实这个读取为一行行的，对于一个通用的框架他怎么做能知道是读取为一行一行的呢？看样子也是自定义的），我们定义的Map函数分别放入Hash表中（其实 ...

mapreduce

2021-12-07

58 59 60 61 62

深入理解 Hive UDAF

【最全的大数据面试系列】Spark面试题大全（一）

【最全的大数据面试系列】Hadoop面试题大全（二）

Java8特性详解 lambda表达式（一）：使用篇

用Stream来优化老代码，瞬间干净优雅了！

[源码解析] PyTorch分布式优化器(2)----数据并行优化器

《Hive编程指南》

Spark是什么？与MapReduce的对比

大数据必经之路-认识Spark

大数据之认识MapReduce

热门文章

热门手册