mapreduce_字节宝

大数据环境搭建-Hive和Mysql

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。...

hive https 网络安全 SQL mapreduce

2022-04-19

Hive调优及优化的12种方式

distinct会将b列所有的数据保存到内存中，形成一个类似hash的结构，速度是十分的块；但是在大数据背景下，因为b列所有的值都会形成以key值，极有可能发生OOM...

mapreduce jvm hive 大数据

2022-04-18

HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

hive SQL 数据库 mapreduce

2022-04-18

scala(十三) 集合

sorted sortBy(func: 集合元素类型 => B) sortBy里面的函数也是针对集合每个元素进行操作 sortBy后续是根据函数返回值进行排序

mapreduce JavaScript 编程算法

2022-04-18

Scala专题系列(九) : Scala函数式编程

普通一个函数是输入一个参数输出一个返回值,而带有副作用的函数不仅仅返回一个值,还带有其它的操作:

编程算法 mapreduce 面向对象编程 scala

2022-04-18

Spark专题系列（一）：Spark 概述

Spark适用于各种各样原本需要多种不同的分布式平台的场景，包括批处理,迭代计算,交互式查询，流处理，通过在一个统一的框架下支持这些不同的计算，Spark使我们可以简单而低耗地把各种处理流程整合在一起。...

spark hadoop mapreduce windows 分布式

2022-04-18

Hadoop分布式部署

对于Hadoop Master（ResourceManager/NameNode）节点硬件配置要高一些

hadoop xml ssh mapreduce yarn

2022-04-18

Flink实战: 窗口TopN分析与实现

TopN 的需求场景不管是在离线计算还是实时计算都是比较常见的，例如电商中计算热门销售商品、广告计算中点击数前N的广告、搜索中计算搜索次数前N的搜索词。topN又分为全局topN、分组topN, 比喻说热门销售商品可以直接...

编程算法 mapreduce

2022-04-18

flink window 实现机制分析

在flink streaming 处理中窗口是比较常见的操作, 例如窗口sum、max、min等，窗口构建主要包含：Assigner、Trigger、Function、Evictor, Assigner: 窗口分配器, 当有一个元素到达判断窗口属于哪一个窗口，对于滚动窗口分配...

mapreduce windows HTTP Node.js

2022-04-18

mapreduce中shuffle中两种排序算法

1. map shuffle也称为shuffle writer, 每个map 处理分配的split, 然后写入到环形缓冲区中，当缓冲区中的数据达到一定比率，就会开启线程将缓冲区中的数据写入文件，称为spill, spill 同时会对数据进行分区、排序、合并操...

编程算法 mapreduce

2022-04-18

48 49 50 51 52

大数据环境搭建-Hive和Mysql

Hive调优及优化的12种方式

HiveSQL技术原理、优化与面试

scala(十三) 集合

Scala专题系列(九) : Scala函数式编程

Spark专题系列（一）：Spark 概述

Hadoop分布式部署

Flink实战: 窗口TopN分析与实现

flink window 实现机制分析

mapreduce中shuffle中两种排序算法

热门文章

热门手册