最新 最热

大数据环境搭建-Hive和Mysql

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。...

2022-04-19
0

Hive调优及优化的12种方式

distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM...

2022-04-18
0

HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:

2022-04-18
0

scala(十三) 集合

sorted sortBy(func: 集合元素类型 => B) sortBy里面的函数也是针对集合每个元素进行操作 sortBy后续是根据函数返回值进行排序

2022-04-18
0

Scala专题系列(九) : Scala函数式编程

普通一个函数是输入一个参数输出一个返回值,而带有副作用的函数不仅仅返回一个值,还带有其它的操作:

2022-04-18
1

Spark专题系列(一):Spark 概述

Spark适用于各种各样原本需要多种不同的分布式平台的场景,包括批处理,迭代计算,交互式查询,流处理,通过在一个统一的框架下支持这些不同的计算,Spark使我们可以简单而低耗地把各种处理流程整合在一起。...

2022-04-18
0

Hadoop分布式部署

对于Hadoop Master(ResourceManager/NameNode)节点硬件配置要高一些

2022-04-18
1

Flink实战: 窗口TopN分析与实现

TopN 的需求场景不管是在离线计算还是实时计算都是比较常见的,例如电商中计算热门销售商品、广告计算中点击数前N的广告、搜索中计算搜索次数前N的搜索词。topN又分为全局topN、分组topN, 比喻说热门销售商品可以直接...

2022-04-18
0

flink window 实现机制分析

在flink streaming 处理中窗口是比较常见的操作, 例如窗口sum、max、min等,窗口构建主要包含:Assigner、Trigger、Function、Evictor, Assigner: 窗口分配器, 当有一个元素到达判断窗口属于哪一个窗口,对于滚动窗口分配...

2022-04-18
0

mapreduce中shuffle中两种排序算法

1. map shuffle也称为shuffle writer, 每个map 处理分配的split, 然后写入到环形缓冲区中,当缓冲区中的数据达到 一定比率,就会开启线程将缓冲区中的数据写入文件,称为spill, spill 同时会对数据进行分区、排序、合并操...

2022-04-18
0