最新 最热

hive 的order by ,sort by,distribute by,cluster by

order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间,在生产环境中遇到数据量较大的情况,一般无法成功。...

2023-03-06
1

Go 函数式编程篇(七):基于管道技术实现函数的流式调用

管道(Pipeline)这一术语来源是 Unix 的 Shell 命令行,我们可以使用管道连接符 | 通过组合简单的命令实现强大的功能,比如我们想要从系统进程列表中筛选出 nginx 进程,可以这么做:...

2023-03-03
1

浅谈 Flink 窗口

https://blog.csdn.net/mynameisgt/article/details/124223193

2023-03-03
2

JS数组reduce()方法详解及高级技巧

reduce 为数组中的每一个元素依次执行回调函数,不包括数组中被删除或从未被赋值的元素,接受四个参数:初始值(或者上一次回调函数的返回值),当前元素值,当前索引,调用 reduce 的数组。...

2023-02-27
1

谷歌最好的程序员Jeff Dean:我用过 18 种编程语言

来源:InfoQ当地时间 2 月 21 日,谷歌大神 Jeff Dean 在参与网友“学习编程语言顺序”的话题中,又不小心秀了下自己的“肌肉”:自己至今已经学习和使用了 17 种编程语言。但他分明...

2023-02-27
1

(学习之路)Hive数据倾斜解决办法

hive是基于大数据开发的一组用于数据仓库的api,其主要功能是将HQL(HIVE SQL)转换成MapReduce执行。所以对hive的优化几乎等于对MapReduce的优化,主要在io和数据倾斜方面进行优化。...

2023-02-25
1

Action操作开发实战

1.Reduce 2.collect 3.count 4.take 5.saveAsTextTile 6.countByKey 7.foreach

2023-02-25
1

transformation和action介绍

Spark支持两种RDD操作:transformation和action。transformation操作会针对已有的RDD创建一个新的RDD;而action则主要是对RDD进行最后的操作,比如遍历、reduce、保存到文件等,并可以返回结果给Driver程序。...

2023-02-25
0

sqoop简介及安装配置

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

2023-02-25
2

超越传统数据仓库

当前数据仓库的主流架构:分为两个方向一个是 hadoop 体系,一个是 MPP 数据库

2023-02-25
2