最新 最热

Python高阶函数使用总结!

本文结合各种实际的例子详细讲解了Python5个内建高阶函数的使用,能够帮助理解Python的数据结构和提高数据处理的效率,这5个函数分别是:

2020-11-17
0

Python高阶函数使用总结!

审稿人:耿远昊,Datawhale成员,华东师范大学,开源教程《Joyful-Pandas》核心贡献者。

2020-11-16
0

大数据篇---hadoop学习一、搭建hadoop环境(centos7)二、hadoop知识点

大咖揭秘Java人都栽在了哪?点击免费领取《大厂面试清单》,攻克面试难关~>>>

2020-11-13
1

Kotlin Flow 看这一篇 带你入门~

在最近的三篇中,标题都是 ***** 看这一篇就够了,而这篇关于Flow的,我认怂了,只能说 看这一篇 带你入门~,因为我发现Flow牵扯的东西实在是太多了,就像RxJava别说两篇 可能五篇也是说不完的。...

2020-11-12
0

sparksql(1)——Dataframe

sparksql类似于hive,但它基于内存,而hive基于mapreduce,而mapreduce又基于磁盘,所以spark处理数据快得多。 sparksql不止有sql语句,现在他还有Dataframe的API,Dataframe比写RDD要快。dataframe将非结构化数据schema化。 spa...

2020-11-11
0

Spark(4)——transformation、action、persist

将一个RDD变成一个新的RDD’ 比如mapreduce中的map操作,将数据集里的元素做处理变成新的元素,形成RDD’。transformation是不会立刻将结果算出来的,相当于把你的意图记下来,最后还要经过action这样的刺激才会返回计算结果...

2020-11-11
0

hive(3)——使用mapreduce

当查询数据复杂时,hive就会调用hadoop里的mapreduce,前提:开启hdfs和yarn服务。

2020-11-11
1

Hive性能调优 | 并行执行/严格模式/JVM重用/推测执行

通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。

2020-11-06
0

Hive性能调优 | 数据倾斜

当input的文件都很大,任务逻辑复杂,map执行非常慢的时候,可以考虑增加Map数,来使得每个map处理的数据量减少,从而提高任务的执行效率。针对上面的第4条 假设有这样一个任务:...

2020-11-06
0

Hive性能调优 | Fetch抓取

我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。

2020-11-06
0