最新 最热

蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层...

2021-03-05
0

MapReduce

· 资源与计算强耦合,其他计算框架需要重复实现资源管理,例如如果用spark也要进行调用,不知道哪个是被MapReduce调用的

2021-03-05
0

系列文章一:精选大数据面试真题10道(混合型)-附答案详细解析

大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点—融会贯通);专项型(一篇文章针对某个框架进行深入解析—专项演练)。...

2021-03-04
0

Hive底层原理:explain执行计划详解

不懂hive中的explain,说明hive还没入门,学会explain,能够给我们工作中使用hive带来极大的便利!

2021-03-04
0

数仓面试高频考点--解决hive小文件过多问题

五分钟学大数据,致力于大数据技术研究,如果你有任何问题或建议,可添加底部小编微信或直接后台留言

2021-03-04
0

hadoop生态之hive

大数据的生态包含各种各样的组件,hive是其中之一,hive主要是作为数据仓库的工具,简化相关人员的代码工作,只要编写简单的SQL就可以实现mapreduce效果。...

2021-03-04
0

hadoop之yarn调度

在大数据的生态中,hdfs解决了海量数据的存储问题,mapreduce解决了海量数据的计算问题,而在任务的执行和资源统一管理层面,则是使用yarn进行统一调度。...

2021-03-04
1

MLlib

使用Spark SQL中的DF作为数据集,可以容纳各种数据类型。DF被ML Pinline用来存储源数据。DF中的列可以是:

2021-03-02
0

Spark笔记11-Spark-SQL基础

Hive会将SQL语句转成MapReduce作业,本身不执行SQL语句。 基本执行原理如下图:

2021-03-02
0

python-for-data-python基础

本文主要是对Python的数据结构进行了一个总结,常见的数据结构包含:列表list、元组tuple、字典dict和集合set。

2021-03-01
0