mapreduce_字节宝

蚂蚁绊倒大象？不起眼的小文件竟拖了Hadoop大佬的后腿

在使用Hadoop过程中，小文件是一种比较常见的挑战，如果不小心处理，可能会带来一系列的问题。HDFS是为了存储和处理大数据集（M以上）而开发的，大量小文件会导致Namenode内存利用率和RPC调用效率低下，block扫描吞吐量下降，应用层...

大数据 spark hive mapreduce Node.js

2021-03-05

MapReduce

· 资源与计算强耦合，其他计算框架需要重复实现资源管理，例如如果用spark也要进行调用，不知道哪个是被MapReduce调用的

mapreduce

2021-03-05

系列文章一：精选大数据面试真题10道（混合型）-附答案详细解析

大数据笔面试系列文章分为两种类型：混合型（即一篇文章中会有多个框架的知识点—融会贯通）；专项型（一篇文章针对某个框架进行深入解析—专项演练）。...

tcpip 大数据 Kafka mapreduce spark

2021-03-04

Hive底层原理：explain执行计划详解

不懂hive中的explain，说明hive还没入门，学会explain，能够给我们工作中使用hive带来极大的便利！

SQL hive mapreduce

2021-03-04

数仓面试高频考点--解决hive小文件过多问题

五分钟学大数据，致力于大数据技术研究，如果你有任何问题或建议，可添加底部小编微信或直接后台留言

hive SQL mapreduce Node.js 大数据

2021-03-04

hadoop生态之hive

大数据的生态包含各种各样的组件，hive是其中之一，hive主要是作为数据仓库的工具，简化相关人员的代码工作，只要编写简单的SQL就可以实现mapreduce效果。...

hive mapreduce 云数据库SQLServer 数据库 SQL

2021-03-04

hadoop之yarn调度

在大数据的生态中，hdfs解决了海量数据的存储问题，mapreduce解决了海量数据的计算问题，而在任务的执行和资源统一管理层面，则是使用yarn进行统一调度。...

yarn mapreduce 大数据容器 Node.js

2021-03-04

MLlib

使用Spark SQL中的DF作为数据集，可以容纳各种数据类型。DF被ML Pinline用来存储源数据。DF中的列可以是：

spark mapreduce 机器学习神经网络深度学习

2021-03-02

Spark笔记11-Spark-SQL基础

Hive会将SQL语句转成MapReduce作业，本身不执行SQL语句。基本执行原理如下图：

hive spark SQL mapreduce 编程算法

2021-03-02

python-for-data-python基础

本文主要是对Python的数据结构进行了一个总结，常见的数据结构包含：列表list、元组tuple、字典dict和集合set。

mapreduce 编程算法

2021-03-01

88 89 90 91 92

蚂蚁绊倒大象？不起眼的小文件竟拖了Hadoop大佬的后腿

MapReduce

系列文章一：精选大数据面试真题10道（混合型）-附答案详细解析

Hive底层原理：explain执行计划详解

数仓面试高频考点--解决hive小文件过多问题

hadoop生态之hive

hadoop之yarn调度

MLlib

Spark笔记11-Spark-SQL基础

python-for-data-python基础

热门文章

热门手册