最新 最热

Hadoop概述

Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。...

2022-03-30
1

【大数据】MapReduce组件 :Partition分区和排序

【大数据】MapReduce组件 :Partition分区和排序

2022-03-30
0

造一个 redux 轮子

Redux 应该是很多前端新手的噩梦。还记得我刚接触 Redux 的时候也是刚从 Vue 转过来的时候,觉得Redux 概念非常多,想写一个 Hello World 都难。

2022-03-29
1

redux 文档到底说了什么(下)

上一篇文章主要介绍了 redux 文档里所用到的基本优化方案,但是很多都是手工实现的,不够自动化。这篇文章主要讲的是怎么用 redux-toolkit 组织 redux 代码。...

2022-03-29
1

redux 文档到底说了什么(上)

虽然文档写得不怎么样,但是里面确实给了很多比较好的代码组织方式,推荐了很多很有用的工具和插件,也慢慢地理解为什么这么简单的一个状态中心可以搞出这么多概念和库。...

2022-03-29
1

Spark 处理小文件

不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长,查看Spark log会发现大量的数据移动的日志。我们可以查看log中展现的日志信息,去对应的路径下查看文件的...

2022-03-27
0

python-内置函数(搭配lambda使用)

目录常用的内置函数需要注意的知识点:enumerate()函数map()函数zip()函数filter()函数reduce()函数sum()函数max()/ min()函数sort()函数sorted()函数内置函数一览表:常用的内置函数学习!需要注意的知识点: 大部分内置函数经常......

2022-03-25
0

0872-7.1.4-如何启用CGroup限制YARN CPU使用率

1.文档编写目的 首先说明什么场景下适合使用CGroup,为什么会在集群YARN 中对CPU 进行Vcore数超配的情况下同样一个作业,同样的资源参数,有时候处理很快,有时候处理很慢,出现作业的运行效率无法预估情况? 当我们期望通过合理...

2022-03-24
1

大数据hadoop环境搭建

tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app

2022-03-24
0

Spark 行动算子源码分析

action算子都是直接调用sc.runJob(this, func _), 在调用时将func传给分区执行,并在调用后,在Driver端对数据在执行自定义的函数。

2022-03-23
0