最新 最热

hadoop常用命令总结及百万调优

以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml)

2021-12-07
1

HDFS伪分布式环境搭建

HDFS是主/从式的架构。一个HDFS集群会有一个NameNode(简称NN),也就是命名节点,该节点作为主服务器存在(master server).

2021-12-07
0

【推荐系统】推荐业务架构介绍(一)

在头条APP海量用户与海量文章之上,使用lambda大数据实时和离线计算整体架构,利用黑马头条用户在APP上的点击行为、浏览行为、收藏行为等建立用户与文章之间的画像关系,通过机器学习推荐算法进行智能推荐...

2021-12-07
1

最新大数据集群安装方法CentOS7.6__大数据环境安装和配置

大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,Spark2.4.0等)

2021-12-07
1

Note_Spark_Day01:Spark 框架概述和Spark 快速入门

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]

2021-12-07
1

Note_Spark_Day01:Spark 基础环境

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Rk9bK5g-1625406507847)(/img/image-20210419160056620.png)]

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day23】——Spark10

不一定,除了一对一的窄依赖,还包含一对固定个数的窄依赖(就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变), 比如join操作的每个partiion仅仅和已知的partition进行join,这个join操作是窄依赖,依赖固定...

2021-12-07
1

大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day20】——Spark7

可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。 配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。...

2021-12-07
1

[hadoop3.x]HDFS中的内存存储支持(七)概述

[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS

2021-12-06
0

✨[hadoop3.x]新一代的存储格式Apache Arrow(四)

[hadoop3.x系列]HDFS REST HTTP API的使用(一)WebHDFS

2021-12-06
1