最新 最热

Hadoop 入门教程(超详细)[通俗易懂]

在 Hadoop 1.x 时代,Hadoop 中的 MapReduce 同时处理业务逻辑运算和资源调度,耦合性较大。 在 Hadoop 2.x 时代,增加了 Yarn。Yarn 只负责资源的调度,MapReduce 只负责运算。...

2022-08-12
1

开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群

课件获取:关注公众号 “数栈研习社”,后台私信 “ChengYing” 获得直播课件

2022-08-11
1

Hadoop与Spark等大数据框架介绍[通俗易懂]

海量数据的存储问题很早就已经出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别。很早以前,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无...

2022-08-10
1

招聘分析2020.6.1

3、=IF(ISNUMBER(FIND(UPPER(Y1),UPPER(J4148))),1,0) 用excel函数清洗整理相关关键字出现次数并绘制岗位薪酬箱线图和技能薪酬箱线图。

2022-08-10
1

hbase拾遗「建议收藏」

3,特点:面向列,支持独立索引,每个列支持存储多版本,稀疏性:空列不占内存,可随意做列扩展,传统DB无数据的列会以null填充。因为hbase是基于hdfs 的所以具有扩展性、高可用性、动态增加DataNode、高性能:LSM数据结构(子节点不断合...

2022-08-09
1

spark与hadoop的关联和区别,以及spark为什么那么快

Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。

2022-08-09
1

第一章,安装spark集群,测试和运行wordcount 案例

地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.0/

2022-08-09
1

第十二章 结合flume+mapreduce+hive+sqoop+mysql的综合实战练习

项目大致过程是:flume监控日志文件,定时把文件清洗后上传到hdfs上,上传清晰后的数据是格式化的,可被hive识别,然后hive创建表,写脚本,执行hql语句,把执行结果写到hdfs上,最后为了方便查看,把放在hdfs上的结果通过sqoop放在mysql...

2022-08-09
1

hadoop集群启动步骤

xiaoye@ubuntu:~/zookeeper$ ./sbin/zkServer.sh start

2022-08-09
0

Presto集群部署

随着大数据的普及,大部分企业的大数据查询与统计渐渐出现瓶颈。虽说存储方面有分布式的HDFS,HBSE,MongoDB等可以应对,但是面对千万级别(1x10^7)界别的数据量查询时,以上组件也不免显得力不从心。正因此,分布式查询引擎应运...

2022-08-09
0