最新 最热

如何在 CentOS 上安装 Apache Hadoop

Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Apache™ Hadoop® 是可靠、可扩展、分布式计算的开源软件。...

2021-09-09
1

WIN 10 安装 Hadoop 2.7.7 + Spark 2.4.7 记录

环境:win 10 + java 1.8.0_281 + Scala 2.11.11 + Hadoop 2.7.7 + Spark2.4.7

2021-09-06
1

HiveQL: 数据定义

注:cmd里显示数据库名,需要 vim /usr/local/hive/bin/.hiverc 添加 set hive.cli.print.current.db=true;

2021-09-06
1

数据仓库 Hive(内含大数据镜像下载)

安装没成功:直接用现成的镜像 大数据Linux实验环境虚拟机镜像文件 http://dblab.xmu.edu.cn/blog/1645-2/ cloudera-quickstart-vm-集成了大数据平台的虚拟机镜像

2021-09-06
1

MapReduce 编程实践

文章目录1. MapReduce 作业流程2. 实践2.1 启动 hadoop2.2 创建 java 项目2.3 MapReduce shell2.4 MapReduce Web UI3. MapReduce 编程实践:统计对象中的某些属性 参考书:《Hadoop大数据原理与应用》 1. M......

2021-09-06
1

HDFS Java API 实践

安装集群:https://michael.blog.csdn.net/article/details/114607857

2021-09-06
1

hadoop 多机全分布式安装步骤(虚拟机1master+2slave)

同理,另外两台 ip 为:192.168.253.128, 192.168.253.129(个人根据自己的情况来)

2021-09-06
1

hadoop 单机伪分布式安装步骤

环境 Centos7 参考: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

2021-09-06
1

为何Spark更高效?

这三个特性使得 Spark 相对 Hadoop MapReduce 可以有更快的执行速度,以及更简单的编程实现

2021-09-06
1

MapReduce 计算框架如何运作

分布式计算需要将不同服务器上的相关数据合并到一起进行下一步计算,这就是 shuffle

2021-09-06
1