一.前置工作
1.准备好centos虚拟机,安装好yum,vim
2.准备编译后的安装包:
apache-maven-3.3.9-bin.tar.gz
elasticsearch-6.3.0.tar.gz
elasticsearch-spark-20_2.11-6.3.0.jar
gradle-4.5-all.zip
hadoop-2.6.0-cdh5.7.0.tar.gz
jdk-8u91-linux-x64.tar.gz
kibana-6.3.0-linux-x86_64.tar.gz
nginx-1.11.6.tar.gz
Python-3.6.8.tar.xz
scala-2.11.8.tgz
spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz
二.上传安装包
1.安装lrzsz
sudo yum install lrzsz
2.centos上创建文件夹software,用于存放安装包,rz命令上传文件
mkdir software
三.解压安装包,配置环境变量
1.创建文件夹app,用于存放解压后的文件
tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app
2.配置环境变量
vim ~/.bash_profile
注意配置顺序依次为:java,scala,hadoop,具体见如下截图
source ~/.bash_profile --------source后环境变量才会起作用
除了Hadoop的配置稍微繁琐意外,其余的配置都基本相同。
3.修改hadoop配置
目录:/etc/hadoop
vim hadoop-env.sh 配置JAVA_HOME
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91
vim core-site.xml 配置namenode
[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml
#(1)fs.defaultFS参数配置的是HDFS的地址。
fs.defaultFS
hdfs://bigdata-senior01.chybinmy.com:8020
#(2)hadoop.tmp.dir配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存放这个目录下,查看*-default.xml等默认配置文件,就可以看到很多依赖${hadoop.tmp.dir}的配置。默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下,如果操作系统重启了,系统会清空/tmp目录下的东西,导致NameNode元数据丢失,是个非常严重的问题,所有我们应该修改这个路径。
#创建临时目录:
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp
#将临时目录的所有者修改为hadoop
[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tm
#修改hadoop.tmp.dir
hadoop.tmp.dir
/opt/data/tmp
vim hdfs-site.xml 配置dfs的namenode和datanode
<name>dfs.replication</name>
<value>1</value>
mapred-site.xml配置
<name>fs.default.name</name>
<value>hdfs://hadoop000:8020</value>
v
im yarn-site.xml
#配置mapred-site.xml,默认没有mapred-site.xml文件,但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。
[hadoop@bigdata-senior01 hadoop-2.5.0]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
#添加配置如下:
<name>mapreduce.framework.name</name>
<value>yarn</value>
#指定mapreduce运行在yarn框架上。
4.启动hadoop, 格式化(非常关键的一步)
hadoop bin目录下执行命令:./hadoop namenode -format
运行结果如下:
Hadoop sbin目录下执行命令:./start-dfs.sh (非常关机的一步)
5.执行hadoop,查看hadoop,至此hadoop已经安装成功
6.浏览器上查看hadoop管理页面(hdfs读写文件的过程此处省略)
【小结】:
hadoop运行环境的搭建设计的安装包、环境变量、配置文件比较多,稍微一不留神就容易踩坑,一路上需要多加小心才行。好事多磨总能出结果。