大数据hadoop环境搭建

2022-03-24 09:22:58 浏览数 (1)

一.前置工作

1.准备好centos虚拟机,安装好yum,vim

2.准备编译后的安装包:

apache-maven-3.3.9-bin.tar.gz

elasticsearch-6.3.0.tar.gz

elasticsearch-spark-20_2.11-6.3.0.jar

gradle-4.5-all.zip

hadoop-2.6.0-cdh5.7.0.tar.gz

jdk-8u91-linux-x64.tar.gz

kibana-6.3.0-linux-x86_64.tar.gz

nginx-1.11.6.tar.gz

Python-3.6.8.tar.xz

scala-2.11.8.tgz

spark-2.3.0-bin-2.6.0-cdh5.7.0.tgz

二.上传安装包

1.安装lrzsz

sudo yum install lrzsz

2.centos上创建文件夹software,用于存放安装包,rz命令上传文件

mkdir software

三.解压安装包,配置环境变量

1.创建文件夹app,用于存放解压后的文件

tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app

2.配置环境变量

vim ~/.bash_profile

注意配置顺序依次为:java,scala,hadoop,具体见如下截图

source ~/.bash_profile --------source后环境变量才会起作用

除了Hadoop的配置稍微繁琐意外,其余的配置都基本相同。

3.修改hadoop配置

目录:/etc/hadoop

vim hadoop-env.sh 配置JAVA_HOME

export JAVA_HOME=/home/hadoop/app/jdk1.8.0_91

vim core-site.xml 配置namenode

[hadoop@bigdata-senior01 ~]{HADOOP_HOME}/etc/hadoop/core-site.xml

#(1)fs.defaultFS参数配置的是HDFS的地址。

fs.defaultFS

hdfs://bigdata-senior01.chybinmy.com:8020

#(2)hadoop.tmp.dir配置的是Hadoop临时目录,比如HDFS的NameNode数据默认都存放这个目录下,查看*-default.xml等默认配置文件,就可以看到很多依赖${hadoop.tmp.dir}的配置。默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下,如果操作系统重启了,系统会清空/tmp目录下的东西,导致NameNode元数据丢失,是个非常严重的问题,所有我们应该修改这个路径。

#创建临时目录:

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo mkdir -p /opt/data/tmp

#将临时目录的所有者修改为hadoop

[hadoop@bigdata-senior01 hadoop-2.5.0]$ sudo chown –R hadoop:hadoop /opt/data/tm

#修改hadoop.tmp.dir

hadoop.tmp.dir

/opt/data/tmp

vim hdfs-site.xml 配置dfs的namenode和datanode

<name>dfs.replication</name>

<value>1</value>

mapred-site.xml配置

<name>fs.default.name</name>

<value>hdfs://hadoop000:8020</value>

v

im yarn-site.xml

#配置mapred-site.xml,默认没有mapred-site.xml文件,但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml。

[hadoop@bigdata-senior01 hadoop-2.5.0]# cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

#添加配置如下:

<name>mapreduce.framework.name</name>

<value>yarn</value>

#指定mapreduce运行在yarn框架上。

4.启动hadoop, 格式化(非常关键的一步)

hadoop bin目录下执行命令:./hadoop namenode -format

运行结果如下:

Hadoop格式化结果Hadoop格式化结果

Hadoop sbin目录下执行命令:./start-dfs.sh (非常关机的一步)

5.执行hadoop,查看hadoop,至此hadoop已经安装成功

hadoop验证hadoop验证

6.浏览器上查看hadoop管理页面(hdfs读写文件的过程此处省略)

hadoop管理页面hadoop管理页面
Hadoop数据呈现Hadoop数据呈现

小结】:

hadoop运行环境的搭建设计的安装包、环境变量、配置文件比较多,稍微一不留神就容易踩坑,一路上需要多加小心才行。好事多磨总能出结果。

0 人点赞