3台hadoop集群部署计划---安装系列一

2023-06-29 11:18:34 浏览数 (1)

注意:apache官网提供的hadoop-2.x的安装包是在32位操作系统编译的,因为hadoop依赖一些C 的本地库,

所以如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译

安装 yum install psmisc

Killall -9 java

安装 glibc-headers 和  g  命令如下: 

 $yum install glibc-headers

   $ yum install gcc-c

安装make和cmake

yum install make yum install cmake

前提准备:

1.修改Linux主机名

       vim /etc/sysconfig/network

NETWORKING=yes

HOSTNAME=hadoop01    ###

2.修改IP

vim /etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE="eth0"

BOOTPROTO="static"               ###

HWADDR="00:0C:29:3C:BF:E7"

IPV6INIT="yes"

NM_CONTROLLED="yes"

ONBOOT="yes"

TYPE="Ethernet"

UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"

IPADDR="192.168.1.103"           ###

NETMASK="255.255.255.0"          ###

GATEWAY="192.168.1.1"            ###

3.修改主机名和IP的映射关系

vim /etc/hosts

192.168.1.103 hadoop01

######注意######如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等)

/etc/hosts里面要配置的是内网IP地址和主机名的映射关系

4.关闭防火墙

#查看防火墙状态

service iptables status

#关闭防火墙

service iptables stop

#查看防火墙开机启动状态

chkconfig iptables --list

#关闭防火墙开机启动

chkconfig iptables off

Centos7:

启动:# systemctl start  firewalld

查看状态:# systemctl status firewalld 或者 firewall-cmd --state

停止:# systemctl disable firewalld

禁用:# systemctl stop firewalld

重启reboot

5.ssh免登陆

#生成ssh免登陆密钥

#进入到我的home目录

cd ~/.ssh

ssh-keygen -t rsa (四个回车)

执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

将公钥拷贝到要免登陆的机器上

cp id_rsa.pub authorized_keys

ssh-copy-id localhost

6.安装JDK,配置环境变量等

6.1上传

6.2解压jdk

#创建文件夹

mkdir /usr/java

#解压

tar -zxvf jdk-7u55-linux-i586.tar.gz -C /usr/java/

6.3将java添加到环境变量中

vim /etc/profile

#在文件最后添加

export JAVA_HOME=/usr/java/jdk1.7.0_55

export PATH=PATH:JAVA_HOME/bin

#刷新配置

source /etc/profile

3台虚拟机的hadoop的HA集群部署计划

hadoop01

zookeeper

journalnode

nodemanager

datanode

resourcemanager

namenode

zkfc

hadoop02

zookeeper

journalnode

nodemanager

datanode

resourcemanager

namenode

zkfc

hadoop03

zookeeper

journalnode

nodemanager

datanode

说明:

1.在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。

hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中,主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode

这里还配置了一个zookeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为standby状态。

安装步骤:

1.安装配置zooekeeper集群(在hadoop01上)

1.1解压

tar -zxvf zookeeper-3.4.5.tar.gz -C /itcast/

1.2修改配置

cd /itcast/zookeeper-3.4.5/conf/

cp zoo_sample.cfg zoo.cfg

vim zoo.cfg

修改:dataDir=/itcast/zookeeper-3.4.5/tmp

在最后添加:

server.1=centos1:2888:3888

server.2=centos2:2888:3888

server.3=centos3:2888:3888

保存退出

然后创建一个tmp文件夹

mkdir /itcast/zookeeper-3.4.5/tmp

再创建一个空文件

touch /itcast/zookeeper-3.4.5/tmp/myid

最后向该文件写入ID

echo 1 > /itcast/zookeeper-3.4.5/tmp/myid

1.3将配置好的zookeeper拷贝到其他节点(首先分别在hadoop02、hadoop03根目录下创建一个itcast目录:mkdir /itcast)

scp -r /itcast/zookeeper-3.4.5/  hadoop02:/itcast/

scp -r /itcast/zookeeper-3.4.5/  hadoop03:/itcast/

注意:修改hadoop02、hadoop03对应/itcast/zookeeper-3.4.5/tmp/myid内容

hadoop02:

echo 2 > /itcast/zookeeper-3.4.5/tmp/myid

hadoop03:

echo 3 > /itcast/zookeeper-3.4.5/tmp/myid

2.安装配置hadoop集群(在hadoop01上操作)

2.1解压

tar -zxvf hadoop-2.6.0.tar.gz -C /itcast/

2.2配置HDFS(hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hadoop目录下)

#将hadoop添加到环境变量中

vim /etc/profile

export JAVA_HOME=/usr/java/jdk1.7.0_55

export HADOOP_HOME=/itcast/hadoop-2.6.0

export PATH=PATH:JAVA_HOME/bin:

#hadoop2.0的配置文件全部在$HADOOP_HOME/etc/hadoop下

cd /itcast/hadoop-2.6.0/etc/hadoop

2.2.1修改hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_55

2.2.2修改core-site.xml

<configuration>

<!-- 指定hdfs的nameservice为ns1 -->

<property>

<name>fs.defaultFS</name>

<value>hdfs://ns1</value>

</property>

<!-- 指定hadoop临时目录 -->

<property>

<name>hadoop.tmp.dir</name>

<value>/itcast/hadoop-2.6.0/tmp</value>

</property>

<!-- 指定zookeeper地址 -->

<property>

<name>ha.zookeeper.quorum</name>

<value>centos1:2181,centos2:2181,centos3:2181</value>

</property>

</configuration>

2.2.3修改hdfs-site.xml

<configuration>

<!--指定hdfs的nameservice为ns1,需要和core-site.xml 中的保持一致 -->

<property>

<name>dfs.nameservices</name>

<value>ns1</value>

</property>

<!-- ns1下面有两个NameNode,分别是nn1,nn2 -->

<property>

<name>dfs.ha.namenodes.ns1</name>

<value>nn1,nn2</value>

</property>

<!-- nn1的RPC通信地址 -->

<property>

<name>dfs.namenode.rpc-address.ns1.nn1</name>

<value>centos1:9000</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/itcast/hadoop-2.6.0/tmp/dfs/data/node2(三个从节点名字不一样)</value>

</property>

<!-- nn1的http通信地址 -->

<property>

<name>dfs.namenode.http-address.ns1.nn1</name>

<value>centos1:50070</value>

</property>

<!-- nn2的RPC通信地址 -->

<property>

<name>dfs.namenode.rpc-address.ns1.nn2</name>

<value>centos2:9000</value>

</property>

<!-- nn2的http通信地址 -->

<property>

<name>dfs.namenode.http-address.ns1.nn2</name>

<value>centos2:50070</value>

</property>

<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->

<property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://centos1:8485;centos2:8485;centos3:8485/ns1</value>

</property>

<!-- 指定JournalNode在本地磁盘存放数据的位置 -->

<property>

<name>dfs.journalnode.edits.dir</name>

<value>/itcast/hadoop-2.6.0/journal</value>

</property>

<!-- 开启NameNode失败自动切换 -->

<property>

<name>dfs.ha.automatic-failover.enabled</name>

<value>true</value>

</property>

<!-- 配置失败自动切换实现方式 -->

<property>

<name>dfs.client.failover.proxy.provider.ns1</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行-->

<property>

<name>dfs.ha.fencing.methods</name>

<value>

sshfence

shell(/bin/true)

</value>

</property>

<!-- 使用sshfence隔离机制时需要ssh免登陆 -->

<property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

<value>/root/.ssh/id_rsa</value>

</property>

<!-- 配置sshfence隔离机制超时时间 -->

<property>

<name>dfs.ha.fencing.ssh.connect-timeout</name>

<value>30000</value>

</property>

</configuration>

2.2.4修改mapred-site.xml

<configuration>

<!-- 指定mr框架为yarn方式 -->

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

2.2.5修改yarn-site.xml

<configuration>

<!-- 开启RM高可靠 -->

<property>

   <name>yarn.resourcemanager.ha.enabled</name>

   <value>true</value>

</property>

<!-- 指定RM的cluster id -->

<property>

   <name>yarn.resourcemanager.cluster-id</name>

   <value>yrc</value>

</property>

<!-- 指定RM的名字 -->

<property>

   <name>yarn.resourcemanager.ha.rm-ids</name>

   <value>rm1,rm2</value>

</property>

<!-- 分别指定RM的地址 -->

<property>

   <name>yarn.resourcemanager.hostname.rm1</name>

   <value>centos1</value>

</property>

<property>

   <name>yarn.resourcemanager.hostname.rm2</name>

   <value>centos2</value>

</property>

<!-- 指定zk集群地址 -->

<property>

   <name>yarn.resourcemanager.zk-address</name>

   <value>centos1:2181,centos2:2181,centos3:2181</value>

</property>

<property>

   <name>yarn.nodemanager.aux-services</name>

   <value>mapreduce_shuffle</value>

</property>

</configuration>

2.2.6修改slaves

Hadoop01

Hadoop02

Hadoop03

2.2.7配置免密码登陆

2.4将配置好的hadoop拷贝到其他节点

scp -r /itcast/hadoop-2.6.0/  hadoop02:/itcast/

scp -r /itcast/hadoop-2.6.0/  hadoop03:/itcast/

###注意:严格按照下面的步骤

2.5启动zookeeper集群(分别在hadoop01、hadoop02、hadoop03上启动zk)

cd /itcast/zookeeper-3.4.5/bin/

./zkServer.sh start

#查看状态:一个leader,两个follower

./zkServer.sh status

2.6启动journalnode(分别在在hadoop01、hadoop02、hadoop03上执行)

cd /itcast/hadoop-2.6.0

sbin/hadoop-daemon.sh start journalnode

#运行jps命令检验

2.7格式化HDFS

#在itcast01上执行命令:

hdfs namenode -format

#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成 个文件拷贝hadoop01->hadoop02     

scp -r tmp/ 192.168.1.104:/itcast/hadoop-2.6.0/

2.8格式化ZK(在hadoop01上执行即可)

hdfs zkfc -formatZK

2.9启动HDFS(在hadoop01上执行)

sbin/start-dfs.sh

2.10启动YARN(在hadoop01上执行start-yarn.sh)

sbin/start-yarn.sh

到此,hadoop-2.6.0配置完毕,可以统计浏览器访问:

http://192.168.1.103:50070

NameNode 'itcast01:9000' (active)

http://192.168.1.104:50070

NameNode 'itcast02:9000' (standby)

验证HDFS HA

首先向hdfs上传一个文件

hadoop fs -put /etc/profile /profile

hadoop fs -ls /

然后再kill掉active的NameNode

kill -9 <pid of NN>

通过浏览器访问:http://192.168.1.104:50070

NameNode 'hadoop02:9000' (active)

这个时候ihadhoop02上的NameNode变成了active

在执行命令:

hadoop fs -ls /

-rw-r--r--   3 root supergroup       1926 2017-02-06 15:36 /profile

刚才上传的文件依然存在!!!

手动启动那个挂掉的NameNode

sbin/hadoop-daemon.sh start namenode

通过浏览器访问:http://192.168.1.103:50070

NameNode 'hadoop01:9000' (standby)

验证YARN:

运行一下hadoop提供的demo中的WordCount程序:

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /profile /out

0 人点赞