【首页推荐】详解 HBase 安装及部署配置

『数人之道』原创文章，转载请关注本公众号联系我们

文章大纲：

由于 HBase 是以 HDFS 作为底层存储文件系统的，因此部署好 Hadoop 并启动服务是 HBase 部署的先决条件。我们将在《第三篇：Hadoop部署配置及运行调试(下) - HA完全分布式》中部署的 Hadoop 上，以完全分布式模式来安装部署并运行 HBase.

1 安装前检查

HBase 是数据库，会在同一时间使用很多的文件句柄，而 Linux 系统最大可打开文件数一般默认的参数值是 1024，如果不进行修改，当并发量上来的时候就会出现 "Too Many Open Files" 的错误，导致整个 HBase 不可运行。另外，还需要修改 HBase 用户的 nproc，设置单个用户可用的最大进程数量，如果过低会造成 OOM 异常。

先查看当前用户的 ulimit：

代码语言：shell复制

ulimit -n

在三台节点机器上编辑以下文件：

代码语言：shell复制

vim /etc/security/limits.conf

由于安装 HBase 使用的用户也是 hadoop，因此修改用户 hadoop 的上限值设置，在文件末追加以下参数：

代码语言：shell复制

hadoop        soft    nofile          102401
hadoop        hard    nofile          102401
hadoop        soft    nproc            32000
hadoop        hard    nproc            32000

修改后注销用户并重新登录，配置才能生效。

2 安装 HBase

将下载的 HBase 压缩包上传到 hadoop100 机器的 /opt/softwares 目录，这里使用的是 2.4.8 稳定版本。

下载地址： https://hbase.apache.org/downloads.html

将 HBase 压缩包解压到 /opt/modules 目录下安装：

代码语言：shell复制

tar -zxvf /opt/softwares/hbase-2.4.8-bin.tar.gz -C /opt/modules/

注意：建议下载带有 bin 的安装包，不带 bin 的安装包需要下载后编译打包才能使用。

3 配置 HBase

服务器规划如下：hadoop100 作为主节点，运行 HMaster 及 HRegionServer 服务；hadoop101 及 hadoop102 作为从节点，运行 HRegionServer 服务。

3.1 配置 hbase-env.sh

修改 HBase 的 /conf 目录下 hbase-env.sh 文件中的以下参数配置：

3.1.1. 配置 JAVA_HOME 参数

HBase 2.4.8 版本需要运行在 JDK 1.8 的版本上：

代码语言：shell复制

# The java implementation to use.  Java 1.8  required.
# export JAVA_HOME=/usr/java/jdk1.8.0/
export JAVA_HOME="/opt/modules/jdk1.8.0_301"

3.1.2. 配置 Zookeeper 管理方式

一个分布式运行的 HBase 需要依赖一个 Zookeeper 集群，所有的节点和客户端都必须能够访问 Zookeeper. 默认的情况下 HBase 会管理一个 Zookeeper 集群，这个集群会作为 HBase 的一部分来管理启动，即 Zookeeper 会随着 HBase 的启动而启动，随着其关闭而关闭。

而我们这里是独立管理一个 Zookeeper 集群来运行，无需使用被 HBase 托管的 Zookeeper 集群，因此需要修改 Zookeeper 是否被托管的参数值为 false：

代码语言：shell复制

# Tell HBase whether it should manage it's own instance of ZooKeeper or not.
# export HBASE_MANAGES_ZK=true
export HBASE_MANAGES_ZK=false

若需要使用托管的 Zookeeper 集群则设置此参数值为 true.

3.2 配置 hbase-site.xml

在 hadoop100 上添加并修改 /conf 目录下 hbase-site.xml 文件中的参数配置。

hbase-site.xml 各参数默认值及描述检索地址： https://hbase.apache.org/book.html#config.files

1. hbase.rootdir

此参数用以指定 RegionServer 的共享目录，用于持久化存储 HBase 的数据。参数默认设置为写入 /tmp 中，若不修改此配置，在节点机器重启时，数据就会丢失，因此需要修改此参数值。

此处一般设置为 HDFS 的文件目录，即 NameNode 运行的节点机器，还要包含文件系统的 scheme. 由于 HDFS 是 HA 部署的，因此这里我们配置为 NameNode 的 nameservices 地址。

添加以下内容修改此参数值，指定 RegionServer 的共享目录地址：

代码语言：javascript复制

<property>
  <name>hbase.rootdir</name>
  <value>hdfs://mycluster/hbase</value>
</property>

2. hbase.tmp.dir

此参数用以指定 HBase 运行时产生的临时文件的存放目录，默认存放在 /tmp 目录下，若不修改此配置，在节点机器重启时，临时数据会被清除，因此建议修改此参数值，配置持久化的目录。

这里在 HBase 的安装目录下新建一个 tmp 目录，并将参数值指定此目录。

添加以下内容修改此参数值，指定 HBase 临时文件的存放目录：

代码语言：javascript复制

<property>
  <name>hbase.tmp.dir</name>
  <value>/opt/modules/hbase-2.4.8/tmp</value>
</property>

3. hbase.cluster.distributed

此参数用以配置 HBase 的部署模式，false 表示单机或伪分布式模式，true 表示完全分布式模式。这里我们使用完全分布式模式，因此设置为 true.

添加以下内容修改此参数值，配置 HBase 的部署模式：

代码语言：javascript复制

<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>

4. hbase.zookeeper.quorum

此参数用以用以指定 Zookeeper 集群节点的地址列表，各台机器的地址用逗号分隔。默认为 localhost, 完全分布式模式下需要修改。

添加以下内容修改此参数值，指定 Zookeeper 集群地址：

代码语言：javascript复制

<property>
  <name>hbase.zookeeper.quorum</name>
  <value>hadoop100,hadoop101,hadoop102</value>
</property>

5. hbase.zookeeper.property.clientPort

此参数用以指定 Zookeeper 集群地址的端口号，默认端口号为 2181.这里使用默认端口号，不作修改。

添加以下内容修改此参数值，指定 Zookeeper 地址的端口号：

代码语言：javascript复制

<property>
  <name>hbase.zookeeper.property.clientPort</name>
  <value>2181</value>
</property>

6. hbase.zookeeper.property.dataDir

此参数用以指定存储 Zookeeper 元数据的目录，默认设置为存储在 /tmp 下，若不修改此配置，在节点机器重启时，数据就会丢失，因此需要修改此参数值。这里指定在 zoo.cfg 配置文件中 dataDir 参数设置的目录。

添加以下内容修改此参数值，指定 Zookeeper 元数据存储目录：

代码语言：javascript复制

<property>
  <name>hbase.zookeeper.property.dataDir</name>
  <value>/opt/modules/apache-zookeeper-3.6.3-bin/data/zkData</value>
</property>

7. hbase.master.info.port

此参数用以指定 HBase 的 Web 页面客户端的端口号，默认端口号为 16010. 这里使用默认端口号。若不需要运行 Web 页面，将此参数值设置为 -1 即可。

添加以下内容修改此参数值，指定 HBase 的 Web 页面端口：

代码语言：javascript复制

<property>
  <name>hbase.master.info.port</name>
  <value>16010</value>
</property>

注意：由于 Zookeeper 集群地址端口号的设置与默认值一致，因此可以不添加此参数：hbase.zookeeper.property.clientPort.

3.3 配置 regionservers

在完全分布式模式下，需要修改 /conf 目录下的 regionservers 文件。此文件罗列了所有 Region 节点服务器的主机名，HBase 的运维脚本会依次迭代访问每一行来启动所有的 Region 节点服务器进程，跟 Hadoop 的 slaves 配置文件作用类似。

根据规划，添加 Region 节点服务器的主机名至 regionservers 配置文件中：

代码语言：javascript复制

hadoop100
hadoop101
hadoop102

注意：该文件中添加的内容，结尾不允许有空格，且文件中不允许有空行。

3.4 替换 Hadoop jar 包

由于 HBase 依赖于 Hadoop，因此 HBase 配套发布了 Hadoop 的 jar 包文件在其 lib 目录下。该套装 jar 包仅用于本地模式部署，在分布式模式下，Hadoop 下的 jar 包必须和 HBase 下的版本一致，若版本不匹配，会在 HBase 的运行过程中产生各种各样的问题。

HBase 下的 Hadoop jar 包替换方法：

3.4.1. 查看 HBase 的 Hadoop jar 包

执行以下命令查看 HBase 的 /lib 目录下的 Hadoop jar 包：

代码语言：shell复制

ls -rtl /opt/modules/hbase-2.4.8/lib/hadoop*

可以看到，HBase 下的 Hadoop jar 包的版本是 2.10.0, 而我们使用的 Hadoop 版本是 2.10.1, 版本不一致，因此需要进行替换。

3.4.2. 删除 HBase 的 Hadoop jar 包

执行以下命令，删除掉 HBase 下的所有 Hadoop 相关的 jar 包：

代码语言：shell复制

rm -rf /opt/modules/hbase-2.4.8/lib/hadoop*.jar

3.4.3. 拷贝 Hadoop 下的 jar 包到 HBase

执行以下命令，拷贝所有 Hadoop 2.10.1 版本下的 jar 包到 HBase 下进行版本统一：

代码语言：shell复制

find /opt/modules/app/hadoop-2.10.1/share/hadoop/ -name "hadoop*jar" | xargs -i cp {} /opt/modules/hbase-2.4.8/lib/

完成后进入 /lib 目录查看 Hadoop 的 jar 包版本是否已经统一。

3.5 创建 HA 配置文件（可选）

若使用 HA 完全分布式模式来部署 HBase, 还需要在 /conf 目录下创建 backup-masters 配置文件，文件中添加备份 HMaster 节点的主机名，每个主机名占一行，以实现 HMaster 的高可用。

由于这里使用完全分布式模式部署，暂不考虑备份 HMaster 节点，因此不作配置。

4 分发文件

在 hadoop100 机器上完成 HBase 的安装及配置后，将 HBase 文件分发到另外两台机器上，并创建 Hadoop 配置文件软连接及添加环境变量。

4.1 分发 HBase 文件

使用 scp 安全拷贝的方式，将 hadoop100 上的 HBase 文件分发给另外两台机器：

代码语言：shell复制

scp -r /opt/modules/hbase-2.4.8/ hadoop@hadoop101:/opt/modules/
scp -r /opt/modules/hbase-2.4.8/ hadoop@hadoop102:/opt/modules/

分发完成后登录另外两台机器进行检查。

4.2 配置 Hadoop 参数文件

因为 HBase 集群需要读取 Hadoop 的 core-site.xml 及 hdfs-site.xml 配置文件信息，所以需要在三台机器上执行以下命令，在相应的目录创建这两个配置文件的软连接：

代码语言：shell复制

ln -s /opt/modules/app/hadoop-2.10.1/etc/hadoop/core-site.xml  /opt/modules/hbase-2.4.8/conf/core-site.xml
ln -s /opt/modules/app/hadoop-2.10.1/etc/hadoop/hdfs-site.xml  /opt/modules/hbase-2.4.8/conf/hdfs-site.xml

当然也可以复制这两个文件到 HBase 的 /conf 目录下，但这样每当修改了 Hadoop 的配置文件后都得在 HBase 下再修改一次。

4.3 添加 HBase 环境变量

在三台机器上编辑环境变量 /etc/profile 文件，追加 HBase 的环境变量：

代码语言：shell复制

##HBASE_HOME
export HBASE_HOME=/opt/modules/hbase-2.4.8
export PATH=$PATH:$HBASE_HOME/bin

执行以下命令使环境变量配置生效：

代码语言：shell复制

source /etc/profile

检查环境变量配置是否成功：

当然也可以使用分发文件的方式，配置 hadoop100 机器上的环境变量后将配置文件分发至其它机器上。

5 启动 HBase

由于 HBase 需要依赖于 Hadoop 及 Zookeeper 集群，因此在启动 HBase 之前需要确保 Hadoop 及 Zookeeper 已启动并正常运行。

5.1 独立启动 Zookeeper

由于设置了 HBASE_MANAGES_ZK 的值为 false, 需要运行不被 HBase 托管的独立的 Zookeeper 集群，因此需要独立启动 Zookeeper 集群，若已启动可忽略此步骤。

启动方法详见《第三篇：Hadoop部署配置及运行调试(下) - HA完全分布式》的3.4节“启动 Zookeeper”。

5.2 启动 Hadoop 集群

启动 Hadoop 集群，确保 HDFS 的服务正常运行，若已启动可忽略此步骤。

启动方法详见《第三篇：Hadoop部署配置及运行调试(下) - HA完全分布式》的4.4节“启动集群”。

5.3 启动 HBase

HBase 的启动方式跟 Hadoop 类似，也有两种方式，一种是单机模式启动，一种是集群模式启动。

5.3.1. 单机模式启动

在主节点 hadoop100 上执行以下命令，启动 HMaster 及 HRegionServer 服务：

代码语言：shell复制

hbase-daemon.sh start master
hbase-daemon.sh start regionserver

在从节点 hadoop101 及 hadoop102 上分别执行以下命令，启动 HRegionServer 服务：

代码语言：shell复制

hbase-daemon.sh start regionserver

5.3.2. 集群模式启动

在主节点机器 hadoop100 上执行以下命令：

代码语言：shell复制

start-hbase.sh

HBase 会进行集群群起，在 hadoop100 上启动 HMaster 及 HRegionServer 服务，在 hadoop101 及 hadoop102 上自动启动 HRegionServer 服务。

从图5-3-1可以看到，启动过程中检测到 HBase 下的 slf4j-log4j12 jar 包与 Hadoop 下的版本不一致造成 jar 包冲突，这是 Hadoop 生态下各组件共存时经常会发生的问题。解决方法是将其中一个 jar 包删除或重命名，这里修改 HBase 下的 jar 包名字：

代码语言：shell复制

mv /opt/modules/hbase-2.4.8/lib/client-facing-thirdparty/slf4j-log4j12-1.7.30.jar slf4j-log4j12-1.7.30.jar-bak

在三台机器上使用以下命令停止 HRegionServer 服务，再重新启动 HBase：

代码语言：shell复制

hbase-daemon.sh stop regionserver

可以看到已经能正常启动了：

服务进程消失问题： 在启动 HBase 后查看 jps, HMaster 服务进程存在，但过了若干分钟后，HMaster 进程自动消失了！查看日志发现抛 "Failed to become active master" 异常，最后无法写入 Zookeeper 文件。估计是由于 nn1 处于 standby 状态，配置没有生效造成的。重新启动 HDFS 集群，再启动 HBase, 问题得到解决。

启动完成后记得使用 jps 进行检查，确保主节点上运行有 HMaster 及 HRegionServer 服务进程，从节点上运行有 HRegionServer 服务进程。

5.4 查看 Web 页面

使用 Master 机器的地址（端口号默认为 16010）登录 HBase 的 Web 客户端页面，可查看 HBase 的各个 RegionServer 状态及表数据等信息：

至此，HBase 的安装部署成功完成。

THE END

hbase hadoop 大数据部署

0 人点赞