- 系统: Ubuntu 14.04 64bit
- Hadoop版本: Hadoop 2.5.2 (stable)
- JDK版本: JDK 1.6
虚拟机及Ubuntu安装
1. 下载并安装 VMware workstation 11
下载地址:https://my.vmware.com/web/vmware/info/slug/desktop_end_user_computing/vmware_workstation/11_0?wd= VMware workstation 11 &issp=1&f=3&ie=utf-8&tn=baiduhome_pg&inputT=1321&rsp=1
2. 下载Ubuntu 14.04,注意在虚拟机上安装之前需要解压!
3.在Vmware中新建虚拟机:虚拟机安装向导,标准,安装盘镜像文件:指向ubuntu 14.04解压的wubi.exe的路径。
4.虚拟机命名,注意保存路径,默认分配磁盘空间20G,虚拟磁盘拆分成多个文件。
虚拟机安装完成后自动启动安装
创建hadoop用户
如果你安装Ubuntu的时候不是用的hadoop
用户,那么需要增加一个名为hadoop
的用户,并将密码设置为hadoop
。
创建用户
代码语言:javascript复制sudo useradd hadoop
修改密码为hadoop
,按提示输入两次密码
sudo passwd hadoop
给hadoop用户创建目录,方可登陆
代码语言:javascript复制sudo mkdir /home/hadoop
sudo chown hadoop /home/hadoop
可考虑为 hadoop 用户增加管理员权限,方便部署,避免一些权限不足的问题:
代码语言:javascript复制sudo adduser hadoop sudo
最后注销当前用户,使用hadoop用户进行登陆。
JDK1.6的安装及配置
1.通过火狐浏览器下载jdk-6u45-linux-x64.bin(以下操作在虚拟机中进行)
sudo cp/home/moweiyang01/Downloads/jdk-6u45-linux-x64.bin /home/hadoop/
sudo chomd u x jdk-6u45-linux-x64.bin
运行jdk,在/home/hadoop$下:./ jdk-6u45-linux-x64.bin
mv jdk1.6.0_45 jdk 1.6
sudo gedit /etc/profile
加入以下Java的配置信息
export JAVA_HOME=/home/hadoop/jdk1.6
export JRE_HOME=/home/hadoop/jdk1.6/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
保存profile文件
在hadoop下运行 source /etc/profile
输入java -version检查java是否配置成功。
在 /etc/environment 中配置:
代码语言:javascript复制sudo vim /etc/environment
PATH=“/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games: /home/hadoop/jdk1.6/bin”
SSH的配置
输入命令: sudo apt-get install ssh
代码语言:javascript复制ssh localhost
然后按提示输入密码hadoop
,这样就登陆到本机了。但这样的登陆是需要密码的,需要配置成无密码登陆。
先退出刚才的ssh,然后生成ssh证书:
代码语言:javascript复制exit # 退出 ssh localhost
cd ~/.ssh # 如果没有该目录,先执行一次ssh localhost
ssh-keygen -t rsa # 一直按回车就可以
cp id_rsa.pub authorized_keys
安装Hadoop 2.5.2
下载后,解压到/usr/local/中。
代码语言:javascript复制sudo tar -zxvf ~/Downloads/hadoop-2.5.2.tar.gz -C /usr/local # 解压到/usr/local中
sudo mv /usr/local/hadoop-2.5.2/ /usr/local/hadoop # 将文件名改为hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop # 修改文件权限
Hadoop解压后即可使用。输入如下命令Hadoop检查是否可用,成功则会显示命令行的用法:
代码语言:javascript复制/usr/local/hadoop/bin/hadoop
Hadoop单机配置
Hadoop默认配置是以非分布式模式运行,即单Java进程,方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件,统计符合正则表达式dfs[a-z.]
的单词的出现次数。
cd /usr/local/hadoop
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.] '
cat ./output/*
执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词dfsadmin出现了1次
Hadoop单机WordCount输出结果
再次运行会提示出错,需要将./output
删除。
rm -R ./output
Hadoop伪分布式配置
Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行,节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml
和etc/hadoop/hdfs-site.xml
。Hadoop的配置文件是xml格式,声明property的name和value。
修改配置文件etc/hadoop/core-site.xml
,将
<configuration>
</configuration>
修改为下面配置:
代码语言:javascript复制<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
修改配置文件etc/hadoop/hdfs-site.xml
为
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
关于配置的一点说明:上面只要配置 fs.defaultFS 和 dfs.replication 就可以运行,不过有个说法是如没有配置 hadoop.tmp.dir 参数,此时 Hadoop 默认的使用的临时目录为 /tmp/hadoo-hadoop,而这个目录在每次重启后都会被干掉,必须重新执行 format 才行(未验证),所以伪分布式配置中最好还是设置一下。此外也需要显式指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否则下一步可能会出错。
配置完成后,首先初始化文件系统 HDFS:
代码语言:javascript复制bin/hdfs namenode -format
成功的话,最后的提示如下,Exitting with status 0
表示成功,Exitting with status 1:
则是出错。若出错,可试着加上 sudo, 既 sudo bin/hdfs namenode -format
试试看。
初始化HDFS文件系统
接着开启NaneNode
和DataNode
守护进程。
sbin/start-dfs.sh
若出现下面SSH的提示,输入yes即可。
启动Hadoop时的SSH提示
有可能会出现如下很多的warn提示,下面的步骤中也会出现,特别是native-hadoop library
这个提示,可以忽略,并不会影响hadoop的功能。想解决这些提示可以看后面的附加教程(最好还是解决下,不困难,省得看这么多无用提示)。
启动Hadoop时的warn提示
成功启动后,可以通过命令jps
看到启动了如下进程NameNode
、DataNode
和SecondaryNameNode
。
通过查看启动日志分析启动失败原因
有时Hadoop无法正确启动,如 NameNode 进程没有顺利启动,这时可以查看启动日志来排查原因,不过新手可能需要注意几点:
- 启动时会提示形如 “Master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.out”,其中 Master 对应你的机器名,但其实启动日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.log 中,所以应该查看这个 .log 的文件;
- 每一次的启动日志都是追加在日志文件之后,所以得拉到最后面看,这个看下记录的时间就知道了。
- 一般出错的提示在最后面,也就是写着 Fatal、Error 或者 Java Exception 的地方。
通过jps查看启动的Hadoop进程
此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。
Hadoop的Web界面
Hadoop伪分布式实例-WordCount
首先创建所需的几个目录
代码语言:javascript复制bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/hadoop
接着将etc/hadoop
中的文件作为输入文件复制到分布式文件系统中,即将/usr/local/hadoop/etc/hadoop
复制到分布式文件系统中的/user/hadoop/input
中。上一步创建的 /user/hadoop 相当于 HDFS 中的用户当前目录,可以看到复制文件时无需指定绝对目录,下面的命令的目标路径就是 /user/hadoop/input:
bin/hdfs dfs -put etc/hadoop input
运行MapReduce作业,执行成功的话跟单机模式相同,输出作业信息。
代码语言:javascript复制bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.] '
查看运行结果
代码语言:javascript复制bin/hdfs dfs -cat output/*
也可以将运行结果取回到本地。
代码语言:javascript复制rm -R ./output
bin/hdfs dfs -get output output
cat ./output/*
结果如下,注意到跟单机模式中用的不是相同的数据,所以运行结果不同(换成原来的数据,结果是一致的)。
Hadoop伪分布式运行WordCout结果
可以看到,使用bin/hdfs dfs -命令
可操作分布式文件系统, 如
bin/hdfs dfs -ls /user/hadoop # 查看`/user/hadoop`中的文件
bin/hdfs dfs -rm -R /user/hadoop/input/* # 删除 input 中的文件
bin/hdfs dfs -rm -R /user/hadoop/output # 删除 output 文件夹
运行程序时,输出目录需不存在
运行 Hadoop 程序时,结果的输出目录(如output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。建议在程序中加上如下代码进行删除,避免繁琐的命令行操作:
代码语言:javascript复制Configuration conf = new Configuration();
Job job = new Job(conf);
...
/* 删除输出目录 */
Path outputPath = new Path(args[1]);
outputPath.getFileSystem(conf).delete(outputPath, true);
...
结束Hadoop进程,则运行
代码语言:javascript复制sbin/stop-dfs.sh
注意
下次再启动hadoop,无需进行HDFS的初始化,只需要运行 sbin/stop-dfs.sh
就可以!